基于自编码器语义哈希的大规模文本预处理

来源 :计算机仿真 | 被引量 : 2次 | 上传用户:ppaann850729
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
展示了一种从大规模文本中学习文本索引的深层图形模型,深层图形模型采用自编码器作为基础结构。该图模型最终输出的值具有较强的解释性,并且比潜在语义索引更好地表示每个文档。当最深层使用少数二进制变量输出时(例如32位),图形模型将文档通过语义散列的方式映射到存储器对应的地址上,使得语义上相似的文档位于附近的地址处。然后可以通过访问所有仅相差几位的地址来找到类似于查询文本的文本。通过查询文件地址的方式,基于近似匹配方式的散列编码的效率比局部敏感散列快得多,通过使用语义哈希来过滤采用TF-IDF表示的文本,将
其他文献
动态用户网络连接干扰和安全认证问题始终是影响无线网络成功通信的重要因素,对于当前方法存在通信信号传输防干扰性能较差,以及无法实现动态用户网络连接安全认证的缺点,提出了基于分布式干扰对齐与TNC相结合的动态用户网络连接防干扰与安全认证方法,在建立网络连接通信信号传输模型基础上,采用分布式干扰对齐的方式确保动态用户在网络连接后能够实现无干扰通信,同时在网络接收节点通过简单的迫零接收消除来自网络内部的干
本文分析高校共青团育人服务机制发挥的作用,提出高校共青团工作育人服务机制的建立措施,在一定程度上推动高校共青团的建立,优化育人服务的效果。
通过对重庆服务外包企业调研数据的总结和分析,找出了重庆服务外包产业人才面临的问题,提出了重庆服务外包人才的构建模式。
近些年,我国医学事业取得非常大的成就。但是在医疗服务价格方面,很多地方调整机制不健全,这就要求有关部门及时制定价格动态调整机制,对医院的相关工作进行规范,让各部门的
经济全球化发展背景下的中外贸易活动日益密切,饲料产业作为我国传统产业中的支柱产业,在国际化发展趋势的推动下对专业英语人才的需求大大提升。专业英语口语跨文化交际能力