垂直搜索引擎关键技术的研究与实现

被引量 : 2次 | 上传用户:ylws09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,通用搜索引擎技术已经取得了长足的发展,其应用也非常广泛。但是,通用搜索引擎无法满足一些特定互联网用户的专业性搜索需求。尤其对于企业用户,他们将领域数据作为经营和分析的基础,对于领域数据有着更专业与全面的要求。为了解决这个问题,垂直搜索技术应运而生,并成为了业界研究的热点。垂直搜索引擎是针对某一个行业的专业搜索引擎。它通过主题判定和定向的结构化数据抽取来向用户返回具体的领域数据搜索结果。垂直搜索引擎能够彻底避免通用搜索引擎的噪音数据量大、查询不准确、查询深度不够等问题,因此得到了更多企业用户的关注。本文旨在针对垂直搜索引擎中的两项关键技术,主题判定和结构化数据抽取展开研究,并实现相关技术。含有丰富结构化数据的Web页面主题判定是垂直搜索引擎的核心,是结构化数据抽取的前提,具有重要的学术价值,工程应用也非常广泛。本文针对含有丰富结构化数据的Web页面,提出了复用结构化数据抽取模板来进行Web页面主题识别的分类框架。本文提出的方法避免了主题爬虫对URL格式严重依赖的问题,分类准确率也高于传统的文本分类方法。论文通过实验证明了框架在含有丰富结构化数据的Web页面分类方面的有效性。考虑到企业用户希望从垂直搜索引擎中获得大众的情感倾向用以辅助企业决策,本文研究了中文短信息的主题识别问题,为以后的情感分析提供基础。本文以短信息新闻与中文短信息的相似性为理论基础,提出基于5W (When, Where, Who, What, hoW)模型的中文短信息主题识别算法5WTAG。5WTAG算法首先对中文短消息进行语句切分,然后针对各个子句抽取5W关键词并创建候选主题标签,最后使用统计和语义分析的方法计算候选主题标签的推荐度。本文使用采集于新浪微博的真实数据对5WTAG算法在候选主题标签语义正确性、推荐度计算方法正确性等方面进行了评价。最后,为了解决垂直搜索引擎中的结构化数据抽取问题,提出了Web页面的结构化数据自动抽取技术。该技术使用结构化数据抽取模板对含有丰富结构化数据的Web页面进行结构化数据抽取。为了实现自动化,本文对MDR算法进行了改进,提出了针对含有丰富结构化数据的Web页面的数据区域探测算法,并通过该算法实现抽取模板的自动化生成。实验验证了Web页面的结构化数据自动抽取技术的有效性和准确性。
其他文献
本文从阐释"体"和"时"的概念及其关系、"体"及"动词的体"的分类开始,主要对汉、法语完成体和瞬间体动词的过去进行体和持续体表述及其意义确定进行探讨性分析和对比研究,并对
作为新形势下我国拓展和深化外交战略布局的重要举措,"一带一路"战略带来的影响广泛而深远。目前,国内许多地区都积极行动起来,希望成为这项国家战略的参与者、推动者和分享
综述了线性低密度聚乙烯(LLDPE)的国内外生产和应用状况,重点调研了国内高透明LLDPE薄膜专用料的牌号发展现状,并调查了国内薄膜生产企业及其产能信息,分析了国内市场对LLDPE
<正> 一、对一个系统应用牛顿第二定律对系统应用牛顿第二定律,首先应确定系统的外力,并求出合力,再折合出Ma的矢量和,列出物理方程.或者把系统的合力投影到y轴和x轴上,求出y
管道运输作为最主要的石油运输方式,在国民经济中占有重要地位。输油管道发生泄漏不仅会造成重大的经济损失,还可能严重破坏人民的生活环境甚至威胁人身安全。及时发现输油管
宽带无线接入、传感器网络、雷达系统、电子对抗、卫星通信、仪器仪表及天文探测等正向着频率范围大、大带宽、高动态范围、地域广等方向发展,对毫米波器件的性能提出了新的
目的:研究磷酸化糖原合酶激酶-3β(P-GSK3β)和磷酸化Akt(P-Akt)蛋白在卵巢上皮癌中的表达情况及其与卵巢癌化疗原发耐药的关系。方法:应用MTT比色分析法检测卵巢癌细胞对紫杉醇(PTX
<正>一、课题研究的背景和意义听、说、读、写的能力培养向来都是语文教学的非常重要的内容。但经过这么多年的探讨,我们学生的这些基本能力到底提高了多少,这很难用数据来做
会议
目的:探讨脑膜癌伴颅内静脉窦血栓形成的临床表现及诊断。方法:回顾性分析一例脑膜癌伴颅内静脉窦血栓形成的病历资料并结合文献复习。设计:病例报告病例:患者中年女性,于入院前2
十一届三中全会以后,农村经济体制发生重大变革。在新的条件下,农村合作医疗制度能否适应新的形势值得研究。本文以嘉定的实际情况为依据,从经济基础、地位、作用、技术队伍