基于主题的文本数据采集系统的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:lawyerhw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,竞争情报分析系统得到了飞速的发展。对于一个企业来说只有建立独立的竞争情报分析系统,才能增强自身的竞争能力。能否快速准确地采集用户需要的数据信息已经成为该系统必须解决的首要问题。于是基于主题的数据采集成为研究的热点。本文以基于主题的文本数据采集系统的设计和实现为研究课题,重点研究了基于同一主题的多文档关键词抽取术和文档的相似度计算方法。在基于主题的文本数据采集系统中,首先由用户提供反映某一主题的相关文档集合,系统从中抽取出能代表主题的关键词,并将主题关键词送入网络爬虫中,利用这些关键词对网页上的链接进行初步过滤。然后从过滤后的网页上抽取的正文文本,系统通过计算文档相似度的方法,过滤掉与主题无关的文档。系统最终将得到大量与主题相关的结构化文档。在基于同一主题的多文档关键词抽取中,本文用四种方法实现了基于统计的关键词抽取。在实验中发现抽取的关键词的正确率并不是很高。经过对结果的分析,发现抽取的关键词中出现了很多高频词。为此,本文在国家863分类评测语料上统计了关键词的文档频数。当关键词文档频数大于一定的阈值时,将其直接过滤掉;否则,利用统计值对获得的关键词的权重进行修正。实验证明,这种改进取得了很好的效果。文档相似度计算中,最常用的文本表示方法是基于TF-IDF权重的向量空间模型。在文本表示中,主题关键词应该被赋予更高的权重。本文提出将文档映射到由主题关键词组成的主题向量空间中,然后计算文本相似度。通过实验发现系统的性能有所下降。性能下降的主要原因是主题关键词抽取的正确率和召回率太低。基于以上分析,本文又提出了利用主题关键词抽取过程中的权重乘以其在文档向量中的权重,对文本向量进行修改,然后进行相似度计算。实验表明系统的性能有明显提高。前三种计算方法都是基于文档特征词之间的绝对匹配,但是很多词语之间存在同义匹配或近义匹配等关系,这些关系对于文档相似度计算有很重要的作用。为此,本文提出了一种基于知网词语语义相似度的文本相似度计算方法。实验表明系统性能有了明显的提高。
其他文献
视频压缩技术是计算机处理视频信息的前提,对普通计算机用户来说,原始视频数据量大,需要很大的存储空间和很强的计算能力,应用代价太大,因而在处理、传输之前需要压缩。视频
在因特网的飞速发展、多媒体技术的成熟以及社会信息化的发展过程中产生了越来越多的群组应用,如股票信息分发、视频会议、协作计算系统、付费电视、网络游戏、分布式仿真以
随着Android移动终端的普及,Android操作系统已经成为了越来越多的恶意软件攻击的目标。然而不同恶意软件的威胁是不相同的,例如窃取用户银行账户的应用的威胁性要远大于读取
AdHoc网络是一种没有基础设施支持的移动无线网络,具有自组织、无中心、可快速部署、动态拓扑和多跳等特点。这些特点使它可以广泛地应用于军事战备、救灾工作、环境监测等,
人脸识别系统以其方便、非侵入的特点受到军事、商业、安全、信息等应用领域的青睐。经过30多年的发展,自动人脸识别技术取得了长足的进步。但是,单幅人脸图象直接比对是许多
随着计算机网络规模的不断扩大,结构的日益复杂以及功能的愈来愈强,计算机网络管理就显得越来越重要,一个完善的网络管理系统也就成为计算机网络能够可靠而稳定运行的保证。
电子商务的快速发展使得网络购物成为一种时尚,越来越多的用户开始通过互联网了解、购买产品并且发表评论。产品评论是一类蕴含着丰富商业价值的数据,潜在消费者可以通过产品
AVS (Audio Video coding Standard)是我国制定的具有自主知识产权的数字音视频标准,2006年正式成为中国音视频领域的国家标准。AVS标准具有编码效率高、实现复杂度低、专利
随着城市化进程的加快,社会经济的不断发展,公路交通系统的压力不断加大。基于计算机视觉技术的智能交通系统的重要性日益显著。其核心的技术是对摄像机拍摄的图像序列进行分
移动Ad Hoc网络不需要固定的基础设施支撑,能够在任何时间、任何地点快速组建起一个移动通信网络。移动Ad Hoc网络灵活多变,具有十分广泛的应用前景,主要应用于抢险、救灾、