网络信息采集技术及中文未登录词算法研究

来源 :北京邮电大学 | 被引量 : 7次 | 上传用户:markhero
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的蓬勃发展,网络信息呈现出爆炸式增长,互联网成为一个巨大的信息宝库,如何准确快速地处理网络信息成为目前的研究热点之一。网络信息处理的基础首先是信息采集,即从互联网不同的信息源中获取各种数据。网络现已成为信息制造及传播的主要媒体。网络中不断出现的网络新词又称为未登录词,及时准确的发现未登录词也是网络信息处理的关键问题和重要研究内容。通过识别未登录词,可以更加准确地进行文本信息处理。为此,论文一方面致力于研究针对互联网各种信息媒体的采集及精确信息抽取技术,主要包括针对论坛,新闻,博客,微博,局域网内部全网的信息采集技术。另一方面,论文针对互联网新词的识别技术进行研究,提出了有效的识别算法。论文的主要研究工作包括:1.设计并实现针对网络论坛、新闻门户网站及博客的高效的信息采集方法及数据结构化方法。这些方法可以实现对论坛主贴、回复信息、网络新闻、博客内容的信息自动抓取,将其按照中文习惯对采集的信息进行结构化存储。2.设计并实现针对新型媒体——微博数据的采集方法,该方法可以实现对多个微博网站关于指定话题的微博数据的自动抓取。3.设计并实现通用全网爬虫程序,实现对指定局域网内部所有网站自动发现及抓取,并在一定程度上实现了数据的结构化抽取。4.对未登录词识别技术进行研究,借鉴图论中极大团挖掘概念,提出一种针对网络新词的基于极大团的识别算法,可以有效的识别网络中出现的新词。目前,论文所述的各种采集方法都已经应用到不同项目的爬虫系统中,取得了可喜的效果。但有些技术细节的处理比较简单,例如爬虫精确采集过程主要采用了基于规则的信息抽取技术,虽然准确率很高,但是需要大量人力去制定规则,而且如果论坛结构稍微改变,则规则必须重新制定。对此,还希望继续展开深入研究,使采集的效率和易用性等更强。
其他文献
无线传感器网络(WSN)作为一门全新的信息技术已经备受世界各国研究学者重视,它综合了传感器技术、网络处理技术和信息通信技术,是各门新兴学科和传统学科相融合的产物。无线传感
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
超声波马达,又称超声波电机(Ultrasonic Motor,简称USM)采用在超声波范围内的机械振动作为驱动源,是一种新型的转动驱动器,由于它所表现出来的各种优良特性,如体积小,可以进行静音操作,较好的电磁两立性,低转速时仍然能保持较高扭矩等,被广泛应用与工业以及医疗设备中。但在实际应用中,由于USM的特殊驱动方式,使我们很难得到关于它的较精确的数学模型,同时由于USM的输入与输出的高度非线性,
为研究珠三角某城市生活垃圾焚烧厂周边汞污染空间格局及影响因素,于2014年1月,采集了马占相思、荔枝和芒萁等优势种的叶片样品192份,并同步采集相应表层土壤样品64份,采用冷
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
如今,氧化铁磁性纳米颗粒作为一种很有发展潜力的纳米材料,在生物医学领域有着很大的应用前景,如磁分离和纯化、磁转染、磁共振成像、肿瘤热疗、药物释放和组织修复等。由于
以太无源光网络(EPON)作为IP的最佳载体以其带宽资源丰富、成本低、易于扩展和维护等优点,已成为解决接入网“最后一公里”的最佳方案。EPON系统中上行方向采用TDM方式使多个O
水下无人平台在国家海洋技术发展规划中,尤其是军事国防领域占有举足轻重的地位。自主被动探测系统是水下无人平台完成使命和任务的重要保障,因此研究基于水下无人平台的自主
本刊讯9月26日,河南省国土资源厅举办离退休干部“九九重阳”书法绘画摄影展。这次由厅机关党委、老干部处主办的展览共收录作品302幅,经专家认真评选,分别评出书法、绘画、
3GPP长期演进(LTE)系统中,相邻小区可以使用相同的无线资源,带来了严重的小区间干扰。为了有效抑制小区间干扰,3GPP提出在LTE-Advanced系统中引入协作多点传输/接收(CoMP)技