【摘 要】
:
在互联网快速发展的现代社会,作为人类社会生产生活中最重要的信息载体之一,网络中蕴含着大量有价值的地理位置信息。而这些信息大都以网络文本的形式存在,因此,如何从网络文
论文部分内容阅读
在互联网快速发展的现代社会,作为人类社会生产生活中最重要的信息载体之一,网络中蕴含着大量有价值的地理位置信息。而这些信息大都以网络文本的形式存在,因此,如何从网络文本中提取非结构化的地理位置信息就成了最主要的问题。中文地名的识别是面向中文数字文本的地理空间实体的提取。由于中文地名用字往往构词能力很强,且特征多样,很难从文本中准确定位到地名的位置和边界。对此,本文深入的分析了中文地名的特征,并将地名识别问题转换为序列标注问题,训练条件随机场模型对地名进行识别,同时提出一种针对复杂地名识别的算法,并结合规则对CRF结果进行修正和补召。本文的主要贡献如下:(1)针对目前现有模型对复杂地名的识别精度不高的事实,通过深入分析复杂地名的特点,设计了一种基于信息熵和点互信息的复杂地名识别算法,该算法利用地名数据库生成关联性词典,并基于该词典对文本相邻用字之间的关联性进行计算,从而确定复杂地名与上下文的边界,最终实现复杂地名的识别。(2)提出了一种基于规则的探测窗口地名识别方法。现有的研究中,与条件随机场模型结合的规则方法主要作为对前者识别结果的补充手段,起到修正、排歧以及补召的作用。但由于其直接作用于上层的识别结果,对于原始文本中隐藏的其他未被识别出的地名没有补召能力,因此作用有限。而对于单纯基于规则的地名识别方法,其在识别过程中,需要对句子进行轮询式的规则集合套用,效率非常的低下。而本文方法针对上述两个缺点进行了改进,将规则识别方法直接作用于原文,并且使用地名特征词对原文中的疑似地名位置进行粗略的定位,再结合探测窗口和规则集合进一步确认或排除。从实际结果看,该方法能够将现有的规则集合高效的利用于地名识别,能够更好的与CRF模型配合,提高补召效果。(3)通过爬取权威网站NGAC的地质文章标题数据,结合《现代汉语语料库加工规范》制作了复杂地名语料库,为复杂地名的识别提供训练和验证的可靠语料。
其他文献
近年来,电子元件随着科技发展和市场需求不断向片式化、小型化、多功能化等趋势发展,介电材料性能领域获得了社会的广泛关注。由于介电材料的广泛应用,有关于介电材料的介电
果蔬采摘机器人是实现果蔬自动化采摘的重要手段,是当前农业机器人研究领域的热点。实现果蔬采摘机器人的夜间作业,可延长果蔬采摘机器人的工作时间,提高工作效率。果蔬采摘
在建筑节能和绿色发展理念的背景下,近年来农村建筑节能成为我国社会关注的热点问题。改善农村住宅的居住环境,提高舒适性的同时提高能源的使用效率、减少能耗成为当今农村建设的一项重点任务。湖北十堰地区位于夏热冬冷地区与寒冷地区的交界地带,冬季寒冷夏季炎热,农村住宅进行冬季采暖、夏季制冷的需求都较强,带来了大量能源消耗和经济负担。为了解决当地农宅能耗过大的问题,为当地建设节能农宅乃至低能耗农宅提供设计策略和
采用BC-1054黑碳仪对石家庄市监测点黑碳气溶胶(BC)质量浓度进行2年的连续监测,分析BC时间变化特征、模拟其空间分布、探寻影响因素,解析污染来源。研究结果显示:2018年8月~2020年8月BC日均质量浓度为3.36μg·m-3,BC质量浓度在24 h内呈现“双峰单谷”趋势,峰值出现在早晚高峰时段;季节上呈现“冬高夏低”现象,质量浓度以1月份为中心逐渐向两端递减,正值年末及取暖季节,人为原因
随着人们生活质量的提高,人们逐渐认识到理财的重要性,越来越多的人不再传统的将钱存入银行机构,而是去购买基金,股票等理财产品。截至2017年末,国内基金的规模已经超过10万
分子印迹聚合物凭借其高选择性、高灵敏性、高稳定性、合成方法简单等优势,一直广泛用于分子识别领域。无金属可见光诱导的原子转移自由基聚合(metal-free visible-light induced atom transfer radical polymerization,MVL ATRP)是“活性”/可控聚合的新手段,能对聚合物的端基、组成、结构、分子量等进行精确控制;同时,该方法克服了传统AT
金鸡纳生物碱和银杏内酯在临床和食品工业都有广泛的应用。金鸡纳树和银杏树仍是获得这些有效成分最经济的来源。因此,开发高选择性吸附剂,对于提高金鸡纳树生物碱和银杏内酯的分离效率、降低制备成本及提高天然产物利用率具有重要的意义。分子印迹技术是根据目标分子的结构来设计和合成能特异性识别和吸附目标分子的聚合物材料的技术,也是当前应用于分离和富集天然药效成分的一项新兴技术。本论文旨在开发对金鸡纳生物碱和银杏内
金属Sb作为钠离子电池负极具有高达660 m Ah g-1的理论比容量和适中的储钠电位(0.6 V vs.Na/Na+),显示出巨大的应用前景。然而,Sb电极在储存/释放钠过程中伴随巨大的体积膨胀和收缩,致使电极/电解质界面稳定性差和活性材料易粉化、脱落,因此其在反复循环过程中容量迅速衰减。为解决上述问题,本论文通过三维结构设计和表面改性两种方式制备Sb基电极,有效缓解了储存/释放钠过程中巨大的体
随着现代化电子信息技术的飞速发展,电子芯片的集成化程度也越来越高,单位面积集成电路上散发出来的热量不断增加,因此对电子器件的散热有了更高更苛刻的要求。金属基复合材
为了精确控制青海盐湖结晶器工艺流程,有效建立相关控制系统模型,研发测量波美度模型的BP神经网络。研究可全局收敛快速学习算法,以满足系统的实时控制与良好性能的需要;通过