面向工业互联网资讯的中文关键词抽取

来源 :现代计算机 | 被引量 : 0次 | 上传用户:YU168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了获取工业互联网领域中文资讯的关键词,提出一种基于特征的中文关键词抽取算法。该算法主要从分词、候选词选取和特征选取三个方面做改进。首先,在分词阶段,通过从大量工业互联网资讯中抽取的特定词语和利用搜狗输入法的领域词库的词典创建了两个用户自定义词典,解决工业互联网领域文本中存在大量未登录词的问题,提高分词的准确率,进而提高关键词抽取的准确率;然后通过实验仿真选取合适数量的候选词,提高算法的效果和效率;其次,在特征的选择方面不仅考虑词频类、位置类和长度类等特征,还考虑了语义方面的特征,共选取6大类21种特征。
其他文献
<正> 陶本藻,祖籍浙江绍兴,1935年2月生、1954年毕业于南京工学院土木工程系,随即留校任教。1956年随南京工学院测量专修科调整到武汉测量制图学院任教。历任该校讲师、副教
本文以“生长素的生理作用”为例,通过对教材的重构,运用不同的概念教学策略组合,引导学生掌握相关概念,主要利用情境教学策略、数学模型策略和合作探究策略,突破“生长素两
2016年第一季度,全国手机用户的实名登记比例已达93%,包括虚拟运营商在内的电信企业通过多重措施进行手机实名制的落实,相信电话用户全部完成实名登记已指日可待。
在新一轮的课程改革中,核心素养理论成了关注的焦点,基于当前核心素养理论对英语高考有较强的指导意义,对高中英语阅读教学活动有重要的实践意义,本文将围绕如何培养高中学生
日前工信部对号称"黄金频段"的800MHz、900MHz频段资源进行了分配,中国电信和中国联通将取得该频段的使用权。将优质频段应用于LTE-DD 4G制式之上,对无线网络的规划建设而言必