个性化自动文摘的研究与实现

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:tlswedu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的普及与发展,网络已成为一个巨大的信息源。大量的数字信息在带给人们丰富便利的信息资源的同时,也给有效信息的快速获取带来了困难。自动文摘技术是自然语言处理领域的一个课题,它利用计算机自动地对文章进行处理,生成基本反映文章主题的摘要。利用自动文摘技术,人们可以减少寻找信息的时间。介绍了自动文摘技术中两个关键问题的研究。一个是文本的意义段划分问题,意义段划分是自动文摘技术研究的一个重要内容,它将文章中所讨论的不同主题划分开来,每个主题为一个意义段。在总结前人工作的基础上,从意义段划分的目的和相关的理论出发,针对传统的基于词语的TextTiling算法中信息量不足的问题,对词语进行基于HowNet的概念扩展,通过概念进行紧凑度计算。实验结果表明,基于概念扩展的TextTiling算法,在意义段划分的准确性和主题识别率上都有较大的提高。另一个是自动文摘技术中的句子计算问题,针对传统的基于词语统计的句子计算方法中缺乏语义分析的问题和基于文本结构分析的句子衡量方法中语法分析不够准确的问题,结合两种方法的思想,对词语进行基于规则的组块划分,以组块为基本单元对句子进行处理和计算。实验结果表明,基于组块的句子计算方法能够较好的提高文摘质量。最后介绍了基于用户兴趣的个性化自动文摘系统,给出了系统流程图和计算方法,通过用户对文章子主题的感兴趣程度对文摘句进行处理。实验结果表明,个性化自动文摘能够较好的满足人们的需要。
其他文献
多值逻辑是计算机科学中的一个重要分支。随着计算机科学与技术的不断进步,多值逻辑得到了前所未有的发展,其研究主要包括理论、电路与系统、应用三个方面的内容。多值逻辑函
随着计算机网络及通讯技术的迅速发展,利用网络实现各种电子活动的信息化,数字化,无纸化和国际化,已经成为众多中小企业的共识。为了进行方便、快捷、高效的B2B网上交易活动,越来
本文为了提高过滤模块性能,研究了垃圾邮件过滤系统所需的各种技术,包括中文分词技术、中文分词词典机制、自动文本分类技术等。通过对各种分词技术进行比较分析,本系统采用支持
本课题主要的研究目的是利用“奥运多语言智能信息服务系统关键技术及示范系统研究”和“欧盟面向电子政务的语音人机交互技术研究”的前期研究成果,同时集成语音识别、语音合
TES(Transform-Expand-Sampie)--传输扩展采样过程在对宽带网络中的视频及其它多媒体通信方式进行建模的过程中占有极其重要的地位。这种过程拥有一般边缘分布和宽范围的自相
本文针对异构数据库系统数据时间同步所提出的新问题,详细介绍了异构数据库系统数据时间同步的特点、要求,分析和研究了现行互联网上常用的时间同步算法; 根据异构数据库系统
本文是在贵州电信ODS系统平台工程的基础上完成的,根据本工程以及其他系统的实施经验,决定ODS成败的关键技术要素有三点:数据模型、数据质量控制、元数据管理。本文结合贵州电信
随着我国经济建设的快速发展,国内外大中型枢纽机场的航班流量增长迅速,进而导致民航领域各单位面临的压力与日俱增,航班延误现象频繁发生。为此,本文通过开发航班协同运行管
近年来,随着计算机技术和互联网技术的迅速发展,远程教育和网上考试成为网络应用的一个重要方面。当国外一些国家已经获得快速发展的同时,在国内,网上考试还处于一个试用阶段。虽
随着高性能计算技术和计算流体力学的发展,数值模拟已经成为粘弹流领域与实验同等重要的研究方法,并广泛应用于物理、化学、生命科学、材料以及生物医药等领域。然而,开发面