PLS:一种基于信息自动标引的最小推进分词算法及其实现

来源 :第十九届全国数据库学术会议 | 被引量 : 0次 | 上传用户:physicalboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动标引是文本信息预处理的基础和核心,摘要信息的自动标引仍是目前研究的热点.本文对自动标引的研究立足于档案文献这一专门领域.本文首次将基于词首最长匹配的词典分词法,结合基于段句分割符表及停用词表的切分标记分词法,运用于档案文献的摘要自动标引,提出并实现了"正向扫描(POSITIVESCANNER)+最大匹配(LONGEST_WORDMATCH)+最小推进(SHORTEST_WORDPUSH)"(简称PLS)的分词优化算法,最后设计了一个通用的档案信息标引系统.
其他文献
水库调度系统主要基于对历史资料的整理和分析,通过实时气象、水文、水库运行信息的自动采集,利用数据库管理和分析技术,进行在线气象预报、水文预报、防洪及兴利的优化调度.
本文对降低阿拉山口口岸收费价格与提高过货量的辩证关系进行了研究。文章认为,降低阿拉山口口岸收费价格与提高过货量之间的辩证关系是既相互制约、又相互促进;既相互对立、又
本文从市场角度分析了WTO对中国通信市场的影响,较详细地分析了中国进入WTO的政策、市场竞争、市场前景以及需要解决的问题,并提出中国通信业的若干对策.
在牡丹江水力发电总厂水情自动测报系统实用化软件开发中对通常水文预报和水文自动测报系统中应用软件的六个方面通用性进行了研究,使软件能够不作任何代码的修改便可适用于
本文对"信息"的概念作了新的定义,并以适配处理为基础,对信息的结构、体系、价值进行了分析论述,提出了一种能够自由定义信息结构的双向交换适配处理系统的设计、一种能够定
会议
本文从"网厂分开,竟价上网"商业化运行的角度提出了黄龙滩水电厂的水库调度和机组运行方式,并论述了其实现的可行性,这对于挖掘电厂现有潜力,提高电厂经济效益具有重要意义.
Oracle数据库以其功能强大、性能卓越在当今大型数据库管理系统中占据举足轻重的地位.许多单位和部门都选用Oracle作为其数据库服务器,但对于一些特殊部门如:部队、银行及电
文章将介绍一种利用现有PKI技术的电子商务/电子政务数据传输安全的解决方案—基于PKI的安全信息处理组件系统。它的应用背景是上海CA中心的“安全网闸”项目。
本文依据单向签名的思想构造了一类具有消息恢复的单向签名算法,适用于对验证者身份有特定要求的场合,能够防止常见的伪造和攻击.该算法中存在宽带闽下信道,可以用来实现签名者
本系统采用数据挖掘的技术,通过挖掘数据仓库中的历史数据中的“知识”生成有用模式来帮助检测入侵,不仅能向系统的模式库添加新的入侵模式,也能改进原有的入侵模式.不仅可以检