基于Internet的中文文本过滤系统的研究与实践

来源 :兰州理工大学 | 被引量 : 0次 | 上传用户:airkey1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文简要介绍了文本过滤的背景,系统地探讨了文本过滤与文本检索及机器学习等领域的紧密联系,以一种典型的中文文本过滤逻辑模型为例,深入研究了实现中文文本过滤系统所涉及的各个方面的理论和技术,其中包括概念扩展,文本结构分析和特征抽取,潜在语义标注及自适应学习等技术。文章借鉴了其它文本过滤系统的优点,充分考虑了系统的召回率,查准率,运行效率及可实现性,给出了一种改进的中文文本过滤系统的体系结构,增加了类匹配模块和用户兴趣反馈模块。并详细阐述了一种混合式的中文文本过滤方法,给出了实现该系统主要模块的数学模型及其相关的算法。 利用Java技术对整个中文文本过滤系统的功能模块进行了尝试性的实践。在实践中,实现了自动构建反向词频库,改进了关键词权重计算方法,增加了主题句权重计算方法,调节了数学模型中的相关系数,还增加了其它传统的过滤引擎所没有的同义扩展及查询修正等功能,取得了一定的过滤效果。 最后,针对本系统在过滤的精确率上不太理想的特点,对本课题下一步要研究的内容进行了系统的总结,并提出了自己的一些看法。
其他文献
期刊
脂联素是近来发现的一种重要的脂肪细胞因子,在调节脂质和葡萄糖代谢方面扮演着重要角色。它可刺激脂肪酸氧化、抑制肝糖原异生和增强胰岛素敏感性。同时在慢性炎症病理调节
期刊
期刊
期刊