论文部分内容阅读
随着社会的发展,互联网信息呈现爆炸式的增长,通过观察网民提交的文本发现,大多数网站特别是新闻和政府的网站,文本信息都具有结构化的特点,通常包含标题文本和正文文本。正文通常是对事件详细的描述,包含的语义信息比较丰富,同时具有主题多样性,噪声巨大。标题通常是对事件的精炼简洁的概述,表达信息准确,语义清晰,所以充分利用标题信息就变得十分有意义。本文充分利用标题的特点,提出了基于标题和正文的主题模型应用于文本分类研究。由于标题的特殊性,语句简短,句法简单,所以本文基于规则和句法依存关系可以有效的提取标题中的评价对象。本文主要工作如下:(1)本文利用一篇文档具有标题和正文两部分的特点,提出了基于标题和正文的主题模型,该模型可以获得文档正文的主题分布和标题的主题分布,使用调节参数,优化整篇文档的主题分布。充分利用标题具有精炼简洁、主题明确的优点,可以有效的降低正文部分语义繁杂、主题多样性对文本分类的影响,从而获得整篇文档最优的主题分布,通过最佳的主题分布,可以提高文本分类的准确性。(2)由于标题精炼简洁,主题明确,因此采用句法依存关系获取标题中的评价对象。本文基于规则和词性标注获取标题中潜在的评价对象,因为本文标题语料的特殊性,潜在的评价对象和动词具有很强的依赖关系,所以本文构建动词词典库,通过动词出现在句法分析树的位置,遍历整个句法分析树,可以从潜在的评价对象中找到标题中真实的评价对象。(3)由于本文的语料是来自某城市的政府直通车网站,解决当地城市居民所面临的问题,所以文本中出现了大量的当地特有的命名实体,为了解决这些特有的词汇对文本分词和句法依存关系的影响,本文加入了大量的当地特有的小区名,道路名,公交地铁名等名词作为用户词典,由于分词具有较好的准确性,所以在文本分类和评价对象的抽取的任务中都获得了不错的效果。