论文部分内容阅读
报刊在我国具有悠久的历史,产生于唐代时期,直到现在仍然是信息传播的重要途径。在各个时期都为人们提供了大量的,及时的新闻,帮助人们了解世界,洞悉重大事件的发展变化,给人们带来了丰富的实用和娱乐信息。然而随着计算机技术的发展,人们对报刊所承载的信息及其传播形式的要求也越来越高了。
拥有五千年文明史的中华民族,创造了灿烂的文化,而这些见证了人类不断进步的历史需要现代人传承下去。古籍文章就成了不可或缺的文化传递工具。可是随着时间的推移和不同时期发生的历史事件,如战争等都给古文的保护和利用带来了损毁。
本文利用现代科学技术对报刊和古籍进行数字化后建立全文检索系统即点通全文检索系统,该系统的功能是实现对使用简体汉字书写的报刊和使用繁体汉字书学的古籍文章进行全文检索。系统建成后能够更好的保护这些珍贵的文献资料,使他们能被更有效的利用,使其为人类的发展贡献更大的力量。
本文的工作主要有两大部分。第一:设计并实现点通简体汉字报刊全文检索子系统,在该部分中提出了一种新的联合倒排索引结构,即以汉语分词为基础的单字符倒排索引结构;并设计了联合索引全文检索算法。第二:设计并实现了点通繁体汉字古籍全文检索子系统,在该部分工作中提出了一种新的古籍全文检索数据形式;并设计了螺旋递进全文检索算法实现古籍全文检索。