论文部分内容阅读
作为提升生物医学文献检索系统智能化水平的一种重要手段,基于生物医学文献相关性数据库的相关文献检索对于满足医疗卫生领域临床、教学和科研人员的知识需求有重要意义。中国医学科学院医学信息研究所近年来对中文生物医学文献相关性数据库的构建方法进行了大量的研究,但中文自动分词方法和文献相关性判定的时间复杂度两大问题,仍有待深入探讨。本研究针对中文自动分词问题,尝试引入一种基于重现原理的无词典分词方法,通过对分词结果的分析,初步证实了该分词方法在中文生物医学文献相关性数据库构建过程中应用的可行性;针对文献相关性判定时间复杂度问题,尝试提出“倒排-SIM法”,较明显提高了文献相关性判定的速度,为中文生物医学文献相关性数据库的应用实践做了技术上的铺垫。最后,通过相关准率、MAP和P@10三个指标的综合评判,表明本研究中基于无词典分词构建的文献相关性数据库在相关文献揭示的整体效果上,达到了和原来基于词典分词构建的中国生物医学工程文献相关性数据库相同的水平,证实了基于无词典分词构建中文生物医学文献相关性数据库的可行性。