论文部分内容阅读
科技论文的结构可以通过文中的小标题进行分析,但小标题的种类繁多、格式多样,给计算机的识别带来一定的困难。本文在识别有数字标号的标题时,对单纯的数字识别法进行了改进,并提出一种基于特征词的识别法,用于识别没有数字标号的标题。在此基础之上,构建了一个标题识别系统。实验结果表明,该系统能以较高的召回率和正确率有效地识别小标题。