多语种Web新闻语料抓取的通用模型研究

来源 :洛阳理工学院学报:自然科学版 | 被引量 : 0次 | 上传用户:yuekinger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web语料是外语语料库的重要组成部分,语料抓取系统要适用于不同语种、不同结构的网站。文中介绍了针对内容管理型新闻网站设计的语料抓取软件模型,模型根据新闻网站中标题页和内容页的模版特点,采用正则表达式和动态字符串方法定义信息抓取路径和信息块抓取规则,并通过对抓取路径的去噪和去重过滤,保证每次Web访问均能抓取有效数据。基于该模型的语料抓取工具NPCrawler在C#和SQL Server2005环境下实现,通过在不同结构的多个语种的网站中实际应用证明,Web新闻语料抓取结果命中率和准确率接近1 00%,且抓
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
当归种苗繁殖技术张廷红郭永杰(甘肃省农科院旱农所兰州730070)中图资料分类号S567.2当归是高寒阴湿区特有的药用植物,在康乐县八松乡有着多年的种植历史。1991年之前,药农栽种的1年生种苗,有近90%是从
目的:对1例重症溃疡性结肠炎患者的用药进行分析,为重症溃疡型结肠炎患者药物的合理使用提供药学服务和技术支持。方法:在1例重症溃疡性结肠炎患者的治疗过程中,临床药师结合
提高电能质量,减少电能损失是供电企业永恒追求的目标。文章阐述了线损相关定义及加强减少线损条件下输配电技术管理创新的重大意义,分析了产生线损的主要原因及危害,电力系统线
党的十九大把习近平新时代中国特色社会主义思想确立为中国共产党必须长期坚持的指导思想。结合CiteSpace软件对“习近平新时代中国特色社会主义思想”研究领域的发文数量、
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
2012年,胶卷生产商柯达申请破产,在很多人心中,以柯达、富士为代表的传统胶片行业走向没落。可当富士胶片带着自己的影像产品、X射线诊断系统、超声图像诊断装置、生物医药、
果仁食品一般是指保持天然色、香、味、型或赋予某种风味的坚果及其果仁所制成的食品.传统的果仁食品主要有炒花生果、五香花生仁、花生粘、炒榛子、炒葵花子、五香瓜子、黑
随着计算机的普及和网络规模的不断扩大,数字化信息爆炸式的增长。信息的产生、传播、搜集与查询成为当今世界人类最基本生活需求。如何在浩瀚的数据信息中,为用户更快、更准
广东梅州客家传统饮食的历史文化底蕴深厚,在近代历史上,木薯一度成为客家人的主要粮食作物,帮助客家人摆脱饥荒。而今木薯逐步与梅州客家饮食文化相融合,形成了独具客家特色