基于eMule文件名的英语词语聚类和相似度分析

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:KANTB
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
eMule已经成为世界上最大并且最可靠的点对点文档共享客户端软件。毫无疑问eMule在资源共享方面发挥了极大地作用,然而在这些浩如烟海的资源中如何快速准确的找到所需要的资源,已经成为当前eMule急需解决的问题。传统的基于文件名的关键字搜索已不能满足要求,有效的解决方法是目前比较流行的语义搜索,本文正是从这一角度出发来进行研究的。语义研究,特别是词汇语义研究,已经成为目前自然语言处理领域的热点和前沿课题。词汇语义分析目前有两种研究方法,一是基于大规模语料库,另一个是基于语义词典。但是基于eMule文件名的词汇语义分析目前还没有人研究,因此本论文是一个全新的研究课题。重点分析出现在eMule文件名中的英语词汇之间的语义特征。本论文主要完成了四部分工作,首先对研究课题做需求分析;接着修改eMule源代码,从服务器上抓取文件名;然后对文件名做切词和统计处理;最后对切出的英文词汇作聚类和相似度分析,并用Matlab做仿真实验。本论文主要采用两种方法对构成eMule文件名的词汇进行研究,一是采用聚类分析的方法,二是采用词语相似度分析的方法。前者主要采用K-means聚类算法对这些词汇进行分类研究,并且采用了相异度分析法和特征值分析法两种不同的方法,对这些词汇作了层层递进分析;后者则是采用两向量夹角余弦的方法,求出构成eMule文件名的词汇之间的相似度,并与从文本文件中得到的词语相似度作对比分析。通过对构成eMule文件名的词汇做聚类和相似度分析,发现了其中具有规律性的结论。从聚类分析的角度来看,构成eMule文件名的英文单词确实被聚成了不同的类别,而聚类选择的特征值是文件类型,它将构成文件名的英文单词做了很好的区分。从词语相似度分析的角度来看,基于eMule文件名的词语相似度确实与基于文本文件的词语相似度有很大不同。而二者之所以有很大的不同是由于计算相似度的方法不同,研究的对象也不同。不管是对这些词汇做聚类还是相似度分析,都是为了能够找到这些词汇在语义上的远近关系。这样有利于在用户输入搜索关键词之后,eMule搜索引擎能够找到与之相似的词汇,从而达到语义搜索的目的,提高搜索效率。
其他文献
IPv6相对于IPv4有着巨大的优点,势必在将来得到更广泛的应用。但由于目前网络上几乎都是IPv4设备,所以从IPv4过度到IPv6必定是一个渐进的过程。NATPT则是由此而产生的一种实现I
TETRA数字集群系统提供安全、可靠以及高效率的语音和数据通信,在全球许多国家得到了广泛的应用,在我国多个行业也使用TETRA数字集群系统。目前,我国所使用的TETRA数字集群设
电力线通信(PLC,Power Line Communication)是利用电力线作为通信媒质来传输数据信息和话音信号的一种通信方式。由于电力线通信具有组网容易和成本低廉等优点,因而具有很高
压缩传感理论是一种新颖的信号采集与处理的理论,该理论指出:对于稀疏或可压缩的信号,可以采取比Nyquist低得多的采样频率进行数据采样,通过使用恰当的恢复算法仍能准确的重构
随着网络业务量的爆炸性增长以及高性能的光网络设备(如光交叉连接器、光分插复用器等)的出现,波分复用(WDM)技术成为下一代骨干网络的核心技术。由于网络中存在多种类型的业务,
目前,射频识别技术(RFID)作为一种能够实现物品供应链操作,商品跟踪和存货控制的技术正广泛受到关注。随着射频识别技术在物体标识方面应用的成熟,人们正在致力于兴建一个全
在配电自动化中,实时数据库和实时性要求到处可见,而实时数据库一般通过数据库通信中间件来对外提供访问支持。为此数据库通信中间件需要具备一定的实时性。针对性的对数据库
在下一代无线通信技术中传统蜂窝用户能够在基站的协助下进行设备间(device-to-device,D2D)直接通信以实现用户间的视频共享。然而,考虑到用户终端设备能量短缺,D2D视频共享
中国古汉字记录了大量的政治、经济、历史等资料,具有很高的史料价值。古汉字具有笔划不规则、异体字繁多等特点,以碑刻和帛书等形式出现的古汉字,残损较为严重,上述特点使得古汉
面部特征点定位作为人脸研究分析中的重要前提,为后续人脸研究提供了相应的基础数据,可以广泛应用于人脸识别、表情识别及疲劳驾驶等领域。近年来,随着人们安全意识的提高,人