文本挖掘系统的可视化方法研究

来源 :2007年全国网络与信息安全技术研讨会 | 被引量 : 0次 | 上传用户:wowoni
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文介绍了作者在开发文本挖掘系统时,针对高维文本向量的可视化降维方法的研究情况。将文本挖掘系统获取的数百维的高维文本向量通过可视化降维算法转化为二维平面上便于人眼直接观察的点,有助于人们通过肉眼观察快速地判断感知大量文本在内容上的相似程度。该技术可以在一定程度上作为传统的文本浏览和搜索技术的有益扩充。本文简要介绍了该领域已经存在的几种典型方法,描述了作者通过分析实验并且结合实际系统的具体情况采用的有效算法,给出了几种方法在实验后得到的对比数据和效果图,指出了各种方法在不同方面的优劣对比。
其他文献
生物质制氢可从根本上保证能源的可持续发展。本文利用化学平衡模型,对农业废弃物麦秸/羧甲基纤维素钠(CMC)超临界水气化制氢的化学平衡进行了理论分析。结果表明在300℃~650℃、20MPa~35Mpa、2wt%~16wt%范围内,麦秸/CMC超临界水气化制氢的主要气体产物是H,CO和CH,反应温度越高越有利于制氢,但温度升高到一定值后,气体产物的平衡组分、高热值、气化效率和冷气效率均保持不变。物料
供冷参数的不同组合会导致置换通风与辐射冷板复合空调室内热湿环境及系统运行费用的不同,因此选取合适的送风和冷板组合供冷参数对复合空调系统的设计是十分重要的。本文针对采用复合空调系统的办公室的室内温、湿度及速度场进行了CFD仿真,揭示了送风温度、相对湿度及速度、冷板表面温度及冷板与天花板面积比等参数变化对室内热湿环境及流场分布的影响规律;给出了通风系统与冷顶板供冷量随各参数的变化情况。进行了5因素5水
本研究的目的是用数值模拟和实测的方法分析地板辐射供冷的热工性能。与全空气系统不同,地板供冷采用辐射和对流两种传热方式消除室内的冷负荷。本文对于采用地板辐射供冷的办公房间的室内热环境进行实测和数值模拟分析,通过实测结果和模拟结果的对比验证数值模拟的准确性,并且分析了室内人员的传热特性。为了避免结露问题,本研究中把地板冷表面的温度控制在室内空气的露点以上,在研究中只考虑显热的作用。当室内冷负荷相同时,
即时通讯、P2P等新型应用层协议数量增长较快,网络安全技术的发展,需要相应的应用层协议测试床。本研究开发了实时网络协议仿真器,采用PF RING Socket进行捕包降低丢包率,使其可以作为应用层协议测试床用。实现了对QQ协议的仿真,研究结果表明,对于主频为3.0G Hz的IntelP4个人计算机,仿真15,000个QQ客户端时,消息丢失率为0.019%,其内存占用低,仿真20,000个QQ客户端
当网络速度逐渐提高,网络威胁越来越多,对高速以太网的即时监控显得尤为必要。本文提出了可定制内存访问模型,以零拷贝方式为基础,将内核内存映射到用户区,并对网络数据包进行分类处理,极大地提高了效率。同时建立数学模型,并对数学模型进行理论计算和最优化设计,最后通过实验验证其效率。
目前,大多数安全邮件系统都采用公钥基础设施(PKI)或者基于身份的加密(IBE)机制来满足电子邮件的安全需要。然而,PKI和IBE机制都因各自自身的缺陷给邮件系统带来了使用不便和安全隐患问题。本文提出了一种新颖的安全邮件系统,该系统采用了基于指纹身份认证的安全邮件方案,具有很强的安全保密性能,解决了安全邮件系统在设计与实现当中遇到的诸多问题。
本文提出了一种基于多型号指纹采集设备的指纹交叉比对算法,解决来自不同指纹采集设备的指纹图像间的交叉比对。通过图像空间归一化和特征空间归一化两级变换方法,将不同传感器采集的图像的特征点映射到同一个特征空间下,最后在这个特征空间下进行特征点匹配。实验结果表明这种方法能够归一化处理目前具有代表性的指纹采集设备(光学传感器、电感传感器和热敏传感器)的指纹图像,并具有较高的识别性能。
身份认证是实现资源保护的第一道防线,是网络安全的核心。最常见的身份认证方式应该是使用用户名和口令对用户进行认证:当用户需要访问系统资源时,系统提示用户输入用户名和口令。系统采用加密方式或明文方式将用户名和口令传送到认证中心,并和认证中心保存的用户信息进行比对。如果验证通过,系统允许该用户进行随后的访问操作,否则拒绝用户的进一步的访问操作。本文在组合公钥算法的基础上,提出了一种新的动态口令算法,分析
图像中的叠加文字是理解图像语义的重要语义线索。叠加文字区域除对比度强和边缘密集特点外,文字笔画的线条、尺度以及空间分布等也会随着不同语言而呈现出不同于背景区域的特定纹理模式。本论文提出一种利用笔画线条的统计特征基于支持向量机进行图像中叠加文字检测的方法。以汉字为例的初步实验表明所提出笔画纹理特征对较多字符构成的文字区域具有很好的性能。
随着中文网络的快速发展,对于网络中海量中文数据的实时处理成为一个引人关注的话题,而中文文本的自动分词技术是中文信息处理系统的重要基础部分,直接关系到系统的处理效率和准确性。作者在对中文词典分词机制和真实网络数据进行充分分析后,注意到中文分词机制的关键是对单双字词的识别。基于这种认识,本文提出了一种新型的中文分词机制:双字词-长词哈希机制,通过提高对单双字词的查询效率来实现对中文分词机制的改进。文章