【摘 要】
:
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,文本每一维特征的权重就是其TFIDF值,这种方法
论文部分内容阅读
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,文本每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征,而且不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种新的基于关键词语和词语共现频率的特征选择和权重计算方法。该方法在TF-IDF方法的基础上利用了文本的结构信息,同时运用互信息理论提取出对文本内容起到关键性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等信息,突出了文本中关键词语的贡献,弥补了单纯使用TF-IDF权重函数进行计算的一些缺陷,并使文本的特征向量蕴涵了词与词的相关信息。通过采用KNN分类器进行实验,结果显示该方法比传统TF-IDF方法的平均分类准确率有明显提高。
其他文献
天然气的预处理和液化是海上天然气利用前的两个关键环节。选取变压吸附分离法(PSA)作为浮式LNG预处理流程的工艺方法,选择新型CO2预冷空气膨胀液化流程作为浮式LNG天然气液
本文首先通过主成分分析方法计算商业银行的经营绩效,然后运用相关分析与回归分析研究商业银行资本结构与经营绩效的关系,经过分析得出经营绩效与商业银行资本结构存在高度负
以花生品种大白沙为试验材料,于结荚到收获期,用红外测温仪对不同施氮处理的花生冠层温度进行连续观测,测定花生主茎功能叶片中叶绿素、可溶性糖、可溶性蛋白、丙二醛(MDA)含
本实验选取了51名幼儿作为对象,先根据观察和访谈结果,将幼儿按照教师对幼儿的情感进行分类,再分别分析其绘画作品。结果发现教师情感指向积极型的幼儿的作品在造型和构图等
目的:分析我院2012~2014年抗糖尿病药物的使用情况。方法:对我院2012~2014年抗糖尿病药物用药金额和用药频度(DDDs)等数据进行统计。结果:抗糖尿病药用药金额逐年增长。其中
<正>股市进入2009年以后,各路投资机构和专业人士都评说今年股市不会有大行情,原因有二:一是"大小非"、"大小限"解禁压力实在太大;二是实体经济受危机的影响还远远没有结束。
空间数据库是目前地理信息系统(GIS)应用的一个很重要的部分,其中空间数据库引擎(SDE)作为中间件连接GIS应用程序和关系数据库系统,较好地解决了空间数据和属性数据统一存储
唐代强盛的国力和繁荣的文化孕育出雍容华贵的女性服饰,唐代女子服饰文化是辉煌灿烂的唐代文化的一部分。唐代女性服饰具有大胆展示女性曲线美、胡汉兼容、女着男装等风格特