论文部分内容阅读
本文从认知心理学出发,采用范畴理论对文本、图像、视频等非结构化信息做了一个统一的形式语义描述;基于反馈控制和试错法为核心思路,通过合成的虚拟对象与实际对象对比,指导系统得出精确的语义表征。
本文主要研究成果和创新点如下:
1.基于范畴论思想,提出一个抽象的非结构化信息的抽象数据类型ΣUSI;然后扩充为相貌文字表征的抽象数据类型ΣText,定义了形容一个证件照的语言描述,进一步实现了一个相貌中文表征模型。基于ΣUSI扩充为图像表征的抽象数据类型ΣImage,该类型将数据约束为二维数组,并定义了二维数据上的相关读写操作和约束。基于∑Image扩充为相貌图像表征的抽象数据类型∑face,该类型使用五官模板,对标准的证件照进行句法生成,在∑Text的输入下能合成虚拟相貌。
2.基于ΣImage扩充为交通视频表征抽象数据类型Σscene3D,该类型使用Java3D作为句法生成工具,将预定义的3D车辆模型作为模板,使用形式化的交通轨迹描述作为输入,合成虚拟3D交通视频。
3.针对Hadoop数据挖掘的全局性、HDFS随机写问题、数据生命周期等问题,提出了一个在Hadoop云平台上的高效数据挖掘模式。基于该模式,提出了一个Hadoop云平台上的决策树算法,能快速地对海量数据进行分类处理;提出了一个Hadoop云平台上的KD树算法,对海量数据进行索引和检索;提出一个动态哈希TRIE频繁模式挖掘算法寻找知识,为商务决策提供支持。
4.针对Unicode信息处理,提出一个使用哈希表查找子节点的动态哈希TRIE算法,能对模式查找提高速度和发现语义关联;进一步提出了增强动态哈希TRIE算法,解决了哈希表内存消耗的问题,使得不损失模式查找速度和语义关联的前提下,时空性能得到极大改善。