面向智能电子商务的Web挖掘理论与方法的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:Horus_Ra
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球信息化的发展,信息量指数增长,电子商务在全球取得了迅速发展。目前电子商务已经发展到一个新的阶段,处理对象向综合化、大型化、复杂化方向发展。把智能计算技术应用到电子商务,解决现有电子商务技术在大量商品信息的搜索、分析和决策等方面的种种不足,已经成为发达国家大企业提高竞争力和市场份额的战略选择。利用Web挖掘技术对电子商务中的大量数据进行存储、管理、对比、检索、寻找其相关性,挖掘出数据所隐藏的规律,自动获取知识,可以对电子商务作出决策支持。智能电子商务网站能为用户提供个性化和推荐商品服务,使用户快速找到自己需要的商品,提高用户的信任度。智能电子商务网站也可以通过预取和缓存方法来提高网站的性能,减少用户的延时感受,间接提高用户的满意度。为用户提供更加称心如意的智能服务,让用户享受一种个性化的购物体验,才能留住和争取更多的用户,从而在竞争中取得先机。   目前,基于Web挖掘的智能电子商务技术存在着各种不同的问题。首先,大部分Web挖掘方法都使用Web日志作为数据源,冗余数据多,预处理方法不精确且效率低,为挖掘算法提供质量差的数据源。其次,各种Web挖掘算法没有很好地结合电子商务的特性来设计,挖掘算法性能低,挖掘结果的质量差且缺乏语义。再次,存放挖掘结果的知识库没有得到有效管理,降低了知识匹配速度和利用率。以上这些问题都很大程度地影响了智能服务的精度和性能。本文针对当前基于Web挖掘的智能电子商务网站中存在的问题,设计了一个组件化的多层次的体系结构框架,提出了利用新的Web数据源模型统一事件模型作为基础,设计个性化、推荐、预取、规则求精等方面的智能算法,为网上用户提供比现有电子商务网站更具人性化特色和成功率更高的智能服务。本论文的创新主要体现在:(1)提出了一种基于应用层记录的统一事件模型UEM。该模型提供方便和精确的数据源搜集方式,搜集的数据内容齐全,提供Web挖掘算法分析所需要的数据。UEM的准确、快速的用户识别和会话识别算法为Web使用挖掘算法提供了准确的数据源。UEM可扩充性好,可以根据需要很方便地增加各种的电子商务行为的数据记录。UEM能方便地把用户会话的结果转化为事件序列库,供Web挖掘算法使用。UEM很好地支持多维多层次的Web使用挖掘算法分析。新的Web数据源模型的提出,为智能电子商务站点提供了高质量的数据源,进而提高智能服务的质量。   (2)通过改进的信任函数公式和启发式聚类方法,提出了基于用户任务级的Web用户聚类算法UTC,发现每簇用户群共同的访问模式。UTC将频繁特征子序列视为任务,使用信任函数进行基于用户任务级的用户聚类挖掘。基于用户级的挖掘能有效地挖掘同组用户共同的访问模式且具有较好的性能;基于任务级的挖掘具有较好的语义涵义且具有较好的性能。该算法有效地挖掘用户群的访问模式,为智能电子商务站点提供更高质量的个性化、推荐等智能服务。   (3)提出一种基于Markov树的混合阶Markov树预取算法HOMT,发现用户访问转移模式,同时进行快速的在线预取。HOMT使用一个模式树压缩存储所有的Web访问序列和一种逐阶增量更新方法来创建所有阶的Markov模式树。混合阶算法综合考虑Markov模型各阶对预取的影响,具有高覆盖率和高精确率。利用离线产生的预取树,HOMT在线使用快速预测算法进行用户访问预测,从而进行高性能的预取。该算法有效提高了电子商务中Web预取等智能服务的质量,减少用户的延时感受。   (4)提出了Web拓扑概率模型和有趣关联规则算法IAR,结合商品目录(网络拓扑等),对挖掘出的关联规则进行有趣度评价,得出有趣度高的规则,即规则求精。进一步改进了IAR算法,提出了一种矩阵迭代的规则求精算法WTPM,快速迭代求解任意两个页面间的关联概率。规则求精能对知识库进行有效管理,提高了知识的利用率,进而提高智能服务的质量和性能。   (5)充分结合多功能数据挖掘器(MFDM),设计并实现多层体系架构的智能商品信息分析决策网站的原型系统MyEShop,作为具有自主知识产权的Ego网络购物引擎系统的一部分。Ego系统采用搜索技术自动在网上搜索商品信息,并自动进行信息提取,学习用户兴趣,进行个性化、推荐、预取等智能服务。目前,国内外极少出现能将搜索引擎技术和智能电子商务技术有机结合的产品。
其他文献
介词短语是汉语中一种重要的短语类型。介词短语识别可以缩小句子中心动词的选择范围;可以简化句子结构,降低后续句法分析的难度;在基于模板的翻译中,它还能为模板匹配提供方
入侵检测系统是指能够自动识别计算机系统内的入侵行为的系统,它可以检测出非授权使用、误用和恶意攻击等异常行为模式。入侵检测领域中的数据记录具有数据量大、属性繁多的
生物信息学作为一门新兴的学科,已成为这个世纪自然科学的前沿领域之一。在生物信息学的众多研究方向中,基因表达数据分析一直是一个亟待解决的问题。 基因表达是指基因中的
计算机博弈是计算机科学与人工智能领域最具挑战的研究方向,是一个新兴的研究领域。它以人工智能和各种计算机博弈技术为基础,研究如何让计算机像人类一样从事高度智能的博弈
流量突发(trafficburstiness)是网络随机性的具体表现,也是影响网络性能的要素之一。近年来网络测量与统计分析得出最重要的结论是Internet的流量突发具有多尺度缩放(multi-sc
随着宽带通信技术的发展,特别是DWDM 技术的成熟,网络的可用带宽不断扩展,链路的可靠性不断提高,原有的协议已经不能很好的适应这一发展趋势。此外,随着用户对网络资源需求的
分布式计算技术的发展增强了企业计算环境的互操作性,与此同时,也为企业带来了巨大的安全挑战,如何保护企业计算环境的安全成为一个研究热点。论文在对企业计算环境的安全技
银行增值服务系统是设置在POS交易终端和银行交易主机之间的服务平台,为终端用户提供传统货币支付之外的其他交易服务。其通讯子系统包括增值服务前置机和增值服务POS机,前者
本文以北邮-康佳3G终端联合实验室的合作项目“移动终端上WCDMA协议栈软件的分析与设计”为背景,主要论述了WCDMA移动终端上Layer2,数据链路层)通信协议软件的分析与设计。  
近年来,随着3C技术(消费类电子、计算机、通信)趋向融合,嵌入式系统得到迅猛发展和普及,嵌入式技术的研究与发展成为当前的一个热点话题。计算机图形用户接口(GUI)为计算机与其