论文部分内容阅读
随着全球信息化的发展,信息量指数增长,电子商务在全球取得了迅速发展。目前电子商务已经发展到一个新的阶段,处理对象向综合化、大型化、复杂化方向发展。把智能计算技术应用到电子商务,解决现有电子商务技术在大量商品信息的搜索、分析和决策等方面的种种不足,已经成为发达国家大企业提高竞争力和市场份额的战略选择。利用Web挖掘技术对电子商务中的大量数据进行存储、管理、对比、检索、寻找其相关性,挖掘出数据所隐藏的规律,自动获取知识,可以对电子商务作出决策支持。智能电子商务网站能为用户提供个性化和推荐商品服务,使用户快速找到自己需要的商品,提高用户的信任度。智能电子商务网站也可以通过预取和缓存方法来提高网站的性能,减少用户的延时感受,间接提高用户的满意度。为用户提供更加称心如意的智能服务,让用户享受一种个性化的购物体验,才能留住和争取更多的用户,从而在竞争中取得先机。
目前,基于Web挖掘的智能电子商务技术存在着各种不同的问题。首先,大部分Web挖掘方法都使用Web日志作为数据源,冗余数据多,预处理方法不精确且效率低,为挖掘算法提供质量差的数据源。其次,各种Web挖掘算法没有很好地结合电子商务的特性来设计,挖掘算法性能低,挖掘结果的质量差且缺乏语义。再次,存放挖掘结果的知识库没有得到有效管理,降低了知识匹配速度和利用率。以上这些问题都很大程度地影响了智能服务的精度和性能。本文针对当前基于Web挖掘的智能电子商务网站中存在的问题,设计了一个组件化的多层次的体系结构框架,提出了利用新的Web数据源模型统一事件模型作为基础,设计个性化、推荐、预取、规则求精等方面的智能算法,为网上用户提供比现有电子商务网站更具人性化特色和成功率更高的智能服务。本论文的创新主要体现在:(1)提出了一种基于应用层记录的统一事件模型UEM。该模型提供方便和精确的数据源搜集方式,搜集的数据内容齐全,提供Web挖掘算法分析所需要的数据。UEM的准确、快速的用户识别和会话识别算法为Web使用挖掘算法提供了准确的数据源。UEM可扩充性好,可以根据需要很方便地增加各种的电子商务行为的数据记录。UEM能方便地把用户会话的结果转化为事件序列库,供Web挖掘算法使用。UEM很好地支持多维多层次的Web使用挖掘算法分析。新的Web数据源模型的提出,为智能电子商务站点提供了高质量的数据源,进而提高智能服务的质量。
(2)通过改进的信任函数公式和启发式聚类方法,提出了基于用户任务级的Web用户聚类算法UTC,发现每簇用户群共同的访问模式。UTC将频繁特征子序列视为任务,使用信任函数进行基于用户任务级的用户聚类挖掘。基于用户级的挖掘能有效地挖掘同组用户共同的访问模式且具有较好的性能;基于任务级的挖掘具有较好的语义涵义且具有较好的性能。该算法有效地挖掘用户群的访问模式,为智能电子商务站点提供更高质量的个性化、推荐等智能服务。
(3)提出一种基于Markov树的混合阶Markov树预取算法HOMT,发现用户访问转移模式,同时进行快速的在线预取。HOMT使用一个模式树压缩存储所有的Web访问序列和一种逐阶增量更新方法来创建所有阶的Markov模式树。混合阶算法综合考虑Markov模型各阶对预取的影响,具有高覆盖率和高精确率。利用离线产生的预取树,HOMT在线使用快速预测算法进行用户访问预测,从而进行高性能的预取。该算法有效提高了电子商务中Web预取等智能服务的质量,减少用户的延时感受。
(4)提出了Web拓扑概率模型和有趣关联规则算法IAR,结合商品目录(网络拓扑等),对挖掘出的关联规则进行有趣度评价,得出有趣度高的规则,即规则求精。进一步改进了IAR算法,提出了一种矩阵迭代的规则求精算法WTPM,快速迭代求解任意两个页面间的关联概率。规则求精能对知识库进行有效管理,提高了知识的利用率,进而提高智能服务的质量和性能。
(5)充分结合多功能数据挖掘器(MFDM),设计并实现多层体系架构的智能商品信息分析决策网站的原型系统MyEShop,作为具有自主知识产权的Ego网络购物引擎系统的一部分。Ego系统采用搜索技术自动在网上搜索商品信息,并自动进行信息提取,学习用户兴趣,进行个性化、推荐、预取等智能服务。目前,国内外极少出现能将搜索引擎技术和智能电子商务技术有机结合的产品。