数据是指文字、数字、声音、图像等,而统计数据为数值数据或称数据,它是由母体中经过严谨抽样而得,而数据却是已经发生的事实,在企业经营中,有许多已经存在的数据,如何从个别企业所发生的数据中,获得信息,进一步发现知识,这就是智慧的表现,这种用来描述由数据萃取知识的整个过程,称为KDD,在这里,知识的意义是指数据之间的关系及其型态,而数据探勘专用在KDD发现知识过程中的步骤。可用决策树及类神经网络等呈现前述这种知识的内涵。
当在数据库中有大量数据隐藏着许多信息,不能轻易由一些查询设备所获得,用数据探勘算法可以在数据库中呈现最佳聚类或有趣的规则,以协助KDD的进行。资料探勘工具并不能取代数据库查询工具,但可以让使用者增加许多解决问题的可能性的启发。例如,假设过去十年我们有大量顾客数据,有很多丰富的有用之信息隐藏在此档案内,大部分可由数据库经过正常查询得到,如哪一天买什么产品?在七月中某一销售区域之平均营业额为何?
等等,不过,在数据库中隐藏的信息使用SQL更难发现,例如,顾客之最佳区隔或顾客消费行为之重要趋势问题,如果使用SQL查询,可以试着使用所定义的准则猜测顾客的轮廓,并由资料库中查询答案,经过试误过程中,可以慢慢建立直觉来区别重要属性,如此进行经年累月也许可以找到在数据库中之最佳区隔,但是机器学习算法中,如类神经网络或基因算法可以在短时间内回答此问题。当数据探勘工具找到区隔后,可以再使用查询环境来查询及分析所发现之顾客的轮廓,这时候效果更好。
KDD为过滤及分析数据的过程,其目的是在创造自我学习组织,由此可知,数据探勘是KDD的工具,而KDD是智慧型数据分析的程序。KDD可在企业中进行个案研究,由数据库中利用决策树建构法找到数据结构中之数据间的关系与型态,并由各水准组合了解合并状况,再由经验及专业判断,再次进行重组后再进行建构树状图,这样由决策树所提供之信息,更能对市场动态确实掌握。接着由各种不同背景专家利用层级程序分析法,或模糊逻辑,使变数间的差异层次分明,并挑选重要变数,再以多元尺度法找企业定位,利用聚类分析找到目标顾客群,对有经验的专业人士针对所挑出之变数,进行联合分析,分析顾客偏好,了解顾客需求,提升顾客服务的效果。
这种将过去单纯质化分析的个案研究,提升至量化分析,深入问题内部结构,使问题层次分明,而不再只是一般性的归纳,这样的个案研究才有客观依据,论述才有深度。若进一步归纳多家企业的共同特性,再由这些数据库中作为抽样母体,进行抽样,所得大量数据集,利用基因算法作模型建构,进一步利用类神经网络作预测,将使企业具有强大的决策能力。决策树是树状的数据分析是数据探勘工具,能利用树状图的分割自动确认和评价区隔。利用树状图可找出最佳组合之区隔。
通讯地址:北京市海淀区海淀南路甲21号中关村知识产权大厦A座2层206、207室 邮政编码:100080
电话:010-62565314 刘莉 京ICP证16064523号-2 版权所有:北京软件和信息服务业协会
技术支持:中科服 内容支持:鑫网安