重生花果山之异界妖尊:探索数据 | 数据挖掘功能介绍

来源:百度文库 编辑:中财网 时间:2024/05/13 21:31:06
数据挖掘功能介绍===========================================================作者: DSSMiner(http://dssminer.itpub.net)
发表于:2007.06.21 15:21
分类:DM概念
出处:http://dssminer.itpub.net/post/31665/297583
---------------------------------------------------------------

下面将介绍数据挖掘可实现的6方面功能,需要指出的时,这六方面功能并不是相互独立的,有的数据挖掘项目,你很难将其归属与哪个具体方面。如分析信用卡欺诈,一面可以说是异常检测问题,另一方面也可以说是分类问题。所以这里介绍数据挖掘功能仅希望让读者能够对数据挖掘所能解决的问题做一个宏观了解。


功能1——概念描述:定性与对比

对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述,这种描述就称为概念描述。获得概念描述的方法主要有两种:

(1) 利用更为广义的属性,对所分析数据进行概要总结。

(2) 对两类所分析的数据特点进行对比并对对比结果给出概要性总结。

功能2:关联分析

关联分析就是从给定的数据集发现频繁出现的项集模式知识。关联分析广泛用于市场营销、事务分析等应用领域。

通常关联规则具有:形式,即“”;其中()和()均为属性-值(属性=值)形式。关联规则表示“数据库中的满足X中条件的记录也一定满足Y中的条件”

功能3:分类与预测

分类就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别,即将未知事例映射到某种离散类别之一。分类模型(或函数)可以通过分类挖掘算法从一组训练样本数据(其类别归属已知)中学习获得。

分类挖掘所获得得分类模型可以采用多种形式加以描述输出。其中主要得表示方法有:分类规则(IF-THEN)、决策树(decision trees)、数学公式和神经网络。

分类通常用于预测位置数据实例得归属类别(有限离散值)。但在一些情况下,需要预测某数值属性的值(连续数值),这样的分类就被称为预测。尽管预测既包括连续数值的预测,也包括有限离散值的分类;但一般还是使用预测来表示对连续数值的预测;而使用分类来表示对有限离散值的预测。

功能4:聚类分析

聚类分析与分类预测方法明显不同之处在于,后者所学习获取分类预测模型所使用的数据是已知类别归属,属于有教师监督学习方法;而聚类分析所分析处理的数据均是无类别归属,类别归属标志在聚类分析处理的数据集中是不存在的。

聚类分析中,首先需要根据“各聚集内部数据对象间的相似度最大化,而各聚集对象间相似度最小化”的基本聚类分析原则,以及度量数据对象之间相似度的计算公式,将聚类分析的数据对象划分为若干组,因此一个组中数据对象间的相似度要比不同组数据对象间的相似度要大。每一个聚类分析所获得的组就可以视为是一个同类别归属的数据对象集合,更进一步从这些同类别数据集又可以通过分类学习相应的分类预测模型。此外通过反复不断地对所获得的聚类组进行聚类分析,还可获得初始数据集合的一个层次结构模型。

功能5:异常检测

一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型。那些不符合大多数数据对象所构成的规律的数据对象就被称为异常数据。之前许多数据挖掘方法都在正式进行数据挖掘之前就将这些异常数据作为噪声或意外而将其排除在数据挖掘的分析处理范围之外。但在一些应用场合,如各种商业欺诈行为的自动检测,小概率事件的往往比经常发生的事件更有挖掘价值。对异常数据的分析处理通常就称为异常检测。

异常数据可以利用数理统计方法分析获得,即利用已知数据所获得的概率统计分布模型,或利用相似度计算所获得的相似数据对象的分布,分析确认异类数据。而偏离检测就是从数据已有或期望值中找出某些关键测度显著的变化。

功能6:演化分析

数据演化分析就是对随时间变化的数据对象的变化规律和趋势进行建模描述,主要是指时序分析。