天涯明月刀打坐bug:SVM学习之一：libsvm中的数据预处理

来源：百度文库编辑：中财网时间：2024/05/06 03:09:36

SVM学习之一：libsvm中的数据预处理

分类:科学技术2007.1.15 11:04 作者：axywestwind | 评论：0 | 阅读：0

名词解释：

(1) SVM（Support Vector Machine）是从瓦普尼克（Vapnik）的统计学习理论发展而来的，主要针对小样本数据进行学习、分类和预测（有时也叫回归）的一种方法，能解决神经网络不能解决的过学习问题。作者以为，类似的根据样本进行学习的方法还有基于案例的推理（Case-Based Reasoning），决策树归纳算法C4.5等，以后将详细阐述这两种方法。

(2)过学习问题：训练误差过小导致推广能力下降，即真实风险的增加。

(3)推广能力：generalization ability，也可以说是泛化能力，就是对未知样本进行预测时的精确度。

原文：A practical guide to support vector classification.

libsvm中的样本预处理的原则有2个：

1 非数值属性(Categorical Feature)

由于SVM要求被处理的数据都是实数，因此对于属性值为类别的属性要进行转换。例如{red, green, blue},可以转换成3个属性

red (1, 0, 0)

green (0, 1, 0)

blue (0, 0, 1)

来表示。经验表明当这样的非数值属性的取值不是太多（这个具体数字不明确）的时候，这种编码比用一个数字来表示属性的类别要稳定的多，比如用1, 2, 3来分别表示red, green, blue就不太合适了。目前，这个过程没有实现自动处理，需要使用者根据属性取值的多少自己动手去修改。

2 缩放(scaling)

进行缩放的原因和使用神经网络时的考虑是一样的，由于RBF网络中采用样本数据的欧式距离来计算。主要优点就是避免数值范围较大的属性控制数值范围较小的属性。另一个优点就是避免计算时的numerical difficulties. 因为核值通常依赖特征向量的内积(inner product)，而较大的属性值可能导致numerical问题。因此推荐把每个属性缩放到[-1, 1]或者[0, 1]之间，而且前一个范围要比后一个好，即对列向量进行规范化，其详细解释和计算公式见http://www.faqs.org/faqs/ai-faq/neural-nets/part2/中的“Should I standardize the input variables (column vectors)?”。libsvm中没有考虑属性的类型（效益、成本、固定、偏离、区间、偏离区间 6 种不同的属性类型的规范化计算公式是不一样的，详见：徐泽水，《不确定多属性决策方法及应用》，清华大学出版社，2004。）而采用了统一的线性缩放，作者以为此处可以改进一下。

需要注意的是，在进行测试之前，要对测试数据进行同样的缩放操作。其实在libsvm中有程序（svmscale.exe）来进行缩放操作，也可以不用手工缩放，只要用easy.py来对（经过非数值的归一化处理之后的）原始数据直接操作即可。

上面这两种方法基本上可以完成所有的样本的预处理了。其实只有原则 1 是需要自己手工改动的，其他工作在libsvm中的tool文件夹下都由现成的python程序处理。

你可以通过这个链接引用该篇文章:http://axywestwind.bokee.com/viewdiary.14485683.html

什么是SVM ISD SVM是什么意思呢? 会声会影9中的问题之一自然科学中的基础学科之一 Execl 中的“数据清单” vfp中的数据输入为什么说主板是微型计算机中的重要部件之一？无极之一个馒头引发的血案中的插曲。。。日本动画片<太空堡垒>中的女主角之一日本动画片<太空堡垒>中的女主角之一怎样理解计算机中的数据计算机中的数据的含义如何恢复我的文档中的数据 wps2000中的数据怎样排序？关于EXCEL中的数据操作？ Excel 中的“文本型数据” 受众调查中的数据误差 excle 中的”数据透视表” 数据库中的数据可以是什么? EXCEL中的数据算得不精确如何恢复回收站中的数据？数据在内存中的问题 EXCEL中的数据如何转换如何恢复硬盘中的数据？