pushing me away吉他谱:机器学习工具包

来源:百度文库 编辑:中财网 时间:2024/04/28 07:51:40

机器学习工具包  

2009-12-31 00:46:32|  分类: 科学与研究 |  标签: |字号大中小 订阅

转自:http://elpmis.cn/archives/tag/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0

Posts Tagged ‘机器学习’

机器学习工具包SHOGUN用户文档翻译完成

Posted in Machine Learning, Open Source on 11月 8th, 2009 by elpmis – Be the first to comment

最近抽时间翻译了机器学习工具包SHOGUN的技术文档,这真不是一件容易的活。

首先需要把软件的基本架构搞懂。例如SHOGUN有一套自己的内存管理机制,主要原理就是引用计数。如果不先把这个搞懂,看其它的源代码就会有很多不明白的地方。另外SHOGUN主要还是通过继承来扩展, 所以几个重要的基本类一定要搞清楚,如CFeatures, CKernel。

对SHOGUN实现的算法要了解。SHOGUN中实现了很多算法,要一个个搞懂不太容易。但是它的核心是SVM,各种SVM的基本思想都是类似的,所以必须得知道SVM的基本原理。自己之前对SVM也不熟悉,所以翻译的时候还一边看<An Introduction to Support Vector Machines and Other Kernel-based Learning Methods>, 这书还是很好看的,但是现在还没看完,呃。这书还有中文版,但感觉译得不好,推荐大家看原书。

翻译的时候遣词造句不容易。其实SHOGUN文档都是一些很简单的句型,但是有些句子英文意思很好懂,但就是找不到一个很好懂的中文句子来翻译。没办法,只能怪自己的中英文水平都太烂,==!。翻译过程中还专门了解了一下科技翻译要注意的地方,然后看到了侯捷以前写的一篇文章<科技翻译面面观>。他翻译的书我看过几本,感觉还是不错的,而他写的这篇文章也不愧文章的名字--面面观,讲得的确挺全。如文章提到的应该保留一些英文术语,我翻译的过程中也保留了一些英文术语,把它们译成中文实在很别扭。另外文章里还提到,做研究还是直接看原文比较好,我也觉得其实翻译这些文档意义可能不大,顶多就方便入门罢了。大部分的科技文献都是英文的,你能都翻译过来吗?翻译过来都能保证质量吗?还不如好好把英文这门用得最广的外语学好。

最后总结一下SHOGUN这个软件包的优点,希望能有更多人来使用这个优秀的软件包并参与到这个开源项目中来。开源带给我们很多,你为开源贡献了多少呢?

  • 清晰的架构

SHOGUN采用C++实现。因为主要是实现算法,所以不需要很复杂的架构,使用继承和组合就能得到比较好的扩展性,实现和接口之间分离得很好。另外,异常和错误处理也都有一套完善的机制。

  • 丰富的内容

SHOGUN中实现大量的SVM算法(现在还在不断增加中),这些算法都可以用于许多种数据类型。除了SVM,还有其它一些常见的机器学习方法,如HMM,聚类方法等等。

  • 多样化的接口

SHOGUN除了C/C++接口外,还为python,octave, matlab以及R提供接口,这可以方便很多非C/C++开发者使用SHOGUN。而且在不同的语言中使用SHOGUN的方法非常相似,所以懂得一种接口后,在别的语言中使用时不需要什么学习时间。

  • 充足的文档

SHOGUN有很详实的用户文档和开发文档,带有非常多的可直接运行的例子。结合例子来学习会让你事半功倍。

  • 活跃的邮件列表

订阅了SHOGUN的邮件列表后,几乎每天都会有用户反馈, 或是report bug, 或者寻求帮助。列表中的很多人(包括作者)都会很热心地回答大家的问题。

如果你是做机器学习相关工作的,赶快来使用一下SHOGUN吧。

SHOGUN中文文档已经放到SHOGUN网站上,请看http://www.shogun-toolbox.org/doc_cn/

打算翻译机器学习工具包-SHOGUN使用文档

Posted in C/C++ on 10月 17th, 2009 by elpmis – Be the first to comment

SHOGUN是一个在机器学习尤其支持向量机方面很出色的开源项目,现在已经包含在Debian安装包中。自己现在正在学这方面的知识,但SHOGUN在国内使用好像很少,没有什么中文文档。虽然本人的E文很一般,但还是打算翻译一下SHOGUN使用文档,一来可以锻炼自己,二来可以对别人有些用处。今天发了一封信件给SHOGUN的作者 Soeren Sonnenburg并取得了文档翻译的许可。其实SHOGUN的文档并不多,不过因为自己对其中的很多内容都并不熟悉,所以翻译前需要把这个工具包 的实现好好研究才可以,这对我来说是一个不小的挑战。

如果有人对这个项目的中文翻译工作感兴趣可以联系我,我们可以一起学习和翻译。

附:

SHOGUN网站:

http://www.shogun-toolbox.org/

注:

目前已翻译完毕,但随着新版本shogun的发布中文文档会继续更新。

(09.12.05)

机器学习相关免费资源

Posted in Machine Learning, Open Source on 9月 12th, 2009 by elpmis – 2 Comments

最近在网上找一些机器学习的资料,发现在这个领域有很多的免费资源,和大家分享一下。

  • 几个推荐的网站

http://mloss.org/

mloss是machine learning open source software的缩写,上面有大量的开源软件,而且不断更新。

http://jmlr.csail.mit.edu/

Journal of Machine Learning Research (JMLR)应该说是机器学习领域最权威的期刊了,而且可以免费下载各年的论文,这实在太好了!

http://www.kernel-machines.org/

专注于kernel methods的机器学习,上面同样有很多开源的软件包。

  • 机器学习领域的几个知名软件

R

http://cran.r-project.org/web/views/MachineLearning.html

R是一个很有名的开源项目,主要用于科学计算,http://mloss.org/上面很大一部分都R-project的子项目。

Shogun

http://www.shogun-toolbox.org/

Shogun是用C++写的机器学习软件包,支持向量机方面的算法很多。它同时为C/C++、matlab、Octave、R和python提供接口,扩展性也非常好。

Weka

http://www.cs.waikato.ac.nz/ml/weka/

Weka是用Java写的开源软件,数据挖掘领域使用很广泛。

KNIME

http://www.knime.org/

同样是Java写的开源软件,提供一个良好的数据分析平台和开发平台。