数据挖掘是从大量数据中提取隐藏的或未知,但可能有用信息的过程。尤其在机器学习中,数据挖掘是十分重要的一环。今天给大家介绍5个开源数据挖掘工具,收下这波干货吧。
1. Orange
Orange 是由C++ 和 Python开发的,基于组件的数据挖掘和机器学习软件套装,它的功能很丰富,而且强大。它包含了一系列组件,能进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。通过它快速且多功能的可视化编程前端,能够浏览数据分析和可视化,可以绑定Python进行脚本开发。
2. KNIME
KNIME 由Java写成,它基于Eclipse,是一个开源的、智能的,而且有丰富数据集成,数据处理,数据分析和数据勘探的平台。它可视化的方式,能够创建数据流或数据通道,而且可以选择性地运行分析步骤,并研究结果,模型以及可交互的视图。并且,可以集成到其它各种各样的开源项目中,比如:R语言,Weka, Chemistry Development Kit等。
3. Apache Mahout
Apache Mahout是分布式线性代数框架,这个框架是具有数学表达能力的Scala DSL,构建了一个用于快速创建可扩展,且性能驱动的机器学习应用程序的环境,可以使得数据科学家、统计学家等更迅速地实现其算法。
4. Weka
Weka是用Java编写的,可以在大部分平台上运行,是一种开源机器学习软件,能通过图形用户界面,标准终端应用程序或Java API进行访问。总之它是一个集合,用来解决实际数据挖掘问题的机器学习算法。
5. DataMelt
DataMelt是一个开源软件,用于数值计算,数学、统计、符号计算,数据分析和数据可视化的。DataMelt可以与Java平台的几种脚本语言一起使用,例如Jython,Groovy,JRuby(Ruby编程语言)和BeanShell等。