不善于编程的人的福音:18个免费的探索性数据分
每个人都有各自的天赋,发现它们并开始相信我们自己只是时间的问题。我们都有局限,但是我们应该止步不前吗?答案是不。
当我开始用R编程的时候,我很纠结。有时候不止一个人曾经这么想过。因为我在这一生中从未编码过。我的情况就像是一个从来没学过游泳的人在被强行踹进深海后用尽力气让自己不沉下去但是却喝了好多口咸咸的海水。
现在,当我回过头看,我笑了。你知道为什么吗?因为,我本可以选择不需要会编程就可以使用的数据分析工具并避免那些痛苦。
是预测建模不可缺少的一部分。除非你知道过去发生了什么否则你无法做出预测。掌握最重要的技能就是好奇心,它是免费的却不是每个人都拥有的东西。
我写这篇文章是为了帮助你们了解可用于探索的各种免费工具。时下,在市场中可以找到非常多的免费且有趣的工具来帮助我们工作。这些工具不需要你较精确仔细地编写代码,只需要你点点鼠标就能完成工作。
无需编程即可用来数据分析的工具/软件
1. Excel / Spreadsheet
无论你正准备步入数据科学领域还是已经在这个领域小有建树,你会知道过去这么多年以来,excel 一直以来都是数据分析领域不可缺少的一部分(最常用的工具之一)。哪怕是在今天,有很大一部分需要数据分析的项目都依赖与excel去完成。由于来自于社区,辅导教程,免费资源的帮助越来越多,学习excel已经变得越来越简单。
excel 基本上支持了最常用的数据分析功能:用来概述(总结)数据特征,数据可视化,对数据转型(去除噪音数据)从而得到新的数据集用来分析等。这些工具足够强大到让我们可以重新从多个方面审视数据。无论你知道有多少其它的数据分析工具,你一定要学会用excel。尽管Microsoft excel这个软件是付费的,但你可以用其替代品,例如open office, google docs!
2. Trifacta
Trifacta的Wrangler工具正在挑战传统的数据清理和操作方法。因为excel在数据大小上有限制,但这个工具没有这样的局限,您可以安全地用它处理大数据集。这个工具有令人难以置信的特性,如图表推荐、内置算法、分析洞察力,您可以使用这些特性在任何时间内生成报告。这是一种智能工具,专注于更快地解决业务问题,从而使我们在与数据相关的练习中更有效率。
这些开源工具的提供让我们感到更加自信和支持,世界各地也有优秀的人在为使我们的生活更好而努力工作。
3. Rapid Miner
这一工具作为高级分析的领导者出现在2016Gartner Magic Quadrant。是的,它不仅仅是一个数据清理工具。它在建立机器学习模型方面的具有专业性。是的,它包含了我们经常使用的所有ML算法。不仅仅是GUI,它还对使用Python&R构建模型的人提供了支持。
它以其非凡的能力继续吸引着全世界的人们。最重要的是,它能闪电般的快速水平上提供分析经验。他们的生产线上有几个为大数据、可视化、模型部署而构建的产品,其中一些产品(企业)包括订阅费。简而言之,我们可以说,它对于任何从数据加载到模型部署的需要执行AI操作的业务,都是一个完备的工具。
4. Rattle GUI
如果你试着使用R语言,但却找不到诀窍的情况下,Rattle应该是你的第一选择。这个GUI基于R语言构建,通过在R语言中键入安装包("rattle") ,然后输入库(rattle),然后键入RTACK(),即可启动。因此,要使用Rattle,您必须安装R语言。它也不仅仅是数据挖掘工具。Rattle支持各种ML算法,如树算法、支持向量机算法、Booting算法、神经网络算法、生存算法线性模型算法等。
现在它已经被广泛使用。据克拉恩,rattle每月被安装10000次。它提供了足够的选项来探索、转换和建模数据,只是很少有人点击。然而,它在统计分析方面的选择比SPSS少。但是,SPSS是一个付费工具。
5. Qlikview
QlikView是全球商业情报行业更受欢迎的工具之一。这个工具所做的就是获得商业洞察力并以一种极具吸引力的方式将其呈现出来。有了它较先进的可视化功能,你会惊讶于你在处理数据时所得到的控制量。它有一个内置的推荐引擎,可以不时地更新有关较佳可视化的信息。
然而,这不是一个统计软件。QlikView在探索数据、趋势、洞察力方面是不可思议的,但它无法从统计学上证明任何事情。在这种情况下,您可能需要查看其他软件。
6. Weka
使用Weka的一个优点是它很容易学习。作为一个机器学习工具,它的界面是足够直观的,你可以迅速完成工作。它为数据预处理、分类、回归、聚类、关联规则和可视化提供了选择。您所想到的建模过程中的大部分步骤都可以使用Weka来完成。它建立在Java之上。
它最初是为瓦卡托大学的研究目的而设计的,但后来被世界各地越来越多的人所接受。然而,这么久了我还没看到一个能像R和Python一样热情的weka交流社区。下面列出的教程将帮助您更多。
7. KNIME
与RapidMiner类似,KNIME提供了一个开放源码的分析数据的平台,以后可以使用其他支持KNIME的产品进行部署。该工具在数据融合、可视化和先进的机器学习算法等方面具有丰富的特点。是的,你也可以使用这个工具建立模型。虽然,关于这个工具的讨论还不够多,但是考虑到它的设计技术,我认为它很快就会很快就会引起人们的注意。
此外,在他们的网站上有快速培训课程,可以让你现在就开始使用这个工具。
8. Orange
这个工具正如它听起来很酷那样,它的目的是产生交互式数据可视化和数据挖掘任务。YouTube上有足够的教程来学习这个工具。它有一个广泛的数据挖掘任务库,包括所有的分类、回归、聚类方法。同时,在数据分析过程中形成的多功能可视化使我们能够更紧密地理解这些数据。
要构建任何模型,您将需要创建流程图。这很有趣,因为它将帮助我们进一步了解数据挖掘任务的确切过程。
9. Tableau Public
Tableau是一个数据可视化软件。我们可以说,Tableau和QlikView是商业智能海洋中最强大的鲨鱼。优势的比较是永无止境的。这是一个让我们快速探索数据的可视化软件,每一次观察都可使用各种可能的图表。它是一种由自己计算出数据类型、可用的较佳方法等的智能算法。
如果您想实时理解数据,tableau可以完成这个工作。从某种意义上说,tableau赋予了丰富多彩的数据生活,让我们与他人分享我们的工作。
10. Data Wrapper
这是一个闪电般的快速可视化软件。下一次,当您的团队中有人被分配到BI工作时,他/她对该做什么毫无头绪的话,可以考虑选择这个软件。可视化桶由线条图、条形图、列图、饼图、叠加条形图和地图组成。因此,这是一个基本的软件,无法与像Tableau和QlikView这样的巨人相提并论。此工具启用浏览器,不需要任何软件安装。
11. Data Science Studio (DSS)
它是一个旨在连接技术,业务和数据的强大工具。它可分为两部分:编码和非编码。它对任何旨在发展,建立,在网络上部署和扩展模型的组织来说都是一个完整的软件包。DSS也足够强大去创建智能数据应用程序来解决现实世界的问题。它包含了一些特性,这些特性促进了项目上的团队集成。在所有特性中,最有趣的部分是,您可以在DSS中再现您的工作,因为系统中的每个操作都是通过集成的GIT存储库进行版本化的。
12. OpenRefine
它开始于谷歌的精益求精,但似乎谷歌因为不清楚的原因而大幅缩减了这个项目。但是,这个工具仍然可用,改名为Open Refine。在众多开放源码的工具中,Open Refine专门研究混乱的数据;为预测建模目的而清理、转换和塑造数据。有趣的是,在在建模过程中,分析师80%的时间都用于数据清理。不是那么愉快,但这是事实。使用Open Refine进行改进,分析人员不仅可以节省时间,还可以将其用于生产工作。
13. Talend
如今,决策主要是由数据驱动的。管理者和专业人士不再做基于直觉的决定。他们需要一种能迅速帮助他们的工具。Talend可以帮助他们探索数据并支持他们做出决策。确切地说,它是一种数据协作工具,能够清理、转换和可视化数据。
此外,它还提供了一个有趣的自动化特性,您可以在新的数据集上保存和重做以前的任务。这个特性是独特的,在许多工具中还没有找到。而且,它能自动发现,为用户提供增强数据分析的智能建议。
14. Data Preparator
这个工具建立在Java上,能够帮助我们进行数据的开发、清理和分析。它包括用于离散化、数字、缩放、属性选择、缺失值、离群值、统计、可视化、平衡、抽样、行选择的各种内置包,以及几个其他任务。它的GUI能够直观简单地理解。一旦你开始使用这个,我相信你不会花很多时间来弄清楚该如何使用。
这个工具的一个独特的优点是,用于分析的数据集不会存储在计算机内存中。这意味着您可以在大型数据集上工作,而不会出现任何速度或内存问题。
15. DataCracker
这是一个专门研究调查数据的数据分析软件。许多公司确实进行了调查,但他们很难对其进行统计分析。调查数据从不清楚。它包含了大量的缺失和不恰当的内容。这个工具减少了我们的痛苦,增强了我们处理凌乱数据的经验。该工具的设计使得它可以从所有主要的互联网调查程序(如surveymonkey, survey gizmo等)中加载数据。有几个有助于更好地理解数据的交互功能。
16. Data Applied
这个强大的交互工具被设计用来构建、共享、设计数据分析报告。在大型数据集上创建可视化有时会很麻烦。但是这个工具在使用树状地图可视化大量数据方面是很强大的。与上面所有其他工具一样,它具有数据转换、统计分析、异常检测等功能。总之,它是一个多用途的数据挖掘工具,能够自动从原始数据中提取有价值的知识(信号)。您会惊讶地发现,这种非编程工具在数据分析方面不差于R或Python。
17. Tanagra Project
因为老式的UI,你可能不喜欢它,但这个免费的数据挖掘软件是设计出来建立机器学习模型的。Tanagra项目是作为学术研究的免费软件启动的。作为一个开源项目,它为您提供了足够的空间来设计自己的算法和贡献。
除了有监督的学习算法外,它还具有聚类、阶乘分析、参数和非参数统计、关联规则、特征选择和构造等范例。它的一些局限性包括:无法获得广泛的数据源、直接访问数据仓库和数据库、数据清理、交互利用等。
18. H2o
H2O是当今分析行业最流行的软件之一。在短短的几年里,该组织成功地在世界各地分析界传播开来。这个开源软件带来了照明快速分析的经验,这是API编程语言的进一步扩展使用。不仅是数据分析,而且您可以在任何时候建立先进的机器学习模型。基于强劲的社区支持,学习这个工具是不担心的。
额外奖励:
除了上面那些很棒的工具之外,我还发现了一些我认为您可能感兴趣的工具。然而,这些工具并不是免费的,但您仍然可以试用它们:
Data Kleenr
Data Ladder
Data Cleaner
WinPure
最后说明
一旦您开始使用这些工具(你选择的),你就会明白,了解预测建模的编程并不是什么好事。您可以使用这些开源工具完成相同的任务。因此,如果你直到现在还对自己缺乏非编码感到失望的话,现在是你将你的热情注入到这些工具上的时候了。
我观察到这些工具(其中一些)的限制是缺乏社区支持。除了很少的工具,他们中的几个没有一个社区来寻求帮助和建议。不过,值得一试!
英文原文:https://www.analyticsvidhya.com/blog/2016/09/18-free-exploratory-data-analysis-tools-for-people-who-dont-code-so-well/
时间:2018-08-30 13:16 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
相关推荐:
网友评论: