机器学习实践指南

你可能在各种应用中听说过机器学习machine learning（ML），比如垃圾邮件过滤、光学字符识别（OCR）和计算机视觉。

开启机器学习之旅是一个涉及多方面的漫长旅途。对于新手，有很多的书籍，有学术论文，有指导练习，有独立项目。在这些众多的选择里面，很容易迷失你最初想学习的目标。

所以在今天的文章中，我会列出 7 个步骤（和 50 多个资源）帮助你开启这个令人兴奋的计算机科学领域的大门，并逐渐成为一个机器学习高手。

请注意，这个资源列表并不详尽，只是为了让你入门。除此之外，还有更多的资源。

1、学习必要的背景知识

你可能还记得 DataCamp 网站上的这篇文章里面的信息图：数学和统计学是开始机器学习（ML）的关键。基础可能看起来很容易，因为它只有三个主题。但不要忘记这些实际上是三个广泛的话题。

在这里需要记住两件非常重要的事情：

首先，你一定会需要一些进一步的指导，以了解开始机器学习需要覆盖哪些知识点。
其次，这些是你进一步学习的基础。不要害怕花时间，有了这些知识你才能构建一切。

第一点很简单：学习线性代数和统计学是个好主意。这两门知识是必须要理解的。但是在你学习的同时，也应该尝试学习诸如最优化和高等微积分等主题。当你越来越深入 ML 的时候，它们就能派上用场。

如果是从零开始的，这里有一些入门指南可供参考：

对于初学者是非常好的资源，可以考虑学习他们的线性代数和微积分课程。
在网站上学习课程。
网站上对描述统计学、概率论和推论统计学的介绍内容。

统计学是学习 ML 的关键之一

如果你更多喜欢阅读书籍，请参考以下内容：

Linear Algebra and Its Applications
Applied Linear Algebra
3,000 Solved Problems in Linear Algebra

然而，在大多数情况下，你已经对统计学和数学有了一个初步的了解。很有可能你已经浏览过上面列举的的那些资源。

在这种情况下，诚实地回顾和评价你的知识是一个好主意，是否有一些领域是需要复习的，或者现在掌握的比较好的？

如果你一切都准备好了，那么现在是时候使用 R 或者 Python 应用这些知识了。作为一个通用的指导方针，选择一门语言开始是个好主意。另外，你仍然可以将另一门语言加入到你的技能池里。

为什么这些编程知识是必需的？

嗯，你会看到上面列出的课程（或你在学校或大学学习的课程）将为你提供关于数学和统计学主题的更理论性的介绍（而不是应用性的）。然而，ML 非常便于应用，你需要能够应用你所学到的所有主题。所以最好再次复习一遍之前的材料，但是这次需要付诸应用。

如果你想掌握 R 和 Python 的基础，可以看以下课程：

DataCamp 上关于 Python 或者 R 的介绍性课程：或者。
Edx 上关于 Python 或者 R 的介绍性课程：和。
还有很多其他免费的课程。查看或者了解更多。

当你打牢基础知识后，请查看 DataCamp 上的博客。这篇文章提供了统计学方面的 40 多个资源，这些资源都是你开始数据科学（以及 ML）需要学习的。

还要确保你查看了关于向量和数组的文章，以及使用 Python 进行科学计算的。

要使用 Python 和微积分进行实践，你可以了解下。

2、不要害怕在 ML 的“理论”上浪费时间

很多人并不会花很多精力去浏览理论材料，因为理论是枯燥的、无聊的。但从长远来看，在理论知识上投入时间是至关重要的、非常值得的。你将会更好地了解机器学习的新进展，也能和背景知识结合起来。这将有助于你保持学习积极性。

此外，理论并不会多无聊。正如你在介绍中所看到的，你可以借助非常多的资料深入学习。

书籍是吸收理论知识的最佳途径之一。它们可以让你停下来想一会儿。当然，看书是一件非常平静的事情，可能不符合你的学习风格。不过，请尝试阅读下列书籍，看看它是否适合你：

Machine Learning textbook， Tom Mitchell 著，书可能比较旧，但是却很经典。这本书很好的解释介绍了机器学习中最重要的课题，步骤详尽，逐层深入。
机器学习: 使数据有意义的算法艺术和科学Machine Learning: The Art and Science of Algorithms that Make Sense of Data（你可以在看到这本书的幻灯片版本）：这本书对初学者来说非常棒。里面讨论了许多实践中的应用程序，其中有一些是在 Tom Mitchell 的书中缺少的。
Machine Learning Yearning ：这本书由吴恩达Andrew Ng编写的，仍未完本，但对于那些正在学习 ML 的学生来说，这一定是很好的参考资料。
Algorithms and Data Structures 由 Jurg Nievergelt 和 Klaus Hinrichs 著。
也可以参阅 Matthew North 的Data Mining for the Masses。你会发现这本书引导你完成一些最困难的主题。
Introduction to Machine Learning 由 Alex Smola 和 S.V.N. Vishwanathan 著。

花些时间看书并研究其中涵盖的资料

视频和慕课对于喜欢边听边看来学习的人来说非常棒。慕课和视频非常的多，多到可能你都很难找到适合你的。下面列出了最知名的几个：

，是吴恩达Andrew Ng讲的，介绍了机器学习及其理论。别担心，这个慕课讲的非常好，一步一步深入，所以对初学者来说非常适用。
，已经有点前沿了。在你开始本系列之前，你需要做一些 ML 理论方面的准备工作，但是你不会后悔的。

在这一点上，重要的是要将各种独立的技术融会贯通，形成整体的结构图。首先了解关键的概念：监督学习supervised learning和无监督学习unsupervised learning的区别、分类和回归等。手动（书面）练习可以派上用场，能帮你了解算法是如何工作的以及如何应用这些算法。在大学课程里你经常会找到一些书面练习，可以看看波特兰州立大学的。

3、开始动手

通过看书和看视频了解理论和算法都非常好，但是需要超越这一阶段，就要开始做一些练习。你要学着去实现这些算法，应用学到的理论。

首先，有很多介绍 Python 和 R 方面的机器学习的基础知识。当然最好的方法就是使用交互式教程：

，在这篇教程里面，你可以学到使用 Scikit-Learn 构建模型的 KMeans 和支持向量机（SVM）相关的知名算法。
用 R 中的类和 caret 包介绍机器学习。
[Keras 教程：Python 深度学习涵盖了如何一步一步的为分类和回归任务构建多层感知器（MLP）。

还请查看以下静态的（非互动的）教程，这些需要你在 IDE 中操作：

：一步一步地学习 Scikit-Learn。
：按这个教程一步一步地使用 Keras 开发你的第一个神经网络。
你可以考虑看更多的教程，但是这篇教程是非常好的。

除了教程之外，还有一些课程。参加课程可以帮助你系统性地应用学到的概念。经验丰富的导师很有帮助。以下是 Python 和机器学习的一些互动课程：

：学习如何构建预测模型，调整参数，并预测在未知数据上执行的效果。你将使用 Scikit-Learn 操作真实世界的数据集。
：展示给你如何从未标记的数据集进行聚类、转换、可视化和提取关键信息。在课程结束时，还会构建一个推荐系统。
：你将获得如何使用 Keras 2.0 进行深度学习的实践知识，Keras 2.0 是前沿的 Python 深度学习库 Keras 的最新版本。
：将学习者引入到机器学习实践中，更多地关注技术和方法，而不是这些方法背后的统计学知识。

理论学习之后，花点时间来应用你所学到的知识。

对于那些正在学习 R 语言机器学习的人，还有这些互动课程：

可以让你宏观了解机器学习学科最常见的技术和应用，还可以更多地了解不同机器学习模型的评估和训练。这门课程剩下的部分重点介绍三个最基本的机器学习任务：分类、回归和聚类。
，用 R 语言从 ML 角度提供聚类和降维的基本介绍。可以让你尽快获得数据的关键信息。
涵盖了构建和应用预测功能的基本组成部分，其重点是实际应用。

最后，还有很多书籍以偏向实践的方式介绍了 ML 主题。如果你想借助书籍内容和 IDE 来学习，请查看这些书籍：

Python Machine Learning Book，Sebastian Raschka 著。
Introduction to Artificial Neural Networks and Deep Learning: A Practical Guide with Applications in Python，Sebastian Raschka 著。
Machine Learning with R，Brett Lantz 著。