如何为机器学习奠定基础

机器学习对许多人来说是一种新事物，因为它最近才成为大众市场的可行工具，但其根源却有几十年的历史。机器从数据中学习的概念在20世纪50年代实现。1988年，IBM公司将基于概率的数据算法的原理引入到以前基于规则的机器学习领域，从而彻底改变了这个行业。

500743252_wx

如今，很多人都在采用虚拟人工代理(例如Siri、Alexa、Google Now)，利用机器学习收集和分析从人们的交互中收集的信息，以预测需求，并根据人们的偏好定制服务。社交媒体网站使用该技术推荐和结识更多的朋友，同时在照片应用中进行面部识别，以节省人们的时间、精力和资源。但除此之外，机器学习现在还通过检测卡支付模式和改善在线购物交付方式来保护人们免受欺诈。当今的企业希望他们的数据能够承担一些繁重的工作，并且希望降低成本，提高一致性，简化操作。机器学习有助于大规模实现这一目标，调研机构德勤公司的调查发现，在2018年，57%的企业增加了相关技术的支出。虽然该技术以前被视为一种过度支出，但如今它被理解为对企业未来的投资和具有竞争力的收入驱动力。数据专家和作者Bernard Marr表示，现在开发人员已经对算法和技术进行了试验，机器学习将成为英国各地开展商业计划和预算的核心。最近的研究支持这一说法，揭示了48%的欧洲组织现在认为机器学习对其近期业务的发展至关重要。随着像亚马逊、Facebook和谷歌这样的公司继续推动机器学习技术的发展，那么如何充分利用最新和最好的算法?最成功的企业将是那些投资于新技术，并明智地利用他们可以使用的技能和数据系统的人。因此，人们忘记那些宣传和炒作，要关注其最基本的方面。

按顺序获取数据 机器学习技术最大的特点之一是它的灵活性;它可以利用从供应链和库存控制到工厂自动化和重复数据输入任务的一切。每个应用程序都需要一个单独的存储库，在该存储库中可以收集和操作数据，以允许算法评估值。为了让机器学习算法提供明智的判断和建议，底层数据库必须稳定地提供清洁、准确、详细的数据。在最近由Vanson Bourne公司进行的调查中，近一半的组织承认对数据质量服务进行了投资，以确保其数据可用于所有机器学习应用。如果没有数据质量和整合，人工智能技术就不会继续提高癌症患者的存活率，也不会使人工智能技术在国际象棋和围棋比赛中取胜，也难以改变生物化学的面貌。投资的转变侧重于确保捕获的数据具有尽可能高的质量，而不是简单地尽可能地扩网的规模，这是一个明显的行业变化。不到十年前，专用的数据质量服务和工具是一种利基服务，并且在数据繁重的业务中基本未被充分利用。现在，它们是企业高管未来计划的重中之重。随着机器学习继续以越来越高的速度发展，企业必须招募更多的数据科学家，并投资于处理此类算法的必要技术。可靠的高质量数据数据库使组织更接近将机器学习整合到他们的业务中，但如果企业的数据科学家没有正确的资源，那么这种势头将会减弱。

数据科学家的建议 在采取措施之前，企业必须考虑他们希望添加到其软件生态系统中的各种编程语言，同时考虑到业务的最终目标，可用的编程技能以及每种语言的质量。研究表明，64%的组织表示，依赖机器学习来挖掘大型数据集，并预测未来事件结果的预测分析是投资机器学习的关键动力。这种预测分析功能依赖于数据科学家对适当编程语言的掌握。那么如何掌握和获得?通过学习、实验，以及向他人请教。根据2018年Tiobe Index的调查，Python成为全球最流行的编程语言之一，并已经超越其竞争对手，主要是因为其具有简单性、可读性、多功能性和灵活性。随着全球数百万人学习和使用该语言，越来越多的个人和团体在线共享程序、技巧和整个算法。Python的用户网络为希望使用和尝试Python的企业提供了大量的学习材料。基于Python的技术也在不断涌现。 3月4日，深度学习库TensorFlow的第二版Alpha发行。TensorFlow 2.0承诺继续其前任作为世界上最受欢迎的机器学习项目之一，拥有更广泛的Python库。使用Python脚本，可以更轻松地利用数据科学社区的丰富知识和快速进步。最终，企业应该致力于提供一个基础数据基础设施，所有团队中的每个人都应该提供这些基础设施。对于商业智能团队来说，这通常是SQL(即使他们的工具生成它)，但为了成功实现这一目标，必须允许数据库科学家使用他们的首选语言(尤其是Python)运行数据脚本。数据的标准化和民主化意味着企业能够以更具创造性和实验性的方式在所有和部分业务中应用机器学习。

采用虽然内部部署的IT基础设施能够托管许多开源框架来构建机器学习解决方案，但如今许多企业缺乏有效支持这些解决方案的能力和可扩展性。例如，大多数企业目前没有重要的GPU计算能力，因为他们计划运营x86工作负载的容量，而平行工作的GPU服务器集群可能会大大加速深度学习算法的培训过程。如果企业正在评估项目的机器学习，则超大规模云平台可以提供基于消费的GPU计算访问。它还提供额外的x86计算，用于构建高性能数据库分析的基础设施，然后算法可以从中进行数据分析。当需求从批量分析转移到实时(或至少是业务时间)时，相关数据的流量必须与近乎实时工作的机器学习算法的需求保持同步。可以利用云计算弹性来确保在整个项目的生命周期中支持工作负载，并使企业可以自由地尝试机器学习功能，而不会受到资本支出决策的阻碍。组织将业务扩展到云端从未如此轻松，因为AWS、谷歌、亚马逊三大公共云提供商都在为机器学习业务而不断努力。尽管如此，去年的BI to DA Analytics研究发现，只有30%的组织利用云计算的弹性和可扩展性，并通过机器学习从组织的数据中获取价值。数据分析和机器学习基础设施对于以数据为中心的组织而言至关重要。希望投资新技术战略的企业应该确保他们的分析数据库基础设施能够同时在内部部署和云计算应用程序上运行，让他们可以自由地在第三方和内部部署之间迁移工作负载，以优化成本和计划不断发展其运营地区的数据治理要求。虽然机器学习的复杂性和应用可能看起来令人生畏，但提供启动机器学习项目的基础设施比许多人想象的更为可行。事实上，企业已经在其标准IT流程中使用他们所需的技术：数据库、编程语言、基础设施即服务。为了优化机器学习的下一步，这些技术必须简单地用于不同的容量。随着越来越多的组织优先考虑数据质量，并了解理解和应用机器学习的好处，他们将享受更好的决策和降低成本的好处。随着市场竞争的加剧，企业获得收益越来越难，采用机器学习将成为其业务走向成功的途径。