频道头条

大数据凉凉了？Apache将一众大数据开源项

这两天Apache基金会，这个因为大数据而成名的开源基金会连续不断的宣布将一系列的项目束之……

数据挖掘

F1 Query: Declarative Querying at Scale

F1 Query 是一个大一统的 SQL 查询处理平台，可以处理存储在 Google 内部不同存储介质(Bigtable, Spanner, Google Spreadsheet)上面的不同格式文件。简单...
2018-10-24 11:55:15
没有完美的数据插补法，只有最适合的

数据缺失是数据科学家在处理数据时经常遇到的问题，本文作者基于不同的情境提供了相应的数据插补解决办法。没有完美的数据插补法，...
2018-10-23 16:59:51
Kafka集群内复制功能深入剖析

Kafka是一个分布式发布订阅消息系统。由LinkedIn开发并已经在2011年7月成为apache顶级项目。kafka在LinkedIn, Twitte等许多公司都得到广泛使用，主...
2018-10-16 18:35:46
如何将传统关系数据库的数据导入Hadoop？

大多数企业的关键数据存在于OLTP数据库中，存储在这些数据库中的数据包含有关用户，产品和其他有用信息。如果要分析此数据，传统方法...
2018-10-16 18:35:01
论Spark高手是怎样炼成的

彻底掌握Spark框架源码的每一个细节;根据不同的业务场景的需要提供Spark在不同场景的下的解决方案;根据实际需要，在Spark框架基础上进行二...
2018-10-16 18:24:41
如何写一个更好的Python函数？

那怎么写好一个Python函数呢？...
2018-10-16 18:24:01
Spark灰度发布在十万级节点上的实践

本文介绍了顶级互联网公司数万节点下 Spark 的 CI 与 CD & CD 灰度发布实践。包含如何维护源代码，如何维护 Release 多版本，开发版与正式版，...
2018-10-15 19:04:01
数据科学家职位最常问的40道面试题

导读想去机器学习初创公司做数据科学家?这些问题值得你三思!机器学习和数据科学家被看作是下一次工业革命的驱动器。这也意味着有许许...
2018-10-13 23:57:21
给Python学习者的文件读写指南（含基础与进阶）

对于初学者来说，一份详尽又清晰明白的指南很重要。今天，猫猫跟大家一起，好好学习Python文件读写的内容，这部分内容特别常用，掌握...
2018-10-12 21:34:42
【深度学习】训练深度神经网络的方法从数据预

深度学习中，为了有效地训练深度神经网络，有一些值得我们强烈推荐的做法。在本文中，我将介绍一些最常用的方法，从高质量训练数据...
2018-10-10 22:57:21
Python数据分析笔记——Numpy、Pandas库

Numpy最重要的一个特点是就是其N维数组对象，即ndarray，ndarray是一个通用的同构数据多维容器，其中的所有元素必须是相同类型的。...
2018-10-10 22:56:48
用Spark机器学习数据流水线进行广告检测

关于Spark的其它机器学习API，名为Spark ML，如果要用数据流水线来开发大数据应用程序的话，这个是推荐的解决方案。...
2018-10-10 22:56:17
使用R进行数据匹配的方法

R中的merge函数类似于Excel中的Vlookup，可以实现对两个数据表进行匹配和拼接的功能。与Excel不同之处在于merge函数有4种匹配拼接模式，分别为...
2018-10-10 22:55:36
23个适合Java开发者的大数据工具和框架

目前，编程人员面对的最大挑战就是复杂性，硬件越来越复杂，OS越来越复杂，编程语言和API越来越复杂，我们构建的应用也越来越复杂。根...
2018-10-10 22:55:09
深度学习在美团点评中的应用

近年来，深度学习在语音、图像、自然语言处理等领域取得非常突出的成果，成了最引人注目的技术热点之一。...
2018-10-10 22:54:46
Python编程需要注意的几个问题

研发人员在使用Python编程时会遇到众多问题，本文主要讲述的在在实际应用中的基本问题：...
2018-10-10 22:54:04
【干货】互联网数据挖掘导论

导读：本文说的主题是关于「数据挖掘」，以下为内容大纲，让大家对互联网搜索与挖掘有一个宏观的了解，即知道要做什么和怎么做。注...
2018-10-10 22:50:47
最实用的机器学习算法Top5

本文将推荐五种机器学习算法，你应该考虑是否将它们投入应用。这五种算法覆盖最常用于聚类、分类、数值预测和朴素贝叶斯等四个门类...
2018-10-10 22:48:11
实用又强大，6 款 Python 时间& 日期库推荐

在使用 Python 的开发过程中，除了使用 datetime 标准库来处理时间和日期，还有许多第三方的开源库值得尝试。...
2018-10-10 22:45:03
ZooKeeper原理及其在Hadoop和HBase中的应用

ZooKeeper是一个开源的分布式协调服务，由雅虎创建，是Google Chubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布订阅、负载...
2018-10-10 22:43:39
用数据说话，R语言有哪七种可视化应用？

R语言提供了一系列的已有函数和可调用的库，通过建立可视化的方式进行数据的呈现。在使用技术的方式实现可视化之前，我们可以先一起...
2018-10-10 22:43:00
用Apache Flink的保存点技术重新处理数据流

在本文中，我们会讲述如何使用保存点功能来重新处理数据，并一定程度地深入底层，讲述这个功能在Flink中是怎么实现的。...
2018-10-10 22:42:28
一篇文章全面解析大数据批处理框架Spring Batch

针对OLTP，业界有大量的开源框架、优秀的架构设计给予支撑；但批处理领域的框架确凤毛麟角。是时候和我们一起来了解下批处理的世界哪...
2018-10-10 22:41:27
如何利用 Python 打造一款简易版 AlphaGo

2017 年伊始，再度出山的 AlphaGo 化名 Master 在网络围棋平台上打遍棋界无敌手。你是否也想打造一个自己的 AlphaGo 呢?GitHub 用户 Brian Lee(brile...
2018-10-10 22:40:14
Apache Kylin在唯品会大数据的应用

随着传统基于RDBMS的EDW往大数据的演进的过程中，Batch可处理的数据量越来越大，时间越来越快，但是Ad-hoc的响应速度却始终是大数据的瓶颈...
2018-10-10 22:39:20
大数据等最核心的关键技术：32个算法

奥地利符号计算研究所的Christoph Koutschan博士在自己的页面上发布了一篇文章，提到他做了一个调查，参与者大多数是计算机科学家，他请这...
2018-10-10 22:37:21
Torch7 开源 PyTorch：Python 优先深度学习框架

PyTorch 是一个 Python 软件包，其提供了两种高层面的功能：使用强大的 GPU 加速的 Tensor 计算(类似 numpy)构建于基于 tape 的...
2018-10-10 22:35:27
高可用的大数据计算平台如何持续发布和演进

本文主要谈及大数据系统如何做系统迭代，以及大规模系统因为其大规模没有可能搭建对等的测试环境，需要进行在线测试方面的内容，更...
2018-10-10 22:34:17
基于Spark的公安大数据实时运维技术实践

本文首先对公安运维管理现状做了简要介绍，然后介绍公安实时运维平台的整体架构，再以交换机Syslog信息为例，详细介绍如何使用Flume+L...
2018-10-10 22:33:39
Spark的调度策略详解

Spark的调度策略 Spark目前有两种调度策略，一种是FIFO即先来先得，另一种是FAIR即公平策略。所谓的调度策略就是对待调度的对象进行排序，...
2018-10-10 22:33:01
深度学习利器：TensorFlow实战

深度学习目前已经被应用到图像识别，语音识别，自然语言处理，机器翻译等场景并取得了很好的行业应用效果。至今已有数种深度学习框...
2018-10-10 22:32:18
深度学习框架TensorFlow在Kubernetes上的实践

本文介绍如何通过TensorFlow实现深度学习算法，并将深度学习运用到企业实践中。...
2018-10-10 22:30:48
携程是如何把大数据用于实时风控的

携程作为国内OTA领头羊，每天都遭受着严酷的欺诈风险，个人银行卡被盗刷、账号被盗用、营销活动被恶意刷单、恶意抢占资源等。...
2018-10-10 22:30:15
分享：32个Hadoop问题及解决方案

今天讲一讲关于Hadoop的问题、原因以及解决方法。...
2018-10-10 22:29:04
一只特立独行的伪Hadoop批发商

在Hadoop圈子里面炒得最火热的当然莫过于Cloudera和Hortonworks之间的风风雨雨恩恩怨怨。但是今天我们暂且略去不表，聊聊另外一个批发商。它...
2018-10-10 22:28:29

首页
上一页
32
33
34
35
36
37
38
39
40
下一页
末页
共 48页1652条