行业报告 AI展会 数据标注 标注供求
数据标注数据集
主页 > 数据挖掘

数据挖掘

  • 手把手教你 Spark 性能调优

    手把手教你 Spark 性能调优

    上周四接到反馈,集群部分 spark 任务执行很慢,且经常出错,参数改来改去怎么都无法优化其性能和解决频繁随机报错的问题。...

    2018-10-09 22:42:37
  • 零基础搭建Hadoop大数据处理环境

    零基础搭建Hadoop大数据处理环境

    由于Hadoop需要运行在Linux环境中,而且是分布式的,因此个人学习只能装虚拟机,本文都以VMware Workstation为准,安装CentOS7,具体的安装此处...

    2018-10-09 22:42:37
  • 纽约时报Kafka架构实战

    纽约时报Kafka架构实战

    纽约时报有很多内容生成系统,我们使用第三方数据来编写故事。另外,我们有161年的新闻行业积累和21年的在线内容发布经验,所以大量的...

    2018-10-09 22:42:37
  • Spark 1.6升级2.x防踩坑指南

    Spark 1.6升级2.x防踩坑指南

    Spark 2 x自2 0 0发布到目前的2 2 0已经有一年多的时间了,2 x宣称有诸多的性能改进,相信不少使用Spark的同学还停留在1 6 x或者更低的版本上,...

    2018-10-09 22:42:37
  • MMLSpark:微软开源的用于Spark的深度学习库

    MMLSpark:微软开源的用于Spark的深度学习库

    MMLSpark为Apache Spark提供了大量深度学习和数据科学工具,包括将Spark Machine Learning管道与Microsoft Cognitive Toolkit(CNTK)和OpenCV进行无缝集成,使您...

    2018-10-09 22:42:37
  • Hadoop 伪分布式搭建

    Hadoop 伪分布式搭建

    Hadoop环境部署-JDK部分,准备工作,在 opt 目录下创建文件夹modules,和softwares,修改操作权限(切换至root用户下)...

    2018-10-09 22:42:37
  • 让 Python 更加充分的使用 Sqlite3

    让 Python 更加充分的使用 Sqlite3

    我决定试一试sqlite3。因为只需打开与数据库的连接,这样可以增加可处理的数据量,并将应用程序的加载时间减少到零。此外,我可以通过...

    2018-10-09 22:42:37
  • 干货 | Apache Spark最佳实践

    干货 | Apache Spark最佳实践

    本PPT来自 Spark summit EUROPE 2017Apache Spark不管是在 ETL、机器学习还是数据仓库等方面都是很不错的工具。但是真正想充分利用好...

    2018-10-09 22:42:37
  • Hive基本使用教程

    Hive基本使用教程

    hive是用java开发的,hive里的基本数据类型和java的基本数据类型也是一一对应的,除了string类型。...

    2018-10-09 22:42:37
  • Python开发中如何使用Hook技巧

    Python开发中如何使用Hook技巧

    什么是Hook,就是在一个已有的方法上加入一些钩子,使得在该方法执行前或执行后另在做一些额外的处理,那么Hook技巧有什么作用以及我们...

    2018-10-09 22:42:37
  • 基于Storm构建分布式实时处理应用初探

    基于Storm构建分布式实时处理应用初探

    最近利用闲暇时间,又重新研读了一下Storm。认真对比了一下Hadoop,前者更擅长的是,实时流式数据处理,后者更擅长的是基于HDFS,通过M...

    2018-10-09 22:42:37
  • Apache Kafka 1.0:为什么我们等了这么久?

    Apache Kafka 1.0:为什么我们等了这么久?

    Kafka 从首次发布之日起,已经走过了七个年头。从最开始的大规模消息系统,发展成为功能完善的分布式流式处理平台,用于发布和订阅、...

    2018-10-09 22:42:37
  • Python中的时间处理大总结

    Python中的时间处理大总结

    python中处理时间的模块有三个,datetime, time,calendar,融汇贯通三个模块,才能随心所欲地用python处理时间。...

    2018-10-09 22:42:37
  • Python并行处理

    Python并行处理

    当你在机器上启动某个程序时,它只是在自己的“bubble”里面运行,这个气泡的作用就是用来将同一时刻运行的所有程序进行分离。这个“...

    2018-10-09 22:42:37
  • Python 开发者的 6 个必备库

    Python 开发者的 6 个必备库

    无论你是正在使用 Python 进行快速开发,还是在为 Python 桌面应用制作原生 UI ,或者是在优化现有的 Python 代码,以下这些 Python 项目都是应...

    2018-10-09 22:42:37
  • 搭建Spark所遇过的坑

    搭建Spark所遇过的坑

    出现此类问题有很多种, 当时遇到这问题的因为是在spark未改动的情况下, 更换了Hive的版本导致版本不对出现了此问题,...

    2018-10-09 22:42:37
  • 基于Kafka Streams构建广告消耗预测系统

    基于Kafka Streams构建广告消耗预测系统

    本文将会先解释什么是超投,然后分享一下我们是如何使用 Kafka Streams 构造预测系统来提供近实时的预测消耗数据、从而降低超投的。...

    2018-10-09 22:42:37
  • 深度解析:Spark 优于 Hadoop 吗?

    深度解析:Spark 优于 Hadoop 吗?

    对于任何一个进入大数据世界的人来讲,大数据和Hadoop 就成了同义词。随着人们学习了大数据生态系统及其工具和运作原理,他们更能理解...

    2018-10-09 22:42:37
  • 号称世界最快句法分析器,Python高级自然语言处

    号称世界最快句法分析器,Python高级自然语言处

    spaCy是Python和Cython中的高级自然语言处理库,它建立在最新的研究基础之上,从一开始就设计用于实际产品。...

    2018-10-09 22:42:37
  • 一只node爬虫的升级打怪之路

    一只node爬虫的升级打怪之路

    我一直觉得,爬虫是许多web开发人员难以回避的点。我们也应该或多或少的去接触这方面,因为可以从爬虫中学习到web开发中应当掌握的一...

    2018-10-09 22:42:37
  • Hadoop完全分布式集群安装Hbase

    Hadoop完全分布式集群安装Hbase

    当我们按照hadoop完全分布式集群搭建博客搭建了hadoop以后,发现这是一个空的hadoop,只有YARN,MapReduce,HDFS,而这些实际上我们一般不会直接...

    2018-10-09 22:41:15
  • 机器学习:单词拼写纠正器python实现

    机器学习:单词拼写纠正器python实现

    借助朴素贝叶斯分类器的基本思想,编写一个单词拼写纠正器,它大致实现的功能如下:...

    2018-10-09 22:41:15
  • 高并发“热点”缓存数据快速“退火”

    高并发“热点”缓存数据快速“退火”

    电商场景促销活动的会场页由于经常集中在某个时间点进行“秒杀”促销,这些页面的QPS(服务器每秒可以处理的请求量)往往特别高,数据库...

    2018-10-09 22:41:15
  • Python oracle数据库操作时,中文查询报错

    Python oracle数据库操作时,中文查询报错

    作者:Ge__python中使用oracle数据库进行查询时,出现下面的错误:UnicodeEncodeError: 39;ascii 39; codec can 39;t encode char...

    2018-10-09 22:41:15
  • 基于 Python 的 Scrapy 爬虫入门:代码详解

    基于 Python 的 Scrapy 爬虫入门:代码详解

    接下来创建一个爬虫项目,以 图虫网 为例抓取里面的图片。在顶部菜单“发现” “标签”里面是对各种图片的分类,点击一个标签,比如...

    2018-10-09 22:41:15
  • python自动发邮件库yagmail

    python自动发邮件库yagmail

    一般发邮件方法我以前在通过Python实现自动化邮件功能的时候是这样的:import smtplibfrom email mime text import MIMETextfrom emai...

    2018-10-09 22:41:15
  • 用Python实现了一个大数据数据搜索引擎

    用Python实现了一个大数据数据搜索引擎

    搜索是大数据领域里常见的需求。Splunk和ELK分别是该领域在非开源和开源领域里的领导者。本文利用很少的Python代码实现了一个基本的数据...

    2018-10-09 22:41:15
  • Spark作业如何在无管理权限的集群部署Python或JD

    Spark作业如何在无管理权限的集群部署Python或JD

    在现实情况下,我们需要的 JDK 版本可能并没有在集群上安装,这个时候咋办?是不是就没办法呢?答案肯定不是,本文就是介绍如何解决这种...

    2018-10-09 22:41:15
  • hadoop(04)、Hadoop 集群模式搭建实践

    hadoop(04)、Hadoop 集群模式搭建实践

    本文我们将在linux(CentOS7)下搭建hadoop集群模式,以便实践更多场景下hadoop的使用,尤其是在实际的生产模式中,必定是以集群模式存在。...

    2018-10-09 22:41:15
  • 浅析:spark认知

    浅析:spark认知

    Spark是一种基于内存的开源计算框架,不同于Hadoop的MapReduce和HDFS,Spark主要包括Spark Core和在Spark Core基础之上建立的应用框架Spark SQL、Spark ...

    2018-10-09 22:41:15
  • 教你玩转Hadoop分布式集群搭建,进击大数据

    教你玩转Hadoop分布式集群搭建,进击大数据

    终于要开始玩大数据了,之前对haoop生态几乎没有太多的了解,现在赶鸭子上架,需要完全使用它来做数据中心,这是我的haoop第一篇文章,...

    2018-10-09 22:41:15
  • 在数据预处理阶段,特征的标准化有哪些方法?

    在数据预处理阶段,特征的标准化有哪些方法?

    特征标准化(Feature Standardization)的作用是将样本数据中的每一列特征缩放到一个统一的尺度。方法有很多种,我列几个最常用的。...

    2018-10-09 22:41:15
  • 17个新手常见Python运行时错误

    17个新手常见Python运行时错误

    当初学 Python 时,想要弄懂 Python 的错误信息的含义可能有点复杂。这里列出了常见的的一些让你程序 crash 的运行时错误。...

    2018-10-09 22:41:15
  • Hbase万亿级存储性能优化总结

    Hbase万亿级存储性能优化总结

    hbase主集群在生产环境已稳定运行有1年半时间,最大的单表region数已达7200多个,每天新增入库量就有百亿条,对hbase的认识经历了懵懂到熟...

    2018-10-09 22:41:15
  • 用 Python 连接 MySQL 的几种姿势

    用 Python 连接 MySQL 的几种姿势

    尽管很多 NoSQL 数据库近几年大放异彩,但是像 MySQL 这样的关系型数据库依然是互联网的主流数据库之一,每个学 Python 的都有必要学好一门...

    2018-10-09 22:41:15
数据标注服务
sem搜索推广

Copyright©2005-2028 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注

扫码入群
扫码关注

微信公众号

返回顶部