网易大数据体系之时序数据技术_可思数据-人工智能媒体资讯平台！

网易大数据体系之时序数据技术

本次分享内容：

时序数据平台主要业务场景

时序数据平台体系架构

时序数据平台核心技术

PART01 时序数据平台主要业务场景

上图为数据的整体架构，大部分公司都是差不多的：

原始数据：MySQL、服务端的 Log、APP-Data、Sensor，大家知道现在穿戴设备很多，比如手表等，这样都会产生很多数据，这些数据都称为时序数据，随着时间的变化不断产生数据。

数据采集层：sqoop、DataStream、SDK、Gataway

数据加工层：数据存在 kafka 里，再经过一些流计算处理(Flink、Sparkstreaming)

数据存储分析层：

离线存储分析平台：技术栈包括最底层的 HDFS、Kudu、GP 等数据存储，在这之上要做很多的计算，包括 Hive、Spark、Impala 等，他的应用场景包括数仓报表、机器学习、模型训练等;

在线存储计算平台：应用的业务场景包括，交易订单，优惠券，用户画像等，这里主要应用的是 HBase;

时间序列存储计算平台：应用场景包括，业务设备监控，实时广告平台，物联网应用，相关的技术包括 OpenTSDB、Druid、InfluxDB 等。

所以会根据不同的业务使用不同的平台来处理相关的数据，对于我们来说最大的工作是在数据存储端。

时序数据主要包括时间列、维度列和指标列，这 3 列缺一不可(特别是时间列)。

工业互联网时代，会源源不断产生各种各样的时序数据，时序数据平台有以下几种典型场景：

系统监控：

物理机、云主机、容器：CPU、内存、IO 等

组件服务：数据库集群、Kafka 集群、HBase 集群

任务监控：

查看指定 hadoop 任务耗用内存、CPU、IO 利用率等

查看集群消耗资源 TopN 任务、节点等

统计集群任务执行耗时

应用性能监控：

应用调用次数，错误占比，页面加载延迟统计、地域统计分析

慢加载追踪，慢 SQL

异常会话追踪

链路监控：

调用链全息排查

全局调用拓扑

链路依赖项分析梳理

业务监控统计：

a. 电商

业务大盘：查看单量，金额，发货等业务指标

异常大盘：查看超卖，库存校准耗时，商品回调耗时，各种类型下单错误等异常指标

b. 广告

广告曝光点击消耗实时统计

流量地域分配

以基础系统监控服务为例，举例描述两个应用场景：

物理机基础硬件指标监控

HBase-RegionServe 指标监控

直观地看，以上数据的横坐标都是时间戳，即设备随着时间不断吐数据。

时序数据应用场景的核心特征：

时间区间查询，最近时间区的数据的查询频率远大于历史数据;

多维条件查询，即多维字段随机组合查询;

支持 TTL 机制，数据可以自动过期;

支持高压缩率，数据压缩比要达到 10 以上;

支持高效聚合;

支持集群可扩展，服务高可用，数据高可靠。

PART02 时序数据平台架构体系

时序序列平台以监控类系统体系架构为例，如下图所示：

将多数据来源的数据(如 Agent 采集器，打点日志、流式数据，IoT Hub 等)，通过 Kalfa 工具(分布式消息队列系统)进行流式处理，汇集到网易时序数据平台上。

PART03 时序数据平台核心技术

在上述架构体系中，数据库作为其核心环节。考虑到 DDB(分布式 MySQL)实时写入性能不足，HBase/ES 等开源 NoSQL 平台多维查询以及聚合计算等功能不够;针对海量时序数据这类应用场景，因此需要专门的时序数据库。

现有市场上较成熟的时序数据库主要包括 Druid、OpenTSDB、InfluxDB 等。网易结合以上各类时序数据库的优缺点，自主研发分布式时序数据库平台，支持高性能写入和读取，支持多维条件查询，支持聚合计算，且运行开销较小，可私有化、分布式部署。

该时序数据库的分布式集群结构与 hadoop，Hbase，Kudu 等架构非常相似：多台服务器用来存储数据，并通过 Raft 保证数据的一致性。数据的分布式计算是在分布式节点(node)上完成的，每个 node 上的数据存储计算系统称之为 shard server。在 Shard Server 的底层数据存储中，原始数据存一份，再按照索引的方式再存一份。