深入解析Spark中的RPC
• Spark RPC的简单示例和实际应用;
• Spark RPC模块的设计原理;
• Spark RPC核心技术总结。
一、Spark RPC的简单示例和实际应用
Spark的RPC主要在两个模块中:
在Spark-core中,主要承载了更好的封装server和client的作用,以及和scala语言的融合,它依赖于模块org.apache.spark.spark-network-common;
在org.apache.spark.spark-network-common中,该模块是java语言编写的,最新版本是基于netty4开发的,提供全双工、多路复用I/O模型的Socket I/O能力,Spark的传输协议结构(wire protocol)也是自定义的。
为了更好的了解Spark RPC的内部实现细节,我基于Spark 2.1版本抽离了RPC通信的部分,单独启了一个项目,放到了github以及发布到Maven中央仓库做学习使用,提供了比较好的上手文档、参数设置和性能评估。下面就通过这个模块对Spark RPC先做一个感性的认识。
以下的代码均可以在kraps-rpc找到。
1.1 简单示例
假设我们要开发一个Hello服务,客户端可以传输string,服务端响应hi或者bye,并echo回去输入的string。
第一步,定义一个HelloEndpoint继承自RpcEndpoint表明可以并发的调用该服务,如果继承自ThreadSafeRpcEndpoint则表明该Endpoint不允许并发。
class HelloEndpoint(override val rpcEnv: RpcEnv) extends RpcEndpoint {
override def onStart(): Unit = {
println("start hello endpoint")
}
override def receiveAndReply(context: RpcCallContext): PartialFunction[Any, Unit] = {
case SayHi(msg) => {
println(s"receive $msg")
context.reply(s"hi, $msg")
}
case SayBye(msg) => {
println(s"receive $msg")
context.reply(s"bye, $msg")
}
}
override def onStop(): Unit = {
println("stop hello endpoint")
}
}
case class SayHi(msg: String)
case class SayBye(msg: String)
和Java传统的RPC解决方案对比,可以看出这里不用定义接口或者方法标示(比如通常的id或者name),使用scala的模式匹配进行方法的路由。虽然点对点通信的契约交换受制于语言,这里就是SayHi和SayBye两个case class,但是Spark RPC定位于内部组件通信,所以无伤大雅。
第二步,把刚刚开发好的Endpoint交给Spark RPC管理其生命周期,用于响应外部请求。RpcEnvServerConfig可以定义一些参数、server名称(仅仅是一个标识)、bind地址和端口。通过NettyRpcEnvFactory这个工厂方法,生成RpcEnv,RpcEnv是整个Spark RPC的核心所在,后文会详细展开,通过setupEndpoint将”hello-service”这个名字和第一步定义的Endpoint绑定,后续client调用路由到这个Endpoint就需要”hello-service”这个名字。调用awaitTermination来阻塞服务端监听请求并且处理。
val config = RpcEnvServerConfig(new RpcConf(), "hello-server", "localhost", 52345)
val rpcEnv: RpcEnv = NettyRpcEnvFactory.create(config)
val helloEndpoint: RpcEndpoint = new HelloEndpoint(rpcEnv)
rpcEnv.setupEndpoint("hello-service", helloEndpoint)
rpcEnv.awaitTermination()
第三步,开发一个client调用刚刚启动的server,首先RpcEnvClientConfig和RpcEnv都是必须的,然后通过刚刚提到的”hello-service”名字新建一个远程Endpoint的引用(Ref),可以看做是stub,用于调用,这里首先展示通过异步的方式来做请求。
val rpcConf = new RpcConf()
val config = RpcEnvClientConfig(rpcConf, "hello-client")
val rpcEnv: RpcEnv = NettyRpcEnvFactory.create(config)
val endPointRef: RpcEndpointRef = rpcEnv.setupEndpointRef(RpcAddress("localhost", 52345), "hell-service")
val future: Future[String] = endPointRef.ask[String](SayHi("neo"))
future.onComplete {
case scala.util.Success(value) => println(s"Got the result = $value")
case scala.util.Failure(e) => println(s"Got error: $e")
}
Await.result(future, Duration.apply("30s"))
也可以通过同步的方式,在最新的Spark中askWithRetry实际已更名为askSync。
val result = endPointRef.askWithRetry[String](SayBye("neo"))
这就是Spark RPC的通信过程,使用起来易用性可想而知,非常简单,RPC框架屏蔽了Socket I/O模型、线程模型、序列化/反序列化过程、使用netty做了包识别,长连接,网络重连重试等机制。
1.2 实际应用
在Spark内部,很多的Endpoint以及EndpointRef与之通信都是通过这种形式的,举例来说比如driver和executor之间的交互用到了心跳机制,使用HeartbeatReceiver来实现,这也是一个Endpoint,它的注册在SparkContext初始化的时候做的,代码如下:
_heartbeatReceiver = env.rpcEnv.setupEndpoint(HeartbeatReceiver.ENDPOINT_NAME, new HeartbeatReceiver(this))
而它的调用在Executor内的方式如下:
val message = Heartbeat(executorId, accumUpdates.toArray, env.blockManager.blockManagerId)
val response = heartbeatReceiverRef.askWithRetry[HeartbeatResponse](message, RpcTimeout(conf, "spark.executor.heartbeatInterval", "10s"))
二、Spark RPC模块的设计原理
首先说明下,自Spark 2.0后已经把Akka这个RPC框架剥离出去了(详细见SPARK-5293),原因很简单,因为很多用户会使用Akka做消息传递,那么就会和Spark内嵌的版本产生冲突,而Spark也仅仅用了Akka做RPC,所以2.0之后,基于底层的org.apache.spark.spark-network-common模块实现了一个类似Akka Actor消息传递模式的scala模块,封装在了core里面,kraps-rpc也就是把这个部分从core里面剥离出来独立了一个项目。
虽然剥离了Akka,但是还是沿袭了Actor模式中的一些概念,在现在的Spark RPC中有如下映射关系。
RpcEndpoint => Actor
RpcEndpointRef => ActorRef
RpcEnv => ActorSystem
底层通信全部使用netty进行了替换,使用的是org.apache.spark.spark-network-common这个内部lib。
2.1 类图分析
这里先上一个UML图展示了Spark RPC模块内的类关系,白色的是Spark-core中的scala类,黄色的是org.apache.spark.spark-network-common中的java类。
不要被这张图所吓倒,经过下面的解释分析,相信读者可以领会其内涵,不用细究其设计的合理度,Spark是一个发展很快、不断演进的项目,代码不是一成不变的,持续变化是一定的。
RpcEndpoint和RpcCallContext
先看最左侧的RpcEndpoint,RpcEndpoint是一个可以响应请求的服务,和Akka中的Actor类似,从它的提供的方法签名(如下)可以看出,receive方法是单向方式的,可以比作UDP,而receiveAndReply是应答方式的,可以比作TCP。它的子类实现可以选择性的覆盖这两个函数,我们第一章实现的HelloEndpoint以及Spark中的HeartbeatReceiver都是它的子类。
def receive: PartialFunction[Any, Unit] = {
case _ => throw new RpcException(self + " does not implement 'receive'")
}
def receiveAndReply(context: RpcCallContext): PartialFunction[Any, Unit] = {
case _ => context.sendFailure(new RpcException(self + " won't reply anything"))
}
其中RpcCallContext是用于分离核心业务逻辑和底层传输的桥接方法,这也可以看出Spark RPC多用组合,聚合以及回调callback的设计模式来做OO抽象,这样可以剥离业务逻辑->RPC封装(Spark-core模块内)->底层通信(spark-network-common)三者。RpcCallContext可以用于回复正常的响应以及错误异常,例如:
reply(response: Any) // 回复一个message,可以是一个case class。
sendFailure(e: Throwable) // 回复一个异常,可以是Exception的子类,由于Spark RPC默认采用Java序列化方式,所以异常可以完整的在客户端还原并且作为cause re-throw出去。
RpcCallContext也分为了两个子类,分别是LocalNettyRpcCallContext和RemoteNettyRpcCallContext,这个主要是框架内部使用,如果是本地就走LocalNettyRpcCallContext直接调用Endpoint即可,否则就走RemoteNettyRpcCallContext需要通过RPC和远程交互,这点也体现了RPC的核心概念,就是如何执行另外一个地址空间上的函数、方法,就仿佛在本地调用一样。
另外,RpcEndpoint还提供了一系列回调函数覆盖。
• onError
• onConnected
• onDisconnected
• onNetworkError
• onStart
• onStop
• stop
另外需要注意下,它的一个子类是ThreadSafeRpcEndpoint,很多Spark中的Endpoint继承了这个类,Spark RPC框架对这种Endpoint不做并发处理,也就是同一时间只允许一个线程在做调用。
还有一个默认的RpcEndpoint叫做RpcEndpointVerifier,每一个RpcEnv初始化的时候都会注册上这个Endpoint,因为客户端的调用每次都需要先询问服务端是否存在某一个Endpoint。
RpcEndpointRef
RpcEndpointRef类似于Akka中ActorRef,顾名思义,它是RpcEndpoint的引用,提供的方法send等同于!, ask方法等同于?,send用于单向发送请求(RpcEndpoint中的receive响应它),提供fire-and-forget语义,而ask提供请求响应的语义(RpcEndpoint中的receiveAndReply响应它),默认是需要返回response的,带有超时机制,可以同步阻塞等待,也可以返回一个Future句柄,不阻塞发起请求的工作线程。
RpcEndpointRef是客户端发起请求的入口,它可以从RpcEnv中获取,并且聪明的做本地调用或者RPC。
RpcEnv和NettyRpcEnv
类库中最核心的就是RpcEnv,刚刚提到了这就是ActorSystem,服务端和客户端都可以使用它来做通信。
对于server side来说,RpcEnv是RpcEndpoint的运行环境,负责RpcEndpoint的整个生命周期管理,它可以注册或者销毁Endpoint,解析TCP层的数据包并反序列化,封装成RpcMessage,并且路由请求到指定的Endpoint,调用业务逻辑代码,如果Endpoint需要响应,把返回的对象序列化后通过TCP层再传输到远程对端,如果Endpoint发生异常,那么调用RpcCallContext.sendFailure来把异常发送回去。
对client side来说,通过RpcEnv可以获取RpcEndpoint引用,也就是RpcEndpointRef的。
RpcEnv是和具体的底层通信模块交互的负责人,它的伴生对象包含创建RpcEnv的方法,签名如下:
def create(
name: String,
bindAddress: String,
advertiseAddress: String,
port: Int,
conf: SparkConf,
securityManager: SecurityManager,
numUsableCores: Int,
clientMode: Boolean): RpcEnv = {
val config = RpcEnvConfig(conf, name, bindAddress, advertiseAddress, port, securityManager,
numUsableCores, clientMode)
new NettyRpcEnvFactory().create(config)
}
RpcEnv的创建由RpcEnvFactory负责,RpcEnvFactory目前只有一个子类是NettyRpcEnvFactory,原来还有AkkaRpcEnvFactory。NettyRpcEnvFactory.create方法一旦调用就会立即在bind的address和port上启动server。
它依赖的RpcEnvConfig就是一个包含了SparkConf以及一些参数(kraps-rpc中更名为RpcConf)。RpcEnv的参数都需要从RpcEnvConfig中拿,最基本的hostname和port,还有高级些的连接超时、重试次数、Reactor线程池大小等等。
下面看看RpcEnv最常用的两个方法:
// 注册endpoint,必须指定名称,客户端路由就靠这个名称来找endpoint
def setupEndpoint(name: String, endpoint: RpcEndpoint): RpcEndpointRef
// 拿到一个endpoint的引用
def setupEndpointRef(address: RpcAddress, endpointName: String): RpcEndpointRef
NettyRpcEnv由NettyRpcEnvFactory.create创建,这是整个Spark core和org.apache.spark.spark-network-common的桥梁,内部leverage底层提供的通信能力,同时包装了一个类Actor的语义。上面两个核心的方法,setupEndpoint会在Dispatcher中注册Endpoint,setupEndpointRef会先去调用RpcEndpointVerifier尝试验证本地或者远程是否存在某个endpoint,然后再创建RpcEndpointRef。更多关于服务端、客户端调用的细节将在时序图中阐述,这里不再展开。
Dispatcher和Inbox
NettyRpcEnv中包含Dispatcher,主要针对服务端,帮助路由到正确的RpcEndpoint,并且调用其业务逻辑。
这里需要先阐述下Reactor模型,Spark RPC的Socket I/O一个典型的Reactor模型的,但是结合了Actor pattern中的mailbox,可谓是一种混合的实现方式。
使用Reactor模型,由底层netty创建的EventLoop做I/O多路复用,这里使用Multiple Reactors这种形式,如下图所示,从netty的角度而言,Main Reactor和Sub Reactor对应BossGroup和WorkerGroup的概念,前者负责监听TCP连接、建立和断开,后者负责真正的I/O读写,而图中的ThreadPool就是的Dispatcher中的线程池,它来解耦开来耗时的业务逻辑和I/O操作,这样就可以更scalabe,只需要少数的线程就可以处理成千上万的连接,这种思想是标准的分治策略,offload非I/O操作到另外的线程池。
真正处理RpcEndpoint的业务逻辑在ThreadPool里面,中间靠Reactor线程中的handler处理decode成RpcMessage,然后投递到Inbox中,所以compute的过程在另外的下面介绍的Dispatcher线程池里面做。
刚刚还提到了Actor pattern中mailbox模式,Spark RPC最早起源于Akka,所以进化到现在,仍然了使用了这个模式。这里就介绍Inbox,每个Endpoint都有一个Inbox,Inbox里面有一个InboxMessage的链表,InboxMessage有很多子类,可以是远程调用过来的RpcMessage,可以是远程调用过来的fire-and-forget的单向消息OneWayMessage,还可以是各种服务启动,链路建立断开等Message,这些Message都会在Inbox内部的方法内做模式匹配,调用相应的RpcEndpoint的函数(都是一一对应的)。
Dispatcher中包含一个MessageLoop,它读取LinkedBlockingQueue中的投递RpcMessage,根据客户端指定的Endpoint标识,找到Endpoint的Inbox,然后投递进去,由于是阻塞队列,当没有消息的时候自然阻塞,一旦有消息,就开始工作。Dispatcher的ThreadPool负责消费这些Message。
Dispatcher的ThreadPool它使用参数spark.rpc.netty.dispatcher.numThreads来控制数量,如果kill -3 每个Spark driver或者executor进程,都会看到N个dispatcher线程:
"dispatcher-event-loop-0" #26 daemon prio=5 os_prio=31 tid=0x00007f8877153800 nid=0x7103 waiting on condition [0x000000011f78b000]
那么另外的问题是谁会调用Dispatcher分发Message的方法呢?答案是RpcHandler的子类NettyRpcHandler,这就是Reactor中的线程做的事情。RpcHandler是底层org.apache.spark.spark-network-common提供的handler,当远程的数据包解析成功后,会调用这个handler做处理。
这样就完成了一个完全异步的流程,Network IO通信由底层负责,然后由Dispatcher分发,只要Dispatcher中的InboxMessage的链表足够大,那么就可以让Dispatcher中的ThreadPool慢慢消化消息,和底层的IO解耦开来,完全在独立的线程中完成,一旦完成Endpoint内部业务逻辑,利用RpcCallContext回调来做消息的返回。
Outbox
NettyRpcEnv中包含一个ConcurrentHashMap[RpcAddress, Outbox],每个远程Endpoint都对应一个Outbox,这和上面Inbox遥相呼应,是一个mailbox似的实现方式。
和Inbox类似,Outbox内部包含一个OutboxMessage的链表,OutboxMessage有两个子类,OneWayOutboxMessage和RpcOutboxMessage,分别对应调用RpcEndpoint的receive和receiveAndReply方法。
NettyRpcEnv中的send和ask方法会调用指定地址Outbox中的send方法,当远程连接未建立时,会先建立连接,然后去消化OutboxMessage。
同样,一个问题是Outbox中的send方法如何将消息通过Network IO发送出去,如果是ask方法又是如何读取远程响应的呢?答案是send方法通过org.apache.spark.spark-network-common创建的TransportClient发送出去消息,由Reactor线程负责序列化并且发送出去,每个Message都会返回一个UUID,由底层来维护一个发送出去消息与其Callback的HashMap,当Netty收到完整的远程RpcResponse时候,回调响应的Callback,做反序列化,进而回调Spark core中的业务逻辑,做Promise/Future的done,上层退出阻塞。
这也是一个异步的过程,发送消息到Outbox后,直接返回,Network IO通信由底层负责,一旦RPC调用成功或者失败,都会回调上层的函数,做相应的处理。
spark-network-common中的类
这里暂不做过多的展开,都是基于Netty的封装,有兴趣的读者可以自行阅读源码,当然还可以参考我之前开源的Navi-pbrpc框架的代码,其原理是基本相同的。
时间:2018-10-09 22:44 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
相关推荐:
网友评论: