Raft是一种用于替代Paxos的共识算法。相比于Paxos,Raft的目标是提供更清晰的逻辑分工使得算法本身能被更好地理解,同时它安全性更高,并能提供一些额外的特性。[1][2]:1Raft能为在计算机集群之间部署有限状态机提供一种通用方法,并确保集群内的任意节点在某种状态转换上保持一致。Raft算法的开源实现众多,在Go、C++、Java以及 Scala中都有完整的代码实现。Raft这一名字来源于"Reliable, Replicated, Redundant, And Fault-Tolerant"(“可靠、可复制、可冗余、可容错”)的首字母缩写。[3]
简介
Raft透过选举领袖(英语:leader)的方式做共识演算法。
在Raft丛集(英语:Raft cluster)里,伺服器可能会是这三种身份其中一个:领袖(英语:leader)、追随者(英语:follower),或是候选人(英语:candidate)[2]:5。在正常情况下只会有一个领袖,其他都是追随者[2]:5。而领袖会负责所有外部的请求,如果不是领袖的机器收到时,请求会被导到领袖[2]:5。
通常领袖会借由固定时间发送讯息,也就是“心跳(英语:heartbeat)”[2]:5,让追随者知道丛集的领袖还在运作。而每个追随者都会设计逾时机制(英语:timeout),当超过一定时间没有收到心跳(通常是150 ms或300 ms[2]:6),丛集就会进入选举状态。
Raft将问题拆成数个子问题分开解决[2]:1,让人更容易了解:
- 领袖选举(英语:Leader Election)
- 记录复写(英语:Log Replication)
- 安全性(英语:Safety)
在起始演算法或领袖当机、断线的时候,就需要选举出新的领袖。
此时丛集进入新的任期(英语:term)并开始选举,如果选举成功则新的领袖开始执行工作,反之则视此任期终止,开始新的任期并开始下一场选举。
选举是由候选人发动的。当领袖的心跳逾时的时候,追随者就会把自己的任期编号(英语:term counter)加一、宣告竞选、投自己一票、并向其他伺服器拉票。每个伺服器在每个任期只会投一票,固定投给最早拉票的伺服器。
如果候选人收到其他候选人的拉票、而且拉票的任期编号不小于自己的任期编号,就会自认落选,成为追随者,并认定来拉票的候选人为领袖。如果有候选人收到过半的选票就当选为新的领袖。如果逾时仍没有选出新领袖,此任期自动终止,开始新的任期并开始下一场选举。
Raft每个伺服器的逾时期限是随机的,这降低伺服务同时竞选的机率,也降低因两个竞选人得票都不过半而选举失败的机率。
记录复写的责任在领袖身上。
整个丛集有个复写的状态机(英语:state machine),可执行外来的指令。领袖接收指令,将之写入自己记录中的新指令部分,然后把指令转发给追随者。如果有追随者没反应,领袖会不断重发指令、直到每个追随者都成功将新指令写入记录为止。
当领袖收到过半追随者确认写入的讯息,就会把指令视为已储存(英语:committed)。当追随者发现指令状态变成已储存,就会在其状态机上执行该指令。
当领袖当机时,领袖的某些新指令可能还没复写到丛集整体,造成丛集的记录处于不一致的状态。新领袖会担起重返一致的责任,让每个追随者的记录都和它的一致,做法是:和每个追随者比对记录,找出两者一致的最后一笔指令,删除追随者之后的指令,把自己之后的指令拷贝给追随者。这个机制完成时,每个伺服器的记录就会一致。
Raft保证以下的安全性:
- 选举安全性:每个任期最多只能选出一个领袖。
- 领袖附加性:领袖只会把新指令附加(英语:append)在记录尾端,不会覆写或删除已有指令。
- 记录符合性:如果某个指令在两个记录中的任期和指令序号一样,则保证序号较小的指令也完全一样。
- 领袖完整性:如果某个指令在某个任期中储存成功,则保证存在于领袖该任期之后的记录中。
- 状态机安全性:如果某伺服器在其状态机上执行了某个指令,其他伺服器保证不会在同个状态上执行不同的指令。
前四项保证的原因详见上述演算法,状态机安全性则借由下述选举流程的限制所达到。
当某台追随者当机时,所有给它的转发指令和拉票的讯息都会因没有回应而失败,此时发送端会持续重送。当这台追随者开机重新加入丛集,就会收到这些讯息,追随者会重新回应,如果转发的指令已经写入,不会重复写入。
领袖当机或断线时,每个已储存指令必定已经写入到过半的伺服器中,此时选举流程会让记录最完整的伺服器胜选。其中一个因素是Raft候选人拉票时会揭露自己记录最新一笔的资讯,如果伺服器自己的记录比较新,就不会投票给候选人。
因为Raft启动选举是基于逾时,使得逾时期限的选择至为关键。若遵守演算法的时限需求
广播时间 << 逾时期限 << 平均故障间隔
就能达到稳定性。这三个时间定义如下:
- 广播时间 是单一伺服器发送讯息给丛集中每台伺服器并得到回应的平均时间,需要测量得到。
- 逾时期限 是发动选举的逾时期限,由部署Raft丛集的人选定。
- 平均故障间隔 是伺服器发生故障之间的平均时间,可以测量或估计得到。
广播时间典型是 0.5ms 到 20ms,平均故障间隔通常是用周或月来计算的,所以可以将逾时期限设在 10ms 到 500ms。
参考文献
相关连结
外部链接
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.