得物從零構建億級消息推送系統的送達穩定性監控體系技術實踐

Posted on 2024-01-25 11:27 Jack Jiang 閱讀(394) 評論(0) 編輯收藏

本文由得物技術暖樹分享，有修訂和改動。

1、引言

本文分享的是得物針對現有的消息推送系統的消息送達耗時、實時性、穩定性等方面問題，從零到一構建完整的消息推送質量監控體系和機制的技術實踐。

技術交流：

- 移動端IM開發入門文章：《新手入門一篇就夠：從零開發移動端IM》
- 開源IM框架源碼：https://github.com/JackJiang2011/MobileIMSDK（備用地址點此）

（本文已同步發布于：http://www.52im.net/thread-4614-1-1.html）

2、消息推送的作用

2.1 什么是消息推送

消息推送每天都在我們的手機上發生，如下圖所示，除非你的手機沒有安裝App或關閉了通知欄權限。

2.2 消息推送的價值

從用戶的生命周期來看，消息推送對于提高App活躍度、提升用戶粘性和用戶留存率都起到了重要作用。

比如：

1）提升新用戶次日留存，低成本促活，對平臺的短期留存率影響顯著；
2）提升老用戶活躍度，push可以通過外部提醒起到拉活的作用；
3）流失用戶召回，當用戶流失后，若push權限未關閉，通過消息推送的方式，有可能重新喚醒用戶。

對于第 2）點，很多內容平臺類App的用戶push首次啟動占比可達 10%以上，因此push對DAU的增量貢獻不容小覷。

3、業務背景和技術痛點

消息中心為得物App提供了強大，高效的用戶觸達渠道。其中push對于得物DAU的貢獻有可觀的占比，這也就意味著每一條推送消息都是一次與用戶溝通的寶貴機會。所以推送的穩定性成為我們關注的首要問題。

那么我們遇到的以下痛點就亟待解決：

1）消息中心沒有明確消息推送的耗時標準，業務和技術之間存在gap，業務方對于推送的消息什么時候到達沒有明確的心理預期。

2）從技術上來講消息推送各個節點的耗時不明確，無法對各個節點的耗時做針對性的優化，這也就需要我們針對消息推送的節點耗時進行監控。

3）消息推送的穩定性依賴于第三方的推送通道，而三方通道對于我們來講就是個黑盒子，如何做到三方通道異常及時發現并止損也是需要考慮的問題。

4）在我們正常的迭代過程中有時候不可避免的會出現些異常或者有壞味道的代碼，這些問題能不能及時發現、及時止損，能不能及時告警出來。

4、穩定性監控體系

SLA（Service-Level Agreement），也就是服務等級協議，指的是系統服務提供者（Provider）對客戶（Customer）的一個服務承諾。這是衡量一個大型分布式系統是否“健康”的常見方法。

在開發設計系統服務的時候，無論面對的客戶是公司外部的個人、商業用戶，還是公司內的不同業務部門，我們都應該對自己所設計的系統服務有一個定義好的SLA。因為SLA是一種服務承諾，所以指標可以多種多樣。

最常見的四個SLA指標：

1）可用性；
2）準確性；
3）系統容量；
4）延遲。

對于消息推送而言，我們主要關注的是消息能否及時可靠的送達給用戶，也就是SLA中關注的時效性和穩定性的問題。

目前消息中心針對實效性和穩定性的開發已經完成并初顯成效。

系統架構圖：

下面主要針對時效性和穩定性的監控做一些介紹。

5、時效性監控的技術實現

5.1 節點的拆分

如何做到時效性的無死角監控，那么我們就要對消息推送的整個流程進行拆分，把整個流程拆分成若干個獨立且無依賴的可監控節點。

從消息系統流轉圖中可以看到：整個推送流程是清晰明了的，消息的的推送主要會經歷推送鑒權、用戶查詢、防疲勞過濾、防重復過濾等的邏輯處理，考慮到每個業務邏輯的處理是相互獨立且無依賴的，那我們就可以根據具體的業務處理邏輯進行節點的拆分，這樣就可以做到拆分無遺漏，監控無死角。

拆分后的具體節點如下：

5.2 節點耗時的計算

具體的節點拆分邏輯和耗時邏輯的計算如下圖：

節點耗時的計算：記錄節點消息推送到達的時間，并計算節點推送耗時，例如：防疲勞耗時 = T7(antiFatigueConsumeTime) - T6(checkrepeatConsumeTime)。

節點阻塞量的計算：記錄節點消息推送的瞬時阻塞量，例如：防疲勞節點阻塞量 = 防疲勞的總量 - 防疲勞已經處理的量。

5.3 節點指標的制定

既然需要監控的節點已經拆分明確了，那針對這些節點我們監控哪些指標才是有意義的呢。

1）目前消息推送高峰耗時較長，各業務域對于消息的到達時間也沒有明確的心理一個預期，另外消息中心也無法感知推送在整個鏈路各個節點的耗時情況，無法針對節點耗時做到有針對性的優化，所以節點的推送量和推送耗時就是我們需要重點關注的指標。

2）節點的阻塞量可以讓我們及時感知到推送中存在的積壓問題，在大促期間，消息的推送量也會達到一個高峰，消息目前是否有堆積，處理的速度是否跟的上，是否需要臨時擴容，那么節點的阻塞量就成了一個比較有意義的參考指標。

考慮到消息推送是有優先級的并且區分單推和批量推，所以我們要針對不同的優先級和推送方式設置不同的標準。

消息推送耗時的具體標準如下：

5.4 技術方案的實現

為了能感知到消息推送中發生的異常和耗時情況，這就需要我們標準化監控指標和監控的節點。

其中耗時指標可以感知節點的耗時和代碼的壞味道，阻塞量可以監控到節點的堆積情況，推送成功率可以感知節點的推送異常等。

另外節點拆分后我們可以很快定位到異常發生的具體位置，經過拆分監控的主要節點包括鑒權、風控、用戶查詢、防疲勞、防重復、廠商調用等。

另外消息中心每天推送大量消息給得物用戶，SLA監控任何一個操作嵌入主流程中都可能導致消息推送的延遲。這也就要求監控和主流程進行隔離，主流程的歸主流程，SLA 的歸 SLA，SLA 監控代碼從主流程邏輯中剝離出來，徹底避免SLA代碼對主流程代碼的污染,這也就要求SLA邏輯計算需要獨立于推送業務的主流程進行異步計算，防止SLA監控拖垮整個主流程，那么Spring AOP+Spring Event就是最好的實現方式。