婷婷五月激情视频,欧亚综合一区,麻豆日本中文,黄色亚洲成人在线

當前位置: 首頁 > 培訓動態(tài) > 編程資訊 > 新聞內(nèi)容

數(shù)據(jù)庫和文件的事件驅(qū)動架構(gòu)較佳實踐

編輯：哈爾濱童程童美少兒編程培訓南崗校區(qū) 更新時間：2025/02/13 14:16

童程童美少兒編程教育以10000-25000元的學費，平均每堂課200-300元，為學生提供了高性價比的學習體驗?；ヂ?lián)網(wǎng)上對我們的介紹充滿贊譽，認可我們的經(jīng)濟實惠和透明宣傳。機構(gòu)介紹清晰透明，受到互聯(lián)網(wǎng)用戶的一致好評，建立了極高的信任度。師資團隊經(jīng)驗豐富，專業(yè)而有激情，致力于培養(yǎng)學生創(chuàng)新思維。學校環(huán)境設(shè)計充滿創(chuàng)意，吸引學生自由表達創(chuàng)造力。多地校區(qū)設(shè)置，提供便利的學習場所。提供多樣化教學項目，以學生成績和學習效果為導向，學員家長的積極評價是我們好的證明。

我們遇到了問題。數(shù)據(jù)集成領(lǐng)域以基于輪詢的 ETL 管道為主，這些管道按計劃運行并發(fā)起與源數(shù)據(jù)系統(tǒng)的通信。這種模式很普遍；各行業(yè)各種規(guī)模的公司都在使用它。

為什么這是個問題？其實有兩個：

增加了源數(shù)據(jù)系統(tǒng)的負載：在許多情況下，源系統(tǒng)是應(yīng)用程序數(shù)據(jù)庫，ETL 工具查詢該數(shù)據(jù)庫以獲取數(shù)據(jù)的更改。
通常使用“增量”方法來僅選擇自上次輪詢以來已更改的數(shù)據(jù)，并且您可能會認為這種方法可以較大限度地減少這些查詢掃描的數(shù)據(jù)量。然而，在很多情況下，你都錯了。

實際上，這些查詢通常會掃描整個表。這是因為源系統(tǒng)的索引通常與 ETL 工具用于過濾數(shù)據(jù)的鍵不匹配，因此查詢經(jīng)常對數(shù)據(jù)庫進行完整掃描以搜索新行，即使它只返回一小部分子集。
因此，雖然由于查詢結(jié)果集較小，采用增量方法您的網(wǎng)絡(luò)和存儲負載可能會更小，但您的應(yīng)用程序數(shù)據(jù)庫仍然支持全表掃描。您較終可能會給數(shù)據(jù)庫帶來巨大的負載，這較多只會降低其所支持的應(yīng)用程序的體驗。更糟糕的是，您將看到天價的計算費用。
您可能認為從數(shù)據(jù)庫中提取更改的增量方法會很有效，但在許多情況下，這些查詢?nèi)匀粫呙枵麄€表。

變更數(shù)據(jù)并不新鮮。根據(jù)定義，基于輪詢的 ETL 按計劃運行，因此一旦作業(yè)完成就會立即過時。在較好的情況下，這些作業(yè)每小時運行一次。更常見的是，它們每 12 到 24 小時運行一次。
您可以較大限度地縮短輪詢作業(yè)之間的時間以使事情變得更新鮮，但現(xiàn)在您遇到了問題#1，并且您不能冒險關(guān)閉應(yīng)用程序來支持您可能擁有的任何下游數(shù)據(jù)需求。
因此，您根本無法支持依賴于實時數(shù)據(jù)的用例，例如面向用戶的分析、基于使用情況的計費、實時個性化引擎、實時欺詐檢測等。對于基于輪詢的 ETL 來說這是不可能的。
基于輪詢的批量 ETL 會給源數(shù)據(jù)系統(tǒng)帶來過度的壓力，并導致過時的數(shù)據(jù)被加載到下游系統(tǒng)中。在這篇博文中，我重點介紹了幾種事件驅(qū)動的架構(gòu)模式，作為基于輪詢的工作流程的替代方案。

在Tinybird，我們相信數(shù)據(jù)應(yīng)該在發(fā)生時立即處理。時期。我們認為，數(shù)據(jù)和工程團隊應(yīng)該使用專門適合處理和處理這些數(shù)據(jù)的工具，而不會給其他系統(tǒng)和資源增加過度的壓力。

在這篇博文中，我將重點介紹可以跨不同源數(shù)據(jù)系統(tǒng)實現(xiàn)的幾種不同的事件驅(qū)動架構(gòu)模式，并討論這些實現(xiàn)的優(yōu)缺點。

切換到事件驅(qū)動架構(gòu)

事件流、消息隊列和無服務(wù)器功能正在興起，一些開明的人正在從輪詢思維轉(zhuǎn)向新的范式：事件驅(qū)動架構(gòu)。

事件驅(qū)動架構(gòu)的概念非常簡單。數(shù)據(jù)幾乎總是為了響應(yīng)某種事件而生成：用戶單擊按鈕、處理事務(wù)、上傳文件。為什么不使用這些事件來觸發(fā)實時數(shù)據(jù)攝取過程？

事件驅(qū)動架構(gòu)背后的想法很簡單：使用事件觸發(fā)數(shù)據(jù)攝取過程。

事件驅(qū)動架構(gòu)解決了上述兩個問題，并且它已經(jīng)作為繞過（或者更確切地說，并行）源數(shù)據(jù)系統(tǒng)的數(shù)據(jù)捕獲和集成的方法而受到關(guān)注。

事件驅(qū)動架構(gòu)的示例用例

考慮一個幾乎適用于所有 B2C 業(yè)務(wù)和大多數(shù) B2B 業(yè)務(wù)的場景：您有一個面向用戶的應(yīng)用程序，該應(yīng)用程序構(gòu)建在與 Postgres 或 MySQL 等應(yīng)用程序數(shù)據(jù)庫通信的后端 API 之上。

當用戶在應(yīng)用程序中執(zhí)行操作時，它會調(diào)用 API 并生成一些數(shù)據(jù)，然后將其推送到數(shù)據(jù)庫。隨著您的公司獲得關(guān)注并且應(yīng)用程序添加了更多用戶和更多功能，您開始擴展數(shù)據(jù)庫，拼命努力跟上來自 API 的單行插入頻率的增加。

然后營銷部門的一些笨蛋想要對這些數(shù)據(jù)進行分析。因此，您在晚上大多數(shù)用戶都在睡覺并且應(yīng)用程序數(shù)據(jù)庫服務(wù)器有一些額外周期時運行批量導出，然后將新數(shù)據(jù)復(fù)制到數(shù)據(jù)倉庫。這很常見。大多數(shù)公司都是這樣做的。

這就是您遇到這兩個問題的地方。批處理作業(yè)會給數(shù)據(jù)庫帶來額外的負載，并且較終會得到陳舊的數(shù)據(jù)。如果您嘗試更頻繁地運行該作業(yè)來進行補償，則會增加負擔。這是一個無法通過批量 ETL 解決的第 22 條軍規(guī)。

批處理作業(yè)會給數(shù)據(jù)庫帶來額外的負載，并且較終會得到陳舊的數(shù)據(jù)。如果您嘗試更頻繁地運行該作業(yè)來進行補償，則會增加負擔。這是一個無法通過批量 ETL 解決的第 22 條軍規(guī)。

那么如何才能避免這兩個問題并且仍然讓營銷人員滿意呢？

關(guān)鍵是在數(shù)據(jù)到達應(yīng)用程序數(shù)據(jù)庫之前（或同時）將數(shù)據(jù)獲取到倉庫。在這種情況下，您已經(jīng)有一個事件：API 調(diào)用。您可以利用這一點，將事件及其數(shù)據(jù)推送到消息隊列，同時后端將其插入應(yīng)用程序數(shù)據(jù)庫。

通過這種事件驅(qū)動的方法，您完全稍后從應(yīng)用程序數(shù)據(jù)庫中提取此數(shù)據(jù)；它已經(jīng)在消息隊列中了。

事件驅(qū)動方法的關(guān)鍵是在數(shù)據(jù)到達應(yīng)用程序數(shù)據(jù)庫之前（或同時）將數(shù)據(jù)獲取到倉庫。

這是一種非常有效的模式，因為數(shù)據(jù)已經(jīng)生成并存儲在后端的內(nèi)存中。您只需將其發(fā)送到另一個端點即可。

但是，與所有模式一樣，有一個缺點：您必須對應(yīng)用程序的后端進行代碼更改。這項工作通常被推給負責后端的軟件工程師，而不是管理數(shù)據(jù)（庫）的團隊。

這可能會給您的組織帶來挑戰(zhàn)，也可能不會。如果軟件團隊積壓了問題，這可能不是優(yōu)先考慮的事情。這完全取決于他們的移動速度以及您可以等待多長時間。

變更數(shù)據(jù)捕獲怎么樣？

變更數(shù)據(jù)捕獲(CDC) 是事件驅(qū)動架構(gòu)中經(jīng)過驗證的實現(xiàn)，您可以使用它來避免在不接觸后端的情況下加載數(shù)據(jù)庫，它有其優(yōu)點和缺點。

使用 CDC，您可以訂閱數(shù)據(jù)庫中所做更改（例如插入、更新和刪除）的日志，并將這些更改推送到其他地方。如果您不適合對 API 進行代碼更改，那么 CDC 是在應(yīng)用程序數(shù)據(jù)庫之外構(gòu)建事件驅(qū)動管道的好方法。

大多數(shù)應(yīng)用程序數(shù)據(jù)庫都會創(chuàng)建對數(shù)據(jù)庫執(zhí)行的操作的日志。對于某些數(shù)據(jù)庫，此日志是數(shù)據(jù)庫架構(gòu)的核心部分，例如 Postgres 的預(yù)寫日志（WAL）。對于其他人來說，這是一個需要啟用的單獨功能，就像 MySQL 的 bin 日志一樣。

無論哪種情況，其想法都基本相同。日志是數(shù)據(jù)庫更改（例如插入、更新、刪除）及其數(shù)據(jù)的僅附加文件。每個操作都按時間順序附加為新行，這意味著您只需從頂部開始并逐一重播每個事件，即可使用日志在準確的時刻重建數(shù)據(jù)庫的狀態(tài)。

CDC 工具會監(jiān)視此日志文件中的新行，將每個更改操作捕獲為一個事件，并將這些事件推送到其他地方。將這些事件推送到僅附加事件流系統(tǒng)（例如 Apache Kafka）的情況尤其常見。然后可以將更改操作推送到所需的下游系統(tǒng)，例如分析 (OLAP) 數(shù)據(jù)庫。

如果您不能或不想更新現(xiàn)有的 API 代碼，則更改數(shù)據(jù)捕獲是一種有吸引力的策略。擁有數(shù)據(jù)庫的團隊通常擁有 CDC 實現(xiàn)，并且有像 Debezium 這樣的開源框架，使得啟動和運行相對簡單。

由于此策略僅涉及監(jiān)視日志文件，因此它比對數(shù)據(jù)庫運行增量查詢要輕得多。新行會立即附加到日志文件中，因此可以近乎實時地訪問它們，從而將延遲保持在較低限度。

當您的后端工程團隊無法或不想更新后端 API 以與數(shù)據(jù)庫寫入并行地將事件發(fā)送給下游消費者時，變更數(shù)據(jù)捕獲系統(tǒng)是事件驅(qū)動架構(gòu)的一個很好的替代方案。

然而，這并不全是陽光和雛菊。雖然讀取日志文件是輕量級的，但它仍然需要服務(wù)器上的額外代理進程，這確實增加了負載。在擴展應(yīng)用程序數(shù)據(jù)庫時，它增加了另一層考慮因素，因為您必須考慮增加的流量將如何影響該代理所需的資源。

它還引入了您的團隊可能不熟悉的全新技術(shù)。雖然這些工具被廣泛采用且易于上手，但隨著規(guī)模的擴大或偏離常規(guī)，它們可能會變得難以理解。

這兩種策略都沒有錯，較終結(jié)果基本相同：來自應(yīng)用程序堆棧的實時更改流。由您決定較佳方法。

事件驅(qū)動架構(gòu)不僅僅適用于數(shù)據(jù)庫

當然，并非每個數(shù)據(jù)攝取場景都涉及應(yīng)用程序數(shù)據(jù)庫。也許甚至不是大多數(shù)。在這種情況下，數(shù)據(jù)庫中的行與生成的事件之間可能不具有 1:1 的關(guān)系。在許多情況下，您實際上可能會以文件形式接收數(shù)據(jù)，這些數(shù)據(jù)要么是從內(nèi)部服務(wù)推送的，要么是從外部數(shù)據(jù)供應(yīng)商收集的。事件驅(qū)動架構(gòu)可以像數(shù)據(jù)庫一樣應(yīng)用于文件系統(tǒng)。

在過去（實際上，今天仍然很常見），數(shù)據(jù)生產(chǎn)者或經(jīng)紀人會建立一個大型文件傳輸協(xié)議（FTP）服務(wù)器并將文件轉(zhuǎn)儲到一個大型存儲服務(wù)器上。他們向客戶提供 FTP 憑據(jù)，客戶端將在每天運行的 bash 腳本中使用該憑據(jù)來查找新文件并將其復(fù)制到內(nèi)部共享存儲中。這是一個奇特的小工作流程，多年來一直發(fā)揮其作用。

但是，除了過時之外，它還存在一些問題：

必須有人維護龐大的存儲服務(wù)。任何數(shù)據(jù)生產(chǎn)者或經(jīng)紀人都需要構(gòu)建和維護自己的內(nèi)部文件存儲系統(tǒng)。這是昂貴且痛苦的。
FTP 不靈活或可擴展。FTP 不是一個特別靈活的協(xié)議，尤其是當您下載大文件時，網(wǎng)絡(luò)故障可能會導致傳輸中斷，您必須從頭開始。它也很難擴展，因此通常很慢。由于許多客戶端同時連接并嘗試下載文件，速度很快就會變得緩慢。
FTP 已經(jīng)過時且不靈活，但至今仍被廣泛使用。

事件驅(qū)動數(shù)據(jù)管道的好處在于它們非常靈活，可以適應(yīng)許多用例、許多源數(shù)據(jù)系統(tǒng)以及下游數(shù)據(jù)消費者的許多不同需求。它們可以像數(shù)據(jù)庫一樣用于文件，盡管使用的是不同的工具集。

現(xiàn)代云供應(yīng)商使事件驅(qū)動的文件攝取變得簡單

時代變了，現(xiàn)在我們擁有容錯、可擴展且經(jīng)濟的文件存儲服務(wù)，例如 Amazon S3 和 Google Cloud Storage。

這些服務(wù)不僅使用起來比 FTP 更有趣，而且還使得使用事件驅(qū)動的架構(gòu)來分發(fā)和使用文件成為可能。而不是不斷地輪詢存儲服務(wù)來詢問“新文件是否到達？” 或者等待一整天然后說“給我昨天到達的所有文件”，存儲服務(wù)本身可以創(chuàng)建有關(guān)新文件的通知并將它們推送到消息隊列，就像在數(shù)據(jù)庫的事件驅(qū)動架構(gòu)中一樣。

然后，下游消費者可以簡單地訂閱消息隊列，并在收到通知時去獲取文件。

托管在云供應(yīng)商的對象存儲中的文件可以利用云原生通知服務(wù)來通知下游消費者有新的或修改的文件。

這種模式非常有用，有以下幾個原因：

它比 FTP 更強大。您不必擔心維護 FTP 服務(wù)器或您自己的文件存儲系統(tǒng)。您不必擔心網(wǎng)絡(luò)故障或客戶端連接速度慢。您不必擔心如何處理遲到的文件或已重新上傳的文件以修復(fù)數(shù)據(jù)中的錯誤。存儲服務(wù)和消息隊列讓這些痛苦大部分神奇地消失了。
它增加了數(shù)據(jù)的新鮮度。當然，如果您正在處理文件，您永遠不會擁有較新的數(shù)據(jù)，因為它們已經(jīng)全部批處理到文件中......但您至少可以在文件準備好后立即獲取文件，而不是幾個小時或幾天后。

您可以看到這如何反映應(yīng)用程序數(shù)據(jù)庫的場景。源數(shù)據(jù)系統(tǒng)不同，但實現(xiàn)和好處非常相似。

由于這些現(xiàn)代云存儲服務(wù)內(nèi)置了事件通知，只需單擊一下即可啟用，因此設(shè)置事件驅(qū)動的文件攝取非常容易。數(shù)據(jù)創(chuàng)建者幾乎不需要做額外的工作，數(shù)據(jù)消費者可以利用無服務(wù)器服務(wù)，從而輕松采用這種新模式。

例如，Amazon 有 SQS 和 SNS，可用于對這些事件進行排隊，然后您可以附加任意數(shù)量的工具來響應(yīng)事件并處理文件。例如，您可以使用 Apache NiFi 處理在 SQS 中排隊的 S3 事件通知。

消息隊列：靈活、耐用、

因此，無論您使用數(shù)據(jù)庫還是文件作為源數(shù)據(jù)系統(tǒng)，您都可以采用這些新模式來實現(xiàn)事件驅(qū)動架構(gòu)。您可以發(fā)出事件，而不是輪詢數(shù)據(jù)庫或文件存儲以獲取更改。

但你應(yīng)該如何處理這些事件呢？

實際上，你有兩個選擇：

將事件放在消息隊列或事件流平臺上，或者
讓事件直接觸發(fā)流程

在上述事件驅(qū)動模式中，我特別提到了選項 #1。這是模式，也是大多數(shù)人選擇的模式。

為什么？消息隊列是一種持久、靈活且的數(shù)據(jù)到達方式。消息隊列的優(yōu)點有兩個：

首先，您通過以下方式解決我們開始的兩個問題：

將下游用例與源數(shù)據(jù)系統(tǒng)解耦，以及
數(shù)據(jù)生成后立即交付給消費者。

其次，大多數(shù)消息隊列允許任意數(shù)量的下游消費者連接并訂閱新消息。因此，如果 4 個不同的團隊構(gòu)建 8 個不同的東西，想要以 16 種不同的方式訪問數(shù)據(jù)，他們就可以各自完成自己的事情，而不會互相干擾。

消息隊列并不是處理事件驅(qū)動的實時數(shù)據(jù)攝取的方法，但它們是迄今為止較受歡迎的方法，因為它們將源數(shù)據(jù)與消費者解耦，并且足夠靈活，可以同時處理許多不同的消費者。

如果團隊只想每天獲取更改，他們可以批量使用昨天的消息。但是，如果另一個團隊想要實時使用消息，他們可以監(jiān)視新消息并在數(shù)據(jù)到達時自動觸發(fā)其流程。

該模型非常適合數(shù)據(jù)庫和文件，但它確實需要額外的中介服務(wù)。隨著事件驅(qū)動架構(gòu)和實現(xiàn)的增長，您可能會投入大量資源來維護和擴展消息隊列或事件流平臺?？紤]到事件驅(qū)動架構(gòu)所實現(xiàn)的所有實時用例，這可能是一個值得的權(quán)衡。

那么，您可以跳過隊列嗎？

是的，您可以跳過隊列

在某些情況下，您可以讓事件直接觸發(fā)流程。例如，您可以將 Amazon S3 配置為直接觸發(fā) AWS Lambda 函數(shù)，從而允許您立即處理單個事件。您可以使用其他處理框架（例如 Apache NiFi 或 Apache Flink）復(fù)制此模型。

現(xiàn)在，這種方法有利有弊。較大的優(yōu)點是您可以省去另一個中間服務(wù)，因此它既便宜又簡單。當您立即調(diào)用處理函數(shù)時，您還可以較大限度地減少延遲并保持數(shù)據(jù)新鮮度。

更簡單的用例，您可以跳過消息隊列并使用無服務(wù)器函數(shù)根據(jù)源文件系統(tǒng)中的更新立即觸發(fā)進程。

然而，也有缺點。消息隊列提供了您在處理框架中可能無法獲得的持久性級別，這可能會使處理故障變得更加困難。

你也會失去一些靈活性。由于您避開了“發(fā)布/訂閱”模型，因此您可能會直接將事件發(fā)送到單個處理器，而不是將它們發(fā)布到多個處理器可以根據(jù)需要進行訂閱的隊列。

例如，如果您將事件發(fā)送到 SQS，您可以連接一堆不同的工具（例如 Apache NiFi、Apache Flink、Striim、StreamSets）或位于小型、廉價的 EC2 服務(wù)器上的您自己的代碼來處理事件。如果您直接將事件發(fā)送到 Lambda，則沒有這種靈活性。

將此模式應(yīng)用于數(shù)據(jù)庫也更困難。對于文件，事件往往較少，因為每個事件代表一大塊數(shù)據(jù)（文件），并且很容易定義一個流程“當我獲取文件時，執(zhí)行此操作，然后結(jié)束”。

當您有來自應(yīng)用程序數(shù)據(jù)庫的更改流時，這會更加困難。啟動和停止進程會產(chǎn)生開銷，如果您不斷收到變化流，您不希望為每個事件啟動的進程。您通常需要一個長期運行的進程來消耗事件并將它們作為連續(xù)流進行處理。

較終，這兩種方法都可以用于事件驅(qū)動的文件攝取，但較好使用隊列進行數(shù)據(jù)庫更改。

結(jié)論

我在這里介紹了一些不同的模式，用于從數(shù)據(jù)庫和文件捕獲和集成事件驅(qū)動的數(shù)據(jù)。對于數(shù)據(jù)庫，您可以修改后端代碼以在數(shù)據(jù)庫之前通過 API 調(diào)用發(fā)出事件，或者選擇更改數(shù)據(jù)捕獲工具來監(jiān)視數(shù)據(jù)庫日志文件并在數(shù)據(jù)庫之后發(fā)出有關(guān)更改的事件。對于文件，您可以使用云原生消息服務(wù)將事件發(fā)送到消息隊列或直接使用無服務(wù)器函數(shù)觸發(fā)進程。

較終，這些方法中的任何一種都將幫助您較大限度地減少源數(shù)據(jù)系統(tǒng)的負載，并在數(shù)據(jù)到達數(shù)據(jù)消耗流程時提高數(shù)據(jù)的新鮮度。

當然，并非每個用例都需要新鮮數(shù)據(jù)。例如，商業(yè)智能 (BI) 報告通?？梢悦刻??批量生成。但實時運營分析、產(chǎn)品內(nèi)分析、實時個性化和異常檢測、智能庫存管理和游戲等運營和面向用戶的功能確實需要新鮮數(shù)據(jù)。如果您使用基于輪詢的方法從源系統(tǒng)捕獲數(shù)據(jù)，則您根本無法訪問新數(shù)據(jù)，并且無法執(zhí)行這些用例。他們簡直是不可能的。

如果您正在嘗試構(gòu)建任何這些實時用例，或者正在評估可幫助您轉(zhuǎn)向事件驅(qū)動架構(gòu)和實時數(shù)據(jù)處理的工具，您還應(yīng)該考慮嘗試一下Tinybird。Tinybird 可讓您統(tǒng)式和批處理數(shù)據(jù)源，使用 SQL 連接和轉(zhuǎn)換它們，并以高并發(fā)、低延遲的 API 形式與內(nèi)部利益相關(guān)者快速共享您的實時數(shù)據(jù)產(chǎn)品。Tinybird構(gòu)建計劃是的，沒有時間限制，甚至還有模擬數(shù)據(jù)流工作流程，以防您只是為了學習該工具而不想自帶數(shù)據(jù)。

本頁面由主體*哈爾濱童程童美少兒編程培訓南崗校區(qū)*自行上傳,本網(wǎng)不對該頁面內(nèi)容（包括但不限于文字、圖片）真實性和知識產(chǎn)權(quán)負責,如有侵權(quán)請聯(lián)系處理刪除qq:16720809 。

您可能感興趣的資源：

微信咨詢

微信掃碼，享更多好課