日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關咨詢
選擇下列產品馬上在線溝通
服務時間:8:30-17:00
你可能遇到了下面的問題
關閉右側工具欄

新聞中心

這里有您想知道的互聯(lián)網營銷解決方案
六個2023年熱門開源數(shù)據(jù)質量管理工具

城市管理、智慧社區(qū)、工業(yè)智能化、智慧金融、智慧醫(yī)療等社會千行百業(yè)的數(shù)字化和智能化發(fā)展,離不開以大數(shù)據(jù)和AI為基礎的技術體系。我們的社會(或者我們關注的領域)每天都在產生大量的數(shù)據(jù),這些數(shù)據(jù)有的是生產數(shù)據(jù),有的是行為數(shù)據(jù),如何利用好這些數(shù)據(jù),讓數(shù)據(jù)產生價值就需要對數(shù)據(jù)的產生、收集、管理、應用等方面進行數(shù)據(jù)治理。數(shù)據(jù)質量是大數(shù)據(jù)領域的一個重要特征,低質量的數(shù)據(jù)不僅浪費資源,更影響數(shù)據(jù)計算結果,數(shù)據(jù)質量的高低對大數(shù)據(jù)應用價值有著很大影響。因此,數(shù)據(jù)質量管理是數(shù)據(jù)治理的一個重要模塊。

創(chuàng)新互聯(lián)堅持“要么做到,要么別承諾”的工作理念,服務領域包括:網站建設、網站制作、企業(yè)官網、英文網站、手機端網站、網站推廣等服務,滿足客戶于互聯(lián)網時代的農安網站設計、移動媒體設計的需求,幫助企業(yè)找到有效的互聯(lián)網解決方案。努力成為您成熟可靠的網絡建設合作伙伴!

數(shù)據(jù)質量管理旨在評估和改善數(shù)據(jù)質量,提供了識別、測量、監(jiān)控和提高數(shù)據(jù)資產整體質量的功能。然而,大數(shù)據(jù)平臺建設初期,數(shù)據(jù)質量往往是一個容易被忽視的領域,隨著數(shù)據(jù)架構的不斷成熟以及開源數(shù)據(jù)質量工具的發(fā)展,數(shù)據(jù)質量管理逐步得到重視和改善。

目前,開源社區(qū)出現(xiàn)了許多數(shù)據(jù)質量工具,可選擇的項目越來越多,下面是2023年比較熱門的6個開源數(shù)據(jù)質量管理工具。

1.Deequ

GITHUB:https://github.com/awslabs/deequ

隨著Spark的應用越來越多,Deequ是一款非常適合用于Spark的質量檢測工具,非常適合測試大批量數(shù)據(jù),Spark DataFrame的任何東西都可以使用Deequ進行測試。并將結果輸出到任何關系數(shù)據(jù)庫、CSV文件或者日志等。Spark的作業(yè)主要使用Scala或Python語言編寫,對于原生Scala,Deequ可以直接使用,但對于Python,就需要一個名為PyDeequ的包裝器。

pip install pydeequ

相關文檔可以參考:https://pydeequ.readthedocs.io/en/latest/README.html

2.dbt Core

GITHUB:https://github.com/dbt-labs/dbt-core

dbt是一個數(shù)據(jù)管道開發(fā)平臺,支持動態(tài)SQL、模板和建模等功能。dbt的一個重要特性是自動化測試,用戶可以使用dbt執(zhí)行全面數(shù)據(jù)測試、數(shù)據(jù)質量檢查和數(shù)據(jù)驗證??梢栽跀?shù)據(jù)管道、數(shù)據(jù)源和目標數(shù)據(jù)之上使用dbt執(zhí)行的質量檢測模型,例如:數(shù)據(jù)范式(3NF及以上)模型、維度模型和數(shù)據(jù)倉庫模型。

dbt除了提供數(shù)據(jù)測試和數(shù)據(jù)質量功能,在應用生態(tài)上,許多公司還為dbt擴展數(shù)據(jù)質量功能。例如:Elementary,它能夠總結dbt中的所有內容,提供數(shù)據(jù)質量監(jiān)控指標、數(shù)據(jù)新鮮度、數(shù)據(jù)異常信息和異常數(shù)據(jù)分析的功能。

3.MobyDQ

GITHUB:https://github.com/ubisoft

DEMO:https://ubisoft.github.io/mobydq/pages/demo/

MobyDQ是數(shù)據(jù)工程團隊的一個工具,可以自動對數(shù)據(jù)管道進行數(shù)據(jù)質量檢查,捕獲數(shù)據(jù)質量問題并在異常情況下觸發(fā)警報,無論他們使用的數(shù)據(jù)源是什么。

數(shù)據(jù)質量檢測工具MobyDQ可以獨立運行于開發(fā)環(huán)境和測試環(huán)境。而在生產環(huán)境中,MobyDQ也支持使用Docker或Kubernetes容器運行。  MobyDQ的數(shù)據(jù)質量框架主要側重四大質量指標:完整性、新鮮度、響應時間和有效性。MobyDQ支持豐富的數(shù)據(jù)源,例如:MySQL、PostgreSQL、Teradata、Hive、Snowflake和MariaDB等。 MobyDQ允許用戶使用其GraphQL API運行測試,支持將此API與Python 或 JavaScript之類的編程語言一起使用,另外,MobyDQ在結構化數(shù)據(jù)測試方面,它還提供了基于Hive,PostgreSQL,MySQL等數(shù)據(jù)源的Demo。

4.Great Expectations

https://github.com/great-expectations/great_expectations

Great Expectations(GX)可以數(shù)據(jù)工程師進行質量檢測、創(chuàng)建分析文檔來提高團隊成員對數(shù)據(jù)的理解。

Great Expectations(GX)是最受歡迎的數(shù)據(jù)質量管理工具之一。創(chuàng)建Great Expectations的核心思想是:“instead of just testing code, and we should be testing data. After all, that’s where the complexity lives.”

意思是:“不僅僅是測試代碼,更應該測試數(shù)據(jù)。畢竟,數(shù)據(jù)才是復雜性所在。”

GX期望通過連接到數(shù)據(jù)源運行事先定義好的集成模板來檢測數(shù)據(jù)。在官方指南中,可以找到更多關于GX與Databasericks、Flyte、Prefect和EMR等工具和平臺集成的信息。目前Great Expectation維護非常積極,并且已被Vimeo、Calm、ING、Glovo、Avito、DeliveryHero、Atlan和Heineken等公司使用。

        GX規(guī)范了“數(shù)據(jù)的預期狀態(tài)”。GX與數(shù)據(jù)源的集成意味著所有的數(shù)據(jù)質量檢查都在適當?shù)奈恢猛瓿?,并且沒有數(shù)據(jù)被移出數(shù)據(jù)源。GX還可通過自動化數(shù)據(jù)質量檢測、實時監(jiān)測結果記錄以及運行摘要來支持數(shù)據(jù)質量管理。GX還可以直接與Airflow , Meltano等工具集成。支持將質量檢測結果保存到各種數(shù)據(jù)庫或者文件系統(tǒng)中。

5.Soda Core

https://github.com/sodadata

Soda Core是一個Python開發(fā)的開源數(shù)據(jù)質量工具,旨在確保數(shù)據(jù)平臺中的數(shù)據(jù)可靠性。它附帶了命令行工具。支持SodaCL(Soda Checks Language),SodaCL是一種兼容YAML,可靠的,用于特定領域的語言。Soda Core可以連接到數(shù)據(jù)源和工作流,確保數(shù)據(jù)不論在管道內還是管道外都能夠被檢測。Soda Core支持廣泛的數(shù)據(jù)源、連接器和測試類型,它是目前開源項目中對數(shù)據(jù)連接器覆蓋最全面的數(shù)據(jù)質量工具,如Dask、DuckDB、Dremio等。

Soda Core Python庫的主要目標之一是能夠對運行檢查數(shù)據(jù)源來查找數(shù)據(jù)源中的數(shù)據(jù)質量問題。Soda Core支持使用命令行執(zhí)行SodaCL檢查文件以完成預定義規(guī)則的掃描任務,命令行任務的方式和使用Soda Core運行查詢來執(zhí)行質量檢測一樣。

6.Cucumber

https://github.com/cucumber/

Cucumber框架其實并非一個真正意義上的數(shù)據(jù)質量檢測工具。但它卻能夠與pytest-bdd測試庫集成,以支持基于行為驅動的開發(fā)和測試。

Cucumber的核心特性在于不需要考慮開發(fā)人員、數(shù)據(jù)工程師或安全工程師的需求,而是以最終用戶為中心編寫測試要求,因此在Cucumber中只需要使用簡單的英語說明填充預定義的測試模板,便可完成新的測試要求。

Cucumber的目標是讓你編寫任何人都能理解的測試要求,大大減輕工作難度??梢詫ucumber與任何編排和工作流引擎集成在一起,比如 Jenkins、 Airflow等等,實現(xiàn)測試用例的編寫和執(zhí)行。

以上六種比較熱門的開源數(shù)據(jù)質量檢測工具,您可以將這些工具與現(xiàn)代數(shù)據(jù)管理系統(tǒng)一起使用,以測試和監(jiān)控數(shù)據(jù)質量,并設置警報,實現(xiàn)數(shù)據(jù)質量可視化和可分析,以便更深入地了解數(shù)據(jù)平臺的整體狀態(tài)。


網頁名稱:六個2023年熱門開源數(shù)據(jù)質量管理工具
轉載源于:http://www.5511xx.com/article/dpogdhs.html