Datafold lanserer åpen kildekode diffing-verktøy for å utføre datavalideringssjekker

GettyImages 172591285

[ad_1]

For ytterligere å styrke vår forpliktelse til å tilby bransjeledende dekning av datateknologi, er VentureBeat glade for å ønske Andrew Brust og Tony Baer velkommen som faste bidragsytere. Se etter artiklene deres i Information Pipeline.

Datapålitelighetsselskapet Datafold, som har hovedkontor i New York, har lansert et åpen kildekode-differing-verktøy for å hjelpe bedrifter med å sammenligne databaser og utføre kontroller for å validere datakonsistens.

Moderne bedrifter er sterkt avhengige av utvinning, lasting og transformasjon (ELT) praksis. Datasettene trekkes ut fra kilder, lastes inn i et datavarehus, og deretter utføres transformasjoner – som rensing og raffinering – for å gjøre informasjonen klar for analyser og datavitenskap.

Oppgaven er grei, spesielt med bruk av datareplikering og synkroniseringsverktøy som Fivetran, Airbyte og Sew, males til og med poster kan gå tapt i sammenkoblede systemer på grunn av tapte pakker, generelle replikeringsproblemer og konfigurasjonsfeil.

Dette kan påvirke dataintegriteten og nedstrømsbrukstilfellene.

Information-diff til unnsetning

For å løse denne utfordringen, leverer Datafold den nye diffing-pakken. Løsningen, kalt ‘data-diff’, bruker algoritmer for aktivt å verifisere om dataene som er lastet inn i et datavarehus samsvarer med det i kilden eller utvinningspunktet.

“Det er en python-pakke, og testen kan bygges inn i et hvilket som helst orkestrerings- eller planleggingsverktøy for å finne ut om to databaser inneholder samme information. Hvis det er et misforhold, bestemmer det veldig raskt hvor det er og dukker opp det i CLI-en din, eller det kan materialiseres i en database, sier Gleb Mezhanskiy, administrerende direktør og grunnlegger av Datafold. “Dette gjør det enkelt å fikse eventuelle inkonsekvenser og være trygg på at du ikke mister eller gir en feilaktig fremstilling av information fra en kildedatabase.”

Løsningen kan utføre en sammenligning av tabeller på radnivå i løpet av sekunder. Før dette måtte dataingeniørteam stole på manuelle engangssjekker og tidkrevende undersøkelser ved å bruke provisoriske diff-verktøy for å utelukke muligheten for avvik og sikre 100 % integritet til information replikert gjennom synkroniseringsverktøy.

“Open-source data-diff er avhengig av hashing og toppmoderne søkealgoritmer for å effektivt identifisere divergerende rader i skala. Det tar åpen kildekode-datadiff naked ti sekunder å sammenligne tabeller med 25 millioner rader fullstendig, og mindre enn 5 minutter å utføre sammenligningen for et datasett på 1 milliard rader – omtrent samme tid det ville ta å kjøre en spørring, naked tellende rader,» sa Mezhanskiy.

Utvidelse av eksisterende tilbud

Tilbudet kommer som en utvidelse av Datafolds originale diffing-verktøy, som utfører automatisert testing for å se etter endringer (f.eks. dbt SQL-kode) etter transformasjonstrinnet. Den analyserer hvordan en endring i koden påvirker de produserte dataene gjennom hele datapipelinen.

“Open-source data-diff legger til funksjonalitet for forskjell på tvers av databaser, og utvider dermed de dekkede brukstilfellene fra å teste naked transformasjoner (T av ELT) til å validere datareplikering (EL of ELT) gjennom hele dataplattformen,” la administrerende direktør til.

Løsningen er tilgjengelig fra og med i dag beneath en MIT-lisens og inkluderer koblinger for Postgres, MySQL, Snowflake, BigQuery, Redshift, Presto og Oracle.

Selskapet, som samlet inn 20 millioner greenback i november 2021, sa at det også planlegger å invitere bidragsytere til å bygge koblinger for andre datakilder. Andre ledende selskaper som arbeider innenfor datapålitelighetssektoren inkluderer Bigeye og Monte Carlo.

VentureBeats oppdrag skal være et digitalt bytorg for tekniske beslutningstakere for å få kunnskap om transformativ bedriftsteknologi og transaksjoner. Lær mer om medlemskap.

[ad_2]

admin

Leave a Reply

Your email address will not be published. Required fields are marked *