Slik får du mest mulig ut av AI/ML-investeringene dine: Begin med datainfrastrukturen din

GettyImages 1294874384


Vi er glade for å bringe Rework 2022 tilbake personlig 19. juli og nesten 20. – 28. juli. Bli med AI- og dataledere for innsiktsfulle samtaler og spennende nettverksmuligheter. Registrer deg i dag!


Tiden med Massive Knowledge har bidratt til å demokratisere informasjon, skapt et vell av information og økende inntekter hos teknologibaserte selskaper. Males for all denne intelligensen får vi ikke det innsiktsnivået fra maskinlæringsfeltet som man kan forvente, ettersom mange selskaper sliter med å gjøre maskinlæringsprosjekter (ML) handlingsdyktige og nyttige. Et vellykket AI/ML-program starter ikke med et stort crew av dataforskere. Det starter med sterk datainfrastruktur. Knowledge må være tilgjengelige på tvers av systemer og klare for analyse, slik at dataforskere raskt kan gjøre sammenligninger og levere forretningsresultater, og dataene må være pålitelige, noe som peker på utfordringen mange bedrifter står overfor når de starter et datavitenskapsprogram.

Problemet er at mange selskaper hopper føtter først inn i datavitenskap, ansetter dyre dataforskere, og deretter oppdager de ikke har verktøyene eller infrastrukturen dataforskere trenger for å lykkes. Høytlønnede forskere ender opp med å bruke tid på å kategorisere, validere og forberede information – i stedet for å søke etter innsikt. Dette infrastrukturarbeidet er viktig, males går også glipp av muligheten for dataforskere til å utnytte sine mest nyttige ferdigheter på en måte som gir størst verdi.

Utfordringer med datahåndtering

Når ledere vurderer årsakene til suksess eller fiasko for et datavitenskapelig prosjekt (og 87 % av prosjektene kommer aldri i produksjon), oppdager de ofte at selskapet deres forsøkte å hoppe videre til resultatene uten å bygge et grunnlag av pålitelige information. Hvis de ikke har det solide grunnlaget, kan dataingeniører bruke opptil 44 % av tiden sin på å vedlikeholde datapipelines med endringer i APIer eller datastrukturer. Å lage en automatisert prosess for integrering av information kan gi ingeniører tid tilbake, og sikre at bedrifter har alle dataene de trenger for nøyaktig maskinlæring. Dette bidrar også til å kutte kostnader og maksimere effektiviteten ettersom selskaper bygger sine datavitenskapelige evner.

Smale information gir smal innsikt

Maskinlæring er kresen – hvis det er hull i dataene, eller de ikke er riktig formatert, fungerer maskinlæring enten ikke, eller enda verre, gir unøyaktige resultater.

Når bedrifter kommer i en posisjon med usikkerhet om dataene sine, ber de fleste organisasjoner datavitenskapsteamet om å manuelt merke datasettet som en del av overvåket maskinlæring, males dette er en tidkrevende prosess som medfører ytterligere risiko for prosjektet. Verre, når treningseksemplene er trimmet for langt på grunn av dataproblemer, er det sjansen for at det smale omfanget vil bety at ML-modellen naked kan fortelle oss det vi allerede vet.

Løsningen er å sikre at teamet kan trekke fra et omfattende, sentralt datalager, som omfatter et bredt utvalg av kilder og gir en delt forståelse av dataene. Dette forbedrer den potensielle avkastningen fra ML-modellene ved å gi mer konsistente information å jobbe med. Et datavitenskapsprogram kan naked utvikle seg hvis det er basert på pålitelige, konsistente information og en forståelse av konfidenslinjen for resultater.

Retailer modeller vs. verdifulle information

En av de største utfordringene for et vellykket datavitenskapsprogram er å balansere volumet og verdien av dataene når du gjør en prediksjon. Et sosialt medieselskap som analyserer milliarder av interaksjoner hver dag kan bruke det retailer volumet av handlinger med relativt lav verdi (f.eks. noen som sveiper opp eller deler en artikkel) til å lage pålitelige spådommer. Hvis en organisasjon prøver å identifisere hvilke kunder som sannsynligvis vil fornye en kontrakt på slutten av året, så jobber den sannsynligvis med mindre datasett med retailer konsekvenser. Siden det kan ta et år å finne ut om de anbefalte handlingene resulterte i suksess, skaper dette enorme begrensninger for et datavitenskapsprogram.

I disse situasjonene må bedrifter bryte ned interne datasiloer for å kombinere all dataen de har for å gi de beste anbefalingene. Dette kan inkludere nullpartsinformasjon fanget med lukket innhold, førsteparts nettstedsdata og information fra kundeinteraksjoner med produktet, sammen med vellykkede resultater, supportbilletter, kundetilfredshetsundersøkelser, til og med ustrukturerte information som brukertilbakemeldinger. Alle disse datakildene inneholder ledetråder om en kunde vil fornye kontrakten sin. Ved å kombinere datasiloer på tvers av forretningsgrupper kan beregninger standardiseres, og det er nok dybde og bredde til å lage sikre spådommer.

For å unngå fellen med svekket tillit og avkastning fra et ML/AI-program, kan bedrifter ta følgende trinn.

  1. Gjenkjenne hvor du er — Har din virksomhet en klar forståelse av hvordan ML bidrar til virksomheten? Har din bedrift infrastrukturen klar? Ikke prøv å legge til fancy forgylling på toppen av uklare information – vær tydelig på hvor du starter fra, slik at du ikke hopper for langt.
  2. Få alle dataene dine på ett sted — Sørg for at du har identifisert og integrert en sentral skytjeneste eller datainnsjø. Når alt er sentralisert, kan du begynne å deal with på dataene og finne eventuelle avvik i pålitelighet.
  3. Kryp-gå-løp — Begynn med riktig rekkefølge av operasjoner mens du bygger datavitenskapsprogrammet ditt. Fokuser først på dataanalyse og Enterprise Intelligence, bygg deretter datateknikk og til slutt et datavitenskapsteam.
  4. Ikke glem det grunnleggende — Når du har alle information kombinert, renset og validert, er du klar til å gjøre datavitenskap. Males ikke glem “husholdningsarbeidet” som er nødvendig for å opprettholde et grunnlag som vil gi betydelige resultater. Disse essensielle oppgavene inkluderer å investere i katalogisering og datahygiene, sørge for å målrette de riktige beregningene som vil forbedre kundeopplevelsen, og manuelt vedlikeholde dataforbindelser mellom systemer eller bruke en infrastrukturtjeneste.

Ved å bygge riktig infrastruktur for datavitenskap kan bedrifter se hva som er viktig for virksomheten, og hvor blindsonene er. Å gjøre grunnarbeidet først kan gi strong avkastning, males enda viktigere, det vil sette opp datavitenskapsteamet for betydelig innvirkning. Å få et budsjett for et prangende datavitenskapsprogram er relativt enkelt, males husk at de fleste slike prosjekter mislykkes. Det er ikke like lett å få budsjett for de «kjedelige» infrastrukturoppgavene, males dataadministrasjon skaper grunnlaget for at dataforskere kan levere den mest meningsfulle innvirkningen på virksomheten.

Alexander Lovell er produktsjef i Fivetran.

DataDecision Makers

Velkommen til VentureBeat-fellesskapet!

DataDecisionMakers er der eksperter, inkludert de tekniske personene som driver med dataarbeid, kan dele datarelatert innsikt og innovasjon.

Hvis du vil lese om banebrytende ideer og oppdatert informasjon, beste praksis og fremtiden for data- og datateknologi, kan du bli med oss ​​på DataDecisionMakers.

Du kan til og med vurdere å bidra med en egen artikkel!

Les mer fra DataDecisionMakers

admin

Leave a Reply

Your email address will not be published.