Roboflow utvider datasett med åpen kildekode for bedre datasyn AI-modeller

GettyImages 1013311574 e1656371218782


Vi er glade for å bringe Remodel 2022 tilbake personlig 19. juli og nesten 20. – 28. juli. Bli med AI- og dataledere for innsiktsfulle samtaler og spennende nettverksmuligheter. Registrer deg i dag!


Alle maskinlæringsbiblioteker og -prosjekter er avhengige av knowledge for å lære, trene og drive.

I et forsøk på å hjelpe utviklere lettere å dra nytte av merkede datasett og maskinlæringsmodeller for datasyn, annonserte Roboflow i dag en utvidelse av sine datasett og AI-modeller som en del av Roboflow Universe-initiativet, som godt kan være en av de største slike åpne- kildelager tilgjengelig. Roboflow hevder at den nå har over 90 000 datasett som inkluderer over 66 millioner bilder i Roboflow Universe-tjenesten som ble lansert i august 2021.

Roboflow ble grunnlagt i 2019 og samlet inn 20 millioner greenback i en serie A-finansieringsrunde i september 2021. Roboflow gir åpen kildekode Universe-lageret av datasett og modeller for datasyn samt datamerking, modellutvikling og hosting-funksjoner. Roboflow-forretningsmodellen er å tilby free of charge tjenestenivåer for brukere på et inngangsnivå, og etter hvert som bruken øker, eller for de organisasjonene som jobber med proprietære sett, tilbyr selskapet betalt støtte og servicealternativer.

Roboflow-universet handler ikke naked om å gi bilder som en utvikler kan bruke; det handler om å gi bilder som er kuratert i en tilnærming som gjør at datasett kan brukes til AI-drevne applikasjoner.

“Et prosjekt er i utgangspunktet noe som inneholder både et datasett noen kan bruke og en trent modell på toppen av det datasettet,” sa Joseph Nelson, medgründer og administrerende direktør til VentureBeat. “Datasettet er både bildene så vel som merknadene.”

Knowledge er advantageous, merket knowledge er bedre

Nelson sa at vanligvis bruker organisasjoner en betydelig mengde tid på å forberede maskinlæringsdata.

Dataforberedelsesprosessen involverer datamerking og klassifisering, slik at en modell effektivt kan trenes. Nelson sa at merkingen i Roboflow Universe heller ikke naked er en beskrivelse av et bilde.

Etiketter som Roboflow Universe kan inkludere for et gitt datasett er ting som en grenseramme, som gir en boks rundt et objekt, som kan være nyttig for gjenkjenning av objekter i et overfylt landskap. En annen sort merking som Roboflow utfører er forekomstsegmentering, som gir en polygonform som kartlegger pent rundt objektet av interesse.

Datamerkingsformater som brukes i maskinlæring er også ofte komplekse og varierte. For det formål sa Nelson at Roboflow støtter eksport av datasett til 36 datamerkingsformater. Blant de støttede formatene er COCO JSON, VOC XML og YOLO Darknet TXT-formatet.

“Å gjøre bildedataene bredt tilgjengelige og brukbare betyr at noen umiddelbart kan finne et datasett, trekke det inn i treningspipelinen og komme seg opp og gå,” sa Nelson.

Hvordan utviklere integrerer Roboflow Universe-datasett i applikasjoner

Å bringe datasynsdatasett og -modeller inn i AI-drevne applikasjoner kan ofte være en kompleks integrasjon.

Nelsons mål med Roboflow er å bidra til å minimere kompleksiteten. Han sa at Roboflow Universe-datasett kan nås by way of åpne APIer. For eksempel bemerket han at Roboflow har en Python-pakke på Python Package deal Index (PyPI) som gjør det mulig for utviklere å programmatisk trekke ned bilder, merknader og modeller og deretter legge inn disse komponentene direkte i en applikasjon.

Å distribuere en Roboflow Universe-modell i populære skymaskinlæringstjenester, inkludert AWS Sagemaker eller Googles Vertex, er også en enkel operasjon by way of et API-kall, ifølge Nelson. I tillegg gjør Roboflow datasett og modeller tilgjengelig som Docker-beholdere, noe som muliggjør distribusjon på edge-enheter. Det er også et programvareutviklingssett (SDK) for å støtte Apple iOS-enheter også.

“Hvis vi gjør det veldig enkelt å bruke en modell hvor enn du vil bruke den, så fokuserer ideelt sett en ingeniør tiden sin på det som forretningslogikken deres faktisk gjør,” sa Nelson.

Skjæringspunktet mellom åpen kildekode-modeller og AI-bias

Å gjøre det enklere å få tilgang til datasett og modeller for datasyn for å bygge applikasjoner er et sentralt mål for Roboflow. En annen konsekvens av å ha et så stort korpus av åpen kildekode-data er å bidra til å forbedre bekymringene for AI-bias.

“Bias i AI er aldri et løst downside,” sa Nelson. “Males det kan hjelpe å gi forklaring, tilgjengelighet og oppdagbarhet.”

Nelson forklarte at AI-bias ofte handler om å prøve å forstå hvorfor en modell tok en bestemt beslutning. Grunnleggende er måten modeller tar beslutninger på basert på knowledge modellene er trent på. Ved å ha et større datasett som inkluderer mer mangfold, kan en modell potensielt bli mer representativ, med mindre risiko for skjevhet.

“Til syvende og sist stammer mange problemer med AI-bias fra underrepresentasjon,” sa Nelson. “Måten å fikse underrepresentasjon er ved å aktivere aktiv innsamling av datasett fra den underrepresenterte klassen, og gjøre disse dataene tilgjengelige, søkbare og brukbare.”

VentureBeats oppdrag skal være et digitalt bytorg for tekniske beslutningstakere for å få kunnskap om transformativ bedriftsteknologi og transaksjoner. Lær mer om medlemskap.

admin

Leave a Reply

Your email address will not be published.