Hva er overvåket maskinlæring?

GettyImages 1283776173


Klarte du ikke å delta på Remodel 2022? Sjekk ut alle toppmøtene i vårt on-demand-bibliotek nå! Se her.


Opplæringsprosessen for kunstig intelligens (AI) algoritmer er designet for å være i stor grad automatisert medfødt. Det er ofte tusenvis, millioner eller til og med milliarder av datapunkter, og algoritmene må behandle dem alle for å søke etter mønstre. I noen tilfeller finner imidlertid AI-forskere at algoritmene kan gjøres mer nøyaktige og effektive hvis mennesker blir konsultert, i det minste av og til, below treningen.

Resultatet skaper hybrid intelligens som kombinerer den nådeløse, utrettelige kraften til maskinlæring (ML) med de innsiktsfulle, kontekstsensitive evnene til menneskelig intelligens. Dataalgoritmen kan pløye gjennom endeløse filer med treningsdata, og mennesker retter kursen eller veileder behandlingen.

ML-veiledningen kan finne sted på forskjellige tidspunkter:

  • Før: På en måte hjelper mennesket med å lage opplæringsdatasettet, noen ganger ved å legge til ekstra forslag til probleminnbyggingen og noen ganger ved å flagge uvanlige tilfeller.
  • Beneath: Algoritmen kan ta en pause, enten regelmessig eller naked ved uregelmessigheter, og spørre om noen tilfeller blir riktig forstått og lært av algoritmen.
  • Etter: Mennesket kan lede hvordan modellen brukes på oppgaver i ettertid. Noen ganger er det flere versjoner av modellen og mennesket kan velge hvilken modell som vil oppføre seg bedre.

I stor grad er overvåket ML for domener der automatisert maskinlæring ikke gir gode nok resultater. Forskere legger til veiledning for å bringe ytelsen opp til et akseptabelt nivå.

Det er også en vesentlig del av å løse problemer der det ikke er lett tilgjengelig treningsdata som inneholder alle detaljene som må læres. Mange overvåket ML-problemer begynner med å samle et crew med mennesker som skal merke eller rating dataelementene med ønsket svar. For eksempel bygde noen forskere en samling bilder av menneskelige ansikter og ba deretter andre mennesker om å klassifisere hvert ansikt med et ord som “glad” eller “trist”. Disse treningsetikettene gjorde det mulig for en ML-algoritme å begynne å forstå følelsene som formidles av menneskelige ansiktsuttrykk.

Hva er forskjellen mellom overvåket og uovervåket ML?

I de fleste tilfeller kan de samme maskinlæringsalgoritmene fungere med både overvåket og ikke-overvåket datasett. Hovedforskjellen er at uovervåket læringsalgoritmer starter med rådata, mens overvåkede læringsalgoritmer har flere kolonner eller felt som er laget av mennesker. Disse kalles ofte etiketter, selv om de også kan ha numeriske verdier. De samme algoritmene brukes i begge tilfeller.

Tilsyn brukes ofte til å legge til felt som ikke er synlige i datasettet. For eksempel ber noen eksperimenter mennesker om å se på landskapsbilder og klassifisere om en scene er city, forstad eller landlig. ML-algoritmen brukes deretter for å prøve å matche klassifiseringen fra menneskene.

I noen tilfeller legges tilsynet til below eller etter at ML-algoritmen begynner. Denne tilbakemeldingen kan komme fra sluttbrukere eller forskere.

Les også: Hvordan bygge et veikart for datavitenskap og maskinlæring i 2022

Hvordan gjennomføres veiledet ML?

Menneskelige meninger og kunnskap kan foldes inn i datasettet før, below eller etter at algoritmene begynner. Det kan også gjøres for alle dataelementer eller naked et delsett. I noen tilfeller kan tilsynet komme fra et stort crew av mennesker og i andre kan det naked være fageksperter.

En vanlig prosess innebærer å ansette et stort antall mennesker for å merke et stort datasett. Å organisere denne gruppen er ofte mer arbeid enn å kjøre algoritmene. Noen selskaper spesialiserer seg på prosessen og vedlikeholder nettverk av frilansere eller ansatte som kan kode datasett. Mange av de retailer modellene for bildeklassifisering og -gjenkjenning er avhengige av disse etikettene.

Noen selskaper har funnet indirekte mekanismer for å fange opp etikettene. Noen nettsteder vil for eksempel vite om brukerne deres er mennesker eller automatiserte roboter. En måte å teste dette på er å sette opp en samling bilder og be brukeren søke etter bestemte gjenstander, som en fotgjenger eller et stoppskilt. Algoritmene kan vise det samme bildet til flere brukere og deretter se etter konsistens. Når en bruker er enig med tidligere brukere, antas denne brukeren å være et menneske. De samme dataene blir deretter lagret og brukt til å trene ML-algoritmer til å søke etter fotgjengere eller stoppskilt, en vanlig jobb for autonome kjøretøy.

Noen algoritmer bruker fageksperter og ber dem om å gjennomgå eksterne knowledge. I stedet for å klassifisere alle bilder, fungerer den med de mest ekstreme verdiene og ekstrapolerer regler fra dem. Dette kan være mer tidseffektivt, males kan være mindre nøyaktig. Det er mer populært når menneskelig eksperttid er dyr.

Typer veiledet ML

Verden av veiledet ML er delt inn i flere tilnærminger. Mange har mye til felles med uovervåket ML fordi de bruker de samme algoritmene. Noen distinksjoner fokuserer imidlertid på måten menneskelig intelligens er foldet inn i datasettet og absorbert av algoritmene.

De mest siterte forskjellige typene algoritmer er:

  • Klassifisering: Disse algoritmene tar et datasett og tilordner hvert aspect til et quick sett med klasser. For eksempel har Microsoft trent en maskinsynsmodell til å undersøke et fotografi og gjøre en utdannet gjetning om følelsene til ansiktene. Algoritmen velger ett av flere begreper, som “glad” eller “trist”. Ofte begynner modeller som dette med et sett med menneskeskapte klassifikasjoner for treningsdataene. Et crew vil gjennomgå bildene og tildele en etikett som “glad” eller “trist” til hvert ansikt. ML-algoritmen vil deretter trenes til å tilnærme disse svarene.
  • Regresjonsanalyse: Algoritmen tilpasser en linje eller en annen matematisk funksjon til datasettet slik at numeriske forutsigelser kan gjøres. Inndataene til funksjonen kan være en blanding av rådata og menneskelige etiketter eller estimater. For eksempel kan Microsofts ansiktsklassifiseringsalgoritme også generere et estimat av den numeriske alderen til mennesket. Treningsdataene kan stole på de faktiske fødselsdatoene i stedet for et menneskelig estimat.
  • Støtte vektormaskin: Dette er en klassifiseringsalgoritme som bruker litt regresjon for å finne de beste linjene eller planene for å skille to eller flere klasser. Algoritmen er avhengig av etikettene for å skille de forskjellige klassene, og deretter bruker den en regresjonsberegning for å tegne linjen eller planet.
  • Delmengdeanalyse: Noen datasett er for retailer til at mennesker kan merke dem. En løsning er å velge en tilfeldig eller strukturert delmengde og søke menneskelig innspill på nettopp disse verdiene.

Les også: 3 retailer problemer med datasett i AI og maskinlæring

Hvordan håndterer retailer selskaper overvåket ML?

Alle de retailer selskapene tilbyr grunnleggende ML-algoritmer som kan fungere med enten merkede eller umerkede knowledge. De begynner også å tilby spesielle verktøy som forenkler og til og med automatiserer tilsynet.

Amazons SageMaker tilbyr et fullstendig integrert utviklingsmiljø (IDE) for å jobbe med deres ML-algoritmer. Noen vil kanskje eksperimentere med forhåndsbygde modeller og justere dem etter ytelsen. AWS tilbyr også Mechanical Turk som er integrert med miljøet, slik at mennesker kan undersøke dataene og legge til merknader som vil veilede ML. Mennesker får betalt for oppgaven til en pris du setter, og dette påvirker hvor mange som melder seg på for å jobbe. Dette kan være en kostnadseffektiv måte å lage gode merknader for et opplæringsdatasett.

IBMs Watson Studio er designet for både uovervåket og overvåket ML. Deres Cloud Pak for Information kan hjelpe med å organisere og merke datasett samlet fra en rekke datavarehus, innsjøer og andre kilder. Det kan hjelpe crew med å lage strukturerte innbygginger veiledet av menneskelige ressurser og deretter mate disse verdiene inn i samlingen av ML-algoritmer som støttes av Studio.

Googles samling av AI-verktøy inkluderer VertexAI, som er et mer generelt produkt, og noen automatiserte systemer innstilt for bestemte typer datasett som AutoML Video og AutoML Tabular. Pre-analytisk datamerking er lett å gjøre med de ulike datainnsamlingsverktøyene. Etter at modellen er opprettet, tilbyr Google også et verktøy kalt Vertex AI Mannequin Monitoring som overvåker ytelsen til modellen over tid og genererer automatiske varsler hvis modellen ser ut til å drive.

Microsoft har en omfattende samling av AI-verktøy, inkludert Azure Machine Studying Studio, et nettleserbasert brukergrensesnitt som organiserer datainnsamlingen og analysen. Information kan utvides med etiketter og annen klassifisering ved å bruke ulike Azure-verktøy for å organisere datainnsjøer og varehus. Studioet tilbyr et dra-og-slipp-grensesnitt for å velge de riktige algoritmene gjennom eksperimentering med dataklassifisering og analyse.

Oracles datainfrastruktur er bygget rundt retailer databaser som fungerer som grunnlaget for datavarehus. Databasene er også godt integrert med ML-algoritmer for å optimere oppretting og testing av modeller med disse datasettene. Oracle tilbyr også en rekke fokuserte versjoner av produktene deres designet for bestemte bransjer, for eksempel detaljhandel eller finansielle tjenester. Verktøyene deres for dataadministrasjon kan organisere opprettelsen av etiketter for hvert datapunkt og deretter bruke de riktige algoritmene for overvåket eller semi-overvåket ML.

Hvordan utvikler startups veiledet ML?

Startupene takler et bredt spekter av problemer som er viktige for å skape veltrente modeller. Noen jobber med det mer generelle problemet med å jobbe med generiske datasett, mens andre ønsker å fokusere på spesielle nisjer eller bransjer.

CrowdFlower, startet som Dolores Labs, selger både ferdigtrente modeller med forhåndsmerket knowledge og organiserer også crew for å legge til etiketter til knowledge for å hjelpe til med å overvåke ML. Deres datakommentarverktøy kan hjelpe interne crew eller deles med en stor samling av midlertidige ansatte som CrowdFlower rutinemessig ansetter. De kjører også programmer for å evaluere suksessen til modeller før, below og etter distribusjon.

Swivl har laget et grunnleggende datamerkingsgrensesnitt slik at crew raskt kan begynne å veilede datavitenskap og ML-algoritmer. Selskapet har fokusert på dette samspillet for å gjøre det så enkelt og effektivt som mulig.

AI- og datahåndteringsrutinene i DataRobots sky er designet for å gjøre det enklere for crew å lage pipelines som samler og evaluerer knowledge med lav- og kodefrie rutiner for behandling. De kaller noen av verktøyene deres “augmented intelligence” fordi de kan stole på både ML-algoritmer og menneskelig koding både i opplæring og distribusjon. De sier at de ønsker å “bevege seg utover naked å ta mer intelligente beslutninger eller raskere beslutninger, til å ta den riktige avgjørelsen.”

Zest AI fokuserer på kredittgodkjenningsprosessen, slik at låneinstitusjoner kan fremskynde og forenkle arbeidsflyten for å gi lån. Verktøyene deres hjelper bankene med å bygge sine egne tilpassede modeller som kombinerer deres menneskelige erfaring med muligheten til å samle kredittrisikoinformasjon. De distribuerer også «de-biasing-verktøy» som kan redusere eller eliminere noen utilsiktede konsekvenser av modellkonstruksjonen.

Luminance hjelper juridiske crew med oppgaver som oppdagelse og kontraktsutforming. ML-verktøyene lager tilpassede modeller ved å se advokatene jobbe og lære av beslutningene deres. Denne tilfeldige tilsynet hjelper modellene å tilpasse seg raskere, slik at teamet kan ta bedre beslutninger.

Er det noe veiledet ML ikke kan gjøre?

På mange måter produserer overvåket ML den beste kombinasjonen av menneskelig og maskinell intelligens når den lager en modell som lærer hvordan et menneske kan kategorisere eller analysere knowledge.

Mennesker er imidlertid ikke alltid nøyaktige, og de forstår ofte ikke dataene godt nok til å fungere nøyaktig. De kan kjede seg etter å ha jobbet med mange dataelementer. I mange tilfeller gjør de feil eller kategoriserer knowledge inkonsekvent fordi de ikke vet svaret selv.

Faktisk, i tilfeller der problemet ikke er godt forstått av mennesker, kan bruk av overvåkede algoritmer folde inn for mye informasjon fra det inkonsekvente og usikre mennesket. Hvis den menneskelige mening gis for mye forrang, kan algoritmen ledes på villspor.

Et vanlig drawback med overvåkede algoritmer er størrelsen på datasettene. Mye av ML avhenger av retailer datainnsamlinger som samles inn automatisk. Å betale for at mennesker skal klassifisere eller merke hvert dataelement er ofte altfor dyrt. Noen forskere velger tilfeldige eller strukturerte delmengder av dataene og søker menneskelige meninger om nettopp dem. Dette kan fungere i noen tilfeller, males naked når signalet er sterkt nok. Algoritmen kan ikke stole på ML-algoritmens evne til å finne nyanser og distinksjon i svært retailer datasett.

Les neste:Driver smartere kundeopplevelser med AI og maskinlæring

admin

Leave a Reply

Your email address will not be published.