Prižiūrimas mašininis mokymasis: kas yra, algoritmai, pavyzdys

Turinys:

Anonim

Kas yra prižiūrimas mašininis mokymasis?

Mokydamiesi prižiūrint, mokote mašiną naudodami duomenis, kurie yra gerai paženklinti . Tai reiškia, kad kai kurie duomenys jau pažymėti teisingu atsakymu. Tai galima palyginti su mokymusi, kuris vyksta dalyvaujant vadovui ar mokytojui.

Prižiūrimas mokymosi algoritmas mokosi iš paženklintų mokymo duomenų, padeda nuspėti nenumatytų duomenų rezultatus.

Norint sėkmingai sukurti, keisti mastelį ir įdiegti tikslius prižiūrimus mašininio mokymosi modelius, reikia laiko ir techninės patirties iš aukštos kvalifikacijos duomenų mokslininkų komandos. Be to, duomenų mokslininkas turi atstatyti modelius, kad įsitikintų, jog pateiktos įžvalgos išlieka teisingos, kol jos duomenys nepasikeis.

Šioje pamokoje sužinosite:

  • Kas yra prižiūrimas mašininis mokymasis?
  • Kaip veikia prižiūrimas mokymasis
  • Prižiūrimų mašininio mokymosi algoritmų tipai
  • Prižiūrimi ir neprižiūrimi mašininio mokymosi metodai
  • Prižiūrimojo mašininio mokymosi iššūkiai
  • Prižiūrimo mokymosi pranašumai:
  • Prižiūrėto mokymosi trūkumai
  • Geriausia prižiūrimo mokymosi patirtis

Kaip veikia prižiūrimas mokymasis

Pavyzdžiui, norite išmokyti mašiną, kuri padėtų nuspėti, kiek laiko užtruksite važiuodami namo iš savo darbo vietos. Pradėkite nuo etikečių duomenų rinkinio sukūrimo. Šie duomenys apima

  • Oro sąlygos
  • Dienos laikas
  • Atostogos

Visa ši informacija yra jūsų įvestis. Rezultatas yra laikas, kurio prireikė grįžti namo tą konkrečią dieną.

Instinktyviai žinote, kad jei lauke lyja, tada jums reikės ilgiau važiuoti namo. Bet mašinai reikia duomenų ir statistikos.

Pažiūrėkime, kaip galite sukurti šio pavyzdžio prižiūrimą mokymosi modelį, kuris padėtų vartotojui nustatyti kelionės į darbą ir atgal laiką. Pirmas dalykas, kurį jums reikia sukurti, yra treniruočių rinkinys. Šiame treniruočių rinkinyje bus nurodytas bendras kasdienės kelionės į darbą ir atgal laikas bei atitinkami veiksniai, pvz., Oras, laikas ir kt. Remiantis šiuo treniruočių rinkiniu, jūsų mašina gali pastebėti, kad yra tiesioginis ryšys tarp lietaus kiekio ir laiko, kurio prireiks namo.

Taigi, ji įsitikina, kad kuo daugiau lyja, tuo ilgiau važiuosite, kad grįžtumėte į savo namus. Tai taip pat gali pamatyti ryšį tarp laiko, kurį paliekate iš darbo, ir laiko, kurį praleisite kelyje.

Kuo arčiau 18 val., Tuo ilgiau užtruksite, kol grįšite namo. Jūsų mašina gali rasti tam tikrų ryšių su jūsų pažymėtais duomenimis.

Tai yra jūsų duomenų modelio pradžia. Tai pradeda daryti įtaką lietaus įtakai žmonių vairavimui. Taip pat pradeda matyti, kad tam tikru paros metu keliauja daugiau žmonių.

Prižiūrimų mašininio mokymosi algoritmų tipai

Regresija:

Regresijos technika, naudojant treniruotės duomenis, numato vieną išėjimo vertę.

Pavyzdys : naudodamiesi regresija galite numatyti namo kainą iš mokymo duomenų. Įvesties kintamieji bus vietovė, namo dydis ir kt.

Stipriosios pusės: išėjimai visada turi tikimybinę interpretaciją, o algoritmą galima reguliuoti, kad būtų išvengta per didelio pritaikymo.

Silpnybės : Logistinė regresija gali būti neveiksminga, kai yra kelios ar netiesinės sprendimo ribos. Šis metodas nėra lankstus, todėl neužfiksuoja sudėtingesnių santykių.

Logistinė regresija:

Logistinis regresijos metodas, naudojamas įvertinti atskiras reikšmes, remiantis nepriklausomų kintamųjų rinkiniu. Tai padeda jums numatyti įvykio tikimybę, pritaikant duomenis logit funkcijai. Todėl jis taip pat žinomas kaip logistinė regresija. Numatant tikimybę, jo išėjimo vertė yra nuo 0 iki 1.

Štai keletas regresijos algoritmų tipų

Klasifikacija:

Klasifikavimas reiškia produkcijos grupavimą klasės viduje. Jei algoritmas bando žymėti įvestį į dvi skirtingas klases, tai vadinama dvejetainiu klasifikavimu. Pasirinkimas tarp daugiau nei dviejų klasių vadinamas daugiasluoksne klasifikacija.

Pavyzdys : nustatoma, ar kas nors neįvykdys paskolos.

Privalumai : Klasifikacijos medis praktiškai veikia labai gerai

Trūkumai : nevaržomi, atskiri medžiai yra linkę per daug derėti.

Čia yra keletas klasifikavimo algoritmų tipų

Naivūs Bayes klasifikatoriai

Naivų Bajeso modelį (NBN) lengva sukurti ir labai naudinga dideliems duomenų rinkiniams. Šis metodas sudarytas iš tiesioginių aciklinių grafikų su vienu iš tėvų ir keliais vaikais. Tai prisiima nepriklausomybę tarp vaikų mazgų, atskirtų nuo tėvų.

Sprendimų medžiai

Sprendimų medžiai klasifikuoja egzempliorių rūšiuodami juos pagal objekto vertę. Taikant šį metodą, kiekvienas režimas yra egzemplioriaus bruožas. Jis turėtų būti klasifikuojamas, o kiekviena šaka reiškia vertę, kurią mazgas gali prisiimti. Tai plačiai naudojama klasifikavimo technika. Pagal šį metodą klasifikacija yra medis, kuris vadinamas sprendimų medžiu.

Tai padeda įvertinti tikrąsias vertes (automobilio įsigijimo kainą, skambučių skaičių, bendrą mėnesio pardavimą ir kt.).

Palaikykite „Vector Machine“

„Support vector machine“ (SVM) yra mokymosi algoritmo tipas, sukurtas 1990 m. Šis metodas pagrįstas Vap Nik pristatytos statistinės mokymosi teorijos rezultatais.

SVM mašinos taip pat yra glaudžiai susijusios su branduolio funkcijomis, o tai yra pagrindinė daugelio mokymosi užduočių samprata. Branduolio sistema ir SVM naudojami įvairiuose laukuose. Tai apima daugialypės terpės informacijos paiešką, bioinformatiką ir modelių atpažinimą.

Prižiūrimi ir neprižiūrimi mašininio mokymosi metodai

Remiantis Prižiūrima mašininio mokymosi technika Neprižiūrima mašininio mokymosi technika
Įvesties duomenys Algoritmai mokomi naudojant paženklintus duomenis. Algoritmai naudojami prieš duomenis, kurie nėra pažymėti etiketėmis
Skaičiavimo sudėtingumas Prižiūrimas mokymasis yra paprastesnis metodas. Neprižiūrimas mokymasis yra sudėtingas skaičiavimais
Tikslumas Labai tikslus ir patikimas metodas. Mažiau tikslus ir patikimas metodas.

Prižiūrimojo mašininio mokymosi iššūkiai

Čia yra iššūkiai, su kuriais susiduriama prižiūrint mašininį mokymąsi:

  • Esami nesusiję įvesties ypatumai, turimi mokymo duomenys, gali duoti netikslius rezultatus
  • Duomenų paruošimas ir išankstinis apdorojimas visada yra iššūkis.
  • Tikslumas nukenčia, kai neįmanoma, mažai tikėtina ir neišsamios vertės yra įvesti kaip mokymo duomenys
  • Jei atitinkamo eksperto nėra, tada kitas požiūris yra „žiauri jėga“. Tai reiškia, kad jūs turite galvoti, kad tinkamos funkcijos (įvesties kintamieji), kad būtų galima išmokyti mašiną. Tai gali būti netikslu.

Prižiūrimo mokymosi pranašumai:

  • Prižiūrimas mokymasis leidžia rinkti duomenis arba kurti duomenis iš ankstesnės patirties
  • Naudodamiesi patirtimi, galite optimizuoti našumo kriterijus
  • Prižiūrimas mašininis mokymasis padeda išspręsti įvairias realaus pasaulio skaičiavimo problemas.

Prižiūrėto mokymosi trūkumai

  • Sprendimo riba gali būti pertreniruota, jei jūsų mokymo rinkinyje nėra pavyzdžių, kuriuos norite turėti klasėje
  • Mokydami klasifikatorių, turite pasirinkti daug gerų pavyzdžių iš kiekvienos klasės.
  • Didžiųjų duomenų klasifikavimas gali būti tikras iššūkis.
  • Mokymui prižiūrint mokytis reikia daug skaičiavimo laiko.

Geriausia prižiūrimo mokymosi patirtis

  • Prieš pradėdami ką nors kita, turite nuspręsti, kokie duomenys bus naudojami kaip mokymo rinkinys
  • Turite nuspręsti dėl išmoktos funkcijos ir mokymosi algoritmo struktūros.
  • Atitinkami žmonių ekspertų arba matavimų rezultatai

Santrauka

  • Mokydamiesi prižiūrint, mokote mašiną naudodami duomenis, kurie yra gerai paženklinti.
  • Norite apmokyti mašiną, kuri padės nuspėti, kiek laiko užtruksite važiuodami namo iš savo darbo vietos, yra prižiūrimo mokymosi pavyzdys
  • Regresija ir klasifikacija yra dviejų rūšių prižiūrimi mašininio mokymosi metodai.
  • Prižiūrimas mokymas yra paprastesnis metodas, o neprižiūrimas mokymas yra sudėtingas metodas.
  • Didžiausias iššūkis prižiūrint mokymąsi yra tas, kad nesvarbi įvesties ypatybė, turinti mokymo duomenis, gali suteikti netikslius rezultatus.
  • Pagrindinis prižiūrimo mokymosi pranašumas yra tas, kad jis leidžia jums rinkti duomenis arba kurti duomenis iš ankstesnės patirties.
  • Šio modelio trūkumas yra tas, kad sprendimo ribos gali būti pervertintos, jei jūsų treniruočių rinkinyje nėra pavyzdžių, kuriuos norite turėti klasėje.
  • Kaip geriausią mokymosi priežiūros praktiką pirmiausia turite nuspręsti, kokie duomenys turėtų būti naudojami kaip mokymo rinkinys.