Neprižiūrimas mašininis mokymasis: kas yra, algoritmai, pavyzdys

Neprižiūrimas mokymasis

Neprižiūrimas mokymasis yra mašininio mokymosi technika, kai vartotojams nereikia prižiūrėti modelio. Užtat tai leidžia modeliui savarankiškai dirbti, kad būtų galima atrasti anksčiau neaptiktus modelius ir informaciją. Jis daugiausia susijęs su nepažymėtais duomenimis.

Neprižiūrimi mokymosi algoritmai

Neprižiūrimi mokymosi algoritmai leidžia vartotojams atlikti sudėtingesnes apdorojimo užduotis, palyginti su prižiūrimu mokymu. Nors neprižiūrimas mokymasis gali būti labiau nenuspėjamas, palyginti su kitais natūraliais mokymosi metodais. Neprižiūrimi mokymosi algoritmai apima grupavimą, anomalijų aptikimą, neuroninius tinklus ir kt.

Šioje pamokoje sužinosite:

  • Neprižiūrimo mašininio mokymosi pavyzdys
  • Kodėl mokomasi be priežiūros?
  • Neprižiūrimo mokymosi tipai
  • Grupavimas
  • Grupių tipai
  • Asociacija
  • Prižiūrimas ir neprižiūrimas mašininis mokymasis
  • Neprižiūrimo mašininio mokymosi programos
  • Neprižiūrimo mokymosi trūkumai

Neprižiūrimo mašininio mokymosi pavyzdys

Paimkime kūdikio ir jos šeimos šuns atvejį.

Ji pažįsta ir atpažįsta šį šunį. Po kelių savaičių šeimos draugas atsiveda šunį ir bando žaisti su kūdikiu.

Kūdikis anksčiau nematė šio šuns. Bet jis atpažįsta daugybę bruožų (2 ausys, akys, vaikščiojimas ant 4 kojų) yra kaip jos augintinis. Ji identifikuoja naują gyvūną kaip šunį. Tai yra neprižiūrimas mokymasis, kai jūsų nemoko, bet mokotės iš duomenų (šiuo atveju duomenų apie šunį). Jei tai būtų buvę prižiūrimas, šeimos draugas būtų pasakęs kūdikiui, kad tai šuo.

Kodėl mokomasi be priežiūros?

Čia pateikiamos pagrindinės neprižiūrimo mokymosi naudojimo priežastys:

  • Neprižiūrimas mašininis mokymasis randa visokių nežinomų duomenų šablonų.
  • Neprižiūrimi metodai padeda rasti funkcijas, kurios gali būti naudingos skirstant į kategorijas.
  • Jis vyksta realiuoju laiku, todėl visi įvesties duomenys turi būti analizuojami ir pažymimi besimokančiųjų akivaizdoje.
  • Nepaženklintus duomenis iš kompiuterio gauti lengviau nei su etiketėmis, kuriems reikia rankinio įsikišimo.

Neprižiūrimo mokymosi tipai

Neprižiūrimos mokymosi problemos toliau grupuojamos į grupes ir asociacijos problemas.

Grupavimas

Klasteriai yra svarbi sąvoka, kai kalbama apie neprižiūrimą mokymąsi. Daugiausia kalbama apie struktūros ar modelio paiešką nekategorizuotų duomenų rinkinyje. Grupavimo algoritmai apdoros jūsų duomenis ir ras natūralius klasterius (grupes), jei jų yra duomenyse. Taip pat galite modifikuoti, kiek klasterių turėtų identifikuoti jūsų algoritmai. Tai leidžia koreguoti šių grupių detalumą.

Yra įvairių rūšių grupavimas, kurį galite naudoti:

Išskirtinis (skaidymas)

Taikant šį grupavimo metodą, duomenys yra grupuojami taip, kad vieni duomenys gali priklausyti tik vienai grupei.

Pavyzdys: K reiškia

Aglomeracinė

Taikant šią grupavimo techniką, visi duomenys yra klasteriai. Pakartotinės dviejų artimiausių grupių sąjungos sumažina grupių skaičių.

Pavyzdys: hierarchinis grupavimas

Sutampa

Šioje technikoje neryškūs rinkiniai naudojami duomenims kaupti. Kiekvienas taškas gali priklausyti dviem ar daugiau grupių, turinčių atskirą narystės laipsnį.

Čia duomenys bus susieti su atitinkama narystės verte. Pavyzdys: Apytikslės C priemonės

Tikimybinis

Ši technika naudoja tikimybių pasiskirstymą kuriant klasterius

Pavyzdys: stebimi raktiniai žodžiai

  • „žmogaus batas“.
  • „moteriškas batas“.
  • „moteriškos pirštinės“.
  • „žmogaus pirštinė“.

galima suskirstyti į dvi kategorijas: „batas“ ir „pirštinė“ arba „vyras“ ir „moterys“.

Grupių tipai

  • Hierarchinis grupavimas
  • K reiškia grupavimą
  • K-NN (k artimiausi kaimynai)
  • Pagrindinių komponentų analizė
  • Vienaskaitos vertės suskaidymas
  • Nepriklausoma komponentų analizė

Hierarchinis grupavimas:

Hierarchinis grupavimas yra algoritmas, kuris kuria klasterių hierarchiją. Tai prasideda nuo visų duomenų, kurie priskiriami jų pačių klasteriui. Čia du artimi klasteriai bus tame pačiame klasteryje. Šis algoritmas baigiasi, kai lieka tik vienas klasteris.

K reiškia klasterizaciją

K reiškia, kad tai iteracinis grupavimo algoritmas, padedantis rasti didžiausią kiekvienos iteracijos vertę. Iš pradžių pasirenkamas norimas grupių skaičius. Taikydami šį grupavimo metodą, turite sugrupuoti duomenų taškus į k grupes. Didesnis k reiškia mažesnes grupes, turinčias daugiau detalumo tuo pačiu būdu. Žemesnis k reiškia didesnes grupes, kurių granuliavimas yra mažesnis.

Algoritmo išvestis yra „etikečių“ grupė. Jis priskiria duomenų tašką vienai iš k grupių. „K“ reiškia grupes, kiekviena grupė apibrėžiama sukūrus kiekvienos grupės centroidą. Centroidai yra tarsi klasterio širdis, kuri užfiksuoja arčiausiai esančius taškus ir prideda juos prie klasterio.

K-grupių klasteris toliau apibrėžia du pogrupius:

  • Aglomeracinis klasteris
  • Dendrograma

Aglomeracinis grupavimas:

Šio tipo K reiškia grupes prasideda nustatytu grupių skaičiumi. Jis paskirsto visus duomenis į tikslų grupių skaičių. Šiam grupavimo metodui nereikia įvesties klasterių K skaičiaus. Aglomeracijos procesas pradedamas formuojant visus duomenis kaip vieną grupę.

Šis metodas naudoja tam tikrą atstumo matą, sumažina klasterių skaičių (po vieną kiekvienoje iteracijoje) sujungiant procesą. Galiausiai turime vieną didelį grupę, kurioje yra visi objektai.

Dendrograma:

Taikant „Dendrogram“ grupių metodą, kiekvienas lygis atspindės galimą grupę. Dendrogramos aukštis rodo dviejų jungčių grupių panašumo lygį. Arčiau proceso apačios jie yra panašesni klasteriai, kurie yra dendrogramos grupės radiniai, kurie nėra natūralūs ir dažniausiai subjektyvūs.

K- Artimiausi kaimynai

K- artimiausias kaimynas yra paprasčiausias iš visų mašininio mokymosi klasifikatorių. Jis skiriasi nuo kitų mašininio mokymosi metodų tuo, kad nesukuria modelio. Tai paprastas algoritmas, kuriame saugomi visi galimi atvejai ir klasifikuojami nauji atvejai pagal panašumo matą.

Tai veikia labai gerai, kai tarp pavyzdžių yra atstumas. Mokymosi greitis yra lėtas, kai treniruočių rinkinys yra didelis, o atstumo apskaičiavimas yra nereikšmingas.

Pagrindinių komponentų analizė:

Jei norite didesnio matmens erdvės. Turite pasirinkti tos vietos pagrindą ir tik 200 svarbiausių to pagrindo balų. Ši bazė yra žinoma kaip pagrindinis komponentas. Pasirinktas pogrupis yra nauja erdvė, kurios dydis yra mažas, palyginti su pradine erdve. Tai palaiko kuo didesnį duomenų sudėtingumą.

Asociacija

Asociacijos taisyklės leidžia jums nustatyti duomenų objektų asociacijas didelėse duomenų bazėse. Ši neprižiūrima technika skirta atrasti įdomius ryšius tarp kintamųjų didelėse duomenų bazėse. Pavyzdžiui, žmonės, kurie perka naujus namus, greičiausiai perka naujus baldus.

Kiti pavyzdžiai:

  • Vėžiu sergančių pacientų pogrupis, sugrupuotas pagal jų genų ekspresijos matavimus
  • Pirkėjų grupės pagal jų naršymo ir pirkimo istoriją
  • Filmų grupė pagal filmų žiūrovų suteiktą įvertinimą

Prižiūrimas ir neprižiūrimas mašininis mokymasis

Parametrai Prižiūrima mašininio mokymosi technika Neprižiūrima mašininio mokymosi technika
Įvesties duomenys Algoritmai mokomi naudojant paženklintus duomenis. Algoritmai naudojami prieš duomenis, kurie nėra pažymėti etiketėmis
Skaičiavimo sudėtingumas Prižiūrimas mokymasis yra paprastesnis metodas. Neprižiūrimas mokymasis yra sudėtingas skaičiavimais
Tikslumas Labai tikslus ir patikimas metodas. Mažiau tikslus ir patikimas metodas.

Neprižiūrimo mašininio mokymosi programos

Kai kurios neprižiūrimų mašininio mokymosi metodų taikymo sritys yra šios:

  • Grupavimas automatiškai padalija duomenų rinkinį į grupes pagal jų panašumus
  • Anomalijų aptikimas gali aptikti neįprastus duomenų taškus jūsų duomenų rinkinyje. Tai naudinga ieškant apgaulingų sandorių
  • Asociacijos kasyba nustato daiktų rinkinius, kurie dažnai būna kartu jūsų duomenų rinkinyje
  • Išankstiniam duomenų apdorojimui plačiai naudojami latentiniai kintamųjų modeliai. Kaip ir sumažinti duomenų rinkinio funkcijų skaičių arba išskaidyti duomenų rinkinį į kelis komponentus

Neprižiūrimo mokymosi trūkumai

  • Negalite gauti tikslios informacijos apie duomenų rūšiavimą, o išvestis kaip duomenys, naudojami neprižiūrint mokymosi, yra paženklinti ir nežinomi
  • Mažesnis rezultatų tikslumas yra dėl to, kad įvesties duomenys nėra žinomi ir žmonės iš anksto nepaženklinti. Tai reiškia, kad mašina reikalauja tai padaryti pati.
  • Spektrinės klasės ne visada atitinka informacines klases.
  • Vartotojas turi skirti laiko interpretuodamas ir pažymėdamas klases, kurios atitinka tą klasifikaciją.
  • Spektriškos klasių savybės taip pat gali keistis laikui bėgant, todėl jūs negalite turėti tos pačios klasės informacijos, kai einate iš vieno vaizdo į kitą.

Santrauka

  • Neprižiūrimas mokymasis yra mašininio mokymosi technika, kai nereikia prižiūrėti modelio.
  • Neprižiūrimas mašininis mokymasis padeda surasti visokius nežinomus duomenų modelius.
  • Klasteriai ir asociacija yra dvi neprižiūrimo mokymosi rūšys.
  • Keturi grupavimo metodų tipai yra 1) Išskirtinis 2) Aglomeracinis 3) Persidengiantis 4) Tikimybinis.
  • Svarbūs grupių tipai yra: 1) hierarchinis grupavimas 2) K reiškia klasterizaciją 3) K-NN 4) pagrindinio komponento analizė 5) atskirosios vertės skaidymas 6) nepriklausomos komponento analizė.
  • Asociacijos taisyklės leidžia jums nustatyti duomenų objektų asociacijas didelėse duomenų bazėse.
  • Taikant prižiūrimą mokymą, algoritmai mokomi naudojant paženklintus duomenis, o neprižiūrimame mokyme algoritmai naudojami prieš duomenis, kurie nėra paženklinti.
  • Anomalijų aptikimas gali aptikti svarbius duomenų taškus jūsų duomenų rinkinyje, kurie yra naudingi ieškant apgaulingų operacijų.
  • Didžiausias neprižiūrimo mokymosi trūkumas yra tas, kad negalima gauti tikslios informacijos apie duomenų rūšiavimą.

Įdomios straipsniai...