Kas yra R programavimo kalba? Įvadas & R pagrindai

Kas yra „R“ programinė įranga?

R yra programavimo kalba ir nemokama programinė įranga, kurią Rossas Ihaka ir Robertas Gentlemanas sukūrė 1993 m. R turi platų statistinių ir grafinių metodų katalogą. Tai apima mašininio mokymosi algoritmus, linijinę regresiją, laiko eiles, statistinę išvadą, kad būtų galima išskirti keletą. Dauguma R bibliotekų yra parašytos R, tačiau norint atlikti sunkias skaičiavimo užduotis, pirmenybė teikiama C, C ++ ir Fortran kodams.

R yra patikėtas ne tik akademikų, bet ir daugelis didelių kompanijų taip pat naudoja R programavimo kalbą, įskaitant „Uber“, „Google“, „Airbnb“, „Facebook“ ir pan.

Duomenų analizė su R atliekama keliais žingsniais; programuoti, transformuoti, atrasti, modeliuoti ir perduoti rezultatus

  • Programa : R yra aiški ir prieinama programavimo priemonė
  • Transformuoti : R sudaro bibliotekų rinkinys, sukurtas specialiai duomenų mokslui
  • Atraskite : ištirkite duomenis, patikslinkite hipotezę ir jas išanalizuokite
  • Modelis : R pateikia platų įrankių asortimentą, kad užfiksuotų tinkamą jūsų duomenų modelį
  • Bendraukite : integruokite kodus, grafikus ir išvestis į ataskaitą naudodami „R Markdown“ arba sukurkite „Shiny“ programas, kad galėtumėte jas bendrinti su pasauliu

Šioje įvadinėje pamokoje sužinosite R

  • Kam naudojamas R?
  • R pagal pramonę
  • R pakuotė
  • Bendraukite su R
  • Kodėl naudoti R?
  • Ar turėtumėte pasirinkti R?
  • Ar R sunku?

Kam naudojamas R?

  • Statistinė išvada
  • Duomenų analizė
  • Mašininio mokymosi algoritmas

R pagal pramonę

Jei išskaidysime R naudojimą pramonėje, pamatysime, kad pirmiausia yra akademikai. R yra kalba, atliekanti statistiką. R yra pirmasis pasirinkimas sveikatos priežiūros pramonėje, po kurio seka vyriausybė ir konsultacijos.

R pakuotė

Pagrindinis R panaudojimas yra ir visada bus statistika, vizualizacija ir mašininis mokymasis. Žemiau esančiame paveikslėlyje parodyta, kuris „R“ paketas sulaukė daugiausia klausimų „Stack Overflow“. 10 geriausiųjų dauguma jų yra susiję su duomenų mokslininko darbo eiga: duomenų paruošimu ir rezultatų perdavimu.

Visos R bibliotekos, beveik 12 tūkst., Saugomos CRAN. CRAN yra nemokamas ir atviras šaltinis. Galite atsisiųsti ir naudoti daugybę bibliotekų, kad atliktumėte mašininio mokymosi ar laiko eilučių analizę.

Bendraukite su R

R turi keletą būdų pristatyti ir dalytis darbu, naudodamas žymėjimo dokumentą arba blizgančią programą. Viską galima talpinti „Rpub“, „GitHub“ ar verslo svetainėje.

Žemiau pateikiamas „Rpub“ surengto pristatymo pavyzdys

„Rstudio“ priima žymėjimą rašyti dokumentą. Galite eksportuoti dokumentus įvairiais formatais:

  • Dokumentas:
    • HTML
    • PDF / lateksas
    • Žodis
  • Pristatymas
    • HTML
    • PDF spindulys

„Rstudio“ turi puikų įrankį lengvai sukurti programą. Žemiau pateikiamas programos su Pasaulio banko duomenimis pavyzdys.

Kodėl naudoti R?

Duomenų mokslas formuoja tai, kaip įmonės valdo savo verslą. Be jokios abejonės, laikydamiesi atokiau nuo dirbtinio intelekto ir mašinos kompanija žlugs. Didelis klausimas yra tai, kokį įrankį / kalbą turėtumėte naudoti?

Rinkoje yra daugybė įrankių duomenų analizei atlikti. Norint išmokti naują kalbą reikia šiek tiek laiko investuoti. Žemiau esančiame paveikslėlyje pavaizduota mokymosi kreivė, palyginti su verslo galimybėmis, kurias siūlo kalba. Neigiami santykiai reiškia, kad nemokamų pietų nėra. Jei norite kuo geriau suprasti duomenis, turite skirti šiek tiek laiko išmokti atitinkamą įrankį, kuris yra R.

Grafiko viršuje kairėje galite pamatyti „Excel“ ir „PowerBI“. Šiuos du įrankius lengva išmokti, tačiau jie nepasiūlo puikių verslo galimybių, ypač modeliavimo požiūriu. Viduryje galite pamatyti „Python“ ir „SAS“. SAS yra speciali priemonė statistinei verslo analizei atlikti, tačiau ji nėra nemokama. SAS yra „spustelėkite ir paleiskite“ programinė įranga. Tačiau „Python“ yra monotoniškos mokymosi kreivės kalba. „Python“ yra fantastiškas įrankis, skirtas diegti mašininį mokymąsi ir dirbtinį intelektą, tačiau neturi komunikacijos funkcijų. Turėdamas identišką mokymosi kreivę, R yra geras kompromisas tarp įgyvendinimo ir duomenų analizės.

Kalbant apie duomenų vizualizavimą („DataViz“), tikriausiai girdėjote apie „Tableau“. „Tableau“, be jokios abejonės, yra puiki priemonė atrasti modelius per grafikus ir diagramas. Be to, mokytis „Tableau“ nėra daug laiko. Viena didelė duomenų vizualizavimo problema yra ta, kad galite niekada nerasti modelio arba tiesiog sukurti daug nenaudingų diagramų. „Tableau“ yra gera priemonė greitai vizualizuoti duomenis ar verslo intelektą. Kalbant apie statistiką ir sprendimų priėmimo įrankį, R yra tinkamesnis.

„Stack Overflow“ yra didelė programavimo kalbų bendruomenė. Jei kyla problemų dėl kodavimo arba reikia suprasti modelį, „Stack Overflow“ yra čia, kad padėtų. Per metus klausimų, susijusių su R, procentinė dalis smarkiai išaugo, palyginti su kitomis kalbomis. Ši tendencija, žinoma, labai susijusi su klestinčiu duomenų mokslo amžiumi, tačiau tai atspindi R kalbos poreikį duomenų mokslui.

Duomenų moksle yra dvi tarpusavyje konkuruojančios priemonės. R ir „Python“ tikriausiai yra programavimo kalba, apibrėžianti duomenų mokslą.

Ar turėtumėte pasirinkti R?

Duomenų mokslininkas gali naudoti dvi puikias priemones: R ir Python. Gali neturėti laiko išmokti jų abiejų, ypač jei pradėsite mokytis duomenų mokslo. Mokytis statistinio modeliavimo ir algoritmoyra kur kas svarbiau nei išmokti programavimo kalbos. Programavimo kalba yra įrankis, skirtas apskaičiuoti ir perduoti jūsų atradimą. Svarbiausia duomenų mokslo užduotis yra būdas, kaip elgiatės su duomenimis: importavimas, valymas, paruošimas, funkcijų inžinerija, funkcijų pasirinkimas. Tai turėtų būti jūsų pagrindinis dėmesys. Jei bandote išmokti „R“ ir „Python“ tuo pačiu metu be tvirto statistikos pagrindo, tai tiesiog kvaila. Duomenų mokslininkai nėra programuotojai. Jų užduotis yra suprasti duomenis, jais manipuliuoti ir atskleisti geriausią požiūrį. Jei galvojate, kurią kalbą mokytis, pažiūrėkime, kuri kalba jums tinkamiausia.

Pagrindinė duomenų mokslo auditorija yra verslo profesionalas. Versle viena didelė implikacija yra bendravimas. Yra daug bendravimo būdų: ataskaita, žiniatinklio programa, informacijos suvestinė. Jums reikia įrankio, kuris visa tai atliktų kartu.

Ar R sunku?

Prieš daugelį metų R buvo sunkiai įvaldoma kalba. Kalba buvo paini ir ne tokia struktūruota kaip kitos programavimo priemonės. Norėdami išspręsti šią svarbią problemą, Hadley Wickhamas sukūrė pakuočių rinkinį, pavadintą „tidyverse“. Žaidimo taisyklė pasikeitė į gerąją pusę. Manipuliavimas duomenimis tampa nereikšmingas ir intuityvus. Sukurti grafiką nebebuvo taip sunku.

Geriausius mašininio mokymosi algoritmus galima įgyvendinti naudojant R. Paketai, tokie kaip „Keras“ ir „TensorFlow“, leidžia sukurti aukščiausios klasės mašininio mokymosi techniką. R taip pat turi paketą, skirtą atlikti „Xgboost“, vieną geriausių „Kaggle“ varžybų algoritmų.

R gali bendrauti su kita kalba. R galima skambinti „Python“, „Java“, „C ++“. Didelių duomenų pasaulis taip pat prieinamas R. Galite prijungti R prie skirtingų duomenų bazių, tokių kaip „Spark“ ar „Hadoop“.

Galiausiai R vystėsi ir leido lygiagretinti operaciją, kad pagreitėtų skaičiavimas. Tiesą sakant, R buvo kritikuojamas dėl to, kad vienu metu jis naudoja tik vieną procesorių. Lygiagretusis paketas leidžia atlikti užduotis skirtingose ​​mašinos šerdyse.

Santrauka

Trumpai tariant, R yra puiki priemonė tyrinėti ir ištirti duomenis. Išsami analizė, pvz., Grupavimas, koreliacija ir duomenų mažinimas, atliekami su R. Tai yra svarbiausia dalis, be geros savybių inžinerijos ir modelio, mašininio mokymosi diegimas neduos reikšmingų rezultatų.

Įdomios straipsniai...