50 geriausių duomenų mokslo interviu klausimų ir atsakymų

Toliau pateikiami dažnai užduodami klausimai pokalbiuose dėl darbo naujokams ir patyrusiems duomenų mokslininkams.

1. Kas yra duomenų mokslas?

Duomenų mokslas yra algoritmų, įrankių ir mašininio mokymosi technikos derinys, kuris padeda jums rasti įprastus paslėptus modelius iš pateiktų neapdorotų duomenų.

2. Kas yra logistinė regresija duomenų moksle?

Logistinė regresija taip pat vadinama logito modeliu. Tai metodas prognozuoti dvejetainį rezultatą iš tiesinio kintamųjų kintamųjų derinio.

3. Nurodykite tris šališkumo tipus, kurie gali atsirasti imant mėginius

Atrankos procese yra trijų tipų šališkumai:

Atrankos šališkumas
Esant šališkumui
Išgyvenimo šališkumas

4. Aptarkite sprendimų medžio algoritmą

Sprendimų medis yra populiarus prižiūrimas mašininio mokymosi algoritmas. Jis daugiausia naudojamas regresijai ir klasifikacijai. Tai leidžia suskirstyti duomenų rinkinį į mažesnius pogrupius. Sprendimų medis gali apdoroti tiek kategorinius, tiek skaitmeninius duomenis.

5. Kas yra „Prior“ tikimybė ir tikimybė?

Ankstesnė tikimybė yra priklausomo kintamojo dalis duomenų rinkinyje, o tikimybė yra tikimybė klasifikuoti tam tikrą stebėtoją esant kažkokiam kitam kintamajam.

6. Paaiškinti rekomenduojančias sistemas?

Tai informacijos filtravimo būdų poklasis. Tai padeda nuspėti, kokias nuostatas ar reitingus vartotojai gali suteikti produktui.

7. Išvardykite tris linijinio modelio naudojimo trūkumus

Trys linijinio modelio trūkumai yra šie:

Klaidų tiesiškumo prielaida.
Šio modelio negalima naudoti dvejetainiams ar skaičiuojamiems rezultatams
Yra daugybė perteklinių problemų, kurių nepavyksta išspręsti

8. Kodėl reikia atlikti atranką?

Pakartotinis mėginių ėmimas atliekamas toliau nurodytais atvejais:

Statistinės imties tikslumo įvertinimas atsitiktiniu būdu nubrėžiant pakaitalą iš duomenų taško rinkinio arba naudojant kaip prieinamų duomenų pogrupius
Atliekant būtinus bandymus, etikečių pakeitimas duomenų taškuose
Modelių patvirtinimas naudojant atsitiktinius pogrupius

9. Išvardykite „Python“ bibliotekas, naudojamas duomenų analizei ir moksliniams skaičiavimams.

SciPy
Pandos
Matplotlib
NumPy
„SciKit“
Seabornas

10. Kas yra galios analizė?

Galios analizė yra neatsiejama eksperimentinio projekto dalis. Tai padeda jums nustatyti imties dydį, norint išsiaiškinti tam tikro dydžio poveikį iš priežasties, turinčios konkretų užtikrinimo lygį. Tai taip pat leidžia pritaikyti tam tikrą tikimybę imties dydžio suvaržyme.

11. Paaiškinkite bendradarbiavimo filtravimą

Bendras filtravimas naudojamas teisingų modelių paieškai bendradarbiaujant požiūrio taškuose, keliuose duomenų šaltiniuose ir įvairiuose agentuose.

12. Kas yra šališkumas?

Šališkumas yra klaida, įvesta jūsų modelyje dėl pernelyg paprasto mašininio mokymosi algoritmo. "Tai gali sukelti nepakankamą pritaikymą.

13. Aptarkite „Naive“ Naive Bayeso algoritme?

Naiviųjų Bayeso algoritmo modelis remiasi Bayeso teorema. Jis apibūdina įvykio tikimybę. Tai pagrįsta išankstinėmis žiniomis apie sąlygas, kurios gali būti susijusios su tuo konkrečiu įvykiu.

14. Kas yra tiesinė regresija?

Linijinė regresija yra statistinis programavimo metodas, kai kintamojo „A“ balas numatomas pagal antrojo kintamojo „B“ balą. B nurodomas kaip numatomasis kintamasis, o A - kaip kriterijus.

15. Nurodykite skirtumą tarp laukiamos vertės ir vidutinės vertės

Jie nėra daug skirtumų, tačiau abu šie terminai vartojami skirtinguose kontekstuose. Vidutinė vertė paprastai nurodoma, kai aptariate tikimybių pasiskirstymą, o laukiama reikšmė - atsitiktinio kintamojo kontekste.

16. Koks tikslas atlikti A / B testavimą?

AB testavimas, naudojamas atsitiktiniams eksperimentams su dviem kintamaisiais, A ir B., atlikti. Šio bandymo metodo tikslas yra sužinoti interneto puslapio pakeitimus, siekiant padidinti ar padidinti strategijos rezultatą.

17. Kas yra mokymasis ansamblyje?

Ansamblis yra būdas sujungti įvairius besimokančiuosius ir improvizuoti apie modelio stabilumą ir nuspėjamąją galią. Yra du ansamblio mokymosi metodų tipai:

Maišavimas

Krepšio metodas padeda jums pritaikyti panašius besimokančiuosius mažose imčių grupėse. Tai padeda jums artimiau prognozuoti.

Didinimas

„Boosting“ yra iteracinis metodas, leidžiantis koreguoti stebėjimo svorį, priklausantį nuo paskutinės klasifikacijos. „Boosting“ sumažina šališkumo klaidą ir padeda sukurti tvirtus nuspėjamuosius modelius.

18. Paaiškinkite savąją vertę ir savąjį vektorių

Eigenvektoriai skirti suprasti linijines transformacijas. Duomenų mokslininkas turi apskaičiuoti kovariacijos matricos ar koreliacijos savivektorius. Atskiros vertės yra kryptys, naudojant specialius tiesinius transformavimo veiksmus, suspaudžiant, vartant ar tempiant.

19. Apibrėžkite kryžminio patvirtinimo terminą

Kryžminis patvirtinimas yra patvirtinimo technika, skirta įvertinti, kaip statistinės analizės rezultatai apibendrins nepriklausomą duomenų rinkinį. Šis metodas naudojamas fone, kur prognozuojamas tikslas, ir reikia įvertinti, kaip tiksliai modelis bus pasiektas.

20. Paaiškinkite Duomenų analizės projekto veiksmus

Šie svarbūs analizės projekto veiksmai:

Supraskite verslo problemą
Naršykite duomenis ir atidžiai juos ištirkite.
Paruoškite duomenis modeliavimui ieškodami trūkstamų verčių ir transformuodami kintamuosius.
Pradėkite vykdyti modelį ir analizuokite didelių duomenų rezultatą.
Patvirtinkite modelį naudodami naują duomenų rinkinį.
Įgyvendinkite modelį ir sekite rezultatą, kad galėtumėte analizuoti modelio našumą konkrečiu laikotarpiu.

21. Aptarkite dirbtinius neuroninius tinklus

Dirbtiniai neuroniniai tinklai (ANN) yra specialus algoritmų rinkinys, pakeitęs mašininį mokymąsi. Tai padeda jums prisitaikyti pagal besikeičiančią informaciją. Taigi tinklas generuoja geriausią įmanomą rezultatą neperprojektuodamas išvesties kriterijų.

22. Kas yra nugaros plitimas?

Nugaros sklidimas yra nervinio tinklo mokymo esmė. Tai yra nervinio tinklo svorio nustatymo metodas, priklausantis nuo klaidų, gautų ankstesnėje epochoje. Tinkamas derinimas padeda sumažinti klaidų lygį ir padaryti modelį patikimą, padidindamas jo apibendrinimą.

23. Kas yra atsitiktinis miškas?

Atsitiktinis miškas yra mašininis mokymosi metodas, padedantis atlikti visų rūšių regresijos ir klasifikavimo užduotis. Jis taip pat naudojamas trūkstamoms ir neišvengiamoms reikšmėms gydyti.

24. Kokia yra pasirinkimo šališkumo svarba?

Atrankos šališkumas įvyksta, kai renkantis asmenis, grupes ar analizuojamus duomenis nėra pasiektas specifinis atsitiktinių imčių pasirinkimas. Tai rodo, kad pateikta imtis tiksliai neatitinka populiacijos, kurią ketinta analizuoti.

25. Kas yra K reikšmės klasterizavimo metodas?

K reiškia klasteris yra svarbus neprižiūrimas mokymosi metodas. Tai duomenų klasifikavimo technika naudojant tam tikrą grupių rinkinį, kuri vadinama K grupėmis. Jis skirtas grupavimui, kad būtų galima sužinoti duomenų panašumą.

26. Paaiškinkite skirtumą tarp duomenų mokslo ir duomenų analizės

Duomenų mokslininkai turi suskirstyti duomenis, kad gautų vertingų įžvalgų, kurias duomenų analitikas gali pritaikyti realaus pasaulio verslo scenarijams. Pagrindinis skirtumas tarp jų yra tas, kad duomenų mokslininkai turi daugiau techninių žinių nei verslo analitikas. Be to, jiems nereikia suprasti verslo, reikalingo duomenų vizualizavimui.

27. Paaiškinkite p reikšmę?

Atliekant statistikos hipotezės testą, p reikšmė leidžia nustatyti rezultatų stiprumą. Tai skaitinis skaičius nuo 0 iki 1. Pagal vertę jis padės jums nurodyti konkretaus rezultato stiprumą.

28. Apibrėžkite gilaus mokymosi terminą

Gilus mokymasis yra mašininio mokymosi potipis. Tai susiję su algoritmais, kuriuos įkvėpė struktūra, vadinama dirbtiniais neuroniniais tinklais (ANN).

29. Paaiškinkite duomenų rinkimo ir analizės metodą, kad socialinė žiniasklaida galėtų prognozuoti oro sąlygas.

Galite rinkti socialinės žiniasklaidos duomenis naudodami „Facebook“, „Twitter“, „Instagram“ API. Pvz., Tinklaraštyje galime sukurti kiekvieno „tweeter“ funkciją, pvz., „Tweeted“ datą, „retweets“, sekėjų sąrašą ir kt. Tada galite naudoti daugiakrypčio laiko eilučių modelį, norėdami numatyti oro sąlygas.

30. Kada reikia atnaujinti duomenų mokslo algoritmą?

Turite atnaujinti algoritmą šioje situacijoje:

Norite, kad jūsų duomenų modelis vystytųsi kaip duomenų srautas, naudojant infrastruktūrą
Pagrindinis duomenų šaltinis keičiasi
Jei tai nestacionarumas

31. Kas yra normalus pasiskirstymas

Normalus pasiskirstymas yra nuolatinio kintamojo rinkinys, pasiskirstęs per įprastą kreivę arba varpo kreivės pavidalo. Galite tai laikyti nuolatiniu tikimybių pasiskirstymu, kuris yra naudingas statistikoje. Naudinga analizuoti kintamuosius ir jų sąsajas, kai naudojame normaliojo pasiskirstymo kreivę.

32. Kuri kalba geriausiai tinka teksto analizei? R ar Python?

„Python“ labiau tiks teksto analizei, nes jį sudaro turtinga biblioteka, vadinama pandomis. Tai leidžia naudoti aukšto lygio duomenų analizės įrankius ir duomenų struktūras, o „R“ šios funkcijos nesiūlo.

33. Paaiškinkite duomenų mokslininkų statistikos naudojimo naudą

Statistika padeda duomenų mokslininkui geriau suprasti klientų lūkesčius. Taikant statistinį metodą, duomenų mokslininkai gali gauti žinių apie vartotojų susidomėjimą, elgesį, įsitraukimą, išlaikymą ir kt. Tai taip pat padeda jums sukurti galingus duomenų modelius, kad būtų galima patvirtinti tam tikras išvadas ir prognozes.

34. Įvardykite įvairias gilaus mokymosi struktūrų rūšis

Pytorchas
„Microsoft Cognitive Toolkit“
„TensorFlow“
Kavinė
Grandinė
Keras

35. Paaiškinkite automatinį kodavimo įrenginį

Automatiniai koduotojai mokosi tinklų. Tai padeda jums transformuoti įvestis į išvestis su mažiau klaidų. Tai reiškia, kad išvestis bus kuo arčiau įvesties.

36. Apibrėžkite „Boltzmann“ mašiną

„Boltzmann“ mašinos yra paprastas mokymosi algoritmas. Tai padeda atrasti tas ypatybes, kurios atspindi sudėtingus treniruočių duomenų dėsningumus. Šis algoritmas leidžia optimizuoti nurodytos problemos svorį ir kiekį.

37. Paaiškinkite, kodėl duomenų valymas yra būtinas ir kurį metodą naudojate švariems duomenims išlaikyti

Dėl nešvarių duomenų viduje dažnai būna neteisinga informacija, o tai gali pakenkti bet kurios organizacijos perspektyvai. Pavyzdžiui, jei norite vykdyti tikslinę rinkodaros kampaniją. Tačiau mūsų duomenys neteisingai nurodo, kad konkretus produktas bus paklausus jūsų tikslinei auditorijai; kampanija žlugs.

38. Kas yra iškreiptas paskirstymas ir vienodas paskirstymas?

Iškreiptas pasiskirstymas įvyksta, kai duomenys paskirstomi bet kurioje vienoje srities pusėje, o tolygus pasiskirstymas nustatomas, kai duomenys paskleidžiami, o diapazonas yra lygus.

39. Kai statiniame modelyje trūksta galimybių?

Nepakankamas yra tada, kai statistinis modelis ar mašininio mokymosi algoritmas negali užfiksuoti pagrindinės duomenų tendencijos.

40. Kas yra mokymasis sustiprinti?

Sustiprinimas Mokymasis yra mokymosi mechanizmas, kaip susieti situacijas su veiksmais. Galutinis rezultatas turėtų padėti jums padidinti dvejetainį atlygio signalą. Taikant šį metodą, besimokančiajam nėra nurodoma, kokį veiksmą atlikti, bet jis turi atrasti, kuris veiksmas suteikia didžiausią atlygį. Kadangi šis metodas pagrįstas atlygio / baudos mechanizmu.

41. Pavadinkite dažniausiai naudojamus algoritmus.

Keturi dažniausiai naudojami duomenų mokslininko algoritmai yra šie:

Tiesinė regresija
Logistinė regresija
Atsitiktinis miškas
KNN

42. Kas yra tikslumas?

Tikslumas yra dažniausiai naudojama klaidų metrika n klasifikavimo mechanizmas. Jo diapazonas yra nuo 0 iki 1, kur 1 reiškia 100%

43. Kas yra vienmačių analizė?

Analizė, taikoma vienu metu jokiam atributui, vadinama vienkrypte analize. „Boxplot“ yra plačiai naudojamas, vienodis modelis.

44. Kaip įveikti savo atradimų iššūkius?

Norint įveikti mano atradimo iššūkius, reikia skatinti diskusijas, parodyti lyderystę ir gerbti įvairias galimybes.

45. Paaiškinkite duomenų mokslų grupių atrankos metodiką

Klasterio atrankos metodas naudojamas, kai yra sudėtinga tirti tikslinę populiacijos pasiskirstymą, ir negalima taikyti paprastos atsitiktinės atrankos.

46. Nurodykite patvirtinimo rinkinio ir bandymo rinkinio skirtumą

Patvirtinimo rinkinys dažniausiai laikomas mokymo rinkinio dalimi, nes jis naudojamas parametrų pasirinkimui, kuris padeda išvengti kuriamo modelio perpildymo.

Testavimo rinkinys naudojamas apmokant mašininio mokymosi modelio našumą.

47. Paaiškinkite terminą „Binomial Tikimybių Formulė“?

"Binominiame skirstinyje pateikiamos kiekvienos galimos sėkmės N bandymuose tikimybės nepriklausomiems įvykiams, kurių įvykio tikimybė yra π".

48. Kas yra atsišaukimas?

Atšaukimas yra tikrosios teigiamos normos ir faktinės teigiamos normos santykis. Jis svyruoja nuo 0 iki 1.

49. Aptarkite normalųjį pasiskirstymą

Normalus pasiskirstymas vienodai pasiskirstęs, todėl vidurkis, mediana ir būdas yra vienodi.

50. Dirbdami prie duomenų rinkinio, kaip galite pasirinkti svarbius kintamuosius? Paaiškinkite

Galite naudoti šiuos kintamojo pasirinkimo metodus:

Prieš pasirinkdami svarbius kintamuosius, pašalinkite susijusius kintamuosius
Naudokite tiesinę regresiją ir pasirinkite kintamuosius, kurie priklauso nuo šios p vertės.
Naudokite parinktį Atgal, Pirmyn ir Žingsnis
Naudokite „Xgboost“, „Random Forest“ ir diagramos kintamos svarbos diagramą.
Išmatuokite informacijos gavimą apie pateiktą funkcijų rinkinį ir atitinkamai pasirinkite n geriausias ypatybes.

51. Ar įmanoma užfiksuoti koreliaciją tarp tęstinio ir kategorinio kintamojo?

Taip, mes galime naudoti kovariacijos technikos analizę, kad užfiksuotume ryšį tarp tęstinių ir kategorinių kintamųjų.

52. Kategorinį kintamąjį traktuojant kaip tęstinį kintamąjį, būtų gautas geresnis nuspėjamasis modelis?

Taip, kategorinė vertė turėtų būti laikoma nuolatiniu kintamuoju tik tada, kai kintamasis yra eilinio pobūdžio. Taigi tai yra geresnis nuspėjamasis modelis.