Šioje pamokoje sužinosite -
- NLTK diegimas sistemoje Windows
- „Python“ diegimas sistemoje „Windows“
- NLTK diegimas „Mac“ / „Linux“
- NLTK diegimas per „Anaconda“
- NLTK duomenų rinkinys
- Kaip atsisiųsti visus NLTK paketus
- Paleisti NLP scenarijų
- Kaip paleisti NLTK scenarijų
NLTK diegimas sistemoje Windows
Šioje dalyje sužinosime, kaip nustatyti NLTK per terminalą (komandų eilutė „Windows“).
Žemiau pateiktos instrukcijos yra pagrįstos prielaida, kad jūs neturite įdiegę python. Taigi, pirmiausia reikia įdiegti „python“.
„Python“ diegimas sistemoje „Windows“:
1 žingsnis) Eiti į nuorodą https://www.python.org/downloads/ , ir pasirinkite naujausią versiją "Windows".
Pastaba : jei nenorite atsisiųsti naujausios versijos, galite apsilankyti atsisiuntimo skirtuke ir pamatyti visus leidimus.
2 žingsnis) Spustelėkite atsisiųstą failą
3 žingsnis) Pasirinkite Tinkinti diegimą
4 žingsnis) Spustelėkite TOLIAU
5 žingsnis) Kitame ekrane
- Pasirinkite išplėstines parinktis
- Nurodykite pasirinktinę diegimo vietą. Mano atveju, norint patogiau naudotis, pasirenkamas aplankas C diske
- Spustelėkite Diegti
6 žingsnis) Baigę diegti spustelėkite mygtuką Uždaryti.
7 žingsnis) Nukopijuokite aplanko „Scripts“ kelią.
8 žingsnis) „Windows“ komandų eilutėje
- Eikite į pip aplanko vietą
- Įveskite komandą, kad įdiegtumėte NLTK
pip3 install nltk
- Diegimas turėtų būti atliktas sėkmingai
PASTABA : „Python2“ naudokite „commandpip2 install“ „nltk“
9 žingsnis) „Windows“ meniu Pradėti ieškokite ir atidarykite „PythonShell“
10 žingsnis) Galite patikrinti, ar diegimas yra teisingas, pateikdami toliau pateiktą komandą
import nltk
Jei nematote klaidos, diegimas baigtas.
NLTK diegimas „Mac“ / „Linux“
Norint įdiegti NLTK į „Mac“ / „Unix“ reikia „python“ paketų tvarkyklės „pip“, kad būtų galima įdiegti „nltk“. Jei „pip“ nėra įdiegtas, vadovaukitės žemiau pateiktomis instrukcijomis, kad užbaigtumėte procesą
1 žingsnis) Atnaujinkite paketo indeksą, įvesdami žemiau esančią komandą
sudo apt update
2 žingsnis) „Python 3“ diegimas:
sudo apt install python3-pip
Taip pat galite įdiegti „pip“ naudodami „easy_install“.
sudo apt-get install python-setuptools python-dev build-essential
Dabar įdiegtas „easy_install“. Norėdami įdiegti pip, paleiskite žemiau esančią komandą
sudo easy_install pip
3 žingsnis. Norėdami įdiegti NLTK, naudokite šią komandą
sudo pip install -U nltksudo pip3 install -U nltk
NLTK diegimas per „Anaconda“
1 žingsnis) Įdiekite „anaconda“ (kurią taip pat galima naudoti skirtingiems paketams įdiegti) apsilankę https://www.anaconda.com/products/individual ir pasirinkite, kurią „python“ versiją turite įdiegti „anaconda“.
Pastaba: Išsamius veiksmus, kaip įdiegti „anaconda“, rasite šioje instrukcijoje
2 žingsnis) „Anaconda“ raginime
- Įveskite komandą
conda install -c anaconda nltk
- Peržiūrėkite paketo atnaujinimą, atnaujinkite, įdiekite informaciją ir įveskite taip
- NLTK yra atsisiųstas ir įdiegtas
NLTK duomenų rinkinys
NLTK modulyje yra daug duomenų rinkinių, kuriuos turite atsisiųsti, kad galėtumėte naudoti. Techniškiau tai vadinama korpusu . Kai kurie pavyzdžiai yra stoteliniai žodžiai , gutenbergas , framenet_v15 , didžiosios_gramatikos ir pan.
Kaip atsisiųsti visus NLTK paketus
1 žingsnis. Paleiskite „Python“ vertėją sistemoje „Windows“ arba „Linux“
2 žingsnis)
- Įveskite komandas
import nltknltk.download ()
- Atsidaro NLTK atsisiųstas langas. Norėdami atsisiųsti duomenų rinkinį, spustelėkite mygtuką „Atsisiųsti“. Šis procesas užtruks, atsižvelgiant į jūsų interneto ryšį
PASTABA: Atsisiuntimo vietą galite pakeisti spustelėdami Failas> Keisti atsisiuntimo katalogą
3 žingsnis. Norėdami patikrinti įdiegtus duomenis, naudokite šį kodą
>>> from nltk.corpus import brown>>>brown.words()
[„The“, „Fulton“, „County“, „Grand“, „žiuri“, „said“,…]
Paleisti NLP scenarijų
Mes ketiname aptarti, kaip NLP scenarijus bus vykdomas mūsų vietiniame kompiuteryje. Rinkoje yra daug natūralios kalbos apdorojimo bibliotekų. Taigi bibliotekos pasirinkimas priklauso nuo jūsų poreikių atitikimo. Čia yra NLP bibliotekų sąrašas.
Kaip paleisti NLTK scenarijų
1 žingsnis) Mėgstamiausiame kodo rengyklėje nukopijuokite kodą ir išsaugokite failą kaip „ NLTKsample.py “
from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)
Kodo paaiškinimas:
- Šios programos tikslas buvo pašalinti visų tipų skyrybos ženklus iš pateikto teksto. Mes importavome „RegexpTokenizer“, kuris yra NLTK modulis. Jis pašalina visą išraišką, simbolį, simbolį, skaitmenį ar bet ką, ko tik norite.
- Jūs ką tik perdavėte įprastą išraišką moduliui „RegexpTokenizer“.
- Be to, mes pažymėjome žodį naudodami „tokenize“ modulį. Išvestis saugoma kintamajame „filterdText“.
- Ir atspausdino juos naudodamiesi "print ()".
2 žingsnis) Komandų eilutėje
- Eikite į vietą, kurioje išsaugojote failą
- Paleiskite komandą Python NLTKsample.py
Tai parodys išvestį kaip:
[„Sveiki“, „Guru99“, „Jūs“, „turite“, „pastatykite“, „a“, „labai“, „gerai“, „svetainė“, „ir“, „aš“, „meilė“, „ apsilankymas ',' tavo ',' svetainė ']