Sakinių žymėjimas
Sakinio žymėjimas platesne prasme reiškia veiksmažodžio, daiktavardžio ir kt. Etikečių pridėjimą pagal sakinio kontekstą. POS žymenų identifikavimas yra sudėtingas procesas. Taigi bendro POS žymėjimo rankiniu būdu neįmanoma, nes kai kurie žodžiai gali turėti skirtingas (dviprasmiškas) reikšmes pagal sakinio struktūrą. Teksto konvertavimas sąrašo forma yra svarbus žingsnis prieš žymėjimą, nes kiekvienas sąrašo žodis yra susietas ir skaičiuojamas tam tikrai žymai. Žr. Žemiau pateiktą kodą, kad jį geriau suprastumėte
import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))
IŠĖJIMAS
[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]
Kodo paaiškinimas
- Kodas importuoti nltk (natūralios kalbos įrankių rinkinys, kuriame yra submoduliai, pvz., Sakinių žymėjimas ir žodžių žymėjimas.)
- Tekstas, kurio žymos turi būti atspausdintos.
- Sakinio žymėjimas
- Dėl kilpos yra įgyvendinama, kai žodžiai yra pažymėti iš sakinio, o kiekvieno žodžio žyma spausdinama kaip išvestis.
„Corpus“ yra dviejų tipų POS žymekliai:
- Taisyklėmis pagrįstas
- Stochastiniai POS žymekliai
1. Taisyklėmis pagrįstas POS žymeklis: žodžiams, turinčiais dviprasmišką reikšmę, taikomas taisyklėmis pagrįstas požiūris, pagrįstas kontekstine informacija. Tai daroma tikrinant arba analizuojant ankstesnio ar tolesnio žodžio reikšmę. Informacija analizuojama iš žodžio aplinkos arba jo viduje. Todėl žodžiai žymimi tam tikros kalbos gramatinėmis taisyklėmis, tokiomis kaip didžiosios raidės ir skyryba. pvz., Brillo žymeklis.
2. Stochastinis POS žymeklis: taikant šį metodą taikomi skirtingi metodai, tokie kaip dažnis ar tikimybė. Jei žodis dažniausiai pažymėtas tam tikra žyme mokymo rinkinyje, bandomajame sakinyje jam suteikiama būtent ta žyma. Žodžio žyma priklauso ne tik nuo savo, bet ir nuo ankstesnės žymos. Šis metodas ne visada yra tikslus. Kitas būdas yra apskaičiuoti konkrečios žymos atsiradimo sakinyje tikimybę. Taigi galutinė žyma apskaičiuojama tikrinant didžiausią žodžio tikimybę tam tikra žyma.
Paslėptas Markovo modelis:
Žymėjimo problemas taip pat galima modeliuoti naudojant HMM. Įvesties žetonai traktuojami kaip stebima seka, o žymos laikomos paslėptomis būsenomis, o tikslas yra nustatyti paslėptą būsenų seką. Pavyzdžiui, x = x 1 , x 2 ,…, x n, kur x yra žetonų seka, o y = y 1 , y 2 , y 3 , y 4 … y n yra paslėpta seka.
Kaip veikia HMM modelis?
HMM naudoja prisijungimo skirstinį, kuris yra P (x, y), kur x yra įvesties seka / žetonų seka, o y yra žymos seka.
X žymės seka bus argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…). Mes suskirstėme žymes iš teksto, tačiau tokių žymų statistika yra gyvybiškai svarbi. Taigi kitoje dalyje skaičiuojamos šios žymos atliekant statistinius tyrimus.