Računalniška analiza besedil v izobraževanju
Seminarske naloge
Predstavitev literature
Naloga: preberite enega od naslednjih člankov ali si oglejte enega od naslednjih
posnetkov predavanj; o članku oz. predavanju pripravite 10-minutno predstavitev.
Seznam člankov in posnetkov:
| Kdo | Članek oz. predavanje
|
| M. Karlovčec, B. Lužar, D. Mladenić. Core-periphery dynamics in collaboration networks: the case study of Slovenia. Scientometrics, 2016. DOI: 10.1007/s11192-016-2154-4.
|
| Povezava med zavestjo in umetno inteligenco, Marko Grobelnik, IJS (50 min)
|
| Observing odor-related information in academic domain, Inna Novalija (10 min)
|
| Observing Water-Related Events for Evidence-Based Decision-Making, Alenka Guček (14 min)
|
| Capturing the Semantics of Smell: The Odeuropa Data Model for Olfactory Heritage Information, Pasquale Lisena (24 min)
|
| Exploring the Impact of Lexical and Grammatical Features on Automatic Genre Identification, Taja Kuzman (15 min)
|
| SLOmet — Slovenian Commonsense Description, Adrian Mladenić Grobelnik (15 min)
|
| Emotion Recognition in Text using Graph Similarity Criteria, Nadezhda Komarova (15 min)
|
Skupinski projekt: Poskusi na zbirki besedil
Naloga 1: s pomočjo orodja OntoGen
zgradite ontologijo (10–20 konceptov) za neko zbirko besedil in komentirajte rezultate.
Naloga 2: s pomočjo orodij iz paketa TextGarden izvedite na zbirki besedil naslednje korake:
[Če bodo z zgornjo verzijo težave, poskusite še z naslednjima
starejšima verzijama TextGardna: 1,
2.]
- S programom Txt2Bow pripravite predstavitev v formatu bag-of-words.
- S programom BowKMeans pripravite razvrstitev dokumentov v skupine po metodi k-means za dva različna k in analizirajte rezultate.
- S programom BowTrainBinSVM pripravite klasifikatorje za dve redki in dve pogosti kategoriji.
Te klasifikatorje s programom BowClassify uporabite na besedilih iz naslednje zbirke (če ste učili
klasifikatorje na zbirki n, poženite klasifikatorje na besedilih iz zbirke n + 1).
Izračunajte precision, recall, F1, klasifikacijsko točnost in narišite krivuljo precision/recall.
- BowClassify izračuna napoved
le za en dokument naenkrat. Zato si boste morali napisati program ali skripto, ki datoteko z vašo testno
množico bere po vrsticah, iz vsake vrstice izlušči dokument, ki je v njej (torej poreže zaporedno številko
dokumenta in oznake kategorij z začetka vrstice), ga izpiše v samostojno pomožno datoteko, pokliče
BowClassify in nato prebere njegovo napoved ter si jo nekam shrani, da jo bo kasneje lahko primerjal
s pravo pripadnostjo dokumenta kategoriji in na podlagi tega računal precision, recall itd.
- Opomba: BowClassify se sesuje, če je bil klasifikator
naučen na kategoriji, ki ni imela nobenih negativnih učnih dokumentov; to se pri nekaterih naših zbirkah
besedil lahko zgodi npr. s kategorijo GCAT, zato je v svojih poskusih raje ne uporabljajte.
- Kako narišemo krivuljo precision/recall? Testne dokumente uredimo padajoče po vrednosti, ki jo napove klasifikator
(s tem je mišljena napoved kot realno število — npr. če je BowClassify pri nekem dokumentu izpisal „1. -0.926 'GPOL'“, je njegova napoved tukaj −0.926),
nato pa se vprašamo: „kakšen precision in recall dobimo, če razglasimo prvih k dokumentov za pozitivne, ostale pa za negativne?“
To naredimo za vsak k od 0 do števila dokumentov in dobljene pare 〈precision, recall〉 narišemo na grafu, kjer postavimo
precision na y-os, recall pa na x-os. Takšna krivulja je zanimiva, ker nam pove, kaksne tradeoffe med precisionom in recallom
nam ta model omogoča, če smo pripravljeni spremeniti prag, nad katerim napovedujemo pozitivni razred.
- Prejšnji korak izvedite za dve vrsti jeder: linearna (parameter -t:linear) in polinomska s stopnjo d = 3 (-t:polynomial -ker_p:3).
- Za vsako od uporabljenih štirih kategorij poiščite na internetu po eno besedilo, ki ga klasifikator za tisto kategorijo napove kot pozitiven primer.
Uporabo orodij iz paketa TextGarden si bomo ogledali na vajah 5. novembra 2024 in 26. novembra 2024.
Pripravite poročilo (~10 strani) in 15-minutno predstavitev. (Pri predstavitvi naj nastopijo vsi člani skupine!)
Rok za oddajo: poročila in predstavitve (PowerPoint ali PDF) pošljite na
janez.brank@ijs.si do 2. januarja 2025.
Predstavitve bodo potekale na predavanjih 7. januarja 2025.
Primeri uporabe orodij iz zbirke TextGarden
> Txt2Bow.exe -inlndoc:news.txt -o:news.bow -stopword:none -stemmer:none -ngramlen:1
> BowKMeans.exe -i:news.bow -clusts:5
> BowTrainBinSVM.exe -i:news.bow -o:news.bowmd -cat:GSPO
> BowClassify.exe -ibow:news.bow -imd:news.bowmd -qs:"olympic games"
> BowClassify.exe -ibow:news.bow -imd:news.bowmd -qh:article1.txt