Teme
Koraljka Golub
Lund University (Švedska)
Predstavit će se različiti pristupi automatskoj klasifikaciji digitalno dostupne tekstualne građe, s naglaskom na mrežne stranice (Web pages). Cilj je ukazati na sličnosti i razlike te probleme postojećih četiriju pristupa. To su:
- Kategorizacija teksta (text categorization). Pripada strojnom učenju, a primjenjuje i metode iz informacijskog pretraživanja (information retrieval). Sastoji se od tri osnovna koraka. Prvi obuhvaća manuelnu kategorizaciju određenog broja dokumenata za učenje (training documents) u prethodno određene kategorije. Kategorije koje se obično koriste u ovom pristupu ne sadrže mehanizme za «kontrolu» nad sinonimijom, polisemijom ili homonimijom prirodnog jezika, za razliku od kontroliranih sustava za označivanje kakvi se koriste u knjižnicama i službama za označivanje i sažimanje (indexing and abstracting services). Nakon učenja svojstava tih kategoriija (drugi korak) na temelju dokumenata za učenje, odvija se automatska klasifikacija novih dokumenata (treći korak).
- Grupiranje dokumenata (document clustering). Pripada informacijskom pretraživanju. Za razliku od kategorizacije teksta, ne obuhvaća prethodno određene kategorije ili dokumente za učenje, već se grupe sličnih dokumenata, kao i njihovi nazivi, dobivaju automatski na temelju dokumenata koje se želi grupirati.
- Klasifikacija dokumenata (document classification). Pripada knjižničnoj znanosti. Obuhvaća manuleno oblikovane sustave za označivanje, poput klasifikacijskih sustava, u čije se klase ili kategorije dokumenti svrstavaju. Za razliku od kategorija kakve se primjenjuju u kategorizaciji teksta, ovi sustavi osiguravaju nadzor nad problemima sinonimije, polisemije i homonimije prirodnog jezika.
- Miješani pristup. Odnosi se na slučajeve u kojima se u okviru kategorizacije teksta ili grupiranja dokumenata koriste manuelno oblikovani sustavi za označivanje.