UNIRI PROJEKTI ISKUSNIH ZNANSTVENIKA 2023: Matematičko modeliranje u obradi prirodnog jezika

uniri-iskusni-prirod-23-150

Aktivni članovi tima

dr. sc. Sanda Bujačić Babić, voditeljica
dr. sc. Tajana Ban Kirigin
dr. sc. Benedikt Perak
dr. sc. Zvonimir Šikić

Organizirana predavanja
Wignerov problem i realni brojevi, Zvonimir Šikić,
Research Class Zavoda za algebru i teoriju brojeva Fakulteta za matematiku Sveučilišta u Rijeci, 24. svibnja 2024.


Konferencijska priopćenja
Polynomial D(4)-quadruples in R[X], Sanda Bujačić Babić
8. Hrvatski matematički kongres, Osijek, 2. – 5. srpnja 2024.


O projektu

Obrada prirodnog jezika interdisciplinarno je područje koje se oslanja na društvene i prirodne znanosti te matematiku kako bi se iz različitih perspektiva objedinila znanja i metode pogodne za razvoj naprednih alata za računalno “razumijevanje” jezika. Postignuti su značajni rezultati u raznim zadacima prvensteno za jezike visoke zastupljenosti, kao što je engleski jezik, dok su ti rezultati puno manje kvalitetni i pouzdani za slabije zastupljene jezike, primjerice za hrvatski jezik. 

Jedan od zadataka obrade prirodnog jezika je sentiment analiza koja se bavi afektivnim i subjektivnim fenomenima u analizi teksta. Jedan od glavnih problema sentiment analize hrvatskog jezika je siromašnost postojećih sentiment rječnika pa se najčešće tekst na hrvatskom prevodi na engleski jezik za koji postoje bogati sentiment rječnici. Pri tome se gube neke osnovne karakteristike hrvatskog jezika. Kako bi se navedeni problem riješio, cilj ovog istraživanja je osmisliti i kreirati algoritam za obogaćivanje sentiment rječnika, odnosno propagaciju sentiment vrijednosti riječi na odabranom jeziku, korištenjem klasičnih algoritamskih i suvremenih generativnih metoda obrade i analize teksta. Takva transparentna metodologija propagacije sentiment vrijednosti leksema primjenjiva je univerzalno za sve prirodne jezike i omogućuje kreiranje bogatih sentiment rječnika za slabije zastupljene jezike, uključujući hrvatski jezik i njegova narječja. U okviru ovog istraživanja planira se izrada takvog rječnika za hrvatski jezik. Dobiveni matematički i računalni modeli i resursi na hrvatskom jeziku implementirat će se i organizirati u programske module i pakete te ponuditi na korištenje u otvorenom pristupu.

Izrađeni matematički modeli i lingvistički pristupi predstavljat će pouzdanu, preglednu metodologiju i rezultirati lingvističkim resursima. Bit će osnova daljnjoj implementaciji raznih matematičkih modela u obradi prirodnog jezika, primjerice elemenata teorije grafova, logike i umjetne inteligencije.