UNIRI PROJEKTI ISKUSNIH ZNANSTVENIKA 2023: Matematičko modeliranje u obradi prirodnog jezika
uniri-iskusni-prirod-23-150
Aktivni članovi tima
dr. sc. Sanda Bujačić Babić, voditeljica
dr. sc. Tajana Ban Kirigin
dr. sc. Benedikt Perak
dr. sc. Zvonimir Šikić
Organizirana predavanja
Wignerov problem i realni brojevi, Zvonimir Šikić,
Research Class Zavoda za algebru i teoriju brojeva Fakulteta za matematiku Sveučilišta u Rijeci, 24. svibnja 2024.
Konferencijska priopćenja
- Polynomial D(4)-quadruples in R[X], Sanda Bujačić Babić, 8. Hrvatski matematički kongres, Osijek, 2. – 5. srpnja 2024.
- Time-Bounded Resilience: Formalization, Computational Complexity and Implementation, Tajana Ban Kirigin,
(joint work with Jesse Comer, Max Kanovich, Andre Scedrov, Carolyn Talcott), Logic and Applications 2024 (LAP 2024), Dubrovnik, 23. – 27. rujna 2024. - Measuring Node Integration in Directed Graphs and the Applications, Sanda Bujačić Babić, (joint work with Tajana Ban Kirigin), Logic and Applications 2024 (LAP 2024), Dubrovnik, 23. – 27. rujna 2024.
- ENHANCING JAPANESE LEXICAL NETWORKS USING LARGE LANGUAGE MODELS: Extracting Synonyms and Antonyms with GPT-4o, Benedikt Perak, Dragana Špica, Conference: 21st EURALEX International Congress Lexicography and Semantics At: Cavtat, Croatia, listopad 2024., link
O projektu
Obrada prirodnog jezika interdisciplinarno je područje koje se oslanja na društvene i prirodne znanosti te matematiku kako bi se iz različitih perspektiva objedinila znanja i metode pogodne za razvoj naprednih alata za računalno “razumijevanje” jezika. Postignuti su značajni rezultati u raznim zadacima prvensteno za jezike visoke zastupljenosti, kao što je engleski jezik, dok su ti rezultati puno manje kvalitetni i pouzdani za slabije zastupljene jezike, primjerice za hrvatski jezik.
Jedan od zadataka obrade prirodnog jezika je sentiment analiza koja se bavi afektivnim i subjektivnim fenomenima u analizi teksta. Jedan od glavnih problema sentiment analize hrvatskog jezika je siromašnost postojećih sentiment rječnika pa se najčešće tekst na hrvatskom prevodi na engleski jezik za koji postoje bogati sentiment rječnici. Pri tome se gube neke osnovne karakteristike hrvatskog jezika. Kako bi se navedeni problem riješio, cilj ovog istraživanja je osmisliti i kreirati algoritam za obogaćivanje sentiment rječnika, odnosno propagaciju sentiment vrijednosti riječi na odabranom jeziku, korištenjem klasičnih algoritamskih i suvremenih generativnih metoda obrade i analize teksta. Takva transparentna metodologija propagacije sentiment vrijednosti leksema primjenjiva je univerzalno za sve prirodne jezike i omogućuje kreiranje bogatih sentiment rječnika za slabije zastupljene jezike, uključujući hrvatski jezik i njegova narječja. U okviru ovog istraživanja planira se izrada takvog rječnika za hrvatski jezik. Dobiveni matematički i računalni modeli i resursi na hrvatskom jeziku implementirat će se i organizirati u programske module i pakete te ponuditi na korištenje u otvorenom pristupu.
Izrađeni matematički modeli i lingvistički pristupi predstavljat će pouzdanu, preglednu metodologiju i rezultirati lingvističkim resursima. Bit će osnova daljnjoj implementaciji raznih matematičkih modela u obradi prirodnog jezika, primjerice elemenata teorije grafova, logike i umjetne inteligencije.