UNIRI PROJEKTI ISKUSNIH ZNANSTVENIKA 2023: Matematičko modeliranje u obradi prirodnog jezika

uniri-iskusni-prirod-23-150

Aktivni članovi tima

dr. sc. Sanda Bujačić Babić, voditeljica
dr. sc. Tajana Ban Kirigin
dr. sc. Benedikt Perak
dr. sc. Zvonimir Šikić

Organizirana predavanja
Definicije u matematici, Zvonimir Šikić,
Riječki matematički susreti 2025., Matematika oko nas, državni skup za nastavnike u organizaciji Zavoda za algebru i teoriju brojeva Fakulteta za matematiku Sveučilišta u Rijeci, 16. rujna 2025.

Wignerov problem i realni brojevi, Zvonimir Šikić,
Research Class Zavoda za algebru i teoriju brojeva Fakulteta za matematiku Sveučilišta u Rijeci, 24. svibnja 2024.

Konferencijska priopćenja

Interpretable vs Learnable Centrality: Combining SLI with Neural Networks, Sanda Bujačić Babić, (joint work with Tajana Ban Kirigin), Logic and Applications 2025 (LAP 2025), Dubrovnik, 23. – 27. rujna 2025.
Diophantine Quadruples in Q(i)[X], Sanda Bujačić Babić, 33èmes Journées Arithmétiques,University of Luxemburg, 30.6. – 4.7.2025.
Regularity of Diophantine quadruples in Q(i)[X], Sanda Bujacic Babic, Representation Theory XIX (The conference is dedicated to the birthdays of Andrej Dujella, Ivica Gusić and Borka Jadrijević), 23. – 28.6.2025.
Polynomial D(4)-quadruples in R[X], Sanda Bujačić Babić, 8. Hrvatski matematički kongres, Osijek, 2. – 5. srpnja 2024.
Time-Bounded Resilience: Formalization, Computational Complexity and Implementation, Tajana Ban Kirigin,
(joint work with Jesse Comer, Max Kanovich, Andre Scedrov, Carolyn Talcott), Logic and Applications 2024 (LAP 2024), Dubrovnik, 23. – 27. rujna 2024.
Measuring Node Integration in Directed Graphs and the Applications, Sanda Bujačić Babić, (joint work with Tajana Ban Kirigin), Logic and Applications 2024 (LAP 2024), Dubrovnik, 23. – 27. rujna 2024.
ENHANCING JAPANESE LEXICAL NETWORKS USING LARGE LANGUAGE MODELS: Extracting Synonyms and Antonyms with GPT-4o, Benedikt Perak, Dragana Špica, Conference: 21st EURALEX International Congress Lexicography and Semantics At: Cavtat, Croatia, listopad 2024., link

Važne web stranice

CongraCNet

Docker image CongraCNet

GitHub, sbujacic (SLI and DSLI measure, code and examples)

GitHub, bperak (EmoCNet code)

Sentiment-hr (sentiment lexicon for Croatian Language)

O projektu

Obrada prirodnog jezika interdisciplinarno je područje koje se oslanja na društvene i prirodne znanosti te matematiku kako bi se iz različitih perspektiva objedinila znanja i metode pogodne za razvoj naprednih alata za računalno “razumijevanje” jezika. Postignuti su značajni rezultati u raznim zadacima prvensteno za jezike visoke zastupljenosti, kao što je engleski jezik, dok su ti rezultati puno manje kvalitetni i pouzdani za slabije zastupljene jezike, primjerice za hrvatski jezik.

Jedan od zadataka obrade prirodnog jezika je sentiment analiza koja se bavi afektivnim i subjektivnim fenomenima u analizi teksta. Jedan od glavnih problema sentiment analize hrvatskog jezika je siromašnost postojećih sentiment rječnika pa se najčešće tekst na hrvatskom prevodi na engleski jezik za koji postoje bogati sentiment rječnici. Pri tome se gube neke osnovne karakteristike hrvatskog jezika. Kako bi se navedeni problem riješio, cilj ovog istraživanja je osmisliti i kreirati algoritam za obogaćivanje sentiment rječnika, odnosno propagaciju sentiment vrijednosti riječi na odabranom jeziku, korištenjem klasičnih algoritamskih i suvremenih generativnih metoda obrade i analize teksta. Takva transparentna metodologija propagacije sentiment vrijednosti leksema primjenjiva je univerzalno za sve prirodne jezike i omogućuje kreiranje bogatih sentiment rječnika za slabije zastupljene jezike, uključujući hrvatski jezik i njegova narječja. U okviru ovog istraživanja planira se izrada takvog rječnika za hrvatski jezik. Dobiveni matematički i računalni modeli i resursi na hrvatskom jeziku implementirat će se i organizirati u programske module i pakete te ponuditi na korištenje u otvorenom pristupu.

Izrađeni matematički modeli i lingvistički pristupi predstavljat će pouzdanu, preglednu metodologiju i rezultirati lingvističkim resursima. Bit će osnova daljnjoj implementaciji raznih matematičkih modela u obradi prirodnog jezika, primjerice elemenata teorije grafova, logike i umjetne inteligencije.

Abstract

Natural language processing (NLP) is an interdisciplinary field that relies on the social and natural sciences and mathematics to bring together knowledge and methods from many perspectives to develop sophisticated tools for computer “understanding” of language. Significant results have been achieved on many tasks, especially for languages with high coverage, such as English. Such results are far less qualitative and reliable for low-resource languages, such as Croatian.

Sentiment analysis is one of the fields of NLP tasks. It deals with sentiment analysis, i.e., affective and subjective phenomena in text analysis. One of the basic problems in Croatian sentiment analysis is the scarcity of existing sentiment dictionaries. Therefore, sentiment analysis for Croatian often involves translating the content into English. In the process, many essential elements of the Croatian language are lost. To solve the above-mentioned problem, the aim of this research is to design and build a sentiment dictionary enrichment algorithm, i.e. propagating the sentiment value of words in the selected language, using classical algorithmic and modern generative methods of text processing and analysis. Such a transparent technique for propagating the sentiment value of lexemes is generally applicable to all natural languages enabling the construction of rich sentiment dictionaries for low-resource languages, including Croatian and its dialects. Within the framework of this research, we plan to create such dictionary for the Croatian language. The obtained mathematical models and resources will be organized as modules and packages and offered for open-access use.

The mathematical models and linguistic approaches made in this research will provide a reliable and transparent methodology and lead to linguistic resources. They will serve as a basis for the further implementation of various mathematical models in NLP, such as elements of graph theory, logic and artificial intelligence.