ESTONIAN ACADEMY
PUBLISHERS
eesti teaduste
akadeemia kirjastus
The Yearbook of the Estonian Mother Tongue Society cover
The Yearbook of the Estonian Mother Tongue Society
ARVUTILINGVISTIKA JA KEELETEHNOLOOGIA TARTU ÜLIKOOLIS; pp. 66–102
PDF | doi:10.3176/esa57.05

Authors
Kadri Muischnek, Mark Fišel, Heiki-Jaan Kaalep, Mare Koit, Kaili Müürisep, Heili Orav, Kadri Vare, Haldur Õim
Abstract

Development of computational linguistics and language technology at the University of Tartu
The article gives an overview of the current research in computational linguistics and language technology at the University of Tartu: research subjects, achievements, and problems. Only research on written language is described, and language resources are mentioned only in brief. In computational morphology, the tools for morphological analysis and synthesis have been robust enough to be used in various practical tasks during the last decade. At present, the subject of most active research is disambiguation. In syntax, a shallow parser has been implemented, and current research is focused on dependency parsing. In semantics, a great deal of effort has been (and is still being) devoted to WordNet and a related task – word sense disambiguation. Recently, tools for named entity classification have been built. Studies in clause semantics focus on spatial movement situations, modelled in frame semantics. In pragmatics, the focus of interest is on modelling dialogues, and in particular, on recognizing dialogue acts (e.g. requests, greetings) as the building blocks of dialogues. In machine translation, the aim is to find language-specific ways to improve statistical machine translation.

References

Arengukava 2011 = Eesti keele arengukava 2011–2017. Eesti Keele Sihtasutus. Tallinn.

Asser jt 2004 = Hiie Asser, Heiki-Jaan Kaalep, Siret Linnas, Jaan Mikk, Kadri Muischnek, Merje Songe, Heli Uibo. Õpikute keerukuse analüüs arvutitel. – Toimiv keel II. Töid rakenduslingvistika alalt. Koost. Helle Metslang. Toim. Maria-Maren Sepper, Jane Lepasaar. (= Tallinna Pedagoogikaülikooli eesti filoloogia osakonna toimetised 3.) Tallinn: Tallinna Pedagoogikaülikooli Kirjastus , 72–84.

Baayen, Harald 2001. Word Frequency Distributions. Doedrecht, Boston, London: Kluwer Academic Publishers.

Bick jt 2004 = Eckhard Bick, Heli Uibo, Kaili Müürisep. Arborest – a VISL-style treebank derived from estonian constraint grammar corpus. – Proceedings of the Third Workshop on Treebanks and Linguistic Theories (TLT 2004). Tübingen, Germany, Dec 10-11, 2004.

Brown jt 1993 = Peter F. Brown, Stephen Della Pietra, Vincent J. Della Pietra, Robert L. Mercer. The mathematics of statistical machine translation: parameter estimation. – Computational Linguistics 19 (2), 263–311.

Creutz, Mathias, Krista Lagus 2005. Inducing the morphological lexicon of a natural language from unannotated text. – Proceedings of the International and Interdisciplinary Conference on Adaptive Knowledge Representation and Reasoning (AKRR’05), Espoo, Finland.

Dale jt 2000 = Robert Dale, Herman Moisl, Harold Somers (ed.). Handbook of Natural Language Processing. New York: Marcel Dekker.

EKG II = Mati Erelt, Reet Kasik, Helle Metslang, Henno Rajandi, Kristiina Ross, Henn Saari, Kaja Tael, Silvi Vare 1993. Eesti keele grammatika II. Süntaks. Lisa: Kiri. Peatoim. Mati Erelt, toim. Tiiu Erelt, Henn Saari, Ülle Viks. Tallinn: Eesti Teaduste Akadeemia Keele ja Kirjanduse Instituut.

Erelt, Tiiu 2007. Terminiõpetus. Tartu: Tartu Ülikooli Kirjastus.

Eskor, Liina 2005. Dialoogiaktid ja suhtlusstrateegiad: Eesti dialoogikorpuse analüüs. – Keel ja Kirjandus 10, 711–727.

Fishel, Mark 2007. Complex taxonomy dialogue act recognition with a bayesian classifier. – Proceedings: DECALOG’2007 Workshop on the Semantics and Pragmatics of Dialogue. Rovereto, Italy; May 30 – June 1, 2007, 161–162.

Fishel, Mark, Heiki-Jaan Kaalep 2008. Experiments on processing overlapping parallel corpora. – Proceedings of the 6th International Conference on Language Resources and Evaluation (LREC’08), Marrakech, Morocco; http://www.lrec-conf.org/proceedings/lrec2008/.

Fishel jt 2007 = Mark Fishel, Heiki-Jaan Kaalep, Kadri Muischnek. Estonian-English statistical machine translation: the first results. – Proceedings of the 16th Nordic Conference of Computational Linguistics
NODALIDA-2007. [University of Tartu, 24–26 May 2007] Ed. Joakim Nivre, Heiki-Jaan Kaalep, Kadri Muischnek, Mare Koit. Tartu; http://hdl.handle.net/10062/2589.

Fišel, Mark, Taavet Kikas 2006. Dialoogiaktide automaatne tuvastamine. – Keel ja arvuti. Toim. Mare Koit, Renate Pajusalu, Haldur Õim. (= Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 6.) Tartu: Tartu Ülikooli Kirjastus, 233–245.

Gerassimenko jt 2010 = Olga Gerassimenko, Riina Kasterpalu, Mare Koit, Andriela Rääbis, Krista Strandson. Direktiivsed aktipaarid eestikeelsetes infodialoogides ja nende automaatne tuvastamine. – Eesti Rakenduslingvistika Ühingu aastaraamat 6. Toim. Helle Metslang, Margit Langemets, Maria-Maren Sepper. Tallinn: Eesti Keele Sihtasutus, 67–86.
http://dx.doi.org/10.5128/ERYa6.05.

Good, Irving John 1953. The population frequencies of species and the estimation of population parameters. – Biometrica 40, 237–264.
http://dx.doi.org/10.2307/2333344.

Hennoste, Tiit, Andriela Rääbis 2004. Dialoogiaktid eesti infodialoogides: tüpoloogia ja analüüs. Tartu: Tartu Ülikooli Kirjastus.

Hennoste jt 2009 = Tiit Hennoste, Olga Gerassimenko, Riina Kasterpalu, Mare Koit, Andriela Rääbis, Krista Strandson. Suulise eesti keele korpus ja inimese suhtlus arvutiga. – Eesti Rakenduslingvistika Ühingu aastaraamat 5. Toim. Helle Metslang, Margit Langemets, Maria-Maren Sepper, Reili Argus. Tallinn: Eesti Keele Sihtasutus, 111–130.
http://dx.doi.org/10.5128/ERYa5.07.

Kaalep, Heiki-Jaan, Mare Koit 2010. Kuidas masin tõlgib? – Keel ja Kirjandus 10, 726–738.

Kaalep, Heiki-Jaan, Jaan Mikk 2008a. Creating specialised dictionaries for foreign language learners: a case study. – International Journal of Lexicography 21 (4), 369–394.
http://dx.doi.org/10.1093/ijl/ecn017.

Kaalep, Heiki-Jaan, Jaan Mikk 2008b. Põhikooli ainesõnastikud. – Keel ja Kirjandus 10, 790–802.

Kaalep, Heiki-Jaan, Kadri Muischnek 2002. Eesti kirjakeele sagedussõnastik Tartu: Tartu Ülikooli Kirjastus.

Kaalep, Heiki-Jaan, Kadri Muischnek 2006. Multi-word verbs in a flective language: the case of Estonian. – Proceedings of the EACL 2006 Workshop on Multiword Expressions in a Multilingual Context. Trento,
Italy, 57–64.

Kaalep, Heiki-Jaan, Kadri Muischnek 2009. Eesti keele püsiühendid arvuti­lingvistikas: miks ja kuidas. – Eesti Rakenduslingvistika Ühingu aasta­raamat 5. Toim. Helle Metslang, Margit Langemets, Maria-Maren Sepper, Reili Argus. Tallinn: Eesti Keele Sihtasutus, 157–172.
http://dx.doi.org/10.5128/ERYa5.10.

Kaalep, Heiki-Jaan, Tarmo Vaino 2000. Teksti täielik morfoloogiline analüüs lingvisti töövahendite komplektis. – Arvutuslingvistikalt inimesele. Toim. Tiit Hennoste. (= Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 1.) Tartu: Tartu Ülikool, 87–99.

Kaalep, Heiki-Jaan, Kaarel Veskis 2007. Comparing parallel corpora and evaluating their quality. – Proceedings of Machine Translation Summit XI, Copenhagen, Denmark, 275–280.

Kaalep jt 2000 = Heiki-Jaan Kaalep, Kadri Muischnek, Kaili Müürisep, Andriela Rääbis, Külli Habicht. Kas tegelik tekst allub eesti keele morfoloogilistele kirjeldustele? Eesti kirjakeele testkorpuse morfosüntaktilise märgendamise kogemusest. – Keel ja Kirjandus 9, 623–633.

Kajaste, Kadri 2009. Eestikeelsete tekstide morfoloogiline ühestamine. Magistritöö. Tartu Ülikooli matemaatika-informaatikateaduskond.

Kaljuvee, Aivi 2008. Määruste ja täiendite eristamine statistiliste meetoditega. Magistritöö. Tartu Ülikooli matemaatika-informaatikateaduskond.

Karlsson jt 1995 = Fred Karlsson, Atro Voutilainen, Juha Heikkilä, Arto Anttila. Constraint Grammar: a Language Independent System for Parsing Unrestricted Text. Berlin, New York: Mouton de Gruyter.

Kerner, Kadri 2007. Sõnatähenduste ühestamise tulemuste parandamise meetodeid. Magistritöö. Tartu Ülikooli eesti ja üldkeeleteaduse instituut; http://hdl.handle.net/10062/2929.

Kikas, Taavet 2007. Dialoogiaktide tuvastamine eestikeelsetes dialoogides sufiksipuude abil. Magistritöö. Tartu Ülikooli arvutiteaduse instituut; http://dspace.utlib.ee/dspace/handle/10062/2755.

Kirik, Harri 2008. Juhendamata morfoloogia statistilises masintõlkes. Bakalaureusetöö. Tartu Ülikooli arvutiteaduse instituut.

Kirik, Harri, Mark Fishel 2008. Modelling linguistic phenomena with un­supervised morphology for improving statistical machine translation. – Proceedings of the SLTC’08 Workshop on Unsupervised Methods in NLP, Stockholm, Sweden.

Koehn, Philip 2005. Europarl: a parallel corpus for statistical machine translation. – MT Summit X, Phuket, Thailand, September 13–15, 2005, Conference Proceedings: the tenth Machine Translation Summit; 79–86.

Koit, Mare 1987. Eestikeelse dialoogi modelleerimisest arvutil. – Dialoogi ­mudelid ja eesti keel. Vastutav toim. Haldur Õim. (= Tartu Riikliku Ülikooli toimetised 795. Töid eesti filoloogia alalt 12.) Tartu, 38–53.

Koit, Mare 2003. Masintõlge ja kus temast kasu on? – Arvutimaailm 4, 51–55.

Koit, Mare 2006. Ratsionalism ja empirism keeleteaduses – vastasseis või koostöö? – Teoreetiline keeleteadus Eestis II. Toim. Ilona Tragel, Haldur Õim. (= Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 7.) Tartu: Tartu Ülikooli kirjastus, 41–54.

Koit, Mare 2010. Eesti dialoogikorpus ja argumenteerimisdialoogi arvutil modelleerimine. – Keel ja Kirjandus 4, 241–262.

Koit, Mare 2011. Automatic recognition of dialogue acts in complex typology. – Proceedings of INISTA: International Symposium on INnovations in Intelligent SysTems and Applications, Istanbul, 15–18 June 2011. Ed. Selim Akyokuş, Adil Alpkoçak, Bülent Bolat, Fırat Doğan, Tülay Yıldırım. Istanbul: IEEE, 485–489.
http://dx.doi.org/10.1109/INISTA.2011.5946122.

Koit, Mare, Haldur Õim 2003. Eestikeelse dialoogi modelleerimine. – Keel ja Kirjandus 10, 721–735.

Koit jt 2008 = Mare Koit, Olga Gerassimenko, Riina Kasterpalu, Andriela Rääbis, Krista Strandson. Developing a dialogue system: how to grant a customer’s directive? – TSD 2008. Proceedings: Text, Speech and Dialogue. 11th International Conference; Brno, Czech Republic; 8–12 September 2008. Ed. Petr Sojka, Aleš Horák, Ivan Kopeček, Karel Pala. (= Lecture Notes in Computer Science 5246.) Springer, 593– 600.

Koit jt 2009 = Mare Koit, Tiit Roosmaa, Haldur Õim. Knowledge representation for human-machine interaction. – Proceedings of KEOD: International Conference on Knowledge Engineering and Ontology Development, Funchal-Madeira (Portugal), 6–8 October 2009. INSTICC Press, 396–399.

Koskenniemi, Kimmo 1983. Two-level Morphology: A General Computational Model for Wordform Recognition and Production. (= Publications of the Department of General Linguistics, University of Helsinki, 11.)

Lindström, Liina, Kaili Müürisep 2009. Parsing corpus of Estonian dialects. – Proceedings of the NODALIDA 2009 workshop Constraint Grammar and robust parsing. May 14, 2009, Odense, Denmark, Nodalida 2009. Ed. Eckhard Bick, Kristin Hagen, Kaili Müürisep, Trond Trosterud. (= NEALT Proceedings Series 8.) Northern European Association For Language Technology, 22–29; http://hdl.handle.net/10062/14288.

Müürisep, Kaili 2000. Eesti keele arvutigrammatika: süntaks. (= Dissertationes mathematicae Universitatis Tartuensis 22.) Tartu: Tartu Ülikooli Kirjastus.

Müürisep, Kaili, Helen Nigol 2008. Where do parsing errors come from: the case of spoken Estonian. – TSD 2008. Proceedings: Text, Speech and Dialogue. 11th International Conference; Brno, Czech Republic; 8–12 September 2008. Ed. Petr Sojka, Aleš Horák, Ivan Kopeček, Karel Pala. (= Lecture Notes in Computer Science 5246.) Springer, 161–168.

Müürisep jt 2008 = Kaili Müürisep, Heili Orav, Haldur Õim, Kadri Vider, Neeme Kahusk, Piia Taremaa. From syntax trees in Estonian to frame semantics. – Proceedings of the Third Baltic Conference on Human Language Technologies. Kaunas, Lithuania; 4-5. okt. 2007. Ed. František Čermak, Rūta Marcinkevičienė; Erika Rimkutė, Jolanta Zabarskaitė. Vilnius: Vytautas Magnus University, Institute of the Lithuanian Language, 211–218.

Orav jt 2011 = Heili Orav, Kadri Kerner, Sirli Parm. Eesti Wordneti hetkeseisust. – Keel ja Kirjandus 2, 96–106.

Pruulmann-Vengerfeldt, Jaak 2010. Praktiline lõplikel automaatidel põhinev eesti keele morfoloogiakirjeldus. Magistritöö. Tartu Ülikooli matemaatika-informaatikateaduskond; http://dspace.utlib.ee/dspace/handle/10062/15199

Puolakainen, Tiina 2001. Eesti keele arvutigrammatika: morfoloogiline ühestamine. (= Dissertationes mathematicae Universitatis Tartuensis 27.) Tartu: Tartu Ülikooli Kirjastus.

Pärkson, Siiri 2011. Võlur Ozi eksperimentide kogumine ja partneri algatatud paranduste analüüs. – Eesti Rakenduslingvistika Ühingu aastaraamat 7. Toim. Helle Metslang, Margit Langemets, Maria-Maren Sepper. Tallinn: Eesti Rakenduslingvistika Ühing, 197–214.
http://dx.doi.org/10.5128/ERYa7.12.

Roosmaa, Tiit Madis Saluveer 1983. Semantic analysis of Estonian texts by computer. – Symposium on grammars of analysis and synthesis and their representation in computational structures. Summaries. Tallinn, 65–67.

Rätsep, Huno 1978. Eesti keele lihtlausete tüübid. (= Eesti NSV Teaduste Akadeemia Emakeele Seltsi Toimetised nr. 12.) Tallinn: Valgus.

Steinberger jt 2006 = Ralf Steinberger, Bruno Pouliquen, Anna Widiger, Camelia Ignat, Tomaž Erjavec, Dan Tufiş, Dániel Varga. The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages. – Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC’06), Genoa, Italy, 24-26 May 2006.

Tiedemann, Jörg 2009. News from OPUS – A collection of multilingual parallel corpora with tools and interfaces. – Recent Advances in Natural Language Processing V. Ed. Nicolas Nicolov, Galina Angelova, Ruslan Mitkov. (= Current Issues in Linguistic Theory 309.) Amsterdam, Philadelphia: John Benjamins Public Gompany, 237–248.

Tkatchenko, Aleksandr 2010. Named Entity Recognition for the Estonian Language. Master’s thesis. University of Tartu, Faculty of Mathematics and Computer Science, Institute of Computer Science; http://www.stacc.ee/files/tkachenko_master_thesis.pdf.

Treumuth, Margus 2004. Eesti dialoogikorpus ja selle töötlemise tarkvara. Magistritöö. Tartu Ülikooli matemaatika-informaatikateaduskond; http://dspace.utlib.ee/dspace/handle/10062/1172.

Treumuth, Margus 2008. Normalization of temporal information in Estonian. – TSD 2008. Proceedings: Text, Speech and Dialogue. 11th International Conference; Brno, Czech Republic; 8–12 September 2008. Ed. Petr Sojka, Aleš Horák, Ivan Kopeček, Karel Pala. (= Lecture Notes in Computer Science 5246.) Springer, 211–218.
http://dx.doi.org/10.1007/978-3-540-87391-4_28.

Treumuth, Margus 2011. A Framework for Asynchronous Dialogue Systems: Concepts, Issues and Design Aspects. (= Dissertationes mathematicae Universitatis Tartuensis 72.) Tartu University Press; http://dspace.utlib.ee/dspace/handle/10062/17522.

Treumuth jt 2006 = Margus Treumuth, Tanel Alumäe, Einar Meister. A natural language interface to a theater information database. – Language Technologies, IS-LTC 2006: Proceedings of 5th Slovenian and 1st Inter­national Conference. Ed. Tomaž Erjavec, Jerneja Žganec Gros. 9–10 October, Ljubljana, Slovenia, 27–30.

Uibo, Heli 2006. Eesti keele morfoloogia modelleerimisest lõplike muundurite abil. – Keel ja arvuti. (= Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 6.) Tartu: Tartu Ülikooli Kirjastus, 13–35.

Vainik, Ene, Kirt, Toomas 2008. Kuidas me mõistame mõisteid? – Eesti Rakenduslingvistika Ühingu aastaraamat 4. Toim. Helle Metslang, Margit Langemets, Maria-Maren Sepper.  Tallinn: Eesti Keele Sihtasutus, 225–245.
http://dx.doi.org/10.5128/ERYa4.14.

Veskis, Kaarel, Erkki Liba 2008. Automatic Tagger Evaluation. NLP course assignment report. March 16, 2008; http://lepo.it.da.ut.ee/~hkaalep/arvutimorf_09/kaarel_veskis_and_erkki_liba_report.pdf.

Viks, Ülle 1992. Väike vormisõnastik. I, Sissejuhatus & grammatika. II, Sõnastik & lisad. Toim. Henno Rajandi. Eesti Teaduste Akadeemia Keele ja Kirjanduse Instituut. Tallinn.

Viks, Ülle 2002. Mis kasu on keeleteadusel keeletehnoloogiast. – Arvutimaailm 8, 11–14.

Vutt jt 2002 = Evelin Vutt, Maret Kullasaar, Mare Koit. Developing a natural language dialogue system: Wizard of Oz studies. – First International IEEE Symposium Intelligent Systems, proceedings. Varna, Bulgaria, 10–12 September, 2002, 202–207.

Õim, Haldur 2002. Keeletehnoloogia maailmas ja Eestis. – Arvutimaailm 8, 8.

Õim, Haldur 2009. Filoloogi mälestused sellest, kuidas eesti keel ja arvuti Tartus kokku said. – Pool sajandit arvutit Tartu Ülikoolis. Koost. Peep Uba. Toim. Andres Jaeger. Tartu Ülikooli matemaatika-informaatikateaduskond, 87–95.

Õim, Haldur 2011. Kognitiivne pööre. – Humanitaarteaduste metoloogia. Uusi väljavaateid. Koost. ja toim. Marek Tamm. Gigantum Humeris. Tallinn: TLÜ Kirjastus, 111–127.

Õim, Haldur, Madis Saluveer 1985. Frames in linguistic descriptions. – Quaderni di Semantica. An International Journal of Theoretical and Applied Semantics VI (2). Special Issue: Round Table on Frame Semantics I, 295–305.

Õim jt 2009 = Haldur Õim, Heili Orav, Piia Taremaa. Lihtlause semantika: teoreetiline kontseptsioon ja arvutianalüüsi võimalused. – Keel ja Kirjandus 7, 489–504.

Õim jt 2010 = Haldur Õim, Heili Orav, Piia Taremaa. Lausesemantikast üldkeeleteaduse ja eesti keele kontekstis. – Emakeele Seltsi aastaraamat 55 (2009). Peatoim. Mati Erelt. Tallinn: Teaduste Akadeemia Kirjastus, 201–223.

Back to Issue