• logo

Zadanie 4 - Opracowanie mechanizmów przetwarzania polsko-angielskiego

Tytuł zadania: Opracowanie mechanizmów przetwarzania polsko-angielskiego

Kierownik zadania: dr hab. Adam Przepiórkowski, prof. nadzw., Instytut Podstaw Informatyki PAN

Czas realizacji: 01.01.2010 do 31.12.2013

Cel:

 

Z4.1) Konstrukcja rzutowania pomiędzy jednostkami leksykalnymi i strukturą hiperonimii wordnetu języka polskiego (Słowosieci w wersji rozszerzonej w zadaniu Z2) a jednostkami leksykalnymi i strukturą Princeton WordNet (wordnetu języka angielskiego)

Stan badań:

Znaczenia leksykalne są identyfikowane w strukturze wordnetu w postaci wydzielonych jednostek leksykalnych i instancji relacji semantycznych, w których one występują. Rzutowanie wordnetu jednego języka na wordnet drugiego polega na określeniu relacji pomiędzy jednostkami leksykalnymi jednego wordnetu w stosunku do drugiego. Doświadczenia projektu EuroWordNet (Vossen 2002), którego jednym z celów było wzajemne rzutowanie kilku wordnetów dla wybranych języków europejskich, pokazały, że relacja ta ma charakter złożony ze względu na różnice w strukturach znaczeń leksykalnych języków. Zostało wprowadzone kilka relacji pomiędzy jednostkami leksykalnymi wordnetów opisujących podstawowe typy zależności. Rzutowania na poziomie jednostek leksykalnych, które są jednoznacznie określone pod względem ich znaczenia, stanowi bardzo precyzyjny opis wzajemnych relacji leksykonów dwóch języków, a tym samym jest bardzo cennym zasobem dla systemów przetwarzających języki, których wordnety są powiązane rzutowaniem. Dla języka polskiego nie istnieje w chwili obecnej publicznie dostępny zasób porównywalny pod względem precyzji opisu i wielkości z planowanym rzutowaniem.

Z4.2) Maszynowe tłumaczenie nazw własnych dla wielojęzycznego wydobywania informacji

Stan badań:

Nazwy własne są jednostkami językowymi o dużym bagażu znaczeniowym. Dowodzą tego na przykład studia statystyczne nad zapytaniami zadawanymi tradycyjnym wyszukiwarkom internetowym, z których ok. 80% zawiera nazwy własne lub pochodne jednostki identyfikacyjne (ang. named entities). Również w kontekście systemów typu Question Answering zauważyć można, iż większość zadawanych pytań bądź zawiera nazwy własne, bądź też wymaga odpowiedzi zawierających takie nazwy.

Szczególnym wyzwaniem jest wydobywanie informacji z tekstów w językach różnych od tego, w jakim zadane zostało zapytanie. Stworzenie takiego wielojęzycznego systemu o dużej precyzji nie jest dziś jeszcze możliwe, ale dokonywane są próby rozwiązań przybliżonych. Niektóre z nich opierają się na tłumaczeniu wybranych jednostek pojawiających się w zapytaniu (zob. Chena i in. 1998), jednak takie prace nie istnieją jeszcze, o ile wiadomo, dla języka polskiego.

Z drugiej strony, istnieją pewne zasoby wielojęzyczne poświęcone nazwom własnym. Zespół przetwarzania języka w Blois (Francja), opracował wielojęzyczny model reprezentacji nazw własnych oraz zachodzących między nimi relacji Prolexbase (zob. McDonald i Maurel 2008). Przy konstrukcji tego modelu wzięta została pod uwagę specyfika morfologiczna języków słowiańskich, w tym polskiego.


Z4.3) Indukcja gramatyk z korpusów równoległych

Cel:

Celem zadania jest indukcja gramatyk zależnościowych, stanowiących podstawę do implementacji parsera dla języka polskiego. W oparciu o korpusy równoległe, dostępne narzędzia analityczne dla języka angielskiego oraz metodę rzutowania międzyjęzykowego zostanie stworzony bank drzew, zawierający analizy polskich zdań z wyróżnioną strukturą predykatowo-argumentową. Bank drzew posłuży jako materiał treningowy do indukcji reguł gramatycznych opartych na założeniach współczesnych formalizmów lingwistycznych, przede wszystkim LFG. Indukowane reguły będą podstawą do wytrenowania parsera zależnościowego dla języka polskiego.

Print