• logo

Zadanie 5 - Generyczny system wydobywania informacji z tekstu oparty na maszynowym uczeniu się

Tytuł zadania:  Generyczny system wydobywania informacji z tekstu oparty na maszynowym uczeniu się

Kierownik zadania: dr Maciej Piasecki, Politechnika Wrocławska

Czas realizacji: 01.01.2010 do 31.12.2012

Cel:

Celem zadania jest wypracowanie dla języka polskiego generycznej, gradacyjnej i adaptowalnej metody wydobywania z tekstu informacji interesujących dla użytkownika. Punktem wyjścia do działania metody będzie opis przygotowany przez użytkownika w postaci tekstu połączonego ewentualnie z obrazami cyfrowymi. Podsystem realizujący metodę będzie dokonywał w tekście identyfikacji miejsc zawierających interesującą dla użytkownika informację, następnie jej wydobycie i ostatecznie transformację do postaci zapisu sformalizowanego umożliwiającego dalsze jej przetwarzanie. Generyczność metody będzie zapewniona poprzez jej niezależność od dziedziny zastosowania. Metoda będzie zapewniała swoje zasadnicze działanie w oparciu jedynie o podstawowe zasoby i narzędzia językowe dla języka polskiego. Jednocześnie będzie umożliwiała adaptację do konkretnej dziedziny poprzez parametryzację sformalizowanym opisem dziedziny wyrażonym przy pomocy ontologii dziedzinowej. Opis dziedziny będzie również stanowił podstawę do interpretacji struktur danych wejściowych – opisu zadania sformułowanego przez użytkownika (np. w zakresie możliwych zależności oraz powiązań klas obiektów) oraz struktur danych wyjściowych tj. reprezentacji informacji wydobytej z tekstu. Gradacyjność metody zostanie osiągnięta poprzez zapewnienie skuteczności na poziomie ogólnym i stopniowej jej poprawy wraz ze wzrostem stopnia szczegółowości specyfikacji dziedziny. W ramach metody zostanie opracowany algorytm transformacji opisu informacji poszukiwanych przez użytkownika, wyrażonego za pomocą tekstu i potencjalnych obrazów cyfrowych, do postaci sformalizowanej reprezentacji zadania wydobywania informacji.

Opracowane metody zostaną wykorzystane do wydobywania odpowiedzi na pytania o obiekty, zdarzenia i fakty, dla których istnieje wiele odpowiedzi spełniających określone kryteria (np. oferty sprzedaży mieszkania w określonym rejonie, lista miast europejskich o ludności powyżej pewnej wartości itp.), tzw. pytania o fakty, zdarzenia i obiekty określonej klasy (ang. list questions). Obsługa tego typu pytań będzie realizowana w powiązaniu z zadaniami Z13 i Z8.

Skuteczność wydobywanie informacji zależy od poziomu dokładności opisu poszukiwanych obiektów lub zdarzeń dostarczonego przez użytkownika. Opis może być niekompletny lub nieprecyzyjny. W takim przypadku użytkownik będzie poproszony o dokładniejsze sprecyzowanie opisu zadania w oparciu o analizę odnalezionych już dokumentów i zawartych w nich informacji, które zostały wydobyte według kryteriów ustalonych do tej pory oraz takich dostępnych źródeł wiedzy, jak ontologia ogólna, ontologie dziedzinowe oraz znane ramy opisów obiektów i zdarzeń – generycznych schematów opisu.

Print