• logo

Zadanie 1 - Konstrukcja podstawowego ciągu przetwarzania tekstu na poziomie wyrazowym

Tytuł zadania: Konstrukcja podstawowego ciągu przetwarzania tekstu na poziomie wyrazowym

Kierownik zadania: dr Maciej Piasecki, Politechnika Wrocławska

Czas realizacji: 01.01.2010 do 30.06.2012

Cel:

Celem zadania jest opracowanie i implementacja podstawowego schematu przetwarzania tekstu polskiego na poziomie wyrazowym. Przetwarzanie to ogranicza się do tych zadań, których wynikiem jest opis poszczególnych wystąpień form wyrazowych w ich kontekście. Określenie funkcji pełnionych przez te wystąpienia wymaga uwzględnienia pewnych związków między wyrazami, jednak związki te nie muszą być rozpoznane w pełni, a do ich opisu można użyć metod prostszych niż wymaga tego np. głęboka analiza składniowo-semantyczna.

W ramach zadania opracowane zostaną metody, które pozwolą na:

1. wyodrębnienie w tekście wyrazów,

2. podział tekstu na zdania,

3. opis morfologiczny wystąpień wyrazów,

4. opis wybranych cech składniowych wystąpień wyrazów,

5. rozpoznanie znaczeń leksykalnych wystąpień wyrazów.

Uzyskanie opisu na poziomie wyrazowym pozwoli na efektywne przetwarzanie tekstu na poziomie składniowym i semantycznym. Dzięki temu możliwa będzie automatyczna analiza postawionego przez użytkownika problemu oraz znajdowanie trafnych odpowiedzi.

Przyjmujemy, że opis morfologiczno-składniowy wyrazów zostanie wykonany w oparciu o zbiór znaczników korpusu IPI PAN (Przepiórkowski 2004). Znaczniki te opisują klasy gramatyczne (dokładniejszy opis niż podział na części mowy) oraz wybrane cechy opisujące odmianę i wymagania składniowe jednostek wyrazowych. W ramach niniejszego zadania opis ten zostanie wykonany dwuetapowo: najpierw każdemu słowu zostanie przypisany zbiór znaczników (bezkontekstowo), po czym kontekstowa analiza pozwoli na wykreślenie tych znaczników, które w sposób niewłaściwy charakteryzują dane wystąpienie wyrazu w danym kontekście.

Oprócz wspomnianych niejednoznaczności istnieje również niejednoznaczność wyższego poziomu abstrakcji – dotycząca znaczenia leksykalnego. To samo słowo bywa użyte w różnych, czasem zupełnie odmiennych, sensach, np. słowo linia w wyrażeniach „linia kolejowa” i „linia pola karnego” odnosi się do dwóch różnych jednostek leksykalnych. Aby umożliwić wnioskowanie na temat znaczenia tekstu, istotne jest rozpoznanie, który sens słowa został użyty w danym kontekście.

Print