O projekcie

Cel Projektu

Celem projektu jest konstrukcja systemu wspomagającego rozwiązywanie szerokiej klasy problemów w oparciu o analizę struktury i treści dostępnych dokumentów elektronicznych. Analiza ma dotyczyć zawartej w dokumentach wiedzy i informacji reprezentowanej w postaci tekstu oraz wybranych elementów multimedialnych. System będzie łączył mechanizmy: automatycznej odpowiedzi na zadane w języku polskim pytania, automatycznej analizy opinii oraz wielkoskalowej, przekrojowej analizy semantycznej źródeł elektronicznych, połączonej z wyszukiwaniem i wizualizacją wyników. Głównym obiektem analizy będą dokumenty tekstowe. Będzie to system nowej generacji, oparty na nowych paradygmatach analizy treści i zarządzania treścią dokumentów, z mechanizmami interakcji z użytkownikiem. Docelowo, będzie w stanie obsługiwać kolekcję wszystkich dokumentów polskojęzycznych w Internecie, przy czym będzie wyposażony w mechanizmy przetwarzania dwujęzycznego (polsko-angielskiego).

Wstępne założenia

Poszczególne prace projektowe pogrupowane zostały w 13 zadań. Przyjęte założenie dwóch podstawowych paradygmatów (B+R) skutkuje podziałem zadań na pięć grup:

1. Konstrukcja podstawowych, brakujących do tej pory zasobów i narzędzi językowych – zadania: Z1-Z4, przy czym zadanie Z4 dotyczy konstrukcji podstawowych zasobów dwujęzycznych dla pary język polski – języka angielski.

2. Systemy wydobywania informacji z tekstu, w tym informacji powiązanych z postawionym problemem – zadania: Z5-Z8 (start zadania Z8 – 01.01.12).

3. Wydobywanie informacji z wybranych typów artefaktów multimedialnych oraz wykorzystanie wyników interpretacji artefaktów multimedialnych w analizie treści danych tekstowych – zadanie Z12.

4. System wspomagający rozwiązywanie problemów w oparciu o analizę treści dostępnych źródeł elektronicznych – zadanie Z13 (start zadania – 01.01.2012).

5. Jednolity system zarządzania treścią oraz dostępu do treści w masowych kolekcjach dokumentów inter- i intranetowych (w tym konstrukcja architektury systemu) – zadania: Z9-Z11.

Lista zadań wchodzących w skład projektu

Z1) Konstrukcja podstawowego ciągu przetwarzania tekstu na poziomie wyrazowym
Z2) Generyczny system przekrojowej analizy zawartości informacyjnej źródeł tekstowych
Z3) Opracowanie mechanizmów pogłębionego przetwarzania składniowo-semantycznego
Z4) Opracowanie mechanizmów przetwarzania polsko-angielskiego
Z5) Generyczny system wydobywania informacji z tekstu oparty na maszynowym uczeniu się
Z6) Wydobywanie informacji dziedzinowych w oparciu o ontologie
Z7) Automatyczna analiza opinii i uczuć (sentiment analysis, opinion mining)
Z8) System wyszukiwania odpowiedzi na pytania
Z9) Mechanizm semantycznego indeksowania wielkich kolekcji źródeł elektronicznych
Z10) Wizualny, semantyczny dostęp do treści w masowych kolekcjach dokumentów inter- i intra-netowych
Z11) Masowe zrównoleglenie procesu przetwarzania informacji opisanych w zadaniach Z1-Z10 oraz Z12.
Z12) Nowoczesne techniki analizy obrazów wspomagające wyszukiwanie informacji w kolekcjach dokumentów tekstowych
Z13) Inteligentny system wspomagający rozwiązywanie problemów w oparciu o heterogeniczną analizę treści dostępnych źródeł elektronicznych

Streszczenie projektu

Jednym z kluczowych problemów występujących we wszystkich praktycznie obszarach działalności społecznej, państwowej i gospodarczej jest lawinowo rosnąca ilość danych dostępnych w różnego rodzaju bazach danych, repozytoriach, a przede wszystkim w olbrzymich, rozproszonych zasobach sieciowych (WWW). W Internecie dostępna jest publicznie ogromna ilość wiedzy. Ponadto istnieje wiele kolekcji zamkniętych publicznie, ale dostępnych dla odpowiednich grup użytkowników (np. korporacyjnych). Tradycyjne wyszukiwarki nie zapewniają ani efektywnego wyszukiwania informacji i wiedzy, ani tym bardziej nie dają możliwości jej zautomatyzowanego wydobywania ze źródeł tekstowych, często rozszerzonych o artefakty multimedialne. W szczególności brakuje w nich narzędzi do analizy treści dokumentów. Obecnie zaczęto już prowadzić na świecie prace nad rozszerzeniem dotychczasowego modelu działania wyszukiwarki, ale nie dotyczy to jeszcze języka polskiego. Niniejszy projekt włączy język polski w ten obszar B+R.

Wynikiem realizacji projektu będzie system analizujący treść dostępnych dokumentów elektronicznych, dokonujący ich grupowania i zdolny do wyszukania dokumentów interesujących użytkownika. W odpowiedzi na problem zgłoszony do rozwiązania przez użytkownika w postaci swobodnego opisu w języku naturalnym (z dopuszczeniem możliwości dołączenia artefaktów multimedialnych), podstawowym zadaniem systemu będzie wydobycie właściwej informacji z dokumentów źródłowych poprzez wyszukanie tych dokumentów oraz tych ich fragmentów, które są relewantne do sformułowanego problemu. Tak wygenerowane dane będą integrowane i prezentowane w połączeniu z wizualizacją struktury wyszukanych dokumentów źródłowych i wskazaniem ich relewantnych fragmentów. Niezależnie od tego, system będzie analizował i wydobywał elementy oceny emocjonalnej lub opinii wyrażanej przez autora tego dokumentu.System będzie zorientowany na analizę treści dokumentów polskojęzycznych, ale będzie wyposażony w mechanizmy przetwarzania dwujęzycznego (polsko-angielskiego), by móc korzystać z pewnych dobrze rozwiniętych narzędzi analizy języka angielskiego przy analizie tekstu polskojęzycznego. Będzie otwarty na rozbudowę w kierunku systemu wielojęzycznego.

System będzie zorientowany na dokładną analizę dokumentów z wybranych dziedzin, ale dzięki włączeniu stosownych mechanizmów adaptacji będzie zdolny analizować teksty z innych dziedzin z mniejszą dokładnością.

Projekt Adaptacyjny system wspomagający rozwiązywanie problemów w oparciu o analizę treści dostępnych źródeł elektronicznych nie jest częścią żadnego większego przedsięwzięcia. Jest samodzielnym projektem badawczym. Prace badawczo rozwojowe Konsorcjum Projektowego zostały podzielone na zadania realizowane przez zespoły Instytutu Podstaw Informatyki Polskiej Akademii Nauk oraz Instytutu Informatyki Politechniki Wrocławskiej. Każde zadanie ma swego koordynatora, należącego do zespołu odpowiedzialnego za realizację zadania. Poszczególne prace projektowe pogrupowane zostały w 13 zadań.

Od wielu lat w Polsce, silniej niż w innych krajach, występuje problem małej liczby nowych rozwiązań technicznych i technologicznych, opracowanych w publicznych jednostkach naukowych (szkołach wyższych, instytutach naukowych PAN oraz jednostkach badawczo – rozwojowych), których użyteczność konfrontowano by z popytem w warunkach rynkowych i poddawano komercjalizacji. Realizacja niniejszego projektu pozwoli na pokonanie tych trudności co w znacznym stopniu zwiększy efektywność wykorzystania wyników prac badawczych i rozwojowych oraz nakładów poniesionych na te prace.

Niniejszy projekt ma istotnie wspomóc i przyśpieszyć wprowadzanie technologii informatycznych (przetwarzania i wykorzystywania informacji tekstowych, ale także obrazowych i multimedialnych). Planowane prace badawczo-rozwojowe i zbudowany w ich efekcie system wspomagający rozwiązywanie szerokiej klasy problemów w oparciu o analizę struktury i treści dostępnych dokumentów elektronicznych będzie miał istotne znaczenie dla rozwoju społeczeństwa informacyjnego. Końcowym efektem projektu będzie opracowanie nowych technologii, liczne zastosowania (wdrożenia), oczekiwana komercjalizacja niektórych wyników oraz umowy przekazania własności intelektualnej, zgłoszenie patentowe oraz liczne publikacje i uzyskane stopnie naukowe. Jak wynika z analizy przeprowadzonej przez wnioskodawcę już dzisiaj można mówić o wielkim zapotrzebowaniu rynkowym i gospodarczym, ale także społecznym na rezultaty projektu. Skonstruowany system będzie mógł być wykorzystany: w przestrzeni publicznej jako element struktury informacyjnej (e-społeczeństwo, e-urząd); w przestrzeni komercyjnej jako składnik systemów płatnej informacji, systemów zarządzania wiedzą czy też systemów obsługi klienta; w sferze nauki jako narzędzie badawcze w dziedzinie nauk społecznych i humanistycznych.

Opis zadań

Zadanie 1 - Konstrukcja podstawowego ciągu przetwarzania tekstu na poziomie wyrazowym
Zadanie 2 - Generyczny system przekrojowej analizy zawartości informacyjnej źródeł tekstowych
Zadanie 3 - Opracowanie mechanizmów pogłębionego przetwarzania składniowo-semantycznego
Zadanie 4 - Opracowanie mechanizmów przetwarzania polsko-angielskiego
Zadanie 5 - Generyczny system wydobywania informacji z tekstu oparty na maszynowym uczeniu się
Zadanie 6 - Wydobywanie informacji dziedzinowych w oparciu o ontologie
Zadanie 7 - Automatyczna analiza opinii i uczuć
Zadanie 8 - System wyszukiwania odpowiedzi na pytania
Zadanie 9 - Mechanizm semantycznego indeksowania wielkich kolekcji źródeł elektronicznych
Zadanie 10 - Wizualny, semantyczny dostęp do treści w masowych kolekcjach dokumentów inter- i intra-netowych
Zadanie 11 - Masowe zrównoleglenie procesu przetwarzania informacji opisanych w zadaniach Z1-Z10 oraz Z12
Zadanie 12 - Nowoczesne techniki analizy obrazów wspomagające wyszukiwanie informacji w kolekcjach dokumentów tekstowych
Zadanie 13 - Inteligentny system wspomagający rozwiązywanie problemów w oparciu o heterogeniczną analizę treści dostępnych źródeł elektronicznych