Lingwistyczna eksploracja internetu 09-LEI-11

Treści kształcenia:

Prezentacja tzw. wiodących czasopism z zakresu językoznawstwa komputerowego; problem komponentu matematycznego w tekstach językoznawczych. Metody preselekcji literatury źródłowej.
Językoznawstwo stosowane a językoznawstwo korpusowe: cele, osiągnięcia, ewolucja, metody.
Formaty wybranych tekstowych plików elektronicznych. Oprogramowanie, przetwarzanie, manipulacja.
Polskie archiwa prasowe, np. czasopism: „Gazeta Wyborcza”, „Rzeczpospolita”, „Polityka” itp. Format tekstu, wielkość zasobu, cena.
Polskie korpusy. Korpus referencyjny, narodowy, diachroniczny, synchroniczny itp.
Problem dozwolonego użytku. Prawa autorskie a badania naukowe.
Historia i ewolucja polskich bibliotek cyfrowych. Instalacje regionalne, instytucjonalne. Dynamika rozwoju bibliotek. Ograniczenia technologiczne. Podstawowe oprogramowanie bibliotek – dLibra.
Narzędzia automatycznej analizy tekstu. Polskie analizatory morfologiczne. Analiza wielkich plików tekstowych.
Alternatywne zasoby danych: ispell, morfologik, sjp.pl, zasoby 2.0.
Typy dostępności informacji elektronicznej. Dostępność silna i słaba. Ocena wartości informacji elektronicznej. Bogactwo anotacji.
Praktyka pracy z tekstem. Możliwości obróbki pozyskanego zasobu tekstowego.
Polskie wyszukiwarki internetowe. Ograniczenia i możliwości. Miejsce wyszukiwarki w tworzeniu zasobu tekstu elektronicznego.
Praktyka pracy z aplikacjami automatyzującymi pozyskiwanie tekstu: makra, pętle.

Cele kształcenia

Przedmiotem zajęć jest zapoznanie studenta z podstawową problematyką językoznawstwa korpusowego w obrębie językoznawstwa stosowanego. Szczególny nacisk położony będzie na kwestie budowy bazy empirycznej, prowadzącej do realizacji danych badań. Zajęcia mają pozwolić studentowi na gromadzenie zasobów tekstowych pod pewnym względami (kryteria żądania, kryteria wykonalności zadania w danym czasie, kryteria kosztu itp.).

Kierunek studiów

Językoznawstwo komputerowe

Poziom przedmiotu

I stopień

Rodzaj przedmiotu

obowiązkowe

Rok studiów (jeśli obowiązuje)

I rok

Efekty kształcenia

Po zakończeniu modułu (przedmiotu) i potwierdzeniu osiągnięcia efektów kształcenia student:

Wie, jakie są najważniejsze czasopisma podejmujące problematykę automatycznego przetwarzania tekstów. Swobodnie wymieni czołowych przedstawicieli nurtu korpusowego w językoznawstwie.
Wie, co to jest językoznawstwo korpusowe w panoramie językoznawstwa w ogóle, potrafi określić, czego oczekuje po językoznawstwie korpusowym, zna możliwości i ograniczenia pracy z tekstem elektronicznym.
Potrafi wymienić podstawowe typy tekstów elektronicznych, potrafi nazwać programy, które służą do obsługiwania danych typów tekstów ze względu na format (pdf, txt, html, djvu itp.).
Potrafi natychmiast wskazać najobszerniejsze polskie archiwa prasowe, umie określić, jakiej informacji może tam poszukiwać, a jakiej nie; umie określić ich wielkość i funkcjonalność, cechy diachroniczne itp. Potrafi zaproponować ulepszenia tego typu archiwum; potrafi wskazać światowe archiwa tekstów elektronicznych, potrafi przewidzieć, jakie głównie teksty znajdują się w tych archiwach.
Zna główne polskie korpusy językowe. Umie powiedzieć, jaki jest ich rozmiar i jaka jest ich dostępność i użyteczność.
Potrafi omówić specyfikę zagadnienia tzw. dozwolonego użytku, umie wykazać, w jaki sposób dopuszcza się wykorzystanie ilustracji cytatowej tekstu elektronicznego.
Potrafi wymienić polskie biblioteki cyfrowe, umie opisać ich specyfikę, tj. umie powiedzieć, czym różni się biblioteka cyfrowa od biblioteki klasycznej. Umie pokrótce omówić historię i rozwój bibliotek cyfrowych (polskich i zagranicznych).
Potrafi powiedzieć, co to jest analizator morfologiczny, zna w praktyce zakres jego obsługi, tak w trybie wsadowym, jak i w trybie konsoli.
Wie, że istnieją elektroniczne zbiory danych alternatywne względem zbiorów o charakterze komercyjnym (np. słowniki); potrafi wyjaśnić, skąd bierze się popularność formatów „open”.
Rozróżnia tzw. silną dostępność vs. słabą dostępność tekstu elektronicznego; potrafi zarówno podnieść, jak i obniżyć dostępność własnych zasobów elektronicznych.
Potrafi praktycznie wykorzystać narzędzia do obróbki tekstów; potrafi stworzyć listy frekwencyjne, kolokacje, potrafi tokenizować tekst.
Potrafi wskazać zastosowania różnych wyszukiwarek internetowych (polskich i zagranicznych). Potrafi je skategoryzować na podstawie ich funkcjonalności; umie wykazać kierunek rozwoju wyszukiwarek.
Potrafi zastosować procedury automatyzujące pozyskiwanie tekstu elektronicznego. Potrafi określić, dla jakiego typu zadania warto podjąć się prac optymalizacyjnych.

Kryteria oceniania

Warunkiem zaliczenia przedmiotu jest poprawne sformułowanie odpowiedzi na pytania dotyczące treści kształcenia kursu; szczególnie promowane będzie własna inwencja w zakresie rozwiązania problemu optymalizacji dostępu do zasobu elektronicznego.

Literatura

Podstawowa:
1.Butler, Ch. 1985. Computers in linguistics. Oxford; New York: Blackwell.
2. Clark, A. (red.). 2010. The handbook of computational linguistics and natural language processing. Oxford: Wiley-Blackwell.
3. Crystal, D. 2007. Language and the internet. Cambridge: Cambridge University Press.
4. Hunston, S. 2008. Corpora in applied linguistics. Cambridge: Cambridge University Press.
5. Lewandowska-Tomaszczyk, B. (red.). 2005. Podstawy językoznawstwa korpusowego: Łódź: Wydawnictwo Uniwersytetu Łódzkiego.
6. Lubaszewski, W. (red.). 2009. Słowniki komputerowe i automatyczna ekstrakcja informacji z tekstu. Kraków: AGH Uczelniane Wydawnictwa Naukowo-Dydaktyczne.
7. McEnery, T., Xiao, R., Tono, Y. (red.). 2008. Corpus-based language studies: an advanced resource book. London; New York: Routledge.
8. Sinclair, J. 1992. Corpus, concordance, collocation. Oxford: Oxford University Press.
9. Taberski, G., Vetulani, Z. 2010. Zasoby językowe i technologie przetwarzania tekstu: POLINT-112-SMS jako przykład aplikacji z zakresu bezpieczeństwa publicznego. Ogólna ontologia bytów na potrzeby projektu POLINT-112-SMS. Poznań: Wydawnictwo Naukowe Uniwersytetu im. Adama Mickiewicza.

Dodatkowa:
1. Czasopisma:
International Journal of Corpus Linguistics
ICAME Journal
Corpus Linguistics and Linguistic Theory

Więcej informacji

Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb:

Strona przedmiotu 09-LEI-11 w USOSweb