Politechnika Warszawska - Centralny System Uwierzytelniania
Nie jesteś zalogowany | zaloguj się
katalog przedmiotów - pomoc

Przetwarzanie i analiza danych tekstowych

Informacje ogólne

Kod przedmiotu: 1120-DS000-MSP-0122 Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Przetwarzanie i analiza danych tekstowych
Jednostka: Wydział Matematyki i Nauk Informacyjnych
Grupy: Inżynieria i analiza danych, II st. - przedmioty obowiązkowe, sem. 2 z 3
Inżynieria i analiza danych, II st. - przedmioty obowiązkowe, sem. 3 z 4
Punkty ECTS i inne: 6.00
Język prowadzenia: polski
Skrócony opis:

Celem przedmiotu jest przedstawienie podstawowej teorii, modeli i metod przetwarzania, analizy i odkrywania wiedzy w różnych zbiorach danych tekstowych. W trakcie nauki będzie można dowiedzieć się o podstawowych i zaawansowanych technikach systemów informacyjnych oraz rozwiązaniach przetwarzania tekstu metodami uczenia głębokiego.

W ramach przedmiotu, studenci powinni zdobyć praktyczną umiejętność wykorzystania wybranych metod do analizy danych tekstowych.

Wymagania wstępne / przedmioty poprzedzające: Wstęp do uczenia maszynowego, Programowanie w R i Python

Pełny opis:

W trakcie nauki będzie można dowiedzieć się o podstawowych i zaawansowanych technikach systemów informacyjnych: ekstrakcja informacji, indeksowanie tekstu, mierzenie jakości systemów wyszukiwania i eksploracji, architektury współczesnych systemów wyszukiwania wiedzy i zarządzania informacją. Podane będą także współczesne rozwiązania przetwarzania tekstu metodami uczenia głębokiego, m.in. najnowsze architektury tj. sieci rekurencyjne LSTM, GRU, modele reprezentacji tekstu - word embeddings.

Wykład i projekty będą zawierały wybrane tematy z poniższej listy:

1. Wstęp do wyszukiwania informacji: teoria informacji, metody NLP/text mining, statystyka, lingwistyka, zagadnienia w procesie przetwarzania tekstu: lematyzacja, stemming

2. Słowa i zdania: wyrażenia regularne, tokenizacja, odległość edytorska, lingwistyka: poziomy opisu języka, morfologia: słowotwórstwo, fleksja, stemmery, części mowy, algorytm soundex
, błędy ortograficzne

3. Źródła danych: korpusy tekstu

4. Modele reprezentacji tekstu, m.in. modele wektorowe (word embeddings) - word2vec, gloVe, FastText

5. Architektury głębokich modeli neuronowych - rekurencyjne, rekursywne, konwolucyjne i dynamiczne sieci do zastosowań rozpoznawania tekstu: modelowania języka, analizy opinii, parsowania tekstu, klasyfikacji zdań

6. Statystyczne metody przetwarzania języka naturalnego, modelowanie języka, n-gramy, kolokacje, ujednoznacznianie (word sense disambiguation)

7. Analiza gramatyczna (HMM, POS tagging, parsowanie)

8. Ekstrakcja informacji, NER (named-entity recognition), ekstrakcja relacji, semantyka informacji (ontologie, budowa ontologii z tekstu)

9. Wyszukiwanie informacji: indeks odwrócony, miary podobieństwa, ranking wyników, analiza linków (PageRank, HITS), architektury komercyjnych systemów, mierzenie jakości zwracanych wyników, wizualizacja wyników wyszukiwania, architektury komercyjnych systemów wyszukiwania informacji/baz wiedzy

10. Zastosowania:

a. Kategoryzacja i grupowanie dokumentów (grupowanie hierarchiczne, LDA – latent dirichlet allocation)

b. Analiza zabarwienia emocjonalnego tekstu (sentiment analysis)

c. Odpowiadanie na zapytania (question answering)

d. agenci dialogowi (chatbots)

e. Streszczanie dokumentów

f. Tłumaczenia automatyczne

g. Rekomendacje oparte na treści

Projekt:

Opracowanie metod i aplikacji z zakresu tematyki przedmiotu, aplikacje będą miały na celu przetwarzanie tekstu i danych pochodzących ze stron internetowych lub korpusów tekstu.

Literatura:

1. D. Jurafsky, J. Martin, Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition, 1. Prentice Hall Series in Artificial Intelligence, Pearson/Prentice Hall 2009

2. H. Schutze, C. Manning, P. Raghavan, Introduction to information retrieval, 2008 http://nlp.stanford.edu/IR-book/pdf/irbookprint.pdf

3. J. Hirschberg, C. Manning, Advances in natural language processing”, Science (New York, N.Y.), 17 July 2015, Vol.349(6245), pp.261-6

4. M. Kłopotek, Inteligentne wyszukiwarki internetowe, Warszawa: Akademicka Oficyna Wydawnicza EXIT, 2001

5. Python NLTK (Natural Language Toolkit) http://nltk.sourceforge.net

6. Open NLP http://opennlp.sourceforge.net/

7. Deep Learning (Adaptive Computation and Machine Learning series) – November 18, 2016, Ian Goodfellow, Yoshua Bengio , Aaron Courville

Metody i kryteria oceniania:

Zaliczenie przedmiotu oparte jest o wyniki realizacji zadań realizowanych w ramach projektu (w sumie maksymalnie 60 pkt) oraz wyniki egzaminu (maksymalnie 40 pkt). W przypadku zadań realizowanych w laboratorium oceniana jest zarówno jakość rozwiązań jak i terminowość ich realizacji. Szczegółowe zasady przyznawania punktów przedstawiane są studentom podczas pierwszych zajęć projektowych (dot. zaliczenia projektu) oraz wykładowych (dot. egzaminu).

Ocena końcowa zależy od łącznej liczby punktów uzyskanych z projektów oraz egzaminu i jest wyznaczana zgodnie z poniższymi regułami: 0-50 pkt – 2.0, 51-60 pkt – 3.0, 61-70 pkt – 3.5, 71-80 pkt – 4.0, 81-90 pkt – 4.5, 91-100 pkt – 5.0. Warunkiem koniecznym uzyskania oceny pozytywnej jest zdobycie co najmniej 30 pkt z laboratorium oraz 20 pkt z egzaminu.

Zajęcia w cyklu "rok akademicki 2020/2021 - sem. zimowy" (zakończony)

Okres: 2020-10-01 - 2021-02-19
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Ćwiczenia, 15 godzin więcej informacji
Projekt, 45 godzin więcej informacji
Wykład, 15 godzin więcej informacji
Koordynatorzy: Anna Wróblewska
Prowadzący grup: Anna Wróblewska
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2019/2020 - sem. zimowy" (zakończony)

Okres: 2019-10-01 - 2020-02-21
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Ćwiczenia, 15 godzin więcej informacji
Projekt, 45 godzin więcej informacji
Wykład, 15 godzin więcej informacji
Koordynatorzy: Anna Wróblewska
Prowadzący grup: Weronika Hryniewska, Anna Wróblewska
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Politechnika Warszawska.