Politechnika Warszawska - Centralny System Uwierzytelniania
Nie jesteś zalogowany | zaloguj się
katalog przedmiotów - pomoc

Text Mining and Deep Learning

Informacje ogólne

Kod przedmiotu: 1120-IN000-ISA-0694 Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Text Mining and Deep Learning
Jednostka: Wydział Matematyki i Nauk Informacyjnych
Grupy: Elective courses, Computer Science
Przedmioty obieralne, wydz. MiNI PW
Punkty ECTS i inne: 4.00
Język prowadzenia: angielski
Skrócony opis: (tylko po angielsku)

Prerequisites:

Programming: Python; basic knowledge on machine learning: grouping and classification

This course focuses on basic theory, advanced models and methods for information retrieval in large textual data sets.

Pełny opis: (tylko po angielsku)

Lecture:

1. Introduction to information retrieval, information theory, NLP (natural language processing) methods/text mining, statistics, linguistics, problems in the processing of text: lemmatization, stemming.

2. The words and sentences: regular expressions, tokenization, editorial distance, linguistics: levels of language description, morphology: word formation, inflection, stemmers, part of speech, the Soundex algorithm, misspellings.

3. Vector space model for semantics; simple word vector representation word2vec, gloVe.

4. Neural networks for Named entity recognition.

5. Deep neural networks for text recognition tasks.

6. Recurrent (language modelling and opinion mining) & Recursive models (parsing, recursive autoencoders), convolutional neural networks for sentence classification, dynamic memory networks.

7. Statistical methods of natural language processing, language modeling, n-grams, collocations, disambiguation (word sense disambiguation).

8. Grammatical analysis (HMM, POS tagging, parsing).

9. Sources of data: corpora.

10. Information extraction: NER (named-entity recognition), relationship extraction, semantic information (ontologies, ontology building from text)

11. Information search: reversed index, similarity measures, analysis of links (PageRank, HITS), measuring the quality of results, ranking, visualization of results

12. Information retrieval commercial systems architectures

13. Applications:

a. categorization and grouping documents (hierarchical clustering, LDA – latent Dirichlet allocation);

b. sentiment analysis;

c. question answering;

d. document summarization;

e. automatic translation.

14. Content-based recommendations.

15. Retrieval of non-text data, deep learning for NLP.

Project:

Application development based on topics of information retrieval, processing text and data from websites or other services.

Literatura: (tylko po angielsku)

1. D. Jurafsky, J. Martin, Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition, Prentice Hall Series in Artificial Intelligence, Pearson/Prentice Hall 2009.

2. H. Schutze, C. Manning, P. Raghavan, Introduction to information retrieval, 2008, http://nlp.stanford.edu/IR-book/pdf/irbookprint.pdf.

3. J. Hirschberg, C. Manning, Advances in natural language processing”, Science (New York, N.Y.), 17 July 2015, Vol.349(6245), pp.261-6.

4. M. Kłopotek, Inteligentne wyszukiwarki internetowe, Warszawa, Akademicka Oficyna Wydawnicza EXIT, 2001.

5. Python NLTK (Natural Language Toolkit), http://nltk.sourceforge.net.

6. Open NLP, http://opennlp.sourceforge.net/.

7. Deep Learning (Adaptive Computation and Machine Learning series) – November 18, 2016, Ian Goodfellow, Yoshua Bengio , Aaron Courville.

Metody i kryteria oceniania: (tylko po angielsku)

During classes students have a possibility to gain 100 points, of which 40% is attributable for the content of the lecture (1 test), and the remaining 60% of points relates to the project. Pass mark is 51 points, and the distribution of thresholds for other marks is a sequence of 61, 71, 81 and 91 points.

Zajęcia w cyklu "rok akademicki 2020/2021 - sem. zimowy" (w trakcie)

Okres: 2020-10-01 - 2021-02-12
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Projekt, 30 godzin, 15 miejsc więcej informacji
Wykład, 30 godzin, 30 miejsc więcej informacji
Koordynatorzy: Anna Wróblewska
Prowadzący grup: (brak danych)
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2019/2020 - sem. zimowy" (zakończony)

Okres: 2019-10-01 - 2020-02-21
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Projekt, 30 godzin, 15 miejsc więcej informacji
Wykład, 30 godzin, 30 miejsc więcej informacji
Koordynatorzy: Anna Wróblewska
Prowadzący grup: Anna Wróblewska
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2018/2019 - sem. zimowy" (zakończony)

Okres: 2018-10-01 - 2019-02-17
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Projekt, 30 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Anna Wróblewska
Prowadzący grup: Anna Wróblewska
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2017/2018 - sem. zimowy" (zakończony)

Okres: 2017-10-01 - 2018-02-18
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 30 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Anna Wróblewska
Prowadzący grup: (brak danych)
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Ocena łączna
Laboratorium - Zaliczenie
Wykład - Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Politechnika Warszawska.