Politechnika Warszawska - Centralny System UwierzytelnianiaNie jesteś zalogowany | zaloguj się
katalog przedmiotów - pomoc

Wprowadzenie do eksploracji danych tekstowych w sieci WWW

Informacje ogólne

Kod przedmiotu: 103A-INxxx-MSP-WEDT Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Wprowadzenie do eksploracji danych tekstowych w sieci WWW
Jednostka: Wydział Elektroniki i Technik Informacyjnych
Grupy: ( Przedmioty techniczne )---EITI
( Przedmioty zaawansowane )-Informatyka-dr.-EITI
( Przedmioty zaawansowane )-Inżynieria systemów informatycznych-mgr.-EITI
( Przedmioty zaawansowane techniczne )--mgr.-EITI
Punkty ECTS i inne: 4.00
Język prowadzenia: polski
Jednostka decyzyjna:

103000 - Wydział Elektroniki i Technik Informacyjnych

Kod wydziałowy:

WEDT

Numer wersji:

1

Skrócony opis:

Treść wykładu obejmuje zagadnienia związane z szeroko rozumianą eksploracją danych w nieustrukturalizowanych źródłach tekstowych oraz zasobach sieci Internet. W ramach wykładu omówione zostaną podstawowe pojęcia i metody wykorzystywane przy przetwarzaniu dokumentów tekstowych, ze szczególnym zwróceniem uwagi na metody statystyczne oraz ich praktyczne zastosowanie w eksploracji danych. Przedstawione zostaną m.in. metody takie jak analiza statystyczna tekstu (analiza współwystepowania słów itp.) reprezentacje dokumentów tekstowych (przestrzenie wektorowe dokumentów, n-gramy, zbiory odwrócone itp.) oraz analiza gramatyki (oznaczanie części mowy, budowa modeli języka, stemming itp.). Wykorzystanie przedstawionych metod zostanie zaprezentowane w praktycznych zastosowaniach w grupowaniu i klasyfikacji dokumentów, w tłumaczeniu automatycznym, w automatycznej generacji streszczeń i wyszukiwaniu słów kluczowych. W drugiej części wykładu omówione zostanie wykorzystanie technik text (...)

Pełny opis:

Treść wykładu obejmuje zagadnienia związane z szeroko rozumianą eksploracją danych w nieustrukturalizowanych źródłach tekstowych oraz zasobach sieci Internet. W ramach wykładu omówione zostaną podstawowe pojęcia i metody wykorzystywane przy przetwarzaniu dokumentów tekstowych, ze szczególnym zwróceniem uwagi na metody statystyczne oraz ich praktyczne zastosowanie w eksploracji danych. Przedstawione zostaną m.in. metody takie jak analiza statystyczna tekstu (analiza współwystepowania słów itp.) reprezentacje dokumentów tekstowych (przestrzenie wektorowe dokumentów, n-gramy, zbiory odwrócone itp.) oraz analiza gramatyki (oznaczanie części mowy, budowa modeli języka, stemming itp.). Wykorzystanie przedstawionych metod zostanie zaprezentowane w praktycznych zastosowaniach w grupowaniu i klasyfikacji dokumentów, w tłumaczeniu automatycznym, w automatycznej generacji streszczeń i wyszukiwaniu słów kluczowych. W drugiej części wykładu omówione zostanie wykorzystanie technik text mining w środowisku sieci Internet. Przedstawione zostaną także algorytmy służące analizie grafu hiperpołączeń tej sieci.

Treść wykładu
Tematy wstępne
Omówione zostaną podstawowe wiadomości ze statystyki matematycznej i lingwistyki.

Metody eksploracji dokumentów tekstowych
Praca z korpusami tekstowymi: Omówione zostaną najpopularniejsze korpusy tekstu w języku angielskim (TREC, Brown Corpus, kolekcja Reutersa, Penn TreeBank, Wordnet). Przedstawione zostaną popularne sposoby kodowania metainformacji dotyczących dokumentów zgromadzonych w korpusach oraz typowe zastosowania repozytoriów (w tłumaczeniu automatycznym, jako sieci semantyczne itp.).

Przetwarzanie informacji tekstowej: Omówione zostanie zagadnienie wstępnego przetwarzania dokumentów tekstowych i wyodrębniania pojedynczych jednostek takich jak zdania i słowa. Omówione zostaną wyrażenia regularne jako narzędzie niskopoziomowej analizy treści tekstowej. Następnie przedstawione zostaną podstawowe wiadomości dotyczące morfologii, w tym przede wszystkim metody sprowadzania słów do postaci kanonicznej (ang. stemming). Zostaną omówione metody analizy dokumentów tekstowych bazujące na miarach statystycznych (porównywanie dystrybucji częstości wystąpień słów, wyszukiwanie kolokacji, automatyczne wyszukiwanie synonimów i budowanie tezaurusów).

Modele dokumentów tekstowych: Dokonany zostanie przegląd metod reprezentacji dokumentów tekstowych. Przedstawiony zostanie model wektorowy oparty na częstościach występowania unigramów i n-gramów oraz jego implementacje (m.in. zbiór odwrócony). Omówione zostaną metody wzbogacania modeli o informację nietekstową (formatowanie tekstu) oraz ich przetwarzania (stosowanie list słow nieistotnych - ang. stoplist, dystrybucja Zipfa, metoda TF-IDF).

Analiza gramatyczna: Przedstawione zostaną metody analizy gramatycznej zdań, w tym automatycznego oznaczania części mowy (ang. part-of-speech tagging). Omówione zostaną modele Markowa, w tym HMM oraz gramatyki bezkontekstowe.

Zastosowania
Omówione zostaną zagadnienia związane z problemem wyszukiwania dokumentów w repozytoriach pełnotekstowych. Zostaną przedstawione sposoby analizy i wzbogacania zapytań, przedstawiania wyników wyszukiwania, omówione zostaną także metody oceny jakości działania narzędzi wyszukiwawczych (m.in. miary precision, recall). Przedstawione zostaną algorytmy grupowania i automatycznej kategoryzacji dokumentów tekstowych. : Omówiona zostanie problematyka automatycznego tłumaczenia dokumentów i automatcznej identyfikacji języka. Szczególny nacisk zostanie położony na metody statystyczne oparte na wykorzystaniu korpusów tekstów dwujęzycznych (ang. statistical text alignment). Przedstawione zostaną metody wyszukiwania istotnych słów kluczowych w dokumentach i generowania streszczeń.

Omówione zostaną także algorytmy analizy grafu połączeń hipertekstowych (HITS, Page Rank, HillTop). Przedstawione zostaną podstawy działania wyszukiwarek sieciowych (Google), oraz tworzenia własnych robotów sieciowych. Poruszone zostaną także problemy manipulowania pozycjonowaniem stron internetowych w rankingach wyszukiwarek poprzez wykorzystanie specyficznych cech algorytmów stosowanych przez wyszukiwarki. Omówiona zostanie koncepcja Web Farming, jako stałego i ustrukturalizowanego procesu pozyskiwania informacji z sieci WWW.



Poprzedniki

Typ poprzednikaNr poprzednikaKod poprzednikaNazwa poprzednika
Zalecany1103C-TLTZT-ISP-WBDWprowadzenie do baz danych
Zalecany1103B-INxxx-ISP-BDBazy danych 1
Zalecany1103A-CSCSN-ISA-EDABAData Bases
Zalecany1103C-INxxx-ISP-AISDIAlgorytmy i struktury danych
Zalecany1103B-INxxx-ISP-AISDIAlgorytmy i struktury danych
Zalecany1103B-INxxx-ISP-BD2Bazy danych 2
Zalecany1103A-INxxx-ISP-BDBazy danych 1
Wymagany2103A-CSCSN-MSA-EPARTPattern Recognition
Wymagany2103B-ELxxx-MSP-MOWMetody odkrywania wiedzy
Wymagany2103A-INxxx-MSP-SYWISystemy wiedzy
Wymagany2103B-CSCSN-MSA-EDAMIData Mining
Wymagany2103B-CSCSN-MSA-EPARTPattern Recognition
Wymagany2103B-ELxxx-ISP-UMUczenie się maszyn
Wymagany2103C-CSCSN-MSA-EPARTPattern Recognition
Wymagany2103B-INxxx-MSP-MEDMetody eksploracji danych w odkrywaniu wiedzy
Wymagany2103B-INxxx-MSP-ROBRozpoznawanie obrazów
Wymagany2103A-INxxx-ISP-PSZTPodstawy sztucznej inteligencji

Literatura:

    1. Chris Manning, Hinrich Schütze, "Foundations of Statistical Natural Language Processing",
    2. MIT Press, 1999
    3. Dan Jurafsky, James H. Martin "Speech and Language Processing", Prentice-Hall, 2000

    4. Mieczysław Kłopotek, "Inteligentne wyszukiwarki internetowe", Exit, 2001

    5. oraz szereg dostępnych na stronach internetowych publikacji z dziedziny text mining oraz web mining, o których wykładowca będzie informował na bieżąco w trakcie zajęć.

Zajęcia w cyklu "rok akademicki 2019/2020 - sem. letni" (w trakcie)

Okres: 2020-02-22 - 2020-09-30
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Projekt, 15 godzin, 48 miejsc więcej informacji
Wykład, 30 godzin, 48 miejsc więcej informacji
Koordynatorzy: Piotr Andruszkiewicz
Prowadzący grup: Piotr Andruszkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2019/2020 - sem. zimowy" (zakończony)

Okres: 2019-10-01 - 2020-02-21
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Projekt, 15 godzin, 60 miejsc więcej informacji
Wykład, 30 godzin, 60 miejsc więcej informacji
Koordynatorzy: Piotr Andruszkiewicz
Prowadzący grup: Piotr Andruszkiewicz, Grzegorz Protaziuk, Dominik Ryżko
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2018/2019 - sem. letni" (zakończony)

Okres: 2019-02-18 - 2019-09-30
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Projekt, 15 godzin, 48 miejsc więcej informacji
Wykład, 30 godzin, 48 miejsc więcej informacji
Koordynatorzy: Piotr Andruszkiewicz
Prowadzący grup: Piotr Andruszkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2018/2019 - sem. zimowy" (zakończony)

Okres: 2018-10-01 - 2019-02-17
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Projekt, 15 godzin, 60 miejsc więcej informacji
Wykład, 30 godzin, 60 miejsc więcej informacji
Koordynatorzy: Piotr Andruszkiewicz
Prowadzący grup: Piotr Andruszkiewicz, Grzegorz Protaziuk, Dominik Ryżko
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2017/2018 - sem. letni" (zakończony)

Okres: 2018-02-19 - 2018-09-30
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Projekt, 15 godzin, 48 miejsc więcej informacji
Wykład, 30 godzin, 48 miejsc więcej informacji
Koordynatorzy: Piotr Andruszkiewicz
Prowadzący grup: Piotr Andruszkiewicz, Dominik Ryżko
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2017/2018 - sem. zimowy" (zakończony)

Okres: 2017-10-01 - 2018-02-18
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Projekt, 15 godzin, 60 miejsc więcej informacji
Wykład, 30 godzin, 60 miejsc więcej informacji
Koordynatorzy: Piotr Andruszkiewicz
Prowadzący grup: Piotr Andruszkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2016/2017 - sem. letni" (zakończony)

Okres: 2017-02-20 - 2017-09-30
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Projekt, 15 godzin, 48 miejsc więcej informacji
Wykład, 30 godzin, 48 miejsc więcej informacji
Koordynatorzy: Piotr Andruszkiewicz
Prowadzący grup: Piotr Andruszkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2016/2017 - sem. zimowy" (zakończony)

Okres: 2016-10-01 - 2017-02-19
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Projekt, 15 godzin, 48 miejsc więcej informacji
Wykład, 30 godzin, 48 miejsc więcej informacji
Koordynatorzy: Piotr Andruszkiewicz
Prowadzący grup: Piotr Andruszkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2015/2016 - sem. letni" (zakończony)

Okres: 2016-02-23 - 2016-09-30
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Projekt, 15 godzin, 60 miejsc więcej informacji
Wykład, 30 godzin, 60 miejsc więcej informacji
Koordynatorzy: Piotr Andruszkiewicz
Prowadzący grup: Piotr Andruszkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2015/2016 - sem. zimowy" (zakończony)

Okres: 2015-10-01 - 2016-02-22
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Projekt, 15 godzin, 40 miejsc więcej informacji
Wykład, 30 godzin, 40 miejsc więcej informacji
Koordynatorzy: Piotr Andruszkiewicz
Prowadzący grup: Piotr Andruszkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2014/2015 - sem. letni" (zakończony)

Okres: 2015-02-23 - 2015-09-30
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Projekt, 15 godzin, 48 miejsc więcej informacji
Wykład, 30 godzin, 48 miejsc więcej informacji
Koordynatorzy: Piotr Andruszkiewicz
Prowadzący grup: Piotr Andruszkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2014/2015 - sem. zimowy" (zakończony)

Okres: 2014-09-29 - 2015-02-22
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Projekt, 15 godzin, 53 miejsc więcej informacji
Wykład, 30 godzin, 53 miejsc więcej informacji
Koordynatorzy: Piotr Andruszkiewicz
Prowadzący grup: Piotr Andruszkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2013/2014 - sem. letni" (zakończony)

Okres: 2014-02-24 - 2014-09-28
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Projekt, 15 godzin, 60 miejsc więcej informacji
Wykład, 30 godzin, 60 miejsc więcej informacji
Koordynatorzy: Piotr Andruszkiewicz
Prowadzący grup: Piotr Andruszkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2013/2014 - sem. zimowy" (zakończony)

Okres: 2013-10-01 - 2014-02-23
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Projekt, 15 godzin, 60 miejsc więcej informacji
Wykład, 30 godzin, 60 miejsc więcej informacji
Koordynatorzy: Piotr Andruszkiewicz
Prowadzący grup: Piotr Andruszkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2012/2013 - sem. letni" (zakończony)

Okres: 2013-02-20 - 2013-09-30
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Projekt, 15 godzin, 84 miejsc więcej informacji
Wykład, 30 godzin, 84 miejsc więcej informacji
Koordynatorzy: Piotr Andruszkiewicz
Prowadzący grup: Piotr Andruszkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2012/2013 - sem. zimowy" (zakończony)

Okres: 2012-10-01 - 2013-02-19
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Projekt, 15 godzin, 60 miejsc więcej informacji
Wykład, 30 godzin, 60 miejsc więcej informacji
Koordynatorzy: Piotr Andruszkiewicz
Prowadzący grup: Piotr Andruszkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Politechnika Warszawska.