Politechnika Warszawska - Centralny System Uwierzytelniania
Nie jesteś zalogowany | zaloguj się
katalog przedmiotów - pomoc

Data Mining

Informacje ogólne

Kod przedmiotu: 103B-CSCSN-MSA-EDAMI Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Data Mining
Jednostka: Wydział Elektroniki i Technik Informacyjnych
Grupy: ( Computer Systems and Networks - Advanced )-Computer Systems and Networks-M.Sc.-EITI
( Courses in English )--eng.-EITI
( Przedmioty techniczne )---EITI
( Przedmioty zaawansowane )-Informatyka-dr.-EITI
( Przedmioty zaawansowane )-Inżynieria systemów informatycznych-mgr.-EITI
( Przedmioty zaawansowane techniczne )--mgr.-EITI
( Technical Courses )--eng.-EITI
Punkty ECTS i inne: 6.00
Język prowadzenia: angielski
Jednostka decyzyjna:

103000 - Wydział Elektroniki i Technik Informacyjnych

Kod wydziałowy:

EDAMI

Numer wersji:

2

Skrócony opis:

Na treść wykładu składa się szeroki zakres tematów z dziedziny eksploracji danych. Zostaną przedstawione metody odkrywania różnych typów wiedzy z dużych zasobów danych oraz metody efektywnego pozyskiwania wiedzy poprzez stosowanie zwięzłych bezstratnych reprezentacji. Przedstawione zostaną także wydajne metody wyszukiwania duplikatów obiektów, grupowania i klasyfikacji danych, umożliwiające wykonanie tych zadań znacząco szybciej niż przy zastosowaniu standardowych algorytmów. Zaprezentowane będą także metody odkrywania zależności funkcyjnych i przybliżonych pomiędzy zbiorami atrybutów. Omówione zostaną zagadnienia wnioskowania z niepełnych danych i na podstawie wiedzy częściowej.


Zajęcia zostały przygotowane i będą prowadzone z wykorzystaniem umiejętności prezentacyjnych.

Pełny opis: (tylko po angielsku)


Lecture contents

  • Data mining as a multidisciplinary area: Roots and development of data mining area. Current challenges in data mining. Classification of data mining tasks. Data Mining in Knowledge Discovery process.
  • Frequent patterns and association rules: Scalable methods of discovering frequent patterns and association rules in transactional and relational databases. Modifications of algorithms capable of dealing with hierarchy and negation. Specifying constraints in a data mining language. Usage of imposed constraints for efficient reduction of a discovery process.
  • Evaluation measures of association rules: Properties of evaluation measures of association rules such as lift, certainty factor, dependence factor, odds ratio and growth ratio.
  • Concise models of frequent patterns: Generators, closed itemsets and generalized-disjunction-free sets as basic elements of lossless representations of frequent patterns. Discovery of concise representations of frequent patterns. Usage of the models for derivation of all frequent patterns.
  • Concise models of association rules: Generators and closed itemsets as building blocks of lossless representations of association rules such as representative rules, minimal non-redundant rules and rule templates. Mechanisms of deriving association rules from these representations.
  • Other patterns and rules: Methods of discovering other patterns such as sequential patterns and sequential rules, contrast patterns, (rough set) decision rules.
  • Similarity and distance measures of objects: Efficient methods of discovering objects that are most similar (or nearest) with respect to the measures such as Manhattan distance, Jaccard, Tanimoto and cosine.
  • Clustering: Density based methods of clustering objects and discovering anomalies such as DBSCAN and NBC and their efficient modifications based on the triangle inequality such as TI-DBSCAN and TI-NBC or based on the VP-tree.
  • Classification: Using contrast patterns in classification.
  • Functional and approximate dependencies: Scalable methods of discovering functional and approximate dependencies in large databases.
  • Reasoning under incompleteness: Legitimate approach to reasoning from data with missing values. Mining from partial knowledge.


Laboratory contents


During the laboratory classes, students will become familiar with possibilities of carrying out data mining in the R Programming Environment.


Project contents


A project task is to design, implement and perform an experimental evaluation of selected data mining algorithms.

Sample algorithms to be implemented:

  • Discovering frequent patterns with the dEclat algorithm.
  • Discovering frequent closed patterns with Charm.
  • Discovering sequential patterns with the GSP and SPAM algorithms.
  • Discovering clusters and anomalies with the TI-DBSCAN and TI-NBC algorithms.
  • Discovering functional and approximate dependencies with the TANE algorithm.
Literatura: (tylko po angielsku)

    1. Han J., Kamber M., Data Mining: Concepts and Techniques, The Morgan Kaufmann Series in Data Management Systems, Morgan Kaufmann Publishers, 2000

    2. Advances in Knowledge Discovery and Data Mining, eds. U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy, AAAI, Menlo Park, California, 1996

    3. Kryszkiewicz M., Concise Representations of Frequent Patterns and Association Rules, Prace Naukowe, Elektronika, Oficyna Wydawnicza Politechniki Warszawskiej, z. 142 (2002)

    4. Communications of the ACM, November 1996, Vol. 39. No 11., 1996

    5. Ganter B., Wille R., Formal Concept Analysis, Mathematical Foundations, Springer-Verlag, 1999

    6. and a number of recent data mining publications accessible via Internet. The instructor will recommend the respective publications during the course.

Zajęcia w cyklu "rok akademicki 2020/2021 - sem. zimowy" (w trakcie)

Okres: 2020-10-01 - 2021-02-12
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Robert Bembenik, Jarosław Chudziak, Marzena Kryszkiewicz, Grzegorz Protaziuk
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2019/2020 - sem. letni" (zakończony)

Okres: 2020-02-22 - 2020-09-30
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Robert Bembenik, Marzena Kryszkiewicz, Grzegorz Protaziuk
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2019/2020 - sem. zimowy" (zakończony)

Okres: 2019-10-01 - 2020-02-21
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Robert Bembenik, Marzena Kryszkiewicz, Grzegorz Protaziuk
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2018/2019 - sem. letni" (zakończony)

Okres: 2019-02-18 - 2019-09-30
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Marek Kozłowski, Marzena Kryszkiewicz, Grzegorz Protaziuk, Kamil Żbikowski
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2018/2019 - sem. zimowy" (zakończony)

Okres: 2018-10-01 - 2019-02-17
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Robert Bembenik, Marzena Kryszkiewicz, Piotr Maciąg, Grzegorz Protaziuk
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2017/2018 - sem. letni" (zakończony)

Okres: 2018-02-19 - 2018-09-30
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Tomasz Gambin, Marzena Kryszkiewicz, Grzegorz Protaziuk, Kamil Żbikowski
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2017/2018 - sem. zimowy" (zakończony)

Okres: 2017-10-01 - 2018-02-18
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: (brak danych)
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2016/2017 - sem. letni" (zakończony)

Okres: 2017-02-20 - 2017-09-30
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Marzena Kryszkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2015/2016 - sem. letni" (zakończony)

Okres: 2016-02-23 - 2016-09-30
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Marzena Kryszkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2014/2015 - sem. letni" (zakończony)

Okres: 2015-02-23 - 2015-09-30
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Marzena Kryszkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2013/2014 - sem. letni" (zakończony)

Okres: 2014-02-24 - 2014-09-28
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Marzena Kryszkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2012/2013 - sem. letni" (zakończony)

Okres: 2013-02-20 - 2013-09-30
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Marzena Kryszkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Politechnika Warszawska.