Politechnika Warszawska - Centralny System Uwierzytelniania
Strona główna

Data Mining

Informacje ogólne

Kod przedmiotu: 103B-CSCSN-MSA-EDAMI
Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Data Mining
Jednostka: Wydział Elektroniki i Technik Informacyjnych
Grupy: ( Computer Systems and Networks - Advanced )-Computer Systems and Networks-M.Sc.-EITI
( Courses in English )--eng.-EITI
( Przedmioty techniczne )---EITI
( Przedmioty zaawansowane )-Inżynieria systemów informatycznych-mgr.-EITI
( Przedmioty zaawansowane techniczne )--mgr.-EITI
( Technical Courses )--eng.-EITI
Punkty ECTS i inne: 6.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.
Język prowadzenia: angielski
Jednostka decyzyjna:

103000 - Wydział Elektroniki i Technik Informacyjnych

Kod wydziałowy:

EDAMI

Numer wersji:

2

Skrócony opis:

Na treść wykładu składa się szeroki zakres tematów z dziedziny eksploracji danych. Zostaną przedstawione metody odkrywania różnych typów wiedzy z dużych zasobów danych oraz metody efektywnego pozyskiwania wiedzy poprzez stosowanie zwięzłych bezstratnych reprezentacji. Przedstawione zostaną także wydajne metody wyszukiwania duplikatów obiektów, grupowania i klasyfikacji danych, umożliwiające wykonanie tych zadań znacząco szybciej niż przy zastosowaniu standardowych algorytmów. Zaprezentowane będą także metody odkrywania zależności funkcyjnych i przybliżonych pomiędzy zbiorami atrybutów. Omówione zostaną zagadnienia wnioskowania z niepełnych danych i na podstawie wiedzy częściowej.


Zajęcia zostały przygotowane i będą prowadzone z wykorzystaniem umiejętności prezentacyjnych.

Pełny opis: (tylko po angielsku)


Lecture contents

  • Data mining as a multidisciplinary area: Roots and development of data mining area. Current challenges in data mining. Classification of data mining tasks. Data Mining in Knowledge Discovery process.
  • Frequent patterns and association rules: Scalable methods of discovering frequent patterns and association rules in transactional and relational databases. Modifications of algorithms capable of dealing with hierarchy and negation. Specifying constraints in a data mining language. Usage of imposed constraints for efficient reduction of a discovery process.
  • Evaluation measures of association rules: Properties of evaluation measures of association rules such as lift, certainty factor, dependence factor, odds ratio and growth ratio.
  • Concise models of frequent patterns: Generators, closed itemsets and generalized-disjunction-free sets as basic elements of lossless representations of frequent patterns. Discovery of concise representations of frequent patterns. Usage of the models for derivation of all frequent patterns.
  • Concise models of association rules: Generators and closed itemsets as building blocks of lossless representations of association rules such as representative rules, minimal non-redundant rules and rule templates. Mechanisms of deriving association rules from these representations.
  • Other patterns and rules: Methods of discovering other patterns such as sequential patterns and sequential rules, contrast patterns, (rough set) decision rules.
  • Similarity and distance measures of objects: Efficient methods of discovering objects that are most similar (or nearest) with respect to the measures such as Manhattan distance, Jaccard, Tanimoto and cosine.
  • Clustering: Density based methods of clustering objects and discovering anomalies such as DBSCAN and NBC and their efficient modifications based on the triangle inequality such as TI-DBSCAN and TI-NBC or based on the VP-tree.
  • Classification: Using contrast patterns in classification.
  • Functional and approximate dependencies: Scalable methods of discovering functional and approximate dependencies in large databases.
  • Reasoning under incompleteness: Legitimate approach to reasoning from data with missing values. Mining from partial knowledge.


Laboratory contents


During the laboratory classes, students will become familiar with possibilities of carrying out data mining in the R Programming Environment.


Project contents


A project task is to design, implement and perform an experimental evaluation of selected data mining algorithms.

Sample algorithms to be implemented:

  • Discovering frequent patterns with the dEclat algorithm.
  • Discovering frequent closed patterns with Charm.
  • Discovering sequential patterns with the GSP and SPAM algorithms.
  • Discovering clusters and anomalies with the TI-DBSCAN and TI-NBC algorithms.
  • Discovering functional and approximate dependencies with the TANE algorithm.
Literatura: (tylko po angielsku)

Literatura i oprogramowanie:

  • Han J., Kamber M., Pei J., Data Mining: Concepts and Techniques, The Morgan Kaufmann Series in Data Management Systems, Morgan Kaufmann Publishers, 2012
  • Kryszkiewicz M., Concise Representations of Frequent Patterns and Association Rules, Prace Naukowe, Elektronika, Oficyna Wydawnicza Politechniki Warszawskiej, z. 142 (2002)
  • Ganter B., Wille R., Formal Concept Analysis, Mathematical Foundations, Springer-Verlag, 1999
  • a number of recent data mining publications accessible via Internet. The instructor will recommend the respective publications during the course.
Efekty uczenia się: (tylko po angielsku)

Knowledge

  • has knowledge of discovering patterns, rules and dependencies by means of data mining methods
  • knows methods of representing frequent patterns and rules as well as methods of reasoning about them
  • knows effective and efficient methods of clustering, noise detection and classification
  • knows methods of reasoning under incompleteness
  • has knowledge of modern data mining technologies

Skills

  • is capable of planning and implementing a knowledge discovery process as well as of interpreting its results
  • is capable of presenting a plan, implementation and results of a knowledge discovery process in an oral and written form
  • is capable of discovering knowledge using modern data mining technologies

Zajęcia w cyklu "rok akademicki 2023/2024 - sem. letni" (w trakcie)

Okres: 2024-02-19 - 2024-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Robert Bembenik, Marzena Kryszkiewicz, Grzegorz Protaziuk
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2023/2024 - sem. zimowy" (zakończony)

Okres: 2023-10-01 - 2024-02-18
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 15 godzin, 39 miejsc więcej informacji
Projekt, 15 godzin, 39 miejsc więcej informacji
Wykład, 30 godzin, 39 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Robert Bembenik, Jarosław Chudziak, Marzena Kryszkiewicz, Grzegorz Protaziuk
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2022/2023 - sem. letni" (zakończony)

Okres: 2023-02-20 - 2023-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Robert Bembenik, Marzena Kryszkiewicz, Grzegorz Protaziuk
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2022/2023 - sem. zimowy" (zakończony)

Okres: 2022-10-01 - 2023-02-19
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Robert Bembenik, Jarosław Chudziak, Marzena Kryszkiewicz, Grzegorz Protaziuk
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2021/2022 - sem. letni" (zakończony)

Okres: 2022-02-23 - 2022-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Robert Bembenik, Jarosław Chudziak, Marzena Kryszkiewicz, Grzegorz Protaziuk
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2021/2022 - sem. zimowy" (zakończony)

Okres: 2021-10-01 - 2022-02-22
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Robert Bembenik, Jarosław Chudziak, Marzena Kryszkiewicz, Grzegorz Protaziuk
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2020/2021 - sem. letni" (zakończony)

Okres: 2021-02-20 - 2021-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Robert Bembenik, Jarosław Chudziak, Marzena Kryszkiewicz, Grzegorz Protaziuk
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2020/2021 - sem. zimowy" (zakończony)

Okres: 2020-10-01 - 2021-02-19
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Robert Bembenik, Jarosław Chudziak, Marzena Kryszkiewicz, Grzegorz Protaziuk
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2019/2020 - sem. letni" (zakończony)

Okres: 2020-02-22 - 2020-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Robert Bembenik, Marzena Kryszkiewicz, Grzegorz Protaziuk
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2019/2020 - sem. zimowy" (zakończony)

Okres: 2019-10-01 - 2020-02-21
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Robert Bembenik, Marzena Kryszkiewicz, Grzegorz Protaziuk
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2018/2019 - sem. letni" (zakończony)

Okres: 2019-02-18 - 2019-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Marek Kozłowski, Marzena Kryszkiewicz, Grzegorz Protaziuk, Kamil Żbikowski
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2018/2019 - sem. zimowy" (zakończony)

Okres: 2018-10-01 - 2019-02-17
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 15 godzin, 36 miejsc więcej informacji
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Marzena Kryszkiewicz
Prowadzący grup: Robert Bembenik, Marzena Kryszkiewicz, Piotr Maciąg, Grzegorz Protaziuk
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Politechnika Warszawska.
pl. Politechniki 1, 00-661 Warszawa tel: (22) 234 7211 https://pw.edu.pl kontakt deklaracja dostępności USOSweb 7.0.0.0-7 (2024-03-18)