Politechnika Warszawska - Centralny System Uwierzytelniania
Strona główna

Metody odkrywania wiedzy

Informacje ogólne

Kod przedmiotu: 103B-ELxxx-MSP-MOW
Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Metody odkrywania wiedzy
Jednostka: Wydział Elektroniki i Technik Informacyjnych
Grupy: ( Przedmioty techniczne )---EITI
( Przedmioty zaawansowane )-Inżynieria systemów informatycznych-mgr.-EITI
( Przedmioty zaawansowane obieralne )-Mikrosystemy i systemy elektroniczne-mgr.-EITI
( Przedmioty zaawansowane techniczne )--mgr.-EITI
Punkty ECTS i inne: 4.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.
Język prowadzenia: polski
Jednostka decyzyjna:

103000 - Wydział Elektroniki i Technik Informacyjnych

Kod wydziałowy:

MOW

Numer wersji:

2

Skrócony opis:

Przedmiot jest przeznaczony przede wszystkim dla studentów studiów magisterskich specjalności informatycznych. Celem przedmiotu jest zapoznanie studentów z najważniejszymi zaawansowanymi technikami stosowanymi do odkrywania wiedzy w danych (knowledge discovery), czyli odkrywania występujących w danych zależności i formułowania ich w postaci umożliwiającej wnioskowanie. Jest to dynamicznie rozwijająca się w ostatnich latach dziedzina badań naukowych i coraz częściej udanych zastosowań praktycznych. Jej znajomość staje się wobec tego istotnym elementem edukacji informatycznej na poziomie zaawansowanym. Zapoznanie się z nią może być zarówno przygotowaniem do późniejszej działalności badawczej w ramach studiów doktoranckich, jak i istotnym atutem na rynku pracy. Techniki, które będą przedstawiane, wywodzą się z maszynowego uczenia się i statystyki. Wynika stąd częściowe podobieństwo do przedmiotu Uczenie się maszyn (UM), istnieją jednak następujące różnice: (...)

Pełny opis:

Przedmiot jest przeznaczony przede wszystkim dla studentów studiów magisterskich specjalności informatycznych. Celem przedmiotu jest zapoznanie studentów z najważniejszymi zaawansowanymi technikami stosowanymi do odkrywania wiedzy w danych (knowledge discovery), czyli odkrywania występujących w danych zależności i formułowania ich w postaci umożliwiającej wnioskowanie. Jest to dynamicznie rozwijająca się w ostatnich latach dziedzina badań naukowych i coraz częściej udanych zastosowań praktycznych. Jej znajomość staje się wobec tego istotnym elementem edukacji informatycznej na poziomie zaawansowanym. Zapoznanie się z nią może być zarówno przygotowaniem do późniejszej działalności badawczej w ramach studiów doktoranckich, jak i istotnym atutem na rynku pracy.
Techniki, które będą przedstawiane, wywodzą się z maszynowego uczenia się i statystyki. Wynika stąd częściowe podobieństwo do przedmiotu Uczenie się maszyn (UM), istnieją jednak następujące różnice:

  1. tylko niektóre algorytmy omawiane na wykładzie z UM są wykorzystywane do odkrywania wiedzy i będą omawiane na wykładzie z MOW,
  2. na wykładzie z MOW będą omawiane dodatkowe algorytmy wykorzystywane do odkrywania wiedzy nie objęte programem UM,

  3. poziom prezentacji algorytmów będzie bardziej zaawansowany i uwzględni m.in. problemy efektywności obliczeniowej oraz statystycznej istotności wyników.



Treść wykładu
Wprowadzenie. Informacje o przedmiocie. Sformułowanie zadania odkrywania wiedzy. Klasyfikacja metod odkrywania wiedzy. Przykładowe zastosowania.
Wprowadzenie do maszynowego uczenia się. Definicja uczenia się. Rodzaje uczenia się. Klasyfikacja metod uczenia się. Podstawowa terminologia i notacja.
Narzędzia ze statystyki i teorii informacji. Opisywanie rozkładów. Przedziały ufności. Testy istotności. Procedury statystycznej oceny hipotez. Entropia.
Indukcja drzew decyzyjnych. Reprezentacja hipotez za pomocą drzew decyzyjnych. Zstępujące konstruowanie drzewa. Kryteria wyboru testu. Testy dla atrybutów ciągłych. Przycinanie drzew decyzyjnych.
Indukcja reguł. Reprezentacja hipotez za pomocą zbiorów reguł. Strategie rozstrzygania konfliktów przy stosowaniu reguł. Schemat sekwencyjnego pokrywania. Algorytmy AQ i CN2. Przycinanie zbiorów reguł.
Klasyfikacja bayesowska. Twierdzenie Bayesa. Optymalny klasyfikator bayesowski. Naiwny klasyfikator bayesowski. Zasada minimalnej długości kodu.
Grupowanie pojęciowe. Grupowanie za pomocą pokryć (CLUSTER/2): reprezentacja grup przez kompleksy. Grupowanie na podstawie odległości: algorytm k średnich. Grupowanie probabilistyczne (COBWEB): ocena jakości grupowania, probabilistyczne drzewo grupowania, operatory modyfikacji drzewa. Wnioskowanie na podstawie wyników grupowania.

Dyskretyzacja atrybutów ciągłych.
Rodzaje dyskretyzacji. Dyskretyzacja wstępująca. Dyskretyzacja zstępująca. Kryteria oceny dyskretyzacji: entropia, statystyka chi-kwadrat.
Konstruktywna indukcja. Eliminacja nieistotnych atrybutów. Wykrywanie zależności między atrybutami. Tworzenie nowych atrybutów.
Metauczenie się. Koncepcja metauczenia się. Generowanie hipotez bazowych: techniki próbkowania, wielu algorytmów, różnej parametryzacji algorytmów, randomizacji algorytmów. Łączenie hipotez bazowych: głosowanie, głosowanie ważone dokładnością, uczenie się łączenia.
Sieci bayesowskie. Definicja sieci bayesowskiej. Wnioskowanie w sieciach bayesowskich. Algorytmy uczenia się sieci bayesowskich.
Odkrywanie reguł asocjacyjnych. Składnia i semantyka reguł asocjacyjnych. Wsparcie i wiarygodność reguł asocjacyjnych. Algorytm Apriori.
Aproksymacja funkcji i regresja. Reprezentacja parametryczna. Aproksymator liniowy. Regresja liniowa. Rozszerzona reprezentacja. Metody pamięciowe.
Odkrywanie równań. Heurystyki odkrywania równań z jedną zmienną zależną. Heurystyki odkrywania równań z wieloma zmiennymi zależnymi.

Dane rzeczywiste.
Techniki wstępnego przetwarzania danych: identyfikacja wartości izolowanych, identyfikacja niespójności, wypełnianie brakujących wartości. Przetwarzanie dużych zbiorów danych.



Zakres projektu
Projekt polegać będzie na implementacji omawianych na wykładzie algorytmów odkrywania wiedzy, być może z wykorzystaniem istniejących bibliotek, i ich zastosowaniu do wybranych zbiorów danych w celu odkrycia występujących w nich zależności. Typowe zadanie projektowe obejmować będzie następujące elementy:
  1. implementację wybranego algorytmu odkrywania wiedzy,

  2. implementację komunikacji z bazą danych,

  3. przygotowanie bazy danych zawierającej dane do badań doświadczalnych,

  4. przeprowadzenie eksperymentów z różnymi ustawieniami parametrów algorytmu,

  5. statystyczną analizę uzyskanych wyników.

Literatura:

    1. Cichosz, P. Systemy uczące się. WNT, 2001.

    2. Kubat, M., Bratko, I., Michalski, R. S. Machine Learning and Data Mining: Methods and Applications. John Wiley and Sons, 1998.

    3. Mitchell, T. M. Machine Learning. McGraw-Hill, 1997.

    4. Witten, I. H., Frank, E. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations.

Zajęcia w cyklu "rok akademicki 2019/2020 - sem. letni" (zakończony)

Okres: 2020-02-22 - 2020-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Projekt, 15 godzin, 48 miejsc więcej informacji
Wykład, 30 godzin, 48 miejsc więcej informacji
Koordynatorzy: Paweł Cichosz
Prowadzący grup: Rafał Biedrzycki, Paweł Cichosz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2019/2020 - sem. zimowy" (zakończony)

Okres: 2019-10-01 - 2020-02-21
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Projekt, 15 godzin, 60 miejsc więcej informacji
Wykład, 30 godzin, 60 miejsc więcej informacji
Koordynatorzy: Paweł Cichosz
Prowadzący grup: Rafał Biedrzycki, Paweł Cichosz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2018/2019 - sem. letni" (zakończony)

Okres: 2019-02-18 - 2019-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Projekt, 15 godzin, 36 miejsc więcej informacji
Wykład, 30 godzin, 36 miejsc więcej informacji
Koordynatorzy: Paweł Cichosz
Prowadzący grup: Rafał Biedrzycki, Paweł Cichosz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Zajęcia w cyklu "rok akademicki 2018/2019 - sem. zimowy" (zakończony)

Okres: 2018-10-01 - 2019-02-17
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Projekt, 15 godzin, 60 miejsc więcej informacji
Wykład, 30 godzin, 60 miejsc więcej informacji
Koordynatorzy: Paweł Cichosz
Prowadzący grup: Rafał Biedrzycki, Paweł Cichosz
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103200 - Instytut Informatyki

Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Politechnika Warszawska.
pl. Politechniki 1, 00-661 Warszawa tel: (22) 234 7211 https://pw.edu.pl kontakt deklaracja dostępności USOSweb 7.0.0.0-7 (2024-03-18)