Metody odkrywania wiedzy
Informacje ogólne
Kod przedmiotu: | 103B-ELxxx-MSP-MOW |
Kod Erasmus / ISCED: | (brak danych) / (brak danych) |
Nazwa przedmiotu: | Metody odkrywania wiedzy |
Jednostka: | Wydział Elektroniki i Technik Informacyjnych |
Grupy: |
( Przedmioty techniczne )---EITI ( Przedmioty zaawansowane )-Inżynieria systemów informatycznych-mgr.-EITI ( Przedmioty zaawansowane obieralne )-Mikrosystemy i systemy elektroniczne-mgr.-EITI ( Przedmioty zaawansowane techniczne )--mgr.-EITI |
Punkty ECTS i inne: |
4.00
|
Język prowadzenia: | polski |
Jednostka decyzyjna: | 103000 - Wydział Elektroniki i Technik Informacyjnych |
Kod wydziałowy: | MOW |
Numer wersji: | 2 |
Skrócony opis: |
Przedmiot jest przeznaczony przede wszystkim dla studentów studiów magisterskich specjalności informatycznych. Celem przedmiotu jest zapoznanie studentów z najważniejszymi zaawansowanymi technikami stosowanymi do odkrywania wiedzy w danych (knowledge discovery), czyli odkrywania występujących w danych zależności i formułowania ich w postaci umożliwiającej wnioskowanie. Jest to dynamicznie rozwijająca się w ostatnich latach dziedzina badań naukowych i coraz częściej udanych zastosowań praktycznych. Jej znajomość staje się wobec tego istotnym elementem edukacji informatycznej na poziomie zaawansowanym. Zapoznanie się z nią może być zarówno przygotowaniem do późniejszej działalności badawczej w ramach studiów doktoranckich, jak i istotnym atutem na rynku pracy. Techniki, które będą przedstawiane, wywodzą się z maszynowego uczenia się i statystyki. Wynika stąd częściowe podobieństwo do przedmiotu Uczenie się maszyn (UM), istnieją jednak następujące różnice: (...) |
Pełny opis: |
Przedmiot jest przeznaczony przede wszystkim dla studentów studiów magisterskich specjalności informatycznych. Celem przedmiotu jest zapoznanie studentów z najważniejszymi zaawansowanymi technikami stosowanymi do odkrywania wiedzy w danych (knowledge discovery), czyli odkrywania występujących w danych zależności i formułowania ich w postaci umożliwiającej wnioskowanie. Jest to dynamicznie rozwijająca się w ostatnich latach dziedzina badań naukowych i coraz częściej udanych zastosowań praktycznych. Jej znajomość staje się wobec tego istotnym elementem edukacji informatycznej na poziomie zaawansowanym. Zapoznanie się z nią może być zarówno przygotowaniem do późniejszej działalności badawczej w ramach studiów doktoranckich, jak i istotnym atutem na rynku pracy.
Treść wykładu Wprowadzenie. Informacje o przedmiocie. Sformułowanie zadania odkrywania wiedzy. Klasyfikacja metod odkrywania wiedzy. Przykładowe zastosowania. Wprowadzenie do maszynowego uczenia się. Definicja uczenia się. Rodzaje uczenia się. Klasyfikacja metod uczenia się. Podstawowa terminologia i notacja. Narzędzia ze statystyki i teorii informacji. Opisywanie rozkładów. Przedziały ufności. Testy istotności. Procedury statystycznej oceny hipotez. Entropia. Indukcja drzew decyzyjnych. Reprezentacja hipotez za pomocą drzew decyzyjnych. Zstępujące konstruowanie drzewa. Kryteria wyboru testu. Testy dla atrybutów ciągłych. Przycinanie drzew decyzyjnych. Indukcja reguł. Reprezentacja hipotez za pomocą zbiorów reguł. Strategie rozstrzygania konfliktów przy stosowaniu reguł. Schemat sekwencyjnego pokrywania. Algorytmy AQ i CN2. Przycinanie zbiorów reguł. Klasyfikacja bayesowska. Twierdzenie Bayesa. Optymalny klasyfikator bayesowski. Naiwny klasyfikator bayesowski. Zasada minimalnej długości kodu. Grupowanie pojęciowe. Grupowanie za pomocą pokryć (CLUSTER/2): reprezentacja grup przez kompleksy. Grupowanie na podstawie odległości: algorytm k średnich. Grupowanie probabilistyczne (COBWEB): ocena jakości grupowania, probabilistyczne drzewo grupowania, operatory modyfikacji drzewa. Wnioskowanie na podstawie wyników grupowania. Dyskretyzacja atrybutów ciągłych. Rodzaje dyskretyzacji. Dyskretyzacja wstępująca. Dyskretyzacja zstępująca. Kryteria oceny dyskretyzacji: entropia, statystyka chi-kwadrat. Konstruktywna indukcja. Eliminacja nieistotnych atrybutów. Wykrywanie zależności między atrybutami. Tworzenie nowych atrybutów. Metauczenie się. Koncepcja metauczenia się. Generowanie hipotez bazowych: techniki próbkowania, wielu algorytmów, różnej parametryzacji algorytmów, randomizacji algorytmów. Łączenie hipotez bazowych: głosowanie, głosowanie ważone dokładnością, uczenie się łączenia. Sieci bayesowskie. Definicja sieci bayesowskiej. Wnioskowanie w sieciach bayesowskich. Algorytmy uczenia się sieci bayesowskich. Odkrywanie reguł asocjacyjnych. Składnia i semantyka reguł asocjacyjnych. Wsparcie i wiarygodność reguł asocjacyjnych. Algorytm Apriori. Aproksymacja funkcji i regresja. Reprezentacja parametryczna. Aproksymator liniowy. Regresja liniowa. Rozszerzona reprezentacja. Metody pamięciowe. Odkrywanie równań. Heurystyki odkrywania równań z jedną zmienną zależną. Heurystyki odkrywania równań z wieloma zmiennymi zależnymi. Dane rzeczywiste. Techniki wstępnego przetwarzania danych: identyfikacja wartości izolowanych, identyfikacja niespójności, wypełnianie brakujących wartości. Przetwarzanie dużych zbiorów danych. Zakres projektu Projekt polegać będzie na implementacji omawianych na wykładzie algorytmów odkrywania wiedzy, być może z wykorzystaniem istniejących bibliotek, i ich zastosowaniu do wybranych zbiorów danych w celu odkrycia występujących w nich zależności. Typowe zadanie projektowe obejmować będzie następujące elementy:
|
Literatura: |
|
Zajęcia w cyklu "rok akademicki 2019/2020 - sem. letni" (zakończony)
Okres: | 2020-02-22 - 2020-09-30 |
Przejdź do planu
PN WT ŚR CZ WYK
PT |
Typ zajęć: |
Projekt, 15 godzin, 48 miejsc
Wykład, 30 godzin, 48 miejsc
|
|
Koordynatorzy: | Paweł Cichosz | |
Prowadzący grup: | Rafał Biedrzycki, Paweł Cichosz | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Ocena łączna | |
Jednostka realizująca: | 103200 - Instytut Informatyki |
Zajęcia w cyklu "rok akademicki 2019/2020 - sem. zimowy" (zakończony)
Okres: | 2019-10-01 - 2020-02-21 |
Przejdź do planu
PN WT ŚR CZ WYK
PT |
Typ zajęć: |
Projekt, 15 godzin, 60 miejsc
Wykład, 30 godzin, 60 miejsc
|
|
Koordynatorzy: | Paweł Cichosz | |
Prowadzący grup: | Rafał Biedrzycki, Paweł Cichosz | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Ocena łączna | |
Jednostka realizująca: | 103200 - Instytut Informatyki |
Zajęcia w cyklu "rok akademicki 2018/2019 - sem. letni" (zakończony)
Okres: | 2019-02-18 - 2019-09-30 |
Przejdź do planu
PN WT ŚR CZ WYK
PT |
Typ zajęć: |
Projekt, 15 godzin, 36 miejsc
Wykład, 30 godzin, 36 miejsc
|
|
Koordynatorzy: | Paweł Cichosz | |
Prowadzący grup: | Rafał Biedrzycki, Paweł Cichosz | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Ocena łączna | |
Jednostka realizująca: | 103200 - Instytut Informatyki |
Zajęcia w cyklu "rok akademicki 2018/2019 - sem. zimowy" (zakończony)
Okres: | 2018-10-01 - 2019-02-17 |
Przejdź do planu
PN WT ŚR CZ WYK
PT |
Typ zajęć: |
Projekt, 15 godzin, 60 miejsc
Wykład, 30 godzin, 60 miejsc
|
|
Koordynatorzy: | Paweł Cichosz | |
Prowadzący grup: | Rafał Biedrzycki, Paweł Cichosz | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Ocena łączna | |
Jednostka realizująca: | 103200 - Instytut Informatyki |
Właścicielem praw autorskich jest Politechnika Warszawska.