Politechnika Warszawska - Centralny System UwierzytelnianiaNie jesteś zalogowany | zaloguj się
katalog przedmiotów - pomoc

Metody analizy danych

Informacje ogólne

Kod przedmiotu: 103A-IRxxx-ISP-MADAN Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Metody analizy danych
Jednostka: Wydział Elektroniki i Technik Informacyjnych
Grupy: ( Przedmioty techniczne )---EITI
( Teleinformatyka )-Inżynieria internetu rzeczy-inż.-EITI
Punkty ECTS i inne: 6.00
Język prowadzenia: polski
Jednostka decyzyjna:

103000 - Wydział Elektroniki i Technik Informacyjnych

Kod wydziałowy:

MADAN

Numer wersji:

1

Skrócony opis:

Przedmiot zawiera treści związane inteligentnymi metodami analizy danych pozyskiwanych i przechowywanych w systemach Internetu Rzeczy. Założono, że główną lokalizacją składowania danych jest serwer, do którego poszczególne węzły przesyłają informacje pomiarowe. Z tego powodu główny nacisk kładziony jest na wydajne algorytmy analizy i przetwarzania takich danych w celach klasyfikacji, predykcji, wykrywania zależności. Zostaną przedstawione podstawowe metody odkrywania wiedzy w danych oraz wykorzystywania jej w procesie podejmowania decyzji. Omówione zostaną najpopularniejsze metody klasyfikacji, regresji. Wykład poświęcony będzie algorytmom dopasowanym do cech o charakterze ciągłym. Zostanie poruszony aspekt przetwarzania danych w systemach o ograniczonych możliwościach obliczeniowych np. mikrokontrolery czy komputery jednopłytkowe.Laboratorium obejmować będzie implementację i testowanie wybranych algorytmów z wykorzystaniem dostępnych bibliotek w języku programowania wysokiego poziomu.

Pełny opis:


Treść wykładu

  1. Wprowadzenie (4 godz.) – charakterystyka zbiorów danych pozyskiwanych w wyniku działania Internetu Rzeczy. Cele analizy danych: klasyfikacja, regresja, optymalizacja, predykcja. Podstawowe dziedziny sztucznej inteligencji wykorzystywane do analizy danych: systemy ekspertowe, uczenie maszynowe, metody heurystyczne.
  2. Systemy ekspertowe (2 godz.) – struktura systemu oraz wykorzystanie przezeń wiedzy. Metody reprezentacji wiedzy (numeryczne – sztuczna sieć neuronowa, regułowe, statystyczne – Naiwny Klasyfikator Bayesa itp.). Metody dedukcyjnego podejmowania decyzji. Działanie algorytmów indywidualnie i w komitetach (fuzja klasyfikatorów i maszyn regresyjnych). Zdolność do objaśniania procesu wnioskowania.
  3. Metody wstępnego przetwarzania danych (4 godz.) – uzupełnianie brakujących danych, wyszukiwanie nadmiarowości (obliczanie pojemności informacyjnej i zależności metodami korelacyjnymi), metody dyskretyzacji atrybutów.
  4. Klasyfikacja wzorców (4 godz.) – podstawowe metody: drzewa decyzyjne, systemy regułowe, logika rozmyta, sztuczne sieci neuronowe, maszyny wektorów nośnych SVC.
  5. Zadanie regresji (2 godz.) – podstawowe metody: regresja liniowa, drzewa regresyjne, sztuczne sieci neuronowe (perceptrony wielowarstwowe, sieci RBF, maszyny wektorów nośnych SVR).
  6. Podstawy uczenia maszynowego (4 godz.) – cele procesu i podstawowe rodzaje (z nadzorem, bez nadzoru, ze wzmocnieniem). Podstawowe algorytmy uczenia z nadzorem (indukcja drzew decyzyjnych, uczenie sztucznych sieci neuronowych, generacja prawdopodobieństw dla Naiwnego Klasyfikatora Bayesa).
  7. Uczenie bez nadzoru (4 godz.) – podstawowe algorytmy grupowania pojęciowego: grupowanie hierarchiczne, metody k-średnich, sztuczne sieci neuronowe typu SOM (uczenie konkurencyjne). Metody oceny jakości grupowania (indeksy, czystość grup itp.).
  8. Metody optymalizacji (6 godz.) – podstawowe algorytmy optymalizacji dyskretnej i ciągłej. Metody heurystyczne: metoda grid search i Monte Carlo, algorytmy gradientowe, symulowane wyżarzanie, przeszukiwanie z tabu, algorytmy ewolucyjne.



Treść ćwiczeń


Podstawy matematyczne i statystyczne dla systemów przetwarzania danych. Przedstawiane zagadnienia obejmować będą:

  • Cele analizy statystycznej.
  • Rozkłady zmiennych losowych.
  • Miary statystyczne oraz ich wykorzystanie do oceny dostępnych danych (dominanta, mediana, średnie, wariancja itp.).
  • Metody estymacji parametrów.
  • Weryfikacja hipotez statystycznych.
  • Propagację błędów.



Zakres laboratorium


Laboratorium będzie polegać na implementacji kolejnych algorytmów analizy danych i testowaniu ich właściwości pod opieką prowadzącego. Kolejne laboratoria będą obejmować poszczególne algorytmy klasyfikacji, regresji, predykcji, optymalizacji, m.in. sztuczne sieci neuronowe, drzewa decyzyjne, lasy losowe, algorytmy ewolucyjne, metody grupowania k-średnich i in. Laboratorium obejmować będzie również metody organizacji danych i wstępnego przetwarzania, np. za pomocą biblioteki numpy.

Literatura:

  • Z. Michalewicz, D.B. Fogel, „Jak to rozwiązać, czyli nowoczesna heurystyka”, WNT, Warszawa, 2006.
  • S. Osowski, „Sieci neuronowe do przetwarzania informacji”, Oficyna Wydawnicza Politechniki Warszawskiej, Warszawa, 2006.
  • P. Cichosz, „Systemy uczące się, ” WNT, Warszawa, 2000.
  • W. Klonecki, Statystyka dla inżynierów, PWN, Warszawa 1999.

Zajęcia w cyklu "rok akademicki 2022/2023 - sem. letni" (jeszcze nie rozpoczęty)

Okres: 2023-02-20 - 2023-09-30
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Ćwiczenia, 20 godzin, 30 miejsc więcej informacji
Laboratorium, 30 godzin, 30 miejsc więcej informacji
Wykład, 30 godzin, 30 miejsc więcej informacji
Koordynatorzy: (brak danych)
Prowadzący grup: (brak danych)
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103400 - Instytut Radioelektroniki i Technik Multimedialnych

Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Politechnika Warszawska.