Politechnika Warszawska - Centralny System Uwierzytelniania
Strona główna

Metody analizy danych

Informacje ogólne

Kod przedmiotu: 103A-IRxxx-ISP-MADAN
Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Metody analizy danych
Jednostka: Wydział Elektroniki i Technik Informacyjnych
Grupy: ( Przedmioty obieralne - Informatyka techniczna )-Cyberbezpieczeństwo-inż.-EITI
( Przedmioty obieralne )-Cyberbezpieczeństwo-inż.-EITI
( Przedmioty techniczne )---EITI
( Teleinformatyka )-Inżynieria internetu rzeczy-inż.-EITI
Punkty ECTS i inne: 6.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.
Język prowadzenia: polski
Jednostka decyzyjna:

103000 - Wydział Elektroniki i Technik Informacyjnych

Kod wydziałowy:

MADAN

Numer wersji:

1

Skrócony opis:

Przedmiot zawiera treści związane inteligentnymi metodami analizy danych pozyskiwanych i przechowywanych w systemach Internetu Rzeczy. Założono, że główną lokalizacją składowania danych jest serwer, do którego poszczególne węzły przesyłają informacje pomiarowe. Z tego powodu główny nacisk kładziony jest na wydajne algorytmy analizy i przetwarzania takich danych w celach klasyfikacji, predykcji, wykrywania zależności. Zostaną przedstawione podstawowe metody odkrywania wiedzy w danych oraz wykorzystywania jej w procesie podejmowania decyzji. Omówione zostaną najpopularniejsze metody klasyfikacji, regresji. Wykład poświęcony będzie algorytmom dopasowanym do cech o charakterze ciągłym. Zostanie poruszony aspekt przetwarzania danych w systemach o ograniczonych możliwościach obliczeniowych np. mikrokontrolery czy komputery jednopłytkowe.Laboratorium obejmować będzie implementację i testowanie wybranych algorytmów z wykorzystaniem dostępnych bibliotek w języku programowania wysokiego poziomu.

Pełny opis:


Treść wykładu

  1. Wprowadzenie (4 godz.) – charakterystyka zbiorów danych pozyskiwanych w wyniku działania Internetu Rzeczy. Cele analizy danych: klasyfikacja, regresja, optymalizacja, predykcja. Podstawowe dziedziny sztucznej inteligencji wykorzystywane do analizy danych: systemy ekspertowe, uczenie maszynowe, metody heurystyczne.
  2. Systemy ekspertowe (2 godz.) – struktura systemu oraz wykorzystanie przezeń wiedzy. Metody reprezentacji wiedzy (numeryczne – sztuczna sieć neuronowa, regułowe, statystyczne – Naiwny Klasyfikator Bayesa itp.). Metody dedukcyjnego podejmowania decyzji. Działanie algorytmów indywidualnie i w komitetach (fuzja klasyfikatorów i maszyn regresyjnych). Zdolność do objaśniania procesu wnioskowania.
  3. Metody wstępnego przetwarzania danych (4 godz.) – uzupełnianie brakujących danych, wyszukiwanie nadmiarowości (obliczanie pojemności informacyjnej i zależności metodami korelacyjnymi), metody dyskretyzacji atrybutów.
  4. Klasyfikacja wzorców (4 godz.) – podstawowe metody: drzewa decyzyjne, systemy regułowe, logika rozmyta, sztuczne sieci neuronowe, maszyny wektorów nośnych SVC.
  5. Zadanie regresji (2 godz.) – podstawowe metody: regresja liniowa, drzewa regresyjne, sztuczne sieci neuronowe (perceptrony wielowarstwowe, sieci RBF, maszyny wektorów nośnych SVR).
  6. Podstawy uczenia maszynowego (4 godz.) – cele procesu i podstawowe rodzaje (z nadzorem, bez nadzoru, ze wzmocnieniem). Podstawowe algorytmy uczenia z nadzorem (indukcja drzew decyzyjnych, uczenie sztucznych sieci neuronowych, generacja prawdopodobieństw dla Naiwnego Klasyfikatora Bayesa).
  7. Uczenie bez nadzoru (4 godz.) – podstawowe algorytmy grupowania pojęciowego: grupowanie hierarchiczne, metody k-średnich, sztuczne sieci neuronowe typu SOM (uczenie konkurencyjne). Metody oceny jakości grupowania (indeksy, czystość grup itp.).
  8. Metody optymalizacji (6 godz.) – podstawowe algorytmy optymalizacji dyskretnej i ciągłej. Metody heurystyczne: metoda grid search i Monte Carlo, algorytmy gradientowe, symulowane wyżarzanie, przeszukiwanie z tabu, algorytmy ewolucyjne.



Treść ćwiczeń


Podstawy matematyczne i statystyczne dla systemów przetwarzania danych. Przedstawiane zagadnienia obejmować będą:

  • Cele analizy statystycznej.
  • Rozkłady zmiennych losowych.
  • Miary statystyczne oraz ich wykorzystanie do oceny dostępnych danych (dominanta, mediana, średnie, wariancja itp.).
  • Metody estymacji parametrów.
  • Weryfikacja hipotez statystycznych.
  • Propagację błędów.



Zakres laboratorium


Laboratorium będzie polegać na implementacji kolejnych algorytmów analizy danych i testowaniu ich właściwości pod opieką prowadzącego. Kolejne laboratoria będą obejmować poszczególne algorytmy klasyfikacji, regresji, predykcji, optymalizacji, m.in. sztuczne sieci neuronowe, drzewa decyzyjne, lasy losowe, algorytmy ewolucyjne, metody grupowania k-średnich i in. Laboratorium obejmować będzie również metody organizacji danych i wstępnego przetwarzania, np. za pomocą biblioteki numpy.

Literatura:

  • Z. Michalewicz, D.B. Fogel, „Jak to rozwiązać, czyli nowoczesna heurystyka”, WNT, Warszawa, 2006.
  • S. Osowski, „Sieci neuronowe do przetwarzania informacji”, Oficyna Wydawnicza Politechniki Warszawskiej, Warszawa, 2006.
  • P. Cichosz, „Systemy uczące się, ” WNT, Warszawa, 2000.
  • W. Klonecki, Statystyka dla inżynierów, PWN, Warszawa 1999.

Zajęcia w cyklu "rok akademicki 2023/2024 - sem. letni" (w trakcie)

Okres: 2024-02-19 - 2024-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Ćwiczenia, 20 godzin, 30 miejsc więcej informacji
Laboratorium, 30 godzin, 30 miejsc więcej informacji
Wykład, 30 godzin, 30 miejsc więcej informacji
Koordynatorzy: Piotr Bilski
Prowadzący grup: Piotr Bilski, Karol Kuczyński
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103400 - Instytut Radioelektroniki i Technik Multimedialnych

Zajęcia w cyklu "rok akademicki 2022/2023 - sem. letni" (zakończony)

Okres: 2023-02-20 - 2023-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Ćwiczenia, 20 godzin, 30 miejsc więcej informacji
Laboratorium, 30 godzin, 30 miejsc więcej informacji
Wykład, 30 godzin, 30 miejsc więcej informacji
Koordynatorzy: Piotr Bilski
Prowadzący grup: Piotr Bilski, Karol Kuczyński
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103400 - Instytut Radioelektroniki i Technik Multimedialnych

Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Politechnika Warszawska.
pl. Politechniki 1, 00-661 Warszawa tel: (22) 234 7211 https://pw.edu.pl kontakt deklaracja dostępności USOSweb 7.0.0.0-7 (2024-03-18)