Politechnika Warszawska - Centralny System Uwierzytelniania
Strona główna

Zaawansowane przetwarzanie danych multimedialnych

Informacje ogólne

Kod przedmiotu: 103A-TLTBM-MSP-ZPDM
Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Zaawansowane przetwarzanie danych multimedialnych
Jednostka: Wydział Elektroniki i Technik Informacyjnych
Grupy: ( Przedmioty techniczne )---EITI
( Przedmioty zaawansowane obowiązkowe )-Techniki bezprzewodowe i multimedialne-mgr.-EITI
( Przedmioty zaawansowane techniczne )--mgr.-EITI
Punkty ECTS i inne: 5.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.
Język prowadzenia: polski
Jednostka decyzyjna:

103000 - Wydział Elektroniki i Technik Informacyjnych

Kod wydziałowy:

ZPDM

Numer wersji:

1

Skrócony opis:

Tematyka przedmiotu obejmuje: ugruntowanie podstaw przetwarzania A/C i C/A, metody czasowo-częstotliwościowe w danych multimedialnych, projektowanie algorytmów przetwarzania sygnałów muzycznych, mowy i obrazu, omówienie zagadnień: syntezy, rozpoznawania i klasyfikacji sygnałów mowy, muzyki i obrazu; redukcji szumów i zniekształceń w sygnałach; lokalizacji i śledzenia źródeł dźwięku i obiektów; zaawansowanych metod analizy czasowo-częstotliwościowej sygnałów; nowoczesnych metod kompresji danych cyfrowych; ekstrakcji cech sygnałów fonicznych. Przedstawione zostaną możliwości wykorzystania uczenia maszynowego w odniesieniu do: rozpoznawania i syntezy mowy, muzyki i obiektów, ekstrakcji cech dźwięku, etykietowania muzyki, lokalizacji źródeł dźwięku i obiektów, redukcji szumów i zniekształceń, wspomagania osób niesłyszących, modelowania toru słuchowego, rozpoznawania dźwięków środowiskowych, automatyzacji procedur przetwarzania sygnałów fonicznych w produkcji dźwięku i dźwięku w filmie.

Pełny opis:

Wykład (30h):

  1. Zagadnienia wstępne (2h):
    • Sygnały oraz systemy foniczne i wizyjne, przetwarzanie analogowo-cyfrowe (próbkowanie, nadpróbkowanie, kwantyzacja, kształtowanie szumu), modulacje cyfrowe, przetworniki foniczne konwencjonalne (PCM) i sigma-delta (SDM).
    • Współczesne systemy przetwarzania danych multimedialnych.
  2. Kompresja, kodowanie i transmisja dźwięku (3h):
    • Algorytmy kompresji stratnej z wykorzystaniem transformacji MDCT, modulacji ADPCM, SBC i innych sygnałów audio.
    • Algorytmy kompresji bezstratnej.
    • Standardy przewodowej i bezprzewodowej transmisji dźwięku.
  3. Filtracja cyfrowa (2h).
    • Filtry o stałej częstotliwości próbkowania.
    • Zespoły filtrów i filtry o zmiennej częstotliwości próbkowania.
    • Filtry adaptacyjne.
  4. Cyfrowe efekty dźwiękowe (4h):
    • Algorytmy przetwarzania dźwięku w dziedzinie amplitudy (procesory dynamiki sygnału, bramki szumów).
    • Algorytmy przetwarzania dźwięku w dziedzinie czasu (echo, opóźnienia, pogłos, flanger, chorus).
    • Algorytmy przetwarzania dźwięku w dziedzinie częstotliwości (korekcja charakterystyk częstotliwościowych, filtracja, redukcja szumów i zniekształceń).
  5. Lokalizacja i śledzenie źródeł dźwięku, detekcja, śledzenie i rozpoznawanie obiektów, metody akwizycji i analizy obrazu (4h).
  6. Algorytmy syntezy i rozpoznawania w przetwarzaniu danych multimedialnych (3h).
  7. Ekstrakcja i analiza cech sygnałów dźwiękowych (2h).
  8. Analiza semantyczna obrazu (2h).
  9. Uczenie maszynowe w przetwarzaniu sygnałów fonicznych, obrazów i sekwencji wizyjnych (8h):
    • Wspomaganie algorytmów ASR, detekcja, klasyfikacja sygnałów dźwiękowych, rozpoznawanie mówców, języka naturalnego, tłumaczenie.
    • Detekcja, analiza, klasyfikacja i rozpoznawanie sygnałów muzycznych oraz środowiskowych.
    • Wspomaganie przetwarzania danych multimedialnych z przetworników analogowo-cyfrowych i wizyjnych w lokalizacji i śledzeniu źródeł dźwięku i obiektów.
    • Detekcja i klasyfikacja obiektów obrazach statycznych i sekwencjach obrazów.


Laboratorium (15h):

Ćwiczenia laboratoryjne są zorganizowane w formie pięciu bloków tematycznych po trzy godziny zajęć i są realizowane w zespołach 2 osobowych w grupach laboratoryjnych 8 osobowych. Treści zadań laboratoryjnych obejmują: (1) kompresję i kodowanie dźwięku oraz implementację algorytmów automatycznego rozpoznawania mowy (ASR), (2) implementację wybranych cyfrowych efektów dźwiękowych, (3) przetwarzanie sygnałów z macierzy mikrofonowych i głośnikowych oraz lokalizację i śledzenie, (4) detekcję i klasyfikację obiektów w sekwencji obrazów oraz (5) ekstrakcję i analizę cech danych multimedialnych. Student zapoznaje się również z technikami projektowania i programowania algorytmów.


Projekt (15h):

Projekt jest definiowany w formie wymagań i parametrów, jakie musi spełniać aplikacja i jest realizowany w grupach projektowych złożonych z 4-6 osób. Grupa projektowa wybiera implementację aplikacji z aktualnej listy projektów lub proponuje własną aplikację do akceptacji prowadzącego zajęcia projektowe. Treści zadań projektowych dotyczą zagadnień uczenia maszynowego w przetwarzaniu sygnałów fonicznych, obrazów i sekwencji wizyjnych.

Literatura:

  1. LERCH, Alexander. An introduction to audio content analysis: Applications in signal processing and music informatics. Wiley-IEEE Press, 2012.
  2. HILL, Paul. Audio and Speech Processing with MATLAB. CRC Press, 2018.
  3. LI, Francis F.; COX, Trevor J. Digital Signal Processing in Audio and Acoustical Engineering. CRC Press, 2019.
  4. ZÖLZER, Udo. Digital audio signal processing. New York: Wiley, 2008.
  5. ZIELIŃSKI, T. P.; KOROHODA, P.; RUMIAN, R. Cyfrowe przetwarzanie sygnałów w telekomunikacji. Wydawnictwo Naukowe PWN, 2014.
  6. DOWNEY, Allen B. Think DSP: digital signal processing in Python. " O'Reilly Media, Inc.", 2016.

Zajęcia w cyklu "rok akademicki 2023/2024 - sem. letni" (w trakcie)

Okres: 2024-02-19 - 2024-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 15 godzin, 32 miejsc więcej informacji
Projekt, 15 godzin, 32 miejsc więcej informacji
Wykład, 30 godzin, 32 miejsc więcej informacji
Koordynatorzy: Piotr Garbat, Marcin Lewandowski
Prowadzący grup: Piotr Garbat, Marcin Lewandowski
Lista studentów: (nie masz dostępu)
Zaliczenie: Egzamin
Jednostka realizująca:

103400 - Instytut Radioelektroniki i Technik Multimedialnych

Zajęcia w cyklu "rok akademicki 2021/2022 - sem. letni" (zakończony)

Okres: 2022-02-23 - 2022-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 15 godzin, 32 miejsc więcej informacji
Projekt, 15 godzin, 32 miejsc więcej informacji
Wykład, 30 godzin, 32 miejsc więcej informacji
Koordynatorzy: Piotr Garbat, Marcin Lewandowski
Prowadzący grup: Piotr Garbat, Marcin Lewandowski
Lista studentów: (nie masz dostępu)
Zaliczenie: Egzamin
Jednostka realizująca:

103400 - Instytut Radioelektroniki i Technik Multimedialnych

Zajęcia w cyklu "rok akademicki 2021/2022 - sem. zimowy" (zakończony)

Okres: 2021-10-01 - 2022-02-22
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 15 godzin, 32 miejsc więcej informacji
Projekt, 15 godzin, 32 miejsc więcej informacji
Wykład, 30 godzin, 32 miejsc więcej informacji
Koordynatorzy: Marcin Lewandowski
Prowadzący grup: Piotr Garbat, Marcin Lewandowski
Lista studentów: (nie masz dostępu)
Zaliczenie: Egzamin
Jednostka realizująca:

103400 - Instytut Radioelektroniki i Technik Multimedialnych

Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Politechnika Warszawska.
pl. Politechniki 1, 00-661 Warszawa tel: (22) 234 7211 https://pw.edu.pl kontakt deklaracja dostępności USOSweb 7.0.0.0-7 (2024-03-18)