Politechnika Warszawska - Centralny System Uwierzytelniania
Strona główna

Analiza semantyczna obrazu i dźwięku

Informacje ogólne

Kod przedmiotu: 103A-ELxxx-MSP-ASOD
Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Analiza semantyczna obrazu i dźwięku
Jednostka: Wydział Elektroniki i Technik Informacyjnych
Grupy: ( Przedmioty techniczne )---EITI
( Przedmioty zaawansowane obieralne )-Radiokomunikacja i techniki multimedialne-mgr.-EITI
( Przedmioty zaawansowane techniczne )--mgr.-EITI
Punkty ECTS i inne: 4.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.
Język prowadzenia: polski
Jednostka decyzyjna:

103000 - Wydział Elektroniki i Technik Informacyjnych

Kod wydziałowy:

ASOD

Numer wersji:

1

Skrócony opis:

  • Dyskusja klasycznych metod analizy semantycznej obrazu i dźwieku (analiza kształtu, transformacje Hougha, metoda największej wiarygodności).

  • Zaznajomienie słuchaczy z metodologią inwariantnych punktów referencyjnych, stosowaną do reprezentacji obiektów ze zioru uczącego i następniedo klasyfikacji nowych obiektów. W szczegolności podejście obejmuje:
  • - metodę podprzestrzeni głównej,
    - Metode operatora fraktalnego,
    - klasyfikator k-NN.
  • Pokazanie skuteczności wprowadzonych metod w rozwiazywaniu praktycznych problemów automatycznego modelowania (np.: fontów i sygnałów fraktalnych) i rozpoznawania (np.: kodu pocztowego, zdjęć twarzy, poleceń dla komputera wydawanych głosem).

Pełny opis:

  • Dyskusja klasycznych metod analizy semantycznej obrazu i dźwieku (analiza kształtu, transformacje Hougha, metoda największej wiarygodności).

  • Zaznajomienie słuchaczy z metodologią inwariantnych punktów referencyjnych, stosowaną do reprezentacji obiektów ze zioru uczącego i następniedo klasyfikacji nowych obiektów. W szczegolności podejście obejmuje:
  • - metodę podprzestrzeni głównej,
    - Metode operatora fraktalnego,
    - klasyfikator k-NN.
  • Pokazanie skuteczności wprowadzonych metod w rozwiazywaniu praktycznych problemów automatycznego modelowania (np.: fontów i sygnałów fraktalnych) i rozpoznawania (np.: kodu pocztowego, zdjęć twarzy, poleceń dla komputera wydawanych głosem).



  • Treść wykładu
    1. Wprowadzenie (1h).
      • Sygnał 1W i 2W, dyskretyzacja w czasie i przestrzeni, kwantyzacja
      • Ilustracja toru analizy sygnału na przykładzie rozpoznawania cyfr (aktywizacja sygnału, przetwarzanie wstepne, segmentacja, ekstrakcja cech, klasyfikacja, przetwarzanie danych klasyfikacyjnych).
    2. Analiza kształtu (3h).:
      • cechy geometryczne (obwód powierzchnia, liczba Eulera, krzywizna, symetria),
      • cechy momentowe (centroid, osie bezwładności, opasujacy prostokat i elipsa),
      • operatory morfologiczne (erozja, dylatacja, h-min, h-max);
    3. Zastosowania reprezentacji sygnału w dziedzinie częstości (4h).
      • reprezentacja Fouriera dla konturu a klasyfikacja liter,
      • Gęstość mocy spektrum dla głosu a rozpoznawanie poleceń wydawanych głosem,
      • transformata DCT i jej rola w ekstrakcji cech z obrazu i dźwięku;
    4. Transformacje Hougha (4h):
      • bazowy algorytm Hougha, detekcja linii,dwystopniowy algorytm Hougha i jego optymalizacja,
      • algorytm Hougha z informacją gradientową, zastosowanie do lokalizacji twarzy w obrazie,
      • metoda Ballarda detekcji dowolnych kszałtów;
    5. Elementy statystycznej teorii rozpoznawania (2h).
      • fukcja decyzyjna, obszar decyzyjny,
      • metoda największej wiaryrygodności,
      • wielowymiarowy rozkład Gaussa, funkcja decyzyjna w oparciu o odległość Mahalanobisa, estymacja odległości Mahalanobisa;
    6. Metoda inwariantnych punktów referencyjnych (2h):
      • zbiór uczący, reprezentacja przy pomocy inwariantnych punktów referencyjnych (IPR),
      • funkcje decyzyjne w oparciu o zniekształcenie wprowadzone przez operator inwariantny,
      • klasyfikacja obiektu i sekwencji obiektów z tej samej klasy,
      • zagadnienia syntezy reprezentacji IPR, klasyfikator K-NN;
    7. Algorytmy klasteryzacji danych (2h):
      • algorytm centroidów (LGB), jego analiza i postać neuronowa,
      • metoda ewolucyjna VQ,
      • .
      • algorytm neuronowy LVQ;
    8. Metoda lokalnych podprzestrzeni głównych LPCA (6h):
      • Klasyczna analiza składowych głównych (PCA),
      • algorytm neuronowy Oja-RLS (analiza zbieżności),
      • architektury GHA oraz APEX
      • lokalne podprzestrzenie własne i algorytm LPCA,
      • zastosowanie do rozpoznawania cyfr pisanych ręcznie(baza NIST)
    9. Metoda operatora fraktalnego (4h):
      • interacyjny system funkcji IFS a obrazy fraktalne,
      • twierdzenie o kolażu,
      • definicja operatora fraktalnego dla sygnału 1W oraz 2W,
      • algorytm Jacquina syntezy operatora fraktalnego,
      • przyspieszenie algorytmu syntezy, związek z wektorami ruchu w MPEG,
      • zastosowania do reprezentacji płaskich kształtów i identyfikacji twarzy;
    10. Wyszukiwanie obiektów multimedialnych (2h):
      • zagadnienie indeksacji obrazów i dźwięków zgromadzonych w bazie multimedialnej,
      • technika histogramu i tekstury,
      • kompresja zachowująca semantykę obrazu i dźwięku na przykładzie systemu Photobook


      Zakres laboratorium
      1. Aktywizacja obrazów cyfrowych (1h).
      2. Aktywizacja dźwięków (1h).
      3. Realizacja algorytmu generowania konturów oraz reprezentacja Fouriera konturu (1+3h).
      4. Odtwarzanie dźwięku i konturów na podstawie momentów (3h).
      5. Detekcja nachylenia strony tekstowej metodą transformaty Hougha (3h).
      6. Rozróżnienie poleceń głosowych metodą odległościową (3h).

Literatura:

    1. A.J. Jain: Fundamentals of digital image processing, Prentice-Hall, 1995
    2. C. Bishop: Neural networks for recognition, Clarendon Press, 1995
    3. A. Pandya, R. Macy: Pattern recognition with neural networks in C++, CRC Press, 1996

Zajęcia w cyklu "rok akademicki 2019/2020 - sem. letni" (zakończony)

Okres: 2020-02-22 - 2020-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 15 godzin, 40 miejsc więcej informacji
Wykład, 30 godzin, 40 miejsc więcej informacji
Koordynatorzy: Jacek Naruniec
Prowadzący grup: Jacek Naruniec
Lista studentów: (nie masz dostępu)
Zaliczenie: Egzamin
Jednostka realizująca:

103400 - Instytut Radioelektroniki i Technik Multimedialnych

Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Politechnika Warszawska.
pl. Politechniki 1, 00-661 Warszawa tel: (22) 234 7211 https://pw.edu.pl kontakt deklaracja dostępności USOSweb 7.0.0.0-7 (2024-03-18)