Politechnika Warszawska - Centralny System Uwierzytelniania
Strona główna

Rozpoznawanie obrazów i sygnałów mowy

Informacje ogólne

Kod przedmiotu: 103A-INSID-MSP-ROSM
Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Rozpoznawanie obrazów i sygnałów mowy
Jednostka: Wydział Elektroniki i Technik Informacyjnych
Grupy: ( Przedmioty techniczne )---EITI
( Przedmioty zaawansowane )-Systemy informacyjno-decyzyjne-mgr.-EITI
( Przedmioty zaawansowane obieralne )-Automatyka i robotyka-mgr.-EITI
( Przedmioty zaawansowane techniczne )--mgr.-EITI
Punkty ECTS i inne: (brak) Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: polski
Jednostka decyzyjna:

103000 - Wydział Elektroniki i Technik Informacyjnych

Kod wydziałowy:

ROSM

Numer wersji:

1

Skrócony opis:

Celem przedmiotu jest zapoznanie z podstawowymi pojęciami teorii rozpoznawania wzorców oraz podstawowymi metodami komputerowego rozpoznawania obrazów cyfrowych i sygnałów mowy. W szczególności w zakresie rozpoznawania obrazów omawiane są zagadnienia: segmentacji i klasyfikacji obrazów, rozpoznawania obiektów i detekcji ruchu w sekwencji obrazów. W zakresie rozpoznawania mowy prezentowane są zagadnienia: reprezentacji cyfrowego sygnału, segmentacji sygnału, klasyfikacji w terminach fonemów i rozpoznawania słów. W ramach projektu wymagana jest programowa realizacja wybranego zadania, dotyczącego rozpoznawania obrazów lub rozpoznawania mowy.

Pełny opis:

Celem przedmiotu jest zapoznanie z podstawowymi pojęciami teorii rozpoznawania wzorców oraz podstawowymi metodami komputerowego rozpoznawania obrazów cyfrowych i sygnałów mowy. W szczególności w zakresie rozpoznawania obrazów omawiane są zagadnienia: segmentacji i klasyfikacji obrazów, rozpoznawania obiektów i detekcji ruchu w sekwencji obrazów. W zakresie rozpoznawania mowy prezentowane są zagadnienia: reprezentacji cyfrowego sygnału, segmentacji sygnału, klasyfikacji w terminach fonemów i rozpoznawania słów. W ramach projektu wymagana jest programowa realizacja wybranego zadania, dotyczącego rozpoznawania obrazów lub rozpoznawania mowy.


Treść wykładu

  1. Wprowadzenie do rozpoznawania obrazów i teorii rozpoznawania wzorców (3h)

  2. Segmentacja obrazu i detekcja cech (5h)

  3. Klasyfikacja cech obrazu i sygnału mowy (4h)

  4. Rozpoznawanie złożonego obiektu (3h)

  5. Detekcja i estymacja ruchu w sekwencji obrazów (2h)

  6. Struktura systemu rozpoznawania mowy (1h)

  7. Cyfrowa reprezentacja mowy i obrazów (2h)

  8. Detekcja cech i klasyfikacja segmentów sygnału mowy (4h)

  9. Akustyczno-fonetyczne modelowanie słów (4h)

  10. Rozpoznawanie słów (2h)



  11. Zakres projektu
    • Detekcja i lokalizacja 2-D konturu.

    • Detekcja obszarów jednorodnych i estymacja ruchu w sekwencji obrazów.

    • Estymacja parametrycznego modelu 3-W obiektu.

    • Rozpoznawanie liczb mówionych w oparciu o model Markowa dla słów.

    • Rozpoznawanie pojedynczych słów mówionych w oparciu o klasyfikację ich spektrogramów.



Przedmioty podobne
Kod przedmiotuNazwa przedmiotuDyskonto ECTS
103A-CTCSN-MSA-EIASRImage and Speech Recognition4

Literatura:

    Podstawowa:

    1. W. Kasprzak: Rozpoznawanie obrazów i sygnałów mowy. Warszawa, 2001, 164 strony. (Skrypt do wykładu w wersji elektronicznej).

    2. W. Kasprzak: Rozpoznawanie obrazów i sygnałów mowy. Zadania do wykładu. Warszawa, 2001, 11 stron. (Dostępne w wersji elektronicznej).

    Literatura uzupełniająca:
    1. R. Tadeusiewicz, P. Korohoda: Komputerowa analiza i przetwarzanie obrazów, Kraków, Wyd. Fundacji Postępu Telekomunikacji, 1997.
    2. H. Niemann: Pattern Analysis and Understanding, Springer, Berlin, 1990.
    3. L. Rabiner, B.-H. Juang: Fundamentals of speech recognition. Prentice Hall, New York, 1993.
    4. - The CSLU Speech Toolkit. Oregon Graduate Institute, 2000.

Przedmiot nie jest oferowany w żadnym z aktualnych cykli dydaktycznych.
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Politechnika Warszawska.
pl. Politechniki 1, 00-661 Warszawa tel: (22) 234 7211 https://pw.edu.pl kontakt deklaracja dostępności USOSweb 7.0.0.0-7 (2024-03-18)