Politechnika Warszawska - Centralny System Uwierzytelniania
Strona główna

Rozpoznawanie obrazów i sygnałów mowy

Informacje ogólne

Kod przedmiotu: 103A-INSID-MSP-ROSM
Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Rozpoznawanie obrazów i sygnałów mowy
Jednostka: Wydział Elektroniki i Technik Informacyjnych
Grupy: ( Przedmioty techniczne )---EITI
( Przedmioty zaawansowane )-Systemy informacyjno-decyzyjne-mgr.-EITI
( Przedmioty zaawansowane obieralne )-Automatyka i robotyka-mgr.-EITI
( Przedmioty zaawansowane techniczne )--mgr.-EITI
Punkty ECTS i inne: 4.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
 • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
 • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
 • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
 • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
 • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.
Język prowadzenia: polski
Jednostka decyzyjna:

103000 - Wydział Elektroniki i Technik Informacyjnych

Kod wydziałowy:

ROSM

Numer wersji:

1

Skrócony opis:

Celem przedmiotu jest zapoznanie z podstawowymi pojęciami teorii rozpoznawania wzorców oraz podstawowymi metodami komputerowego rozpoznawania obrazów cyfrowych i sygnałów mowy. W szczególności w zakresie rozpoznawania obrazów omawiane są zagadnienia: segmentacji i klasyfikacji obrazów, rozpoznawania obiektów i detekcji ruchu w sekwencji obrazów. W zakresie rozpoznawania mowy prezentowane są zagadnienia: reprezentacji cyfrowego sygnału, segmentacji sygnału, klasyfikacji w terminach fonemów i rozpoznawania słów. W ramach projektu wymagana jest programowa realizacja wybranego zadania, dotyczącego rozpoznawania obrazów lub rozpoznawania mowy.

Pełny opis:

Celem przedmiotu jest zapoznanie z podstawowymi pojęciami teorii rozpoznawania wzorców oraz podstawowymi metodami komputerowego rozpoznawania obrazów cyfrowych i sygnałów mowy. W szczególności w zakresie rozpoznawania obrazów omawiane są zagadnienia: segmentacji i klasyfikacji obrazów, rozpoznawania obiektów i detekcji ruchu w sekwencji obrazów. W zakresie rozpoznawania mowy prezentowane są zagadnienia: reprezentacji cyfrowego sygnału, segmentacji sygnału, klasyfikacji w terminach fonemów i rozpoznawania słów. W ramach projektu wymagana jest programowa realizacja wybranego zadania, dotyczącego rozpoznawania obrazów lub rozpoznawania mowy.


Treść wykładu

 1. Wprowadzenie do rozpoznawania obrazów i teorii rozpoznawania wzorców (3h)

 2. Segmentacja obrazu i detekcja cech (5h)

 3. Klasyfikacja cech obrazu i sygnału mowy (4h)

 4. Rozpoznawanie złożonego obiektu (3h)

 5. Detekcja i estymacja ruchu w sekwencji obrazów (2h)

 6. Struktura systemu rozpoznawania mowy (1h)

 7. Cyfrowa reprezentacja mowy i obrazów (2h)

 8. Detekcja cech i klasyfikacja segmentów sygnału mowy (4h)

 9. Akustyczno-fonetyczne modelowanie słów (4h)

 10. Rozpoznawanie słów (2h) 11. Zakres projektu
  • Detekcja i lokalizacja 2-D konturu.

  • Detekcja obszarów jednorodnych i estymacja ruchu w sekwencji obrazów.

  • Estymacja parametrycznego modelu 3-W obiektu.

  • Rozpoznawanie liczb mówionych w oparciu o model Markowa dla słów.

  • Rozpoznawanie pojedynczych słów mówionych w oparciu o klasyfikację ich spektrogramów.Przedmioty podobne
Kod przedmiotuNazwa przedmiotuDyskonto ECTS
103A-CTCSN-MSA-EIASRImage and Speech Recognition4

Literatura:

  Podstawowa:

  1. W. Kasprzak: Rozpoznawanie obrazów i sygnałów mowy. Warszawa, 2001, 164 strony. (Skrypt do wykładu w wersji elektronicznej).

  2. W. Kasprzak: Rozpoznawanie obrazów i sygnałów mowy. Zadania do wykładu. Warszawa, 2001, 11 stron. (Dostępne w wersji elektronicznej).

  Literatura uzupełniająca:
  1. R. Tadeusiewicz, P. Korohoda: Komputerowa analiza i przetwarzanie obrazów, Kraków, Wyd. Fundacji Postępu Telekomunikacji, 1997.
  2. H. Niemann: Pattern Analysis and Understanding, Springer, Berlin, 1990.
  3. L. Rabiner, B.-H. Juang: Fundamentals of speech recognition. Prentice Hall, New York, 1993.
  4. - The CSLU Speech Toolkit. Oregon Graduate Institute, 2000.

Zajęcia w cyklu "rok akademicki 2017/2018 - sem. zimowy" (zakończony)

Okres: 2017-10-01 - 2018-02-18
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć:
Projekt, 15 godzin, 30 miejsc więcej informacji
Wykład, 30 godzin, 30 miejsc więcej informacji
Koordynatorzy: Włodzimierz Kasprzak
Prowadzący grup: (brak danych)
Lista studentów: (nie masz dostępu)
Zaliczenie: Egzamin
Jednostka realizująca:

103100 - Instytut Automatyki i Informatyki Stosowanej

Zajęcia w cyklu "rok akademicki 2012/2013 - sem. zimowy" (zakończony)

Okres: 2012-10-01 - 2013-02-19
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć:
Projekt, 15 godzin, 52 miejsc więcej informacji
Wykład, 30 godzin, 52 miejsc więcej informacji
Koordynatorzy: Włodzimierz Kasprzak
Prowadzący grup: Włodzimierz Kasprzak
Lista studentów: (nie masz dostępu)
Zaliczenie: Egzamin
Jednostka realizująca:

103100 - Instytut Automatyki i Informatyki Stosowanej

Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Politechnika Warszawska.
pl. Politechniki 1, 00-661 Warszawa tel: (22) 234 7211 https://pw.edu.pl kontakt deklaracja dostępności USOSweb 6.8.0.0-8 (2022-12-14)