Politechnika Warszawska - Centralny System Uwierzytelniania
Strona główna

Image and Speech Recognition

Informacje ogólne

Kod przedmiotu: 103A-CTCSN-MSA-EIASR
Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Image and Speech Recognition
Jednostka: Wydział Elektroniki i Technik Informacyjnych
Grupy: ( Computer Systems and Networks - Advanced )-Computer Systems and Networks-M.Sc.-EITI
( Courses in English )--eng.-EITI
( Przedmioty techniczne )---EITI
( Przedmioty zaawansowane )-Systemy informacyjno-decyzyjne-mgr.-EITI
( Przedmioty zaawansowane obieralne )-Automatyka i robotyka-mgr.-EITI
( Przedmioty zaawansowane techniczne )--mgr.-EITI
( Technical Courses )--eng.-EITI
Punkty ECTS i inne: 6.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.
Język prowadzenia: angielski
Jednostka decyzyjna:

103000 - Wydział Elektroniki i Technik Informacyjnych

Kod wydziałowy:

EIASR

Numer wersji:

1

Skrócony opis:

Przedmiot obejmuje wykład, ćwiczenia i projekt. Przedstawione będą zarówno klasyczne metody analityczne, oparte o algorytmy rozpoznawania wzorców i transformaty danych sensorycznych, jak i nowoczesne techniki klasyfikacji obrazów i mowy oparte o głębokie sieci neuronowe. W treści wykładu wyróżniono trzy części: (1) uniwersalne metody rozpoznawania wzorców (np. estymatory stanu w oparciu o obserwacje; adaptacyjne transformaty danych PCA, LDA, ICA; algorytmy grupowania; klasyfikatory cech) i uczenia maszynowego (np. podstawowe sieci MLP, CNN, RNN, LSTM; strategie uczenia sieci), (2) klasyczne i neuronowe techniki segmentacji, klasyfikacji i rozpoznawania obiektów w obrazach i (3) klasyczne i neuronowe techniki rozpoznawania mowy i klasyfikacji mówcy. Podczas ćwiczeń metody wprowadzone na wykładzie są wyjaśniane na praktycznych przykładach obliczeń. W ramach projektu studenci realizują program dotyczący wybranego zagadnienia rozpoznawania obrazów lub sygnału mowy.

Pełny opis:

Celem przedmiotu jest zapoznanie z klasycznymi i „neuronowymi” metodami komputerowej analizy obrazów cyfrowych i sygnałów mowy, w szczególności przeznaczonymi do rozpoznawania obiektów w obrazach, rozpoznawania słów mówionych i klasyfikacji mówcy.

Literatura: (tylko po angielsku)

  1. R. Duda, P. Hart, D. Stork: Pattern Classification. 2nd edition, John Wiley & Sons, New York, 2001. (Chapters: 2, 3, 4, 10)
  2. Christopher M. Bishop: Pattern Recognition and Machine Learning. Springer Science-Businessmedia, 2006. (Chapters: 1-5, 9, 12-14)
  3. Charu C. Aggarwal: Neural Networks and Deep Learning. A Textbook. Springer International Publishing, 2018.
  4. R. C. Gonzales, Woods: Digital Image Processing. Prentice Hall, 2008 (3d edition), 2018 (4th edition). (Chapters: 3-6, 9-13)
  5. OpenCV - Open Source Computer Vision library - diverse image processing and analysis algorithms in C++ and Python interface. https://docs.opencv.org/master/
  6. L. R. Rabiner and R. W. Schafer, Introduction to Digital Speech Processing, Foundations and Trends in Signal Processing, 2007 (Sections: 1-6, 9).
  7. Kaldi - speech recognition resources. https://www.kaldi-asr.org/
  8. librosa - audio processing library. https://librosa.org/doc/latest/index.html
  9. T. Amaratunga: Deep Learning on Windows. Building Deep Learning Computer Vision Systems on Microsoft Windows. Springer International Publishing, 2021.
  10. A. Geron: Hands on machine learning with Scikit-Learn, Keras and TensorFlow. 2nd ed.,O'Reilly Media Inc., Sebastopol, CA, 2019.
  11. scikit-learn: Machine Learning in Python. https://scikit-learn.org/stable/index.html
  12. KERAS - the Python Deep Learning library. https://keras.io/
  13. TensorFlow - an open source machine learning library. https://www.tensorflow.org/
Efekty uczenia się: (tylko po angielsku)

Knowledge

  • has extended knowledge in mathematics, related to probability theory and stochastic processes, required for the understanding, description and analysis of pattern recognition systems.
  • has fundamental knowledge about automatic image and speech recognition systems
  • has knowledge about recent trends in the application of image and speech recognition methods.

Skills

  • is able to acquire technical knowledge from literature, program repositories and program documentations;
  • is able to prepare a written report from research and program development activities regarding image and speech recognition methods;
  • is able to use analytic methods, simulation and experiments in order to specify and solve complex engineering tasks and basic research problems
  • is able to identify and specify complex engineering tasks in the ICT domain, including non-typical tasks and their non-technical aspects, especially using techniques of DSP, pattern recognition and machine learning as applied for image and speech recognition.
  • is able to evaluate the usability and performance of methods and tools applied for engineering solutions including the ability to use conceptually new methods to solve nonstandard problems with research elements – both in the domain of automatic image and speech recognition systems,

Social Competence

  • is able creatively to think and to act.

Zajęcia w cyklu "rok akademicki 2023/2024 - sem. zimowy" (zakończony)

Okres: 2023-10-01 - 2024-02-18
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Ćwiczenia, 15 godzin, 45 miejsc więcej informacji
Projekt, 15 godzin, 45 miejsc więcej informacji
Wykład, 30 godzin, 45 miejsc więcej informacji
Koordynatorzy: Włodzimierz Kasprzak
Prowadzący grup: Włodzimierz Kasprzak, Maciej Stefańczyk, Artur Wilkowski
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103100 - Instytut Automatyki i Informatyki Stosowanej

Zajęcia w cyklu "rok akademicki 2022/2023 - sem. zimowy" (zakończony)

Okres: 2022-10-01 - 2023-02-19
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Ćwiczenia, 15 godzin, 45 miejsc więcej informacji
Projekt, 15 godzin, 45 miejsc więcej informacji
Wykład, 30 godzin, 45 miejsc więcej informacji
Koordynatorzy: Włodzimierz Kasprzak, Maciej Stefańczyk
Prowadzący grup: Maciej Stefańczyk, Artur Wilkowski
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103100 - Instytut Automatyki i Informatyki Stosowanej

Zajęcia w cyklu "rok akademicki 2021/2022 - sem. zimowy" (zakończony)

Okres: 2021-10-01 - 2022-02-22
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Ćwiczenia, 15 godzin, 45 miejsc więcej informacji
Projekt, 15 godzin, 45 miejsc więcej informacji
Wykład, 30 godzin, 45 miejsc więcej informacji
Koordynatorzy: Włodzimierz Kasprzak
Prowadzący grup: Maciej Stefańczyk, Artur Wilkowski
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103100 - Instytut Automatyki i Informatyki Stosowanej

Zajęcia w cyklu "rok akademicki 2020/2021 - sem. zimowy" (zakończony)

Okres: 2020-10-01 - 2021-02-19
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Ćwiczenia, 15 godzin, 45 miejsc więcej informacji
Projekt, 15 godzin, 45 miejsc więcej informacji
Wykład, 30 godzin, 45 miejsc więcej informacji
Koordynatorzy: Włodzimierz Kasprzak
Prowadzący grup: Włodzimierz Kasprzak, Maciej Stefańczyk, Artur Wilkowski
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103100 - Instytut Automatyki i Informatyki Stosowanej

Zajęcia w cyklu "rok akademicki 2019/2020 - sem. zimowy" (zakończony)

Okres: 2019-10-01 - 2020-02-21
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Ćwiczenia, 15 godzin, 45 miejsc więcej informacji
Projekt, 15 godzin, 45 miejsc więcej informacji
Wykład, 30 godzin, 45 miejsc więcej informacji
Koordynatorzy: Włodzimierz Kasprzak
Prowadzący grup: Włodzimierz Kasprzak, Maciej Stefańczyk, Artur Wilkowski
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103100 - Instytut Automatyki i Informatyki Stosowanej

Zajęcia w cyklu "rok akademicki 2018/2019 - sem. letni" (zakończony)

Okres: 2019-02-18 - 2019-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Ćwiczenia, 15 godzin, 1 miejsc więcej informacji
Projekt, 15 godzin, 1 miejsc więcej informacji
Wykład, 30 godzin, 1 miejsc więcej informacji
Koordynatorzy: Włodzimierz Kasprzak
Prowadzący grup: (brak danych)
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103100 - Instytut Automatyki i Informatyki Stosowanej

Zajęcia w cyklu "rok akademicki 2018/2019 - sem. zimowy" (zakończony)

Okres: 2018-10-01 - 2019-02-17
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Ćwiczenia, 15 godzin, 45 miejsc więcej informacji
Projekt, 15 godzin, 45 miejsc więcej informacji
Wykład, 30 godzin, 45 miejsc więcej informacji
Koordynatorzy: Włodzimierz Kasprzak
Prowadzący grup: Włodzimierz Kasprzak, Maciej Stefańczyk, Artur Wilkowski
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103100 - Instytut Automatyki i Informatyki Stosowanej

Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Politechnika Warszawska.
pl. Politechniki 1, 00-661 Warszawa tel: (22) 234 7211 https://pw.edu.pl kontakt deklaracja dostępności USOSweb 7.0.0.0-7 (2024-03-18)