Politechnika Warszawska - Centralny System Uwierzytelniania
Strona główna

Image and Speech Recognition

Informacje ogólne

Kod przedmiotu: 1120-INSZI-MSA-0113
Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Image and Speech Recognition
Jednostka: Wydział Matematyki i Nauk Informacyjnych
Grupy: Computer Science and Information Systems, Artificial Intelligence, 1st sem. of 3 (winter edition)
Computer Science and Information Systems, Artificial Intelligence, 2nd sem. of 3 (summer edition)
Computer Science and Information Systems, Artificial Intelligence, 3rd sem. of 4 (winter edition)
Computer Science and Information Systems, Artificial Intelligence, 4th sem. of 4 (summer edition)
Punkty ECTS i inne: 5.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.
Język prowadzenia: angielski
Elementy modułu:

Lecture 30 h

Exercises 15 h

Laboratory (project) 15 h

Numer wersji:

3

Skrócony opis:

Structure

The course consists of lecture, exercises and project (lab). The lecture is accompanied by computational tasks, solved during exercises, illustrating particular presented algorithms and methods. A project means the design and implementation of a computer program.

Course objectives

To study basic methods and algorithms in digital image- and speech-analysis. After completing this course students will be able to design

image and speech analysis programs dealing with pattern (image or speech) processing, pattern segmentation and object (or spoken word) recognition.

Prerequisities

  • Knowledge of basic computer science principles and skills, at a level sufficient to write a reasonably non-trivial computer program, preferably in one of the languages: C/C++, Java, C, Python or Matlab.

  • Familiarity with the basic mathematical analysis, linear algebra and probability theory.

Pełny opis:

In the first part elements of the pattern recognition theory are introduced. Among them are: distance metrics, adaptive data transformations - PCA, LDA, ICA, state estimation and regression, pattern clustering and classification (SVM, Bayes, k-NN, MLP, DNN).

The image analysis part covers image processing, image segmentation and object recognition solutions. Deep learning techniques for image analysis are introduced.

The area of speech recognition starts with basic audio signal processing in the time and frequency domain. Standard speech features are introduced (MFCC, LPC, PLP). The phonetic model of speech is explained. Classic and deep learning architectures for speech recognition are discussed.

Literatura:

Basic

[1] W. Kasprzak: Image and Speech Recognition. Lecture notes, Warsaw University of Technology, 2011-2022.

[2] A. Wilkowski: Neural Networks and Machine Learning in image recognition. Lecture notes, WUT, 2022.

Readings

[1] R. Duda, P. Hart, D. Stork: Pattern Classification. 2nd edition, John Wiley, 2001. (Chapters: 2, 3, 4, 10)

[2] Christopher M. Bishop: Pattern Recognition and Machine Learning. Springer Science-Business media, 2006. (Chapters: 1-5, 9, 12-14)

[3] R. C. Gonzales, Woods: Digital Image Processing. Prentice Hall, 2008 (3d edition), 2018 (4th edition). (Chapters: 3-6, 9-13)

[4] L. R. Rabiner and R. W. Schafer: Introduction to Digital Speech Processing.

Foundations and Trends in Signal Processing. NOW - the essence of knowledge, 2007, Boston - Delft. (Chapters 1-6, 9)

[5] U. Kamath, J. Liu, J. Whitaker: Deep Learning for NLP and Speech Recognition. Springer Nature Switzerland AG, 2019 (Chapters 3, 8, 12)

[6] Charu C. Aggarwal: Neural Networks and Deep Learning. A Textbook. Springer International Publishing, 2018

Efekty uczenia się:

After completing this course students will be able to design image and speech analysis programs dealing with pattern (image or speech) processing, pattern segmentation and object (or spoken word) recognition.

Metody i kryteria oceniania:

Students are collecting assessment points. They come from a continuous assessment in the lecture time:

  • two written tests (midterm and final) both for 0-30 pts.;

  • exercise attendance and activity 0-10 pts.;

  • a homework (project), evaluated in the project part (0-30 pts.).

There is an obligatory attendance of exercises and an optional attendance of the lecture. The Pass mark for this course will be set at 51 pts.

Credits will be awarded to candidates who pass this course.

Praktyki zawodowe:

The goal of each project work, is to design a particular pattern analysis system and to implement it as a program application in a programming language (C++, Java, Matlab, C#, Python are prefered). The pattern analysis system performs an image or speech recognition task.

Programming tools

[1] Open Source Computer Vision library - diverse image processing and analysis algorithms in C++ and Python interface. https://docs.opencv.org/master/

[2] Aurelien Geron: Hands on machine learning with Scikit-Learn, Keras and TensorFlow. 2nd ed., O'Reilly Media Inc., Sebastopol, CA, 2019.

[3] MATLAB: Image Processing Toolbox, Computer Vision Toolbox.

[4] Librosa. Audio and music processing in Python. https://librosa.org/

[5] HTK speech recognition toolkit. https://htk.eng.cam.ac.uk/

Zajęcia w cyklu "rok akademicki 2023/2024 - sem. zimowy" (jeszcze nie rozpoczęty)

Okres: 2023-10-01 - 2024-02-18
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć:
Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Włodzimierz Kasprzak, Artur Wilkowski
Prowadzący grup: Włodzimierz Kasprzak
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2022/2023 - sem. zimowy" (zakończony)

Okres: 2022-10-01 - 2023-02-19
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć:
Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Włodzimierz Kasprzak, Artur Wilkowski
Prowadzący grup: Włodzimierz Kasprzak, Artur Wilkowski
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2021/2022 - sem. zimowy" (zakończony)

Okres: 2021-10-01 - 2022-02-22
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć:
Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Włodzimierz Kasprzak, Artur Wilkowski
Prowadzący grup: Włodzimierz Kasprzak
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2020/2021 - sem. zimowy" (zakończony)

Okres: 2020-10-01 - 2021-02-19
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć:
Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Włodzimierz Kasprzak, Artur Wilkowski
Prowadzący grup: (brak danych)
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2019/2020 - sem. zimowy" (zakończony)

Okres: 2019-10-01 - 2020-02-21
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć:
Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Włodzimierz Kasprzak, Artur Wilkowski
Prowadzący grup: Włodzimierz Kasprzak, Maciej Stefańczyk, Artur Wilkowski
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2018/2019 - sem. zimowy" (zakończony)

Okres: 2018-10-01 - 2019-02-17
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć:
Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Włodzimierz Kasprzak
Prowadzący grup: Włodzimierz Kasprzak, Maciej Stefańczyk
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2017/2018 - sem. zimowy" (zakończony)

Okres: 2017-10-01 - 2018-02-18
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć:
Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Włodzimierz Kasprzak
Prowadzący grup: Włodzimierz Kasprzak
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Ocena łączna
Ćwiczenia - Zaliczenie
Laboratorium - Zaliczenie
Wykład - Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2016/2017 - sem. zimowy" (zakończony)

Okres: 2016-10-01 - 2017-02-19
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć:
Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Włodzimierz Kasprzak
Prowadzący grup: Włodzimierz Kasprzak
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Ćwiczenia - Zaliczenie
Laboratorium - Zaliczenie
Wykład - Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2015/2016 - sem. zimowy" (zakończony)

Okres: 2015-10-01 - 2016-02-22
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć:
Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Włodzimierz Kasprzak
Prowadzący grup: Włodzimierz Kasprzak
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Ćwiczenia - Zaliczenie
Laboratorium - Zaliczenie
Wykład - Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2014/2015 - sem. zimowy" (zakończony)

Okres: 2014-09-29 - 2015-02-22
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć:
Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Włodzimierz Kasprzak
Prowadzący grup: Włodzimierz Kasprzak
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Ćwiczenia - Zaliczenie
Laboratorium - Zaliczenie
Wykład - Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2013/2014 - sem. zimowy" (zakończony)

Okres: 2013-10-01 - 2014-02-23
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć:
Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Włodzimierz Kasprzak
Prowadzący grup: Włodzimierz Kasprzak
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Ćwiczenia - Zaliczenie
Laboratorium - Zaliczenie
Wykład - Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Politechnika Warszawska.
pl. Politechniki 1, 00-661 Warszawa tel: (22) 234 7211 https://pw.edu.pl kontakt deklaracja dostępności USOSweb 7.0.0.0-2 (2023-09-25)