Politechnika Warszawska - Centralny System UwierzytelnianiaNie jesteś zalogowany | zaloguj się
katalog przedmiotów - pomoc

Image and Speech Recognition

Informacje ogólne

Kod przedmiotu: 1120-INSZI-MSA-0113 Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Image and Speech Recognition
Jednostka: Wydział Matematyki i Nauk Informacyjnych
Grupy: Computer Science and Information Systems, Artificial Intelligence, 1st sem. of 3 (winter edition)
Computer Science and Information Systems, Artificial Intelligence, 2nd sem. of 3 (summer edition)
Computer Science and Information Systems, Artificial Intelligence, 3rd sem. of 4 (winter edition)
Strona przedmiotu: http://www.ia.pw.edu.pl/~wkasprza/MISR.html
Punkty ECTS i inne: 5.00
Język prowadzenia: angielski
Skrócony opis:

Structure

The course consists of lecture, exercises and project parts. Tle lecture material is accompanied by computational tasks, solved during exercises, illustrating particular presented algorithms and methods. A project means the design and implementation of a program.

Course objectives

To study basic methods and algorithms in digital image- and speech-analysis. After completing this course students will be able to design

image and speech analysis programs dealing with pattern (image or speech) processing, pattern segmentation and object (or spoken word) recognition.

Prerequisities

Students are expected to have the following background:

  • Knowledge of basic computer science principles and skills, at a level sufficient to write a reasonably non-trivial computer program, preferably in one of the languages: C/C++, Java, C# or Pascal.

  • Familiarity with the basic mathematical analysis, linear algebra and probability theory.

Pełny opis:

In the first part elements of the pattern recognition theory are introduced. Among them are: basic feature space transformations PCA, LDA and ICA, pattern clustering approaches (k-means, X-means, EM) and various classifier types (potential function based, SVM, the Bayes classifier, k-NN, MLP, mixture of experts and boosting).

The image analysis part covers low-level processing, segmentation and object recognition problems. The topics of low-level processing include:

viewing geometry, camera calibration, color spaces and image compression, image binarization, normalization and filtering. Among image segmentation methods we introduce algorithms for edge following and line segment detection, Hough transforms, homogeneous

region detection, texture- and shape description. Approaches to model-based object recognition are shown: dynamic programming search,

heuristic matching strategies, graph search and MAP estimation.

The area of speech recognition starts with basic signal processing in the time and frequency domain (speech source detection, basic frequency estimation, noise elimination, windowed Fourier transform, FFT). Then basic feature detection approaches are presented, leading to the MFCC and LPC-based features. We illustrate the phonetic model of speech by spectrograms for different phoneme types and we also introduce the tri-phone model. The spoken word and sentence recognition problems are solved by the use of Hidden Markow Models for word modeling with the Baum-Welch training and Viterbi search methods, as well as N-grams used for language modelling.

Literatura:

Basic

[1] W. Kasprzak: Image and Speech Recognition. Lecture notes, Warsaw University of Technology, 2011-2015.

Extended

[2] R. Duda, P. Hart, D. Stork: Pattern Classification. 2nd edition, John Wiley, 2001.

[3] I. Pitas. Digital Image Processing Algorithms and Applications. John Wiley, New York, 2000.

[4] L. R. Rabiner and R. W. Schafer, Theory and

Applications of Digital Speech Processing, Prentice-

Hall Inc., 2011

[5] J. Benesty, M.M. Sondhi, Y. Huang (eds): Handbook of Speech Processing. Springer, Berlin Heidelberg, 2008.

[6] The OpenCV Reference Manual. Release 2.4.9.0 (or higher). 2014 (or later), http://opencv.org/

[7] Kaldi speech recognition project. http://kaldi-asr.org/

Efekty uczenia się:

After completing this course students will be able to design

image and speech analysis programs dealing with pattern (image or speech) processing, pattern segmentation and object (or spoken word) recognition.

Metody i kryteria oceniania:

Students are collecting assessment points. They come from a continuous assessment in the semester time:

The assessment method of this course consists of:

  • two written tests (midterm and final) both for 0-30 pts.;

  • a homework (project), evaluated in the project part (up to 40 pts.).

In addition to satisfying the above assessment requirements, every student must satisfy the attendance requirements.

There is an obligatory attendance of exercises and an optional attendance of the lecture.

The Pass mark for this course will be set at 51 pts.

Credits will be awarded to candidates who pass this course.

Praktyki zawodowe:

The goal of each project work, is to design a particular pattern analysis system and to implement it as a program application in a programming language (C++, Java, Matlab, C# are prefered). The pattern analysis system performs an image or speech recognition task.

Suitable implementation tools - libraries with open sources:

  1. openCV - Efficient library containing diverse image processing and analysis algorithms in C++.
  2. DisCODe - Distributed Component Oriented Data Processing – a C++ framework facilitating the development of data (image, speech) processing algorithms.
  3. MARF - The Modular Audio Recognition Framework (written In JAVA).
  4. Sphinx-4 - A speech recognizer written entirely in the Java programming language.

Zajęcia w cyklu "rok akademicki 2020/2021 - sem. zimowy" (jeszcze nie rozpoczęty)

Okres: 2020-10-01 - 2021-02-21
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Włodzimierz Kasprzak, Artur Wilkowski
Prowadzący grup: (brak danych)
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2019/2020 - sem. zimowy" (zakończony)

Okres: 2019-10-01 - 2020-02-21
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Włodzimierz Kasprzak, Artur Wilkowski
Prowadzący grup: Włodzimierz Kasprzak, Maciej Stefańczyk, Artur Wilkowski
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2018/2019 - sem. zimowy" (zakończony)

Okres: 2018-10-01 - 2019-02-17
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Włodzimierz Kasprzak
Prowadzący grup: Włodzimierz Kasprzak
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2017/2018 - sem. zimowy" (zakończony)

Okres: 2017-10-01 - 2018-02-18
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Włodzimierz Kasprzak
Prowadzący grup: Włodzimierz Kasprzak
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Ocena łączna
Ćwiczenia - Zaliczenie
Laboratorium - Zaliczenie
Wykład - Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2016/2017 - sem. zimowy" (zakończony)

Okres: 2016-10-01 - 2017-02-19
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Włodzimierz Kasprzak
Prowadzący grup: Włodzimierz Kasprzak
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Ćwiczenia - Zaliczenie
Laboratorium - Zaliczenie
Wykład - Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2015/2016 - sem. zimowy" (zakończony)

Okres: 2015-10-01 - 2016-02-22
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Włodzimierz Kasprzak
Prowadzący grup: Włodzimierz Kasprzak
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Ćwiczenia - Zaliczenie
Laboratorium - Zaliczenie
Wykład - Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2014/2015 - sem. zimowy" (zakończony)

Okres: 2014-09-29 - 2015-02-22
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Włodzimierz Kasprzak
Prowadzący grup: Włodzimierz Kasprzak
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Ćwiczenia - Zaliczenie
Laboratorium - Zaliczenie
Wykład - Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2013/2014 - sem. zimowy" (zakończony)

Okres: 2013-10-01 - 2014-02-23
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Włodzimierz Kasprzak
Prowadzący grup: Włodzimierz Kasprzak
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Ćwiczenia - Zaliczenie
Laboratorium - Zaliczenie
Wykład - Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Politechnika Warszawska.