Politechnika Warszawska - Centralny System Uwierzytelniania
Strona główna

Adaptive Image Recognition

Informacje ogólne

Kod przedmiotu: 103A-TCTCM-MSA-EADIR
Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Adaptive Image Recognition
Jednostka: Wydział Elektroniki i Technik Informacyjnych
Grupy: ( Courses in English )--eng.-EITI
( Przedmioty techniczne )---EITI
( Przedmioty zaawansowane obieralne )-Radiokomunikacja i techniki multimedialne-mgr.-EITI
( Przedmioty zaawansowane techniczne )--mgr.-EITI
( Technical Courses )--eng.-EITI
( Telecommunications - Advanced )-Telecommunications-M.Sc.-EITI
Punkty ECTS i inne: 6.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.
Język prowadzenia: angielski
Jednostka decyzyjna:

103000 - Wydział Elektroniki i Technik Informacyjnych

Kod wydziałowy:

EADIR

Numer wersji:

1

Skrócony opis:

Przedmiot dotyczy programowania modułów rozpoznawania obrazów cyfrowych ze szczególnym uwzględnieniem głębokich sieci neuronowych i tych metod wizji komputerowej, które nadal wykazują przewagę. Wykład obejmuje transformacje tensorowe, podstawowe architektury sieci neuronowe, techniki optymalizacji, modele probabilistyczne w klasyfikacji, zagadnienia detekcji, lokalizacji, rozpoznawania i indeksowania obiektów (w tym znaczniki twarzy, orientacja głowy i sylwetki oraz ekspresja twarzy) oraz filtracji (w tym zmianę rozdzielczości obrazu, rektyfikację obrazu oraz ulepszanie sygnału mowy w dziedzinie spektrogramu). Zajęcia projektowe poza opisem dwóch projektów stanowią wprowadzenie narzędzi programistycznych. Studenci pracując w środowisku Google Colab doskonalą swoje umiejętności programowania sieci neuronowych na platformach Pythona. Dwie prace domowe zadane pogłębią znajomość narzędzi, które student wykorzysta w swoich projektach, a dwa testy pokryją materiał omawiany na wykładzie.

Pełny opis: (tylko po angielsku)

Lectures (30h):

  1. Introduction (2h): tasks and modules in image recognition systems, basic performance measures, generic applications (localization, recognition, verification, indexing).
  2. Basic concepts of learned models (2h): regression vs. classification, Bayesian model, support vector machine (SVM), deep neural network (DNN).
  3. Foundations of deep neural networks (2h): tensor, basic tensor processing units, convolutional neural networks (CNN), symbolic tensor neural networks (STNN), CNN vs. recurrent neural networks (RNN) vs. reinforcement learning.
  4. Linear transformation models (3h): orthogonal transformations, Cayley representation, matrix decompositions (Cholesky, EVD, SVD), general Procrustes theorem, harmonic transformations(DFT, FFT, STFT).
  5. Linear and nonlinear transformation models via neural networks (2h): tensor batch and instance normalizations, nonlinear activations, affine transformations on tensors, affine convolutions and transposed convolutions, tensor subsampling and up-sampling, sequential, parallel and dense connections, transformers, analysis and synthesis schemes.
  6. Optimization methods (3h): quadratic forms and their ratios optimization, least square linear problem, iterative scheme of nonlinear optimization, classical gradient method, computing gradient of error function for each tensor in DNN, stochastic gradient method (momentum and exponential weighting of instant gradients), Newtona and Gaussa-Newton methods, Levenberg-Marquardt method.
  7. Probabilistic models (4h): covariance models (PCA, KLT, ZCA), elements of statistical decision theory, scatter and variance measures for data, measures for data discrimination and divergence (Fisher LDA and PLDA class separation, Kullback-Leibler divergence of probability distributions).
  8. Object recognition from images (4h): object detection and localization, face recognition, speaker verification via spectrograms, human emotions multimodal classification from digital movie
  9. Image indexing (2h): deep features as image descriptors, segmentation with annotation, image and video summarization.
  10. Models in 3D space for human-computer interfacing (3h): facial landmarks detection, Candide-3 model of human head, head pose detection, detection and tracking of human body in video.
  11. Signal filtering (3h): image subsampling and up-sampling, image rectification, color and style transfer, speech enhancement via spectrogram processing.



Projects (30h)

  1. Tensor processing with Python and NumPy using Colab (2h).
  2. Handling images in NumPy, Scipy, and Matplotlib using Colab (2h): Homework A.
  3. Linear transformations in NumPy and Scipy using Colab (1h).
  4. Consulting Homework A (1h).
  5. Gaussian clouds with NumPy and Matplotlib using Colab (2h): Homework B.
  6. Datasets handling and augmentation in PyTorch (1h): Project A using Colab.
  7. Consulting Homework B (1h).
  8. Building DNN models for image classifiers using Colab(3h): training and testing loops with Keras and Pytorch.
  9. Consulting Project A (1)
  10. Test A (1h)
  11. Classical optimization techniques with NumPy and Scipy using Colab (1h).
  12. Face recognition and indexing using DNN models (2h): Project B using Colab.
  13. Consulting projects A and B (6h).
  14. Test B (1h)
  15. Projects accepting (1h)
  16. Tests A and B make-ups (2h)
  17. Projects accepting (2h)
Literatura: (tylko po angielsku)

  1. Bishop C. M.: Pattern Recognition and Machine Learning, Springer, 2006
  2. Goodfellow I., Bengio Y., Courville A.: Deep Learning, MIT Press, 2016, (http://www.deeplearningbook.org/)
  3. Umberto Michelucci - Advanced Applied Deep Learning: Convolutional Neural Networks and Object Detection, Springer APress, 2019 (available if you access in the University local network).
  4. Władysław Skarbek: „Symbolic tensor neural networks for digital media - from tensor processing via BNF graph rules to CREAMS applications”, (https://arxiv.org/pdf/1809.06582.pdf).
  5. Xin Chang, Władysław Skarbek: „Multi-Modal Residual Perceptron Network for Audio–Video Emotion Recognition”, (https://www.mdpi.com/1424-8220/21/16/5452)
  6. Władysław Skarbek: „Adaptive Image Recognition - Updated Notes on: Math, Algorithms, and Programming” (mteams/…/air-notes-student.pdf)


  1. Colab notebooks - a tutorial - https://colab.research.google.com/notebooks/intro.ipynb
  2. Python tutorials - https://www.learnpython.org/en/
  3. Pytorch tutorials - https://pytorch.org/tutorials/

Zajęcia w cyklu "rok akademicki 2023/2024 - sem. letni" (w trakcie)

Okres: 2024-02-19 - 2024-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Projekt, 30 godzin, 40 miejsc więcej informacji
Wykład, 30 godzin, 40 miejsc więcej informacji
Koordynatorzy: Xin Chang, Władysław Skarbek
Prowadzący grup: Xin Chang, Władysław Skarbek
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103400 - Instytut Radioelektroniki i Technik Multimedialnych

Zajęcia w cyklu "rok akademicki 2022/2023 - sem. letni" (zakończony)

Okres: 2023-02-20 - 2023-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Projekt, 30 godzin, 40 miejsc więcej informacji
Wykład, 30 godzin, 40 miejsc więcej informacji
Koordynatorzy: Xin Chang, Władysław Skarbek
Prowadzący grup: Xin Chang, Władysław Skarbek
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103400 - Instytut Radioelektroniki i Technik Multimedialnych

Zajęcia w cyklu "rok akademicki 2021/2022 - sem. letni" (zakończony)

Okres: 2022-02-23 - 2022-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Projekt, 30 godzin, 40 miejsc więcej informacji
Wykład, 30 godzin, 40 miejsc więcej informacji
Koordynatorzy: Xin Chang, Władysław Skarbek
Prowadzący grup: Xin Chang, Władysław Skarbek
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103400 - Instytut Radioelektroniki i Technik Multimedialnych

Zajęcia w cyklu "rok akademicki 2020/2021 - sem. letni" (zakończony)

Okres: 2021-02-20 - 2021-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Projekt, 30 godzin, 40 miejsc więcej informacji
Wykład, 30 godzin, 40 miejsc więcej informacji
Koordynatorzy: Władysław Skarbek
Prowadzący grup: Władysław Skarbek
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103400 - Instytut Radioelektroniki i Technik Multimedialnych

Zajęcia w cyklu "rok akademicki 2019/2020 - sem. letni" (zakończony)

Okres: 2020-02-22 - 2020-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Projekt, 30 godzin, 40 miejsc więcej informacji
Wykład, 30 godzin, 40 miejsc więcej informacji
Koordynatorzy: Władysław Skarbek
Prowadzący grup: Władysław Skarbek
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103400 - Instytut Radioelektroniki i Technik Multimedialnych

Zajęcia w cyklu "rok akademicki 2018/2019 - sem. letni" (zakończony)

Okres: 2019-02-18 - 2019-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Projekt, 30 godzin, 40 miejsc więcej informacji
Wykład, 30 godzin, 40 miejsc więcej informacji
Koordynatorzy: Władysław Skarbek
Prowadzący grup: Władysław Skarbek
Lista studentów: (nie masz dostępu)
Zaliczenie: Ocena łączna
Jednostka realizująca:

103400 - Instytut Radioelektroniki i Technik Multimedialnych

Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Politechnika Warszawska.
pl. Politechniki 1, 00-661 Warszawa tel: (22) 234 7211 https://pw.edu.pl kontakt deklaracja dostępności USOSweb 7.0.0.0-7 (2024-03-18)