Wyszukiwanie informacji muzycznych
Informacje ogólne
Kod przedmiotu: | 103A-INIMU-MSP-WIMU |
Kod Erasmus / ISCED: | (brak danych) / (brak danych) |
Nazwa przedmiotu: | Wyszukiwanie informacji muzycznych |
Jednostka: | Wydział Elektroniki i Technik Informacyjnych |
Grupy: |
( Analiza multimediów )-Informatyka w multimediach-mgr.-EITI ( Przedmioty techniczne )---EITI ( Przedmioty zaawansowane techniczne )--mgr.-EITI ( Zastosowania )-Sztuczna inteligencja-mgr.-EITI |
Punkty ECTS i inne: |
4.00
|
Język prowadzenia: | polski |
Jednostka decyzyjna: | 103000 - Wydział Elektroniki i Technik Informacyjnych |
Kod wydziałowy: | WIMU |
Numer wersji: | 1 |
Skrócony opis: |
Przedmiot „Wyszukiwanie Informacji Muzycznych” (Music Information Retrieval) skierowany jest do studentów, którzy chcą poznać techniki analizy i generowania muzyki za pomocą technik komputerowych. Music Information Retrieval (MIR) jest interdyscyplinarnym, dojrzałym, istotnym naukowo i komercyjnie polem badawczym, wykorzystującym szereg metod obliczeniowych i algorytmicznych - od klasycznych metod cyfrowego przetwarzania sygnałów, przez tradycyjne techniki sztucznej inteligencji aż po dominujące obecnie podejścia oparte o deep learning (głębokie uczenie maszynowe z wykorzystaniem sieci neuronowych). Zajęcia projektowe związane z przedmiotem mają na celu implementację i wykorzystanie w praktyce poznanych algorytmów, a także przeprowadzenie eksperymentów z omawianej dziedziny lub budowę oprogramowania wspomagającego takie eksperymenty. |
Pełny opis: |
Celem przedmiotu jest zapoznanie się oraz nabycie praktycznych umiejętności z dziedziny Music Information Retrieval (MIR) - interdyscyplinarnego pola badawczego obejmującego generowanie, analizę i obróbkę treści muzycznych oraz budowę oprogramowania związanego tymi zagadnieniami. Wykład: Podstawy teorii muzyki z perspektywy słuchacza i inżyniera: budowa utworu, harmonia, rytm, gatunki muzyczne, instrumentacja, produkcja muzyki. Cyfrowe reprezentacje muzyki (formaty audio, formaty symboliczne: MIDI, ABC, MXML, tabulatury, cyfrowy zapis nutowy). Transformaty istotne z punktu widzenia MIR: STFT, CQT (i ich warianty). Cechy muzyki interesujące z punktu widzenia MIR: cechy widmowe, cechy oparte na analizie audio, spektrogramy, chromagramy, głębokie osadzenia neuronowe. Zbiory danych dostępne na potrzeby MIR. Klasyczne zagadnienia sztucznej inteligencji w MIR: klasyfikacja muzyki według różnych kryteriów (gatunek, emocje, instrumenty, epoka lub dekada powstania, styl artysty…), tagowanie muzyki, śledzenie rytmu, śledzenie melodii, śledzenie akordów, transfer stylu, transkrypcja. Współczesne zagadnienia sztucznej inteligencji w MIR: separacja źródeł (faktoryzacja macierzy, sieci neuronowe U-Net), automatyczne miksowanie, representation learning, synteza (w szczególności synteza różniczkowalna z wykorzystaniem sieci neuronowych). Generowanie muzyki za pomocą sztucznej inteligencji: modele Markowa, generatywne modele językowe (formaty symboliczne - automatyczna kompozycja), modele generujące surowe audio. Metody wielomodalne. Systemy rekomendujące muzykę, collaborative filtering, content-based filtering, modele sekwencyjne. Najnowsze osiągnięcia i bieżące problemy MIR (np. wykorzystanie sieci neuronowych typu transformer, modeli dyfuzyjnych, generowanie muzyki na podstawie jej opisu słownego, sterowalność i parametryzacja istniejących metod). Projekt: Praktyczne wykorzystanie technik przetwarzania i generowania muzyki. Praca z dziedzinowymi zbiorami danych. Prowadzenie interdyscyplinarnych eksperymentów naukowych, odtworzenie eksperymentów opisanych w literaturze, krytyczna analiza rezultatów. Uczenie modeli predykcyjnych i generatywnych na danych muzycznych. Budowa systemu rekomendacyjnego. Budowa oprogramowania użytkowego wspierającego eksperymenty MIR (np. annotation tools, wybór i edycja próbek generowanych przez modele, wizualizacja rezultatów, analiza treści). Biblioteki librosa, mirdata, mir_eval, MusPy, pretty_midi, music21, pedalboard, torchaudio, audiomentations, PyTorch, Tensorflow, scikit-learn, hmmlearn, spotlight, LightFM, implicit, surprise, Essentia. Modele OpenL3, VGGish, CLMR, FCN, CRNN, MusiCNN, PixelRNN, WaveNet, sieci prototypowe (few-shot i zero-shot learning), Jukebox (VQ-VAE), Spotify BasicPitch, modele oparte o architekturę GPT i BERT. Wtyczki VST (i inne). SonicVisualizer, Google Magenta Studio, sox. |
Literatura: |
Literatura i oprogramowanie:
|
Zajęcia w cyklu "rok akademicki 2023/2024 - sem. zimowy" (w trakcie)
Okres: | 2023-10-01 - 2024-02-18 |
Przejdź do planu
PN WT ŚR CZ WYK
PT |
Typ zajęć: |
Projekt, 30 godzin, 30 miejsc
Wykład, 30 godzin, 30 miejsc
|
|
Koordynatorzy: | Mateusz Modrzejewski | |
Prowadzący grup: | Mateusz Modrzejewski | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Ocena łączna | |
Jednostka realizująca: | 103200 - Instytut Informatyki |
Właścicielem praw autorskich jest Politechnika Warszawska.