Przetwarzanie danych ustrukturyzowanych
Informacje ogólne
Kod przedmiotu: | 1120-MD000-LSP-0124 |
Kod Erasmus / ISCED: | (brak danych) / (brak danych) |
Nazwa przedmiotu: | Przetwarzanie danych ustrukturyzowanych |
Jednostka: | Wydział Matematyki i Nauk Informacyjnych |
Grupy: |
Matematyka i analiza danych, I st. - przedmioty obowiązkowe, sem. 2 Matematyka, I st. - przedmioty obowiązkowe, sem. 2 |
Strona przedmiotu: | https://cena.rexamine.com/teaching/pdu/ |
Punkty ECTS i inne: |
5.00
|
Język prowadzenia: | polski |
Skrócony opis: |
Celem przedmiotu jest przegląd najczęściej stosowanych w praktyce metod przetwarzania danych i przygotowywania ich do analizy. Szczególny nacisk położony jest na omówienie i ćwiczenie technik filtrowania, przekształcania i agregacji zmiennych lub całych zbiorów danych, także w podgrupach. Uczestnicy kursu poznają najbardziej podstawowe metody czyszczenia danych, ich wizualizacji i podsumowywania, a także imputacji braków danych. Ponadto nabywają umiejętność przetwarzania danych w postaci tekstowej, m.in. z różnego rodzaju API i innych zasobów internetowych. Do osiągnięcia powyższych celów używany jest przede wszystkim język R wraz z bogatym zbiorem pakietów dla tego środowiska. Szczególnie jednak eksponowane są techniki i funkcje obecne w innych środowiskach, m.in. Python 3. Wymagania wstępne / przedmioty poprzedzające: Podstawy programowania i przetwarzania danych, Algebra liniowa z geometrią analityczną |
Pełny opis: |
Treści kształcenia 1. Podstawowe atomowe typy danych w R: Wektory i NULL 2. Zwektoryzowane operacje na wektorach atomowych. Przekształcanie i filtrowanie zmiennych. Agregacja zmiennych 3. Przetwarzanie danych tekstowych. Wyrażenia regularne 4. Listy. Funkcje 5. Instrukcja sterująca i pętle 6. Atrybuty obiektów. Programowanie obiektowe w stylu S3 7. Typy złożone: obiekty reprezentujące czas, czynniki, szeregi czasowe, macierze i ramki danych oraz podstawowe operacje na nich 8. Niestandardowa ewaluacja. Formuły 9. Filtrowanie, przekształcanie i czyszczenie ramek danych. Imputacja braków danych 10. Agregacja i inne operacje na danych w podgrupach. Scalanie ramek danych 11. Przetwarzanie danych tekstowych. Wyrażenia regularne 12. Operacje na plikach i katalogach. Pobieranie danych z API. Wydobywanie informacji ze stron WWW 13. Tworzenie wykresów 14. Python 3: numpy, scipy, pandas |
Literatura: |
1. Gągolewski M., Programowanie w języku R. Analiza danych, obliczenia, symulacje, Wydawnictwo Naukowe PWN, wydanie II, 2016 2. Wickham H., Grolemund G., R for Data Science, O'Reilly, 2016 3. Chambers J.M., Programming with Data, Springer, 1998 4. Chambers J.M., Software for Data Analysis. Programming with R, Springer, 2008 5. Matloff N.S., The Art of R Programming: A Tour of Statistical Software Design, No Starch Press, 2011 6. Venables W.N., Ripley B.D., S Programming, Springer, 2000 7. Wickham H., Advanced R, Chapmah & Hall/CRC, 2014 8. Gagolewski M., Bartoszuk M., Cena A., Przetwarzanie i analiza danych w języku Python, Wydawnictwo Naukowe PWN, Warszawa, 2016 9. McKinney W., Python for Data Analysis. Data Wrangling with Pandas, NumPy, and IPython, O'Reilly Media, 2012 10. Richert W., Coelho L.P., Building Machine Learning Systems with Python, Packt Publishing, 2013 |
Metody i kryteria oceniania: |
Na zaliczenie składają się oceny zdobyte za rozwiązania 3-5 prac domowych oraz zadań projektowych. Do zdobycia maks. 100 p. Ocena końcowa wynika z sumy punktów; ≤50 p. - 2,0; (50,60] – 3,0; (60,70] – 3,5; (70,80] – 4,0; (80,90] – 4,5; >90 – 5,0. Szczegółowy regulamin zaliczenia podawany jest na początku semestru. |
Zajęcia w cyklu "rok akademicki 2023/2024 - sem. letni" (w trakcie)
Okres: | 2024-02-19 - 2024-09-30 |
Przejdź do planu
PN WYK
LAB
LAB
LAB
LAB
LAB
LAB
PRO
PRO
PRO
PRO
PRO
PRO
WT ŚR CZ PT |
Typ zajęć: |
Laboratorium, 30 godzin
Projekt, 15 godzin
Wykład, 30 godzin
|
|
Koordynatorzy: | Anna Cena | |
Prowadzący grup: | Anna Cena, Michał Denkiewicz, Robert Małysz, Barbara Żogała-Siudem | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Zaliczenie na ocenę |
Zajęcia w cyklu "rok akademicki 2022/2023 - sem. letni" (zakończony)
Okres: | 2023-02-20 - 2023-09-30 |
Przejdź do planu
PN WYK
LAB
LAB
LAB
LAB
LAB
LAB
LAB
PRO
PRO
PRO
PRO
PRO
PRO
WT ŚR CZ PT |
Typ zajęć: |
Laboratorium, 30 godzin
Projekt, 15 godzin
Wykład, 30 godzin
|
|
Koordynatorzy: | Anna Cena | |
Prowadzący grup: | Anna Cena, Michał Denkiewicz, Szymon Maksymiuk, Robert Małysz, Barbara Żogała-Siudem | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Zaliczenie na ocenę |
Zajęcia w cyklu "rok akademicki 2021/2022 - sem. letni" (zakończony)
Okres: | 2022-02-23 - 2022-09-30 |
Przejdź do planu
PN WYK
LAB
LAB
LAB
LAB
LAB
LAB
LAB
PRO
WT ŚR CZ PT PRO
PRO
PRO
PRO
PRO
PRO
|
Typ zajęć: |
Laboratorium, 30 godzin
Projekt, 15 godzin
Wykład, 30 godzin
|
|
Koordynatorzy: | Anna Cena | |
Prowadzący grup: | Anna Cena, Michał Denkiewicz, Szymon Maksymiuk, Robert Małysz, Barbara Żogała-Siudem | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Zaliczenie na ocenę |
Zajęcia w cyklu "rok akademicki 2020/2021 - sem. letni" (zakończony)
Okres: | 2021-02-20 - 2021-09-30 |
Przejdź do planu
PN WT WYK
ŚR CZ PT LAB
LAB
PRO
PRO
LAB
LAB
PRO
PRO
LAB
PRO
|
Typ zajęć: |
Laboratorium, 30 godzin
Projekt, 15 godzin
Wykład, 30 godzin
|
|
Koordynatorzy: | Anna Cena, Marek Gągolewski | |
Prowadzący grup: | Anna Cena, Barbara Żogała-Siudem | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Zaliczenie na ocenę |
Zajęcia w cyklu "rok akademicki 2019/2020 - sem. letni" (zakończony)
Okres: | 2020-02-22 - 2020-09-30 |
Przejdź do planu
PN WT WYK
WYK
ŚR LAB
LAB
PRO
PRO
LAB
LAB
PRO
PRO
CZ PT LAB
PRO
|
Typ zajęć: |
Laboratorium, 30 godzin
Projekt, 15 godzin
Wykład, 30 godzin
|
|
Koordynatorzy: | Anna Cena, Marek Gągolewski | |
Prowadzący grup: | Anna Cena, Michał Denkiewicz, Katarzyna Spalińska, Barbara Żogała-Siudem | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Zaliczenie na ocenę |
Właścicielem praw autorskich jest Politechnika Warszawska.