Politechnika Warszawska - Centralny System Uwierzytelniania
Strona główna

Przetwarzanie danych ustrukturyzowanych

Informacje ogólne

Kod przedmiotu: 1120-MD000-LSP-0124
Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Przetwarzanie danych ustrukturyzowanych
Jednostka: Wydział Matematyki i Nauk Informacyjnych
Grupy: Matematyka i analiza danych, I st. - przedmioty obowiązkowe, sem. 2
Matematyka, I st. - przedmioty obowiązkowe, sem. 2
Strona przedmiotu: https://cena.rexamine.com/teaching/pdu/
Punkty ECTS i inne: 5.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.
Język prowadzenia: polski
Skrócony opis:

Celem przedmiotu jest przegląd najczęściej stosowanych w praktyce metod przetwarzania danych i przygotowywania ich do analizy. Szczególny nacisk położony jest na omówienie i ćwiczenie technik filtrowania, przekształcania i agregacji zmiennych lub całych zbiorów danych, także w podgrupach. Uczestnicy kursu poznają najbardziej podstawowe metody czyszczenia danych, ich wizualizacji i podsumowywania, a także imputacji braków danych. Ponadto nabywają umiejętność przetwarzania danych w postaci tekstowej, m.in. z różnego rodzaju API i innych zasobów internetowych. Do osiągnięcia powyższych celów używany jest przede wszystkim język R wraz z bogatym zbiorem pakietów dla tego środowiska. Szczególnie jednak eksponowane są techniki i funkcje obecne w innych środowiskach, m.in. Python 3.

Wymagania wstępne / przedmioty poprzedzające: Podstawy programowania i przetwarzania danych, Algebra liniowa z geometrią analityczną

Pełny opis:

Treści kształcenia

1. Podstawowe atomowe typy danych w R: Wektory i NULL

2. Zwektoryzowane operacje na wektorach atomowych. Przekształcanie i filtrowanie zmiennych. Agregacja zmiennych

3. Przetwarzanie danych tekstowych. Wyrażenia regularne

4. Listy. Funkcje

5. Instrukcja sterująca i pętle

6. Atrybuty obiektów. Programowanie obiektowe w stylu S3

7. Typy złożone: obiekty reprezentujące czas, czynniki, szeregi czasowe, macierze i ramki danych oraz podstawowe operacje na nich

8. Niestandardowa ewaluacja. Formuły

9. Filtrowanie, przekształcanie i czyszczenie ramek danych. Imputacja braków danych

10. Agregacja i inne operacje na danych w podgrupach. Scalanie ramek danych

11. Przetwarzanie danych tekstowych. Wyrażenia regularne

12. Operacje na plikach i katalogach. Pobieranie danych z API. Wydobywanie informacji ze stron WWW

13. Tworzenie wykresów

14. Python 3: numpy, scipy, pandas

Literatura:

1. Gągolewski M., Programowanie w języku R. Analiza danych, obliczenia, symulacje, Wydawnictwo Naukowe PWN, wydanie II, 2016

2. Wickham H., Grolemund G., R for Data Science, O'Reilly, 2016

3. Chambers J.M., Programming with Data, Springer, 1998

4. Chambers J.M., Software for Data Analysis. Programming with R, Springer, 2008

5. Matloff N.S., The Art of R Programming: A Tour of Statistical Software Design, No Starch Press, 2011

6. Venables W.N., Ripley B.D., S Programming, Springer, 2000

7. Wickham H., Advanced R, Chapmah & Hall/CRC, 2014

8. Gagolewski M., Bartoszuk M., Cena A., Przetwarzanie i analiza danych w języku Python, Wydawnictwo Naukowe PWN, Warszawa, 2016

9. McKinney W., Python for Data Analysis. Data Wrangling with Pandas, NumPy, and IPython, O'Reilly Media, 2012

10. Richert W., Coelho L.P., Building Machine Learning Systems with Python, Packt Publishing, 2013

Metody i kryteria oceniania:

Na zaliczenie składają się oceny zdobyte za rozwiązania 3-5 prac domowych oraz zadań projektowych.

Do zdobycia maks. 100 p. Ocena końcowa wynika z sumy punktów; ≤50 p. - 2,0; (50,60] – 3,0; (60,70] – 3,5; (70,80] – 4,0; (80,90] – 4,5; >90 – 5,0.

Szczegółowy regulamin zaliczenia podawany jest na początku semestru.

Zajęcia w cyklu "rok akademicki 2023/2024 - sem. letni" (w trakcie)

Okres: 2024-02-19 - 2024-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin więcej informacji
Projekt, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Anna Cena
Prowadzący grup: Anna Cena, Michał Denkiewicz, Robert Małysz, Barbara Żogała-Siudem
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2022/2023 - sem. letni" (zakończony)

Okres: 2023-02-20 - 2023-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin więcej informacji
Projekt, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Anna Cena
Prowadzący grup: Anna Cena, Michał Denkiewicz, Szymon Maksymiuk, Robert Małysz, Barbara Żogała-Siudem
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2021/2022 - sem. letni" (zakończony)

Okres: 2022-02-23 - 2022-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin więcej informacji
Projekt, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Anna Cena
Prowadzący grup: Anna Cena, Michał Denkiewicz, Szymon Maksymiuk, Robert Małysz, Barbara Żogała-Siudem
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2020/2021 - sem. letni" (zakończony)

Okres: 2021-02-20 - 2021-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin więcej informacji
Projekt, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Anna Cena, Marek Gągolewski
Prowadzący grup: Anna Cena, Barbara Żogała-Siudem
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2019/2020 - sem. letni" (zakończony)

Okres: 2020-02-22 - 2020-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin więcej informacji
Projekt, 15 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Anna Cena, Marek Gągolewski
Prowadzący grup: Anna Cena, Michał Denkiewicz, Katarzyna Spalińska, Barbara Żogała-Siudem
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Politechnika Warszawska.
pl. Politechniki 1, 00-661 Warszawa tel: (22) 234 7211 https://pw.edu.pl kontakt deklaracja dostępności USOSweb 7.0.2.0-2 (2024-03-29)