Politechnika Warszawska - Centralny System Uwierzytelniania
Strona główna

Przetwarzanie danych w językach R i Python

Informacje ogólne

Kod przedmiotu: 1120-IN000-ISP-0504
Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Przetwarzanie danych w językach R i Python
Jednostka: Wydział Matematyki i Nauk Informacyjnych
Grupy: Przedmioty obieralne prowadzone w semestrze letnim 2023/2024
Przedmioty obieralne, wydz. MiNI PW
Punkty ECTS i inne: 4.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.
Język prowadzenia: polski
Skrócony opis:

Cel przedmiotu:

Kurs omawia najbardziej przydatne techniki programowania w językach R i Python 3 w pracy inżyniera i analityka danych. W ramach zajęć student uzyskuje praktyczną umiejętność zbierania i przygotowywania danych do analizy, oraz stosowania i implementacji wybranych algorytmów maszynowego uczenia. Uczestnicy mają możliwość dogłębnego poznania technik programowania w tych językach, a także najbardziej popularnych i użytecznych bibliotek. W trakcie zajęć szczególną uwagę poświęca się sposobom przetwarzania i analizy ustrukturyzowanych zbiorów danych (filtrowanie danych, agregacja danych w podgrupach, złączenia).

Wymagania wstępne / przedmioty poprzedzające:

Znajomość zagadnień programowania strukturalnego i obiektowego oraz algorytmów i struktur danych

Pełny opis:

1. Podstawowe atomowe typy danych w języku R.

2. Działania na wektorach w R. Implementacja wybranych algorytmów przy użyciu tzw. wektoryzacji.

3. Listy. Funkcje. Atrybuty obiektów. Podstawy programowania obiektowego w stylu S3. Typy złożone w R: macierz, czynnik, ramka danych.

4. Działania na ramkach danych.

5. Instrukcja sterująca i pętle. Testy jednostkowe, profilowanie wydajności kodu.

6. Przetwarzanie napisów i plików. Wyrażenia regularne. Obiekty typu data i czas.

7. Środowiska. Leniwa ewaluacja. Niestandardowa ewaluacja. Środowiskowy model obliczeń. Programowanie obiektowe w stylu S4.

8. Podstawy programowania w języku Python 3. Typy skalarne i sekwencyjne, iteratory.

9. Słowniki, zbiory. Funkcje, instrukcje sterujące.

10. Obliczenia na wektorach, macierzach i innych tablicach (NumPy).

11. Ranki danych i najważniejsze operacje na nich (Pandas).

12. Przetwarzanie napisów i plików, serializacja obiektów, dostęp do baz danych SQL.

13. Cython i Rcpp – tworzenie modułów/pakietów rozszerzających przy użyciu C++.

Literatura:

1. M. Gągolewski, M. Bartoszuk, A. Cena, Przetwarzanie i analiza danych w języku Python, PWN, Warszawa, 2016

2. M. Gągolewski, Programowanie w języku R. Analiza danych, obliczenia, symulacje, Wydawnictwo Naukowe PWN, 2016 (wyd. II)

3. W. McKinney, Python for Data Analysis. Data Wrangling with Pandas, NumPy, and IPython, O'Reilly Media, 2012

4. W. Richert, L.P. Coelho, Building Machine Learning Systems with Python, Packt Publishing, 2013

5. E. Bressert, SciPy and NumPy, O'Reilly Media, 2012

6. J.M. Chambers., Programming with Data, Springer, 1998

7. J.M. Chambers, Software for Data Analysis. Programming with R, Springer, 2008

8. N.S. Matloff, The Art of R Programming: A Tour of Statistical Software Design, No Starch Press, 2011

9. W.N. Venables, B.D. Ripley, S Programming, Springer, 2000

10. H. Wickham, Advanced R, Chapman&Hall/CRC

11. M. Hamstra, Learning Spark, O'Reilly, 2013

12. M. Frampton, Mastering Apache Spark, Packt, 2015

Metody i kryteria oceniania:

Na zaliczenie składają się oceny zdobyte za rozwiązania 3 - 4 prac domowych o zróżnicowanym stopniu trudności.

Zajęcia w cyklu "rok akademicki 2023/2024 - sem. letni" (w trakcie)

Okres: 2024-02-19 - 2024-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin, 15 miejsc więcej informacji
Wykład, 30 godzin, 45 miejsc więcej informacji
Koordynatorzy: Anna Cena
Prowadzący grup: Anna Cena
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2022/2023 - sem. letni" (zakończony)

Okres: 2023-02-20 - 2023-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin, 15 miejsc więcej informacji
Wykład, 30 godzin, 45 miejsc więcej informacji
Koordynatorzy: Anna Cena, Marek Gągolewski
Prowadzący grup: Anna Cena
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2021/2022 - sem. letni" (zakończony)

Okres: 2022-02-23 - 2022-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin, 15 miejsc więcej informacji
Wykład, 30 godzin, 45 miejsc więcej informacji
Koordynatorzy: Anna Cena, Marek Gągolewski
Prowadzący grup: Anna Cena
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2020/2021 - sem. letni" (zakończony)

Okres: 2021-02-20 - 2021-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin, 24 miejsc więcej informacji
Wykład, 30 godzin, 48 miejsc więcej informacji
Koordynatorzy: Anna Cena, Marek Gągolewski
Prowadzący grup: Anna Cena
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2019/2020 - sem. letni" (zakończony)

Okres: 2020-02-22 - 2020-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin, 24 miejsc więcej informacji
Wykład, 30 godzin, 24 miejsc więcej informacji
Koordynatorzy: Anna Cena, Marek Gągolewski
Prowadzący grup: Maciej Bartoszuk, Anna Cena
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę

Zajęcia w cyklu "rok akademicki 2018/2019 - sem. letni" (zakończony)

Okres: 2019-02-18 - 2019-09-30
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Marek Gągolewski
Prowadzący grup: Marek Gągolewski
Lista studentów: (nie masz dostępu)
Zaliczenie: Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Politechnika Warszawska.
pl. Politechniki 1, 00-661 Warszawa tel: (22) 234 7211 https://pw.edu.pl kontakt deklaracja dostępności USOSweb 7.0.2.0-2 (2024-03-29)