Przetwarzanie danych w językach R i Python
Informacje ogólne
Kod przedmiotu: | 1120-IN000-ISP-0504 |
Kod Erasmus / ISCED: | (brak danych) / (brak danych) |
Nazwa przedmiotu: | Przetwarzanie danych w językach R i Python |
Jednostka: | Wydział Matematyki i Nauk Informacyjnych |
Grupy: |
Przedmioty obieralne prowadzone w semestrze letnim 2023/2024 Przedmioty obieralne, wydz. MiNI PW |
Punkty ECTS i inne: |
4.00
|
Język prowadzenia: | polski |
Skrócony opis: |
Cel przedmiotu: Kurs omawia najbardziej przydatne techniki programowania w językach R i Python 3 w pracy inżyniera i analityka danych. W ramach zajęć student uzyskuje praktyczną umiejętność zbierania i przygotowywania danych do analizy, oraz stosowania i implementacji wybranych algorytmów maszynowego uczenia. Uczestnicy mają możliwość dogłębnego poznania technik programowania w tych językach, a także najbardziej popularnych i użytecznych bibliotek. W trakcie zajęć szczególną uwagę poświęca się sposobom przetwarzania i analizy ustrukturyzowanych zbiorów danych (filtrowanie danych, agregacja danych w podgrupach, złączenia). Wymagania wstępne / przedmioty poprzedzające: Znajomość zagadnień programowania strukturalnego i obiektowego oraz algorytmów i struktur danych |
Pełny opis: |
1. Podstawowe atomowe typy danych w języku R. 2. Działania na wektorach w R. Implementacja wybranych algorytmów przy użyciu tzw. wektoryzacji. 3. Listy. Funkcje. Atrybuty obiektów. Podstawy programowania obiektowego w stylu S3. Typy złożone w R: macierz, czynnik, ramka danych. 4. Działania na ramkach danych. 5. Instrukcja sterująca i pętle. Testy jednostkowe, profilowanie wydajności kodu. 6. Przetwarzanie napisów i plików. Wyrażenia regularne. Obiekty typu data i czas. 7. Środowiska. Leniwa ewaluacja. Niestandardowa ewaluacja. Środowiskowy model obliczeń. Programowanie obiektowe w stylu S4. 8. Podstawy programowania w języku Python 3. Typy skalarne i sekwencyjne, iteratory. 9. Słowniki, zbiory. Funkcje, instrukcje sterujące. 10. Obliczenia na wektorach, macierzach i innych tablicach (NumPy). 11. Ranki danych i najważniejsze operacje na nich (Pandas). 12. Przetwarzanie napisów i plików, serializacja obiektów, dostęp do baz danych SQL. 13. Cython i Rcpp – tworzenie modułów/pakietów rozszerzających przy użyciu C++. |
Literatura: |
1. M. Gągolewski, M. Bartoszuk, A. Cena, Przetwarzanie i analiza danych w języku Python, PWN, Warszawa, 2016 2. M. Gągolewski, Programowanie w języku R. Analiza danych, obliczenia, symulacje, Wydawnictwo Naukowe PWN, 2016 (wyd. II) 3. W. McKinney, Python for Data Analysis. Data Wrangling with Pandas, NumPy, and IPython, O'Reilly Media, 2012 4. W. Richert, L.P. Coelho, Building Machine Learning Systems with Python, Packt Publishing, 2013 5. E. Bressert, SciPy and NumPy, O'Reilly Media, 2012 6. J.M. Chambers., Programming with Data, Springer, 1998 7. J.M. Chambers, Software for Data Analysis. Programming with R, Springer, 2008 8. N.S. Matloff, The Art of R Programming: A Tour of Statistical Software Design, No Starch Press, 2011 9. W.N. Venables, B.D. Ripley, S Programming, Springer, 2000 10. H. Wickham, Advanced R, Chapman&Hall/CRC 11. M. Hamstra, Learning Spark, O'Reilly, 2013 12. M. Frampton, Mastering Apache Spark, Packt, 2015 |
Metody i kryteria oceniania: |
Na zaliczenie składają się oceny zdobyte za rozwiązania 3 - 4 prac domowych o zróżnicowanym stopniu trudności. |
Zajęcia w cyklu "rok akademicki 2023/2024 - sem. letni" (w trakcie)
Okres: | 2024-02-19 - 2024-09-30 |
Przejdź do planu
PN WT ŚR CZ WYK
LAB
LAB
PT |
Typ zajęć: |
Laboratorium, 30 godzin, 15 miejsc
Wykład, 30 godzin, 45 miejsc
|
|
Koordynatorzy: | Anna Cena | |
Prowadzący grup: | Anna Cena | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Zaliczenie na ocenę |
Zajęcia w cyklu "rok akademicki 2022/2023 - sem. letni" (zakończony)
Okres: | 2023-02-20 - 2023-09-30 |
Przejdź do planu
PN WT ŚR WYK
CZ PT LAB
LAB
|
Typ zajęć: |
Laboratorium, 30 godzin, 15 miejsc
Wykład, 30 godzin, 45 miejsc
|
|
Koordynatorzy: | Anna Cena, Marek Gągolewski | |
Prowadzący grup: | Anna Cena | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Zaliczenie na ocenę |
Zajęcia w cyklu "rok akademicki 2021/2022 - sem. letni" (zakończony)
Okres: | 2022-02-23 - 2022-09-30 |
Przejdź do planu
PN WT ŚR WYK
LAB
LAB
CZ PT |
Typ zajęć: |
Laboratorium, 30 godzin, 15 miejsc
Wykład, 30 godzin, 45 miejsc
|
|
Koordynatorzy: | Anna Cena, Marek Gągolewski | |
Prowadzący grup: | Anna Cena | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Zaliczenie na ocenę |
Zajęcia w cyklu "rok akademicki 2020/2021 - sem. letni" (zakończony)
Okres: | 2021-02-20 - 2021-09-30 |
Przejdź do planu
PN WT ŚR WYK
LAB
LAB
CZ PT |
Typ zajęć: |
Laboratorium, 30 godzin, 24 miejsc
Wykład, 30 godzin, 48 miejsc
|
|
Koordynatorzy: | Anna Cena, Marek Gągolewski | |
Prowadzący grup: | Anna Cena | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Zaliczenie na ocenę |
Zajęcia w cyklu "rok akademicki 2019/2020 - sem. letni" (zakończony)
Okres: | 2020-02-22 - 2020-09-30 |
Przejdź do planu
PN WT LAB
ŚR CZ PT LAB
WYK
|
Typ zajęć: |
Laboratorium, 30 godzin, 24 miejsc
Wykład, 30 godzin, 24 miejsc
|
|
Koordynatorzy: | Anna Cena, Marek Gągolewski | |
Prowadzący grup: | Maciej Bartoszuk, Anna Cena | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Zaliczenie na ocenę |
Zajęcia w cyklu "rok akademicki 2018/2019 - sem. letni" (zakończony)
Okres: | 2019-02-18 - 2019-09-30 |
Przejdź do planu
PN WT WYK
LAB
ŚR CZ PT |
Typ zajęć: |
Laboratorium, 30 godzin
Wykład, 30 godzin
|
|
Koordynatorzy: | Marek Gągolewski | |
Prowadzący grup: | Marek Gągolewski | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Zaliczenie na ocenę |
Właścicielem praw autorskich jest Politechnika Warszawska.