Computational Genomics
Informacje ogólne
Kod przedmiotu: | 1120-IN000-MSA-0503 |
Kod Erasmus / ISCED: | (brak danych) / (brak danych) |
Nazwa przedmiotu: | Computational Genomics |
Jednostka: | Wydział Matematyki i Nauk Informacyjnych |
Grupy: |
Elective courses - Data Science Elective courses conducted in summer semester 2023/2024 Elective courses, Computer Science |
Punkty ECTS i inne: |
4.00
|
Język prowadzenia: | angielski |
Skrócony opis: |
Celem wykładu jest zapoznanie studentów z podstawowymi ideami teoretycznymi z genomiki obliczeniowej, ze szczególnym uwzględnieniem algorytmów matematycznych i informatycznych. Wykładom będą towarzyszyć laboratoria, które pozwolą studentom przeprowadzić zaawansowane analizy genomiczne, wykorzystując programowanie i przetwarzanie danych statystycznych. Wymagania wstępne/przedmioty poprzedzające: Algorytmy i struktury danych, Statystyka, Bazy danych, Programowanie, Bioinformatics |
Pełny opis: |
Genom jest często postrzegany jako prosta, liniowa sekwencja DNA używana do cyfrowego zapisu informacji biologicznej przez żywe organizmy. Okazuje się jednak, że struktura przestrzenna genomu ma ogromne znaczenie dla jego funkcji biologicznej. W przypadku ludzkiego genomu wiemy, że geny położone blisko siebie są albo wszystkie „włączone”, albo wszystkie „wyłączone” w tym samym czasie. Często zdarza się również, że geny znajdujące się w zupełnie innych miejscach na chromosomie zbliżają się do siebie w przestrzeni trójwymiarowej, aby móc skoordynować swoje działanie. W ostatnich latach opracowano metody eksperymentalne, które pozwalają poznać trójwymiarową strukturę chromatyny i jej dynamikę. Na podstawie tych danych można odtworzyć wyższą formę przestrzennej organizacji chromosomów w jądrze komórkowym. Wykład dotyczyć będzie różnych aspektów genomiki ludzkiej, czy też może szerzej eukariotycznej. Omówimy bazy danych genomowych i algorytmy obliczeniowej genomiki stosowane we współczesnej biologii molekularnej ssaków oraz powiązane z nimi rodzaje danych doświadczalnych. Podczas wykładu zapoznamy się z koncepcją ewolucji genomu, regionami szczególnie dla niej istotnymi, motywami wiążących na nici DNA związanymi z funkcją biologiczną. Zapoznamy się z metodologią badań populacyjnych, przeprowadzimy porównania genomów dla różnych organizmów, algorytmami genomiki i genetyki populacyjnej. Zaprezentowane zostaną również zaawansowane metody uczenia maszynowego i statystyczne metody znajdowania motywów sekwencji DNA, miary podobieństwa strukturalnego dla chromatyny i całego genomu. Zastanowimy się nad miarami oceny zmienności sekwencji, jak i struktury 3D między domenami genomowymi. Wykład będzie dalej opisywał metody sekwencjonowania genomu, rozróżniając sekwencje regionów kodujących i niekodujących w DNA, modelowanie struktury genomu (metody ab initio i metody oparte na danych), adnotacje genomu oraz genomikę porównawczą i funkcjonalną na poziomie całego genomu. Na koniec wykład zajmie się teoriami ewolucji genomu, ich stroną praktyczną realizowaną za pomocą integracji danych „omicznych”, ich analizę statystyczną i wizualizację. Powiążemy dane z różnych eksperymentów -omicznych, z podstawowymi pojęciami z zakresu biologii systemowej i genomiki. Wykładom będą towarzyszyć laboratoria, które pozwolą studentom samodzielnie analizować dane genomowe. Będą używać własnego kodu i programowania w python i R, m.in. do pobierania danych genomowych z publicznie dostępnych baz danych, wstępnego przetwarzania, identyfikacji sygnału, usuwania szumu w danych biologicznych, analizowania wyników za pomocą metod statystycznych i uczenia maszynowego, a na koniec interpretacji wyniki. Studenci zostaną zapoznani z wybranymi narzędziami genomiki, serwerami internetowymi i bazami danych. Wykład: 1. Wprowadzenie do genomiki. Specyfikacja formatów plików genomicznych. Najczęściej wybierane bazy danych genomiki i biologiczna interpretacja danych eksperymentalnych. 2. Analiza sekwencji DNA - identyfikacja genów, dopasowanie sekwencji i macierze podobieństwa; dopasowanie wielu sekwencji, profile sekwencji nukleotydów i zastosowania motywów; profile, ukryte modele Markowa i ich zastosowania w genomice. 3. Algorytmy szybkiego wyszukiwania motywów do masowej analizy DNA. 4. Techniki eksperymentalne z wykorzystaniem mikromacierzy - przetwarzanie danych, odszumianie, interpretacja, zaawansowane metody statystyczne w zastosowaniu do mikromacierzy aCGH. 5. Rodzaje sekwencjonowania nowej generacji: cały exom / cały genom, sekwencja DNA, sekwencjonowanie krótkich i długich odczytów, sekwencjonowanie RNA, sekwencjonowanie ChIP i inne. 6. Zmienność populacyjna, ludzkie DNA: od mutacji jednopunktowych do większych wariantów strukturalnych: delecji / duplikacji / insercji / inwersji / translokacji. 7. Metody eksperymentalne genomiki 3D i ich zastosowania do identyfikacji konformacji przestrzennej chromatyny. 8. Związek między epigenomiką a strukturą trójwymiarową genomów ssaków. 9. Biologia systemowa jądra - eksperymenty i metody, sieci regulacyjne oraz przewidywanie złożonych interakcji przestrzennych w obrębie jądra. 10. Metody obliczeniowe do modelowania zależności między sekwencją, strukturą i funkcją ludzkiego genomu. 11. Kliniczne zastosowania analizy sekwencji DNA, medyczne znaczenie mutacji punktowych i wariantów strukturalnych. Laboratorium: 1. Wprowadzenie do baz danych genomiki. 2. Wprowadzenie do programowania BioPython w genomice obliczeniowej. 3. Dopasowanie sekwencji genomów przy użyciu bibliotek BioPython. 4. Algorytmy szybkiego wyszukiwania i identyfikacji wzorców, zapytania do bazy danych genomiki i ich implementacja w języku Python. 5. Ewolucja, filogenetyka z perspektywy genów, regionów regulujących oraz całego genomu - identyfikacja i interpretacja związków ewolucyjnych w skali genomów; metody budowy filogenezy Życia; eksploracja pełnych sekwencji DNA organizmów żywych i grupowanie danych genomowych. 6. Identyfikacja i modelowanie obliczeniowe struktury genomu 3D: modelowanie oparte na danych, metody ab initio, metody hybrydowe. 7. Wizualizacja molekularna za pomocą Chimery. Prognozowanie funkcji domen genomowych - znajdowanie podobnych struktur 3D TAD (domen topologicznych) lub CCD (domen przestrzennych chromatyny). 8. Wprowadzenie do dynamiki molekularnej, mechaniki molekularnej i symulacji Monte Carlo. 9. Zestawy danych i metody z projektów Human Genome Project, 1000 Genomes Project, ENCODE, Roadmap Epigenomics, 4DNucleome. |
Literatura: |
1. T.A. Brown, Genomes, Oxford: Wiley-Liss; 2002. 2. T. Speed, Statistical analysis of Gene expression microarray data (CRC Chapmann&Hall), 2003 3. Hahne, F., Huber, W., Gentleman, R., Falcon, S, Bioconductor Case Studies, Springer, 2008 4. M. Kasahara i S. Morishita, Large-scale Genome sequence processing, Imperial College Press, 2006 5. M. Rodrigez-Ezpeleta, M. Hackenbetrg, A.M. Aransay, Bioinformatics for HIgh Throughput Sequencing, Springer, 2012 6. Higgs Paul G., Attword Teresa K., "Bioinformatics and Molecular Evolution", John Wiley & Sons, 2005 |
Metody i kryteria oceniania: |
Zaliczenie opiera się na stworzeniu w ciągu semestru czterech programów bioinformatycznych związanych z wykładem, każdy program wraz z jego opisem to maksymalnie 10 punktów. Aby zaliczyć przedmiot należy uzyskać co najmniej 20 punktów. Ocena dobra (4) to 30 punktów lub więcej, ocena bardzo dobra (5) to 38 punktów lub więcej. Student może poprawić ocenę końcową poprzez opcjonalną odpowiedź ustną. |
Zajęcia w cyklu "rok akademicki 2023/2024 - sem. letni" (w trakcie)
Okres: | 2024-02-19 - 2024-09-30 |
Przejdź do planu
PN WT LAB
ŚR CZ WYK
PT LAB
|
Typ zajęć: |
Laboratorium, 30 godzin, 15 miejsc
Wykład, 30 godzin, 45 miejsc
|
|
Koordynatorzy: | Dariusz Plewczyński | |
Prowadzący grup: | Krzysztof Banecki, Michał Denkiewicz, Dariusz Plewczyński | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Zaliczenie na ocenę |
Zajęcia w cyklu "rok akademicki 2021/2022 - sem. letni" (zakończony)
Okres: | 2022-02-23 - 2022-09-30 |
Przejdź do planu
PN LAB
WT LAB
ŚR WYK
CZ PT |
Typ zajęć: |
Laboratorium, 30 godzin
Wykład, 30 godzin
|
|
Koordynatorzy: | Dariusz Plewczyński | |
Prowadzący grup: | Mateusz Chiliński, Dariusz Plewczyński, Zofia Tojek | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Zaliczenie na ocenę |
Zajęcia w cyklu "rok akademicki 2020/2021 - sem. letni" (zakończony)
Okres: | 2021-02-20 - 2021-09-30 |
Przejdź do planu
PN WT ŚR CZ PT |
Typ zajęć: |
Laboratorium, 30 godzin
Wykład, 30 godzin
|
|
Koordynatorzy: | Dariusz Plewczyński | |
Prowadzący grup: | Dariusz Plewczyński | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Zaliczenie na ocenę |
Właścicielem praw autorskich jest Politechnika Warszawska.