R je v současnosti asi nejmocnější a nejpoužívanější nástroj na výpočty všeho druhu. Je k dispozici i celá řada modulů pro práci s molekulárními daty. Jejich reprezentativní výběr je náplní kurzu.
Kurz obsahuje teorii použitých metod, tutoriály s použitím testovacích dat, úlohy pro samostatnou práci účastníků, a další. Cílem je naučit studenty analýzu molekulárních dat v programovacím jazyce R, představit dostupné balíčky pro jejich analýzu a praktické vyzkoušení si analýz vlastních nebo poskytnutých dat.
Předchozí znalost R je výhodou, nikoli však podmínkou. Nutná je alespoň minimální znalost molekulární biologie a vhodná je předchozí znalost alespoň některých metod analýz DNA dat. Kurz je vhodný spíše pro magisterské a doktorské studenty, pro bakalářské jen jsou-li velmi pokročilí.
Bude-li se kurzu účastnit alespoň jeden člověk nemluvící česky, kurz bude anglicky.
Kurz poběží turnusově 5 dnů, přičemž 4 dny poběží výuka a poslední den bude na zápočty a individuální konzultace. Tento poslední den účastníci mohou (což je vřele doporučeno), ale nemusí využít.
Podrobnosti budou průběžně aktualizované v SISu. Rozvrh je v SISu. Kurz proběhne v posluchárně OŽP B12 (1. mezipatro, Benátská 2, Praha 2) od 29. ledna do 2. února 2024 od 9:00 do 16-17:00 (s dostatkem přestávek). Zájemce o kurz prosím o vyplnění krátkého dotazníku, který mi pomůže s přípravou kurzu a komunikací s účastníky.
Kurz bude sestávat z kratších přednášek následovaných individuální prací studentů a prostorem pro otázky, konzultace apod.
Podle aktuální epidemiologické situace je možné, že kurz bude v hybridním módu (ne jen plně prezenčně) nebo plně on-line. Podrobnosti budou průběžně aktualizovány podle vývoje situace před kurzem.
Sylabus
Přehled témat (může být upraven podle požadavků účastníků, rychlosti apod.):
- Základy práce v R – jak se zadávají příkazy, instalují balíčky, čte se nápověda, typy proměnných, indexy apod.
- Práce s Bioconductorem
- Načítaní a exportování molekulárních dat různých typů a formátů.
- Stažení sekvencí z databáze
- Extrakce SNP ze sekvenačních dat
- Extrakce polymorfismu ze sekvencí
- Mikrosatelity, AFLP, SNP, sekvence, …
- Alignment
- Manipulace s daty, konverze mezi formáty
- Tvorba distančních matic, import vlastních matic
- Export dat
- Základní statistiky
- PCoA
- Fylogenetické stromy (NJ, UPGMA, parsimonie), jejich zobrazení a testování
- MSN
- Základní statistika, genetické indexy, heterozygosita, HWE, F-statistika
- Práce s celogenomovými SNP daty
- DAPC
- Prostorové analýzy – Mantel test, Moran’s I, Monmonier, sPCA, …
- Základy tvorby map
- Manipulace se stromy, zpracování většího množství stromů
- Phylogenetic independent contrast
- Phylogenetic autocorrelation
- Phylogenetic PCA
- Ancestral state reconstruction
- Další rozšiřující témata…
Na kurz potřebujete vlastní notebook, na kterém budete pracovat a nainstalované R. Doporučuji nainstalovat i grafické rozhraní RStudio, RKWard, R commander nebo jiné podobné dle vlastního výběru. Pokud už máte zkušenosti s R, můžete si ušetřit práci tím, že si dopředu nainstalujete potřebné balíčky. Instrukce k tomu pošlu před kurzem. Pokud nechcete všechno instalovat, můžete použít předpřipravený linuxový obraz pro VirtualBox, kde je vše připraveno.