Kurz práce s molekulárními daty v R 2022

Napsal uživatel vojta dne Čt, 11/11/2021 - 12:55

R je v současnosti asi nejmocnější a nejpoužívanější nástroj na výpočty všeho druhu. Je k dispozici i celá řada modulů pro práci s molekulárními daty. Jejich reprezentativní výběr je náplní kurzu.

Kurz obsahuje teorii použitých metod, tutoriály s použitím testovacích dat, úlohy pro samostatnou práci účastníků, a další. Cílem je naučit studenty analýzu molekulárních dat v programovacím jazyce R, představit dostupné balíčky pro jejich analýzu a praktické vyzkoušení si analýz vlastních nebo poskytnutých dat.

Předchozí znalost R je výhodou, nikoli však podmínkou. Nutná je alespoň minimální znalost molekulární biologie a vhodná je předchozí znalost alespoň některých metod analýz DNA dat. Kurz je vhodný spíše pro magisterské a doktorské studenty, pro bakalářské jen jsou-li velmi pokročilí.

Bude-li se kurzu účastnit alespoň jeden člověk nemluvící česky, kurz bude anglicky.

Kurz poběží turnusově 5 dnů, přičemž 4 dny poběží výuka a poslední den bude na zápočty a individuální konzultace. Tento poslední den účastníci mohou (což je vřele doporučeno), ale nemusí využít.

Podrobnosti budou průběžně aktualizované v SISu. Rozvrh je v SISu. Kurz proběhne v posluchárně OŽP B12 (1. mezipatro, Benátská 2, Praha 2) od 31. ledna do 4. února 2022 od 9:00 do 16-17:00 (s dostatkem přestávek). Zájemce o kurz prosím o vyplnění krátkého dotazníku, který mi pomůže s přípravou kurzu a komunikací s účastníky.

Kurz bude sestávat z kratších přednášek následovaných individuální prací studentů a prostorem pro otázky, konzultace apod.

Podle aktuální epidemiologické situace je možné, že kurz bude v hybridním módu (ne jen plně prezenčně) nebo plně on-line. Podrobnosti budou průběžně aktualizovány podle vývoje situace před kurzem.

Sylabus

Přehled témat (může být upraven podle požadavků účastníků, rychlosti apod.):

  • Základy práce v R – jak se zadávají příkazy, instalují balíčky, čte se nápověda, typy proměnných, indexy apod.
  • Práce s Bioconductorem
  • Načítaní a exportování molekulárních dat různých typů a formátů.
  • Stažení sekvencí z databáze
  • Extrakce SNP ze sekvenačních dat
  • Extrakce polymorfismu ze sekvencí
  • Mikrosatelity, AFLP, SNP, sekvence, …
  • Alignment
  • Manipulace s daty, konverze mezi formáty
  • Tvorba distančních matic, import vlastních matic
  • Export dat
  • Základní statistiky
  • PCoA
  • Fylogenetické stromy (NJ, UPGMA, parsimonie), jejich zobrazení a testování
  • MSN
  • Základní statistika, genetické indexy, heterozygosita, HWE, F-statistika
  • Práce s celogenomovými SNP daty
  • DAPC
  • Prostorové analýzy – Mantel test, Moran’s I, Monmonier, sPCA, …
  • Základy tvorby map
  • Manipulace se stromy, zpracování většího množství stromů
  • Phylogenetic independent contrast
  • Phylogenetic autocorrelation
  • Phylogenetic PCA
  • Ancestral state reconstruction
  • Další rozšiřující témata…