Detail publikace
SureTypeSC-a Random Forest and Gaussian mixture predictor of high confidence genotypes in single-cell data
Motivácia
Presné genotypovanie single-cell DNA je nevyhnutnou podmienkou pri detekcií de-novo mutácií, linkage analýze a analýze bunkovej línie. Presné genotypovanie je však náročné kvôli chybám spôsobeným celogenómovou amplifikáciou. Single cell genotypovanie jednonukleotidových polymorfizmov komplikujú dva faktory. Nedostupnosť robustného single cell datasetu s referenčným genotypoma nedostupnosť nástrojov schopných detekovať šum generovaný celogenómovou amplifikáciou. Algoritmy vytvorené na analýzu genotypu z bulk DNA sú na genotypovanie single cell nevhodné, nakoľko nesprávne vyraďujú nezanedbateľné množstvo správnych genotypov.
Výsledky
V tejto štúdii sme vytvorili databázu 28.7 millionov jednonukleotidových polymorfizmov s vysokou mierou správnosti pomocou platformy Illumina SNP bead array. Databáza bola vytvorená zo 104 buniek z dvoch bunkových línií z repozitára Coriell. Na vytvorenie vysokokvalitného referenčného genotypu sme použili genotypy rodičov a niekoľko technických replikátov bulk DNA. Táto databáza nám umožnila navrhnúť a implementovať SureTypeSC- dvojvrstvý algoritmus strojového učenia, ktorý odfiltruje väčšinu šumu a zachová kvalitné single cell genotypy. SureTypeSC tiež dáva na výstupe mieru istoty správnosti konkrétneho genotypu pomocou bayesovskej štatistiky.
@ARTICLE{FITPUB12230, author = "Ivan Vogel and C. Robert Blanshard and R. Eva Hoffmann", title = "SureTypeSC-a Random Forest and Gaussian mixture predictor of high confidence genotypes in single-cell data", pages = "5055--5062", journal = "Bioinformatics", volume = 35, number = 23, year = 2019, ISSN = "1367-4803", doi = "10.1093/bioinformatics/btz412", language = "english", url = "https://www.fit.vut.cz/research/publication/12230" }