Detail publikace
SureTypeSC-a Random Forest and Gaussian mixture predictor of high confidence genotypes in single-cell data
BLANSHARD, R.
HOFFMANN, E.
single cell genotyping, Gaussian mixture model, Random Forest, SNP array
Motivácia
Presné genotypovanie single-cell DNA je nevyhnutnou podmienkou pri detekcií de-novo mutácií, linkage analýze a analýze bunkovej línie. Presné genotypovanie je však náročné kvôli chybám spôsobeným celogenómovou amplifikáciou. Single cell genotypovanie jednonukleotidových polymorfizmov komplikujú dva faktory. Nedostupnosť robustného single cell datasetu s referenčným genotypoma nedostupnosť nástrojov schopných detekovať šum generovaný celogenómovou amplifikáciou. Algoritmy vytvorené na analýzu genotypu z bulk DNA sú na genotypovanie single cell nevhodné, nakoľko nesprávne vyraďujú nezanedbateľné množstvo správnych genotypov.
Výsledky
V tejto štúdii sme vytvorili databázu 28.7 millionov jednonukleotidových polymorfizmov s vysokou mierou správnosti pomocou platformy Illumina SNP bead array. Databáza bola vytvorená zo 104 buniek z dvoch bunkových línií z repozitára Coriell. Na vytvorenie vysokokvalitného referenčného genotypu sme použili genotypy rodičov a niekoľko technických replikátov bulk DNA. Táto databáza nám umožnila navrhnúť a implementovať SureTypeSC- dvojvrstvý algoritmus strojového učenia, ktorý odfiltruje väčšinu šumu a zachová kvalitné single cell genotypy. SureTypeSC tiež dáva na výstupe mieru istoty správnosti konkrétneho genotypu pomocou bayesovskej štatistiky.
@article{BUT163348,
author="VOGEL, I. and BLANSHARD, R. and HOFFMANN, E.",
title="SureTypeSC-a Random Forest and Gaussian mixture predictor of high confidence genotypes in single-cell data",
journal="BIOINFORMATICS",
year="2019",
volume="35",
number="23",
pages="5055--5062",
doi="10.1093/bioinformatics/btz412",
issn="1367-4803",
url="https://academic.oup.com/bioinformatics/article-abstract/35/23/5055/5497252?redirectedFrom=fulltext"
}