开源
Deepvariant:基于深度学习的变体调用程序
来源:元经纪     阅读:937
网站管理员
发布于 2023-01-29 06:44
查看主页

概述

Deepvariant 是一个分析管道,使用深度神经网络调用来自下一代 DNA 测序数据的遗传变异。

DeepVariant 是一种基于深度学习的变体调用程序,它采用对齐读取(BAM 或 CRAM 格式),从中生成堆积图像张量,使用卷积神经网络对每个张量进行分类,最后在标准 VCF 或 gVCF 文件中报告结果。

DeepVariant 支持二倍体生物中的种系变异检出。

另请注意:

DeepTrio

DeepTrio 是一个基于深度学习的三重奏变体调用程序,构建在 DeepVariant 之上。DeepTrio 扩展了 DeepVariant 的功能,使其能够利用神经网络的强大功能来预测

DeepTrio 支持在二倍体生物中对以下类型的输入数据进行种系变异检出:

另请注意:

如何运行 DeepVariant

[hidecontent type="logged" desc="隐藏内容:登录后可查看"]

我们推荐使用我们的 Docker 解决方案。该命令将如下所示:

BIN_VERSION="1.4.0"
docker run \
  -v "YOUR_INPUT_DIR":"/input" \
  -v "YOUR_OUTPUT_DIR:/output" \
  google/deepvariant:"${BIN_VERSION}" \
  /opt/deepvariant/bin/run_deepvariant \
  --model_type=WGS \ **Replace this string with exactly one of the following [WGS,WES,PACBIO,HYBRID_PACBIO_ILLUMINA]**
  --ref=/input/YOUR_REF \
  --reads=/input/YOUR_BAM \
  --output_vcf=/output/YOUR_OUTPUT_VCF \
  --output_gvcf=/output/YOUR_OUTPUT_GVCF \
  --num_shards=$(nproc) \ **This will use all your cores to run make_examples. Feel free to change.**
  --logging_dir=/output/logs \ **Optional. This saves the log output for each stage separately.
  --dry_run=false **Default is false. If set to true, commands will be printed out but not executed.

要查看您可以使用的所有标志,请运行:docker run google/deepvariant:"${BIN_VERSION}"

如果您使用的是 GPU,或者想改用 Singularity,请参阅 快速入门了解更多详细信息或查看所有可用的 设置选项

有关详细信息,另请参阅:

如何引用

如果您在工作中使用 DeepVariant,请引用:

使用深度神经网络的通用 SNP 和小插入缺失变体调用程序。自然生物技术36, 983–987 (2018)。 Ryan Poplin、Pi-Chuan Chang、David Alexander、Scott Schwartz、Thomas Colthurst、Alexander Ku、Dan Newburger、Jojo Dijamco、Nam Nguyen、Pegah T. Afshar、Sam S. Gross、Lizzie Dorfman、Cory Y. McLean 和 Mark A . DePristo。 doi: https://doi.org/10.1038/nbt.4235

此外,如果您使用我们的 DeepVariant 和 GLnexus 最佳实践生成多样本调用,请引用:

使用 DeepVariant 和 GLnexus 进行准确、可扩展的队列变体调用。 生物信息学(2021)。 Taedong Yun、Helen Li、Pi-Chuan Chang、Michael F. Lin、Andrew Carroll 和 Cory Y. McLean。 doi: https://doi.org/10.1093/bioinformatics/btaa1081

为什么使用 DeepVariant?

  • 高精度——DeepVariant 在 ONT、PacBio 和多​​种技术类别的所有基准区域 赢得了 2020 PrecisionFDA Truth Challenge V2 ,并赢得了 2016 PrecisionFDA Truth Challenge 的最佳 SNP 性能。DeepVariant 在来自不同测序技术、制备方法和物种的数据中保持高精度。对于 较低的覆盖率,使用 DeepVariant 会产生特别大的差异。查看 指标以了解每种测序类型的最新准确度数字。
  • 灵活性——开箱即用,适用于 PCR 阳性 样本和 低质量测序运行,并可针对不同的测序技术 和 非人类物种轻松调整 。
  • 易于使用- 除了设置您首选的最低质量阈值外,无需过滤。
  • 成本效益——在谷歌云上使用一台不可抢占的 n1-standard-16 机器,调用 30 倍全基因组的成本约为 11.8 美元,调用外显子组的成本约为 0.89 美元。采用抢占式定价,30 倍全基因组的成本为 2.84 美元,整个外显子组的成本为 0.21 美元(不考虑抢占)。
  • 速度- 查看64 核 CPU 机器上所有支持的数据类型的运行时间指标。存在多种加速选项。
  • 使用选项- DeepVariant 可以通过 Docker 或二进制文件运行,使用本地硬件或在云端运行,支持 GPU 和 TPU 等硬件加速器。

(1):时间估计不包括映射。

DeepVariant 的工作原理

有关 pileup 图像以及如何阅读它们的更多信息,请参阅 “通过 DeepVariant 的眼睛看”博文

DeepVariant 依赖于Nucleus,这是一个 Python 和 C++ 代码库,用于以常见的基因组学文件格式(如 SAM 和 VCF)读取和写入数据,旨在与 TensorFlow机器学习框架轻松集成。Nucleus 在构建时考虑了 DeepVariant 并单独开源,因此基因组学研究社区中的任何人都可以将其用于其他项目。请参阅这篇关于使用 Nucleus 和 TensorFlow 进行 DNA 测序错误校正的博客文章 。

DeepVariant 设置

先决条件

  • 类 Unix 操作系统(不能在 Windows 上运行)
  • Python 3.6

官方解决方案

以下是 Genomics 团队在 Google Health中提供的官方解决方案。

[/hidecontent]

 

免责声明:本文为用户发表,不代表网站立场,仅供参考,不构成引导等用途。 开源
12张海报,带你回眸2024“天津味” 扫码阅读手机版
春风里寻找破土的新芽
德国反垄断机构负责人:人工智能可能会强化大企业主导地位
微信通讯录好友删除了怎么恢复,3个方法帮你紧急恢复
“大数据+大模型”赋能,山东华昱推进企业数字化研发体系建设

首页

分类

定制方案

消息

我的