Исследовательская вертикаль · health-AI
EgorGenom
Health-AI исследовательская вертикаль — геномика редких болезней. Это исследование, удерживаемое на уровне клинических стандартов, — а не коммерческий продукт.
Что это
EgorGenom — повторный полногеномный (WGS) анализ, который ведёт родитель для ребёнка с подозрением на генетическое заболевание, параллельно с клинической командой. По сути это домашняя лаборатория биоинформатики, собранная по тому же стандарту, что используют клинические геномные службы, — чтобы дать одному ребёнку ту глубину разбора, которую высокопоточный конвейер редко может позволить отдельному случаю.
Стек
Это не любительская сборка — это индустриальный, open-source геномный тулчейн, который запускают клинические лаборатории и национальные центры секвенирования, собранный от и до и зафиксированный для воспроизводимости.
| Слой | Инструменты |
|---|---|
| Оркестрация | nf-core/sarek 3.5.1 и nf-core/raredisease (Nextflow) — два независимых пайплайна для кросс-валидации. |
| Выравнивание | BWA-MEM2 (независимое перевыравнивание из сырых FASTQ; ~18 ГБ CRAM). |
| Вызов SNV / indel | DeepVariant, GATK4 HaplotypeCaller, Strelka2, bcftools — консенсус нескольких callers, а не один. |
| Структурные / CNV | Manta, CNVkit, скрин CNV по глубине покрытия. |
| Повторы (STR) | ExpansionHunter + REViewer. |
| Псевдогены / паралоги | Gauchian (GBA1), Paraphase — области, которые стандартные пайплайны молча пропускают. |
| Фармакогеномика · мтДНК | PharmCAT; отдельный анализ митохондриальной ДНК. |
| Аннотация и патогенность | VEP 112 с ClinVar, SpliceAI, CADD, REVEL, AlphaMissense, LOFTEE; частоты в популяции gnomAD v4.1. |
| Триаж | 4-уровневый клинический триаж с автоматизированной поддержкой ACMG-критериев. |
| Синтез доказательств | Живые PubMed / ClinVar / OMIM, bioRxiv, Consensus, ClinicalTrials, ChEMBL (через слой Bio-Research MCP). |
| Инфраструктура | WSL2 Ubuntu 24.04, Docker (контейнеры зафиксированы по digest), метаданные в SQLite. ~500 ГБ диска, 32 ГБ RAM, опционально GPU RTX 3070 для DeepVariant. |
| Воспроизводимость | Сквозной runbook (FASTQ → клинический отчёт), SHA256-манифесты данных, провенанс FASTQ и пререгистрированные неизменяемые числовые пороги. |
Объём и глубина работ
Анализ шёл фазами: аудит литературы и слепая панель из шести экспертов (клинический генетик, биоинформатик, детский невролог, профильный по заболеванию и статистический генетик); целевой мульти-caller консенсус; полный перевызов WGS из сырых прочтений (~21,5 ч вычислений); проход закрытия пробелов по псевдогенам, повторам и CNV; и пакет клинической передачи — 82 документа, ~109 000 слов, двуязычно (EN + RU), с методами, биомаркерными деревьями решений и поэтапными рекомендациями, написанными для лечащих врачей.
Главный результат: семь независимых комбинаций caller × пайплайн сошлись по каждому кандидату — слой вызова, по выражению самого проекта, «пуленепробиваем».
Почему домашняя лаборатория может копать глубже
Государственная диагностическая служба обрабатывает много пациентов в потоковом конвейере и даёт каждому случаю ограниченное число проходов. Анализ, который ведёт родитель, не на этих часах — он может потратить гораздо больше итераций на одного ребёнка: перевызвать геном из сырых прочтений, закрыть пробелы, которые стандартный пайплайн пропускает (псевдогены, повторы, вариации числа копий), и заново провести триаж каждого кандидата против самых свежих версий баз данных. Больше callers, больше проходов, больше тщательности — для одного пациента.
Чему это эквивалентно по стоимости
Софт бесплатен и open-source; что стоит сопоставимая работа в другом месте — это время экспертов. Клинический повторный WGS-анализ и интерпретация такой глубины — независимый перевызов, разрешение псевдогенов, мульти-базовый триаж, ACMG-курация и письменная клиническая передача — это тот объём, который диагностическая лаборатория или биоинформатическая консалтинговая компания обычно оценивает в тысячи–десятки тысяч долларов за случай, поверх самого секвенирования. Вычисления скромные (одна рабочая станция или несколько сотен долларов облака на геном); ценность — в глубине и числе проходов. (Цифры — оценка порядка величины, только для контекста.)
Найти поломку — лишь половина работы
По всем семи комбинациям caller × пайплайн слой вызова был единогласен — одни и те же кандидаты находились каждый раз. Все значимые расхождения с исходным анализом были на слое интерпретации: механизм болезни, насколько ген подходит фенотипу ребёнка и как взвешивать литературу и клинические базы. Именно поэтому работа ведётся вместе с клинической командой, а не вместо неё. Подтверждённый вариант — это отправная точка; превращение его в диагноз — клиническое суждение, принимаемое совместно с лечащими врачами.
Почему репозиторий приватный
Репозиторий приватный из соображений клинической чувствительности — он содержит идентифицируемые данные пациента. План обезличивания регулирует любую будущую публикацию обобщённого пайплайна и методологии, при этом сырые данные депонируются только в архивы с контролируемым доступом. Приватность пациента для нас — жёсткое ограничение, а не предпочтение.
Где здесь Google Cloud (планируется)
Эта вертикаль — место, где мы рассчитываем масштабироваться на Google Cloud дальше. Это явно про будущее, а не про продакшен сегодня:
- Vertex AI — модели скоринга фенотип→ген.
- BigQuery — запросы к датасетам частот в популяции (gnomAD) в масштабе.
- Cloud Storage — обезличенные геномные данные и архивы длинных прочтений.
- Document AI — разбор клинических отчётов и лабораторных PDF.