Исследовательская вертикаль · health-AI

EgorGenom

Health-AI исследовательская вертикаль — геномика редких болезней. Это исследование, удерживаемое на уровне клинических стандартов, — а не коммерческий продукт.

Что это

EgorGenom — повторный полногеномный (WGS) анализ, который ведёт родитель для ребёнка с подозрением на генетическое заболевание, параллельно с клинической командой. По сути это домашняя лаборатория биоинформатики, собранная по тому же стандарту, что используют клинические геномные службы, — чтобы дать одному ребёнку ту глубину разбора, которую высокопоточный конвейер редко может позволить отдельному случаю.

Стек

Это не любительская сборка — это индустриальный, open-source геномный тулчейн, который запускают клинические лаборатории и национальные центры секвенирования, собранный от и до и зафиксированный для воспроизводимости.

Слой	Инструменты
Оркестрация	`nf-core/sarek` 3.5.1 и `nf-core/raredisease` (Nextflow) — два независимых пайплайна для кросс-валидации.
Выравнивание	BWA-MEM2 (независимое перевыравнивание из сырых FASTQ; ~18 ГБ CRAM).
Вызов SNV / indel	DeepVariant, GATK4 HaplotypeCaller, Strelka2, bcftools — консенсус нескольких callers, а не один.
Структурные / CNV	Manta, CNVkit, скрин CNV по глубине покрытия.
Повторы (STR)	ExpansionHunter + REViewer.
Псевдогены / паралоги	Gauchian (GBA1), Paraphase — области, которые стандартные пайплайны молча пропускают.
Фармакогеномика · мтДНК	PharmCAT; отдельный анализ митохондриальной ДНК.
Аннотация и патогенность	VEP 112 с ClinVar, SpliceAI, CADD, REVEL, AlphaMissense, LOFTEE; частоты в популяции gnomAD v4.1.
Триаж	4-уровневый клинический триаж с автоматизированной поддержкой ACMG-критериев.
Синтез доказательств	Живые PubMed / ClinVar / OMIM, bioRxiv, Consensus, ClinicalTrials, ChEMBL (через слой Bio-Research MCP).
Инфраструктура	WSL2 Ubuntu 24.04, Docker (контейнеры зафиксированы по digest), метаданные в SQLite. ~500 ГБ диска, 32 ГБ RAM, опционально GPU RTX 3070 для DeepVariant.
Воспроизводимость	Сквозной runbook (FASTQ → клинический отчёт), SHA256-манифесты данных, провенанс FASTQ и пререгистрированные неизменяемые числовые пороги.

Объём и глубина работ

Анализ шёл фазами: аудит литературы и слепая панель из шести экспертов (клинический генетик, биоинформатик, детский невролог, профильный по заболеванию и статистический генетик); целевой мульти-caller консенсус; полный перевызов WGS из сырых прочтений (~21,5 ч вычислений); проход закрытия пробелов по псевдогенам, повторам и CNV; и пакет клинической передачи — 82 документа, ~109 000 слов, двуязычно (EN + RU), с методами, биомаркерными деревьями решений и поэтапными рекомендациями, написанными для лечащих врачей.

Главный результат: семь независимых комбинаций caller × пайплайн сошлись по каждому кандидату — слой вызова, по выражению самого проекта, «пуленепробиваем».

Почему домашняя лаборатория может копать глубже

Государственная диагностическая служба обрабатывает много пациентов в потоковом конвейере и даёт каждому случаю ограниченное число проходов. Анализ, который ведёт родитель, не на этих часах — он может потратить гораздо больше итераций на одного ребёнка: перевызвать геном из сырых прочтений, закрыть пробелы, которые стандартный пайплайн пропускает (псевдогены, повторы, вариации числа копий), и заново провести триаж каждого кандидата против самых свежих версий баз данных. Больше callers, больше проходов, больше тщательности — для одного пациента.

Чему это эквивалентно по стоимости

Софт бесплатен и open-source; что стоит сопоставимая работа в другом месте — это время экспертов. Клинический повторный WGS-анализ и интерпретация такой глубины — независимый перевызов, разрешение псевдогенов, мульти-базовый триаж, ACMG-курация и письменная клиническая передача — это тот объём, который диагностическая лаборатория или биоинформатическая консалтинговая компания обычно оценивает в тысячи–десятки тысяч долларов за случай, поверх самого секвенирования. Вычисления скромные (одна рабочая станция или несколько сотен долларов облака на геном); ценность — в глубине и числе проходов. (Цифры — оценка порядка величины, только для контекста.)

Найти поломку — лишь половина работы

По всем семи комбинациям caller × пайплайн слой вызова был единогласен — одни и те же кандидаты находились каждый раз. Все значимые расхождения с исходным анализом были на слое интерпретации: механизм болезни, насколько ген подходит фенотипу ребёнка и как взвешивать литературу и клинические базы. Именно поэтому работа ведётся вместе с клинической командой, а не вместо неё. Подтверждённый вариант — это отправная точка; превращение его в диагноз — клиническое суждение, принимаемое совместно с лечащими врачами.

Почему репозиторий приватный

Репозиторий приватный из соображений клинической чувствительности — он содержит идентифицируемые данные пациента. План обезличивания регулирует любую будущую публикацию обобщённого пайплайна и методологии, при этом сырые данные депонируются только в архивы с контролируемым доступом. Приватность пациента для нас — жёсткое ограничение, а не предпочтение.

Где здесь Google Cloud (планируется)

Эта вертикаль — место, где мы рассчитываем масштабироваться на Google Cloud дальше. Это явно про будущее, а не про продакшен сегодня:

Планируется / в оценке

Vertex AI
BigQuery
Cloud Storage
Document AI

Как мы используем Google Cloud →

Vertex AI — модели скоринга фенотип→ген.
BigQuery — запросы к датасетам частот в популяции (gnomAD) в масштабе.
Cloud Storage — обезличенные геномные данные и архивы длинных прочтений.
Document AI — разбор клинических отчётов и лабораторных PDF.

Как мы используем Google Cloud Клинический / исследовательский контакт