Сравнение таргетного секвенирования
с использованием различных секвенаторов
Данные об исследовании

Систематическое сравнение результатов таргетного секвенирования генома
с использованием нескольких секвенаторов следующего поколения.

Было проведено исследование, опубликованное в статье
Front. Genet., от 4 января 2024 г.
Раздел " Технология геномного анализа "
Том 14 — 2023 | https://doi.org/10.3389/fgene.2023.1293974

Введение

Таргетное геномное секвенирование (TS) значительно повышает эффективность прецизионной онкологии за счёт быстрого выявления генетических вариаций с более высокой точностью и чувствительностью благодаря высокой глубине секвенирования. Для TS доступны несколько платформ секвенирования и инструментов для определения вариантов, что затрудняет выбор для исследователей. Поэтому крайне важно провести сравнительное исследование различных платформ и конвейеров, доступных для TS.

Было проведено систематическое изучение качества секвенирования и чувствительность к обнаружению вариантов, чтобы дать оптимальные рекомендации для будущих исследований.

Исследование

В исследовании было проведено секвенирование эталонного образца OncoSpan FFPE (HD832), обогащённого панелью TSO500, с помощью четырёх серийно выпускаемых секвенаторов и проанализировали полученные 50 наборов данных с помощью пяти широко используемых биоинформационных конвейеров.

В исследовании было проведено всестороннее сравнение шести серийно выпускаемых секвенаторов (NA: NovaSeq 6000, NS: NextSeq 550, MGI: MGISEQ-2000, GL: GenoLab M, SF: SURFSeq 5000 и FS: FASTASeq 300) и пяти широко используемых биоинформационных конвейеров для выявления вариантов опухолей. Эти конвейеры получили высокую оценку или могли выявлять низкочастотные вариации путём настройки соответствующих параметров. HaplotypeCaller (HC) (McKenna et al., 2010) и Mutect2 (Benjamin et al., 2019) были инструментами, связанными с GATK. SiNVICT (Коккан и др., 2017) и SNVer (Вей и др., 2011) с коротким и длинным временем выполнения соответственно, а также VarScan 2 (Кобoldt и др., 2012) получили широкое признание, набрав более 4500 цитирований (таблица S1).
Была использована одна и та же библиотека для секвенирования ДНК (HD832, полученную с помощью панели TSO500) для каждой платформы, чтобы избежать несоответствий, вызванных различиями в построении библиотеки. После фильтрации, выравнивания и удаления дубликатов 10 наборов данных (FS 3, GL 3, NA 3 и NS 1) были подвергнуты пяти аналитическим процедурам для определения вариантов: HC, Mutect2, SiNVICT, SNVer и VarScan 2 (рисунок S1).

Сравнительный анализ производительности при выявлении вариантов по сравнению с эталонным набором данных. (A, B) Чувствительность выявления SNP (a) и InDel (b) с помощью пяти конвейеров по сравнению с четырьмя платформами. (C) Сравнение выявления SNP и InDel с вариантами, подтвержденными с помощью ddPCR. (D) Тепловая карта корреляции Пирсона для всех 50 наборов данных на основе относительной VAF. (E) Диаграмма Венна показывает количество вариантов, сопоставленных с целевой областью, на четырёх платформах и в пяти конвейерах. Цифры на лепестках обозначают количество конкретных мутаций, обнаруженных в соответствующем наборе данных, а центр цветка обозначает количество общих мутаций, обнаруженных во всех наборах данных. (F, G) На диаграммах сравнения сравнивается несходство при разной глубине секвенирования (платформа FS) с точки зрения времени определения вариантов, использования памяти, чувствительности обнаружения SNP и InDel с помощью инструментов SNVer (f) и VarScan2 (g). Файлы fastq разной глубины были получены в результате разных запусков секвенатора FS. FS, FASTASeq 300; NA, NovaSeq 6000; NS, NextSeq 550; GL, GenoLab M; HC, GATK_HaplotypeCaller; Mutect2, GATK_Mutect2.
Была использована одна и та же библиотека для секвенирования ДНК (HD832, полученную с помощью панели TSO500) для каждой платформы, чтобы избежать несоответствий, вызванных различиями в построении библиотеки.


Результат

Сравнительный анализ показал, что результаты, полученные с помощью платформ GeneMind (FS и GL), сопоставимы с результатами, полученными с помощью платформ Illumina (NA и NS) с точки зрения объёма и качества данных.

Все секвенаторы обеспечили сопоставимое высокое качество (более Q20) в среднем 96,49% (FS), 97,40% (NA), 97,01% (GL) и 94,05% (NS). Каждый набор данных, полученный с помощью четырёх платформ секвенирования, имеет достоверную среднюю глубину, превышающую 2000×.

Четыре платформы для секвенирования дали очень схожие результаты с точки зрения качества оснований (Q20 > 94%), покрытия секвенированием (> 97%) и глубины (> 2000×).

Короткая длина целевой последовательности и высокая глубина секвенирования способствовали высокой степени дублирования. Чтобы обеспечить совместимость с относительно низким уровнем покрытия, мы понизили частоту дискретизации данных с глубиной ≥4×, ≥10×, ≥30× и ≥100×, и покрытие на разных уровнях для всех наборов данных составило более 97%.

Средняя глубина секвенирования для каждого гена на нескольких секвенаторах варьировалась от 31,56 до 4823,42 ×. В целом, наборы данных с четырёх платформ секвенирования показали очень высокое качество, соответствующее требованиям к высокой глубине секвенирования панели с удовлетворительной однородностью.

Сравнительный анализ показал хорошую согласованность определения вариантов на разных платформах и в разных конвейерах, среди которых платформа FASTASeq 300 показала самую высокую чувствительность (100%) и точность (100%) при определении высокодостоверных вариантов при анализе с помощью алгоритмов SNVer и VarScan 2.
Кроме того, этот секвенатор продемонстрировал самое короткое время секвенирования (∼21 ч) в режиме секвенирования PE150.

На основе пересечения 50 наборов данных, полученных в ходе этого исследования, был рекомендован новый набор генов-вариантов, не входящих в набор эталонных данных HD832 для будущих исследований в области диагностики вариантов опухолей.

Кроме того, были применены эти пять инструментов к другой панели (TargetSeq One) для эталонного стандарта Twist cfDNA по всем видам рака. SNVer и VarScan 2 показали наилучшие результаты.

Кроме того, SNVer и VarScan 2 также показали наилучшие результаты для образцов шести линий раковых клеток в отношении чувствительности к SNP и InDel.

Что касается F-показателя и точности, конвейеры SNVer и VarScan2 также показали наилучшие результаты при выявлении SNP и инделей. Аналогичным образом, при сравнении с эталонным набором данных, подтвержденным методом ddPCR, было отмечено высокое соответствие при выявлении вариантов, особенно с помощью инструментов SNVer и VarScan2 (рис. 1C). Для панели TargetSeq One SNVer и VarScan2 показали значения, близкие к 100%, для F-показателя, полноты и точности SNP и InDel при почти одинаковой глубине секвенирования. При секвенировании панели из шести образцов клеточных линий рака молочной железы и яичников все пять инструментов безупречно сработали в трёх образцах, в то время как в остальных трёх образцах результаты SNVer и VarScan2 были наиболее близки к истинному набору.

Таким образом, технологии Illumina и GeneMind могут использоваться независимо друг от друга или совместно в лабораториях общественного здравоохранения, выполняющих секвенирование опухолей.