Биоинформатическая обработка данных секвенирования

Введение

Позади так называемая "мокрая" часть работы. ДНК, РНК или белки выделены из образцов, подготовлены к секвенированию с использованием методик, подходящих под конкретные задачи. Определение последовательности секвенатором завершено, впереди "сухая" часть работы — биоинформатическая. Что же предстоит сделать исследователю, чтобы узнать последовательность генома организма, найти причину патологии (мутации) или узнать представители каких видов бактерий проживают в изучаемом водоеме? В этом материале кратко познакомимся с основными этапами работы при анализе данных секвенирования.
Оценка качества данных после секвенирования

Полученные после секвенирования данные обязательно проходят оценку качества. Это необходимо для получения достоверных результатов. При этом в самих секвенаторах уже "встроена" такая опция. Она осуществляется при помощи оценки Phred — меры качества идентификации азотистых оснований, полученных при автоматическом секвенировании ДНК [1]. Определенный показатель присваивается каждому нуклеотиду сразу после секвенирования и позволяет уже в выходном файле получить общее представление о качестве данных после секвенирования.


Сам файл со всеми выходными данными исследователи получают в формате FASTQ. Для того, чтобы узнать вердикт о качестве данных, чаще всего используется программа FastQC, которая в виде графиков представляет несколько параметров оценки. Помимо этого программа способна импортировать данные из файлов формата BAM, SAM и FASTQ.

Один из первых подходов для оценки качества секвенирования — использование набора инструментов FASTX-Toolkit. Для работы с ним необходима командная строка Linux. В настоящее время, для того, чтобы убедится в том, насколько хорошо прошел процесс определения последовательности, чаще всего используют пакет для анализа FastQC [2].

Итак, параметры, которые определяет программа:

  • средняя базовая оценка качества прочтения [3],

  • распределение нуклеотидов,

  • GC-состав. Процент GC в геноме варьируется в зависимости от вида и региона каждого генома. Для экзомных участков содержание GC составляет около 49–51 %, тогда как для полногеномного секвенирования содержание GC достигает только 38–39%,

  • наличие адаптеров,

  • количество N (непрочитанных нуклеотидов),

  • содержание K-mer — количества ридо определенных длин.
Среди преимуществ FastQC — его способность оценивать качество файла в формате BAM, полученного уже после выравнивания, о котором мы расскажем ниже [4]. Другие инструменты, используемые для оценки качества — RRINSEQ, QC-Chain, FastQ Screen [5, 6].

Также, важный шаг при первоначальной работе с данными — обрезка адаптеров, присоединенных в ходе подготовки библиотеки. Чаще всего этот этап проводится при помощи программы Trimmomatic. Необходимо провести оценку качества и убедится необходима ли дополнительная обрезка адаптеров, после чего проверить их отсутствие при помощи повторной оценки.

Причиной получения некачественных данных может оказаться качество подготовленной библиотеки. Раннее выявление загрязненных образцов, позволяет удалять их из выборки. Компания Sesana предоставляет услуги по подготовке библиотек высокого качества.
    Выравнивание

    Выравнивание последовательностей — способ упорядочить полученные после секвенирования фрагменты кода (риды) [7]. Выровненные последовательности нуклеотидных или аминокислотных остатков обычно представлены в виде строк в матрице. При этом очень короткие или похожие последовательности можно выравнивать вручную. Однако более длинные риды выровнять без помощи компьютерных алгоритмов нельзя. Человек, в свою очередь, создает эти алгоритмы и корректирует окончательные результаты.

    Выравнивание последовательностей упорядочивает две или более нуклеотидных (или аминокислотных) последовательностей для выявления областей сходства между ними. Эти области помогают понять функциональные, структурные и эволюционные отношения между последовательностями.

    Вычислительные подходы к выравниванию последовательностей обычно делятся на две категории: глобальное выравнивание и локальное выравнивание. Глобальное выравнивание — это метод сравнения двух последовательностей, который выравнивает их длину, максимизируя общее сходство. Он используется при сравнении последовательностей одинаковой длины.

    При локальном выравнивании вместо того, чтобы пытаться сопоставить всю длину последовательностей, выравниваются только области с наибольшей плотностью совпадений. Это полезно для идентификации коротких консервативных областей в аминокислотных или нуклеотидных последовательностях.
    Сравнение глобального и локального выравнивания. Источник: [8]
    Для проведения выравнивания существует специализированное ПО, например META или UNIGEN. В тоже время выравнивание можно проводить при помощи инструментов командной строки Linux прямо на сервере или работать с ридами в браузере, используя Blastim — встроенный инструмент для выравнивания на сайте NCBI. Удобство последнего в том, что он находит закономерности с уже добавленными в базу данных последовательностями и определяет сходство с ними. Так, например, можно определять состав микробиома или определять принадлежность образца к определенному виду.
    Сборка генома

    Секвенирование по Сэнгеру позволяет получать на выходе файлы с информацией о последовательности ДНК длиной до 1000 пар оснований, при этом соседние риды обычно перекрываются на 100-200 пар оснований. Выходит, что весь гаплоидный геном человека во время секвенирования превращается в пазл из 30 миллионов кусочков. Не стоит забывать, что некоторые фрагменты будут отсутствовать совсем. Чтобы компенсировать наличие пробелов в последовательности, секвенирование проводят параллельно несколько раз. Именно поэтому программы по сборке генома из ридов требуют огромных вычислительных мощностей [9].


    Появление технологий коротких прочтений усложнили вычислительную задачу при работе с человеческим геномом, повысив количество прочитанных фрагментов до 2-3 миллиардов. В зависимости от длины и количества ридов, будет принято решение об определенном подходе к сборке.

    Ошибки при сборке могут возникать по следующим причинам:

    • некоторые фрагменты ошибочно помечаются, как повторы

    • неправильно происходит соединение фрагментов
    Сборка генома — процесс соединения большого количества коротких последовательностей ДНК для воссоздания всего исходного генома. Сборки генома de novo предполагают отсутствие предварительных знаний о длине, расположении или составе последовательности исходной ДНК. В процессе секвенирования ДНК целевого организма разбивается на миллионы мелких фрагментов и считывается секвенатором. Длина этих ридов варьируется от 20 до 1000 пар нуклеотидных оснований, в зависимости от используемого метода секвенирования. Как правило, для короткого секвенирования по типу Illumina получаются риды длиной 36–150 п.н.

    Протокол с парным чтением концов сотрудники лабораторий выбирают, когда размер фрагмента, используемого в процессе секвенирования, больше 500 п.н.. В результате получается два «парных» рида. Один с левого конца фрагмента и один с правого с известным расстоянием между ними [10].

    Сначала формируются контиги — группы перекрывающихся фрагментов ДНК. Затем они упорядочиваются относительно друг друга. Сборка усложняется тем, что многие геномы содержат большое количество идентичных последовательностей повторов. Они могут иметь длину в тысячи нуклеотидов, которые чаще всего встречаются в геномах сложных форм жизни — растениях и животных.
    Аннотация генома

    Аннотация генома — процесс описания структуры и функций компонентов генома. Этот процесс сотрудники лабораторий осуществляют путем анализа и интерпретации для выяснения биологической роли генов в определенных процессах. Аннотирование позволяет как определить расположение генов, так и выяснить какие функции они выполняют [11].

    Аннотирование выполняется после секвенирования и сборки генома. Это необходимый шаг в анализе последовательности перед тем, как результат секвенирования будет определен в базу данных и представлен в формате научной публикации. Из-за большого объема данных, аннотация ДНК автоматизирована, а не выполняется вручную. Однако, чтобы повысить надежность результата, необходим "ручной" экспертный анализ [12].

    Аннотация ДНК подразделяется на два типа: структурная аннотация, которая идентифицирует и разграничивает элементы в геноме, и функциональная аннотация, которая назначает функции этим элементам [13].
    Схема аннотирования генома. Источник: [14]
    Поиск вариантов в геноме

    В огромном массиве данных, полученных в результате секвенирования, может быть сложно обнаружить одну единственную мутацию, которая стала причиной патологии. Ученые подсчитали, что геном каждого человека содержит от 3 до 4 миллионов мутаций, представляющих собой специфические изменения в последовательности ДНК [15].

    Определение вариантов гена или другого фрагмента последовательности ДНК выполняется с соблюдением нескольких основных шагов. При этом инструментарий в руках ученых весьма разнообразен. Сперва исследователи получают файл с отсеквенированной последовательностью в формате FASTQ. Затем последовательность сопоставляют с эталонным геномом и получают файл в формате BAM или CRAM. Затем алгоритмы определяют, где именно исследуемая последовательность отличается от эталонного генома. Полученный на этом шаге файл записывается в формате VCF [16]. Может быть так, что в каждом крупном исследовательском центре ученые разрабатывают и используют собственные алгоритмы для идентификации мутаций.
    Заключение

    Чаще всего работа с данными начинается с оценки качества. Затем следует выравнивание отдельных фрагментов, сборка генома (если работа идет именно с ним) и его аннотирование — определение в последовательности конкретных генов и их функций. Уже после, в зависимости от конкретных задач, начинается поиск вариантов, ответственных за патологию или изучаемый признак.
    Источники

    Источники:
    1. Guo Y. et al. Three-stage quality control strategies for DNA re-sequencing data //Briefings in bioinformatics. – 2014. – Т. 15. – №. 6. – С. 879-889.
    2. Ewing B. et al. Base-calling of automated sequencer traces usingPhred. I. Accuracy assessment //Genome research. – 1998. – Т. 8. – №. 3. – С. 175-185.
    3. Li H. et al. The sequence alignment/map format and SAMtools //bioinformatics. – 2009. – Т. 25. – №. 16. – С. 2078-2079.
    4. Schmieder R., Edwards R. Quality control and preprocessing of metagenomic datasets //Bioinformatics. – 2011. – Т. 27. – №. 6. – С. 863-864.
    5. Zhou Q. et al. QC-Chain: fast and holistic quality control method for next-generation sequencing data //PloS one. – 2013. – Т. 8. – №. 4. – С. e60234.
    6. Gollery M. Bioinformatics: sequence and genome analysis //Clinical Chemistry. – 2005. – Т. 51. – №. 11. – С. 2219.
    7. Ganesh P. et al. Nucl2Vec: Local alignment of DNA sequences using Distributed Vector Representation //Biorxiv. – 2018. – С. 401851.
    8. Baker M. De novo genome assembly: what every biologist should know //Nature methods. – 2012. – Т. 9. – №. 4. – С. 333-337.
    9. Gladman S., "De novo Genome Assembly for Illumina Data" / Bioinformatics Documentation (URL: https://www.melbournebioinformatics.org.au/)
    10. Davis S. P., "Medical Definition of Genome annotation" / MedicineNet (URL: https://www.medicinenet.com/)
    11. Mishra P. et al. Genome assembly and annotation //Bioinformatics. – Academic Press, 2022. – С. 49-66.
    12. Bright L. A. et al. Structural and functional-annotation of an equine whole genome oligoarray //BMC bioinformatics. – BioMed Central, 2009. – Т. 10. – №. 11. – С. 1-8.
    13. "Building Blueprints – How to assemble a genome" / The G-Cat, 2021. (URL:https://theg-cat.com/)
    14. Steven I., Benowitz M.A., "Genomics' daunting challenge: Identifying variants that matter" / National Human Genome Research Institute, 2014. (URL: https://www.genome.gov/)
    15. "Variant identification and analysis" / EMBL-EBI Training (https://www.ebi.ac.uk/training/)