Оценка качества данных после секвенированияПолученные после секвенирования данные обязательно проходят оценку качества. Это необходимо для получения достоверных результатов. При этом в самих секвенаторах уже "встроена" такая опция. Она осуществляется при помощи оценки Phred — меры качества идентификации азотистых оснований, полученных при автоматическом секвенировании ДНК [1]. Определенный показатель присваивается каждому нуклеотиду сразу после секвенирования и позволяет уже в выходном файле получить общее представление о качестве данных после секвенирования.
Сам файл со всеми выходными данными исследователи получают в формате FASTQ. Для того, чтобы узнать вердикт о качестве данных, чаще всего используется программа FastQC, которая в виде графиков представляет несколько параметров оценки. Помимо этого программа способна импортировать данные из файлов формата BAM, SAM и FASTQ.
Один из первых подходов для оценки качества секвенирования — использование набора инструментов FASTX-Toolkit. Для работы с ним необходима командная строка Linux. В настоящее время, для того, чтобы убедится в том, насколько хорошо прошел процесс определения последовательности, чаще всего используют пакет для анализа FastQC [2].
Итак, параметры, которые определяет программа:
- средняя базовая оценка качества прочтения [3],
- распределение нуклеотидов,
- GC-состав. Процент GC в геноме варьируется в зависимости от вида и региона каждого генома. Для экзомных участков содержание GC составляет около 49–51 %, тогда как для полногеномного секвенирования содержание GC достигает только 38–39%,
- наличие адаптеров,
- количество N (непрочитанных нуклеотидов),
- содержание K-mer — количества ридо определенных длин.
Среди преимуществ FastQC — его способность оценивать качество файла в формате BAM, полученного уже после выравнивания, о котором мы расскажем ниже [4]. Другие инструменты, используемые для оценки качества — RRINSEQ, QC-Chain, FastQ Screen [5, 6].
Также, важный шаг при первоначальной работе с данными — обрезка адаптеров, присоединенных в ходе подготовки библиотеки. Чаще всего этот этап проводится при помощи программы Trimmomatic. Необходимо провести оценку качества и убедится необходима ли дополнительная обрезка адаптеров, после чего проверить их отсутствие при помощи повторной оценки.
Причиной получения некачественных данных может оказаться качество подготовленной библиотеки. Раннее выявление загрязненных образцов, позволяет удалять их из выборки. Компания Sesana предоставляет
услуги по подготовке библиотек высокого качества.