Как проходит подготовка библиотеки для секвенирования?

Введение

Совершенствование технологии секвенирования привело к уменьшению затрат и повышению качества, а также расширению спектра применения метода. В этой статье мы рассмотрим значение подготовки высококачественных библиотек для NGS, а также влияние таких факторов, как количество и качество исходного материала ДНК и РНК.

Условно NGS разделяют на четыре этапа: предварительная обработка образцов, подготовка библиотеки, секвенирование и биоинформатическая обработка данных. Несмотря на разнообразие современных методов секвенирования, все они требуют специальной подготовки образцов и формирования библиотеки [1].

Библиотеки секвенирования состоят из фрагментов ДНК определенных длин с олигомерными адаптерами на 5'- и 3'-концах для штрих-кодирования, а также самого процесса секвенирования.
Общая схема секвенирования
Создание библиотеки ДНК

Фрагментация

Библиотека для секвенирования представляет собой некое количество (пул) фрагментов ДНК с прикрепленными адаптерами [2]. Сперва выделенная ДНК подвергается фрагментации — разрыву цепи, которого можно добиться с помощью физических или химических методов. Для секвенирования на платформе Illumina NextSeq 550 необходимы достаточно короткие фрагменты длиной от 350 до 550 пар нуклеотидов [3]. В качестве физического метода, например, используют воздействие ультразвуковых волн. Они создают кавитационные пузырьки, схлопывание которых приводит к разрыву цепи ДНК [4]. Для создания более длинных фрагментов ДНК чаще использую гидродинамическую фрагментацию. Другой подход, химический, включает в себя добавление специальных ферментов – эндонуклеаз рестрикции, которые также разрезают цепь ДНК на фрагменты.


Каждый метод секвенирования требует библиотеки с фрагментами определенной длины. Поэтому фрагменты других длин удаляют, например, при помощи магнитных шариков или электрофореза. Есть производители, которые для этого этапа работы предлагают спин-колонки [5]. При подготовке библиотеки необходимо постараться соблюсти присутствие определенного количество уникальных фрагментов, которые максимально специфичны для конкретного образца. По мере развития подходов к подготовке библиотеки требования к качеству становятся менее строгими.
    Репарация концов

    После того, как получены фрагменты ДНК, проводят репарацию их концов. Как правило, одно основание аденина добавляется для образования выступающего поли-А-конца.. Этот "хвостик" позволяет адаптерам, содержащим одно выступающее основание тимина, образовывать пару оснований с фрагментами ДНК.

    Более детально процесс репарации концов происходит следующим образом: концы фрагментов фосфорилируются по 5'-концу с использованием смеси трех ферментов: Т4 полинуклеотидкиназы, ДНК-полимеразы Т4 и фрагмента Кленова. Затем к 3'-концам присоединяют А-хвост с помощью Taq-полимеразы или фрагмента Кленова (exo-).
    Присоединение адаптеров

    Затем следует присоединение адаптеров — коротких синтезированных олигонуклеотидов [6]. Они нужны для прикрепления фрагментов к платформе для секвенирования, а еще адаптеры могут включать в себя так называемые штрих-коды для определения того, где изначально находился определенный нуклеотид. Прикрепление адаптеров обеспечивает Taq-полимераза. На один фрагмент ДНК приходится до 10 адаптеров. Большее количество приводит к образованию димеров, которые снижают качество последующего секвенирования. Помимо лишних адаптеров сказаться на качестве может и обилие фрагментов разной длины, поэтому их удаляют из раствора.

    Большинство протоколов подготовки библиотеки включают в себя этап амплификации для прикрепления адаптеров и увеличения концентрации необходимых фрагментов ДНК.
    Проверка качества и концентрации

    Полученная библиотека обязательно проходит через оценку качества и количества полученного пула фрагментов. Это важный этап подготовки библиотеки, так как по нему становится понятно пригодна ли она для секвенирования. Для определения концентрации используют спектрофлуориметрический метод, количественную ПЦР в реальном времени (кПЦР) и капельную цифровую ПЦР (ддПЦР).

    Есть и другой метод подготовки библиотеки — тагментация [7]. Для фрагментации ДНК и одновременного присоединения адаптеров к обоим концам фрагментов используется сконструированный фермент транспозаза. В конечном итоге, он объединяет фрагментацию ДНК, восстановление концов и лигирование адаптеров в один этап. Особенность метода — его повышенная по сравнению с другими методами, чувствительность к концентрации ДНК.
    Общая схема подготовки библиотеки для секвенирования
    Создание библиотеки РНК
    Особенности создания библиотеки РНК

    При секвенировании РНК сначала необходимо транскрибировать РНК в кДНК. Загвоздка в том, что платформы в целом разработаны для работы с ДНК, ведь она более стабильна и ее можно амплифицировать с помощью ДНК-полимеразы [8]. Фрагментацию можно проводить либо до, либо после синтеза кДНК. После создания библиотеки кДНК молекулы фрагментируют и амплифицируют при необходимости. Затем к каждому концу фрагментов добавляются адаптеры. После можно использовать определенную стратегию отбора для обогащения библиотеки интересующим типом РНК.

    рРНК — наиболее распространенный компонент общего пула РНК, выделенной из клеток и тканей человека, она составляет до 90% образца РНК [9]. Но она должна быть удалена из общего пула РНК перед секвенированием, чтобы обеспечить эффективное обнаружение генов. Существует два основных подхода: отбор полиаденилированной РНК с использованием олигопраймеров и удаление рРНК путем гибридизационного захвата с последующим разделением на магнитных шариках [10]. Для большинства исследований транскриптома используется отбор полиаденилированной РНК. Целенаправленное удаление рРНК особенно полезно при изучении транскриптов, у которых отсутствует поли(А)-хвост, таких как некодирующие РНК или частично деградированные транскрипты.

    Точность обнаружения конкретных видов РНК во многом зависит от характера построения библиотеки. Для включения в библиотеку определенных транскриптов можно изменять параметры ее формирования. Например, модификация протокола, которую следует учитывать, — это время фрагментации РНК — если это делается до синтеза кДНК, то подобранное время обеспечивает более точную оценку количества транскриптов. Другие возможные улучшения: использование уникальных молекулярных идентификаторов (UMI) для обнаружения дубликатов ПЦР и усовершенствование анализа деградированной РНК, например, выделение из ffpe-блоков [11].
    Особенности создания библиотеки одиночных РНК

    Секвенирование РНК большого количества клеток не позволяет провести детальную оценку отдельной клетки или отдельных ядер, составляющих геном. Секвенирование РНК одной клетки используется чаще, потому что во всех клетках есть несколько копий большинства транскриптов, а стоимость проведения секвенирования РНК одной клетки намного меньше, чем секвенирование всего генома.
    Модификации подходов к созданию библиотек
    Метод Shotgun

    При использовании шотган секвенирования, ДНК случайным образом разбивается на множество небольших фрагментов, которые затем секвенируют. Множественные перекрывающиеся риды получаются в ходе нескольких параллельно проходящих процессов создания библиотеки и секвенирования [12]. Затем, при помощи ПО для сборки, риды собираются в одну последовательность. Именно методом шотган, или "дробовика", была подготовлена большая часть библиотека проекта "Геном человека".

    Ридов длиной 400-500 пар оснований достаточно для определения конкретного вида или штамма организма, при условии, что его эталонный геном уже находится в базе данных. Также, параллельное секвенирование множества фрагментов образцов окружающей среды помогает определить состав, что порой используют для определения видов кишечной микрофлоры.
    Библиотеки CCS (circular consensus sequencing)

    Библиотеки ССS создаются путем амплификации фрагментированной ДНК по принципу катящегося круга. В результате образуются ковалентно связанные тандемные копии одноцепочечной ДНК, называемые "наношариками". Их формирование позволяет очень плотно упаковать молекулы амплифицированной библиотеки для дальнейшего прикрепления на поверхности чипа [13]. Такая технология предоставляет возможность определять фрагменты геномной ДНК длиной до 75 пар нуклеотидов.
    Библиотеки CLR (continuous long reads)

    Чаще всего длина ридов варьирует от 75 до 350 пар нуклеотидов. При сборке коротких ридов в полную последовательность генома часто возникают ошибки из-за низкого покрытия. К тому же, до 15% генома остаются неустановленными из-за участков с большим количеством повторов или сильного обогащения GC [14]. Поэтому чаще всего протоколы секвенирования подразумевают использование библиотек с длинными ридами. В настоящее время активно развивается секвенирование в целом, и секвенирование с длинными ридами в частности — от 5000 до 30000 пар оснований [15]. Такой размер прочтений обеспечивает лучшее покрытие при сборке.
    Полногеномная библиотека с бисульфитной конверсией

    Полногеномное секвенирование с использованием бисульфита натрия предоставляет наиболее полные и точные данные метилирования ДНК [16]. Именно поэтому, в случае необходимости изучить метилом генома, библиотека для секвенирования подготавливается определенным образом — с бисульфитной конверсией.

    При подготовке библиотеки неметилированный цитозин в ДНК подвергают модификации, используя бисульфитную соль [17]. Бисульфит вступает в реакцию с неметилированным цитозином превращая его в урацил, который при проведении ПЦР амплифицирует в виде тимина. В свою очередь, метилированные цитозины остаются неизмененными. Таким образом при секвенировании можно с большим уровнем точности отследить эпигенетические изменения генома.
    Автоматизация создания библиотек

    Рабочие станции для выделения нуклеиновых кислот порой могут быть использованы и для подготовки библиотеки. При достаточно масштабной работеих использование значительно сокращает время, сохраняя высокую точность [18]. Например, робот Opentrons OT-2, способен выполнять большинство шагов даже сложных рабочих процессов с минимальным вмешательством сотрудника лаборатории.
    Заключение

    Подготовка библиотеки, подобно другим этапам секвенирования, требует модификаций протокола подготовки образцов под конкретную задачу. В зависимости от того, планирует исследователь изучить метилом, отследить определенные мутации или собрать эталонный геном, разнятся и методы, реактивы и оборудование.

    Тем не менее, мы выяснили, что подготовка библиотеки включает в себя несколько основных этапов: фрагментацию, репарацию концов фрагментов, присоединение адаптеров и проверку качества и концентрации. Во многом от того, насколько правильно будет выбран подход для создания библиотеки и какого качества она получится, зависит и итоговый результат NGS.
    Источники

    1. Tan J. A., Mikheyev A. S. A scaled-down workflow for Illumina shotgun sequencing library preparation: lower input and improved performance at small fraction of the cost. – PeerJ Preprints, 2016. – №. e2475v1.
    2. Mobley I., "Sample Preparation for NGS – A Comprehensive Guide", Front Line Genomics (URL: https://frontlinegenomics.com/)
    3. "TruSeq DNA Nano", Illumina (URL: https://www.illumina.com/)
    4. "Megaruptor", Diagenode (URL: https://www.diagenode.com/en)
    5. "QIAquick PCR Purification Kit", Qiagen (URL: https://www.qiagen.com/us)
    6. Head S. R. et al. Library construction for next-generation sequencing: overviews and challenges //Biotechniques. – 2014. – Т. 56. – №. 2. – С. 61-77.
    7. Wang Q. et al. Tagmentation-based whole-genome bisulfite sequencing //Nature protocols. – 2013. – Т. 8. – №. 10. – С. 2022-2032.
    8. Mackenzi R. J., "RNA-Seq: Basics, Applications and Protocol", Technology Networks (URL: https://www.technologynetworks.com/)
    9. Zhao S. et al. Evaluation of two main RNA-seq approaches for gene quantification in clinical RNA sequencing: polyA+ selection versus rRNA depletion //Scientific reports. – 2018. – Т. 8. – №. 1. – С. 1-12.
    10. Kraus A. J., Brink B. G., Siegel T. N. Efficient and specific oligo-based depletion of rRNA //Scientific reports. – 2019. – Т. 9. – №. 1. – С. 12281.
    11. Stark R., Grzelak M., Hadfield J. RNA sequencing: the teenage years //Nature Reviews Genetics. – 2019. – Т. 20. – №. 11. – С. 631-656.
    12. Staden R. A strategy of DNA sequencing employing computer programs //Nucleic acids research. – 1979. – Т. 6. – №. 7. – С. 2601-2610.
    13. Płoski R. Next generation sequencing—general information about the technology, possibilities, and limitations //Clinical Applications for Next-Generation Sequencing. – Academic Press, 2016. – С. 1-18.
    14. Logsdon G. A., Vollger M. R., Eichler E. E. Long-read human genome sequencing and its applications //Nature Reviews Genetics. – 2020. – Т. 21. – №. 10. – С. 597-614.
    15. Mobley I., "Long-read sequencing vs short-read sequencing", Front Line Genomics (URL: https://frontlinegenomics.com/)
    16. Morrison J. et al. Evaluation of whole-genome DNA methylation sequencing library preparation protocols //Epigenetics & chromatin. – 2021. – Т. 14. – №. 1. – С. 1-15.
    17. Clark S. J. et al. DNA methylation: bisulphite modification and analysis //Nature protocols. – 2006. – Т. 1. – №. 5. – С. 2353-2364.
    18. Hess J. F. et al. Library preparation for next generation sequencing: A review of automation strategies //Biotechnology advances. – 2020. – Т. 41. – С. 107537.