26 fragment Mảnh DNA29 De Bruijn Đồ thị De Bruijn ,Tên một thuật toán lắp ráp hệ gene với dữ liệu 30 pyrosequencing Đọc trình tự đoạn ngắn 100bp 31 Insert size fragment length khoảng c
Trang 1LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS Nguyễn Cường
Thái Nguyên - 2014
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của cá nhândưới sự hướng dẫn khoa học của TS Nguyễn Cường Các số liệu, những kết luận nghiêncứu được trình bày trong luận văn này trung thực và chưa từng công bố dưới bất cứ hìnhthức nào Tôi xin chịu trách nhiệm về nghiên cứu của mình
Học viên
Nguyễn Thị Thanh Ngọc
Trang 3LỜI CẢM ƠN
Lời đầu tiên, tôi xin chân thành cảm ơn Tiến sĩ Nguyễn Cường, người thày đã trựctiếp hướng dẫn tôi hoàn thành luận văn này Thày đã tận tình hướng dẫn, chỉ bảo và cungcấp những tài liệu liên quan đồng thời động viên tinh thần giúp tôi vượt qua nhiều khókhăn trong quá trình thực hiện luận văn Tôi cũng xin chân thành cảm ơn quý Thầy ( Cô)giảng dạy chương trình cao học chuyên ngành “ Khoa học máy tính” đã truyền đạt nhữngkiến thức hữu ích và giúp tôi khi thực hiện nghiên cứu Xin cảm ơn các quý Thầy, Cô côngtác tại Trường Đại học Công nghệ thông tin và truyền thông – Đại học Thái Nguyên đã tạođiều kiện cho tôi được tham gia và hoàn thành khoá học
Tôi xin chân thành cảm ơn!
Thái Nguyên, ngày tháng năm 2014
Học viên
Nguyễn Thị Thanh Ngọc
Trang 4MỤC LỤC
Trang 56 DNA senquencing Đọc trình tự DNA
Trang 6chuyển năng lượng đến các nơi cần thiết cho tế bào sử dụng
14 ABI SOLID Tên thiết bị đọc trình tự
17 SBL Đọc trình tự gắn nối (sequencing by ligation)
21 Illumina Solexa 1G Tên thiết bị đọc trình tự
22 Roche 454 FLX Tên thiết bị đọc trình tự
23 scaffold (Super cotig )chuỗi các cotig
Trang 726 fragment Mảnh DNA
29 De Bruijn Đồ thị De Bruijn ,Tên một thuật toán lắp ráp
hệ gene với dữ liệu
30 pyrosequencing
Đọc trình tự đoạn ngắn (100bp)
31 Insert size ( fragment
length)
khoảng cách giữa 2 đoạn read xuôi và ngược
32 Coverage số bản copy của genome gốc được giải mã
33 paired-end short
reads
Lắp ráp trình tự sử dụng cặp read ngắn
34 Ligation error Lỗi giải trình tự
35 ALLPAHTS Tên phương pháp lắp ráp hệ gene với dữ liệu
38 Tip một node trong đồ thị mà từ vị trí đó không có
Trang 8cạnh dẫn tới node nào khác
39 Bubble Lỗi trong đồ thị, xuất hiện khi tồn tại hai
đường dẫn giữa hai điểm node
40 SSA (Short Sequence Assembler) thuật toán lắp ráp
được đề xuất
Trang 9DANH MỤC BẢNG
Trang 10DANH MỤC HÌNH
Trang 11MỞ ĐẦU
1 Đối tượng và phạm vi nghiên cứu
- Nghiên cứu phương pháp, thiết bị đọc trình tự thế hệ mới nhằm giải trình tự genetrong công nghệ sinh học
- Nghiên cứu các thuật toán lắp ráp hệ gene với dữ liệu từ thiết bị đọc trình tự thế
hệ mới
- Nghiên cứu, xây dựng một thuật toán mới có chức năng lắp ráp hệ gene với dữliệu thành đoạn trình tự dài hơn để hạn chế nhược điểm của những thuật toán đang sửdụng
2 Hướng nghiên cứu của đề tài
- Tìm hiểu, tham khảo các tài liệu liên quan đến thiết bị đọc trình tự gene thế hệmới
- Nghiên cứu, tìm hiểu các phương pháp lắp ráp hệ gene với dữ liệu từ kết quả đọctrình tự gene của máy đọc trình tự gene thế hệ mới
- Nghiên cứu, tìm hiểu các ưu, nhược điểm của các thuật toán phổ dụng hiện naytrên thế giới nhằm mục đích lắp ráp hệ gene với dữ liệu từ thiết bị đọc trình tự thế hệ mới
- Đề xuất, cài đặt thử nghiệm một thuật toán mới có cùng chức năng khắc phụcđược một số nhược điểm của thuật toán phổ dụng
3 Phương pháp nghiên cứu:
- Tổng hợp, phân tích và đánh giá lý thuyết các thuật toán lắp ráp hệ gene với dữliệu đã và đang sử dụng trong và ngoài nước
- Kế thừa các kết quả nghiên cứu đã có trong nước và trên thế giới
- Tiến tới đề xuất một thuật toán mới có chức năng lắp ráp hệ gene với dữ liệu từkết quả đọc trình tự của máy đọc trình tự gene thế hệ mới
- Cài đặt thử nghiệm thuật toán nghiên cứu, đề xuất
4 Ý nghĩa khoa học của đề tài
Trang 12- Về phương diện lý thuyết: Đề tài diễn giải ưu, nhược điểm của một số phương pháp lắp ráp hệ gene với dữ liệu từ kết quả đọc trình tự gene của máy đọc trình tự gene thế hệ mới Từ đó, đề xuất một phương pháp mới hạn chế một số nhược điểm của phương pháp hiện tại đang dùng.
- Về phương diện thực tiễn: Đề tài mong muốn khắc phục một số hạn chế của phương pháp hiện tại, tiến tới mục tiêu chính là tìm ra những thuật toán cải tiến hơn có thể sử dụng dữ liệu các đoạn trình tự thu được từ công nghệ giải trình tự thế hệ mới để lắp ráp hoàn chỉnh hệ gene.
Chương 1: CÁC KHÁI NIỆM CƠ BẢN
Trang 131.1 Giới thiệu
Công nghệ sinh học ngày càng phát triển Ngày nay thông tin về trình tự gene rấthữu ích trong những nghiên cứu về sinh học cơ bản và nhiều lĩnh vực ứng dụng như chuẩnđoán bệnh trong y học, sinh học pháp y, sinh học hệ thống… Đọc trình tự gene (DNAsequencing) là việc xác định thứ tự các nucleotide gắn kết với nhau dọc theo chiều dài củagen ( DNA), và trình tự gắn kết nhau của các nucleotide được gọi là trình tự gene
Từ những năm đầu của thập niên 70 của thế kỷ trước, các nhà khoa học đã thuđược thành công đầu tiên trong việc đọc trình tự gene bằng phương pháp thủ công Chođến năm 1990, chương trình genome người ( HGP) đã được bắt đầu nhằm tìm hiểu cơ
sở di truyền của một số bệnh ở người, chương trình đã thu được một trình tự phác thảovới độ chính xác cao((~99,99%) Cùng với sự phát triển kỹ thuật đọc trình tự dựa vàohuỳnh quang và tự động hoá phân tích, việc đọc trình tự gene đã trở nên đơn giản vànhanh chóng hơn nhiều nhờ sự ứng dụng huỳnh quang phân tích tự động (Olsvik,Wahlberg et al 1993 ; Pettersson, Lundeberg et al 2009)[9] Tuy nhiên tại thời điểmnày, đọc trình tự DNA gặp phải vấn đề là các thiết bị chi phí quá đắt đỏ và mất thờigian để đọc nguyên vẹn hệ gene Chúng chỉ phù hợp cho việc kiểm tra các gene riêng
lẻ, một số xét nghiệm chẩn đoán phân tử sử dụng trong các phòng thí nghiệm y học như
di truyền phân tử, di truyền dược học, bệnh về máu và vi sinh
Với mong muốn khai thác thông tin về hệ gene, việc giải trình tự hệ gene của nhiềuloài, bao gồm cả hệ gene của con người, động vật, thực vật và các loài vi sinh vật là rất cầnthiết Công trình giải mã hệ gene được hoàn thành là bước đầu quan trọng cho việc phântích, đánh giá một loài cụ thể Một khi trình tự nucleotide được khám phá rất nhiều phântích có thể được thực hiện để tìm hiểu chức năng của sinh vật Một vài phần mềm chuyêndụng đã được sử dụng để dự đoán gene của sinh vật Kết hợp với đó là các kỹ thuật nhưSAGE, RNA-SEQ và RNA-PET giúp phát hiện ra những phiên mã hoặc gene mới Cáccông nghệ như ChIP-chip, ChIP-seq hay ChIP-PET hỗ trợ việc tìm các điểm bám nhân tốphiên mã mới (transcription factor binding site - TFBS) Cho nên, tìm ra toàn bộ trình tự hệgene một loài cũng tạo thuận lợi cho việc hiểu loài đó ở nhiều phương diện khác nhau Tuynhiên, giải mã và lắp ráp hoàn chỉnh một hệ gene vẫn còn là một chặng đường rất xa ở phíatrước Khó khăn đầu tiên gặp phải đó là phạm vi dữ liệu rất lớn, tuy nhiên khó khăn đó gầnđây đã được giải quyết khi công nghệ ngày càng phát triển Vì vậy, thử thách lớn nhất hiện
Trang 14nay nằm ở quá trình sử dụng thuật toán để xử lý khối dữ liệu đó Mục tiêu chính là tìm ranhững thuật toán cải tiến hơn có thể sử dụng dữ liệu các đoạn trình tự thu được từ côngnghệ giải trình tự thế hệ mới để lắp ráp hoàn chỉnh hệ gene một cách sát với lý thuyết nhất.
Đọc trình tự thế hệ mới là một bước tiến vượt bậc về công nghệ đọc trình tự Từkhả năng đọc trình tự đoạn ngắn 1500 bp (Sanger) hay 100 bp (pyrosequencing), đọctrình tự thế hệ mới cho phép đọc được từ 8 Gb đến 600 Gb dữ liệu, có nghĩa là chophép đọc trình tự toàn bộ hệ gene Do vậy đọc trình tự thế hệ mới còn được gọi là đọctrình tự hệ gene (whole genome sequencing) Đọc trình tự gene thế hệ mới là một công
cụ mạnh nhất để phát hiện được các tác nhân gây bệnh, với khả năng đọc được hàngtrăm ngàn đoạn DNA có trong mẫu thử thì công nghệ này rất dễ dàng phát hiện trình tựnucleic acid của bất cứ tác nhân nào có mặt trong mẫu thử lấy từ vật chủ hay bệnhnhân
Nhận thấy tính thiết thực của vấn đề và với sự định hướng của giáo viên hướngdẫn TS Nguyễn Cường, tôi chọn đề tài “Nghiên cứu lắp ráp hệ gene với dữ liệu
từ thiết bị đọc trình tự thế hệ mới” Đề tài này sẽ xây dựng một chương trình có chức năng lắp ráp các đoạn trình tự ngắn (reads) thành các đoạn trình tự dài hơn (contigs) từ thiết bị đọc trình tự thế hệ mới.
1.2 Giải trình tự và các nguyên lý đọc trình tự gene
Một hệ gene bao gồm một hoặc nhiều nhiễm sắc thể Mỗi nhiễm sắc thể lại bao gồm 2 chuỗi DNA bổ xung cho nhau xoắn lại với nhau tạo nên cấu trúc xoắn đôi ( Hình 1.1) Mục đích của việc giải trình tự hệ gene là xác định chính xác thứ tự DNA trong mỗi nhiễm sắc thể Điều này nghe thì có vẻ đơn giản, thế nhưng thực tế thì lại hoàn toàn phức tạp Công nghệ hiện nay chỉ đọc được giới hạn là khoảng ~ 600 base pair (bp) trong khi đó hệ gene có kích thước từ hàng trăm triệu đến hàng tỉ bp Do đó, ta sử dụng hướng tiếp cận 'Whole genome shotgun sequencing' để giải mã hệ gene.
Trang 15Hình 1.1: Cấu trúc Nhiễm sắc thể Vậy 'Whole genome shotgun sequencing' là gì? Đầu tiên ta nhân bản chuỗi DNA đích hàng trăm lần, sau đó cắt nhỏ các bản sao này thành những mảnh nhỏ Độ dài của từng mảnh (fragment) sẽ được quy định bằng một kích thước nhất định Mỗi mảnh sau đó sẽ được đọc trình tự để thu được trình tự DNA dưới dạng A,C,G,T - các Deoxyribonucleic Acid hoặc
là N – base chưa xác định Ở một vài trường hợp, các mảnh sẽ được giải
mã từ cả 2 đầu của đoạn fragment theo cả chiều thuận và nghịch của đoạn đọc Khó khăn xảy ra trong việc giải mã là việc sắp xếp lại các mảnh fragment ngắn lại với nhau để tạo nên gene gốc ban đầu Mục tiêu của luận văn này cũng tập trung vào vấn đề này.
Trang 16Hình 1.2: Công nghệ giải mã hệ gene Quá trình lắp ráp các trình tự hệ gene phụ thuộc vào thiết bị hoặc phương pháp đọc trình tự gene Cho đến giữa năm 2000, chỉ có một công nghệ duy nhất đó là Sanger/Capilary Nó có khả năng đọc tới 600bp từ mỗi đầu của đoạn DNA Mặc dù vậy số lượng thực tế những mảnh fragment mà
nó có thể đọc được trong một khoảng thời gian cụ thể là rất thấp, dẫn đến hiệu quả đọc trình tự thấp Do đây là cách duy nhất trong gần một thập kỷ, phần lớn các cách lắp ráp hệ gene trước đây chỉ được tối ưu hoá nhằm sử dụng fragment ở kích thước này.
Vào năm 2005, 454 Life Sciences giới thiệu thiết bị đọc trình tự GS20 có khảnăng đọc trình tự với độ dài 400bp với hiệu suất cao hơn Lắp ráp các đoạn trình tự thuđược từ thiết bị này không khác nhiều lắm so với lắp ráp kiểu Sanger Do đó nhữngthuật toán cũ đã được cải tiến với một vài thay đổi nhỏ
Năm 2006 đánh dấu một giai đoạn mới của giải trình DNA tự khi máy
Trang 17giải trình tự Illumina Solexa 1G được giới thiệu ra thị trường Điều đặc biệt của máy giải trình tự này là nó sắp cho từng cặp read, tạo điều kiện cho quá trình lắp ráp các trình tự một cách chính xác Khả năng giải mã sử dụng một đầu nối nhỏ 25bp cho một kết quả đầu ra vượt xa Sanger và 454 Life Sciences
mà lại ở mức chi phí thấp ( Hình 1.3) Những đoạn fragment ngắn là nguyên nhân cản trở phương pháp lắp ráp gối chồng đối với bộ gene lớn ở những động vật có vú Mặc dù vậy với khả năng vốn có là cho kết quả các read theo cặp, giải mã hệ gene của vi khuẩn vẫn hoàn toàn có thể Những phần mềm lắp ráp hệ gene trước kia không hề phù hợp cho việc lắp ráp những dữ liệu như trên
iii, Cuối cùng, các thuật toán lắp ráp các trình tự trước kia không tận dụng được dữ liệu là từng cặp read Từ đó, người ta đã xây dựng thuật toán lắp ráp thích hợp cho dữ liệu cặp này.
Hình 1.3: Cấu trúc cặp read
Trang 18Vào năm 2007, ABI cho ra mắt thiết bị giải trình tự 'ABI SOLID', cũng
có khả năng đọc một lượng lớn cặp read ngắn với hiệu suất cao Ta có bảng
so sánh giữa các công nghệ giải trình tự sau:
Bảng 1.1: So sánh các công nghệ giải trình tự thế hệ mới
Roche 454 FLX Illumina Solexa ABI SOLiD
Giá hoá chất ˜ $5000/ lần chạy ˜ $3000/ lần chạy
Giá rẻ hơn/baseNguyên vật liệu ít hơn
Nhược điểm
Giá thành caohơn/base
Độ dài đoạn readngắn
Chạy ít lần/ năm
Độ dài đoạn read ngắnChạy ít lần/ năm
Đọc trình tự gene thế hệ mới (next generation sequening)
Trước khi phân tích các vấn đề, ta cần định nghĩa một vài thứ:
- Read length: độ dài của mỗi đoạn read xuôi/ngược tạo ra bởi máy giải trình tự Độ dài nàyphụ thuộc vào công nghệ giải trình tự được sử dụng, do đó nó không phải là một hằng sốvới mỗi thư viện nhất định Tuy nhiên ta vẫn sẽ giả sử vậy
- Insert size ( fragment length) : khoảng cách giữa 2 đoạn read xuôi và ngược
- Coverage: Là số bản copy của genome gốc được giải mã Chính bằng read length x 2 x number
of read / độ dài genome (áp dụng cho thư viện cặp read)
- Contig : một đoạn trình tự đã được lắp ráp( biết trình tự) được giả thiết tạo thành mộtkhoảng liên tục trên genome gốc
Trang 19- Scaffold (super contig) : Là một chuỗi các contig mà được giả thiết sắp xếp theo cùng mộtthứ tự trên trong genome đích, có thể bị chia cắt bởi những đoạn chưa rõ trình tự.
“Lắp ráp trình tự sử dụng cặp read ngắn( paired-end short reads ) “ được phát biểu
như sau:“Cho một tập các cặp reads trong đó mỗi cách đọc trình tự xuôi và ngược bị chia bởi một khoảng cách xác định trong hệ gene nguồn, hãy dựng lại hoàn chỉnh hệ gene nguồn đó”.
Mặc dù vậy việc lắp ráp cũng gặp phải những khó khăn do xuất hiện sai số hoặc sựtrùng lặp Sai số trong paired-end short reads chủ yếu ở 2 dạng:
- Sequencing error: xảy ra trong quá trình giải mã với việc đọc lỗi một base Ở một
số platform sequencing, hoàn toàn có thể xảy ra việc thêm hay bớt một base pairs Nhưngnhững trường hợp như thế này là hiếm gặp ở Illumina Solexa 1G và ABI SOLID, do đóchúng ta sẽ bỏ qua việc phải thêm hay bớt base pairs trong việc phân tích lỗi Trong khicác platform cố gắng hướng đến giảm thiểu error rate xuống chỉ còn dưới 1% nhưng thực
tế dữ liệu vẫn nảy sinh error rate trong khoảng từ 1% → 5%
Hình 1.4: Sequencing error
- Ligation error /Chimetic Paired-end : Xảy ra khi hai đầu của hai đoạn fragmentkhác nhau được nối với nhau và giả sử như chúng đến từ cùng một fragment Phân tích dữliệu chỉ ra giá trị này nằm trong khoảng từ 1% - 10%, thư viện có insert size càng lớn thì
độ sai sót càng cao
Trang 20Hình 1.5: Ligation errorSequencing error có thể được sửa bằng cách cho nhiều đoạn read phủ lên cùng một
vị trí Phần lớn sequencing error là do ngẫu nhiên Nếu sử dụng cách này với năm đoạnphủ lên nhau, biết chắc một đoạn là sai thì bốn đoạn còn lại vẫn có thể tin là đúng, do đó cóthể sửa được read xảy ra lỗi (Hình 1.5) Mặc dù vậy trong hệ gene có rất nhiều vùng gầnnhư giống nhau ngoại trừ một vài base Trong trường hợp này công cụ lắp ráp cần nhậnbiết để tác chúng thành hai đoạn riêng biệt thay vì việc ghép chúng thành một contig haymột trình tự đồng nhất (Hình 1.5)
Hình 1.6: Sửa lỗi giải trình tự sử dụng nhiều bản saoTuy nhiên, có nhiều vùng trong hệ gene có đoạn mã gần giống nhau chỉ khác nhau mộthoặc một vài base Trong trường hợp này, phần mềm lắp ráp nên xác định được đây khôngphải là lỗi, nếu nó xác định là lỗi và sửa lỗi này thì sẽ dẫn đến việc tạo ra lỗi trong quátrình lắp ráp sau này (Hình 1.7)
Trang 21Hình 1.7: Không phải lỗi trong giải trình tự, hai đoạn mã lặp
ở hai vị trí khác nhauViệc lắp ráp các đoạn lặp trong chuỗi DNA là một trong những vấn đề phức tạp và khó nhất trong quá trình lắp ráp Các đoạn lặp có thể được chia thành các loại sau:
Tandem repeat:
Trường hợp 1: các khối nhỏ có kích thước thường từ vài base cho đến vài chục base bị lặp đi lặp lại nhiều lần được gọi là tandem repeat (hình 1.8) Trong một vài trường hợp, có thể có một số sự thay đổi giữa các khối lặp lại như bị mất hoặc thêm một, một vài base Việc lắp ráp đúng các đoạn lặp này đối với các đoạn read ngắn là một trong những vấn đề rất khó
Hình 1.8: Một ví dụ của ‘Tandem repeat’
- Large repeat regions: Trong một vài trường hợp, chuỗi lặp lại có thể
lên tới vài nghìn cặp base, và xảy ra rất nhiều lần trong nhiều vùng khác nhau
Trang 22trong hệ gene Và có thể có một vài khác biệt nhỏ giữa các đoạn lặp này Do
đó, các phần mềm lắp ráp nên có khả năng xác định được các vùng này và giải quyết các sai biệt giữa đoạn lặp có thể xảy ra.
Sau đây giới thiệu công nghệ Đọc trình tự gene thế hệ mới (next
Đọc trình tự gen thế hệ mới theo 2 nguyên lý chính sau:
(1) Thứ nhất, đọc trình tự bằng tổng hợp (sequencing by synthesis , SBS) thường được các thế
hệ máy Roche 454, Ion Torrent và Illumina sử dụng SBS liên quan đến việc sử dụng mộthỗn hợp các dNTP được biến đổi tại vị trí 2’ Hỗn hợp này bao gồm các dNTP bổ sung tựnhiên và các dNTP bổ sung có đánh dấu huỳnh quang Quá trình xác định trình tự sẽ diễn
ra tương tự như phản ứng PCR thông thường Đầu tiên một đoạn trình tự mồi nằm trênđoạn adapter sẽ được gắn vào phần cuối của đoạn gDNA khuôn cần đọc trình tự Sau đó,việc xác định trình tự được thực hiện bằng cách gắn lần lượt từng dNTP bổ sung có đánhdấu huỳnh quang vào phần cuối của trình tự mồi trên theo chu trình 3 bước:
(i) Một polymerase kết hợp với một dNTP kết thúc có đánh dấu huỳnh quang vàgắn bổ sung với base trên đoạn gen cần đọc trình tự;
(ii) Thiết bị sẽ ghi lại hình ảnh, phần mềm sẽ phân tích hình ảnh thu được để xácđịnh phân tử dNTP nào được kết hợp và từ đó tìm ra được trình tự của base bổ sung
(iii) Nhóm kết thúc đầu 3’ và tín hiệu huỳnh quang sẽ được cắt bỏ bằng phươngpháp hóa học SBS xác định trình tự các đoạn DNA theo chiều từ đầu 5’ đến 3’
Quá trình này được lặp lại cho đến khi toàn bộ chiều dài của đoạn DNA được đọctrình tự Về mặt lý thuyết, độ dài đoạn được đọc bằng SBS có thể lên đến hàng trăm base.(2) Thứ hai, đọc trình tự gắn nối (sequencing by ligation, SBL) được sử dụng ở máy SOLiD.
Phương pháp xác định trình tự bằng phản ứng ghép nối (SBL): được phát minh bởi George
Trang 23Church SBL đã được sử dụng để xác định trình tự DNA và là nền tảng cho các thiết bịđọc trình tự thế hệ mới SBL là một chu trình tuần hoàn gồm 4 bước:
- Đưa vào các primer neo được thiết kế bổ sung với trình tự trên adapter
- Quá trình lai của nonamers ngẫu nhiên với nhau Mỗi hỗn hợp nonamer gồm có 4 loại
nonamers, mỗi loại có các base và vị trí đã được xác định Các chất phát quang khác nhauđược gắn ở cuối của mỗi loại nonamer sẽ cho phép xác định base trên nonamer
- Các nonamer lai với các primer neo Sau đó, thiết bị ghi hình và phần mềm sẽ xác định
base ở vị trí query
- Primer neo, phức hệ nonamer được đọc phóng và quá trình được lặp lại cho các vị trí query
trong hỗn hợp nonamer SBL hoạt động trong cả hai chiều: chiều xuôi (5 'đến 3') và chiềungược (3 'đến 5')
Nhìn chung, công nghệ đọc trình tự gene thế hệ mới gồm 3 bước chính như sau:
- Chuẩn bị các đoạn DNA và gắn lên các giá bám: Trước hết DNA hệ gene đượcchia nhỏ thành các đoạn DNA ngắn nhờ siêu âm hay nhờ khí dung, sau đó 2 đầu các đoạnDNA ngắn này được gắn 2 đoạn adapter có trình tự nhận biết bởi các đoạn dò và trình tựmồi PCR Các đoạn DNA này sẽ được gắn lên các giá bám là các hạt nano (Roche 454,SOLiDhay Ion Torrent) hay trên các vi bản (Illumina) nhờ các đoạn dò đặc hiệu adapter đãgắn sẵn trên các giá bám này
- Khuếch đại các đoạn DNA trên giá bám bằng mồi đặc hiệu adapter: Nếu giá bám
là vi bản thì thành phần PCR được bơm trải lên vi bản và khi thực hiện PCR sẽ có từngcụm sản phẩm khuếch đại được gắn trên các vị trí tách rời nhau Nếu giá bám là các vi hạtthì phải nhủ hoá thành phần PCR để các giọt nhủ chỉ chứa một vi hạt, nhờ vậy sau khi thựchiện PCR mỗi vi hạt chỉ có một loại sản phẩm khuếch đại bám lên Sau đó, các vi hạt đượcloại bỏ nhủ dịch và bơm vào một vi chip có chứa hàng chục ngàn đến hàng trăm ngàngiếng kích thước nano (nanowell), kích thước này cho phép mỗi nanowell chỉ chứa đượcmột vi hạt
Trang 24Hình 1.9: Các giai đoạn của đọc trình tự thế hệ mới (A) Chuẩn bị DNA và gắn lên các giá bám;
(B) Khuếch đại các đoạn DNA trên giá bám bằng mồi đặc hiệu adapter; (C) Đọc trình tự bằng SBS (đối với Roche 454, Ion Torrent và Illumina) và bằng SBL (SOLiD).
- Đọc trình tự bằng tổng hợp hoặc bằng gắn nối : Nguyên tắc cũng gần giốngpyrosequencing, tuy nhiên có một số điểm khác biệt bao gồm:
(i) Thay vì phải huỷ bỏ các thành phần A T, C, và G còn dư thừa trong phản ứng
trước khi cho thành phần tham gia mới vào thì ở đọc trình tự thế hệ mới, thành phần thamgia đọc trình tự dư thừa này được thu hồi sau khi thu được tín hiệu và bơm thành phần
Trang 25tham gia mới;
(ii) Tín hiệu tổng hợp được ghi nhận sau mỗi lần bơm các thành phần tham gia vào
có thể là tín hiệu phát quang dựa trên hệ thống luciferinluciferase (Roche 454) (Margulies,Egholm et al 2005; Schuster 2008)[5], tín hiệu điện do thay đổi pH (Ion‐Torrent), tín hiệuhuỳnh quang được đánh dấu trên các nucleotide A, T, C hay G (Illumina)(Mardis 2008)[4],hay cũng có thể là tín hiệu huỳnh quang được gắn lên probe (SOLiD) (Valouev, Ichikawa
et al 2008)[21]
(iii) Tổng hợp mạch bổ sung dựa trên mạch khuôn có thể là kéo dài đầu 3’ của
mạch bổ sung bằng các nucleotide (A, T, C hay G) và cứ mỗi khi một nucleotide được kéodài thì sẽ có một tín hiệu phát quang (Roche 454), huỳnh quang (Illumina) hay pH (ionTorrent) được ghi nhận, hay có thể là kéo dài đầu 3’ của mạch bổ sung mỗi lần 2 base nhờ
sự kéo dài và nối đoạn dò dựa trên sợi khuôn và cứ mỗi khi tổng hợp được 2 base thì sẽ cómột tín hiệu huỳnh quang được ghi nhận (SOLiD)
Thứ tự của các lần bổ sung các thành phần đọc trình tự vào chip nanowell hay vào
vi bản được máy tính ghi lại đồng thời với thứ tự và cường độ tín hiệu tổng hợp sợi bổsung của từng cụm DNA bám lên vi bản hay trên vi hạt, nhờ vậy mà sẽ đọc được trình tựcủa các đoạn DNA trên từng cụm Vì có đến hàng trăm ngàn cụm nên sẽ có hàng trămngàn trình tự sẽ được đọc, tương ứng với hàng trăm ngàn đoạn DNA từ hệ gene sẽ đượcđọc trình tự Trình tự của các đoạn đọc được sẽ được phần mềm của thiết bị nối lại vớinhau bằng cách so sánh trình tự, tìm các đoạn trùng lặp ở hai đầu và như vậy là sẽ có kếtquả của trình tự toàn bộ hệ gene
1.3 Ứng dụng của công nghệ đọc trình tự gene
Đọc trình tự có thể xác định trình tự các gene riêng lẻ, các vùng gene lớn, các nhiễm sắcthể hoặc toàn bộ các bộ gene Tùy theo phương pháp sử dụng, kết quả cho biết trình tự củacác nucleotide trong sợi DNA hoặc RNA tách chiết từ các tế bào động thực vật hoặc cácnguồn chứa thông tin di truyền khác
Kết quả này có nhiều ứng dụng chính như sau:
1 Biết được trình tự nucleotide của bất cứ một đoạn DNA nào đó chính là cơ sở để các nhà
khoa học có thể đọc trình tự gene hay bộ gene cho các nghiên cứu có liên quan
2 Phát hiện các thay đổi của trình tự nucleotide của một đoạn DNA, tạo cơ sở cho phát hiện
các đột biến gen, các SNP, các kiểu gene, …
Trang 263 Định danh vi khuẩn hay vi nấm dựa trên đọc trình tự DNA của RNA ribosome (16S của vi
khuẩn và 28S của vi nấm) đặc biệt là các đối tượng khó định danh hay không thành côngnuôi cấy
4 Sự khác biệt nhau từng nucleotide của các đoạn DNA được sử dụng trong xét nghiệm dấu
vân tay DNA (DNA finger printing) để nhận dạng cá nhân và mối quan hệ cá nhân, trongphát hiện đa dạng loài…
Sự phát triển mạnh mẽ của kỹ thuật đọc trình tự thế hệ mới là một cuộc cách mạngtrong công nghệ đọc trình tự nói riêng và trong công nghệ sinh học phân tử nói chung Vớicác tiến bộ về thiết bị và hóa chất, hiện nay đọc trình tự bộ gene của một cá nhân khôngcòn là một nghiên cứu chỉ thực hiện được tại các trung tâm đọc trình tự lớn trên thế giới
mà có thể được thực hiện tại các phòng thí nghiệm trung bình có thiết bị đọc trình tự thế hệmới như solid, solexa, ion-proton, 454…và thời gian để có kết quả không phải kéo dài đếnhàng năm mà chỉ trong vài ngày, thậm chí chỉ trong 24 giờ với giá thành không phải đếnhàng triệu USD Đối với đọc trình tự bộ gene vi khuẩn hay virus thì đọc trình tự thế hệ mới
có thể thực hiện được một cách dễ dàng với các thiết bị có công suất nhỏ khoảng 6 đến10Gbases chứ không cần phải đến hàng trăm Gbases Đọc trình tự thế hệ mới là một công
cụ mạnh nhất để phát hiện được các tác nhân gây bệnh, với khả năng đọc được hàng trămngàn đoạn DNA có trong mẫu thử thì công nghệ này rất dễ dàng phát hiện bất cứ một trình
tự nucleic acid của bất cứ tác nhân gì có mặt trong mẫu thử lấy từ vật chủ hay bệnh nhân.Đọc trình tự thế hệ mới cũng là công cụ nhạy cảm nhất để có thể phát hiện các đột biến cho
dù tỷ lệ đột biến hiện diện trong mẫu thử là rất thấp, chỉ vài đột biến trong cả một quần thểkhông đột biến, chính vì vậy đọc trình tự thế hệ mới là một công cụ không thể thiếu đượctrong phát hiện và định lượng các đột biến trong ung thư, trong bệnh di truyền…
Đối với máy ion semiconductor sequencing nhà sản xuất nhấn mạnh ưu điểm làđọc trình tự nhanh, liên tục và kinh tế, máy có thể sử dụng trong đa số phòng thí nghiệmnhư một máy để bàn hoặc sẽ hoạt động ở ngoài các trung tâm đặc trưng, trong các bệnhviện và các phòng thí nghiệm nhỏ Công nghệ này phù hợp trong các ứng dụng nhỏ nhưđọc trình tự của genome vi khuẩn, đọc trình tự transcriptome vi khuẩn, đọc trình tự geneđích amplicon, hoặc kiểm tra chất lượng của thư viện trình tự (Perkel 2011)[11] Từ khi rađời tới nay công nghệ đọc trình tự bán dẫn ion đã được ứng dụng trong nhiều công trìnhnghiên cứu như: Dựa trên đọc trình tự DNA của rRNA để định danh vi khuẩn hay vi nấm(Junemann, Prior et al 2012; Yergeau, Lawrence et al 2012; Visi, D'Souza et al 2013)[2];
Trang 28Từ khi được phát minh năm 1977 đến nay, kỹ thuật đọc trình tự Sanger đã cónhững bước tiến vượt bậc về hóa chất sử dụng và thiết bị cho đọc trình tự Do vậy mà kỹthuật đọc trình tự này có thể triển khai được khá dễ dàng tại các phòng thí nghiệm và đượcứng dụng trong nghiên cứu và cả trong chẩn đoán lâm sàng.
Năm 1996, Nyrén và Ronaghi đã phát minh ra kỹ thuật pyrosequencing (Ronaghi,Karamohamed et al 1996 ; Ronaghi, Uhlen et al 1998 ; Nyren 2007 )[16] Trong phươngpháp đọc trình tự Sanger, đọc trình tự được thực hiện sau phản ứng khuếch đại DNA Đốivới pyrosequencing, đọc trình tự được thực hiện ngay trong giai đoạn tổng hợp sợi DNA
bổ sung cho sợi khuôn, nghĩa là tổng hợp sợi DNA bổ sung đến đâu thì đọc trình tự đến
đó Nguyên lý của kỹ thuật đọc trình tự trong pyrorequencing là ghi nhận tín hiệu phátquang từ giếng phản ứng mỗi khi sợi bổ sung dựa trên sợi khuôn kéo dài được mộtnucleotide Để làm được điều này, dung dịch chứa một loại nucleotide A, T, C hoặc Gđược lập trình để cho vào giếng phản ứng có chứa đoạn DNA muốn đọc trình tự, mồi đọctrình tự, và các thành phần cho phản ứng tổng hợp sợi khuôn Mỗi khi dung dịchnucleotide cho vào là đúng với nucleotide được bắt cặp vào sợi khuôn để tổng hợp sợi bổsung thì một pyrophosphate (PPi) sẽ được phóng thích ra và được enzyme sulfurylasechuyển hóa tạo ra một ATP, ATP này sẽ giúp hệ thống phát quang phát ra ánh sáng doenzyme luciferase oxi hóa luciferin thành oxyluciferin và phát quang (Lavebratt and
Trang 29Sengul 2006 )[3] Với sự ghi nhận tín hiệu phát quang từ ống phản ứng theo trình tự bổsung dung dịch các loại nucleotide, thiết bị pyrosequencing sẽ dịch ra trình tự cácnucleotide trên đoạn DNA được đọc trình tự Để huỷ được ATP và các nucleotide tự docòn thừa sau mỗi lần bổ sung nucleotide, enzyme apyrase cũng được cho vào giếng phảnứng sau khi tín hiệu phát quang được ghi nhận.
Hình 2.1: Các giai đoạn của đọc trình tự Sanger
Hình 2.2: Nguyên tắc của kỹ thuật pyrosequencing
Trang 30Pyrosequencing là một bước tiến về kỹ thuật trong đọc trình tự, cho phép đọc trình
tự ngay trong quá trình tổng hợp sợi bổ sung đoạn DNA cần đọc, do vậy pyrosequencingchính là công nghệ khởi đầu cho kỹ thuật “đọc trình tự bằng tổng hợp”, nền tảng của kỹthuật đọc trình tự toàn bộ hệ gene hay còn gọi là kỹ thuật đọc trình tự thế hệ mới sau này.Với ưu thế thời gian đọc trình tự nhanh, trình tự đọc được rất chính xác, cường độ phátquang định lượng được nên dù trình tự đọc được không dài (không quá 100 bases) nhưngpyrosequencing có nhiều ứng dụng và có ưu thế hơn kỹ thuật đọc trình tự Sanger, đặc biệt
là trong chẩn đoán và chỉ định điều trị bệnh (Poehlmann, Kuester et al 2007)[13] Chính vừa
là kỹ thuật mở, vừa có sẵn các bộ hóa chất thương mại, do vậy pyrosequencing là một kỹthuật không thể thiếu trong các phòng thí nghiệm sinh học phân tử
Với các đoạn read có kích thước ngắn, thì việc sử dụng thuật toán lắp ráp là một cách giải quyết được vấn đề Các đoạn read sẽ được ghép nối với nhau từ đó hình thành overlap graph, trong đó mỗi đoạn read sẽ là một điểm trên đồ thị, cạnh nối giữa 2 điểm A và B được dựng nếu có đoạn overlap giữa đầu 3' của A và đầu 5' của B Đường nối giữa các điểm sẽ dẫn đến việc hình thành contig.
Hình 2.3: Overlap graph Giống với các nền tảng của các máy giải trình tự khác, giải trình tự Sanger cho phép đọc với các đoạn read lên đến 600bp dẫn đến lắp ráp các đoạn trùng lặp liền kề nhau trở nên dễ dàng hơn Phần lớn các công cụ lắp ráp lúc này như ARACHNE, đều theo hướng xếp chồng các lớp của các
Trang 31đoạn trùng nhau lên ( Overlap-layout-Consensus) Các đoạn read với 1 base bị lỗi có thể được sửa lại dễ dàng dựa vào các đoạn read có mối liên
hệ với nó (đoạn overlap chung) Một lỗi khác cũng có thể xảy ra trong quá lắp ráp là lỗi chimeric read, xảy ra do nhiều đoạn lặp trong hệ gene dẫn đến việc lắp ráp hai đoạn DNA không liền kề, do đó hình thành những đoạn contig bị lỗi Điều này không xảy ra đối với dữ liệu thu được bằng công nghệ giải trình tự thế hệ mới.
Tuy nhiên, khó khăn chúng ta phải đối mặt là với các đoạn read từ các máy giải trình tự thế hệ mới có độ dài ngắn chỉ từ 25-100bp, độ coverage khá cao, thường có thể lên tới 100X Nhưng do độ dài của các đoạn read ngắn, do
đó độ dài của đoạn overlap cũng bị giới hạn Với một lượng lớn các đoạn read
sẽ dẫn đến hình thành đồ thị với hàng triệu điểm và cạnh chồng chéo lên nhau
và có thể xuất hiện khá nhiều điểm mà không có cạnh nối giữa chúng.
Hiện nay, có một vài hướng phát triển giúp giải quyết những vấn đề của
dữ liệu giải trình tự thế hệ mới mà ta vừa đề cập ở trên Phần lớn các thuật toán đều dựa trên đồ thị De Bruijn được phát triển bởi Pavel Pevzer vào năm 2001.
2.2 Đồ thị De Bruijn
Đồ thị De Bruijn là một hướng tiếp cận mới trong quá trình lắp ráp hệ gene, thay đổi và phát triển từ Overlap-Layout-Consensus Ban đầu thuật toán này được xây dựng để lắp ráp các đoạn read Sanger dài nhưng một số tính chất cũng giúp thuật toán thích hợp để xử lý những đoạn read ngắn Thế nên, những phương pháp mới sau này khi làm việc với những đoạn read ngắn đều
sử dụng biểu đồ De Bruijn này.
Trang 32Hình 2.4: Đồ thị De Bruijn Biểu đồ De Bruijn là tập hợp các nút và các cạnh sao cho mỗi nút biểu thị một trình tự đoạn mã với độ dài k được gọi là k-mer Cạnh được nối trực tiếp giữa 2 điểm A và B khi và chỉ khi k-1 base cuối A trùng khớp với đúng bằng k-1 base đầu của B.
Nút ở đây bao gồm toàn bộ k-mers của tất cả các read Độ dài k là một thông số quan trọng để lắp ráp Ta thấy nếu k càng lớn thì sẽ ít phức tạp và biểu đồ sẽ dễ trở thành đồ thị thẳng hơn, dễ nghiên cứu hơn, nhưng lại có thể
bỏ qua các đoạn overlap ở những vùng có coverage thấp Nếu k nhỏ có thể dựng được đồ thị có nhiều kết nối giữa các điểm hơn với nhau nhưng sẽ tốn thời gian hơn trong việc tìm và tách được tuyến đồ thị đúng
Biểu đồ được đơn giản hoá hơn nữa bằng việc gộp hai nút bằng một mũi tên đi ra/đi vào; kết quả thu được là một nút biểu thị trình tự thu được khi duyệt qua các nút đãđược gộp (hình 2.5)
Trang 33Hình 2.5: Đồ thị De Bruijn Bất kì lỗi nào xảy ra trong đồ thị sẽ dẫn đến việc ảnh hưởng tới cả đồ thị Vị trí lỗi nằm ở phần cuối đoạn read sẽ dẫn đến hình thành một 'tip' trong
đồ thị De Bruijn 'Tip' là một node trong đồ thị mà từ vị trí đó không có cạnh dẫn tới node nào khác ( không có đoạn overlap với node tiếp theo) Lỗi thứ 2
có thể hình thành trong đồ thị De Bruijn là sự xuất hiện của các 'bubble', khi lỗi giải trình tự nằm ở phần giữa đoạn read 'Bubble' xuất hiện khi có 2 đường dẫn được hình thành trong đồ thị từ một node này đến node khác mà một đường là chính xác còn đường kia là lỗi.
Sau khi xây dựng được đồ thị De Bruijn, quá trình lắp ráp có thể được thực hiện đơn giản bằng việc tìm đường đi Euler duyệt qua đồ thị.
2.3 Các phương pháp hiện đại
2.3.1 SSAKE, VCAKE và SHARCGS
SSAKE, VCAKE và SHARCGS là những thuật giải lắp ráp đầu tiên
Trang 34đối với những đoạn read ngắn Cả 3 thuật toán đều dựa trên cùng một nguyên
lý Quá trình lắp ráp bắt đầu bằng việc chọn một đoạn read để bắt đầu hình thành contig Tiếp theo đó, thuật toán sẽ tìm các đoạn read có chứa các đoạn overlap với đầu 3' của contig vừa chọn, đoạn chứa overlap có độ chính xác cao nhất sẽ được ghép đầu tiên, tiếp theo đến các đoạn read khác và quá trình này sẽ dừng lại khi không tìm thấy được đoạn overlap nào nữa Mỗi thuật toán lại có những điểm khác nhau trong quá trình xử lý lỗi Tuy nhiên cả 3 thuật toán trên đều không áp dụng được với các cặp paired-read.
2.3.2 VELVET
Velvet là một trong những phần mềm phổ biến nhất cho quá trình lắp ráp các đoạn read ngắn hiện nay bởi cách tiếp cận đơn giản, tốc độ thực hiện cũng như độ chính xác tương đối cao.
Velvet được xây dựng chính dựa trên thuật toán xây dựng đồ thị De Bruijn và sử dụng một số thuật toán mới để xử lý các lỗi gây nhiễu trên dữ liệu Như đã đề cập ở trên, lỗi giải trình tự có thể dẫn đến lỗi trong quá trình xây dựng đồ thị như ‘tip’ hoặc ‘bubbles’ Velvet giải quyết các ‘tip’ bằng cách cắt bỏ đoạn đó nếu nó thỏa mãn 2 điều kiện sau:
• Độ dài của ‘tip’ nhỏ hơn 2 lần độ dài của k( ví dụ: k = 3 thì ‘tip’ có chứa nhỏ hơn hoặc bằng 5 điểm node thì có thể cắt).
• Node trung gian nối ‘tip’ với phần còn lại của đồ thị phải ít nhất một cạnh dẫn tới nút khác có số lượng lớn hơn cạnh nối với ‘tip’
‘Bubbles’ xảy ra trong đồ thị là kết quả của lỗi giải trình tự hoặc sự xuất hiện củacác SNP ‘Bubble’ xuất hiện khi tồn tại hai đường dẫn giữa hai điểm node Trong đó mộtđường là đúng còn đường kia là đường mắc lỗi Velvet có sử dụng một phương thức mớitên là ‘Tour bus algorithm’ để phát hiện và sửa lỗi ‘bubbles’
Thuật toán ‘Tour bus’ sẽ lựa chọn một nút bất kỳ để làm vị trí bắt đầu để thực hiệnviệc duyệt các phần tử trong đồ thị De Bruijn Khoảng cách giữa 2 nút liên tiếp được định