Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ DANH MỤC CÁC TỪ VIẾT TẮT-THUẬT NGỮ 5 DNA senquencing Đọc trình tự DNA 6 HGP Dự án hệ giải trình tự hệ gen con người 7 Nucleotide
Trang 1Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Trang 2Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
LỜI CAM ĐOAN
Tôi xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của
cá nhân, được thực hiện dưới sự hướng dẫn khoa học của Tiến sĩ Nguyễn
Cường Các số liệu, những kết luận nghiên cứu được trình bày trong luận
văn này trung thực và chưa từng được công bố dưới bất cứ hình thức nào
Tôi xin chịu trách nhiệm về nghiên cứu của mình
Học viên
Nguyễn Văn Thành
Trang 3Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
LỜI CÁM ƠN
Lời đầu tiên, tôi xin chân thành cám ơn Tiến sĩ Nguyễn Cường nguời
đã trực tiếp huớng dẫn tôi hoàn thành luận văn Với những lời chỉ dẫn, những tài liệu, sự tận tình hướng dẫn và những lời động viên của Thầy đã giúp tôi vượt qua nhiều khó khăn trong quá trình thực hiện luận văn này
Tôi cũng xin cám ơn quý Thầy (Cô) giảng dạy chương trình cao học
“Khoa học máy tính” đã truyền dạy những kiến thức quý báu, những kiến
thức này rất hữu ích và giúp tôi nhiều khi thực hiện nghiên cứu
Xin cám ơn các quý Thầy (Cô) công tác tại Trường Đại học Công nghệ thông tin và truyền thông – Đại học Thái Nguyên đã tạo điều kiện cho tôi được tham gia và hoàn thành khóa học
Tôi xin chân thành cám ơn
Học viên
Nguyễn Văn Thành
Trang 4Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
MỤC LỤC
LỜI CAM ĐOAN 1
LỜI CÁM ƠN 3
MỤC LỤC 4
DANH MỤC CÁC HÌNH ẢNH 6
DANH MỤC CÁC BẢNG BIỂU 7
DANH MỤC CÁC TỪ VIẾT TẮT-THUẬT NGỮ 8
PHẦN MỞ ĐẦU 9
Chương 1.TỔNG QUAN VỀ TIN SINH HỌC VÀ BÀI TOÁN PHÁT HIỆN ĐỘT BIẾN ĐẢO ĐOẠN 11
1.1 - Tổng quan về Tin sinh học 11
1.2 – Cơ sở lý thuyết bài toán đột biến đảo đoạn 12
1.2.1 - Gen và đột biến cấu trúc hệ gen 12
1.2.2 - Phương pháp phát hiện sự biến đổi cấu trúc trong bản đồ gen 15
1.2.3 - Định dạng cơ sở dữ liệu 23
1.2.3 - Bài toán đột biến đảo đoạn 27
1.3 - Các công cụ giải quyết bài toán đảo đoạn 33
1.3.1 - Chương trình Wgsim 33
1.3.2 - Chương trình TMAP 33
1.3.3 - Chương trình BWA và Bowtie 33
Chương 2 MỘT SỐ THUẬT TOÁN PHÁT HIỆN ĐỘT BIẾN 34
2.1 - Thuật toán ma trận điểm 35
2.2 - Thuật toán Blast 37
Trang 5Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
2.3 - Thuật toán lai GA-SA 42
2.4 - Thuật toán Needleman – Wunsch 45
2.5 - Thuật toán Smith-Waterman 49
Chương 3 CÀI ĐẶT THUẬT TOÁN VÀ ĐÁNH GIÁ KẾT QUẢ 56
3.1 - Ánh xạ các đoạn trình tự 57
3.2 - Xử lý SAM và khởi tạo điểm dừng khả dĩ 58
3.3 - Lọc và hoàn thiện điểm dừng 61
3.4 - Mô phỏng dữ liệu và thống kê kết quả ánh xạ 64
3.5 - Đánh giá kết quả phân tích 68
3.6 - So sánh với các phương pháp hiện tại 74
3.7 - Những hạn chế và cách khắc phục 76
KẾT LUẬN 78
TÀI LIỆU THAM KHẢO 80
Trang 6Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
DANH MỤC CÁC HÌNH ẢNH
Hình 1.1: Trong mỗi tế bào có một nhân chính giữa 13
Hình 1.2: Gen được cấu tạo từ DNA Mỗi NST có nhiều gen 13
Hình 1.3: Cấu trúc một phần của gen 13
Hình 1.4: Đột biến đảo đoạn trong hệ gen 15
Hình 1.5: Các giai đoạn của đọc trình tự thế hệ mới 22
Hình 1.6: Định dạng SAM 25
Hình 1.7: Bản sao - số biến thể ( CNVs) 28
Hình 1.8: Đồ thị gia tăng CNV và InDel đã thêm vào CSDL từ năm 2002 28
Hình 1.9: Đồ thị sự phân phối kích thước CNVs trong cơ sở dữ liệu 29
Hình 1.10: Phần lớn sự đảo đoạn đến nay có cỡ 10 đến 100kb 30
Hình 2.1: Ma trận thay thế BLOSUM 40
Hình 2.2: Ma trận thay thế PAM 40
Hình 3.1: Sự gióng hàng của quá trình ánh xạ r1, r2 trên vùng đảo ngược 57
Hình 3.2: Những vùng được lựa chọn dựa vào điểm dừng trái và phải 62
Hình 3.4: Số lượng đảo đoạn trong các NST khác nhau 65
Hình 3.5: Phân phối kích thước của 90 đảo đoạn 65
Hình 3.6: Tổng số trình tự của ánh xạ bởi Map1 và Map2 đọc lý tưởng 67
Hình 3.7: Tổng số trình tự của ánh xạ bởi Map1 và Map2 cho trình tự lỗi 67
Hình 3.8: Những giá trị dương tính giả trong pha thứ 1 và pha thứ 2 72
Hình 3.9: Tính nhạy cảm ở pha 1 và pha 2 73
Hình 3.10: Dự đoán giá trị dương tính giả ở pha 1 và pha 2 73
Hình 3.11: Tính nhạy cảm ở pha 1 và pha 2 cho trình tự có lỗi 74
Hình 3.12: PPV ở pha 1 và pha 2 cho trình tự có lỗi 74
Trang 7Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Hình 3.13: So sánh Inverse Variant vớiBreakDancer dựa vào điểm dừng 76
Hình 3.15: So sánh Inverse Variant với BreakDancer dựa vào tính nhạy cảm, PPV và F-Score 76
DANH MỤC CÁC BẢNG BIỂU Bảng 1.1: Các thẻ định danh trong SAM 25
Bảng 1.2: Định nghĩa cờ đảo bit trong SAM 25
Bảng 1.3: Mô tả chuỗi CIGAR 26
Bảng 1.4 Bảng cho thấy CNVs và đảo đoạn 28
Bảng 3.1: Những tham số được đặt mô phỏng cho các đoạn trình tự có lỗi 66
Bảng 3.2: Kết quả của Inverse Variant ở trình tự lý tưởng có độ dài 100bp 69
Bảng 3.3: Kết quả của Inverse Variant ở trình tự lý tưởng có độ dài 200bp 69
Bảng 3.4: Kết quả của Inverse Variant ở trình tự lý tưởng có độ dài 400bp 69
Bảng 3.5: Kết quả của Inverse Variant ở trình tự lý tưởng với độ bao phủ 10X 70
Bảng 3.6: Kết quả của Inverse Variant ở trình tự lỗi với độ bao phủ là 10X 70
Bảng 3.7: Bảng so sánh InverseVariantvới BreakDancer 75
Trang 8Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
DANH MỤC CÁC TỪ VIẾT TẮT-THUẬT NGỮ
5 DNA senquencing Đọc trình tự DNA
6 HGP Dự án hệ giải trình tự hệ gen con người
7 Nucleotide Là các trình tự A,T,G,C
12 CGIAR Chuỗi thể hiện số base được ánh xạ/mất/thêm
so với tham chiếu
15 InDel Vị trí thể hiện sự chèn hoặc xóa trong gen
16 BWA (hoặc Bowtie) Công cụ ánh xạ trình tự với dữ liệu tham chiếu
17 TMAP Chương trình để xây dựng bản đồ di truyền
18 Wgsim Công cụ mô phỏng các đoạn trình tự ngắn từ dữ
liệu hệ gen tham chiếu
19 Single end reads Phương pháp đọc trình tự theo chiều đơn
21 Hg19 Trình tự hệ gen người phiên bản 19
22 MAQ Phần mềm lập bản đồ cho các trình tự ngẵn từ
máy đọc trình tự thế hệ mới
Trang 9Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
PHẦN MỞ ĐẦU
Trong nghiên cứu về sinh học hiện đại có nhiều công nghệ và giải pháp được ứng dụng để phân tích, tổng hợp dữ liệu về cấu trúc và trình tự hệ gen của các loài sinh vật Việc phân tích và tổng hợp bộ dữ liệu này yêu cầu một hệ thống cấu trúc lưu trữ đáp ứng đủ tính chất về độ phức tạp và độ lớn của bộ dữ liệu kết quả Các thiết bị đọc trình tự gen được ra đời để giải quyết các vấn đề nêu trên Các thiết bị đọc trình tự gen là những công cụ xác định thứ tự các nucleotide gắn kết với nhau dọc theo chiều dài của gen và trình tự gắn kết nhau của các nucleotide được gọi là trình tự gen Trong đó, đọc trình tự thế hệ mới là một bước tiến vượt bậc về công nghệ đọc trình tự,
từ khả năng đọc trình tự đoạn ngắn 1500bp (Sanger) hay 100 bp (pyrosequencing) của các thiết bị đọc trình tự trước đó, đọc trình tự thế hệ mới cho phép đọc được từ 8gb đến 600gb, có nghĩa là cho phép đọc trình tự nguyên bộ gen của bất kỳ loài sinh vật nào
Với mong muốn hiểu chi tiết về cấu trúc gen các nhà nghiêncứu sinh học luôn muốn đọc trình tự hoàn chỉnh các gen của tất cả các loài sinh vât trong tự nhiên, bao gồm cả hệ gen của con người và toàn bộ trình tự gen khác của nhiều động, thực vật, vi sinh vật, đồng thời qua việc nghiên cứu đó
có thể phát hiện ra những đột biến cấu trúc trong hệ gen được giải mã Đặc biệt là dạng đột biến đảo đoạn, loại đột biến này ít gây ảnh hưởng đến sức sống của cá thể, nhưng nógóp phần lớn tăng cường sự sai khác giữa các nhiễm sắc thể (NST) tương đồng điều này dẫn đến tăng sự đa dạng giữa các thứ,các nòi trong cùng một nòi, ít ảnh hưởng tới sức sống của cá thểvà trong
đó sự sắp xếp lại hệ gen trên NST do đột biến đảo đoạn góp phần tạo sự đa dạng trong tự nhiên Đối với con người việc đọc trình tự hệ gen rất quan trọng, nó góp phần trong việc nghiên cứu sinh học cơ bản và trong nhiều lĩnh vực ứng dụng như chẩn đoán bệnh tật, công nghệ sinh học, sinh học pháp y, sinh học hệ thống Nhận thấy tính thiết thực của vấn đề và với sự
Trang 10Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
định hướng của giáo viên hướng dẫn, học viên đã chọn đề tài “Phát hiện các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế
hệ mới” để làm rõ các vấn đề đã nêu trên
Đối tượng và phạm vi nghiên cứu
Kiến trúc về các thành phần và các đột biến cấu trúc trong hệ gen
Ứng dụng thiết bị đọc trình tự thế hệ mới trong công nghệ sinh học
Phương pháp phát hiện các đột biến đảo đoạn khi sử dụng các thiết bị
đọc trình tự thế hệ mới để giải mã
Hướng nghiên cứu của đề tài
Nghiên cứu, tìm hiểu mô hình, cách làm việc và giải mã hệ gen từ thiết bị đọc trình tự thế hệ mới
Nghiên cứu cấu trúc dữ liệu, các phương pháp tiền xử lý và lắp ráp
hệ gen từ thiết bị đọc trình tự thế hệ mới
Tìm hiểu, tham khảo các tài liệu liên quan đến các đột biến đảo đoạn trong hệ gen, từ đó xây dựng thuật toán phát hiện ra các đột biến gen đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới
Phương pháp nghiên cứu
Nghiên cứu lý thuyết về các thiết bị đọc trình tự thế hệ mới, đột biến gen đảo đoạn và cách phát hiện đột biến đảo đoạn trong hệ gen giải mã
từ thiết bị đọc trình tự thế hệ mới
Thiết kế, đặc tả, xây dựng chương trình, phương pháp đọc trình tự gen và phát hiện đột biến đảo đoạn
Qua những phát hiện về đột biến đảo đoạn đưa ra kết luận
Ý nghĩa khoa học của đề tài
Làm cơ sở để phát hiện ra các đột biến đảo đoạn trong hệ gen
Ứng dụng như chẩn đoán bệnh, sinh học pháp y, sinh học hệ thống
Trang 11Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Chương 1.TỔNG QUAN VỀ TIN SINH HỌC VÀ BÀI TOÁN PHÁT
HIỆN ĐỘT BIẾN ĐẢO ĐOẠN 1.1 - Tổng quan về Tin sinh học
Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính và toán sinh học (biomathematics) để giải quyết các vấn đề sinh học
Những nghiên cứu trong ngành tin sinh học (bioinformatics) thường trùng lặp với sinh học tính toán (computational biology) hoặc sinh học hệ thống (system biology) Những lĩnh vực nghiên cứu chính của nó bao gồm bắt cặp trình tự (sequence alignment), bắt cặp cấu trúc protein (protein structural alignment), dự đoán cấu trúc protein (protein structural prediction), dự đoán biểu hiện gen (gene expression), tương tác protein-protein (protein-protein interaction), mô hình hoá quá trình tiến hoá Thuật ngữ tin sinh học và sinh học tính toán thường được dùng hoán đổi cho nhau, nhưng nói một cách nghiêm túc thì cái trước là tập con của cái sau Mối quan tâm chính ở tin sinh học và sinh học tính toán là việc sử dụng các công
cụ toán học để phân chiết các thông tin hữu ích từ các dữ liệu hỗn độn thu nhận được bằng các kỹ thuật sinh học với lưu lượng và mức độ lớn Như vậy, về phương diện này lĩnh vực khai phá dữ liệu (data mining) có sự trùng lắp với sinh học tính toán Bài toán đặc trưng trong sinh học tính toán bao gồm việc lắp ráp (assembly) những trình tự ADN chất lượng cao từ những đoạn ngắn ADN được thu nhận từ kỹ thuật xác định ADN và việc dự đoán quy luật điều hoà gen (gene regulation) với dữ liệu từ các mARN, microarray hay khối phổ (mass-spectrometry)
Các lĩnh vực nghiên cứu chính của tin sinh học gồm hệ gen học phân tích trình tự, tìm kiếm gen, tìm kiếm các đột biến, phân loại học phân tử, bảo tồn đa dạng sinh học, phân tích chức năng gen hay biểu hiện nhận diện chuỗi polypeptid dự đoán cấu trúc của protein các hệ thống sinh học kiểu mẫu, phân tích hình ảnh mức độ cao, công cụ phần mềm
Định hướng nghiên cứu tìm kiếm các đột biến là một bài toán rộng trong Tin sinh học Bởi vì, các hệ gen thường có nhiều kiểu đột biến với
Trang 12Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
mức độ đột biến khác nhau như là: Đột biến cấu trúc (trong đó có đột biến mất đoạn, đột biến thêm đoạn, đột biến đảo đoạn, …), đột biến điểm (đột biến đa hình đơn SNP, đột biến mất nucleotide, đột biến thêm nucleotite, )
Trong luận văn này, tôi sẽ tiến hành nghiên cứu phương pháp phát hiện đột biến đảo đoạn, một dạng của đột biến cấu trúc hệ gen
1.2 – Cơ sở lý thuyết bài toán đột biến đảo đoạn
1.2.1 - Gen và đột biến cấu trúc hệ gen
Ngày nay với tiến bộ của khoa học sinh học phân tử, người ta đã biết
rõ rằng đơn vị sinh học cơ bản nhất trong một con thể sống là tế bào (cells), như cơ thể chúng ta được cấu tạo bằng khoảng 60.000 tỉ tế bào (có ước tính khác cho rằng con số này là 100.000 tỉ), trong đó nhiều tế bào có những nhiệm vụ khác nhau, chẳng hạn như tế bào thần kinh có khả năng điều khiển các hoạt động của cơ thể, tế bào tim cấu thành nên tim và có chức năng co bóp cung cấp máu đi nuôi cơ thể v.v…Những tế bào này có thời gian tồn tại nhất định
Mặc dù khác nhau về chức năng và chu kỳ sống, nhưng tất cả các tế bào đều có cấu trúc giống nhau: trong mỗi tế bào đều có một nhân (nucleus) nằm chính giữa
Trang 13Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Hình 1.1: Trong mỗi tế bào có một nhân chính giữa
Trong nhân có chứa NST và trong NST có chứa nhiều DNA
(Deoxyribo-Nucleic Acid) DNA bao gồm 4 trình tự nucleotide: A (adeline),
C (cytosine), G (guanine), và T (thymine)
Hình 1.2: Gen được cấu tạo từ DNA Mỗi NST có nhiều gen
Gen là đoạn DNA, là tập hợp một nhóm gồm 3 mẫu tự có tên là trinucleotide (bộ 3 mã hóa), nhƣ TAG GCC TCA Một gen là tập hợp nhiều tam mẫu tự nhƣ thế Nhƣ hình minh họa một đoạn của gen gồm các bộ ba TGA CTG ACT
Hình 1.3: Cấu trúc một phần của gen
Gen có chức năng gửi các tín hiệu hóa học đi đến tất cả các nơi trong
cơ thể Những tín hiệu này có chứa đầy đủ các thông tin, các chỉ thị cụ thể
Trang 14Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
cho các cơ quan trong cơ thể ta phải hoạt động ra sao Việc tìm hiểu số lượng gen cũng như cơ cấu tổ chức của gen trong cơ thể con người là một điều tất yếu để mang lại những tiến bộ mới và quan trọng của y sinh học Nhưng không phải gen nào cũng có chức năng rõ ràng Trong thực tế, có khoảng 47% gen không có chức năng cụ thể (hay chúng ta chưa biết chức năng của chúng)
Đột biến gen là những biến đổi nhỏ xảy ra trong cấu trúc của gen Những biến đổi này thường liên quan đến 1 cặp nucleotide (đột biến điểm) hoặc 1 số cặp nucleotide
Trong những cá thể tự nhiên, các gen đều có thể bị đột biến nhưng với tần
số thấp (từ 10-6
đến 10-4) Các cá thể mang đột biến đã biểu hiện thành kiểu hình
là thể đột biến Đột biến gen làm thay đổi cấu trúc của gen từ đó tạo ra alen mới
so với dạng ban đầu
VD: Ở ruồi giấm gen A qui định mắt đỏ, sau khi bị đột biến tạo thành gen
a qui định mắt trắng
Các dạng đột biến
Đột biến mất đoạn : Đột biến này làm NST bị mất đoạn (đoạn đó không
chứa tâm động), làm giảm số lượng gen trên NST thường gây chết hoặc giảm sức sống của cá thể
Đột biến thêm đoạn: Một đoạn nào đó của NST lặp lại một vài lần xen
vào NST Việc thêm đoạn này là giảm hoặc tăng thêm cường độ biểu hiện tính
trạng vì làm tăng hoặc giảm số lượng gen trên NST
Đột biến chuyển đoạn: Một đoạn NST bị chuyển dịch trên cùng một NST
hay giữa hai NST khác nhau Cả hai NST cùng cho và nhận một đoạn (chuyển đoạn tương hỗ) hay một bên cho, một bên nhận (chuyển đoạn không tương hỗ) Đột biến chuyển đoạn thường gây chết hoặc mất khả năng sinh sản
Trang 15Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Đột biến đảo đoạn: Đảo đoạn là hiện tượng xảy ra do gãy đồng thời tại
hai điểm trên một nhiễm sắc thể và sau đó đoạn bị đứt xoay 180o
rồi nối lại Hậu
quả là, trật tự các gene trong đoạn đảo ngược lại với trật tự bình thường
Tùy theo sự tương quan của đoạn đảo với vị trí tâm động, có thể chia làm hai kiểu đảo đọan Nếu đoạn đảo không chứa tâm động, gọi là đảo đoạn cận tâm (paracentric inversion); ngược lại, nếu đoạn đảo băng qua cả tâm động thì gọi là đảo đoạn quanh tâm (pericentric inversion) Sự trao đổi chéo xảy ra bên trong vòng của thể dị hợp đảo đoạn cận tâm tạo ra các giao tử chứa các khuyết đọan lớn
Hình 1.4: Đột biến đảo đoạn trong hệ gen
Mô tả: (a) Kết cặp và xuất hiện vòng; (b) Phân ly làm xuất hiện cầu nối và đoạn không tâm; (c) Cầu nối hai tâm đứt gãy ngẫu nhiên; và (d) Các
sản phẩm được tạo ra
1.2.2 - Phương pháp phát hiện sự biến đổi cấu trúc trong bản đồ gen
a Phương pháp lai dựa trên tiếp cận mảng
Trang 16Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Phương pháp tiếp cận sử dụng vi mảng[7] được xem là bước đột phá đầu tiên trong việc phát hiện và xác định số lượng cũng như kiểu biến đổi cấu trúc hệ gen Theo kỹ thuật này, hai cách tiếp cận phổ biến nhất, trước tiên là ghép hệ gen so sánh mảng (mảng CGH), thứ hai là vi mảng SPN Mặc dù cả hai kỹ thuật này được dựa trên suy luận tăng hoặc giảm số lượng bản sao so với một mẫu tham chiếu hoặc bản gốc khác nhau về chi tiết và áp dụng các xét nghiệm phân tử Tuy nhiên với kỹ thuật này có thể phát hiện ra
sự thay đổi cấu trúc như chèn, xóa là đáng kể, phát hiện đảo đoạn gen chỉ là
số ít
b Phương pháp đơn phân tích phân tử
Đơn phân tích phân tử[7] là một cách quan trọng để hình dung và hiểu được vị trí và cấu trúc của các biến thể lớn hơn ở cấp độ đơn phân tử Phương pháp phân tích này bao gồm các kỹ thuật như huỳnh quang lai tại chỗ (FISH), Fiber-FISH Kỹ thuật này mang lại hiệu quả cho việc xác định những sự biến đổi cấu trúc chung và hiếm có của hệ gen Tuy nhiên, chất lượng và độ phân giải không cao của các kỹ thuật trên gây ra giới hạn ứng dụng của chúng khi thực hiện trên các cấu trúc đặc biệt lớn (~ 500 kb - 5 Mb) Nhiều phương pháp khác nhau đang được phát triển để sử dụng các đoạn DNA lớn hoặc dài hơn với quy mô lớn để hiển thị trực tiếp cải thiện
độ phân giải và khả năng mở rộng của phương pháp này Lập bản đồ quang học là một kỹ thuật dựa trên một sửa đổi của bản đồ hạn chế truyền thống Trong kỹ thuật này sự tiêu chuẩn hóa kỹ thuật được thực hiện trên DNA cố định để xác định kích thước mảnh, nhỏ và thay đổi thứ tự tương đối của DNA trên cơ sở so sánh với một mẫu tiêu chuẩn hóa trong phiên bản của chuỗi gen tham Ban đầu, nó được phát triển để phân tích bộ gen của nấm men nhưng đã được sử dụng để phân tích cấu trúc và tính quy mô của bộ gen người, những phát hiện về sự đảo đoạn, thay thế, cũng như thay đổi số lượng bản sao và điểm dừng của hệ gen Lập bản đồ kỹ thuật quang học có
Trang 17Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
thông lượng rất hạn chế và toàn bộ phân tích của nó phụ thuộc vào bộ gen tham chiếu Phương pháp mã vạch DNA cũng đang được phát triển như là
kỹ thuật thay thế đó sẽ là hữu ích để phát hiện thông lượng cao của sự khác biệt về cấu trúc cân bằng trong cấp độ tế bào trong tương lai
c Phương pháp dựa trên trình tự gen
Trong phương pháp này đã giải quyết được các hạn chế ở các kỹ thuật trước đó, kết quả đưa ra làm giảm được chi phí về thời gian và cải thiện chất lượng của kết quả thu được Trình tự hệ gen được dựa trên bốn nucleotide
cơ bản, trình tự này của từng loài sinh vật sẽ được lưu lại trong cơ sở dự liệu
sinh học (Ngân hàng trình tự gen thế giới NCBI - National Center for Biotechnology Information)[1], việc so sánh các cấu trúc hệ gen của các loài sinh vật với bộ gen dữ liệu tham chiếu sẽ đưa ra được các kết luận thực tế về
sự tiến hóa, sự phát triển của sinh vật Sau đây là một số phương pháp đọc trình tự gen:
Phương pháp Sanger Phương pháp Sanger là phương pháp đọc trình tự đầu tiên đã được sử dụng rộng rãi trong nhiều năm trước đây Phương pháp dựa trên cơ sở kết hợp của các dideoxynucleotide (ddNTP) bằng DNA polymerase trong quá
trình khuếch đại DNA trong ống nghiệm
Phương pháp Pyrosequencing Năm 1996, Nyrén và Ronaghi đã phát minh ra kỹ thuật pyrosequencing[14] Đối với phương pháp đọc trình tự Sanger, quá trình đọc trình tự được thực hiện sau phản ứng khuếch đại DNA Đối với phương pháp pyrosequencing, quá trình đọc trình tự được thực hiện ngay trong giai đoạn tổng hợp sợi DNA bổ sung cho sợi khuôn, nghĩa là tổng hợp sợi DNA
bổ sung đến đâu thì đọc trình tự đến đó
Nguyên lý của kỹ thuật đọc trình tự trong pyrorequencing là ghi nhận tín hiệu phát quang từ giếng phản ứng mỗi khi sợi bổ sung dựa trên sợi
Trang 18Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
khuôn kéo dài được một nucleotide Để làm được điều này, dung dịch chứa các loại nucleotide A hoặcT hoặc C hoặc G được lập trình để cho vào giếng phản ứng có chứa đoạn DNA muốn đọc trình tự, mồi đọc trình tự, và các thành phần cho phản ứng tổng hợp sợi khuôn Mỗi khi dung dịch nucleotide cho vào là đúng với nucleotide được bắt cặp vào sợi khuôn để tổng hợp sợi
bổ sung thì sẽ giải phóng ra một pyrophosphate (PPi) sẽ được phóng ra và được enzyme sulfurylase chuyển hóa tạo ra một ATP, ATP này sẽ giúp hệ thống phát quang luciferin-luciferase phát ra ánh sáng do enzyme luciferase oxi hóa luciferin thành oxyluciferin và phát quang[15] Với sự ghi nhận tín hiệu phát quang từ ống phản ứng theo trình tự bổ sung dung dịch các loại nucleotide, thiết bị pyrosequencing sẽ dịch ra trình tự các nucleotide trên đoạn DNA được đọc trình tự Để huỷ được ATP và các nucleotide tự do còn thừa sau mỗi lần bổ sung nucleotide, enzyme apyrase cũng được cho vào giếng phản ứng sau khi tín hiệu phát quang được ghi nhận
Pyrosequencing là một bước tiến về kỹ thuật trong đọc trình tự, cho phép đọc trình tự ngay trong quá trình tổng hợp sợi bổ sung đoạn DNA, do vậy pyrosequencing chính là công nghệ khởi đầu cho kỹ thuật “đọc trình tự tổng hợp”, nền tảng của kỹ thuật đọc trình tự bộ gen hay còn gọi là kỹ thuật đọc trình tự thế hệ mới sau này Với ưu thế thời gian đọc trình tự nhanh, độ chính xác cao, nên pyrosequencing có nhiều ứng dụng và có ưu thế hơn kỹ thuật đọc trình tự Sanger, đặc biệt là trong chẩn đoán và chỉ định điều trị bệnh[16] Vì đây là kỹ thuật mở, và có sẵn các bộ hóa chất thương mại, cho nên pyrosequencing là một kỹ thuật không thể thiếu trong các phòng thí nghiệm sinh học phân tử
Phương pháp đọc trình tự thế hệ mới
Đọc trình tự thế hệ mới là một bước tiến vượt bậc về công nghệ đọc trình tự Từ khả năng đọc trình tự đoạn ngắn 1500 bp (Sanger) hay 100 bp
Trang 19Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
(pyrosequencing), đọc trình tự thế hệ mới cho phép đọc được từ 8 Gb đến
600 Gb, có nghĩa là cho phép đọc trình tự nguyên bộ gen Do vậy đọc trình
tự thế hệ mới còn được gọi là đọc trình tự bộ gen
Đọc trình tự thế hệ mới dựa trên 2 nguyên lý chính sau:
Thứ nhất, đọc trình tự bằng tổng hợp (sequencing by synthesis, SBS) thường được các thế hệ máy Roche 454, Ion Torrent và Illumina sử dụng SBS liên quan đến việc sử dụng một hỗn hợp các dNTP được biến đổi tại vị trí 2‟ Hỗn hợp này bao gồm các dNTP bổ sung tự nhiên và các dNTP bổ sung có đánh dấu huỳnh quang Quá trình xác định trình tự sẽ diễn ra tương
tự như phản ứng PCR thông thường Đầu tiên một đoạn trình tự mồi nằm trên đoạn adapter sẽ được gắn vào phần cuối của đoạn gDNA khuôn cần đọc trình tự Sau đó, việc xác định trình tự được thực hiện bằng cách gắn lần lượt từng dNTP bổ sung có đánh dấu huỳnh quangvào phần cuối của trình tự mồi trên theo chu trình 3 bước:
Một polymerase kết hợp với một dNTP kết thúc có đánh dấu huỳnh quang và gắn bổ sung với base trên đoạn gen cần đọc trình tự;
Thiết bị sẽ ghi lại hình ảnh, phần mềm sẽ phân tích hình ảnh thu được
để xác định phân tử dNTP nào được kết hợp và từ đó tìm ra được trình tự bổ sung Nhóm kết thúc đầu 3‟ và tín hiệu huỳnh quang sẽ được cắt bỏ bằng phương pháp hóa học SBS xác định trình tự các đoạn gen theo chiều từ đầu 5‟ đến 3‟
Quá trình này được lặp lại cho đến khi toàn bộ chiều dài của đoạn gen được đọc trình tự Về mặt lý thuyết, độ dài đoạn được đọc bằng SBS có thể lên đến hàng trăm trình tự
Nguyên lý thứ hai, đọc trình tự gắn nối (sequencing by ligation, SBL) được sử dụng ở máy SOLiD Phương pháp xác định trình tự bằng phản ứng ghép nối (SBL): được phát minh bởi George Church SBL đã được sử dụng
Trang 20Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
để xác định trình tự gen và là nền tảng cho các thiết bị đọc trình tự thế hệ mới SBL là một chu trình tuần hoàn gồm 4 bước:
Đưa vào các primer neo được thiết kế trình tự bổ sung với trình tự trên adapter Quá trình lai của nonamers ngẫu nhiên với nhau Mỗi hỗn hợp nonamer gồm có 4 loại nonamers, mỗi loại có các trình tự và vị trí đã được biết đến Các chất phát quang khác nhau được gắn ở cuối của mỗi loại nonamer sẽ cho phép xác định trình tự trên nonamer
Các nonamer lai với các primer neo Sau đó, thiết bị ghi hình và phần mềm sẽ xác định trình tự ở vị trí tham chiếu
Primer neo, phức hệ nonamer được đọc phóng và quá trình được lặp lại cho các vị trí query trong hỗn hợp nonamer SBL hoạt động trong cả hai chiều: chiều xuôi (5 'đến 3') và chiều ngược (3 'đến 5')
Công nghệ đọc trình tự gen thế hệ mới theo 3 bước chính như sau:
Bước 1 : Chuẩn bị các đoạn DNA và gắn lên các giá bám: Trước hết DNA của bộ gen được cắt nhỏ thành các đoạn DNA ngắn nhờ siêu âm hay nhờ khí dung, sau đó 2 đầu các đoạn DNA ngắn này được gắn 2 đoạn adapter có trình tự nhận biết bởi các đoạn dò và trình tự mồi PCR Các đoạn DNA này sẽ được gắn lên các giá bám là các hạt nano (Roche 454, SOLiDhay Ion Torrent) hay trên các vi bản (Illumina) nhờ các đoạn dò đặc hiệu adapter đã gắn sẵn trên các giá bám này
Bước 2: Khuếch đại các đoạn DNA trên giá bám bằng mồi đặc hiệu adapter: Nếu giá bám là vi bản thì thành phần PCR được bơm trải lên vi bản
và khi thực hiện PCR sẽ có từng cụm sản phẩm khuếch đại được gắn trên các vị trí tách rời nhau Nếu giá bám là các vi hạt thì phải nhủ hoá thành phần PCR để các giọt nhủ chỉ chứa một vi hạt, nhờ vậy sau khi thực hiện PCR mỗi vi hạt chỉ có một loại sản phẩm khuếch đại bám lên Sau đó, các vi hạt được loại bỏ nhủ dịch và bơm vào một vi chip có chứa hàng chục ngàn
Trang 21Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
đến hàng trăm ngàn giếng kích thước nano (nanowell), kích thước này cho phép mỗi nanowell chỉ chứa được một vi hạt
Bước 3: Đọc trình tự dựa trên hai nguyên lý SBS và SBL đã được trình bày ở trên Nguyên tắc tương tự với pyrosequencing, tuy nhiên có một
số điểm khác biệt bao gồm:
Thay vì phải huỷ bỏ các thành phần A T, C, và G còn dư thừa trong phản ứng trước khi cho thành phần tham gia mới vào thì ở đọc trình tự thế
hệ mới, thành phần tham gia đọc trình tự dư thừa này được thu hồi sau khi thu được tín hiệu;
Tín hiệu tổng hợp được ghi nhận sau mỗi lần bơm các thành phần tham gia vào có thể là tín hiệu phát quang dựa trên hệ thống luciferin luciferase (Roche 454) [9] ,tín hiệu điện do thay đổi pH (Ion-Torrent), tín hiệu huỳnh quang được đánh dấu trên các nucleotide A, T, C hay G (Illumina), hay cũng có thể là tín hiệu huỳnh quang được gắn lên probe (SOLiD)
Trang 22Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Hình 1.5: Các giai đoạn của đọc trình tự thế hệ mới
Tổng hợp mạch bổ sung dựa trên mạch khuôn có thể là kéo dài đầu 3‟ của mạch bổ sung bằng các nucleotide (A, T, C hay G) và cứ mỗi khi một nucleotide được kéo dài thì sẽ có một tín hiệu phát quang (Roche 454), huỳnh quang (Illumina) hay pH (ion Torrent) được ghi nhận, hay có thể là kéo dài đầu 3‟ của mạch bổ sung mỗi lần 2 base nhờ sự kéo dài và nối đoạn
dò dựa trên sợi khuôn và cứ mỗi khi tổng hợp được 2 base thì sẽ có một tín hiệu huỳnh quang được ghi nhận (SOLiD)
Thứ tự của các lần bổ sung các thành phần đọc trình tự vào chip nanowell hay vào vi bản được máy tính ghi lại đồng thời với thứ tự và cường độ tín hiệu tổng hợp sợi bổ sung của từng cụm DNA bám lên vi bản hay trên vi hạt, nhờ vậy mà sẽ đọc được trình tự của các đoạn DNA trên
Trang 23Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
từng cụm Vì có đến hàng trăm ngàn cụm nên sẽ có hàng trăm ngàn trình tự
sẽ được đọc, tương ứng với hàng trăm ngàn đoạn DNA từ bộ gen sẽ đọc được Các trình tự của các đoạn đọc được sẽ được phần mềm của thiết bị nối lại với nhau bằng cách so sánh trình tự, tìm các đoạn trùng lặp ở hai đầu và như vậy là sẽ có kết quả của trình tự nguyên bộ gen
Do phương pháp dựa trên tình tự gen có chi phí thấp và có độ chính xác cao nên phương pháp này được nghiên cứu và phát triển rộng rãi Trong khuôn khổ luận văn này, tôi sẽ đi sâu vào nghiên cứu các thuật toán theo phương pháp dựa trên trình tự gen được giải mã từ các thiết bị đọc trình tự thế hệ mới
1.2.3 - Định dạng cơ sở dữ liệu
a) Định dạng FASTA
Định dạng FASTA[2] được dùng để mô tả thông tin về một chuỗi DNA (protein) bao gồm 2 phần: Phần tiêu đề và phần nội dung
Tiêu đề: bao gồm 1 dòng bắt đầu với kí từ “>” và kết thúc bởi một kí
tự xuống dòng Phần này sẽ lưu trữ toàn bộ thông tin mô tả về đoạn trình tự DNA (protein) như tên chuỗi, độ dài chuỗi, ngày tháng tiến hành giải mã, loại dữ liệu
Trình tự nucleotit hoặc axit amin.Tất cả các kí tự không thuộc về phần tiêu đề sẽ là dữ liệu mô tả các nucleotit của chuỗi DNA Phần thông tin này
có thể chứa các dấu cách
VD: >gi|142864|gb|M10040.1|BACDNAE B.subtilis dnaE gene encoding DNA primase, complete cds
GTACGACGGAGTGTTATAAGATGGGAAATCGGATACCAGATGAAATTGTGGATCAGGTGCAAAAGTCGGCAGATATCGTTGAAGTCATAGGTGATTATGTTCAATTAAAGAAGCAAGGCCGAAACTACTTTGGACTCTGTCCTTTTCATGGAGAAAGCACACCTTCGTTTTCCGTATCGCCCGACAAACAGATTTTTCATTGCTTTGGCTGCGGAGCGGGCGGCAATGTTTTCTCTTTTTTAAGGCAGATGGAAGGCTATTCTTTTGCCG
Trang 24Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Phần tiêu đề chứa các thông tin cơ bản về chuỗi như là số hiệu gi của chuỗi (142864), GB (M10040), tên chuỗi (BACDNAE), tên sinh vật lấy mẫu (B.subtilis)
Phần thông tin chứa trình tự DNA
GTACGACGGAGTGTTATAAGATGGGAAATCGGATACCAGATGAAATTGTGGATCAGGTGCAAAAGTCGGCAGATATCGTTGAA
b) Định dạng FASTQ
Định dạng FASTQ[2] được dùng để mô tả thông tin về đoạn trình tự DNA và chất lượng khi đọc trình tự của đoạn DNA đó dưới dạng mã ascii (nói nôm la: FASTQ = FASTA + Quality)
Mỗi trình tự DNA sẽ được lưu trong file FASTQ với 4 dòng, trong đó: Dòng 1 bắt đầu với kí tự “@” và theo sau là chuỗi các thông tin về dãy DNA này (giống với FASTA)
Dòng 2 là trình tự nucleotit của chuỗi (giống với FASTA)
Dòng 3 bắt đầu với kí tự “+” và có thể bao gồm thêm thông tin để định danh chuỗi
Dòng 4 là điểm chất lượng khi giải mã các nucletit bởi các thiết bị đọc trình tự Chất lượng của trình tự được mã hóa dưới dạng mã ASCII
VD:
@SRR566546.970 HWUSI-EAS1673_11067_FC7070M:4:1:2299:1109 length=50 TTGCCTGCCTATCATTTTAGTGCCTGTGAGGTGGAGATGTGAGGAT +
hhhhhhhhhhghhghhhhhfhhhhhfffff
c) Định dạng SAM
Định dạng SAM (Sequence Aligment Map) là chuẩn lưu trữ dữ liệu trình tự được lắp ráp hoặc ánh xạ tới tham chiếu được cộng đồng Tin sinh học trên thế giới thừa nhận và sử dụng phổ biến trong tất cả các phần mềm
Trang 25Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Định dạng SAM là các thẻ đƣợc định danh Tiêu đề đƣợc bắt đầu với ký hiệu @ và có các thành phần khác theo thứ tự sau:
Bảng 1.1: Các thẻ định danh trong SAM
1 Tên truy vấn / khuôn mẫu / cặp
2 Cờ (Cờ đảo bit)
3 Tên tham chiếu
4 Vị trí (tại 1 vị trí cuối cùng bên trái)
5 Chất lƣợng ánh xạ (Trong quy mô Phred )
Mỗi bit trong cờ đƣợc định nghĩa là:
Bảng 1.2: Định nghĩa cờ đảo bít trong SAM
VD: Minh họa định dạng file SAM
Trang 26Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
0x1 Mẫu có nhiều phân đoạn trong trình tự
0x2 Mỗi phân đoạn canh thẳng hàng đúng theo bộ chỉnh
0x4 Phân đoạn không đƣợc ánh xạ
0x8 Phân đoạn tiếp theo trong mẫu không đƣợc ánh xạ
0x10 Trình tự đảo đoạn đƣợc bổ sung
0x20 Trình tự của đoạn tiếp theo trong mẫu đƣợc đảo đoạn
0x40 Đoạn đầu tiên trong mẫu
0x80 Đoạn cuối cùng trong mẫu
0x100 Sự sắp xếp thành hàng thứ hai
0x200 Không đạt chất lƣợng
0x400 PCR hoặc bản sao quang học
Chuỗi CIGAR mô tả cho những thao tác CIGAR sau đây:
Bảng 1.3: Mô tả chuỗi CIGAR
M Trùng khớp vị trí căn chỉnh (trùng khớp hoặc không trùng khớp)
I Chèn vào tham chiếu
D Xóa từ tham chiếu
N Bỏ qua vùng của tham chiếu
S Trích đoạn mềm (trích đoạn trình tự có mặt trong trình tự)
H Trích đoạn cứng (trích đoạn trình tự không có mặt trong trình tự )
P Đệm (xóa từ bảng tham chiếu đã đƣợc thêm)
= Trình tự trùng khớp
X Trình tự không trùng khớp
Trang 27Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
1.2.3 - Bài toán đột biến đảo đoạn
Bằng nhiều nghiên cứu khác nhau, các nhà khoa học cho thấy cấu trúc
hệ gen của con người trên thế giới có tới 99,9% chuỗi DNA đồng nhất Do
đó chỉ một phần nhỏ của hệ gen được di truyền mang theo sự biển đổi về kiểu hình và đặc tính nhạy cảm với bệnh[5],[6] Trước bước đột phá về công nghệ giải trình tự, chỉ có một số ít những thay đổi đặc trưng về số lượng và cấu trúc của nhiễm sắc thể có thể quan sát được bao gồm như thể
dị bội, thay đổi trên nhiễm sắc thể (đảo đoạn, lặp đoạn, chèn đoạn…) Kích thước của những thay đổi này rất lớn (thông thường hơn 3Mb nên có thể quan sát bằng kính hiển vi và được đặt tên theo những kiểu cấu trúc cực nhỏ Cùng với sự tiến bộ của sinh học phân tử và công nghệ giải trình tự, cho phép chúng ta có thể quan sát được biến đổi mới và nhỏ hơn 1kb như SNPs, chèn, xóa, lặp đoạn Sau khi giải mã thành công hệ gen của người, các công cụ được phát triển nhằm mô tả thành phần di truyền của hệ gen người ở mức độ nucleotide Đặc biệt, những công nghệ mảng quét và sự phân tích chuỗi DNA so sánh hệ gen để lộ ra số lượng những sự biến đổi hệ gen nhỏ hơn mức vi mô và lớn hơn so với những phát hiện do phân tích trình tự quy ước Những sự biến đổi đó được định nghĩa như những sự biến đổi cấu trúc siêu hiển vi[4] Hàng trăm bản sao số biến thể (CNVs) đã được
mô tả trong bản đồ gen con người với trợ giúp của những công nghệ đó
Trang 28Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Hình 1.7: Bản sao - số biến thể ( CNVs)[5]
Hình 1.7 trên cho thấy số lượng của CNVs, sự đảo đoạn tìm thấy cùng với phân phối kích thước của chúng Những thanh chắn xanh chỉ ra thông báo CNVs, những thanh chắn đỏ chỉ ra thông báo những điểm dừng đảo đoạn, những thanh chắn xanh lục tới bên trái chỉ báo những sao chép phân đoạn
Bảng 1.4 Bảng cho thấy CNVs và đảo đoạn[5]
Hình 1.8: Đồ thị gia tăng CNV và InDel đã thêm vào CSDL từ năm 2002[5]
Khi bắt đầu nghiên cứu về nhiễm sắc thể, đột biến đảo đoạn luôn được quan tâm, đảo đoạn là một trong những nguyên nhân cơ bản nhất gây ra những sự sắp xếp lại hệ gen và có vai trò quan trọng trong quá trình tiến hóa động vật linh trưởng Khi so sánh hệ gen người và hệ gen tinh tinh chúng ta
có thể quan sát được chín đột biến đảo đoạn bao gồm tâm động và nhiều
Trang 29Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
chuỗi trình tự bị đảo đoạn siêu nhỏ[5] Phát hiện này cho thấy đảo đoạn có vai trò quan trọng trong việc thực hiện sắp xếp lại gen và xảy ra khá thường xuyên trong quá trình tiến hóa của động vật linh trưởng
Hình 1.9: Đồ thị sự phân phối kích thước CNVs trong cơ sở dữ liệu[5]
0 50000
Trang 30Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Hình 1.10: Phần lớn sự đảo đoạn đến nay có cỡ 10 đến 100kb[5]
Các trình tự hệ gen của các loài sinh vật có thể được giải mã một cách hoàn thiện bằng các máy đọc trình tự thế hệ mới, tuy nhiên kết quả dữ liệu
đó muốn xử lý để phát hiện ra sự biến đổi cấu trúc trong toàn bộ hệ gen là một vấn đề quan trọng Yêu cầu đó tương tự như việc gióng hàng và so sánh
2 chuỗi sinh học S1, S2 Gióng hàng và so sánh cặp chuỗi này có thể được thực hiện bằng cách chèn thêm vào hai chuỗi S1 và S2 các dấu cách (kí hiệu
là - ) tại các vị trí bất kỳ với số lượng không hạn chế để tạo ra 2 chuỗi S1‟
và S2‟ tương ứng, sau đó đặt một chuỗi trên chuỗi kia sao cho mỗi kí tự của chuỗi này gióng thẳng với một kí tự của chuỗi kia và cặp trình tự gióng không đồng thời là dấu cách
Chuỗi sinh học ban đầu không có dấu cách và nếu loại bỏ dấu khỏi S1‟ và S2‟ ta sẽ có S1 và S2 ban đầu
Phân loại:
Phép so sánh trình tự theo hướng toàn cục: Phép toán so sánh được áp dụng trên toàn bộ chuỗi trình tự Thường được sử dụng khi các trình tự so sánh có kích thước gần tương đương và các trình tự này có độ tương đồng,
Trang 31Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
giống nhau cao Công thức (1) tính toán cho việc so sánh như sau (so sánh 2 chuỗi)
F(i-1,j-1) + s(x i ,y j ) F(i,j) = max F(i-1,j) – d (1)
F(i,j-1) - d
Phép so sánh trình tự theo hướng cục bộ: Phép toán so sánh được sử dụng trên một phần của chuỗi trình tự Thường được sử dụng khi các trình
tự có chiều dài lớn, độ tương đồng giống nhau không cao, chỉ có một số ít các gene giống nhau trên 2 trình tự, hoặc khi 2 trình tự có kích thước khác biệt lớn Công thức (2) tính như sau:
F(i-1,j-1) + s(x i ,y j ) F(i,j) = max F(i-1,j) – d (2)
F(i,j-1) - d
0
Với F(i, j) là điểm số tương đồng tích luỹ dần khi so sánh hai chuỗi
trình tự tới vị trí i của chuỗi 1 và j của chuỗi 2 Và s là hàm tính toán sự
tương đồng từng ký hiệu đơn của hai chuỗi dựa trên các bảng đánh giá như PAM, BLOSUM Với cách tính trên, kết quả của vị trí so sánh cuối cùng F(n1,n2) là số điểm tính sự tương đồng giữa các trình tự
Khi so sánh nhiều trình tự ta có cách tính tổng số điểm tương đồng
(SP – Sum of Pairs) là tổng điểm tương đồng của từng cặp như sau:
Trang 32Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Tuy nhiên với k chuỗi có độ dài n, khi áp dụng quy hoạch động thì độ phức tạp vẫn rất lớn: O((2k
+ Mô tả cấu trúc dữ liệu hệ gen của các sinh vật
+ Tổng hợp các hệ gen của một loài sinh vật để đưa ra cấu trúc tham chiếu đại diện cho sinh vật đó
+ So sánh hệ gen của một cá thể với hệ gen tham chiếu
+ Xử lý các hệ gen của cá thể để đưa ra được các đột biến cấu trúc trong cá thể
Để giải quyết các vấn đề đó các nhà lập trình hệ thống đã đưa ra phương pháp giải quyết dựa trên cơ sở lý thuyết của công nghệ sinh học như sau:
+ Mô tả cấu trúc dữ liệu hệ gen bằng các ký tự văn bản A,T,G,C… tương ứng cho từng Nucleotit, đồng thời tạo thêm các ràng buộc liên quan như về tên trình tự, vị trí trình tự, hoặc chất lượng các trình tự…
+ Xây dựng ngân hàng hệ gen tham chiếu NCBI của tất cả các loài + Xây dựng các công cụ hỗ trợ so sánh hệ gen của cá thể với hệ gen tham chiếu như Bowtie, BWA, TMAP, Wgsim bằng các ngôn ngữ lập trình như C, Perl, Python… trên nền các hệ điều hành khác nhau như Windows, Unix, Linux…
Trang 33Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
+ Xứ lý hệ gen để đưa ra các đột biến bằng các chương trình như BreakDancer hoặc SVDetect …
Tuy nhiên trong khuôn khổ luận văn này, tôi sẽ tìm hiểu về phương pháp đọc trình tự gen, sử dụng hệ gen tham chiếu đã có sẵn trên NCBI và sử dụng một số công cụ như Bowtie, TMAP, Wgsim để so sánh hệ gen đồng thời xây dựng một chương trình demo bằng ngôn ngữ Perl chạy trên nền Ubuntu mô phỏng thuật toán Smith-Waterman để phát hiện các đột biến đảo đoạn trong hệ gen của các loài sinh vật (cụ thể là hệ gen người Hg19)
1.3 - Các công cụ giải quyết bài toán đảo đoạn
1.3.1 - Chương trình Wgsim
Wgsim là một công cụ nhỏ để mô phỏng trình tự của bộ gen tham chiếu Nó có thể mô phỏng bộ gen lưỡng bội với SNPs, chèn, xóa (Indel),
mô phỏng ánh xạ với hầu hết lỗi trình tự Wgsim trả về mô phỏng đa hình,
và đưa ra gợi ý về điểm dừng khả dĩ đúng tương tự như số lượng các mô phỏng và trình tự lỗi trong ánh xạ
Wgsim đã được sửa đổi từ MAQ bằng cách giảm sự phụ thuộc vào các
mã nguồn trong gói MAQ và kết hợp các bản vá lỗi của Colin Hercus cho phép để mô phỏng Indels dài hơn 1bp Wgsim ban đầu được phát hành trong gói phần mềm SAMtools
1.3.2 - Chương trình TMAP
TMAP (Torrent Mapping Alignment Program) là một phần mềm mô phỏng nhanh và chính xác cho các trình tự có độ dài khác nhau của các nucleotide được xây dựng bởi công nghệ giải trình tự thế hệ mới Công cụ này thực hiện lập bản đồ ánh xạ cho các quá trình ánh xạ các đoạn trình tự
1.3.3 - Chương trình BWA và Bowtie
Trang 34Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
BWA là một gói phần mềm để lập bản đồ chuỗi có độ dài ngắn nhau đối với một bộ gen tham chiếu lớn, chẳng hạn như bộ gen con người Nó bao gồm ba thuật toán: BWA-backtrack, BWA-SW và BWA-MEM Thuật toán đầu tiên được thiết kế cho Illumina tự đọc lên đến 100bp, trong khi phần còn lại cho hai chuỗi còn dao động từ 70bp để 1Mbp
Bowtie là công cụ để lập bản đồ sự gióng hàng các đoạn trình tự, công
cụ này được xây dựng dựa trên thuật toán Smith-Waterman.Trong luận văn này khi thực nghiệm sẽ sử dụng phiên bản Bowtie2 Một số cú pháp khi sử dụng Bowtie2 trong môi trường Ubuntu như: bowtie2-build, bowtie2-align…
Bowtie hoạt động tốt nhất khi sắp xếp các đoạn read ngắn được cắt từ
bộ gen lớn, công cụ này thực hiện dựa trên cơ sở sử dụng các file dữ liệu của các máy đọc trình tự thế hệ mới (dạng fasta/fastq) rồi gióng hàng chúng với trình tự trong bộ gen tham chiếu, các đoạn read nhỏ được gióng hàng so với bộ gen tham chiếu tạo ra file dữ liệu SAM là dữ liệu đầu vào cho chương trình xử lý tìm kiếm đảo đoạn của bài toán đặt ra trong luận văn này
Chương 2 MỘT SỐ THUẬT TOÁN PHÁT HIỆN ĐỘT BIẾN
Hiện nay các phương pháp để phát hiện đột biến đảo đoạn thường có các giai đoạn cơ bản đó là: Giai đoạn ánh xạ trình tự xuôi, giai đoạn trích rút
và đảo ngược các trình tự không lắp ráp được ở giai đoạn một và giai đoạn cuối cùng là ánh xạ trình tự ngược (trình tự được đảo ngược) để xác định vị trí đảo đoạn Như vậy, ở giai đoạn thứ nhất và giai đoạn thứ ba đều sử dụng chung thuật toán ánh xạ trình tự Ở giai đoạn thứ hai, là quá trình can thiệp vào tập tin SAM (đầu ra của quá trình ánh xạ trình tự) để tìm ra các trình tự không ánh xạ được và các điểm dừng khả dĩ
Ánh xạ trình tự là quá trình nghiên cứu sự giống nhau giữa các chuỗi trình tự (sequence), là cách thức so sánh giữa 2 hay nhiều trình tự dựa trên việc so sánh một chuỗi các thành phần (ký tự) của trình tự để tìm ra những
Trang 35Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
điểm tương đồng, giống nhau giữa các trình tự Dưới đây là một số thuật toán để thực hiện nhiệm vụ đó
2.1 - Thuật toán ma trận điểm
Thuật toán ma trận điểm[1] này được coi là đơn giản nhất Ra đời năm
1970 bởi Gibbs và G.A.McIntyre để so sánh hai trình tự nucleotide của hệ gen Thuật toán này xử lý các đoạn trình tự dựa vào ma trận điểm hai chiều xác định các base bắt cặp trong hai trình tự
+Input:
Hai chuỗi S1, S2 (thể hiện hai trình tự cần so sánh)
Ma trận F (ma trận được xây dựng dựa trên trình tự base của hai chuỗi S1,S2)
+Out put:
Hai chuỗi S1‟ và S2‟ thỏa mãn có độ tương đồng cao nhất
THUẬT TOÁN:
+Bước 1: Thiết lập ma trận 2 chiều, mà trận này được xây dựng dựa
vào chuỗi trình tự của S1, S2 (thứ tự các nucleotide trong S1, S2 không được thay đổi)
+Bước 2: Tích vào tất cả các ô tương ứng cùng với một nucleotide,
sau đó thực hiện nối tất cả các ô được đánh dấu liền kề nhau theo chiều đường chéo phía góc trên bên trái kẻ xuống để xác định đoạn chuỗi tương đồng
Phương pháp này thể hiện sự tương đồng giữa các nucleotide, các vùng lặp lại trong chuỗi trình tự, các trình tự bổ sung trong RNA mà có thể dẫn đến hình thành cấu trúc bậc đột biến
Quá trình thực hiện bằng phương pháp này có hạn chế khi thực hiện trên bộ dữ liệu vào quá lớn hoặc quá dài, dẫn đến việc sảy ra trùng lặp hoặc sai trong các lần so sánh gióng hàng các đoạn trình tự điều này ảnh hưởng tới độ chính xác của kết quả.Tuy nhiên thuật toán này rất tốt khi sử dụng trên các bộ dữ liệu nhỏ và độ dài ngắn
VD: So sánh 2 chuỗi:
Trang 36Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Trang 37Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Trang 38Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
BLAST (Basic Local Alignment Search Tool) [16],[17] là một giải thuật để so sánh các chuỗi sinh học như các chuỗi gen khác nhau Khi được cung cấp một cấu trúc chuỗi gen hay trình tự hệ gen đó, thuật toán BLAST
sẽ cho phép tìm kiếm các chuỗi con giống với chuỗi gen tham chiếu
BLAST cần đầu vào là 2 chuỗi: một là chuỗi truy vấn (hay còn gọi là chuỗi đích) và một chuỗi gen tham chiếu BLAST sẽ tìm kiếm các chuỗi con trong câu truy vấn mà giống với các chuỗi con trong chuỗi gen tham chiếu Thông thường khi sử dụng, chuỗi truy vấn là nhỏ hơn rất nhiều so chuỗi gen tham chiếu, ví dụ: chuỗi truy vấn có thể chỉ gồm 1 nghìn nucleotide trong khi chuỗi gen tham chiếu có hàng tỉ nucleotide
BLAST tìm kiếm những bắt cặp trình tự có trị số cao giữa chuỗi truy vấn và các chuỗi trong chuỗi gen tham chiếu bằng cách sử dụng phương pháp dựa trên trọng số để có thể có tìm được kết quả gần tốt bằng với giải thuật Smith-Waterman Tốc độ và sự chính xác tương đối của BLAST là những cải tiến kĩ thuật quan trọng của các chương trình BLAST và những điều đó cho thấy lí do vì sao công cụ này lại là công cụ tìm kiếm phổ biến nhất trong tin sinh học
Thuật toán
Ý tưởng của BLAST dựa trên cơ sở xác suất rằng những chuỗi bắt cặp trình tự (alignment) thường chứa nhiều chuỗi trình tự con có tính tương tự cao Những chuỗi con này được nhân bản để tăng tính tương tự trong quá trình tìm kiếm
Thuật toán của BLAST có 2 phần, một phần tìm kiếm và một phần đánh giá thống kê dựa trên kết quả tìm được Thuật toán tìm kiếm của BLAST bao gồm 3 bước sau:
Bước 1: BLAST tìm kiếm các chuỗi con ngắn với chiều dài cố định W
có tính tương tự cao (không cho phép khoảng trống gaps) giữa chuỗi truy vấn và các chuỗi con trong chuỗi gen tham chiếu
Trang 39Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Những chuỗi con với chiều dài W đƣợc BLAST gọi là một từ (word)
Giá trị W tham khảo cho Protein là 3 và DNA là 11
Những chuỗi con này đƣợc đánh giá cho điểm dựa trên ma trận thay thế (Substitutionsmatrix) BLOSUM hoặc PAM[14], những chuỗi con nào có
số điểm lớn hơn một giá trị ngƣỡng T (threshold value) thì đƣợc gọi là tìm thấy và đƣợc BLAST gọi là Hits
Trang 40Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/