phát hiện các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ DANH MỤC CÁC TỪ VIẾT TẮT-THUẬT NGỮ 5 DNA senquencing Đọc trình tự DNA 6 HGP Dự án hệ giải trình tự hệ gen con người 7 Nucleotide

Trang 1

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của

cá nhân, được thực hiện dưới sự hướng dẫn khoa học của Tiến sĩ Nguyễn

Cường Các số liệu, những kết luận nghiên cứu được trình bày trong luận

văn này trung thực và chưa từng được công bố dưới bất cứ hình thức nào

Tôi xin chịu trách nhiệm về nghiên cứu của mình

Học viên

Nguyễn Văn Thành

Trang 3

LỜI CÁM ƠN

Lời đầu tiên, tôi xin chân thành cám ơn Tiến sĩ Nguyễn Cường nguời

đã trực tiếp huớng dẫn tôi hoàn thành luận văn Với những lời chỉ dẫn, những tài liệu, sự tận tình hướng dẫn và những lời động viên của Thầy đã giúp tôi vượt qua nhiều khó khăn trong quá trình thực hiện luận văn này

Tôi cũng xin cám ơn quý Thầy (Cô) giảng dạy chương trình cao học

“Khoa học máy tính” đã truyền dạy những kiến thức quý báu, những kiến

thức này rất hữu ích và giúp tôi nhiều khi thực hiện nghiên cứu

Xin cám ơn các quý Thầy (Cô) công tác tại Trường Đại học Công nghệ thông tin và truyền thông – Đại học Thái Nguyên đã tạo điều kiện cho tôi được tham gia và hoàn thành khóa học

Tôi xin chân thành cám ơn

Học viên

Nguyễn Văn Thành

Trang 4

MỤC LỤC

LỜI CAM ĐOAN 1

LỜI CÁM ƠN 3

MỤC LỤC 4

DANH MỤC CÁC HÌNH ẢNH 6

DANH MỤC CÁC BẢNG BIỂU 7

DANH MỤC CÁC TỪ VIẾT TẮT-THUẬT NGỮ 8

PHẦN MỞ ĐẦU 9

Chương 1.TỔNG QUAN VỀ TIN SINH HỌC VÀ BÀI TOÁN PHÁT HIỆN ĐỘT BIẾN ĐẢO ĐOẠN 11

1.1 - Tổng quan về Tin sinh học 11

1.2 – Cơ sở lý thuyết bài toán đột biến đảo đoạn 12

1.2.1 - Gen và đột biến cấu trúc hệ gen 12

1.2.2 - Phương pháp phát hiện sự biến đổi cấu trúc trong bản đồ gen 15

1.2.3 - Định dạng cơ sở dữ liệu 23

1.2.3 - Bài toán đột biến đảo đoạn 27

1.3 - Các công cụ giải quyết bài toán đảo đoạn 33

1.3.1 - Chương trình Wgsim 33

1.3.2 - Chương trình TMAP 33

1.3.3 - Chương trình BWA và Bowtie 33

Chương 2 MỘT SỐ THUẬT TOÁN PHÁT HIỆN ĐỘT BIẾN 34

2.1 - Thuật toán ma trận điểm 35

2.2 - Thuật toán Blast 37

Trang 5

2.3 - Thuật toán lai GA-SA 42

2.4 - Thuật toán Needleman – Wunsch 45

2.5 - Thuật toán Smith-Waterman 49

Chương 3 CÀI ĐẶT THUẬT TOÁN VÀ ĐÁNH GIÁ KẾT QUẢ 56

3.1 - Ánh xạ các đoạn trình tự 57

3.2 - Xử lý SAM và khởi tạo điểm dừng khả dĩ 58

3.3 - Lọc và hoàn thiện điểm dừng 61

3.4 - Mô phỏng dữ liệu và thống kê kết quả ánh xạ 64

3.5 - Đánh giá kết quả phân tích 68

3.6 - So sánh với các phương pháp hiện tại 74

3.7 - Những hạn chế và cách khắc phục 76

KẾT LUẬN 78

TÀI LIỆU THAM KHẢO 80

Trang 6

DANH MỤC CÁC HÌNH ẢNH

Hình 1.1: Trong mỗi tế bào có một nhân chính giữa 13

Hình 1.2: Gen được cấu tạo từ DNA Mỗi NST có nhiều gen 13

Hình 1.3: Cấu trúc một phần của gen 13

Hình 1.4: Đột biến đảo đoạn trong hệ gen 15

Hình 1.5: Các giai đoạn của đọc trình tự thế hệ mới 22

Hình 1.6: Định dạng SAM 25

Hình 1.7: Bản sao - số biến thể ( CNVs) 28

Hình 1.8: Đồ thị gia tăng CNV và InDel đã thêm vào CSDL từ năm 2002 28

Hình 1.9: Đồ thị sự phân phối kích thước CNVs trong cơ sở dữ liệu 29

Hình 1.10: Phần lớn sự đảo đoạn đến nay có cỡ 10 đến 100kb 30

Hình 2.1: Ma trận thay thế BLOSUM 40

Hình 2.2: Ma trận thay thế PAM 40

Hình 3.1: Sự gióng hàng của quá trình ánh xạ r1, r2 trên vùng đảo ngược 57

Hình 3.2: Những vùng được lựa chọn dựa vào điểm dừng trái và phải 62

Hình 3.4: Số lượng đảo đoạn trong các NST khác nhau 65

Hình 3.5: Phân phối kích thước của 90 đảo đoạn 65

Hình 3.6: Tổng số trình tự của ánh xạ bởi Map1 và Map2 đọc lý tưởng 67

Hình 3.7: Tổng số trình tự của ánh xạ bởi Map1 và Map2 cho trình tự lỗi 67

Hình 3.8: Những giá trị dương tính giả trong pha thứ 1 và pha thứ 2 72

Hình 3.9: Tính nhạy cảm ở pha 1 và pha 2 73

Hình 3.10: Dự đoán giá trị dương tính giả ở pha 1 và pha 2 73

Hình 3.11: Tính nhạy cảm ở pha 1 và pha 2 cho trình tự có lỗi 74

Hình 3.12: PPV ở pha 1 và pha 2 cho trình tự có lỗi 74

Trang 7

Hình 3.13: So sánh Inverse Variant vớiBreakDancer dựa vào điểm dừng 76

Hình 3.15: So sánh Inverse Variant với BreakDancer dựa vào tính nhạy cảm, PPV và F-Score 76

DANH MỤC CÁC BẢNG BIỂU Bảng 1.1: Các thẻ định danh trong SAM 25

Bảng 1.2: Định nghĩa cờ đảo bit trong SAM 25

Bảng 1.3: Mô tả chuỗi CIGAR 26

Bảng 1.4 Bảng cho thấy CNVs và đảo đoạn 28

Bảng 3.1: Những tham số được đặt mô phỏng cho các đoạn trình tự có lỗi 66

Bảng 3.2: Kết quả của Inverse Variant ở trình tự lý tưởng có độ dài 100bp 69

Bảng 3.5: Kết quả của Inverse Variant ở trình tự lý tưởng với độ bao phủ 10X 70

Bảng 3.6: Kết quả của Inverse Variant ở trình tự lỗi với độ bao phủ là 10X 70

Bảng 3.7: Bảng so sánh InverseVariantvới BreakDancer 75

Trang 8

DANH MỤC CÁC TỪ VIẾT TẮT-THUẬT NGỮ

5 DNA senquencing Đọc trình tự DNA

6 HGP Dự án hệ giải trình tự hệ gen con người

7 Nucleotide Là các trình tự A,T,G,C

12 CGIAR Chuỗi thể hiện số base được ánh xạ/mất/thêm

so với tham chiếu

15 InDel Vị trí thể hiện sự chèn hoặc xóa trong gen

16 BWA (hoặc Bowtie) Công cụ ánh xạ trình tự với dữ liệu tham chiếu

17 TMAP Chương trình để xây dựng bản đồ di truyền

18 Wgsim Công cụ mô phỏng các đoạn trình tự ngắn từ dữ

liệu hệ gen tham chiếu

19 Single end reads Phương pháp đọc trình tự theo chiều đơn

21 Hg19 Trình tự hệ gen người phiên bản 19

22 MAQ Phần mềm lập bản đồ cho các trình tự ngẵn từ

máy đọc trình tự thế hệ mới

Trang 9

PHẦN MỞ ĐẦU

Trong nghiên cứu về sinh học hiện đại có nhiều công nghệ và giải pháp được ứng dụng để phân tích, tổng hợp dữ liệu về cấu trúc và trình tự hệ gen của các loài sinh vật Việc phân tích và tổng hợp bộ dữ liệu này yêu cầu một hệ thống cấu trúc lưu trữ đáp ứng đủ tính chất về độ phức tạp và độ lớn của bộ dữ liệu kết quả Các thiết bị đọc trình tự gen được ra đời để giải quyết các vấn đề nêu trên Các thiết bị đọc trình tự gen là những công cụ xác định thứ tự các nucleotide gắn kết với nhau dọc theo chiều dài của gen và trình tự gắn kết nhau của các nucleotide được gọi là trình tự gen Trong đó, đọc trình tự thế hệ mới là một bước tiến vượt bậc về công nghệ đọc trình tự,

từ khả năng đọc trình tự đoạn ngắn 1500bp (Sanger) hay 100 bp (pyrosequencing) của các thiết bị đọc trình tự trước đó, đọc trình tự thế hệ mới cho phép đọc được từ 8gb đến 600gb, có nghĩa là cho phép đọc trình tự nguyên bộ gen của bất kỳ loài sinh vật nào

Với mong muốn hiểu chi tiết về cấu trúc gen các nhà nghiêncứu sinh học luôn muốn đọc trình tự hoàn chỉnh các gen của tất cả các loài sinh vât trong tự nhiên, bao gồm cả hệ gen của con người và toàn bộ trình tự gen khác của nhiều động, thực vật, vi sinh vật, đồng thời qua việc nghiên cứu đó

có thể phát hiện ra những đột biến cấu trúc trong hệ gen được giải mã Đặc biệt là dạng đột biến đảo đoạn, loại đột biến này ít gây ảnh hưởng đến sức sống của cá thể, nhưng nógóp phần lớn tăng cường sự sai khác giữa các nhiễm sắc thể (NST) tương đồng điều này dẫn đến tăng sự đa dạng giữa các thứ,các nòi trong cùng một nòi, ít ảnh hưởng tới sức sống của cá thểvà trong

đó sự sắp xếp lại hệ gen trên NST do đột biến đảo đoạn góp phần tạo sự đa dạng trong tự nhiên Đối với con người việc đọc trình tự hệ gen rất quan trọng, nó góp phần trong việc nghiên cứu sinh học cơ bản và trong nhiều lĩnh vực ứng dụng như chẩn đoán bệnh tật, công nghệ sinh học, sinh học pháp y, sinh học hệ thống Nhận thấy tính thiết thực của vấn đề và với sự

Trang 10

định hướng của giáo viên hướng dẫn, học viên đã chọn đề tài “Phát hiện các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế

hệ mới” để làm rõ các vấn đề đã nêu trên

Đối tượng và phạm vi nghiên cứu

 Kiến trúc về các thành phần và các đột biến cấu trúc trong hệ gen

 Ứng dụng thiết bị đọc trình tự thế hệ mới trong công nghệ sinh học

 Phương pháp phát hiện các đột biến đảo đoạn khi sử dụng các thiết bị

đọc trình tự thế hệ mới để giải mã

Hướng nghiên cứu của đề tài

 Nghiên cứu, tìm hiểu mô hình, cách làm việc và giải mã hệ gen từ thiết bị đọc trình tự thế hệ mới

 Nghiên cứu cấu trúc dữ liệu, các phương pháp tiền xử lý và lắp ráp

hệ gen từ thiết bị đọc trình tự thế hệ mới

 Tìm hiểu, tham khảo các tài liệu liên quan đến các đột biến đảo đoạn trong hệ gen, từ đó xây dựng thuật toán phát hiện ra các đột biến gen đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới

Phương pháp nghiên cứu

 Nghiên cứu lý thuyết về các thiết bị đọc trình tự thế hệ mới, đột biến gen đảo đoạn và cách phát hiện đột biến đảo đoạn trong hệ gen giải mã

từ thiết bị đọc trình tự thế hệ mới

 Thiết kế, đặc tả, xây dựng chương trình, phương pháp đọc trình tự gen và phát hiện đột biến đảo đoạn

 Qua những phát hiện về đột biến đảo đoạn đưa ra kết luận

Ý nghĩa khoa học của đề tài

 Làm cơ sở để phát hiện ra các đột biến đảo đoạn trong hệ gen

 Ứng dụng như chẩn đoán bệnh, sinh học pháp y, sinh học hệ thống

Trang 11

Chương 1.TỔNG QUAN VỀ TIN SINH HỌC VÀ BÀI TOÁN PHÁT

HIỆN ĐỘT BIẾN ĐẢO ĐOẠN 1.1 - Tổng quan về Tin sinh học

Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính và toán sinh học (biomathematics) để giải quyết các vấn đề sinh học

Những nghiên cứu trong ngành tin sinh học (bioinformatics) thường trùng lặp với sinh học tính toán (computational biology) hoặc sinh học hệ thống (system biology) Những lĩnh vực nghiên cứu chính của nó bao gồm bắt cặp trình tự (sequence alignment), bắt cặp cấu trúc protein (protein structural alignment), dự đoán cấu trúc protein (protein structural prediction), dự đoán biểu hiện gen (gene expression), tương tác protein-protein (protein-protein interaction), mô hình hoá quá trình tiến hoá Thuật ngữ tin sinh học và sinh học tính toán thường được dùng hoán đổi cho nhau, nhưng nói một cách nghiêm túc thì cái trước là tập con của cái sau Mối quan tâm chính ở tin sinh học và sinh học tính toán là việc sử dụng các công

cụ toán học để phân chiết các thông tin hữu ích từ các dữ liệu hỗn độn thu nhận được bằng các kỹ thuật sinh học với lưu lượng và mức độ lớn Như vậy, về phương diện này lĩnh vực khai phá dữ liệu (data mining) có sự trùng lắp với sinh học tính toán Bài toán đặc trưng trong sinh học tính toán bao gồm việc lắp ráp (assembly) những trình tự ADN chất lượng cao từ những đoạn ngắn ADN được thu nhận từ kỹ thuật xác định ADN và việc dự đoán quy luật điều hoà gen (gene regulation) với dữ liệu từ các mARN, microarray hay khối phổ (mass-spectrometry)

Các lĩnh vực nghiên cứu chính của tin sinh học gồm hệ gen học phân tích trình tự, tìm kiếm gen, tìm kiếm các đột biến, phân loại học phân tử, bảo tồn đa dạng sinh học, phân tích chức năng gen hay biểu hiện nhận diện chuỗi polypeptid dự đoán cấu trúc của protein các hệ thống sinh học kiểu mẫu, phân tích hình ảnh mức độ cao, công cụ phần mềm

Định hướng nghiên cứu tìm kiếm các đột biến là một bài toán rộng trong Tin sinh học Bởi vì, các hệ gen thường có nhiều kiểu đột biến với

Trang 12

mức độ đột biến khác nhau như là: Đột biến cấu trúc (trong đó có đột biến mất đoạn, đột biến thêm đoạn, đột biến đảo đoạn, …), đột biến điểm (đột biến đa hình đơn SNP, đột biến mất nucleotide, đột biến thêm nucleotite, )

Trong luận văn này, tôi sẽ tiến hành nghiên cứu phương pháp phát hiện đột biến đảo đoạn, một dạng của đột biến cấu trúc hệ gen

1.2 – Cơ sở lý thuyết bài toán đột biến đảo đoạn

1.2.1 - Gen và đột biến cấu trúc hệ gen

Ngày nay với tiến bộ của khoa học sinh học phân tử, người ta đã biết

rõ rằng đơn vị sinh học cơ bản nhất trong một con thể sống là tế bào (cells), như cơ thể chúng ta được cấu tạo bằng khoảng 60.000 tỉ tế bào (có ước tính khác cho rằng con số này là 100.000 tỉ), trong đó nhiều tế bào có những nhiệm vụ khác nhau, chẳng hạn như tế bào thần kinh có khả năng điều khiển các hoạt động của cơ thể, tế bào tim cấu thành nên tim và có chức năng co bóp cung cấp máu đi nuôi cơ thể v.v…Những tế bào này có thời gian tồn tại nhất định

Mặc dù khác nhau về chức năng và chu kỳ sống, nhưng tất cả các tế bào đều có cấu trúc giống nhau: trong mỗi tế bào đều có một nhân (nucleus) nằm chính giữa

Trang 13

Hình 1.1: Trong mỗi tế bào có một nhân chính giữa

Trong nhân có chứa NST và trong NST có chứa nhiều DNA

(Deoxyribo-Nucleic Acid) DNA bao gồm 4 trình tự nucleotide: A (adeline),

C (cytosine), G (guanine), và T (thymine)

Hình 1.2: Gen được cấu tạo từ DNA Mỗi NST có nhiều gen

Gen là đoạn DNA, là tập hợp một nhóm gồm 3 mẫu tự có tên là trinucleotide (bộ 3 mã hóa), nhƣ TAG GCC TCA Một gen là tập hợp nhiều tam mẫu tự nhƣ thế Nhƣ hình minh họa một đoạn của gen gồm các bộ ba TGA CTG ACT

Hình 1.3: Cấu trúc một phần của gen

Gen có chức năng gửi các tín hiệu hóa học đi đến tất cả các nơi trong

cơ thể Những tín hiệu này có chứa đầy đủ các thông tin, các chỉ thị cụ thể

Trang 14

cho các cơ quan trong cơ thể ta phải hoạt động ra sao Việc tìm hiểu số lượng gen cũng như cơ cấu tổ chức của gen trong cơ thể con người là một điều tất yếu để mang lại những tiến bộ mới và quan trọng của y sinh học Nhưng không phải gen nào cũng có chức năng rõ ràng Trong thực tế, có khoảng 47% gen không có chức năng cụ thể (hay chúng ta chưa biết chức năng của chúng)

Đột biến gen là những biến đổi nhỏ xảy ra trong cấu trúc của gen Những biến đổi này thường liên quan đến 1 cặp nucleotide (đột biến điểm) hoặc 1 số cặp nucleotide

Trong những cá thể tự nhiên, các gen đều có thể bị đột biến nhưng với tần

số thấp (từ 10-6

đến 10-4) Các cá thể mang đột biến đã biểu hiện thành kiểu hình

là thể đột biến Đột biến gen làm thay đổi cấu trúc của gen từ đó tạo ra alen mới

so với dạng ban đầu

VD: Ở ruồi giấm gen A qui định mắt đỏ, sau khi bị đột biến tạo thành gen

a qui định mắt trắng

Các dạng đột biến

Đột biến mất đoạn : Đột biến này làm NST bị mất đoạn (đoạn đó không

chứa tâm động), làm giảm số lượng gen trên NST thường gây chết hoặc giảm sức sống của cá thể

Đột biến thêm đoạn: Một đoạn nào đó của NST lặp lại một vài lần xen

vào NST Việc thêm đoạn này là giảm hoặc tăng thêm cường độ biểu hiện tính

trạng vì làm tăng hoặc giảm số lượng gen trên NST

Đột biến chuyển đoạn: Một đoạn NST bị chuyển dịch trên cùng một NST

hay giữa hai NST khác nhau Cả hai NST cùng cho và nhận một đoạn (chuyển đoạn tương hỗ) hay một bên cho, một bên nhận (chuyển đoạn không tương hỗ) Đột biến chuyển đoạn thường gây chết hoặc mất khả năng sinh sản

Trang 15

Đột biến đảo đoạn: Đảo đoạn là hiện tượng xảy ra do gãy đồng thời tại

hai điểm trên một nhiễm sắc thể và sau đó đoạn bị đứt xoay 180o

rồi nối lại Hậu

quả là, trật tự các gene trong đoạn đảo ngược lại với trật tự bình thường

Tùy theo sự tương quan của đoạn đảo với vị trí tâm động, có thể chia làm hai kiểu đảo đọan Nếu đoạn đảo không chứa tâm động, gọi là đảo đoạn cận tâm (paracentric inversion); ngược lại, nếu đoạn đảo băng qua cả tâm động thì gọi là đảo đoạn quanh tâm (pericentric inversion) Sự trao đổi chéo xảy ra bên trong vòng của thể dị hợp đảo đoạn cận tâm tạo ra các giao tử chứa các khuyết đọan lớn

Hình 1.4: Đột biến đảo đoạn trong hệ gen

Mô tả: (a) Kết cặp và xuất hiện vòng; (b) Phân ly làm xuất hiện cầu nối và đoạn không tâm; (c) Cầu nối hai tâm đứt gãy ngẫu nhiên; và (d) Các

sản phẩm được tạo ra

1.2.2 - Phương pháp phát hiện sự biến đổi cấu trúc trong bản đồ gen

a Phương pháp lai dựa trên tiếp cận mảng

Trang 16

Phương pháp tiếp cận sử dụng vi mảng[7] được xem là bước đột phá đầu tiên trong việc phát hiện và xác định số lượng cũng như kiểu biến đổi cấu trúc hệ gen Theo kỹ thuật này, hai cách tiếp cận phổ biến nhất, trước tiên là ghép hệ gen so sánh mảng (mảng CGH), thứ hai là vi mảng SPN Mặc dù cả hai kỹ thuật này được dựa trên suy luận tăng hoặc giảm số lượng bản sao so với một mẫu tham chiếu hoặc bản gốc khác nhau về chi tiết và áp dụng các xét nghiệm phân tử Tuy nhiên với kỹ thuật này có thể phát hiện ra

sự thay đổi cấu trúc như chèn, xóa là đáng kể, phát hiện đảo đoạn gen chỉ là

số ít

b Phương pháp đơn phân tích phân tử

Đơn phân tích phân tử[7] là một cách quan trọng để hình dung và hiểu được vị trí và cấu trúc của các biến thể lớn hơn ở cấp độ đơn phân tử Phương pháp phân tích này bao gồm các kỹ thuật như huỳnh quang lai tại chỗ (FISH), Fiber-FISH Kỹ thuật này mang lại hiệu quả cho việc xác định những sự biến đổi cấu trúc chung và hiếm có của hệ gen Tuy nhiên, chất lượng và độ phân giải không cao của các kỹ thuật trên gây ra giới hạn ứng dụng của chúng khi thực hiện trên các cấu trúc đặc biệt lớn (~ 500 kb - 5 Mb) Nhiều phương pháp khác nhau đang được phát triển để sử dụng các đoạn DNA lớn hoặc dài hơn với quy mô lớn để hiển thị trực tiếp cải thiện

độ phân giải và khả năng mở rộng của phương pháp này Lập bản đồ quang học là một kỹ thuật dựa trên một sửa đổi của bản đồ hạn chế truyền thống Trong kỹ thuật này sự tiêu chuẩn hóa kỹ thuật được thực hiện trên DNA cố định để xác định kích thước mảnh, nhỏ và thay đổi thứ tự tương đối của DNA trên cơ sở so sánh với một mẫu tiêu chuẩn hóa trong phiên bản của chuỗi gen tham Ban đầu, nó được phát triển để phân tích bộ gen của nấm men nhưng đã được sử dụng để phân tích cấu trúc và tính quy mô của bộ gen người, những phát hiện về sự đảo đoạn, thay thế, cũng như thay đổi số lượng bản sao và điểm dừng của hệ gen Lập bản đồ kỹ thuật quang học có

Trang 17

thông lượng rất hạn chế và toàn bộ phân tích của nó phụ thuộc vào bộ gen tham chiếu Phương pháp mã vạch DNA cũng đang được phát triển như là

kỹ thuật thay thế đó sẽ là hữu ích để phát hiện thông lượng cao của sự khác biệt về cấu trúc cân bằng trong cấp độ tế bào trong tương lai

c Phương pháp dựa trên trình tự gen

Trong phương pháp này đã giải quyết được các hạn chế ở các kỹ thuật trước đó, kết quả đưa ra làm giảm được chi phí về thời gian và cải thiện chất lượng của kết quả thu được Trình tự hệ gen được dựa trên bốn nucleotide

cơ bản, trình tự này của từng loài sinh vật sẽ được lưu lại trong cơ sở dự liệu

sinh học (Ngân hàng trình tự gen thế giới NCBI - National Center for Biotechnology Information)[1], việc so sánh các cấu trúc hệ gen của các loài sinh vật với bộ gen dữ liệu tham chiếu sẽ đưa ra được các kết luận thực tế về

sự tiến hóa, sự phát triển của sinh vật Sau đây là một số phương pháp đọc trình tự gen:

Phương pháp Sanger Phương pháp Sanger là phương pháp đọc trình tự đầu tiên đã được sử dụng rộng rãi trong nhiều năm trước đây Phương pháp dựa trên cơ sở kết hợp của các dideoxynucleotide (ddNTP) bằng DNA polymerase trong quá

trình khuếch đại DNA trong ống nghiệm

Phương pháp Pyrosequencing Năm 1996, Nyrén và Ronaghi đã phát minh ra kỹ thuật pyrosequencing[14] Đối với phương pháp đọc trình tự Sanger, quá trình đọc trình tự được thực hiện sau phản ứng khuếch đại DNA Đối với phương pháp pyrosequencing, quá trình đọc trình tự được thực hiện ngay trong giai đoạn tổng hợp sợi DNA bổ sung cho sợi khuôn, nghĩa là tổng hợp sợi DNA

bổ sung đến đâu thì đọc trình tự đến đó

Nguyên lý của kỹ thuật đọc trình tự trong pyrorequencing là ghi nhận tín hiệu phát quang từ giếng phản ứng mỗi khi sợi bổ sung dựa trên sợi

Trang 18

khuôn kéo dài được một nucleotide Để làm được điều này, dung dịch chứa các loại nucleotide A hoặcT hoặc C hoặc G được lập trình để cho vào giếng phản ứng có chứa đoạn DNA muốn đọc trình tự, mồi đọc trình tự, và các thành phần cho phản ứng tổng hợp sợi khuôn Mỗi khi dung dịch nucleotide cho vào là đúng với nucleotide được bắt cặp vào sợi khuôn để tổng hợp sợi

bổ sung thì sẽ giải phóng ra một pyrophosphate (PPi) sẽ được phóng ra và được enzyme sulfurylase chuyển hóa tạo ra một ATP, ATP này sẽ giúp hệ thống phát quang luciferin-luciferase phát ra ánh sáng do enzyme luciferase oxi hóa luciferin thành oxyluciferin và phát quang[15] Với sự ghi nhận tín hiệu phát quang từ ống phản ứng theo trình tự bổ sung dung dịch các loại nucleotide, thiết bị pyrosequencing sẽ dịch ra trình tự các nucleotide trên đoạn DNA được đọc trình tự Để huỷ được ATP và các nucleotide tự do còn thừa sau mỗi lần bổ sung nucleotide, enzyme apyrase cũng được cho vào giếng phản ứng sau khi tín hiệu phát quang được ghi nhận

Pyrosequencing là một bước tiến về kỹ thuật trong đọc trình tự, cho phép đọc trình tự ngay trong quá trình tổng hợp sợi bổ sung đoạn DNA, do vậy pyrosequencing chính là công nghệ khởi đầu cho kỹ thuật “đọc trình tự tổng hợp”, nền tảng của kỹ thuật đọc trình tự bộ gen hay còn gọi là kỹ thuật đọc trình tự thế hệ mới sau này Với ưu thế thời gian đọc trình tự nhanh, độ chính xác cao, nên pyrosequencing có nhiều ứng dụng và có ưu thế hơn kỹ thuật đọc trình tự Sanger, đặc biệt là trong chẩn đoán và chỉ định điều trị bệnh[16] Vì đây là kỹ thuật mở, và có sẵn các bộ hóa chất thương mại, cho nên pyrosequencing là một kỹ thuật không thể thiếu trong các phòng thí nghiệm sinh học phân tử

Phương pháp đọc trình tự thế hệ mới

Đọc trình tự thế hệ mới là một bước tiến vượt bậc về công nghệ đọc trình tự Từ khả năng đọc trình tự đoạn ngắn 1500 bp (Sanger) hay 100 bp

Trang 19

(pyrosequencing), đọc trình tự thế hệ mới cho phép đọc được từ 8 Gb đến

600 Gb, có nghĩa là cho phép đọc trình tự nguyên bộ gen Do vậy đọc trình

tự thế hệ mới còn được gọi là đọc trình tự bộ gen

Đọc trình tự thế hệ mới dựa trên 2 nguyên lý chính sau:

Thứ nhất, đọc trình tự bằng tổng hợp (sequencing by synthesis, SBS) thường được các thế hệ máy Roche 454, Ion Torrent và Illumina sử dụng SBS liên quan đến việc sử dụng một hỗn hợp các dNTP được biến đổi tại vị trí 2‟ Hỗn hợp này bao gồm các dNTP bổ sung tự nhiên và các dNTP bổ sung có đánh dấu huỳnh quang Quá trình xác định trình tự sẽ diễn ra tương

tự như phản ứng PCR thông thường Đầu tiên một đoạn trình tự mồi nằm trên đoạn adapter sẽ được gắn vào phần cuối của đoạn gDNA khuôn cần đọc trình tự Sau đó, việc xác định trình tự được thực hiện bằng cách gắn lần lượt từng dNTP bổ sung có đánh dấu huỳnh quangvào phần cuối của trình tự mồi trên theo chu trình 3 bước:

Một polymerase kết hợp với một dNTP kết thúc có đánh dấu huỳnh quang và gắn bổ sung với base trên đoạn gen cần đọc trình tự;

Thiết bị sẽ ghi lại hình ảnh, phần mềm sẽ phân tích hình ảnh thu được

để xác định phân tử dNTP nào được kết hợp và từ đó tìm ra được trình tự bổ sung Nhóm kết thúc đầu 3‟ và tín hiệu huỳnh quang sẽ được cắt bỏ bằng phương pháp hóa học SBS xác định trình tự các đoạn gen theo chiều từ đầu 5‟ đến 3‟

Quá trình này được lặp lại cho đến khi toàn bộ chiều dài của đoạn gen được đọc trình tự Về mặt lý thuyết, độ dài đoạn được đọc bằng SBS có thể lên đến hàng trăm trình tự

Nguyên lý thứ hai, đọc trình tự gắn nối (sequencing by ligation, SBL) được sử dụng ở máy SOLiD Phương pháp xác định trình tự bằng phản ứng ghép nối (SBL): được phát minh bởi George Church SBL đã được sử dụng

Trang 20

để xác định trình tự gen và là nền tảng cho các thiết bị đọc trình tự thế hệ mới SBL là một chu trình tuần hoàn gồm 4 bước:

Đưa vào các primer neo được thiết kế trình tự bổ sung với trình tự trên adapter Quá trình lai của nonamers ngẫu nhiên với nhau Mỗi hỗn hợp nonamer gồm có 4 loại nonamers, mỗi loại có các trình tự và vị trí đã được biết đến Các chất phát quang khác nhau được gắn ở cuối của mỗi loại nonamer sẽ cho phép xác định trình tự trên nonamer

Các nonamer lai với các primer neo Sau đó, thiết bị ghi hình và phần mềm sẽ xác định trình tự ở vị trí tham chiếu

Primer neo, phức hệ nonamer được đọc phóng và quá trình được lặp lại cho các vị trí query trong hỗn hợp nonamer SBL hoạt động trong cả hai chiều: chiều xuôi (5 'đến 3') và chiều ngược (3 'đến 5')

Công nghệ đọc trình tự gen thế hệ mới theo 3 bước chính như sau:

Bước 1 : Chuẩn bị các đoạn DNA và gắn lên các giá bám: Trước hết DNA của bộ gen được cắt nhỏ thành các đoạn DNA ngắn nhờ siêu âm hay nhờ khí dung, sau đó 2 đầu các đoạn DNA ngắn này được gắn 2 đoạn adapter có trình tự nhận biết bởi các đoạn dò và trình tự mồi PCR Các đoạn DNA này sẽ được gắn lên các giá bám là các hạt nano (Roche 454, SOLiDhay Ion Torrent) hay trên các vi bản (Illumina) nhờ các đoạn dò đặc hiệu adapter đã gắn sẵn trên các giá bám này

Bước 2: Khuếch đại các đoạn DNA trên giá bám bằng mồi đặc hiệu adapter: Nếu giá bám là vi bản thì thành phần PCR được bơm trải lên vi bản

và khi thực hiện PCR sẽ có từng cụm sản phẩm khuếch đại được gắn trên các vị trí tách rời nhau Nếu giá bám là các vi hạt thì phải nhủ hoá thành phần PCR để các giọt nhủ chỉ chứa một vi hạt, nhờ vậy sau khi thực hiện PCR mỗi vi hạt chỉ có một loại sản phẩm khuếch đại bám lên Sau đó, các vi hạt được loại bỏ nhủ dịch và bơm vào một vi chip có chứa hàng chục ngàn

Trang 21

đến hàng trăm ngàn giếng kích thước nano (nanowell), kích thước này cho phép mỗi nanowell chỉ chứa được một vi hạt

Bước 3: Đọc trình tự dựa trên hai nguyên lý SBS và SBL đã được trình bày ở trên Nguyên tắc tương tự với pyrosequencing, tuy nhiên có một

số điểm khác biệt bao gồm:

 Thay vì phải huỷ bỏ các thành phần A T, C, và G còn dư thừa trong phản ứng trước khi cho thành phần tham gia mới vào thì ở đọc trình tự thế

hệ mới, thành phần tham gia đọc trình tự dư thừa này được thu hồi sau khi thu được tín hiệu;

 Tín hiệu tổng hợp được ghi nhận sau mỗi lần bơm các thành phần tham gia vào có thể là tín hiệu phát quang dựa trên hệ thống luciferin luciferase (Roche 454) [9] ,tín hiệu điện do thay đổi pH (Ion-Torrent), tín hiệu huỳnh quang được đánh dấu trên các nucleotide A, T, C hay G (Illumina), hay cũng có thể là tín hiệu huỳnh quang được gắn lên probe (SOLiD)

Trang 22

Hình 1.5: Các giai đoạn của đọc trình tự thế hệ mới

 Tổng hợp mạch bổ sung dựa trên mạch khuôn có thể là kéo dài đầu 3‟ của mạch bổ sung bằng các nucleotide (A, T, C hay G) và cứ mỗi khi một nucleotide được kéo dài thì sẽ có một tín hiệu phát quang (Roche 454), huỳnh quang (Illumina) hay pH (ion Torrent) được ghi nhận, hay có thể là kéo dài đầu 3‟ của mạch bổ sung mỗi lần 2 base nhờ sự kéo dài và nối đoạn

dò dựa trên sợi khuôn và cứ mỗi khi tổng hợp được 2 base thì sẽ có một tín hiệu huỳnh quang được ghi nhận (SOLiD)

Thứ tự của các lần bổ sung các thành phần đọc trình tự vào chip nanowell hay vào vi bản được máy tính ghi lại đồng thời với thứ tự và cường độ tín hiệu tổng hợp sợi bổ sung của từng cụm DNA bám lên vi bản hay trên vi hạt, nhờ vậy mà sẽ đọc được trình tự của các đoạn DNA trên

Trang 23

từng cụm Vì có đến hàng trăm ngàn cụm nên sẽ có hàng trăm ngàn trình tự

sẽ được đọc, tương ứng với hàng trăm ngàn đoạn DNA từ bộ gen sẽ đọc được Các trình tự của các đoạn đọc được sẽ được phần mềm của thiết bị nối lại với nhau bằng cách so sánh trình tự, tìm các đoạn trùng lặp ở hai đầu và như vậy là sẽ có kết quả của trình tự nguyên bộ gen

Do phương pháp dựa trên tình tự gen có chi phí thấp và có độ chính xác cao nên phương pháp này được nghiên cứu và phát triển rộng rãi Trong khuôn khổ luận văn này, tôi sẽ đi sâu vào nghiên cứu các thuật toán theo phương pháp dựa trên trình tự gen được giải mã từ các thiết bị đọc trình tự thế hệ mới

1.2.3 - Định dạng cơ sở dữ liệu

a) Định dạng FASTA

Định dạng FASTA[2] được dùng để mô tả thông tin về một chuỗi DNA (protein) bao gồm 2 phần: Phần tiêu đề và phần nội dung

Tiêu đề: bao gồm 1 dòng bắt đầu với kí từ “>” và kết thúc bởi một kí

tự xuống dòng Phần này sẽ lưu trữ toàn bộ thông tin mô tả về đoạn trình tự DNA (protein) như tên chuỗi, độ dài chuỗi, ngày tháng tiến hành giải mã, loại dữ liệu

Trình tự nucleotit hoặc axit amin.Tất cả các kí tự không thuộc về phần tiêu đề sẽ là dữ liệu mô tả các nucleotit của chuỗi DNA Phần thông tin này

có thể chứa các dấu cách

VD: >gi|142864|gb|M10040.1|BACDNAE B.subtilis dnaE gene encoding DNA primase, complete cds

GTACGACGGAGTGTTATAAGATGGGAAATCGGATACCAGATGAAATTGTGGATCAGGTGCAAAAGTCGGCAGATATCGTTGAAGTCATAGGTGATTATGTTCAATTAAAGAAGCAAGGCCGAAACTACTTTGGACTCTGTCCTTTTCATGGAGAAAGCACACCTTCGTTTTCCGTATCGCCCGACAAACAGATTTTTCATTGCTTTGGCTGCGGAGCGGGCGGCAATGTTTTCTCTTTTTTAAGGCAGATGGAAGGCTATTCTTTTGCCG

Trang 24

Phần tiêu đề chứa các thông tin cơ bản về chuỗi như là số hiệu gi của chuỗi (142864), GB (M10040), tên chuỗi (BACDNAE), tên sinh vật lấy mẫu (B.subtilis)

Phần thông tin chứa trình tự DNA

GTACGACGGAGTGTTATAAGATGGGAAATCGGATACCAGATGAAATTGTGGATCAGGTGCAAAAGTCGGCAGATATCGTTGAA

b) Định dạng FASTQ

Định dạng FASTQ[2] được dùng để mô tả thông tin về đoạn trình tự DNA và chất lượng khi đọc trình tự của đoạn DNA đó dưới dạng mã ascii (nói nôm la: FASTQ = FASTA + Quality)

Mỗi trình tự DNA sẽ được lưu trong file FASTQ với 4 dòng, trong đó: Dòng 1 bắt đầu với kí tự “@” và theo sau là chuỗi các thông tin về dãy DNA này (giống với FASTA)

Dòng 2 là trình tự nucleotit của chuỗi (giống với FASTA)

Dòng 3 bắt đầu với kí tự “+” và có thể bao gồm thêm thông tin để định danh chuỗi

Dòng 4 là điểm chất lượng khi giải mã các nucletit bởi các thiết bị đọc trình tự Chất lượng của trình tự được mã hóa dưới dạng mã ASCII

VD:

@SRR566546.970 HWUSI-EAS1673_11067_FC7070M:4:1:2299:1109 length=50 TTGCCTGCCTATCATTTTAGTGCCTGTGAGGTGGAGATGTGAGGAT +

hhhhhhhhhhghhghhhhhfhhhhhfffff

c) Định dạng SAM

Định dạng SAM (Sequence Aligment Map) là chuẩn lưu trữ dữ liệu trình tự được lắp ráp hoặc ánh xạ tới tham chiếu được cộng đồng Tin sinh học trên thế giới thừa nhận và sử dụng phổ biến trong tất cả các phần mềm

Trang 25

Định dạng SAM là các thẻ đƣợc định danh Tiêu đề đƣợc bắt đầu với ký hiệu @ và có các thành phần khác theo thứ tự sau:

Bảng 1.1: Các thẻ định danh trong SAM

1 Tên truy vấn / khuôn mẫu / cặp

2 Cờ (Cờ đảo bit)

3 Tên tham chiếu

4 Vị trí (tại 1 vị trí cuối cùng bên trái)

5 Chất lƣợng ánh xạ (Trong quy mô Phred )

Mỗi bit trong cờ đƣợc định nghĩa là:

Bảng 1.2: Định nghĩa cờ đảo bít trong SAM

VD: Minh họa định dạng file SAM

Trang 26

0x1 Mẫu có nhiều phân đoạn trong trình tự

0x2 Mỗi phân đoạn canh thẳng hàng đúng theo bộ chỉnh

0x4 Phân đoạn không đƣợc ánh xạ

0x8 Phân đoạn tiếp theo trong mẫu không đƣợc ánh xạ

0x10 Trình tự đảo đoạn đƣợc bổ sung

0x20 Trình tự của đoạn tiếp theo trong mẫu đƣợc đảo đoạn

0x40 Đoạn đầu tiên trong mẫu

0x80 Đoạn cuối cùng trong mẫu

0x100 Sự sắp xếp thành hàng thứ hai

0x200 Không đạt chất lƣợng

0x400 PCR hoặc bản sao quang học

Chuỗi CIGAR mô tả cho những thao tác CIGAR sau đây:

Bảng 1.3: Mô tả chuỗi CIGAR

M Trùng khớp vị trí căn chỉnh (trùng khớp hoặc không trùng khớp)

I Chèn vào tham chiếu

D Xóa từ tham chiếu

N Bỏ qua vùng của tham chiếu

S Trích đoạn mềm (trích đoạn trình tự có mặt trong trình tự)

H Trích đoạn cứng (trích đoạn trình tự không có mặt trong trình tự )

P Đệm (xóa từ bảng tham chiếu đã đƣợc thêm)

= Trình tự trùng khớp

X Trình tự không trùng khớp

Trang 27

1.2.3 - Bài toán đột biến đảo đoạn

Bằng nhiều nghiên cứu khác nhau, các nhà khoa học cho thấy cấu trúc

hệ gen của con người trên thế giới có tới 99,9% chuỗi DNA đồng nhất Do

đó chỉ một phần nhỏ của hệ gen được di truyền mang theo sự biển đổi về kiểu hình và đặc tính nhạy cảm với bệnh[5],[6] Trước bước đột phá về công nghệ giải trình tự, chỉ có một số ít những thay đổi đặc trưng về số lượng và cấu trúc của nhiễm sắc thể có thể quan sát được bao gồm như thể

dị bội, thay đổi trên nhiễm sắc thể (đảo đoạn, lặp đoạn, chèn đoạn…) Kích thước của những thay đổi này rất lớn (thông thường hơn 3Mb nên có thể quan sát bằng kính hiển vi và được đặt tên theo những kiểu cấu trúc cực nhỏ Cùng với sự tiến bộ của sinh học phân tử và công nghệ giải trình tự, cho phép chúng ta có thể quan sát được biến đổi mới và nhỏ hơn 1kb như SNPs, chèn, xóa, lặp đoạn Sau khi giải mã thành công hệ gen của người, các công cụ được phát triển nhằm mô tả thành phần di truyền của hệ gen người ở mức độ nucleotide Đặc biệt, những công nghệ mảng quét và sự phân tích chuỗi DNA so sánh hệ gen để lộ ra số lượng những sự biến đổi hệ gen nhỏ hơn mức vi mô và lớn hơn so với những phát hiện do phân tích trình tự quy ước Những sự biến đổi đó được định nghĩa như những sự biến đổi cấu trúc siêu hiển vi[4] Hàng trăm bản sao số biến thể (CNVs) đã được

mô tả trong bản đồ gen con người với trợ giúp của những công nghệ đó

Trang 28

Hình 1.7: Bản sao - số biến thể ( CNVs)[5]

Hình 1.7 trên cho thấy số lượng của CNVs, sự đảo đoạn tìm thấy cùng với phân phối kích thước của chúng Những thanh chắn xanh chỉ ra thông báo CNVs, những thanh chắn đỏ chỉ ra thông báo những điểm dừng đảo đoạn, những thanh chắn xanh lục tới bên trái chỉ báo những sao chép phân đoạn

Bảng 1.4 Bảng cho thấy CNVs và đảo đoạn[5]

Hình 1.8: Đồ thị gia tăng CNV và InDel đã thêm vào CSDL từ năm 2002[5]

Khi bắt đầu nghiên cứu về nhiễm sắc thể, đột biến đảo đoạn luôn được quan tâm, đảo đoạn là một trong những nguyên nhân cơ bản nhất gây ra những sự sắp xếp lại hệ gen và có vai trò quan trọng trong quá trình tiến hóa động vật linh trưởng Khi so sánh hệ gen người và hệ gen tinh tinh chúng ta

có thể quan sát được chín đột biến đảo đoạn bao gồm tâm động và nhiều

Trang 29

chuỗi trình tự bị đảo đoạn siêu nhỏ[5] Phát hiện này cho thấy đảo đoạn có vai trò quan trọng trong việc thực hiện sắp xếp lại gen và xảy ra khá thường xuyên trong quá trình tiến hóa của động vật linh trưởng

Hình 1.9: Đồ thị sự phân phối kích thước CNVs trong cơ sở dữ liệu[5]

0 50000

Trang 30

Hình 1.10: Phần lớn sự đảo đoạn đến nay có cỡ 10 đến 100kb[5]

Các trình tự hệ gen của các loài sinh vật có thể được giải mã một cách hoàn thiện bằng các máy đọc trình tự thế hệ mới, tuy nhiên kết quả dữ liệu

đó muốn xử lý để phát hiện ra sự biến đổi cấu trúc trong toàn bộ hệ gen là một vấn đề quan trọng Yêu cầu đó tương tự như việc gióng hàng và so sánh

2 chuỗi sinh học S1, S2 Gióng hàng và so sánh cặp chuỗi này có thể được thực hiện bằng cách chèn thêm vào hai chuỗi S1 và S2 các dấu cách (kí hiệu

là - ) tại các vị trí bất kỳ với số lượng không hạn chế để tạo ra 2 chuỗi S1‟

và S2‟ tương ứng, sau đó đặt một chuỗi trên chuỗi kia sao cho mỗi kí tự của chuỗi này gióng thẳng với một kí tự của chuỗi kia và cặp trình tự gióng không đồng thời là dấu cách

Chuỗi sinh học ban đầu không có dấu cách và nếu loại bỏ dấu khỏi S1‟ và S2‟ ta sẽ có S1 và S2 ban đầu

Phân loại:

Phép so sánh trình tự theo hướng toàn cục: Phép toán so sánh được áp dụng trên toàn bộ chuỗi trình tự Thường được sử dụng khi các trình tự so sánh có kích thước gần tương đương và các trình tự này có độ tương đồng,

Trang 31

giống nhau cao Công thức (1) tính toán cho việc so sánh như sau (so sánh 2 chuỗi)

F(i-1,j-1) + s(x i ,y j ) F(i,j) = max F(i-1,j) – d (1)

F(i,j-1) - d

Phép so sánh trình tự theo hướng cục bộ: Phép toán so sánh được sử dụng trên một phần của chuỗi trình tự Thường được sử dụng khi các trình

tự có chiều dài lớn, độ tương đồng giống nhau không cao, chỉ có một số ít các gene giống nhau trên 2 trình tự, hoặc khi 2 trình tự có kích thước khác biệt lớn Công thức (2) tính như sau:

F(i-1,j-1) + s(x i ,y j ) F(i,j) = max F(i-1,j) – d (2)

F(i,j-1) - d

0

Với F(i, j) là điểm số tương đồng tích luỹ dần khi so sánh hai chuỗi

trình tự tới vị trí i của chuỗi 1 và j của chuỗi 2 Và s là hàm tính toán sự

tương đồng từng ký hiệu đơn của hai chuỗi dựa trên các bảng đánh giá như PAM, BLOSUM Với cách tính trên, kết quả của vị trí so sánh cuối cùng F(n1,n2) là số điểm tính sự tương đồng giữa các trình tự

Khi so sánh nhiều trình tự ta có cách tính tổng số điểm tương đồng

(SP – Sum of Pairs) là tổng điểm tương đồng của từng cặp như sau:

Trang 32

Tuy nhiên với k chuỗi có độ dài n, khi áp dụng quy hoạch động thì độ phức tạp vẫn rất lớn: O((2k

+ Mô tả cấu trúc dữ liệu hệ gen của các sinh vật

+ Tổng hợp các hệ gen của một loài sinh vật để đưa ra cấu trúc tham chiếu đại diện cho sinh vật đó

+ So sánh hệ gen của một cá thể với hệ gen tham chiếu

+ Xử lý các hệ gen của cá thể để đưa ra được các đột biến cấu trúc trong cá thể

Để giải quyết các vấn đề đó các nhà lập trình hệ thống đã đưa ra phương pháp giải quyết dựa trên cơ sở lý thuyết của công nghệ sinh học như sau:

+ Mô tả cấu trúc dữ liệu hệ gen bằng các ký tự văn bản A,T,G,C… tương ứng cho từng Nucleotit, đồng thời tạo thêm các ràng buộc liên quan như về tên trình tự, vị trí trình tự, hoặc chất lượng các trình tự…

+ Xây dựng ngân hàng hệ gen tham chiếu NCBI của tất cả các loài + Xây dựng các công cụ hỗ trợ so sánh hệ gen của cá thể với hệ gen tham chiếu như Bowtie, BWA, TMAP, Wgsim bằng các ngôn ngữ lập trình như C, Perl, Python… trên nền các hệ điều hành khác nhau như Windows, Unix, Linux…

Trang 33

+ Xứ lý hệ gen để đưa ra các đột biến bằng các chương trình như BreakDancer hoặc SVDetect …

Tuy nhiên trong khuôn khổ luận văn này, tôi sẽ tìm hiểu về phương pháp đọc trình tự gen, sử dụng hệ gen tham chiếu đã có sẵn trên NCBI và sử dụng một số công cụ như Bowtie, TMAP, Wgsim để so sánh hệ gen đồng thời xây dựng một chương trình demo bằng ngôn ngữ Perl chạy trên nền Ubuntu mô phỏng thuật toán Smith-Waterman để phát hiện các đột biến đảo đoạn trong hệ gen của các loài sinh vật (cụ thể là hệ gen người Hg19)

1.3 - Các công cụ giải quyết bài toán đảo đoạn

1.3.1 - Chương trình Wgsim

Wgsim là một công cụ nhỏ để mô phỏng trình tự của bộ gen tham chiếu Nó có thể mô phỏng bộ gen lưỡng bội với SNPs, chèn, xóa (Indel),

mô phỏng ánh xạ với hầu hết lỗi trình tự Wgsim trả về mô phỏng đa hình,

và đưa ra gợi ý về điểm dừng khả dĩ đúng tương tự như số lượng các mô phỏng và trình tự lỗi trong ánh xạ

Wgsim đã được sửa đổi từ MAQ bằng cách giảm sự phụ thuộc vào các

mã nguồn trong gói MAQ và kết hợp các bản vá lỗi của Colin Hercus cho phép để mô phỏng Indels dài hơn 1bp Wgsim ban đầu được phát hành trong gói phần mềm SAMtools

1.3.2 - Chương trình TMAP

TMAP (Torrent Mapping Alignment Program) là một phần mềm mô phỏng nhanh và chính xác cho các trình tự có độ dài khác nhau của các nucleotide được xây dựng bởi công nghệ giải trình tự thế hệ mới Công cụ này thực hiện lập bản đồ ánh xạ cho các quá trình ánh xạ các đoạn trình tự

1.3.3 - Chương trình BWA và Bowtie

Trang 34

BWA là một gói phần mềm để lập bản đồ chuỗi có độ dài ngắn nhau đối với một bộ gen tham chiếu lớn, chẳng hạn như bộ gen con người Nó bao gồm ba thuật toán: BWA-backtrack, BWA-SW và BWA-MEM Thuật toán đầu tiên được thiết kế cho Illumina tự đọc lên đến 100bp, trong khi phần còn lại cho hai chuỗi còn dao động từ 70bp để 1Mbp

Bowtie là công cụ để lập bản đồ sự gióng hàng các đoạn trình tự, công

cụ này được xây dựng dựa trên thuật toán Smith-Waterman.Trong luận văn này khi thực nghiệm sẽ sử dụng phiên bản Bowtie2 Một số cú pháp khi sử dụng Bowtie2 trong môi trường Ubuntu như: bowtie2-build, bowtie2-align…

Bowtie hoạt động tốt nhất khi sắp xếp các đoạn read ngắn được cắt từ

bộ gen lớn, công cụ này thực hiện dựa trên cơ sở sử dụng các file dữ liệu của các máy đọc trình tự thế hệ mới (dạng fasta/fastq) rồi gióng hàng chúng với trình tự trong bộ gen tham chiếu, các đoạn read nhỏ được gióng hàng so với bộ gen tham chiếu tạo ra file dữ liệu SAM là dữ liệu đầu vào cho chương trình xử lý tìm kiếm đảo đoạn của bài toán đặt ra trong luận văn này

Chương 2 MỘT SỐ THUẬT TOÁN PHÁT HIỆN ĐỘT BIẾN

Hiện nay các phương pháp để phát hiện đột biến đảo đoạn thường có các giai đoạn cơ bản đó là: Giai đoạn ánh xạ trình tự xuôi, giai đoạn trích rút

và đảo ngược các trình tự không lắp ráp được ở giai đoạn một và giai đoạn cuối cùng là ánh xạ trình tự ngược (trình tự được đảo ngược) để xác định vị trí đảo đoạn Như vậy, ở giai đoạn thứ nhất và giai đoạn thứ ba đều sử dụng chung thuật toán ánh xạ trình tự Ở giai đoạn thứ hai, là quá trình can thiệp vào tập tin SAM (đầu ra của quá trình ánh xạ trình tự) để tìm ra các trình tự không ánh xạ được và các điểm dừng khả dĩ

Ánh xạ trình tự là quá trình nghiên cứu sự giống nhau giữa các chuỗi trình tự (sequence), là cách thức so sánh giữa 2 hay nhiều trình tự dựa trên việc so sánh một chuỗi các thành phần (ký tự) của trình tự để tìm ra những

Trang 35

điểm tương đồng, giống nhau giữa các trình tự Dưới đây là một số thuật toán để thực hiện nhiệm vụ đó

2.1 - Thuật toán ma trận điểm

Thuật toán ma trận điểm[1] này được coi là đơn giản nhất Ra đời năm

1970 bởi Gibbs và G.A.McIntyre để so sánh hai trình tự nucleotide của hệ gen Thuật toán này xử lý các đoạn trình tự dựa vào ma trận điểm hai chiều xác định các base bắt cặp trong hai trình tự

+Input:

Hai chuỗi S1, S2 (thể hiện hai trình tự cần so sánh)

Ma trận F (ma trận được xây dựng dựa trên trình tự base của hai chuỗi S1,S2)

+Out put:

Hai chuỗi S1‟ và S2‟ thỏa mãn có độ tương đồng cao nhất

THUẬT TOÁN:

+Bước 1: Thiết lập ma trận 2 chiều, mà trận này được xây dựng dựa

vào chuỗi trình tự của S1, S2 (thứ tự các nucleotide trong S1, S2 không được thay đổi)

+Bước 2: Tích vào tất cả các ô tương ứng cùng với một nucleotide,

sau đó thực hiện nối tất cả các ô được đánh dấu liền kề nhau theo chiều đường chéo phía góc trên bên trái kẻ xuống để xác định đoạn chuỗi tương đồng

Phương pháp này thể hiện sự tương đồng giữa các nucleotide, các vùng lặp lại trong chuỗi trình tự, các trình tự bổ sung trong RNA mà có thể dẫn đến hình thành cấu trúc bậc đột biến

Quá trình thực hiện bằng phương pháp này có hạn chế khi thực hiện trên bộ dữ liệu vào quá lớn hoặc quá dài, dẫn đến việc sảy ra trùng lặp hoặc sai trong các lần so sánh gióng hàng các đoạn trình tự điều này ảnh hưởng tới độ chính xác của kết quả.Tuy nhiên thuật toán này rất tốt khi sử dụng trên các bộ dữ liệu nhỏ và độ dài ngắn

VD: So sánh 2 chuỗi:

Trang 36

Trang 37

Trang 38

BLAST (Basic Local Alignment Search Tool) [16],[17] là một giải thuật để so sánh các chuỗi sinh học như các chuỗi gen khác nhau Khi được cung cấp một cấu trúc chuỗi gen hay trình tự hệ gen đó, thuật toán BLAST

sẽ cho phép tìm kiếm các chuỗi con giống với chuỗi gen tham chiếu

BLAST cần đầu vào là 2 chuỗi: một là chuỗi truy vấn (hay còn gọi là chuỗi đích) và một chuỗi gen tham chiếu BLAST sẽ tìm kiếm các chuỗi con trong câu truy vấn mà giống với các chuỗi con trong chuỗi gen tham chiếu Thông thường khi sử dụng, chuỗi truy vấn là nhỏ hơn rất nhiều so chuỗi gen tham chiếu, ví dụ: chuỗi truy vấn có thể chỉ gồm 1 nghìn nucleotide trong khi chuỗi gen tham chiếu có hàng tỉ nucleotide

BLAST tìm kiếm những bắt cặp trình tự có trị số cao giữa chuỗi truy vấn và các chuỗi trong chuỗi gen tham chiếu bằng cách sử dụng phương pháp dựa trên trọng số để có thể có tìm được kết quả gần tốt bằng với giải thuật Smith-Waterman Tốc độ và sự chính xác tương đối của BLAST là những cải tiến kĩ thuật quan trọng của các chương trình BLAST và những điều đó cho thấy lí do vì sao công cụ này lại là công cụ tìm kiếm phổ biến nhất trong tin sinh học

Thuật toán

Ý tưởng của BLAST dựa trên cơ sở xác suất rằng những chuỗi bắt cặp trình tự (alignment) thường chứa nhiều chuỗi trình tự con có tính tương tự cao Những chuỗi con này được nhân bản để tăng tính tương tự trong quá trình tìm kiếm

Thuật toán của BLAST có 2 phần, một phần tìm kiếm và một phần đánh giá thống kê dựa trên kết quả tìm được Thuật toán tìm kiếm của BLAST bao gồm 3 bước sau:

Bước 1: BLAST tìm kiếm các chuỗi con ngắn với chiều dài cố định W

có tính tương tự cao (không cho phép khoảng trống gaps) giữa chuỗi truy vấn và các chuỗi con trong chuỗi gen tham chiếu

Trang 39

Những chuỗi con với chiều dài W đƣợc BLAST gọi là một từ (word)

Giá trị W tham khảo cho Protein là 3 và DNA là 11

Những chuỗi con này đƣợc đánh giá cho điểm dựa trên ma trận thay thế (Substitutionsmatrix) BLOSUM hoặc PAM[14], những chuỗi con nào có

số điểm lớn hơn một giá trị ngƣỡng T (threshold value) thì đƣợc gọi là tìm thấy và đƣợc BLAST gọi là Hits

Trang 40

Định dạng
Số trang	81
Dung lượng	1,56 MB

phát hiện các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới

3 Bài toán đột biến đảo đoạn

Ánh xạ các đoạn trình tự