Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 81 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
81
Dung lượng
1,36 MB
Nội dung
1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN VĂN THÀNH PHÁT HIỆN CÁC ĐỘT BIẾN ĐẢO ĐOẠN TRONG HỆ GEN GIẢI MÃ TỪ THIẾT BỊ ĐỌC TRÌNH TỰ THẾ HỆ MỚI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên – 2014 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ LỜI CAM ĐOAN Tôi xin cam đoan: Luận văn cơng trình nghiên cứu thực cá nhân, đƣợc thực dƣới hƣớng dẫn khoa học Tiến sĩ Nguyễn Cường Các số liệu, kết luận nghiên cứu đƣợc trình bày luận văn trung thực chƣa đƣợc công bố dƣới hình thức Tơi xin chịu trách nhiệm nghiên cứu Học viên Nguyễn Văn Thành Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ LỜI CÁM ƠN Lời đầu tiên, xin chân thành cám ơn Tiến sĩ Nguyễn Cường nguời trực tiếp huớng dẫn hoàn thành luận văn Với lời dẫn, tài liệu, tận tình hƣớng dẫn lời động viên Thầy giúp vƣợt qua nhiều khó khăn q trình thực luận văn Tôi xin cám ơn quý Thầy (Cô) giảng dạy chƣơng trình cao học “Khoa học máy tính” truyền dạy kiến thức quý báu, kiến thức hữu ích giúp tơi nhiều thực nghiên cứu Xin cám ơn quý Thầy (Cô) công tác Trƣờng Đại học Công nghệ thông tin truyền thông – Đại học Thái Nguyên tạo điều kiện cho tơi đƣợc tham gia hồn thành khóa học Tôi xin chân thành cám ơn Học viên Nguyễn Văn Thành Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ MỤC LỤC LỜI CAM ĐOAN LỜI CÁM ƠN MỤC LỤC DANH MỤC CÁC HÌNH ẢNH DANH MỤC CÁC BẢNG BIỂU DANH MỤC CÁC TỪ VIẾT TẮT-THUẬT NGỮ PHẦN MỞ ĐẦU Chƣơng 1.TỔNG QUAN VỀ TIN SINH HỌC VÀ BÀI TOÁN PHÁT HIỆN ĐỘT BIẾN ĐẢO ĐOẠN 11 1.1 - Tổng quan Tin sinh học 11 1.2 – Cơ sở lý thuyết toán đột biến đảo đoạn 12 1.2.1 - Gen đột biến cấu trúc hệ gen 12 1.2.2 - Phƣơng pháp phát biến đổi cấu trúc đồ gen 15 1.2.3 - Định dạng sở liệu 23 1.2.3 - Bài toán đột biến đảo đoạn 27 1.3 - Các công cụ giải toán đảo đoạn 33 1.3.1 - Chƣơng trình Wgsim 33 1.3.2 - Chƣơng trình TMAP 33 1.3.3 - Chƣơng trình BWA Bowtie 33 Chƣơng MỘT SỐ THUẬT TOÁN PHÁT HIỆN ĐỘT BIẾN 34 2.1 - Thuật toán ma trận điểm 35 2.2 - Thuật toán Blast 37 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 2.3 - Thuật toán lai GA-SA 42 2.4 - Thuật toán Needleman – Wunsch 45 2.5 - Thuật toán Smith-Waterman 49 Chƣơng CÀI ĐẶT THUẬT TOÁN VÀ ĐÁNH GIÁ KẾT QUẢ 56 3.1 - Ánh xạ đoạn trình tự 57 3.2 - Xử lý SAM khởi tạo điểm dừng 58 3.3 - Lọc hoàn thiện điểm dừng 61 3.4 - Mô liệu thống kê kết ánh xạ 64 3.5 - Đánh giá kết phân tích 68 3.6 - So sánh với phƣơng pháp 74 3.7 - Những hạn chế cách khắc phục 76 KẾT LUẬN 78 TÀI LIỆU THAM KHẢO 80 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ DANH MỤC CÁC HÌNH ẢNH Hình 1.1: Trong tế bào có nhân 13 Hình 1.2: Gen đƣợc cấu tạo từ DNA Mỗi NST có nhiều gen 13 Hình 1.3: Cấu trúc phần gen 13 Hình 1.4: Đột biến đảo đoạn hệ gen 15 Hình 1.5: Các giai đoạn đọc trình tự hệ 22 Hình 1.6: Định dạng SAM 25 Hình 1.7: Bản - số biến thể ( CNVs) 28 Hình 1.8: Đồ thị gia tăng CNV InDel thêm vào CSDL từ năm 2002 28 Hình 1.9: Đồ thị phân phối kích thƣớc CNVs sở liệu 29 Hình 1.10: Phần lớn đảo đoạn đến có cỡ 10 đến 100kb 30 Hình 2.1: Ma trận thay BLOSUM 40 Hình 2.2: Ma trận thay PAM 40 Hình 3.1: Sự gióng hàng q trình ánh xạ r1, r2 vùng đảo ngƣợc 57 Hình 3.2: Những vùng đƣợc lựa chọn dựa vào điểm dừng trái phải 62 Hình 3.4: Số lƣợng đảo đoạn NST khác 65 Hình 3.5: Phân phối kích thƣớc 90 đảo đoạn 65 Hình 3.6: Tổng số trình tự ánh xạ Map1 Map2 đọc lý tƣởng 67 Hình 3.7: Tổng số trình tự ánh xạ Map1 Map2 cho trình tự lỗi 67 Hình 3.8: Những giá trị dƣơng tính giả pha thứ pha thứ 72 Hình 3.9: Tính nhạy cảm pha pha 73 Hình 3.10: Dự đốn giá trị dƣơng tính giả pha pha 73 Hình 3.11: Tính nhạy cảm pha pha cho trình tự có lỗi 74 Hình 3.12: PPV pha pha cho trình tự có lỗi 74 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Hình 3.13: So sánh Inverse Variant vớiBreakDancer dựa vào điểm dừng 76 Hình 3.15: So sánh Inverse Variant với BreakDancer dựa vào tính nhạy cảm, PPV FScore 76 DANH MỤC CÁC BẢNG BIỂU Bảng 1.1: Các thẻ định danh SAM 25 Bảng 1.2: Định nghĩa cờ đảo bit SAM 25 Bảng 1.3: Mô tả chuỗi CIGAR 26 Bảng 1.4 Bảng cho thấy CNVs đảo đoạn 28 Bảng 3.1: Những tham số đƣợc đặt mô cho đoạn trình tự có lỗi 66 Bảng 3.2: Kết Inverse Variant trình tự lý tƣởng có độ dài 100bp 69 Bảng 3.3: Kết Inverse Variant trình tự lý tƣởng có độ dài 200bp 69 Bảng 3.4: Kết Inverse Variant trình tự lý tƣởng có độ dài 400bp 69 Bảng 3.5: Kết Inverse Variant trình tự lý tƣởng với độ bao phủ 10X 70 Bảng 3.6: Kết Inverse Variant trình tự lỗi với độ bao phủ 10X 70 Bảng 3.7: Bảng so sánh InverseVariantvới BreakDancer 75 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ DANH MỤC CÁC TỪ VIẾT TẮT-THUẬT NGỮ STT Nghĩa/Mô tả Từ viết tắt/thuật ngữ DNA Deoxyribo Ducleic Acid BP Base Pair GB Giga Base Pair NST Nhiễm sắc thể DNA senquencing Đọc trình tự DNA HGP Dự án hệ giải trình tự hệ gen ngƣời Nucleotide Là trình tự A,T,G,C SBS Đọc trình tự sợ tổng hợp SBL Đọc trình tự gắn nối 10 PCR Kỹ thuật khuếch đại gen 11 Nanowell Giếng nano 12 CGIAR Chuỗi thể số base đƣợc ánh xạ/mất/thêm so với tham chiếu 13 SNP Đa hình đơn điểm/đơn nucleotide 14 CNV Bản số biến thể 15 InDel Vị trí thể chèn xóa gen 16 BWA (hoặc Bowtie) Cơng cụ ánh xạ trình tự với liệu tham chiếu 17 TMAP Chƣơng trình để xây dựng đồ di truyền 18 Wgsim Công cụ mô đoạn trình tự ngắn từ liệu hệ gen tham chiếu 19 Single end reads Phƣơng pháp đọc trình tự theo chiều đơn 20 PPV Dự đốn dƣơng tính giả 21 Hg19 Trình tự hệ gen ngƣời phiên 19 22 MAQ Phần mềm lập đồ cho trình tự ngẵn từ máy đọc trình tự hệ Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ PHẦN MỞ ĐẦU Trong nghiên cứu sinh học đại có nhiều cơng nghệ giải pháp đƣợc ứng dụng để phân tích, tổng hợp liệu cấu trúc trình tự hệ gen lồi sinh vật Việc phân tích tổng hợp liệu yêu cầu hệ thống cấu trúc lƣu trữ đáp ứng đủ tính chất độ phức tạp độ lớn liệu kết Các thiết bị đọc trình tự gen đƣợc đời để giải vấn đề nêu Các thiết bị đọc trình tự gen cơng cụ xác định thứ tự nucleotide gắn kết với dọc theo chiều dài gen trình tự gắn kết nucleotide đƣợc gọi trình tự gen Trong đó, đọc trình tự hệ bƣớc tiến vƣợt bậc cơng nghệ đọc trình tự, từ khả đọc trình tự đoạn ngắn 1500bp (Sanger) hay 100 bp (pyrosequencing) thiết bị đọc trình tự trƣớc đó, đọc trình tự hệ cho phép đọc đƣợc từ 8gb đến 600gb, có nghĩa cho phép đọc trình tự nguyên gen loài sinh vật Với mong muốn hiểu chi tiết cấu trúc gen nhà nghiêncứu sinh học muốn đọc trình tự hồn chỉnh gen tất loài sinh vât tự nhiên, bao gồm hệ gen ngƣời tồn trình tự gen khác nhiều động, thực vật, vi sinh vật, đồng thời qua việc nghiên cứu phát đột biến cấu trúc hệ gen đƣợc giải mã Đặc biệt dạng đột biến đảo đoạn, loại đột biến gây ảnh hƣởng đến sức sống cá thể, nhƣng nógóp phần lớn tăng cƣờng sai khác nhiễm sắc thể (NST) tƣơng đồng điều dẫn đến tăng đa dạng thứ,các nịi nịi, ảnh hƣởng tới sức sống cá thểvà xếp lại hệ gen NST đột biến đảo đoạn góp phần tạo đa dạng tự nhiên Đối với ngƣời việc đọc trình tự hệ gen quan trọng, góp phần việc nghiên cứu sinh học nhiều lĩnh vực ứng dụng nhƣ chẩn đốn bệnh tật, cơng nghệ sinh học, sinh học pháp y, sinh học hệ thống Nhận thấy tính thiết thực vấn đề với Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 10 định hƣớng giáo viên hƣớng dẫn, học viên chọn đề tài “Phát đột biến đảo đoạn hệ gen giải mã từ thiết bị đọc trình tự hệ mới” để làm rõ vấn đề nêu Đối tƣợng phạm vi nghiên cứu Kiến trúc thành phần đột biến cấu trúc hệ gen Ứng dụng thiết bị đọc trình tự hệ cơng nghệ sinh học Phƣơng pháp phát đột biến đảo đoạn sử dụng thiết bị đọc trình tự hệ để giải mã Hƣớng nghiên cứu đề tài Nghiên cứu, tìm hiểu mơ hình, cách làm việc giải mã hệ gen từ thiết bị đọc trình tự hệ Nghiên cứu cấu trúc liệu, phƣơng pháp tiền xử lý lắp ráp hệ gen từ thiết bị đọc trình tự hệ Tìm hiểu, tham khảo tài liệu liên quan đến đột biến đảo đoạn hệ gen, từ xây dựng thuật tốn phát đột biến gen đảo đoạn hệ gen giải mã từ thiết bị đọc trình tự hệ Phƣơng pháp nghiên cứu Nghiên cứu lý thuyết thiết bị đọc trình tự hệ mới, đột biến gen đảo đoạn cách phát đột biến đảo đoạn hệ gen giải mã từ thiết bị đọc trình tự hệ Thiết kế, đặc tả, xây dựng chƣơng trình, phƣơng pháp đọc trình tự gen phát đột biến đảo đoạn Qua phát đột biến đảo đoạn đƣa kết luận Ý nghĩa khoa học đề tài Làm sở để phát đột biến đảo đoạn hệ gen Ứng dụng nhƣ chẩn đoán bệnh, sinh học pháp y, sinh học hệ thống Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 67 Sắc xuất gia tăng 0.3% 10 Số lƣợng Tổng số lần đọc đƣợc tạo Đọc đồ Map1 Đọc đồ Map2 Tổng số lần đọc đồ 100bp 200bp 400bp Kích thƣớc Hình 3.6: Tổng số trình tự ánh xạ Map1 Map2 đọc lý tưởng Tƣơng tự nhƣ với liệu lý tƣởng, việc ánh xạ đoạn trình tự có lỗi đƣợc ánh xạ TMAP sử dụng ánh xạ hai giai đoạn Các chi tiết lỗi đoạn trình tự đƣợc mô lập đồ đƣợc Số lƣợng đƣa vào hai pha ánh xạ hình 3.7 dƣới Tổng số lần đọc đƣợc tạo Đọc đồ Map1 Đọc đồ Map2 Tổng số lần đọc đồ 100bp 200bp 400bp Kích thƣớc Hình 3.7: Tổng số trình tự ánh xạ Map1 Map2 cho trình tự lỗi Rõ ràng so sánh hình 3.6 hình 3.7 (Số lƣợng = log10(Read)) ta thấy kết liệu lý tƣởng đƣợc ánh xạ từ Map1 hẳn liệu có lỗi Tuy nhiên sau đó, kết liệu có lỗi khơng ánh xạ đƣợc Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 68 Map2 hẳn liệu lý tƣởng Những đoạn trình tự lỗi cặp base InDels có tỷ lệ để lập đồ vị trí khác (so với vị trí từ Inverse Variant phát sinh ra) hệ gen tham chiếu cao trình tự lý tƣởng Do trình tự có lỗi đƣợc ánh xạ giai đoạn Map2 nhiều trình tự lý tƣởng Nhƣng tổng số trình tự lý tƣởng đƣợc ánh xạ (từ hai bƣớc Map1 Map2) cao so với trình tự có lỗi 3.5 - Đánh giá kết phân tích Sau nhận đƣợc tệp tin SAM từ việc lập đồ mơ trình tự sử dụng TMAP 2.3.2 hai giai đoạn, Inverse Variant xử lý SAM để phát đảo đoạn gen suy luận vị trí điểm dừng nhiễm sắc thể khác Bên cạnh tập tin SAM, Inverse Variant có tập tin tham chiếu, tồn trình tự hệ gen tên kết đầu Quá trình thiết lập số hỗ trợ đọc hạn chế >=2 Giai đoạn đầu Inverse Variant ta thấy cặp điểm dừng sở giai đoạn thứ hai đƣợc tạo từ vùng chọn Những vùng chọn đƣợc ánh xạ lần với tồn đoạn trình tự để lọc dự đốn dƣơng tính giả Sau lọc dƣơng tính giả, đầu đƣợc viết tập tin văn bản, có cặp điểm dừng, số hỗ trợ đọc, tên số lƣợng nhiễm sắc thể liên kết phân đoạn cho điểm dừng Kết hai giai đoạn đƣợc thể bảng 3.2, bảng 3.3, bảng 3.4 bảng 3.5 để mơ cho trình tự lý tƣởng có độ dài độ bao phủ khác Tƣơng tự nhƣ vậy, Bảng 3.6 ta thấy kết Inverse Variant cho độ dài khác trình tự có lỗi Đánh giá hiệu Inverse Variant tính tốn thơng số thống kê nhƣ độ nhạy cảm dự đốn dƣơng tính giả (PPV) Số liệu dƣới cho thấy dƣơng tính giả, nhạy cảm PPV giai đoạn khác từ độ bao phủ khác để giải thích hoạt động Inverse Variant Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 69 Bảng 3.2: Kết Inverse Variant trình tự lý tưởng có độ dài 100bp Chiều dài đọc Độ bao phủ 10X 100bp 5X 2.5X Pha Tổng số điển thu đƣợc Tổng số điểm giá trị dƣơng tính Những điểm dƣơng tính có Inverse Variant Giá trị dƣơng tính giả Giá trị âm tính giả Tính nhạy cảm % PPV % I 1998 90 79 1919 11 87.78 3.95 II 72 90 47 25 43 52.22 65.28 I 207 90 65 142 25 72.22 31.4 II 41 90 41 49 45.56 100 I 90 90 25 65 65 27.78 27.78 II 15 90 14 76 15.56 93.33 Bảng 3.3: Kết Inverse Variant trình tự lý tưởng có độ dài 200bp Chiều dài đọc Độ bao phủ 10X 200bp 5X 2.5X Pha Tổng số điển thu đƣợc Tổng số điểm giá trị dƣơng tính Những điểm dƣơng tính có Inverse Variant Giá trị dƣơng tính giả Giá trị âm tính giả Tính nhạy cảm % PPV % I 49657 90 86 49571 95.56 0.17 II 222 90 74 148 16 82.22 33.33 I 18752 90 83 18669 92.22 0.44 II 130 90 58 72 32 64.44 44.62 I 3881 90 38 3843 52 42.22 0.98 II 42 90 28 14 62 31.11 66.67 Bảng 3.4: Kết Inverse Variant trình tự lý tưởng có độ dài 400bp Chiều dài đọc Độ bao phủ 10X 400bp 5X 2.5 X Pha Tổng số điển thu đƣợc Tổng số điểm giá trị dƣơng tính Những điểm dƣơng tính có Inverse Variant Giá trị dƣơng tính giả Giá trị âm tính giả Tính nhạy cảm % PPV % I 3743 90 84 3659 93.33 2.24 II 119 90 75 44 15 83.33 63.03 I 808 90 38 770 52 42.22 4.70 II 37 90 36 54 40.00 97.30 I 657 90 24 633 66 26.67 3.65 II 27 90 24 66 26.67 88.89 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 70 Bảng 3.5: Kết Inverse Variant trình tự lý tưởng với độ bao phủ 10X Độ bao phủ Chiều dài đọc 100bp 10X 200bp 400bp Pha Tổng số điển thu đƣợc Tổng số điểm giá trị dƣơng tính Những điểm dƣơng tính có Inverse Variant Giá trị dƣơng tính giả Giá trị âm tính giả Tính nhạy cảm % PPV % I 162 90 70 92 20 77.78 43.21 II 47 90 42 48 46.67 89.36 I 5775 90 83 5692 92.22 1.44 II 95 90 56 39 34 62.22 58.95 I 768 90 79 689 11 87.78 10.29 II 84 90 71 13 19 78.89 84.52 Bảng 3.6: Kết Inverse Variant trình tự lỗi với độ bao phủ 10X Độ bao phủ Chiều dài đọc 100bp 10X 200bp 400bp Pha Tổng số điển thu đƣợc Tổng số điểm giá trị dƣơng tính Những điểm dƣơng tính có Inverse Variant Giá trị dƣơng tính giả Giá trị âm tính giả Tính nhạy cảm % PPV % I 1707 90 37 1670 53 41.11 2.17 II 99 90 21 78 69 23.33 21.21 I 3057 90 76 2981 14 84.44 2.49 II 89 90 53 36 37 58.89 59.55 I 3775 90 74 3701 16 82.22 1.96 II 45 90 39 51 43.33 86.67 Ở hình 3.9, nhận thấy Inverse Variant với độ bao phủ 10X có giá trị dƣơng tính giả cao hai pha pha đó, so sánh với độ bao phủ 5X 2.5X thấp Với liệu có độ bao phủ 10X, Inverse Variant nhận nhiều đoạn trình tựvà nhiều gióng hàng, điều gây tăng giá trị dƣơng tính giả Chúng ta nhận thấy rằngcác đoạn trình tự với chiều dài 200bp có số dƣơng tính giả cao đoạn trình tự với chiều dài 100bp 400bp Khi ta tăng chiều dài đoạn trình tự, Inverse Variant tăng khả xuất đoạn Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 71 trình tự ánh xạ đƣợc vào vị trí Do cho trình tự với độ bao phủ 400bp Inverse Variant có giá trị dƣơng tính giả thấp Trình tự với chiều dài 100bp, với trình tự có chiều dài ngắn nhƣ này, chúng tƣơng đối dễ đƣợc ánh xạ tới nhiều vị trí khác bao gồm vị trí đƣợc tạo từ trình tự có chiều dài 200bp 400bp Hình 3.6 cho thấy Inverse Variant nhận đƣợc vài trình tự khơng ánh xạ đƣợc với chiều dài 100bp giai đoạn đầu so sánh với trình tự có chiều dài 200bp 400bp sau làm giảm giá trị dƣơng tính giả Trong giai đoạn hai, giá trị dƣơng tính giả giảm đáng kể bƣớc lọc cho tất chều dài độ bao phủ trình tự Hình 3.10 cho thấy nhạy cảm phƣơng pháp tiếp cận Inverse Variant cho hai giai đoạn với tất chiều dài đọc Chúng ta quan sát rõ ràng giai đoạn cho tất chiều dài độ bao phủ giới hạn trình tự, Inverse Variant nhận đƣợc độ nhạy cao so với giai đoạn thứ hai Nhƣng điều đƣợc kết hợp với giá trị dƣơng tính giả cao Điều cho thấy có PPV thấp giai đoạn đầu (thể Hình 3.11) Sau lọc hoàn thiện bƣớc giai đoạn thứ hai, giá trị dƣơng tính giả đƣợc lọc đáng kể Thật không may, điều lọc số giá trị dƣơng tính Vì sau giai đoạn thứ hai rõ ràng (từ hình 3.11) đƣợc cải thiện PPV tất giai đoạn cho tất độ bao phủ giới hạn giai đoạn nhƣng làm giảm độ nhạy cảm Do có tồn cân độ nhạy PPV Trong giai đoạn độ nhạy đạt yêu cầu nhƣng PPV thấp trái ngƣợc với giai đoạn thứ hai PPV cần đƣợc cải thiện độ nhạy cảm giảm Ở góc độ tƣơng đối, PPV tốt nhạy cảm trình tự có chiều dài 400bp Tƣơng tự, trình tự có lỗi, giai đoạn kết đầu racủa việc lập đồ trình tự khơng ánh xạ đƣợc lớn với trình tự lý tƣởng Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ log10(Read) 72 4.5 3.5 2.5 1.5 0.5 10xFP 5xFP 2.5xFP 10xSP 5xSP 2.5xSP 100bp 200bp 400bp Độ dài Hình 3.8: Những giá trị dương tính giả pha thứ pha thứ Nhƣ vậy, giai đoạn thứ hai, trình nhận đƣợc số lƣợng gióng hàng giá trị dƣơng tính giả nhiều Một vấn đề khác vớitrình tự có lỗi dễ dàng ánh xạ tới vị trí khác gen tham chiếu ánh xạ tuyển có chất lƣợng cao Vì lỗi bao gồm lỗi sở, ý nghĩa việc ánh xạ để lập đồ nhiều vị trí khác có định hƣớng, trình nhận đƣợc số lƣợng tƣơng đối cao giá trị dƣơng tính giả so với trình tự lý tƣởng Do đó, q trình giảm tính nhạy cảm PPV kết giai đoạn cuối trái ngƣợc với lần đọ lý tƣởng Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 73 100 90 80 Giá trị % 70 60 10xFP 50 5xFP 40 2.5xFP 30 10xSP 20 5xSP 10 2.5xSP 100bp 200bp 400bp Độ dài Hình 3.9: Tính nhạy cảm pha pha 120 PPV% 100 80 10xFP 60 5xFP 2.5xFP 40 10xSP 20 5xSP 2.5xSP 100bp 200bp 400bp Độ dài Hình 3.10: Dự đốn giá trị dương tính giả pha pha Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ GIá trị % 74 90 80 70 60 50 40 30 20 10 10xFP 10xSP 100bp 200bp 400bp Độ dài PPV% Hình 3.11: Tính nhạy cảm pha pha cho trình tự có lỗi 100 90 80 70 60 50 40 30 20 10 10xFP 10xSP 100bp 200bp 400bp Độ dài Hình 3.12: PPV pha pha cho trình tự có lỗi 3.6 - So sánh với phƣơng pháp Để so sánh phƣơng pháp Inverse Variant với cơng cụ có, tơi chọn mã nguồn BreakDancer [13] dựa trình tự kiểu paired end Q trình mơ lỗi tự liệu paired end với độ bao phủ 10X chiều dài 200bp kích thƣớc đoạn chèn 1000bp, từ „90 đảo ngƣợc cấy‟ gen thử nghiệm sử dụng mô Wgsim Dữ liệu đƣợc ánh xạ sử dụng cơng cụ lập đồ BOWTIE (hoặc BWA) để có đƣợc tập tin SAM Các tập tin SAM cuối đƣợc đƣa vào BreakDancer với tất thông Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 75 số thiết lập mặc định, ngoại trừ tham số 's' đƣợc thiết lập tới 100 (kích thƣớc tối thiểu vùng chọn) Trong số 90 đảo đoạn đƣợc cấy ghép, Inverse Variant tìm thấy 74 đảo đoạn so với 58 đảo đoạn BreakDancer Hình 3.14 dƣới cho thấy Inverse Variant tìm thấy điểm dừng giá trị dƣơng tínhgiả đƣợc phát lớn phƣơng pháp BreakDancer Cách tiếp cận dựa vào gióng hàng Single End reads ln có khả rõ ràng cho Single End Reads để ánh xạ tới nhiều vị trí khác hệ gen tham chiếu khác so với vị trí trả kết giá trị dƣơng tính giả nhiều hơn vị trí mà BreakDancer dựa vào cặp đọc kết thúc đƣợc phân cách kịch thƣớc chèn đƣợc xác định trƣớc Để phát cân số lƣợng đảo đoạn Inverse Variant xem xét trình tự có định hƣớng khơng bình thƣờng nhƣng kích thƣớc chèn xấp xỉ Hình 3.15 cho thấy cách tiếp cận có giá trị PPV tƣơng đối thấp so với công cụ BreakDancer Mặc dù công cụ BreakDancer cung cấp xác tọa độ điểm dừng, chúng nằm khoảng trung bình từ 1.000bp tới hết tọa độ điểm dừng Cách tiếp cận có độ xác tƣơng đối cao so với BreakDancer Tọa độ điểm dừng tạo phƣơng pháp tiếp cận có khoảng cách với tọa độ điểm dừng thực không 5bp Bảng 3.7: Bảng so sánh InverseVariantvới BreakDancer Phƣơng pháp Số điểm dừng Giá trị dƣơng tính Số điểm dừng Giá trị dƣơng tính giả Giá trị âm tính giả Tính nhạy cảm % PPV % Khoảng cách tới điểm giá trị dƣơng tính BreakDancer 67 90 58 32 64.4 86.6 1000bp InverseVariant 222 90 74 148 16 82.2 33.3 5bp Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 76 250 Giá trị 200 150 Điểm dừng Điểm dừng 100 Giá trị dƣơng tính giả Giá trị âm tính giả 50 BreakDancer Inverse Variant Hình 3.13: So sánh Inverse Variant vớiBreakDancer dựa vào điểm dừng 100 90 80 Giá trị % 70 60 Tính nhạy cảm 50 PPV 40 F-Score 30 20 10 BreakDancer Inverse Variant Hình 3.14: So sánh Inverse Variant với BreakDancer dựa vào tính nhạy cảm, PPV F-Score 3.7 - Những hạn chế cách khắc phục Đọc trình tự gen phát đột biến ln yêu cầu cấp thiết Mặc dù Inverse Variant khắc phục đƣợc hạn chế kích thƣớc đoạn read, cách sử dụng Single End Reads nhƣng phƣơng pháp tiếp Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 77 cận có hạn chế Inverse Variant tăng chiều dài trình tự single end, nhƣng lại làm giảm khả phát đoạn bị đảo có độ dài ngắn độ dài đoạn trình tự Inverse Variant sử dụng hai bƣớc ánh xạ tới đồ hệ gen ngƣợc lại với hệ gen tham chiếu để đạt hiệu cao Inverse Variant nhiều giá trị đọc bƣớc ánh xạ Điều đƣợc gây vùng lặp lặp lại (lặp lặp lại bình thƣờng lặp lặp lại đảo đoạn) hệ gen tham chiếu tính xác thuật tốn ánh xạ lập đồ bị giảm Ngồi bƣớc ánh xạ thứ lấy tất gióng hàng lần đảm bảo Inverse Variant khơng bỏ sót cặp gióng hàng quan trọng để suy điểm dừng Nếu Inverse Variant chọn gióng hàng tốt với chất lƣợng cao ánh xạ trình nhiều cặp gióng hàng gắn liền với điểm ánh xạ, Inverse Variant điểm dừng giai đoạn Mặc dù hạn chế nhƣ nhƣng có số cách để khắc phục hạn chế nhƣ sau: Inverse Variant mở rộng khả để phát đảo đoạn nhỏ cách xem xét ba phần gióng hang (tức gióng hàng đƣợc cắt cặp base hai mặt đối xứng), điều có khả làm tăng thêm giá trị dƣơng tính giả Quá trình sử dụng liệu độ bao phủ cao (> 10X) để tìm đảo đoạn di hợp tử, nhƣng độ bao phủ trình tự q cao mang lại giá trị dƣơng tính giả nhiều Với Inverse Variant giai đoạn thứ hai tạo vùng chọn, lập số ánh xạ tồn trình tự để Inverse Variant làm giảm bớt cách tạo nhiều giàng buộc giai đoạn đầu tiên, tức cách sử dụng số hỗ trợ lớn dành cho trình tự cặp Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 78 điểm dừng nhƣng điều nguyên nhân để điểm dừng Tinh chỉnh thông số khác làm cho chúng xác giúp làm giảm khó khăn KẾT LUẬN Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 79 Trong luận văn thực giải đƣợc số vấn đề đặt nhƣ sau: - Tìm hiểu gen, cấu trúc hệ gen, giải trình tự hệ gen, cơng nghệ đọc trình tự hệ - Tích hợp thử nghiệm đƣợc chƣơng trình demo phát đột biến đảo đoạn hệ gen đƣợc giải mã từ thiết bị đọc trình tự hệ có kết tốt xác, đồng thời sở để phát triển phƣơng phát phát tất đột biến cấu trúc Tuy nhiên để thực đƣợc nhiệm vụ phát tất loại đột biến cấu trúc thể sinh vật, có khó khăn định nhƣ việc đƣa cách thức xác định đột biến kiến thức thực nghiệm công cụ sinh hóa, dựa vào đƣa ý tƣởng thuật tốn xây dựng chƣơng trình, tìm kiếm cơng cụ hỗ trợ phù hợp… Những thách thức khơng nhỏ Nhƣng tin thời gian tới thực đƣợc Với nhà sinh học kết Inverse Variant đáp ứng tốt yêu cầu cần thiết kết sở quan trọng việc chẩn đoán bệnh tật, dự đốn kiểu hình, phát triển đa dạng lồi tạo đa dạng thứ, chi lồi, tạo giống trồng vật ni có xuất chất lƣợng cao Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 80 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Văn Cách (2006), Giáo trình tin sinh học, NXB Khoa học kỹ thuật, Hà Nội tr 30-49 [2] Nguyễn Cƣờng (2013), Định dạng liệu FastA FastQ, http://www.tinsinhhoc.org/genomics/104-fasta-fastq-formats, ngày 25/11/2013 [3] Nguyễn Ngọc Tú, Trần Văn Lăng (2007), Giải thuật lai cho toán hàng đa trình tự, Tạp chí phát triển KH&CN, tập 10 Tiếng Anh [4] Hogeweg P, Hesper (1984) The alignment of sets of sequences and the construction of phylogenetic trees An integrated method J Mol E vol 20, p 175-186 [5] Iafrate AJ, Feuk L, Rivera MN, Listewnik ML, Donahoe PK, Qi Y, Scherer SW, Lee C (2004 Sep) Detection of large-scale variation in the human genome Nat Genet [6] Lars Feuk, Andrew R Carson and Stephen W Scherer (2006): Structural variation in the human genome, Nature Renew Gennetics, 7(2), p 85-97 [7].Alkan C., Coe B.P and Eichler E.E (2011), Genome structural variation discovery and genotyping Nat Rev Genet., vol 12, p 363-376 [8] Teague, B et al High-resolution human genome structure by single-molecule analysis (2010) Proc Natl Acad Sci USA 107, p 10848– 10853 [9] Poehlmann, A., D Kuester, et al (2007) "K-ras mutation detection in colorectal cancer using the Pyrosequencing technique." Pathology, research and practice203(7): 489-497 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 81 [10] Li H.: Wgsim - Read simulator for next generation sequencing http://github.com/lh3/Wgsim [11] Homer, N, and Merriman, B TMAP: the Torrent Mapping Alignment Program In Preparation [12] Li H and Durbin, R (2010) Fast and accurate long-read alignment with Burrows-Wheeler transforms Bioinformatics, 26, 589–595 [13] Chen, K et al (2009) BreakDancer: an algorithm for highresolution mapping of genomic structural variation Nat Methods 6, 677-681 [14] R Durbin, S R Eddy, A Krogh, G Mitchison (2001) Biological Sequence analysis: probabilistic models of proteins and nucleic acids Cambridge University Press [15] Wang L, Jiang T (1994), On the complexity of multiple sequence alignment, J Comput Biol T 1, Vol 4, p337 – 348 [16] Warren J Ewens, Gregory R Grant, (2005) Statistical Methods in Bioinformatics – An Introduction, ISBN 0-387-40082-6 [17] David Edwards, Jason Stajich, David Hansen (2009) Bioinformatics: Tools and Applications, Springer Science & Business Media Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ... cách phát đột biến đảo đoạn hệ gen giải mã từ thiết bị đọc trình tự hệ Thiết kế, đặc tả, xây dựng chƣơng trình, phƣơng pháp đọc trình tự gen phát đột biến đảo đoạn Qua phát đột biến đảo đoạn. .. gen, từ xây dựng thuật tốn phát đột biến gen đảo đoạn hệ gen giải mã từ thiết bị đọc trình tự hệ Phƣơng pháp nghiên cứu Nghiên cứu lý thuyết thiết bị đọc trình tự hệ mới, đột biến gen đảo đoạn. .. ? ?Phát đột biến đảo đoạn hệ gen giải mã từ thiết bị đọc trình tự hệ mới? ?? để làm rõ vấn đề nêu Đối tƣợng phạm vi nghiên cứu Kiến trúc thành phần đột biến cấu trúc hệ gen Ứng dụng thiết bị đọc