Phát hiện các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới

89 172 0
Phát hiện các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN VĂN THÀNH PHÁT HIỆN CÁC ĐỘT BIẾN ĐẢO ĐOẠN TRONG HỆ GEN GIẢI MÃ TỪ THIẾT BỊ ĐỌC TRÌNH TỰ THẾ HỆ MỚI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên – 2014 LỜI CAM ĐOAN Tôi xin cam đoan: Luận văn cơng trình nghiên cứu thực cá nhân, thực hướng dẫn khoa học Tiến sĩ Nguyễn Cường Các số liệu, kết luận nghiên cứu trình bày luận văn trung thực chưa công bố hình thức Tơi xin chịu trách nhiệm nghiên cứu Học viên Nguyễn Văn Thành LỜI CÁM ƠN Lời đầu tiên, xin chân thành cám ơn Tiến sĩ Nguyễn Cường nguời trực tiếp huớng dẫn tơi hồn thành luận văn Với lời dẫn, tài liệu, tận tình hướng dẫn lời động viên Thầy giúp tơi vượt qua nhiều khó khăn q trình thực luận văn Tôi xin cám ơn quý Thầy (Cơ) giảng dạy chương trình cao học “Khoa học máy tính” truyền dạy kiến thức quý báu, kiến thức hữu ích giúp tơi nhiều thực nghiên cứu Xin cám ơn quý Thầy (Cô) công tác Trường Đại học Công nghệ thông tin truyền thông – Đại học Thái Nguyên tạo điều kiện cho tham gia hồn thành khóa học Tơi xin chân thành cám ơn Học viên Nguyễn Văn Thành MỤC LỤC LỜI CAM ĐOAN LỜI CÁM ƠN MỤC LỤC DANH MỤC CÁC HÌNH ẢNH DANH MỤC CÁC BẢNG BIỂU DANH MỤC CÁC TỪ VIẾT TẮT-THUẬT NGỮ PHẦN MỞ ĐẦU Chương 1.TỔNG QUAN VỀ TIN SINH HỌC VÀ BÀI TOÁN PHÁT HIỆN ĐỘT BIẾN ĐẢO ĐOẠN 11 1.1 - Tổng quan Tin sinh học 11 1.2 – Cơ sở lý thuyết toán đột biến đảo đoạn 12 1.2.1 - Gen đột biến cấu trúc hệ gen 12 1.2.2 - Phương pháp phát biến đổi cấu trúc đồ gen 15 1.2.3 - Định dạng sở liệu 23 1.2.3 - Bài toán đột biến đảo đoạn 27 1.3 - Các cơng cụ giải tốn đảo đoạn 33 1.3.1 - Chương trình Wgsim 33 1.3.2 - Chương trình TMAP 33 1.3.3 - Chương trình BWA Bowtie 33 Chương MỘT SỐ THUẬT TOÁN PHÁT HIỆN ĐỘT BIẾN 34 2.1 - Thuật toán ma trận điểm 35 2.2 - Thuật toán Blast 37 2.3 - Thuật toán lai GA-SA 42 2.4 - Thuật toán Needleman – Wunsch 45 2.5 - Thuật toán Smith-Waterman 49 Chương CÀI ĐẶT THUẬT TOÁN VÀ ĐÁNH GIÁ KẾT QUẢ 56 3.1 - Ánh xạ đoạn trình tự 57 3.2 - Xử lý SAM khởi tạo điểm dừng 58 3.3 - Lọc hoàn thiện điểm dừng 61 3.4 - Mô liệu thống kê kết ánh xạ 64 3.5 - Đánh giá kết phân tích 68 3.6 - So sánh với phương pháp 74 3.7 - Những hạn chế cách khắc phục 76 KẾT LUẬN 78 TÀI LIỆU THAM KHẢO 80 DANH MỤC CÁC HÌNH ẢNH Hình 1.1: Trong tế bào có nhân 13 Hình 1.2: Gen cấu tạo từ DNA Mỗi NST có nhiều gen 13 Hình 1.3: Cấu trúc phần gen 13 Hình 1.4: Đột biến đảo đoạn hệ gen 15 Hình 1.5: Các giai đoạn đọc trình tự hệ 22 Hình 1.6: Định dạng SAM 25 Hình 1.7: Bản - số biến thể ( CNVs) 28 Hình 1.8: Đồ thị gia tăng CNV InDel thêm vào CSDL từ năm 2002 28 Hình 1.9: Đồ thị phân phối kích thước CNVs sở liệu 29 Hình 1.10: Phần lớn đảo đoạn đến có cỡ 10 đến 100kb 30 Hình 2.1: Ma trận thay BLOSUM 40 Hình 2.2: Ma trận thay PAM 40 Hình 3.1: Sự gióng hàng q trình ánh xạ r1, r2 vùng đảo ngược 57 Hình 3.2: Những vùng lựa chọn dựa vào điểm dừng trái phải 62 Hình 3.4: Số lượng đảo đoạn NST khác 65 Hình 3.5: Phân phối kích thước 90 đảo đoạn 65 Hình 3.6: Tổng số trình tự ánh xạ Map1 Map2 đọc lý tưởng 67 Hình 3.7: Tổng số trình tự ánh xạ Map1 Map2 cho trình tự lỗi 67 Hình 3.8: Những giá trị dương tính giả pha thứ pha thứ 72 Hình 3.9: Tính nhạy cảm pha pha 73 Hình 3.10: Dự đốn giá trị dương tính giả pha pha 73 Hình 3.11: Tính nhạy cảm pha pha cho trình tự có lỗi 74 Hình 3.12: PPV pha pha cho trình tự có lỗi 74 Hình 3.13: So sánh Inverse Variant vớiBreakDancer dựa vào điểm dừng 76 Hình 3.15: So sánh Inverse Variant với BreakDancer dựa vào tính nhạy cảm, PPV FScore 76 DANH MỤC CÁC BẢNG BIỂU Bảng 1.1: Các thẻ định danh SAM 25 Bảng 1.2: Định nghĩa cờ đảo bit SAM 25 Bảng 1.3: Mô tả chuỗi CIGAR 26 Bảng 1.4 Bảng cho thấy CNVs đảo đoạn 28 Bảng 3.1: Những tham số đặt mô cho đoạn trình tự có lỗi 66 Bảng 3.2: Kết Inverse Variant trình tự lý tưởng có độ dài 100bp 69 Bảng 3.3: Kết Inverse Variant trình tự lý tưởng có độ dài 200bp 69 Bảng 3.4: Kết Inverse Variant trình tự lý tưởng có độ dài 400bp 69 Bảng 3.5: Kết Inverse Variant trình tự lý tưởng với độ bao phủ 10X 70 Bảng 3.6: Kết Inverse Variant trình tự lỗi với độ bao phủ 10X 70 Bảng 3.7: Bảng so sánh InverseVariantvới BreakDancer 75 DANH MỤC CÁC TỪ VIẾT TẮT-THUẬT NGỮ STT Từ viết tắt/thuật ngữ Nghĩa/Mô tả DNA Deoxyribo Ducleic Acid BP Base Pair GB Giga Base Pair NST Nhiễm sắc thể DNA senquencing Đọc trình tự DNA HGP Dự án hệ giải trình tự hệ gen người Nucleotide Là trình tự A,T,G,C SBS Đọc trình tự sợ tổng hợp SBL Đọc trình tự gắn nối 10 PCR Kỹ thuật khuếch đại gen 11 Nanowell Giếng nano 12 CGIAR Chuỗi thể số base ánh xạ/mất/thêm so với tham chiếu 13 SNP Đa hình đơn điểm/đơn nucleotide 14 CNV Bản số biến thể 15 InDel Vị trí thể chèn xóa gen 16 BWA (hoặc Bowtie) Cơng cụ ánh xạ trình tự với liệu tham chiếu 17 TMAP Chương trình để xây dựng đồ di truyền 18 Wgsim Công cụ mô đoạn trình tự ngắn từ liệu hệ gen tham chiếu 19 Single end reads Phương pháp đọc trình tự theo chiều đơn 20 PPV Dự đốn dương tính giả 21 Hg19 Trình tự hệ gen người phiên 19 22 MAQ Phần mềm lập đồ cho trình tự ngẵn từ máy đọc trình tự hệ PHẦN MỞ ĐẦU Trong nghiên cứu sinh học đại có nhiều cơng nghệ giải pháp ứng dụng để phân tích, tổng hợp liệu cấu trúc trình tự hệ gen lồi sinh vật Việc phân tích tổng hợp liệu yêu cầu hệ thống cấu trúc lưu trữ đáp ứng đủ tính chất độ phức tạp độ lớn liệu kết Các thiết bị đọc trình tự gen đời để giải vấn đề nêu Các thiết bị đọc trình tự gen cơng cụ xác định thứ tự nucleotide gắn kết với dọc theo chiều dài gen trình tự gắn kết nucleotide gọi trình tự gen Trong đó, đọc trình tự hệ bước tiến vượt bậc cơng nghệ đọc trình tự, từ khả đọc trình tự đoạn ngắn 1500bp (Sanger) hay 100 bp (pyrosequencing) thiết bị đọc trình tự trước đó, đọc trình tự hệ cho phép đọc từ 8gb đến 600gb, có nghĩa cho phép đọc trình tự nguyên gen loài sinh vật Với mong muốn hiểu chi tiết cấu trúc gen nhà nghiêncứu sinh học ln muốn đọc trình tự hồn chỉnh gen tất loài sinh vât tự nhiên, bao gồm hệ gen người toàn trình tự gen khác nhiều động, thực vật, vi sinh vật, đồng thời qua việc nghiên cứu phát đột biến cấu trúc hệ gen giải mã Đặc biệt dạng đột biến đảo đoạn, loại đột biến gây ảnh hưởng đến sức sống cá thể, nógóp phần lớn tăng cường sai khác nhiễm sắc thể (NST) tương đồng điều dẫn đến tăng đa dạng thứ,các nòi nòi, ảnh hưởng tới sức sống cá thểvà xếp lại hệ gen NST đột biến đảo đoạn góp phần tạo đa dạng tự nhiên Đối với người việc đọc trình tự hệ gen quan trọng, góp phần việc nghiên cứu sinh học nhiều lĩnh vực ứng dụng chẩn đoán bệnh tật, công nghệ sinh học, sinh học pháp y, sinh học hệ thống Nhận thấy tính thiết thực vấn đề với 10 định hướng giáo viên hướng dẫn, học viên chọn đề tài “Phát đột biến đảo đoạn hệ gen giải mã từ thiết bị đọc trình tự hệ mới” để làm rõ vấn đề nêu Đối tượng phạm vi nghiên cứu Kiến trúc thành phần đột biến cấu trúc hệ gen Ứng dụng thiết bị đọc trình tự hệ công nghệ sinh học Ph ương pháp phát đột biến đảo đoạn sử dụng thiết bị đọc trình tự hệ để giải mã Hướng nghiên cứu đề tài Nghiên cứu, tìm hiểu mơ hình, cách làm việc giải mã hệ gen từ thiết bị đọc trình tự hệ Nghiên cứu cấu trúc liệu, phương pháp tiền xử lý lắp ráp hệ gen từ thiết bị đọc trình tự hệ Tìm hiểu, tham khảo tài liệu liên quan đến đột biến đảo đoạn hệ gen, từ xây dựng thuật tốn phát đột biến gen đảo đoạn hệ gen giải mã từ thiết bị đọc trình tự hệ Phương pháp nghiên cứu Nghiên cứu lý thuyết thiết bị đọc trình tự hệ mới, đột biến gen đảo đoạn cách phát đột biến đảo đoạn hệ gen giải mã từ thiết bị đọc trình tự hệ Thiết kế, đặc tả, xây dựng chương trình, phương pháp đọc trình tự gen phát đột biến đảo đoạn Qua phát đột biến đảo đoạn đưa kết luận Ý nghĩa khoa học đề tài Làm sở để phát đột biến đảo đoạn hệ gen Ứng dụng chẩn đoán bệnh, sinh học pháp y, sinh học hệ thống 70 Bảng 3.5: Kết Inverse Variant trình tự lý tưởng với độ bao phủ 10X Độ bao phủ Chiều dài đọc 100bp 10X 200bp 400bp Pha Tổng số điển thu Tổng số điểm giá trị dương tính Những điểm dương tính có Inverse Variant Giá trị dương tính giả Giá trị âm tính giả I 162 90 70 92 20 77.78 43.21 II 47 90 42 48 46.67 89.36 I 5775 90 83 5692 92.22 II 95 90 56 39 34 62.22 58.95 I 768 90 79 689 11 87.78 10.29 II 84 90 71 13 19 78.89 84.52 Tính nhạy cảm % PPV % 1.44 Bảng 3.6: Kết Inverse Variant trình tự lỗi với độ bao phủ 10X Độ bao phủ Chiều dài đọc 100bp 10X 200bp 400bp Pha Tổng số điển thu Tổng số điểm giá trị dương tính Những điểm dương tính có Inverse Variant Giá trị dương tính giả Giá trị âm tính giả Tính nhạy cảm % PPV % I 1707 90 37 1670 53 41.11 2.17 II 99 90 21 78 69 23.33 21.21 I 3057 90 76 2981 14 84.44 II 89 90 53 36 37 58.89 59.55 I 3775 90 74 3701 16 82.22 II 45 90 39 51 43.33 86.67 Ở hình 3.9, nhận thấy Inverse Variant với độ bao phủ 10X có giá trị dương tính giả cao hai pha pha đó, so sánh với độ bao phủ 5X 2.5X thấp Với liệu có độ bao phủ 10X, Inverse Variant nhận nhiều đoạn trình tựvà nhiều gióng hàng, điều gây tăng giá trị dương tính giả Chúng ta nhận thấy rằngcác đoạn trình tự với chiều dài 200bp có số dương tính giả cao đoạn trình tự với chiều dài 100bp 400bp Khi ta tăng chiều dài đoạn trình tự, Inverse Variant tăng khả xuất đoạn 2.49 1.96 71 trình tự ánh xạ vào vị trí Do cho trình tự với độ bao phủ 400bp Inverse Variant có giá trị dương tính giả thấp Trình tự với chiều dài 100bp, với trình tự có chiều dài ngắn này, chúng tương đối dễ ánh xạ tới nhiều vị trí khác bao gồm vị trí tạo từ trình tự có chiều dài 200bp 400bp Hình 3.6 cho thấy Inverse Variant nhận vài trình tự khơng ánh xạ với chiều dài 100bp giai đoạn đầu so sánh với trình tự có chiều dài 200bp 400bp sau làm giảm giá trị dương tính giả Trong giai đoạn hai, giá trị dương tính giả giảm đáng kể bước lọc cho tất chều dài độ bao phủ trình tự Hình 3.10 cho thấy nhạy cảm phương pháp tiếp cận Inverse Variant cho hai giai đoạn với tất chiều dài đọc Chúng ta quan sát rõ ràng giai đoạn cho tất chiều dài độ bao phủ giới hạn trình tự, Inverse Variant nhận độ nhạy cao so với giai đoạn thứ hai Nhưng điều kết hợp với giá trị dương tính giả cao Điều cho thấy có PPV thấp giai đoạn đầu (thể Hình 3.11) Sau lọc hồn thiện bước giai đoạn thứ hai, giá trị dương tính giả lọc đáng kể Thật khơng may, điều lọc s ố giá trị dương tính Vì sau giai đoạn thứ hai rõ ràng (từ hình 3.11) cải thiện PPV tất giai đoạn cho tất độ bao phủ giới hạn giai đoạn làm giảm độ nhạy cảm Do có tồn cân độ nhạy PPV Trong giai đoạn độ nhạy đạt yêu cầu PPV thấp trái ngược với giai đoạn thứ hai PPV cần cải thiện độ nhạy cảm giảm Ở góc độ tương đối, PPV tốt nhạy cảm trình tự có chiều dài 400bp Tương tự, trình tự có lỗi, giai đoạn kết đầu racủa việc lập đồ trình tự khơng ánh xạ lớn với trình tự lý tưởng log10(Read) 72 4.5 3.5 2.5 1.5 0.5 10xFP 5xFP 2.5xFP 10xSP 5xSP 2.5xSP 100bp 200bp 400bp Độ dài Hình 3.8: Những giá trị dương tính giả pha thứ pha thứ Như vậy, giai đoạn thứ hai, q trình nhận số lượng gióng hàng giá trị dương tính giả nhiều Một vấn đề khác vớitrình tự có lỗi dễ dàng ánh xạ tới vị trí khác gen tham chiếu ánh xạ tuyển có chất lượng cao Vì lỗi bao gồm lỗi sở, ý nghĩa việc ánh xạ để lập đồ nhiều vị trí khác có định hướng, trình nhận số lượng tương đối cao giá trị dương tính giả so với trình tự lý tưởng Do đó, q trình giảm tính nhạy cảm PPV kết giai đoạn cuối trái ngược với lần đọ lý tưởng 100 90 80 Giá trị % 70 60 10xFP 50 5xFP 40 2.5xFP 30 10xSP 20 5xSP 10 2.5xSP 100bp 200bp 400bp Độ dài Hình 3.9: Tính nhạy cảm pha pha PPV% 120 100 80 10xFP 60 5xFP 2.5xFP 40 10xSP 20 5xSP 2.5xSP 100bp 200bp 400bp Độ dài Hình 3.10: Dự đốn giá trị dương tính giả pha pha GIá trị % 90 80 70 60 50 40 30 20 10 10xFP 10xSP 100bp 200bp 400bp Độ dài PPV% Hình 3.11: Tính nhạy cảm pha pha cho trình tự có lỗi 100 90 80 70 60 50 40 30 20 10 10xFP 10xSP 100bp 200bp 400bp Độ dài Hình 3.12: PPV pha pha cho trình tự có lỗi 3.6 - So sánh với phương pháp Để so sánh phương pháp Inverse Variant với công cụ có, tơi chọn mã nguồn BreakDancer [13] dựa trình tự kiểu paired end Q trình mơ lỗi tự liệu paired end với độ bao phủ 10X chiều dài 200bp kích thước đoạn chèn 1000bp, từ „90 đảo ngược cấy‟ gen thử nghiệm sử dụng mô Wgsim Dữ liệu ánh xạ sử dụng công cụ lập đồ BOWTIE (hoặc BWA) để có tập tin SAM Các tập tin SAM cuối đưa vào BreakDancer với tất thông số thiết lập mặc định, ngoại trừ tham số 's' thiết lập tới 100 (kích thước tối thiểu vùng chọn) Trong số 90 đảo đoạn cấy ghép, Inverse Variant tìm thấy 74 đảo đoạn so với 58 đảo đoạn BreakDancer Hình 3.14 cho thấy Inverse Variant tìm thấy điểm dừng giá trị dương tính giả phát lớn phương pháp BreakDancer Cách tiếp cận dựa vào gióng hàng Single End reads ln có khả rõ ràng cho Single End Reads để ánh xạ tới nhiều vị trí khác hệ gen tham chiếu khác so với vị trí trả kết giá trị dương tính giả nhiều hơn vị trí mà BreakDancer dựa vào cặp đọc kết thúc phân cách kịch thước chèn xác định trước Để phát cân số lượng đảo đoạn Inverse Variant xem xét trình tự có định hướng khơng bình thường kích thước chèn xấp xỉ Hình 3.15 cho thấy cách tiếp cận có giá trị PPV tương đối thấp so với công cụ BreakDancer Mặc dù công cụ BreakDancer cung cấp xác tọa độ điểm dừng, chúng nằm khoảng trung bình từ 1.000bp tới hết tọa độ điểm dừng Cách tiếp cận có độ xác tương đối cao so với BreakDancer Tọa độ điểm dừng tạo phương pháp tiếp cận có khoảng cách với tọa độ điểm dừng thực không 5bp Bảng 3.7: Bảng so sánh InverseVariantvới BreakDancer Phương pháp Số điểm dừng Giá trị dương tính Số điểm dừng Giá trị dương tính giả Giá trị âm tính giả Tính nhạy cảm % PPV % Khoảng cách tới điểm giá trị dương tính BreakDancer 67 90 58 32 64.4 86.6 1000bp InverseVariant 222 90 74 148 16 82.2 33.3 5bp 250 200 Giá trị 150 Điểm dừng Điểm dừng 100 Giá trị dương tính giả Giá trị âm tính giả 50 BreakDancer Inverse Variant Hình 3.13: So sánh Inverse Variant vớiBreakDancer dựa vào điểm dừng 100 90 80 Giá trị % 70 60 Tính nhạy cảm 50 PPV 40 F-Score 30 20 10 BreakDancer Inverse Variant Hình 3.14: So sánh Inverse Variant với BreakDancer dựa vào tính nhạy cảm, PPV FScore 3.7 - Những hạn chế cách khắc phục Đọc trình tự gen phát đột biến yêu cầu cấp thiết Mặc dù Inverse Variant khắc phục hạn chế kích thước đoạn read, cách sử dụng Single End Reads phương pháp tiếp cận có hạn chế Inverse Variant tăng chiều dài trình tự single end, lại làm giảm khả phát đoạn bị đảo có độ dài ngắn độ dài đoạn trình tự Inverse Variant sử dụng hai bước ánh xạ tới đồ hệ gen ngược lại với hệ gen tham chiếu để đạt hiệu cao Inverse Variant nhiều giá trị đọc bước ánh xạ Điều gây vùng lặp lặp lại (lặp lặp lại bình thường lặp lặp lại đảo đoạn) hệ gen tham chiếu tính xác thuật tốn ánh xạ lập đồ bị giảm Ngồi bước ánh xạ thứ lấy tất gióng hàng lần đảm bảo Inverse Variant khơng bỏ sót cặp gióng hàng quan trọng để suy điểm dừng Nếu Inverse Variant chọn gióng hàng tốt với chất lượng cao ánh xạ trình nhiều cặp gióng hàng gắn liền với điểm ánh xạ, Inverse Variant điểm dừng giai đoạn Mặc dù hạn chế có số cách để khắc phục hạn chế sau: Inverse Variant mở rộng khả để phát đảo đoạn nhỏ cách xem xét ba phần gióng hang (tức gióng hàng cắt cặp base hai mặt đối xứng), điều có khả làm tăng thêm giá trị dương tính giả Q trình sử dụng liệu độ bao phủ cao (> 10X) để tìm đảo đoạn di hợp tử, độ bao phủ trình tự cao mang lại giá trị dương tính giả nhiều Với Inverse Variant giai đoạn thứ hai tạo vùng chọn, lập số ánh xạ tồn trình tự để Inverse Variant làm giảm bớt cách tạo nhiều giàng buộc giai đoạn đầu tiên, tức cách sử dụng số hỗ trợ lớn dành cho trình tự cặp Số hóa Trung tâm Học liệu tnu.edu.vn/ 78 điểm dừng điều nguyên nhân để điểm dừng Tinh chỉnh thông số khác làm cho chúng xác giúp làm giảm khó khăn KẾT LUẬN Số hóa Trung tâm Học liệu tnu.edu.vn/ 79 Trong luận văn thực giải số vấn đề đặt sau: - Tìm hiểu gen, cấu trúc hệ gen, giải trình tự hệ gen, cơng nghệ đọc trình tự hệ - Tích hợp thử nghiệm chương trình demo phát đột biến đảo đoạn hệ gen giải mã từ t hiết bị đọc trình tự hệ có kết tốt xác, đồng thời sở để phát triển phương phát phát tất đột biến cấu trúc Tuy nhiên để thực nhiệm vụ phát tất loại đột biến cấu trúc thể sinh vật, có khó khăn định việc đưa cách thức xác định đột biến kiến thức thực nghiệm cơng cụ sinh hóa, dựa vào đưa ý tưởng thuật tốn xây dựng chương trình, tìm kiếm công cụ hỗ trợ phù hợp… Những thách thức khơng nhỏ Nhưng tơi tin thời gian tới thực Với nhà sinh học kết Inverse Variant đáp ứng tốt yêu cầu cần thiết kết sở quan trọng việc chẩn đoán bệnh tật, dự đốn kiểu hình, phát triển đa dạng loài tạo đa dạng thứ, chi loài, tạo giống trồng vật ni có xuất chất lượng cao Số hóa Trung tâm Học liệu tnu.edu.vn/ 80 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Văn Cách (2006), Giáo trình tin sinh học, NXB Khoa học kỹ thuật, Hà Nội tr 30-49 [2] Nguyễn Cường (2013), Định dạng liệu FastA FastQ, http://www.tinsinhhoc.org/genomics/104-fasta-fastq-formats, ngày 25/11/2013 [3] Nguyễn Ngọc Tú, Trần Văn Lăng (2007), Giải thuật lai cho toán hàng đa trình tự, Tạp chí phát triển KH&CN, tập 10 Tiếng Anh [4] Hogeweg P, Hesper (1984) The alignment of sets of sequences and the construction of phylogenetic trees An integrated method J Mol E vol 20, p 175-186 [5] Iafrate AJ, Feuk L, Rivera MN, Listewnik ML, Donahoe PK, Qi Y, Scherer SW, Lee C (2004 Sep) Detection of large-scale variation in the human genome Nat Genet [6] Lars Feuk, Andrew R Carson and Stephen W Scherer (2006): Structural variation in the human genome, Nature Renew Gennetics, 7(2), p 85-97 [7].Alkan C., Coe B.P and Eichler E.E (2011), Genome structural variation discovery and genotyping Nat Rev Genet., vol 12, p 363-376 [8] Teague, B et al High-resolution human genome structure by single-molecule analysis (2010) Proc Natl Acad Sci USA 107, p 10848– 10853 [9] Poehlmann, A., D Kuester, et al (2007) "K-ras mutation detection in colorectal cancer using the Pyrosequencing technique." Pathology, research and practice203(7): 489-497 Số hóa Trung tâm Học liệu tnu.edu.vn/ [10] Li H.: Wgsim - Read simulator for next generation sequencing http://github.com/lh3/Wgsim [11] Homer, N, and Merriman, B TMAP: the Torrent Mapping Alignment Program In Preparation [12] Li H and Durbin, R (2010) Fast and accurate long-read alignment with Burrows-Wheeler transforms Bioinformatics, 26, 589–595 [13] Chen, K et al (2009) BreakDancer: an algorithm for highresolution mapping of genomic structural variation Nat Methods 6, 677-681 [14] R Durbin, S R Eddy, A Krogh, G Mitchison (2001) Biological Sequence analysis: probabilistic models of proteins and nucleic acids Cambridge University Press [15] Wang L, Jiang T (1994), On the complexity of multiple sequence alignment, J Comput Biol T 1, Vol 4, p337 – 348 [16] Warren J Ewens, Gregory R Grant, (2005) Statistical Methods in Bioinformatics – An Introduction, ISBN 0-387-40082-6 [17] David Edwards, Jason Stajich, David Hansen (2009) Bioinformatics: Tools and Applications, Springer Science & Business Media ... đọc trình tự hệ Phương pháp nghiên cứu Nghiên cứu lý thuyết thiết bị đọc trình tự hệ mới, đột biến gen đảo đoạn cách phát đột biến đảo đoạn hệ gen giải mã từ thiết bị đọc trình tự hệ Thiết kế,... ráp hệ gen từ thiết bị đọc trình tự hệ Tìm hiểu, tham khảo tài liệu liên quan đến đột biến đảo đoạn hệ gen, từ xây dựng thuật tốn phát đột biến gen đảo đoạn hệ gen giải mã từ thiết bị đọc trình. .. pháp phát đột biến đảo đoạn sử dụng thiết bị đọc trình tự hệ để giải mã Hướng nghiên cứu đề tài Nghiên cứu, tìm hiểu mơ hình, cách làm việc giải mã hệ gen từ thiết bị đọc trình tự hệ Nghiên

Ngày đăng: 11/02/2019, 19:09

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan