1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận án tiến sĩ công nghệ thông tin xây dựng đồ thị tái tổ hợp di truyền cho dữ liệu hệ gen

104 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Phương Thảo XÂY DỰNG ĐỒ THỊ TÁI TỔ HỢP DI TRUYỀN CHO DỮ LIỆU HỆ GEN LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2020 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Phương Thảo XÂY DỰNG ĐỒ THỊ TÁI TỔ HỢP DI TRUYỀN CHO DỮ LIỆU HỆ GEN Chuyên ngành: Khoa học Máy tính Mã số: 9480101.01 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: 1.PGS.TS Lê Sỹ Vinh 2.PGS.TS Lương Chi Mai Hà Nội – 2020 Lời cam đoan Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các kết viết chung với tác giả khác đồng ý đồng tác giả trước đưa vào luận án Các kết nêu luận án trung thực chưa cơng bố cơng trình khác Tác giả Nguyễn Thị Phương Thảo Lời cảm ơn Luận án thực Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, hướng dẫn PGS TS Lê Sỹ Vinh PGS TS Lương Chi Mai Tơi xin bày tỏ lịng biết ơn sâu sắc tới PGS TS Lê Sỹ Vinh, PGS TS Lương Chi Mai TS Lê Sĩ Quang, người có định hướng giúp tơi thành cơng việc nghiên cứu Các Thầy Cơ động viên khích lệ tinh thần, giúp tơi vượt qua khó khăn để tơi hồn thành luận án Tôi chân thành cảm ơn thầy Hồ Tú Bảo, Thầy cho nhiều kiến thức quý báu nghiên cứu khoa học Những bảo quý giá Thầy Cơ giúp tơi hồn thành tốt luận án Tôi xin cảm ơn tới Thầy, Cô thuộc Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội tạo điều kiện thuận lợi giúp q trình làm nghiên cứu sinh Tơi xin chân thành cảm ơn đồng nghiệp phòng Nhận dạng Công nghệ Tri thức, Viện Công nghệ Thông tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam ln động viên, tạo điều kiện thuận lợi, bố trí thời gian tốt cho tơi suốt q trình làm nghiên cứu sinh Cuối cùng, xin gửi lời cảm ơn sâu sắc tới gia đình bạn bè, người cho điểm tựa vững để tơi có thành cơng ngày hơm MỤC LỤC Lời cam đoan Lời cảm ơn MỤC LỤC Danh mục ký hiệu chữ viết tắt Danh mục bảng Danh mục hình vẽ, đồ thị Danh mục thuật toán 12 MỞ ĐẦU 13 Chương GIỚI THIỆU 16 1.1 Giới thiệu chung 16 1.1.1 Hệ gen người 16 1.1.2 Mạng phát sinh loài 21 1.2 Xây dựng đồ thị tái tổ hợp di truyền 23 1.2.1 Sự kiện tái tổ hợp 23 1.2.2 Đồ thị tái tổ hợp di truyền 25 1.2.3 Bài toán xây dựng đồ thị ARG 32 1.3 Các phương pháp xây dựng đồ thị ARG 35 1.3.1 Các phương pháp xây dựng đồ thị ARG tối thiểu 35 1.3.2 Các phương pháp xây dựng đồ thị ARG hợp lý 39 1.3.3 Tổng hợp phần mềm xây dựng đồ thị ARG 41 1.4 Ứng dụng ARG nghiên cứu tương quan toàn hệ gen 42 1.5 Kết luận chương 45 Chương THUẬT TOÁN ARG4WG XÂY DỰNG ĐỒ THỊ TÁI TỔ HỢP DI TRUYỀN HỢP LÝ CHO DỮ LIỆU HỆ GEN 47 2.1 Giới thiệu 47 2.1.1 Các định nghĩa 47 2.1.2 Thuật toán Margarita xây dựng đồ thị ARG 48 2.2 Thuật toán ARG4WG 51 2.2.1 Chiến lược tìm đoạn đầu chung dài 51 2.2.2 Thuật toán ARG4WG 54 2.3 Kết thực nghiệm 61 2.3.1 Các kết liệu thật 61 2.3.2 Các kết liệu mô 65 2.4 Kết ứng dụng ARG4WG vào tốn tìm vùng gen liên quan đến bệnh sốt rét Châu Phi 67 2.5 Kết luận chương 72 Chương PHƯƠNG PHÁP TỐI ƯU HĨA SỐ SỰ KIỆN TÁI TỔ HỢP TRONG Q TRÌNH XÂY DỰNG ĐỒ THỊ ARG 75 3.1 Giới thiệu 75 3.2 Một số định nghĩa khái niệm sử dụng thuật toán 76 3.3 Hạn chế thuật toán ARG4WG 78 3.4 Thuật toán REARG 79 3.4.1 Động nghiên cứu 79 3.4.2 Thuật toán REARG 80 3.5 Thuật toán GAMARG 83 3.5.1 Động nghiên cứu 83 3.5.2 Thuật toán GAMARG 83 3.6 Kết thực nghiệm 88 3.6.1 Kết tập liệu nhỏ 89 3.6.2 Các kết tập liệu từ dự án 1kGP 90 3.7 Kết luận chương 98 KẾT LUẬN 100 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 102 TÀI LIỆU THAM KHẢO 103 Danh mục ký hiệu chữ viết tắt D Tập trình tự N Số lượng trình tự tập trình tự m độ dài trình tự Sx Trình tự thứ x tập trình tự Sx[i] Giá trị Sx vị trí thứ i ARG Đồ thị tái tổ hợp di truyền 1KGP Dự án 1000 hệ gen GWAS Nghiên cứu tương quan tồn hệ gen SNP Đa hình đơn nucleotit MRCA Tổ tiên chung gần CwR Mô hình kết hợp tái tổ hợp STT Số thứ tự RF Khoảng cách Robinson-Fould Danh mục bảng Bảng 1.1: Các phần mềm xây dựng đồ thị ARG tiêu biểu 41 Bảng 2.1: Tập liệu trích xuất từ dự án 1000 hệ gen người .62 Bảng 3.1: Tập liệu từ dự án 1kGP 89 Bảng 3.2: Các kết thuật toán khác tập liệu nhỏ 89 Bảng 3.3: Số kiện tái tổ hợp tìm thấy thuật tốn cho 100 trình tự (a) DS1, (b) DS2 (c) DS3 .91 Bảng 3.4: Số kiện tái tổ hợp tìm thấy thuật tốn cho 200 trình tự (a) DS1, (b) DS2 (c) DS3 .92 Bảng 3.5: Trung bình thời gian chạy (giây) thuật tốn cho 100 trình tự tập liệu (a) DS1, (b) DS2, (c) DS3 .95 Bảng 3.6: Trung bình thời gian chạy (giây) thuật tốn cho 200 trình tự tập liệu (a) DS1, (b) DS2, (c) DS3 .97 Danh mục hình vẽ, đồ thị Hình 1.1: Cấu trúc hệ gen người Hệ gen người gồm 23 cặp nhiễm sắc thể, có khoảng tỉ phân tử DNA, khoảng 20.000 đến 25.000 gen Nguồn hình: https://genomainternational.com/introduction-to-genomics/ .16 Hình 1.2: Các kiểu biến thể trình tự: (a) Thay cặp bazơ đơn Trong ví dụ, biến thể xuất vị trí so với trình tự tham chiếu, thay nucleotit T↔A G↔A (b) Chuỗi GCA chèn vào so với trình tự tham chiếu (c) Chuỗi CG bị xóa so với trình tự tham chiếu .17 Hình 1.3: Các loại biến thể cấu trúc: xóa, thêm, lặp, đảo hay lặp nhiều lần đoạn DNA Đoạn đột biến cấu trúc có kích thước lớn 1kb 18 Hình 1.4: Ví dụ liệu SNP chứa biến thể alen nhiều alen Có vị trí SNP alen, gồm alen tham chiếu alen biến thể, ví dụ A G vị trí 1; T C vị trí Chỉ có vị trí alen: alen tham chiếu (G) alen biến thể C, T 19 Hình 1.5: Ví dụ haplotype cá thể vùng gen Một haplotype tạo thành từ kết hợp SNP di truyền đoạn DNA .19 Hình 1.6: Cây phân lồi biểu diễn mối quan hệ tiến hóa số lồi linh trưởng Đười ươi Khỉ đột rẽ nhánh sớm loài linh trưởng khác Con người rẽ nhánh riêng nhánh lại cho Tinh tinh vượn Bonobo 21 Hình 1.7: Khái qt hóa mạng phát sinh lồi điển hình [36] 23 Hình 1.8: Hai tượng tái tổ hợp phổ biến người: (a) trao đổi chéo (b) chuyển đổi gen .24 Hình 1.9: Biến đổi liệu SNP thành dạng nhị phân Vị trí có giá trị giống với tham chiếu 0, giá trị khác tham chiếu 28 • Trong danh sách có đoạn đầu chung S, cặp trình tự có đoạn đầu chung dài (có đoạn thơng tin di truyền chung nhiều đoạn đầu chung) chọn thực tái tổ hợp Nếu có nhiều ứng cử viên có đoạn đầu chung dài số chọn ngẫu nhiên Các lựa chọn ngẫu nhiên thuật toán GAMARG dẫn đến ARG khác cho lần chạy khác 3.6 Kết thực nghiệm Để đánh giá hiệu suất REARG GAMARG, thử nghiệm liệu khác tiến hành Đầu tiên, so sánh thuật toán REARG, GAMARG, Margarita, ARG4WG với kết từ thuật toán xây dựng đồ thị ARG tối thiểu (MinARG) tập liệu nhỏ gồm: - Tập liệu Kreitman [41] bao gồm 11 trình tự độ dài 43 Tập liệu nhỏ liệu chuẩn sử dụng để đánh giá hiệu suất nhiều thuật tốn tìm cận tái tổ hợp thuật toán xây dựng ARG tối thiểu [47,62] - Hai tập liệu mô phỏng: SDS1 bao gồm 50 trình tự độ dài 54 SDS2 gồm 75 trình tự độ dài 45 cơng khai địa https://people.eecs.berkeley.edu/~yss/lu.html Thứ 2, bốn thuật toán REARG, GAMARG, Margarita ARG4WG thử nghiệm so sánh 18 liệu trích xuất từ vùng liệu khác Nhiễm sắc thể từ dự án 1kGP [12] với số trình tự số SNP mô tả Bảng 3.1 Chúng tiến hành so sánh thuật toán GAMARG, Margarita, ARG4WG, REARG số kiện tái tổ hợp so với thuật toán vét cạn liệu nhỏ Với liệu lớn liệu trích xuất từ dự án 1kGP, thuật tốn 88 vét cạn khơng có khả thực thi được, tiến hành so sánh, đánh giá thuật toán số kiện tái tổ hợp thời gian chạy thuật toán Bảng 3.1: Tập liệu từ dự án 1kGP Tập liệu Số trình tự Số SNP {DS1, DS2, DS3} 100 2000 {DS1, DS2, DS3} 100 5000 {DS1, DS2, DS3} 100 10000 {DS1, DS2, DS3} 200 2000 {DS1, DS2, DS3} 200 5000 {DS1, DS2, DS3} 200 10000 REARG có phiên REARG_SIM, REARG_LEN, REARG_COM Đối với thực nghiệm mà kết phiên chúng tơi để kết thuật tốn REARG nói chung 3.6.1 Kết tập liệu nhỏ Với thuật toán, 10000 lần chạy thực để sinh 10000 ARG ARG xây dựng với số kiện tái tổ hợp ghi lại Đối với thuật toán GAMARG, nhiều giá trị khác cho tham số ઠ thực nghiệm kết tốt thu 18 ≤ 𝛿 < 43 cho tập liệu Kreitman; 29 ≤ δ < 54 cho tập SDS1 11 ≤ δ < 45 cho tập SDS2 Các kết thuật tốn mơ tả Bảng 3.2 Bảng 3.2: Các kết thuật toán khác tập liệu nhỏ Kreitman SDS1 SDS2 MinARG 10 12 Margarita 14 18 ARG4WG 10 17 18 REARG 10 17 20 GAMARG 10 13 89 Kết cho thấy, chiến lược đoạn chung dài Margarita tỏ hiệu so với chiến lược đoạn đầu chung dài ARG4WG REARG cho kết số kiện tái tổ hợp trường hợp liệu nhỏ Thuật toán REARG sử dụng ràng buộc hạn chế so với ARG4WG, là, thay lựa chọn ngẫu nhiên số cặp trình tự có độ dài đoạn chung dài thuật toán ARG4WG, REARG sử dụng thêm ràng buộc đặc trưng liệu để lựa chọn ứng cử viên cho bước tái tổ hợp Cách làm dẫn đến REARG sinh đồ thị ARG với số kiện tái tổ hợp lớn số kiện tái tổ hợp ARG4WG Các kết thử nghiệm cho thấy chiến lược sử dụng thuật tốn REARG ARG4WG khơng phù hợp với tập liệu nhỏ Tuy nhiên, kết Margarita, ARG4WG, REARG xa kết tối ưu Thuật toán GAMARG cho kết tốt đạt tới ARG tối thiểu với tập Kreitman tập SDS1 kiện tái tổ hợp so với phương pháp tối ưu tập SDS2 Kết tính hiệu phương pháp kết hợp kiểm thử giao tử đoạn đầu chung dài thuật toán GAMARG chạy với tập liệu nhỏ 3.6.2 Các kết tập liệu từ dự án 1kGP Với thuật toán, 1000 lần chạy thực để sinh 1000 ARG ARG xây dựng với số kiện tái tổ hợp ghi lại Do thuật toán Margarita nhiều thời gian để xây dựng đồ thị ARG tập liệu này, vậy, ARG có số kiện tái tổ hợp tìm thấy sau ngày chạy thuật tốn ghi lại kết cho thuật toán Margarita Đối với thuật toán GAMARG, giá trị khác (tức là, 5, 10, 15, 20, 25, 30) cho tham số 𝛿 thử nghiệm tập liệu có kích thước khác 5000 ARG xây dựng ARG với số kiện tái tổ hợp ghi lại tập liệu Các kết cho thấy GAMARG cho kết tương tự 90 𝛿 giá trị 5, 10, 15 với độ dài 500 SNP Tuy nhiên, với trình tự dài hơn, tức là, 1000 2000 SNP thuật tốn cho số kiện tái tổ hợp với tham số 𝛿 = Do đó, thực nghiệm này, chạy GAMARG sử dụng 𝛿 = Các kết thực nghiệm (xem Bảng 3.3 Bảng 3.4) cho thấy thuật toán REARG GAMARG đề xuất cho ta đồ thị ARG với số kiện tái tổ hợp so với thuật toán Margarita ARG4WG Đặc biệt, thuật toán GAMARG có kết vượt trội tất thực nghiệm Bảng 3.3: Số kiện tái tổ hợp tìm thấy thuật tốn cho 100 trình tự (a) DS1, (b) DS2 (c) DS3 Số SNP (a) 5000 10000 Margarita 30749 77574 13234 ARG4WG 2596 5837 10490 REARG_SIM 2579 5786 10324 REARG_LEN 2560 5741 10336 REARG_COM 2560 5766 10307 GAMARG 2441 5610 10052 Số SNP (b) 2000 2000 5000 10000 Margarita 33820 86041 10874 ARG4WG 1924 4335 8741 REARG_SIM 1949 4284 8623 REARG_LEN 1924 4288 8627 REARG_COM 1930 4279 8613 GAMARG 1824 4093 8298 91 Số SNP (c) 2000 5000 10000 Margarita 32807 81829 11714 ARG4WG 1555 4120 9100 REARG_SIM 1545 4087 8987 REARG_LEN 1527 4077 8960 REARG_COM 1545 4063 8934 GAMARG 1502 3994 8817 Bảng 3.4: Số kiện tái tổ hợp tìm thấy thuật tốn cho 200 trình tự (a) DS1, (b) DS2 (c) DS3 Số SNP (a) 5000 10000 Margarita 55788 139136 22692 ARG4WG 4218 9583 17083 REARG_SIM 4176 9480 16860 REARG_LEN 4180 9437 16834 REARG_COM 4182 9451 16829 GAMARG 4099 9315 16715 Số SNP (b) 2000 2000 5000 10000 Margarita 60337 153145 18467 ARG4WG 3072 6998 14158 REARG_SIM 3027 6909 13900 REARG_LEN 3020 6877 13887 REARG_COM 3021 6861 13925 GAMARG 2955 6679 13606 92 Số SNP (c) 2000 5000 10000 Margarita 58313 144777 20047 ARG4WG 2620 6652 14813 REARG_SIM 2586 6607 14620 REARG_LEN 2595 6564 14634 REARG_COM 2584 6600 14642 GAMARG 2521 6504 14583 Ta thấy, với trình tự dài (10,000 SNP), Margarita sinh đồ thị ARG có số kiện tái tổ hợp nhiều gấp khoảng 1.3 lần so với thuật toán REARG Tuy nhiên, Margarita cần lượng lớn số kiện tái tổ hợp, gấp khoảng 10 đến 20 lần so với REARG để xây dựng ARG cho tập liệu có trình tự ngắn (2000 5000 SNP) Như vậy, Margarita cần số kiện tái tổ hợp để xây dựng ARG cho liệu độ dài 10,000 SNP chí cịn nhiều so với tập liệu độ dài 2000 5000 SNP Kết cho thấy, thuật tốn Margarita khơng ổn định Điều lý giải chiến lược đoạn chung dài thuật tốn Margarita ln cần đến gấp đơi số kiện tái tổ hợp để thực tái tổ hợp đoạn chung dài tìm thấy bên trình tự Vì vậy, đoạn chung dài ln tìm phía bên trình tự thuật toán bị bùng nổ số nút số kiện tái tổ hợp Mặc dù phiên thuật toán REARG tốt so với ARG4WG khơng có phiên tốt hoàn toàn tất thực nghiệm REARG_LEN REARG_COM tốt REARG_SIM hầu hết tập liệu; nhiên, REARG_SIM lại thuật toán tốt phiên REARG với tập liệu: tập DS1 với 200 trình tự 2000 SNP tập DS3 với 200 trình tự 10,000 SNP 93 Hình 3.6 minh họa kết thuật tốn GAMARG, REARG ARG4WG Trong đó, kết thuật toán REARG kết tốt phiên REARG_LEN, REARG_COM, REARG_SIM thử nghiệm 10600 2680 2380 100 trình tự 2080 5700 10300 5400 10000 5100 9700 9400 4800 9100 4500 1780 8800 4200 1480 3900 DS1 DS2 DS3 4000 3700 3400 3100 2800 2500 DS2 2000 SNP DS2 DS3 DS1 5000 SNP 4300 DS1 8200 DS1 2000 SNP 200 trình tự 8500 DS3 DS2 DS3 10000 SNP 17100 16800 16500 16200 15900 15600 15300 15000 14700 14400 14100 13800 13500 9400 9100 8800 8500 8200 7900 7600 7300 7000 6700 6400 DS1 DS2 5000 SNP DS3 DS1 DS2 10000 SNP Hình 3.6: Số kiện tái tổ hợp tìm thấy thuật tốn ARG4WG, REARG GAMARG cho 100 200 trình tự với 2000, 5000, 10000 SNP tập DS1, DS2, DS3 Thuật toán GAMARG cho kết tốt hẳn thuật toán lại tất thực nghiệm Sự vượt trội GAMARG so với ARG4WG REARG thể rõ thực nghiệm với 100 trình tự Với tập liệu lớn với 94 DS3 nhiều trình tự hơn, độ đa dạng liệu tăng lên, có nhiều cặp vị trí khơng tương thích Tuy nhiên, số số thỏa mãn ràng buộc có loại giao tử có tần số Trong trường hợp này, lợi GAMARG so với ARG4WG REARG khơng đáng kể Trung bình thời gian chạy để xây dựng đồ thị ARG tính tốn cho thuật tốn tập liệu, kết tổng hợp Bảng 3.5 Bảng 3.6 Do bùng nổ số kiện tái tổ hợp thuật toán Margarita khiến cho thuật tốn có thời gian tính tốn cao, gấp từ hàng trăm đến hàng nghìn lần so với thuật toán đề xuất Thời gian chạy thuật toán REARG_LEN gần với thời gian chạy thuật tốn ARG4WG Do việc tính tốn độ tương đồng nhiều thời gian nên thuật toán REARG_SIM REARG_COM tốn nhiều thời gian so với thuật toán ARG4WG REARG_LEN Thuật tốn GAMARG có thời gian chạy chậm so với ARG4WG REARG_LEN nhanh REARG_SIM REARG_COM Bảng 3.5: Trung bình thời gian chạy (giây) thuật tốn cho 100 trình tự tập liệu (a) DS1, (b) DS2, (c) DS3 Số SNP (a) 2000 5000 10000 Margarita 442.00 5690.00 201.50 ARG4WG 0.57 1.26 2.08 REARG_SIM 3.27 17.66 60.64 REARG_LEN 0.62 1.35 2.46 REARG_COM 3.39 18.34 62.80 GAMARG 4.15 10.18 30.83 95 Số SNP (b) 2000 5000 Margarita 754.00 7709.00 140.00 ARG4WG 0.41 0.99 1.90 REARG_SIM 2.41 12.98 53.50 REARG_LEN 0.44 1.06 2.15 REARG_COM 2.56 13.77 55.88 GAMARG 2.41 6.83 21.09 Số SNP (c) 10000 2000 5000 10000 Margarita 743.50 7627.50 166.00 ARG4WG 0.36 0.96 1.96 REARG_SIM 2.04 13.01 53.63 REARG_LEN 0.39 1.02 2.08 REARG_COM 2.22 13.34 55.72 GAMARG 1.65 6.30 23.99 Các thuật tốn khơng có khả chạy với liệu hàng nghìn trình tự độ dài hàng trăm nghìn SNP ARG4WG có khả chạy với liệu hàng nghìn trình tự độ dài hàng chục nghìn SNP 96 Bảng 3.6: Trung bình thời gian chạy (giây) thuật toán cho 200 trình tự tập liệu (a) DS1, (b) DS2, (c) DS3 (a) (b) Số SNP 2000 5000 10000 Margarita 2826.51 31459.54 1157.00 ARG4WG 1.33 3.26 5.50 REARG_SIM 8.84 49.85 168.09 REARG_LEN 1.43 3.51 5.76 REARG_COM 9.71 49.20 169.77 GAMARG 14.91 34.42 105.01 Số SNP 2000 5000 10000 Margarita 3953.000 42623.510 839.503 ARG4WG 0.998 2.442 4.739 REARG_SIM 6.181 35.391 145.266 REARG_LEN 0.999 2.558 4.879 REARG_COM 7.001 35.246 146.843 GAMARG 5.886 20.043 59.926 97 (c) Số SNP 2000 5000 Margarita 3710.50 39230.55 1074.52 ARG4WG 0.96 2.42 4.94 REARG_SIM 5.55 34.77 149.67 REARG_LEN 0.95 2.55 5.45 REARG_COM 6.28 34.46 153.76 GAMARG 3.95 18.62 60.35 10000 3.7 Kết luận chương Chiến lược đoạn chung dài Margarita chiến lược đoạn đầu chung dài ARG4WG không tối ưu số kiện tái tổ hợp trình xây dựng đồ thị ARG Các thực nghiệm cho thấy chiến lược đoạn chung dài Margarita phù hợp so với chiến lược đoạn đầu chung dài ARG4WG liệu nhỏ Tuy nhiên, Margarita trở nên không ổn định cho đồ thị ARG có số kiện tái tổ hợp nhiều so ARG4WG liệu vừa lớn Trong chương này, luận án giới thiệu hai thuật toán REARG GAMARG cải tiến từ ARG4WG nhằm tối ưu thêm số kiện tái tổ hợp q trình xây dựng đồ thị ARG Thơng qua việc kết hợp thêm đặc trưng độ tương đồng độ dài trình tự chọn thực tái tổ hợp bên cạnh ràng buộc đoạn đầu chung dài nhất, thuật tốn REARG giúp tìm ARG có số kiện tái tổ hợp so với ARG4WG với tập liệu vừa lớn Tức là, đặc trưng phù hợp, giúp q trình tìm kiếm khu trú vào ARG có số kiện tái tổ hợp nhỏ nhanh hữu hạn số lần chạy thuật tốn Tuy nhiên, khơng đặc trưng 98 tốt việc tìm kiếm cần tiến hành song song phiên khác thuật toán REARG Kiểm thử giao tử kĩ thuật đơn giản hiệu việc tính toán đồ thị ARG tối thiểu cho liệu nhỏ Chiến lược đoạn đầu chung dài ARG4WG hiệu liệu lớn Sự kết hợp chúng GAMARG làm cho thuật toán tốt so với ARG4WG REARG số kiện tái tổ hợp GAMARG chạy với liệu hàng nghìn trình tự độ dài hàng nghìn đến chục nghìn SNP mà cịn có khả so sánh với thuật toán xây dựng ARG tối thiểu liệu nhỏ Các kết nghiên cứu chương công bố kỉ yếu Hội nghị quốc tế NAFOSTED năm 2017 (cơng trình khoa học số 2) kỉ yếu Hội nghị quốc tế ICBBB năm 2019 (cơng trình khoa học số 3) 99 KẾT LUẬN Xác định nguồn gốc di truyền bệnh việc xác định gen alen nhạy cảm với bệnh mục tiêu then chốt nghiên cứu di truyền học người Đồ thị tái tổ hợp di truyền đóng vai trị quan trọng nghiên cứu di truyền quần thể, đa dạng hệ gen đa hình di truyền SNP Tuy nhiên, tốn xây dựng đồ thị ARG tốn NP-khó địi hỏi tính tốn khối lượng lớn nên ứng dụng vào thực tế cịn hạn chế Thơng qua việc nghiên cứu phương pháp xây dựng đồ thị ARG, tập trung theo hướng tiếp cận xây dựng đồ thị ARG có số kiện tái tổ hợp thuật toán Margarita, luận án đề xuất thuật toán ARG4WG xây dựng đồ thị ARG hợp lý cho liệu lớn hàng nghìn trình tự tồn hệ gen Bằng cách tiếp cận vấn đề theo cách Margarita, cải tiến sử dụng đoạn đầu chung dài cho bước tính tốn kiện tái tổ hợp, thuật tốn ARG4WG đề xuất giúp làm giảm đáng kể thời gian tìm kiếm đoạn chung dài sau lần thực bước tái tổ hợp mà đảm bảo số nút đồ thị ổn định trình xây dựng đồ thị ARG Kết thực nghiệm cho thấy thuật toán ARG4WG nhanh hàng trăm đến hàng nghìn lần thuật tốn Margarita Đặc biệt, ARG4WG chạy với hàng nghìn trình tự toàn nhiễm sắc thể lần chạy khoảng thời gian hợp lý thông qua xử lý đa luồng Thuật toán ARG4WG thử nghiệm ứng dụng vào toán thực tế xác định tương quan toàn nhiễm sắc thể tập liệu lớn, cụ thể tốn tìm vùng gen liên quan đến bệnh sốt rét Châu Phi 5560 trình tự độ dài tồn nhiễm sắc thể 11 Kết vùng tín hiệu bệnh sốt rét tìm trùng với kết phân tích có Các kết cho thấy khả ứng dụng thuật toán ARG4WG vào toán thực tế liệu lớn Thuật toán cài đặt để 100 dạng mã nguồn mở cho cộng đồng nghiên cứu địa chỉ: https://github.com/thaontp711/arg4wg Luận án đề xuất thuật toán cải tiến từ thuật toán ARG4WG REARG GAMARG nhằm tối ưu thêm số kiện tái tổ hợp trình xây dựng đồ thị ARG Thuật tốn REARG giúp q trình xây dựng ARG khu trú vào ARG có số kiện tái tổ hợp nhỏ nhanh ARG4WG hữu hạn số lần chạy thuật toán tập liệu vừa lớn Tuy nhiên, thuật toán GAMARG tổng quát GAMARG có khả xây dựng ARG có xác gần xác số kiện tái tổ hợp nhỏ Trong thời gian tới, tiếp tục nghiên cứu cách để xây dựng đồ thị ARG tối thiểu cho liệu hệ gen Hệ gen người có cấu trúc khối haplotype (haplotype blocks), mà khối khơng có kiện tái tổ hợp xảy khối xác định kiện tái tổ hợp Do đó, hướng tiềm xét đến ứng dụng thuật toán tốn tìm khối haplotype, từ tìm điểm nóng phân biệt khối (hot spots) vị trí tiềm xảy kiện tái tổ hợp, từ xây dựng đồ thị ARG dựa vị trí tái tổ hợp xác định Ngồi ra, chúng tơi nghiên cứu kết hợp phương pháp tối ưu tổ hợp vào thuật toán GAMARG để tối ưu số kiện tái tổ hợp trình xây dựng đồ thị ARG Bên cạnh đó, chúng tơi tiếp tục nghiên cứu triển khai ứng dụng thuật toán ARG4WG, GAMARG vào toán thực tế khác liệu lớn tốn tìm đa hình di truyền đơn nucleotide, xử lý liệu bị khuyết, … 101 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN Nguyen, T T P., Le, V S., Ho, H B., & Si Le, Q (2016), “Building ancestral recombination graphs for whole genomes”, IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB), 14(2), 478-483 Nguyen, T T P., Le, V S (2017), "Building minimum recombination ancestral recombination graphs for whole genomes", The 4th NAFOSTED Conference on Information and Computer Science 2017, pp 248-253 (IEEE conference) Nguyen, T T P., Le, V S (2019), “A Hybrid Approach to Optimize the Number of Recombination in Ancestral Recombination Graphs”, In Proceedings of the 2019 9th International Conference on Bioscience, Biochemistry and Bioinformatics, pp 36-42 (ACM conference) 102

Ngày đăng: 19/04/2023, 12:34

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w