Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
2,65 MB
Nội dung
MỞ ĐẦU Tính cấp thiết của luận án Những thành tựu gần công nghệ giải trình tự gen hệ (Next Generation Sequencing - NGS) giảm đáng kể chi phí giải trình tự toàn hệ gen dẫn đến gia tăng nhanh chóng số lượng DNA / RNA chuỗi protein sẵn sàng cho phân tích Những liệu đại diện cho nguồn thông tin hữu ích đặt vấn đề tính toán nghiên cứu tồn hệ gen, điển hình nghiên cứu phân bố biến thể ditruyền quần thể hay xác định vùng gen có tác động có ý nghĩa mặt sinh học đặc điểm quan trọng mà ta quan tâm, … Để giải tốn đòi hỏi nhiều cơng cụ mới, đáng ý số đồthịtáitổhợpditruyền (Ancestral Recombination Graph - ARG), công cụ quan trọng nghiên cứu ditruyền quần thể tốn liên quan đến tìm đa dạng hệ gen Với tập chuỗi nhiễm sắc thể, đồthị ARG đầy đủ mô tả cách đầy đủ lịch sử di truyền, mối quan hệ chúng với với tổ tiên chung thông qua ba kiện: đột biến, táitổhợp kết hợp Trong trình xâydựngđồthị ARG, kiện táitổhợp kiện đột biến kiện cốt lõi ảnh hưởng tới đồthị kết quả, từ ảnh hưởng trực tiếp tới ứngdụng liên quan tìm vùng gen liên quan đến bệnh, đột biến gây bệnh, đặc trưng quần thể quan sát, … Tuy nhiên, số kiện táitổhợp kiện đột biến vị trí thực xảy trình tiến hóa khơng thể xác định Do đó, khơng thể biết ARG thực mà suy diễn chúng từ liệu với giả định tối ưu số kiện táitổhợp kiện đột biến nhằm có ARG với kiện sát với thực tế Tuy nhiên, phương pháp xâydựngđồthị ARG gặp hạn chế sau: - Các phương pháp xâydựngđồthị ARG giới hạn với tập liệu vừa nhỏ hàng trăm trình tự - Các phương pháp xâydựngđồthị ARG có xác số kiện táitổhợp thời tốn nhiều thời gian khả thi với tập liệu nhỏ vài chục trình tự Mục tiêu của luận án 1) Nghiên cứu phương pháp xâydựngđồthị ARG tại, từ đề xuất thuật tốn gần xâydựngđồthị ARG cho hàng nghìn trình tự, chí hàng nghìn hệ gen nhằm ứngdụng hiệu vào toán thực tế tập liệulớn 2) Đề xuất thuật toán xâydựngđồthị ARG với hàm mục tiêu tối ưu số kiện táitổhợp trình xâydựngđồthị ARG việc kết hợp linh hoạt thuật toán đề xuất (1) với số đặc trưng liệu kĩ thuật tối ưu sử dụng phương pháp tìm cận táitổhợp phương pháp xâydựngđồthị ARG có số kiện táitổhợp nhỏ có Các đóng góp của luận án Trong luận án này, dựa thực nghiệm, đề xuất số cải tiến thuật toán xâydựngđồthị ARG để giảm độ phức tạp tính tốn q trình xâydựngđồthị tăng khả xử lý liệulớn hàng nghìn trình tự phạm vi tồn hệ gen người Chúng tơi đề xuất sử dụng đoạn đầu chung dài trình tự để xác định kiện táitổhợp Chiến lược giúp đảm bảo số nút đồthị ổn định sau lần thực bước táitổhợp làm giảm đáng kể số kiện táitổhợp thời gian để xâydựngđồthị ARG Thực nghiệm ứngdụng tốn tìm vùng gen liên quan đến bệnh sốt rét Châu Phi gồm 5560 trình tự toàn nhiễm sắc thể 11 nhấn mạnh thêm hiệu trội thuật toán đề xuất so với thuật toán Luận án đề xuất thuật toán cải tiến REARG GAMARG nhằm tối ưu thêm số kiện táitổhợp q trình xâydựngđồthị ARG Thuật tốn REARG giúp trình xâydựng ARG khu trú vào ARG có số kiện táitổhợp nhỏ nhanh ARG4WG hữu hạn số lần chạy thuật toán tập liệu vừa lớn Tuy nhiên, GAMARG tổng quát GAMARG có khả xâydựng ARG có xác gần xác số kiện táitổhợp nhỏ Các kết luận án công bố 01 báo tạp chí SCI quốc tế 02 báo cáo hội nghị quốc tế có phản biện Bố cục của luận án Ngoài phần kết luận, luận án tổ chức sau Chương giới thiệu khái quát liệu hệ gen người, cụ thể cấu trúc gen người, nguyên nhân dẫn tới biến thể ditruyền người loại biến thể ditruyền phổ biến Chúng giới thiệu sơ lược loại mạng phát sinh lồi, cơng cụ quan trọng để biểu diễn mối quan hệ tiến hóa nghiên cứu ditruyền quần thể Sau phần giới thiệu toán xâydựngđồthị ARG, giả định sử dụng trình xâydựngđồthị ARG Phần cuối chương trình bày cách tiếp cận giải toán xâydựngđồthị ARG Chương đề xuất thuật toán xâydựngđồthị ARG choliệulớn hàng nghìn mẫu độ dài tồn hệ gen Để làm điều đó, chúng tơi đưa nhược điểm cách tiếp cận có, đặc biệt hạn chế thuật toán Margarita xâydựngđồthị ARG hợp lý đề xuất Minichiello Durbin, từ đưa thuật tốn đề xuất nhằm khắc phục nhược điểm Các kết thực nghiệm phần sau chương chứng tỏ hiệu thuật toán đề xuất Phần cuối chương giới thiệu ứngdụng thuật toán đề xuất vào tốn tìm vùng gen liên quan đến bệnh sốt rét Châu Phi tập liệulớn gồm 5560 trình tự tồn nhiễm sắc thể 11 Các kết phần khẳng định thêm hiệu quả, khả ứngdụng thuật toán đề xuất toán thực tế liệulớn Chương luận án giới thiệu phương pháp nhằm cực tiểu hóa số kiện táitổhợp trình xâydựngđồthị ARG Cụ thể, đề xuất hai phương pháp: (1) kết hợp số đặc trưng liệu (2) kết hợp kĩ thuật tối ưu vào việc lựa chọn thực kiện táitổhợp theo thuật toán đề xuất chương Các thực nghiệm liệu khác chứng tỏ hiệu phương pháp đề xuất Chương BÀI TOÁN XÂYDỰNGĐỒTHỊTÁITỔHỢPDITRUYỀN 1.1 Giới thiệu chung 1.1.1 Dữliệu hệ gen người Giới thiệu cấu trúc gen người, nguyên nhân dẫn tới biến thể ditruyền người loại biến thể ditruyền phổ biến Hệ gen người gồm 23 cặp nhiễm sắc thể, có khoảng tỉ phân tử DNA, khoảng 20.000 đến 25.000 gen Hầu hết gen người nhau, có khoảng 0.1% vị trí mà nucleotit khác người gọi biến thể ditruyền Đột biến táitổhợp nguyên nhân biến thể ditruyền Đột biến nguồn gốc biến thể mới, xảy có lỗi q trình chép DNA mà khơng sửa chữa enzyme sửa chữa DNA Trong táitổhợpditruyền nguyên nhân biến thể ditruyền hệ Táitổhợp góp phần vào biến đổi gen cách xáo trộn DNA cha mẹ tạo tổhợp biến thể Biến thể đa hình đơn nucleotide (SNP) loại biến thể ditruyền phổ biến hệ gen người có vai trò đặc biệt quan trọng nghiên cứu tương quan toàn nhiễm sắc thể 1.1.2 Mạng phát sinh loài Với đa dạng liệu sinh học có ngày đặt nhu cầu phát triển mạng phát sinh lồi (phylogenetic network), thay dùng phân loài trước đây, để biểu diễn mối quan hệ liệu khác Mạng phát sinh lồi đồthị sử dụng để biểu diễn mối quan hệ tiến hóa (bằng cạnh) tập hợp nhãn (taxa) (là nút lá) Có khoảng 20 loại mạng phát sinh lồi khác Mỗi mạng có vai trò khác nhau: phân lồi mơ tả mối quan hệ lồi gen; mạng phân tách mơ tả khác phát sinh loài; kiện lai ghép hay táitổhợp mô hình hóa mạng lai ghép hay mạng táitổ hợp, … Trong đó, kiện táitổhợp kiện quan trọng thu hút nhiều quan tâm nhà nghiên cứu, đặc biệt ditruyền quần thể Dotáitổhợp diễn tất hệ, gen mà cá thể thừa hưởng pha trộn phản ánh DNA nhiều cá thể khác qua hệ tổ tiên Sự tồn gen tổhợp phong phú thúc đẩy nghiên cứu biến đổi gen quần thể để khám phá mối quan hệ nội dung gen đặc điểm quan tâm có ảnh hưởng từ yếu tốditruyền Việc phân tích xác định kiện táitổhợp giúp cho trình xác định đa dạng di truyền, tìm hiểu nguyên nhân dẫn đến bệnh đa yếu tố bệnh tiểu đường, ung thư, … tảng nghiên cứu thuốc chữa bệnh Trong luận án này, tập trung nghiên cứu đồthịtáitổhợpdi truyền, loại mạng phát sinh lồi mơ hình hóa quan hệ ditruyền trình tự hệ gen quan sát quần thể 1.2 Xâydựngđồthịtáitổhợpditruyền 1.2.1 Sự kiện táitổhợpTáitổhợp thành phần trình truyền DNA từ trình tự sang trình tự khác nhiễm sắc thể truyền từ hệ sang hệ khác Có kiểu táitổhợp phổ biến trao đổi chéo (crossing over) chuyển đổi gen (gene conversion) Mỗi loài sinh vật có chế táitổhợp khác Đối với loài người, trao đổi chéo kiểu táitổhợp phổ biến xảy trình giảm phân 1.2.2 ĐồthịtáitổhợpditruyềnĐồthịtáitổhợptổ tiên đóng vai trò quan trọng nghiên cứu ditruyền quần thể tốn liên quan đến tìm đa dạng hệ gen Bài toán xâydựngđồthị ARG gắn với việc tái cấu trúc lịch sử tiến hóa trình tự quan sát quần thể trình tự tạo đột biến táitổhợpDo đó, trình tự hiểu trình tự DNA đơn Đối với quần thể người (và loài lưỡng bội nói chung), trình tự DNA người coi độc lập trình xâydựngđồthị ARG 1.2.2.1 Mơ hình vị trí vơ hạn Trong chiều dài lịch sử tiến hóa, vị trí tập trình tự quan sát, kiện đột biến xảy nhiều lần (đột biến ngược đột biến lặp lại) Quá trình xâydựngđồthị ARG, với kiện táitổhợp trọng tâm nghiên cứu, gắn với giả định có nhiều kiện đột biến xảy vị trí tồn lịch sử tiến hóa, khơng cho phép đột biến ngược lặp lại Mơ hình đột biến gọi mơ hình vị trí vơ hạn (infinite-sites model), mơ tả tiến hóa chuỗi DNA dài với tỷ lệ đột biến thấp vị trí 1.2.2.2 Cấu trúc đồthị ARG Với tập chuỗi nhiễm sắc thể, đồthị ARG đầy đủ mô tả cách đầy đủ lịch sử di truyền, mối quan hệ chúng với với tổ tiên chung thông qua ba kiện: đột biến, táitổhợp kết hợp Có thành phần cần thiết để xác định đồthị ARG tổng quát cho tập trình tự nhị phân D cho trước: đồthị sở, nhãn cạnh, nhãn nút, trình tự quan sát Sự kiện kết hợp Đột biến vị trí thứ Sự kiện táitổhợp Hình 1.1: Một ví dụđồthị ARG với ký hiệu: ■: trạng thái ditruyền gốc, ◘: trạng thái ditruyền đột biến, □: trạng thái khơng ditruyền Hình 1.1 mơ tả ví dụđồthịtáitổhợptổ tiên Đồthị hiển thị rõ thành phần ditruyền không ditruyền tập chuỗi trình tự Xét ngược chiều thời gian, kiện kết hợp xuất hai trình tự kết hợp với thành trình tự; kiện đột biến xuất vị trí alen trình tự bị thay đổi kiện táitổhợp xuất trình tự bị tách thành hai trình tự con, trình tự mang thơng tin ditruyền phía trước vị trí cắt trình tự lại mang thơng tin ditruyền phía sau vị trí cắt Điểm xảy kiện táitổhợp gọi điểm cắt táitổhợp (breakpoint) Với đồthị ARG đầy đủ mô tả Hình 1.1, vị trí c đồthị có thành phần (cây biên - marginal tree) T(c) mô tả lịch sử cá thể cho vị trí Từ tập trình tự ban đầu, với trình tự ta lần theo cạnh đồthịtáitổhợpditruyềncho vị trí c; kiện táitổhợp xuất hiện, ta theo đường bên trái vị trí táitổhợpxảy sau c theo đường bên phải trường hợp ngược lại Tập tất cạnh định nghĩa T(c) Hình 1.2 minh họa thành phần chođồthị ARG Hình 1.1 (1) Cây thành phần cho marker (2) Cây thành phần cho marker (3) Cây thành phần cho marker (4) Cây thành phần cho marker Hình 1.2: Cây thành phần đồthị ARG Hình 1.1 Bên cạnh thuật toán xâydựngđồthị ARG đầy đủ, nhiều thuật toán, đặc biệt theo cách tiếp cận thống kê thường xâydựngđồthị ARG không đầy đủ, tức đồthị ARG biểu diễn tập thành phần kiện táitổhợp 1.2.2 Bài toán xâydựngđồthị ARG Bài toán xâydựngđồthị ARG chứng minh toán NP-hard Do số kiện táitổhợp kiện đột biến vị trí thực xảy chúng q trình tiến hóa khơng thể xác định Do đó, hướng tiếp cận tốn tập trung vào giả định tối ưu số kiện táitổhợp kiện đột biến Dưới giả định vị trí vơ hạn, tốn xâydựngđồthị ARG phát biểu sau: Cho tập D gồm n trình tự nhị phân, trình tự có độ dài m, tìm ARG hiển thị D với số kiện táitổhợp Nhiều nghiên cứu xâydựngđồthị ARG đề xuất với mơ hình táitổhợp khác phù hợp với quần thể quan sát mục đích nghiên cứu khác Trong tốn xâydựngđồthị ARG cho quần thể vi khuẩn, kiện táitổhợp xem xét mơ hình hóa kiện chuyển đổi gen Trong nghiên cứu ditruyền quần thể người, kiện táitổhợp mơ hình hóa q trình xâydựngđồthị ARG hầu hết kiện trao đổi chéo Trong nhiều thuật toán, đặc biệt thuật toán tổhợp tập trung vào đặc điểm cấu trúc đồ thị, kiện chuyển đổi gen biểu diễn qua kiện trao đổi chéo liên tiếp Trong khuôn khổ luận án này, chúng tơi tập trung vào thuật tốn tổhợpxâydựngđồthị ARG đầy đủ có số kiện táitổhợp giả định mơ hình vị trí vơ hạn Sự kiện táitổhợpđồthị ARG đề cập đến kiện trao đổi chéo sử dụng với ý nghĩa suốt phần luận án Dữliệu trình tự xét đến toán liệu haplotype biểu diễn dạng nhị phân Dữliệu vào: Dữliệu đầu vào tập trình tự nhị phân độ dài m Các trình tự có độ dài Tập trình tự ký hiệu D = {S1, …, SN}, N số lượng trình tự, Sx trình tự tập D, ≤ x ≤ N Sx có độ dài m, Sx[i] biểu thị giá trị Sx vị trí i, Sx[i] có giá trị 1, ≤ i ≤ m Bài tốn: Tìm đồthị ARG mơ tả mối quan hệ trình tự tập liệu vào thông qua kiện: đột biến, kết hợptáitổ hợp, với giả định có nhiều đột biến xảy vị trí Do có nhiều phương pháp khác cho kết với độhợp lý thời gian thực khác nhau, cần đề xuất phương pháp cho kết tốt dựa tiêu chí số kiện táitổhợp nhất, khả thi với liệulớn hàng trăm đến hàng nghìn trình tự độ dài hệ gen, đồthị có ứngdụng tốt tốn thực tế có thời gian thực khả thiDữliệu đầu ra: Đồthị ARG chứa thông tin quan hệ dạng kiện bản: đột biến, kết hợptáitổhợp trình tự đầu vào (nút lá) với trình tự trung gian sinh trình xâydựngđồthị (nút cây) với trình tự tổ tiên chung (nút gốc) 1.3 Các phương pháp xâydựngđồthị ARG Có hướng nghiên cứu xâydựngđồthị ARG: (1) Xâydựngđồthị ARG tối thiểu (minimal ARG), tức đồthị có xác số kiện táitổhợp nhỏ nhất, (2) xâydựngđồthị ARG “hợp lý” (plausible ARG), tức thuật tốn khơng cố gắng xâydựng ARG có xác số kiện táitổhợp mà hướng đến việc xâydựngđồthị ARG với số kiện táitổhợp sinh phụ thuộc vào phương pháp mơ hình hóa kiện táitổhợp khác 1.3.1 Các phương pháp xâydựngđồthị ARG tối thiểu Các cách tiếp cận theo hướng nghiên cứu hầu hết dựa phương pháp tìm kiếm vét cạn đồthị để cực tiểu hóa số kiện táitổhợp nhằm đạt tới ARG tối thiểu Trong đó, khái niệm cặp vị trí khơng tương thích sử dụng hầu hết thuật toán để xác định kiện táitổ hợp: Cho tập D gồm nhiều trình tự, cặp vị trí gọi khơng tương thích tồn trình tự D chứa loại giao tử (0,0), (0,1), (1,0), (1,1) cho cặp vị trí Dưới giả định vị trí vơ hạn (có nhiều đột biến xảy vị trí), cách để có cặp vị trí khơng tương thích kiện táitổhợpxảy lịch sử vị trí Khái niệm cặp vị trí khơng tương thích yếu tố dẫn tới nhiều thuật tốn tìm cận táitổhợp thuật toán xâydựngđồthị ARG tối thiểu Các phương pháp vét cạn hướng tới việc tìm điểm cắt táitổhợp tối ưu, tức là, số kiện táitổhợp để phá vỡ tất vị trí khơng tương thích Song cộng xâydựngđồthị ARG cách duyệt qua tất qua vị trí Các kiện táitổhợp cần thiết để chuyển từ tất vị trí sang tất vị trí tính tốn Các đồthị ARG tối thiểu sau xâydựng cách lần theo vị trí mà có số kiện táitổhợp Thay tính tốn từ trái qua phải dọc theo chuỗi trình tự, Lyngsø cộng sử dụng phương pháp nhánh cận, xâydựngđồthị ARG ngược chiều thời gian, thực kiện đột biến, kết hợptáitổhợp đến tổ tiên chung tối ưu Tìm kiếm phân nhánh thực thi để khám phá tất chuỗi kiện có thể, cố gắng tìm chuỗi kiện với số kiện táitổhợpcho trước Nếu khơng tìm được, số kiện táitổhợpcho phép tăng thêm đồthị ARG tìm thấy Gusfield cộng đề xuất thuật toán xâydựng trường hợp đặc biệt đồthị ARG có - đồthị ARG với ràng buộc tất chu trình táitổhợp khơng chung nút với Khi đó, đồthị ARG có nốt sùi (galled-tree) chu trình táitổhợp nốt sùi (gall) thỏa mãn không nốt sùi chung nút với nốt sùi Wu cộng đưa toán xâydựngđồthị ARG tốn tìm số trình tự trung gian tối thiểu cần để xâydựng ARG Gần đây, Cámara cộng đề xuất kiểu đồthị tổng hợp gọi topological ARG Tuy nhiên, thuật toán xâydựngđồthị ARG tối thiểu hạn chế áp dụng với tập liệu nhỏ, đến 100 trình tự ngắn, chưa khả thi với liệu hệ gen người 1.3.2 Các phương pháp xâydựngđồthị ARG hợp lý Các phương pháp tìm ARG tối thiểu áp dụngcholiệu nhỏ độ phức tạp tính toán lớn Để tương tác với liệulớn hơn, phương pháp xâydựngđồthị ARG hợp lý đề xuất Theo hướng nghiên cứu này, phương pháp xâydựngđồthị ARG thường theo cách tiếp cận dựa kinh nghiệm dựa thống kê Chương trình SHRUB xâydựng thuật tốn tính cận táitổhợp Rub đồthị ARG cho tập liệu D sử dụng xác Rub kiện táitổhợp cách xâydựngđồthị ARG từ nút Các phép biến đổi kết hợp/thay trình tự đầu vào tiến hành song song tương ứng với bước xâydựngđồthị ARG đạt tới nút chung (chỉ lại trình tự qua phép biến đổi) Dựa ý tưởng từ thuật tốn tìm ARG tối thiểu Lyngso cộng sự, Minichiello Durbin đề xuất chiến lược để xác định kiện táitổ hợp, kiện táitổhợp thực cặp trình tự có đoạn chung dài Thuật toán chạy với tập liệu tối đa nghìn trình tự có độ dài hàng trăm snp Ý tưởng độ dài đoạn chung cá thể khai thác thuật toán xâydựngđồthị ARG hợp lý Parida cộng Một cách tiếp cận khác gần lấy mẫu (sampling) ARG từ xác suất hậu nghiệm mơ hình xấp xỉ q trình kết hợptáitổhợp (coalescent-withrecombination – CwR) Các thuật toán cố gắng tích hợp q trình kết hợptáitổhợp vào mơ hình học máy để xâydựng tập hợp phả hệ Các phương pháp theo cách tiếp cận thống kê hướng tiếp cận nhiều nhà nghiên cứu phát triển gần Tuy nhiên, phương pháp không suy luận ARG đầy đủ mà tập biên với tập kiện táitổhợp tương ứng Các phương pháp thường dùng việc mô liệu Hơn nữa, cách tiếp cận phức tạp, đòi hỏi chi phí tính tốn lớn nên chưa có ứngdụng thực tế tập liệulớn Chương THUẬT TOÁN ARG4WG XÂYDỰNGĐỒTHỊTÁITỔHỢPDITRUYỀNCHODỮLIỆULỚN 2.1 Giới thiệu Qua khảo sát phương pháp tìm ARG hợp lý, nhận thấy cách tiếp cận dựa kinh nghiệm Minichiello Durbin cài đặt chương trình Margarita khả thi với tập liệu nghìn trình tự có độ dài hàng trăm SNP có ứngdụng vào số toán thực tế Tuy nhiên, thuật toán bị giới hạn với liệulớn chiến lược thực kiện táitổhợp trình xâydựngđồthị ARG Để thực bước táitổ hợp, Margarita tìm cặp trình tự có đoạn giống liên tục dài (longest shared tract) thực táitổhợp hai đầu đoạn chung (xem Hình 2.1) Do đó, đoạn chung tìm thấy nằm bên trình tự, Margarita phải thực kiện táitổ hợp, sinh trình tự từ trình tự để có trình tự chứa đoạn chung để thực kết hợp với trình tự lại Chiến lược gây bùng nổ số nút đồthị số lượng kiện táitổhợp tăng Hình 2.1: Vấn đề việc thực kiện táitổhợp Margarita Hai trình tự S1 S2 với dải chung dài hai trình tự biểu diễn màu đen Thuật toán thực cặp táitổhợp R1 R2 trình tự S1 để sinh trình tự S11, S12 S13 Sau đó, S13 kết hợp với S2 Vì vậy, đoạn chung tìm thấy bên trình tự, thuật toán phải thực kiện táitổhợp trình tự cặp trình tự ban đầu biến thành trình tự 10 Luận án đề xuất thuật toán ARG4WG xâydựngđồthị ARG hợp lý choliệulớn hàng nghìn mẫu độ dài toàn nhiễm sắc thể Cùng cách tiếp cận Margarita, nhiên, thực táitổhợp theo chiến lược tìm đoạn đầu chung dài Các chứng minh, thực nghiệm ứngdụngliệu khác chứng minh hiệu thuật tốn đề xuất 2.2 Chiến lược tìm đoạn đầu chung dài Cho trước tập trình tự D trình tự s, ta chứng minh việc lấy lặp lại đoạn chung dài đầu s mà kết hợp với trình tự D cho số kiện táitổhợp Ta lấy phía bên trái phía bên phải Từ chiến lược lấy đoạn chung dài trình tự luôn cho ta số kiện táitổhợp Mệnh đề 1: Cho tập trình tự D, trình tự s có độ dài m Số cực tiểu kiện táitổ hợp, f ( s, D ) , để tách s thành trình tự mà kết hợp với trình tự D đạt cách lặp lại việc lấy đoạn dài từ phía trái s Chúng ta có cực tiểu số kiện táitổhợp cách lặp lại việc lấy đoạn chung dài từ phía bên trái s Tương tự với trường hợp lấy từ phía bên phải Và điều không không chọn đoạn chung dài từ hai phía s Hình 2.1 mơ tả giải pháp tối ưu mà cần kiện táitổhợp (xem Kịch A) Tuy nhiên, ta chọn đoạn chung dài khơng phải từ phía s (ở chọn đoạn chung dài s) ta phải cần đến kiện táitổhợp (Kịch B) Hình 2.2: Phân tách s cách chọn đoạn chung dài s để kết hợp với trình tự D khơng dẫn tới số cực tiểu kiện táitổhợp 11 Từ đó, chúng tơi định nghĩa đoạn đầu chung dài (longest shared end) đoạn chứa thông tin ditruyền giống liên tục dài tính từ đầu trình tự 2.3 Thuật toán ARG4WG ARG4WG xâydựng ngược chiều thời gian, xâydựng ARG từ tập trình tự (haplotypes) đạt tới tổ tiên chung ARG4WG gồm bước chính: Bước kết hợp, bước đột biến bước táitổhợp Đầu tiên, thuật tốn tìm trình tự đồng để thực kết hợp Bước giúp giảm số lượng trình tự tới tổ tiên chung Trong bước đột biến, thuật tốn tìm vị trí mà có trình tự có giá trị khác với tất trình tự lại Kết bước sinh trình tự đồng để thực bước kết hợp Khi không thực kiện kết hợp hay đột biến, thuật toán chuyển sang bước táitổhợp Để xác định điểm cắt táitổ hợp, thuật tốn chọn cặp trình tự (S1, S2) có đoạn chung dài từ đầu Giả sử S1 chứa vật liệuditruyền phần chung S2, thuật toán thực kiện táitổhợp việc tách S1 thành trình tự Trình tự chứa đoạn chung kết hợp với S2 sau (xem Hình 2.3) Đặt “*” trạng thái không ditruyền nút đồthị ARG ĐẦU VÀO: Tập liệu D = {S1, …, SN} trình tự (haplotype), Sx có m marker, Sx[i] có giá trị 1, ≤ x ≤ N, ≤ i ≤ m ĐẦU RA: đồthị ARG mô tả mối quan hệ (các kiện kết hợp, đột biến, táitổ hợp) nút (các trình tự) đồthị đến tổ tiên chung SSCA Một trình tự S1 coi dài trình tự S2 (L(S1) > L(S2)) S1 chứa nhiều vật liệuditruyền S2 Ta định nghĩa (L(S1) > L(S2))[a,b] S1 dài S2 khoảng [a,b] Một tốn tử bù, ¬, !ược định nghĩa để S[i] = ¬S[i] = ngược lại, * phần bù Với cặp (S1, S2), đặt (S1, S2){d} !oạn đầu chung chúng Cụ thể, (S1, S2){d=left} phần chung đầu bên trái (S1, S2); (S1, S2){d=right} phần chung đầu bên phải (S1, S2) Chúng định nghĩa S1[i] khớp với S2[i] trình tự có trạng thái trạng thái trình tự * 12 Hình 2.3: Sự kiện táitổhợp biểu thị thuật tốn ARG4WG (a) Xét trình tự S1 S2, đoạn chung đầu trình tự từ phía bên trái (hình lượn sóng) từ phía bên phải (màu đen) xác định (b) Với tập trình tự S1, S2 S3, đoạn chung đầu cặp tính tốn (hình lượn sóng) đoạn đầu chung dài xác định mô tả màu đen (c) Một kiện táitổhợp thực trình tự S1 để sinh trình tự S11 S12 S12 chứa đoạn đầu chung dài sau kết hợp với S2 Do đó, cần thực kiện táitổhợp số trình tự khơng bị tăng lên q trình xâydựngđồthị ARG 13 Chúng tơi định nghĩa cặp có đoạn đầu chung cực đại (S1,S2){d,l} với độ dài đoạn chung l (0 < l ≤ m) S1 S2 thỏa mãn điều kiện sau: Nếu d = left S1[i] khớp với S2[i] với ≤ i ≤ l l = m S1[l+1] không giống S2[l+1] Nếu d = right S1[i] khớp với S2[i] với m-l < i ≤ m l = m S1[m-l] không giống S2[m-l] Vùng giống phải có vị trí i mà S1[i] = S2[i] ≠ * Điều kiện thứ xác định trình tự đồng đoạn đầu chung dài chúng Điều kiện thứ nhấn mạnh đoạn đầu chung trình tự có chung vị trí mang vật liệuditruyền Điều làm giảm số nhánh dư thừa trình xâydựngđồthị ARG Xét cặp trình tự (S1, S2) (khơng đồng nhất) có đoạn đầu chung cực đại từ phía bên trái từ phía bên phải tương ứng lL lR Nếu đoạn đầu chung cực đại từ phía bên phải chứa nhiều phần vật liệuditruyền chung đoạn đầu chung cực đại từ phía bên trái lR xác định đoạn đầu chung dài cặp trình tự (S1, S2) Thuật toán thời gian t = Tập trình tự thời gian t ký hiệu Dt (D1 = D) Với Dt xâydựng danh sách ứng cử viên cho kiện kết hợp, đột biến táitổhợp sau: • Danh sách kết hợp C: Với cặp có đoạn đầu chung dài (S1,S2){d,l}, l = m, ta cho cặp vào danh sách kết hợp • Danh sách đột biến M: Với vị trí i (1 ≤ i ≤ m), tồn trình tự S1, với trình tự S2 Dt╲{S1} ta có S2[i] = ¬S1[i] S1[i] cho vào danh sách đột biến • Danh sách táitổhợp R: Với cặp có đoạn đầu chung dài (S1,S2){d,l}, < l < m, (S1,S2){d,l} cho vào danh sách táitổhợp Khi ba kiện xuất hiện, tập trình tự Dt+1 tạo từ tập trình tự thời Dt danh sách ứng cử viên cập nhật BEGIN t = 1; Dt = D; Gán danh sách kết hợp C = {tất cặp (Sx,Sy){d,l} (1 ≤ x, y ≤ N) có l = m}; Gán danh sách đột biến M = {tất trình tự chứa vị trí đột biến đơn}; Gán danh sách táitổhợp R = {tất cặp (Sx,Sy){d,l} (1 ≤ x, y ≤ N) có < l < m }; while chưa đạt tới tổ tiên chung if (danh sách kết hợp C không rỗng) then Lấy ngẫu nhiên cặp trình tự có đoạn đầu chung (S1,S2); Thực kết hợp sau: Gán S’ = S1 L(S1) > L(S2); ng"ợc l$i S’ = S2; 14 Dt+1 = (Dt\{S1,S2}) ∪ {S’}; Cập nhật danh sách C, M, R; else if (danh sách !ột biến M khơng rỗng) then Lấy ngẫu nhiên trình tự S với đột biến vị trí i; Thực kiện đột biến sau: Dt+1 = (Dt\{S}) ∪ {S’} với S’[i] = ¬S[i] S’[j] = S[j] với j ≠ i ≤ i,j ≤ m Cập nhật danh sách C, M, R; else Lấy cặp trình tự có đoạn đầu chung dài (S1,S2){d,l} từ danh sách táitổ hợp; Thực táitổhợp sau: if d = left then // !oạn đầu chung dài (S1, S2) từ đầu phía bên trái Gán SR = S1 (L(S1) < L(S2))[1,l]; ng"ợc l$i SR = S2; SR1[i] = SR[i] với ≤ i ≤ l; SR1[j] = * với l < j ≤ m SR2[i] = * với ≤ i ≤ l; SR2[j] = SR[j] với l < j ≤ m else //d = right Gán SR = S1 (L(S1) < L(S2))[m-l+1,m]; ng"ợc l$i SR = S2; SR1[i] = * với ≤ i ≤ m-l; SR1[j] = SR[j] với m-l < j ≤ m SR2[i] = SR[i] với ≤ i ≤ m-l; SR2[j] = * với m-l < j ≤ m endif Dt+1 = (Dt\{SR}) ∪ {SR1,SR2}; Cập nhật danh sách C, M, R; endif endif endwhile END; Thuật toán 2.1: Thuật toán ARG4WG xâydựngđồthị ARG từ tập trình tự D cho trước Như vậy, kiện kết hợp làm giảm số trình tự Sự kiện đột biến xuất vị trí đơn Một kiện táitổhợp thay trình tự trình tự có vật liệuditruyền Chính vậy, ARG4WG ln đạt tới tổ tiên chung Những lựa chọn ngẫu nhiên bước thuật toán dẫn tới việc sinh đồthị ARG khác cho lần chạy Thuật toán ARG4WG đơn giản hóa cách thực kiện táitổhợp suy luận đồthị ARG hợp lý So với Margarita, chiến lược đoạn đầu chung dài 15 cho ta số kiện táitổhợp mà làm giảm thời gian tìm đoạn chung dài số lượng nút trình xâydựngđồthị 2.4 Kết Các thực nghiệm liệu khác cho thấy hiệu thuật toán đề xuất Mặc dù có hình thái chút so với Margarita so sánh liệu mô ARG4WG nhanh hàng nghìn lần so với Margarita Các kết thực nghiệm cho thấy số kiện táitổhợp Margarita nhiều trung bình 1.4 lần so với ARG4WG Đặc biệt, ARG4WG sinh ARG với thời gian ~4.5 lần chạy sử dụng máy tính 16-thread choliệu 4246 haplotype (2123 mẫu gen người) toàn nhiễm sắc thể (174,234 SNPs – nhiễm sắc thể dài gen người) từ dự án 1kGP Kết nói lên thuật tốn ARG4WG đề xuất chạy với liệulớn hàng nghìn trình tự tồn hệ gen 2.5 Ứngdụng ARG4WG nghiên cứu tương quan toàn hệ gen Trong nghiên cứu tương quan người bệnh-người không bệnh (case-control association study), tần số alen vị trí quan tâm so sánh quần thể gồm cá thể bị bệnh cá thể không bị bệnh Tần số người bị bệnh mà cao minh chứng cho alen liên quan đến nguy gây bệnh tăng lên Bằng việc phân tích phân biệt alen SNP quần thể người bệnh người không bệnh ta xác định vị trí có liên quan cách thống kê tới bệnh 2.5.1 Cách tiếp cận sử dụngđồthị ARG vào tốn tìm ánh xạ tương quan Di chuyển dọc theo nhiễm sắc thể, hình thái biên liên tiếp dịch chuyển theo tác động kiện táitổhợp mang tính lịch sử Các kiện táitổhợp định nghĩa vùng nhiễm sắc thể mà biên mở rộng Với vị trí cho trước, biên trích xuất từ ARG cách lần vết phả hệ vị trí ngược chiều thời gian từ nút Khi táitổhợp xuất hiện, phả hệ theo đường hệ cha mẹ phía bên trái điểm cắt táitổhợp nằm phía phải vị trí xét, ngược lại theo hệ cha mẹ phía bên phải Nếu có đột biến nguy gây bệnh vị trí cụ thể nhiễm sắc thể (giả sử đột biến xuất nhiều lần vị trí suốt lịch sử tiến hóa), xảy số nhánh bên biên vị trí Vì vậy, cách để tìm tương quan đến bệnh kiểm tra biên để tìm có nhánh phân biệt rõ người bệnh người không bệnh, tức nhánh mà nhiều người bệnh số khơng có người khơng bệnh thuộc nhánh Cụm người bệnh tập trung vào nhánh gợi ý có đột biến gây bệnh xuất nhánh (Hình 2.4) 16 Hình 2.4: (a) Đồthị ARG cho tập trình tự, trình tự s1, s2 từ cá thể khỏe mạnh, trình từ s3, s4 từ cá thể bị bệnh (b) Đột biến (vùng khoanh tròn) biên vị trí đồthị ARG (a) cho phân biệt rõ trình tự bệnh trình tự khơng bệnh Cách làm ánh xạ tương quan sử dụngđồthị ARG tóm tắt sau: Với tập D haplotype từ cá thể người bệnh người không bệnh, xâydựngđồthị ARG G cho D sử dụng thuật toán xâydựngđồthị ARG Tìm tập biên T G vị trí D Các cạnh e T ∈ T tính điểm độ tốt (theo cách đó) việc phân biệt gán nhãn bệnh với gán nhãn không bệnh Sau đó, cạnh e với điểm cao thiết lập cho T Đặt T biên T có độ tương quan lớn nhất, tức chứa cạnh e với độ phân biệt lớn nhãn bệnh nhãn không bệnh tất cạnh tất biên T Nếu T đủ tốt (đạt ngưỡng cho trước), kết luận đột biến gây bệnh có khả xảy quanh vị trí biên T đột biến xuất xảy thời gian biểu thị cạnh e tìm thấy T 2.5.2 Ứngdụng ARG4WG vào tốn tìm vùng gen liên quan đến bệnh sốt rét Châu Phi 17 ARG4WG sử dụng để xâydựngđồthị ARG từ tập liệu Gambia chứa 5560 haplotypes (tương ứng với 2780 mẫu cá thể, có 1533 mẫu khỏe mạnh 1247 mẫu bị bệnh sốt rét) toàn nhiễm sắc thể 11 (Band et al 2013) Chương trình Margarita xâydựng thuật tốn tìm ánh xạ tương quan dựa đồthị ARG hợp lý sử dụng để thử nghiệm đồthị ARG kết từ thuật tốn ARG4WG vào tốn tìm ánh xạ tương quan toàn hệ gen Các kết thực nghiệm cho kết vùng có tín hiệu mạnh liên quan đến bệnh từ 4.43Mb tới 6.28Mb nhiễm sắc thể 11 với p-values ≤ 10-7 Kết đồng ý với phân tích nhóm tác giả Garvin Band (Band et al 2013) vùng HBB (4.5Mb-5.5Mb) có nhiều khả liên quan đến bệnh sốt rét Trong nghiên cứu họ, họ giá trị P-value thấp vùng 5.7x10-13 sử dụng phương pháp phân tích SNPTEST meta-analysis Tuy nhiên, hạn chế phương pháp kiểm thử hốn vị cơng cụ Margarita nên ta khơng thể thực phân tích sâu đến >107 Sự thống kết thực nghiệm ARG4WG ổn định việc xâydựng ARG với số lượng SNP khác Các kết nghiên cứu chương công bố báo tạp chí quốc tế IEEE/ACM Transactions on Computational Biology and Bioinformatics năm 2017 (công trình khoa học số 1) Chương PHƯƠNG PHÁP TỐI ƯU HÓA SỐ SỰ KIỆN TÁITỔHỢP TRONG QUÁ TRÌNH XÂYDỰNGĐỒTHỊ ARG Thuật tốn ARG4WG đề xuất giới thiệu chương xâydựngđồthị ARG choliệulớn hàng nghìn mẫu tồn hệ gen Tuy nhiên, thuật tốn khơng thiết kế nhằm tối ưu hóa số kiện táitổhợp Trong chương này, chúng tơi trình bày phương pháp: (1) kết hợp đặc trưng liệu (2) kết hợp kĩ thuật tối ưu vào thuật toán ARG4WG nhằm tối ưu hóa số kiện táitổhợp trình xâydựngđồthị ARG 3.1 Một số định nghĩa và khái niệm sử dụng trong các thuật tốn Dưới giả định vị trí vơ hạn, ta gọi vị trí i j khơng tương thích chúng chứa tất loại giao tử 00, 01, 10, 11 Sẽ có kiện táitổhợp vị trí khơng tương thích i j Đặt D = {S1, S2, …, SN} tập N trình tự nhị phân có độ dài m, Sx[i] có giá trị 1, ≤ x ≤ N, ≤ i ≤ m; gọi * trạng thái không di truyền, tức không 18 mang thông tin ditruyền từ liệu quan sát Chúng sử dụng số định nghĩa giống thuật toán ARG4WG sau: • Xét vị trí i, Sx[i] khớp với Sy[i] Sx[i] = Sy[i] Sx[i] = * Sy[i] = * • (Sx,Sy){d,l} cặp trình tự Sx Sy có đoạn đầu chung với độ dài tối đa l từ phía bên trái (d = left) từ phía bên phải (d = right) • (Sx,Sy){d,l} tồn có vị trí i phần chung thỏa mãn Sx[i] = Sy[i] ≠ * • Cặp (Sx,Sy) gọi cặp có đoạn đầu chung dài cặp chứa phần vật liệuditruyền chung dài đoạn đầu chung Với cặp có đoạn đầu chung (Sx,Sy){d,l}, theo chiến lược đoạn đầu chung dài điểm cắt táitổhợp xác định giữa: • l l + d = left Sx[i] khớp với Sy[i] với ≤ i ≤ l Sx[l+1] ≠ Sy[l+1] • l -1 l d = right Sx[i] khớp với Sy[i] với l ≤ i ≤ m Sx[l-1] ≠ Sy[l-1] Cũng giống với ARG4WG, thuật toán đề xuất hoạt động ngược thời gian có giả định có nhiều đột biến xảy vị trí suốt q trình xâydựngđồthị ARG 3.2 Hạn chế thuật toán ARG4WG toán xâydựngđồthị ARG tối thiểu Phần hạn chế chiến lược đoạn đầu chung dài việc xâydựngđồthị ARG tối thiểu Chiến lược đoạn đầu chung dài giúp cho ARG4WG chạy với liệulớn gồm hàng nghìn trình tự độ dài toàn hệ gen Tuy nhiên, nhiều cách chọn điểm cắt táitổhợp theo chiến lược khơng giúp phá vỡ cặp vị trí khơng tương thích nào, dẫn đến thuật tốn khơng xâydựng ARG tối thiểu 3.3 Thuật toán REARG 3.3.1 Động nghiên cứu Xuất phát từ quan sát trình làm thực nghiệm, chúng tơi nhận thấy việc lựa chọn cặp trình tự có độ dài đoạn đầu chung dài cho việc thực táitổhợp thuật toán ARG4WG thường khơng Nói cách khác, ARG4WG thường phải chọn ngẫu nhiên cặp trình tự cho việc thực táitổhợp từ nhiều cặp có độ dài đoạn đầu chung dài Các phân tích thực nghiệm cho thấy, bên cạnh tiêu chí độ dài đoạn đầu chung dài nhất, yếu tố khác độ tương đồng cặp trình tự chọn hay độ dài trình tự chọn để thực táitổhợp có ảnh hưởng đáng kể đến số kiện táitổhợpDo đó, việc kết hợp yếu tố việc lựa chọn cặp trình tự thích hợpcho việc táitổhợp giúp định hướng 19 trình xâydựngđồthị ARG tới đồthị ARG với số kiện táitổhợp tối ưu chạy với liệulớn với số lần chạy giới hạn 3.3.2 Thuật tốn REARG Chúng tơi định nghĩa: Độ tương đồng trình tự S1 S2: m Sim(S1 , S ) = ∑ Sim(S1 [i ], S [i ]) Với ⎧1 if S1[i] = S [i] ≠ * Sim(S1[i], S [i]) = ⎨ ⎩0 otherwise Độ dài trình tự S: m Len ( S ) = ∑ Len ( S[i]) Với "1 if S[i] ≠ * Len ( S[i]) = # $0 if S[i] = * Trong thuật toán REARG, thủ tục cho bước kết hợp đột biến giống thuật tốn ARG4WG Chúng tơi sử dụng thêm số tiêu chuẩn khác để lựa chọn ứng cử viên tốt cho bước táitổhợp Dưới đây, mô tả phiên khác thuật toán REARG: REARG_SIM, REARG_LEN REARG_COM Bước táitổhợp thuật tốn REARG_SIM • Bước 1: Tính độ dài đoạn đầu chung cho tất cặp trình tự Các cặp trình tự có đoạn đầu chung dài chọn cặp ứng cử viên cho việc táitổhợp • Bước 2: Tính độ tương đồng tất cặp ứng cử viên Chọn cặp ứng cử viên có độ tương đồng cao để thực táitổhợp Trong trường hợp có nhiều ứng cử viên có độ tương đồng cao nhất, cặp số chọn ngẫu nhiên để thực táitổhợp Bước táitổhợp thuật toán REARG_LEN • Bước 1: Tính độ dài đoạn đầu chung cho tất cặp trình tự Các cặp trình tự có đoạn đầu chung dài chọn cặp ứng cử viên cho việc táitổhợp • Bước 2: Tính độ dài trình tự ngắn tất cặp ứng cử viên Chọn ứng cử viên có độ dài trình tự dài để thực táitổhợp Trong 20 trường hợp có nhiều ứng cử viên có độ dài trình tự dài nhất, số chọn ngẫu nhiên để thực táitổhợp Bước táitổhợp thuật tốn REARG_COM • Bước 1: Tính độ dài đoạn đầu chung cho tất cặp trình tự Các cặp trình tự có đoạn đầu chung dài chọn cặp ứng cử viên cho việc táitổhợp • Bước 2: Tính độ tương đồng tất cặp ứng cử viên tính độ dài trình tự ngắn cặp ứng cử viên • Bước 3: Chọn ngẫu nhiên cặp ứng cử viên có độ tương đồng cao ứng cử viên có độ dài trình tự dài để thực táitổhợp 3.4 Thuật toán GAMARG 3.4.1 Động nghiên cứu Do chiến lược đoạn đầu chung dài không dẫn đến số kiện táitổhợp cực tiểu, nên ý tưởng đặt kết hợp ARG4WG với tiêu chí tối ưu khác để giảm số kiện táitổhợp Đáng ý, kiểm thử giao tử (four-gamete test) ý tưởng then chốt dẫn đến nhiều thuật toán khác tốn tìm cận số kiện táitổhợp toán xâydựngđồthị ARG có xác số kiện táitổhợp nhỏ Do đó, chúng tơi đề xuất thuật tốn GAMARG kết hợp ràng buộc kiểm thử giao tử với chiến lược đoạn đầu chung dài ARG4WG để tối ưu hóa số kiện táitổhợp trình xâydựngđồthị ARG Các kết thực nghiệm tập liệu khác cho thấy GAMARG chạy với hàng nghìn trình tự với hàng chục nghìn snp đạt đến ARG với số kiện táitổhợp nhỏ 3.4.2 Thuật toán GAMARG Các phương pháp vét cạn hướng tới việc tìm điểm cắt táitổhợp tối ưu, tức là, số kiện táitổhợp để phá vỡ tất cặp vị trí khơng tương thích Tuy nhiên, việc quét tất khả để đưa phương án tối ưu không khả thi với tập liệu vừa lớnDo đó, chúng tơi đưa số quan sát q trình xâydựng ARG sử dụng kiểm thử giao tử, từ dẫn đến số mở rộng đề xuất áp dụng kiểm thử giao tử vào thuật toán Đặt FreqGametei,j = {freq00i,j, freq01i,j, freq10i,j, freq11i,j} tần số loại giao tử 00, 01, 10, 11 xuất vị trí i vị trí j Đặt ઠ kích thước cửa sổ trượt mà chúng tơi qt để tìm tất cặp vị trí khơng tương thích vùng Cụ thể, quét qua tất vị trí Với vị trí i (0 ≤ i < m), chúng tơi qt để tìm tất cặp vị trí khơng tương thích phạm vi [i, i+ ઠ] 21 Đặt Sx(i,j) trình tự có loại giao tử có tần số cặp vị trí khơng tương thích i j (0 ≤ i < m, j - i ≤ ઠ) Tức là, Sx(i,j) thỏa mãn điều kiện sau: 𝑓𝑟𝑒𝑞00!,! > 𝑎𝑛𝑑 𝑓𝑟𝑒𝑞01!,! > 𝑎𝑛𝑑 𝑓𝑟𝑒𝑞10!,! > 𝑎𝑛𝑑 𝑓𝑟𝑒𝑞11!,! > 𝑓𝑟𝑒𝑞00!,! = 𝑜𝑟 𝑓𝑟𝑒𝑞01!,! = 𝑜𝑟 𝑓𝑟𝑒𝑞10!,! = 𝑜𝑟 𝑓𝑟𝑒𝑞11!,! = Khi đó, ta thực táitổhợp trình tự Sx vị trí i j ta phá vỡ cặp vị trí không tương thích (i,j) Xuất phát từ quan sát đó, chúng tơi đơn giản hóa chiến lược kiểm tra giao tử cách xem xét cặp vị trí khơng tương thích có loại giao tử có tần số Giả định đảm bảo thuật toán ln phá vỡ cặp vị trí khơng tương thích thực táitổhợp cặp vị trí khơng tương thích i j Thuật toán GAMARG thời điểm t = Tập trình tự thời điểm t kí hiệu Dt (D1=D) Với Dt, danh sách cho kiện kết hợp, đột biến táitổhợpxâydựng sau: • Danh sách kết hợp C: Đối với cặp trình tự Sx Sy có đoạn đầu chung (Sx,Sy){d,l}, l = m (Sx,Sy){d,l} thêm vào danh sách kết hợp • Danh sách đột biến M: Với vị trí i (1 ≤ i ≤ m), Sx[i] = ∀𝑆! ∈ 𝐷! ∖ 𝑆! : 𝑆! 𝑖 ≠ Sx[i] = ∀𝑆! ∈ 𝐷! ∖ 𝑆! : 𝑆! 𝑖 ≠ 0, Sx[i] thêm vào danh sách đột biến • Danh sách giao tử G: Đối với cặp vị trí khơng tương thích (i,j) (0 ≤ i < m, j - i ≤ ઠ), tồn trình tự Sx chứa loại giao tử có tần số Sx(i,j) thêm vào danh sách giao tử • Danh sách đoạn đầu chung S: Với cặp trình tự Sx Sy có đoạn đầu chung (Sx,Sy){d,l}, < l < m (Sx,Sy){d,l} thêm vào danh sách đoạn đầu chung Khi kiện xảy ra, tập trình tự Dt+1 tạo từ tập trình tự Dt thời danh sách ứng cử viên cập nhật Thuật toán GAMARG Đầu vào: Một tập N trình tự nhị phân độ dài m Đầu ra: Một đồthị ARG chứa kiện kết hợp, đột biến, táitổhợp trình tự, trình tự trung gian sinh trình tự tổ tiên chung tìm thấy • Bước 1: Nếu danh sách kết hợp C không rỗng, thực tất kết hợp • Bước 2: Nếu danh sách đột biến M không rỗng, thực tất đột biến 22 sau chuyển sang Bước Nếu khơng có đột biến nào, chuyển sang Bước • Bước 3: Nếu danh sách giao tử G không rỗng, thực táitổhợp sau chuyển sang Bước • Bước 4: Nếu danh sách đoạn đầu chung S không rỗng, thực táitổhợp theo sau kiện kết hợp Chuyển đến Bước • Bước 5: Lặp lại Bước 1, Bước 2, Bước 3, Bước đạt đến tổ tiên chung Trong danh sách Giao tử G, trình tự ứng cử viên Sx(i, j) có khoảng cách ngắn từ vị trí i đến vị trí j, tức là, (j – i) có giá trị nhỏ Sx có thứ tự ưu tiên hàng đầu để thực táitổhợp Các ứng cử viên bước kết hợp, đột biến táitổhợp lấy ngẫu nhiên chúng đạt tiêu chuẩn đặt 3.5 Kết Các thực nghiệm liệu với kích thước khác cho thấy REARG giúp tìm ARG có số kiện táitổhợp so với ARG4WG với tập liệu vừa lớn Tuy nhiên, thuật tốn ARG4WG REARG khơng phù hợp với tập liệu nhỏ Thuật toán GAMARG tổng quát có kết tốt tất thực nghiệm GAMARG có khả xâydựng ARG có xác gần xác số kiện táitổhợp nhỏ Ngoài ra, thực nghiệm cho thấy thuật tốn Margarita khơng ổn định chạy với tập liệu kích thước trung bình trích xuất từ liệu 1kGP Các kết nghiên cứu chương công bố báo báo hội thảo quốc tế KSE năm 2017 (cơng trình khoa học số 2) báo cáo chấp nhận hội thảo quốc tế ICBBB năm 2019 (cơng trình khoa học số 3) Kết luận Xác định nguồn gốc ditruyền bệnh việc xác định gen alen nhạy cảm với bệnh mục tiêu then chốt nghiên cứu ditruyền học người Đồthịtáitổhợpditruyền đóng vai trò quan trọng nghiên cứu ditruyền quần thể, đa dạng hệ gen đa hình ditruyền SNP Tuy nhiên, tốn xâydựngđồthị ARG tốn NP-khó đòi hỏi tính tốn khối lượng lớn nên ứngdụng vào thực tế hạn chế Thơng qua việc nghiên cứu phương pháp xâydựngđồthị ARG, tập trung theo hướng tiếp cận xâydựngđồthị ARG có số kiện táitổhợp thuật 23 tốn Margarita, chúng tơi đề xuất thuật toán ARG4WG xâydựngđồthị ARG hợp lý choliệulớn hàng nghìn mẫu tồn hệ gen Bằng cách tiếp cận vấn đề theo cách Margarita, cải tiến sử dụng đoạn đầu chung dài cho bước tính tốn kiện táitổ hợp, thuật tốn ARG4WG đề xuất chođồthị ARG có kiện táitổhợp Margarita Đồng thời, chiến lược giúp đảm bảo số nút đồthị ổn định sau lần thực bước táitổhợp mà làm giảm đáng kể thời gian tìm kiếm đoạn chung dài trình xâydựngđồthị ARG Kết thực nghiệm cho thấy thuật toán ARG4WG nhanh hàng trăm đến hàng nghìn lần thuật tốn Margarita Đặc biệt, ARG4WG chạy với hàng nghìn mẫu toàn nhiễm sắc thể lần chạy khoảng thời gian hợp lý thông qua xử lý đa luồng Chúng thực ứngdụng thuật toán đề xuất vào toán thực tế xác định tương quan toàn nhiễm sắc thể tập liệulớn Cụ thể, thử nghiệm ứngdụng ARG4WG tốn tìm vùng gen liên quan đến bệnh sốt rét Châu Phi 5560 trình tự độ dài tồn nhiễm sắc thể 11 Kết vùng tín hiệu bệnh sốt rét tìm trùng với kết phân tích có Các kết cho thấy khả ứngdụng thuật toán ARG4WG vào toán thực tế liệulớn Luận án đề xuất thuật toán cải tiến REARG GAMARG nhằm tối ưu thêm số kiện táitổhợp q trình xâydựngđồthị ARG Thuật tốn REARG giúp trình xâydựng ARG khu trú vào ARG có số kiện táitổhợp nhỏ nhanh ARG4WG hữu hạn số lần chạy thuật toán tập liệu vừa lớn Tuy nhiên, GAMARG tổng quát GAMARG có khả xâydựng ARG có xác gần xác số kiện táitổhợp nhỏ Trong thời gian tới, việc xác định tham số δ GAMARG cần thực cách hệ thống Ý tưởng sử dụng thuật toán tốn tìm khối haplotype (haplotype blocks) áp dụng Bên cạnh đó, chúng tơi tiếp tục nghiên cứu triển khai ứngdụng thuật toán ARG4WG, GAMARG vào toán thực tế khác tốn tìm đa hình ditruyền đơn nucleotide, xử lý liệu bị khuyết, … 24 ... đồ thị tái tổ hợp di truyền, loại mạng phát sinh lồi mơ hình hóa quan hệ di truyền trình tự hệ gen quan sát quần thể 1.2 Xây dựng đồ thị tái tổ hợp di truyền 1.2.1 Sự kiện tái tổ hợp Tái tổ hợp. .. tái tổ hợp khác Đối với loài người, trao đổi chéo kiểu tái tổ hợp phổ biến xảy trình giảm phân 1.2.2 Đồ thị tái tổ hợp di truyền Đồ thị tái tổ hợp tổ tiên đóng vai trò quan trọng nghiên cứu di. .. thường xây dựng đồ thị ARG không đầy đủ, tức đồ thị ARG biểu di n tập thành phần kiện tái tổ hợp 1.2.2 Bài toán xây dựng đồ thị ARG Bài toán xây dựng đồ thị ARG chứng minh toán NP-hard Do số kiện tái