1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng đồ thị tái tổ hợp di truyền và ứng dụng cho dữ liệu lớn (tt)

24 106 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 24
Dung lượng 2,65 MB

Nội dung

MỞ ĐẦU  Tính  cấp  thiết  của  luận  án   Những thành tựu gần công nghệ giải trình tự gen hệ (Next Generation Sequencing - NGS) giảm đáng kể chi phí giải trình tự toàn hệ gen dẫn đến gia tăng nhanh chóng số lượng DNA / RNA chuỗi protein sẵn sàng cho phân tích Những liệu đại diện cho nguồn thông tin hữu ích đặt vấn đề tính toán nghiên cứu tồn hệ gen, điển hình nghiên cứu phân bố biến thể di truyền quần thể hay xác định vùng gen có tác động có ý nghĩa mặt sinh học đặc điểm quan trọng mà ta quan tâm, … Để giải tốn đòi hỏi nhiều cơng cụ mới, đáng ý số đồ thị tái tổ hợp di truyền (Ancestral Recombination Graph - ARG), công cụ quan trọng nghiên cứu di truyền quần thể tốn liên quan đến tìm đa dạng hệ gen Với tập chuỗi nhiễm sắc thể, đồ thị ARG đầy đủ mô tả cách đầy đủ lịch sử di truyền, mối quan hệ chúng với với tổ tiên chung thông qua ba kiện: đột biến, tái tổ hợp kết hợp Trong trình xây dựng đồ thị ARG, kiện tái tổ hợp kiện đột biến kiện cốt lõi ảnh hưởng tới đồ thị kết quả, từ ảnh hưởng trực tiếp tới ứng dụng liên quan tìm vùng gen liên quan đến bệnh, đột biến gây bệnh, đặc trưng quần thể quan sát, … Tuy nhiên, số kiện tái tổ hợp kiện đột biến vị trí thực xảy trình tiến hóa khơng thể xác định Do đó, khơng thể biết ARG thực mà suy diễn chúng từ liệu với giả định tối ưu số kiện tái tổ hợp kiện đột biến nhằm có ARG với kiện sát với thực tế Tuy nhiên, phương pháp xây dựng đồ thị ARG gặp hạn chế sau: - Các phương pháp xây dựng đồ thị ARG giới hạn với tập liệu vừa nhỏ hàng trăm trình tự - Các phương pháp xây dựng đồ thị ARG có xác số kiện tái tổ hợp thời tốn nhiều thời gian khả thi với tập liệu nhỏ vài chục trình tự  Mục  tiêu  của  luận  án   1) Nghiên cứu phương pháp xây dựng đồ thị ARG tại, từ đề xuất thuật tốn gần xây dựng đồ thị ARG cho hàng nghìn trình tự, chí hàng nghìn hệ gen nhằm ứng dụng hiệu vào toán thực tế tập liệu lớn 2) Đề xuất thuật toán xây dựng đồ thị ARG với hàm mục tiêu tối ưu số kiện tái tổ hợp trình xây dựng đồ thị ARG việc kết hợp linh hoạt thuật toán đề xuất (1) với số đặc trưng liệu kĩ thuật tối ưu sử dụng phương pháp tìm cận tái tổ hợp phương pháp xây dựng đồ thị ARG có số kiện tái tổ hợp nhỏ có  Các  đóng  góp  của  luận  án   Trong luận án này, dựa thực nghiệm, đề xuất số cải tiến thuật toán xây dựng đồ thị ARG để giảm độ phức tạp tính tốn q trình xây dựng đồ thị tăng khả xử lý liệu lớn hàng nghìn trình tự phạm vi tồn hệ gen người Chúng tơi đề xuất sử dụng đoạn đầu chung dài trình tự để xác định kiện tái tổ hợp Chiến lược giúp đảm bảo số nút đồ thị ổn định sau lần thực bước tái tổ hợp làm giảm đáng kể số kiện tái tổ hợp thời gian để xây dựng đồ thị ARG Thực nghiệm ứng dụng tốn tìm vùng gen liên quan đến bệnh sốt rét Châu Phi gồm 5560 trình tự toàn nhiễm sắc thể 11 nhấn mạnh thêm hiệu trội thuật toán đề xuất so với thuật toán Luận án đề xuất thuật toán cải tiến REARG GAMARG nhằm tối ưu thêm số kiện tái tổ hợp q trình xây dựng đồ thị ARG Thuật tốn REARG giúp trình xây dựng ARG khu trú vào ARG có số kiện tái tổ hợp nhỏ nhanh ARG4WG hữu hạn số lần chạy thuật toán tập liệu vừa lớn Tuy nhiên, GAMARG tổng quát GAMARG có khả xây dựng ARG có xác gần xác số kiện tái tổ hợp nhỏ Các kết luận án công bố 01 báo tạp chí SCI quốc tế 02 báo cáo hội nghị quốc tế có phản biện  Bố  cục  của  luận  án   Ngoài phần kết luận, luận án tổ chức sau Chương giới thiệu khái quát liệu hệ gen người, cụ thể cấu trúc gen người, nguyên nhân dẫn tới biến thể di truyền người loại biến thể di truyền phổ biến Chúng giới thiệu sơ lược loại mạng phát sinh lồi, cơng cụ quan trọng để biểu diễn mối quan hệ tiến hóa nghiên cứu di truyền quần thể Sau phần giới thiệu toán xây dựng đồ thị ARG, giả định sử dụng trình xây dựng đồ thị ARG Phần cuối chương trình bày cách tiếp cận giải toán xây dựng đồ thị ARG Chương đề xuất thuật toán xây dựng đồ thị ARG cho liệu lớn hàng nghìn mẫu độ dài tồn hệ gen Để làm điều đó, chúng tơi đưa nhược điểm cách tiếp cận có, đặc biệt hạn chế thuật toán Margarita xây dựng đồ thị ARG hợp lý đề xuất Minichiello Durbin, từ đưa thuật tốn đề xuất nhằm khắc phục nhược điểm Các kết thực nghiệm phần sau chương chứng tỏ hiệu thuật toán đề xuất Phần cuối chương giới thiệu ứng dụng thuật toán đề xuất vào tốn tìm vùng gen liên quan đến bệnh sốt rét Châu Phi tập liệu lớn gồm 5560 trình tự tồn nhiễm sắc thể 11 Các kết phần khẳng định thêm hiệu quả, khả ứng dụng thuật toán đề xuất toán thực tế liệu lớn Chương luận án giới thiệu phương pháp nhằm cực tiểu hóa số kiện tái tổ hợp trình xây dựng đồ thị ARG Cụ thể, đề xuất hai phương pháp: (1) kết hợp số đặc trưng liệu (2) kết hợp kĩ thuật tối ưu vào việc lựa chọn thực kiện tái tổ hợp theo thuật toán đề xuất chương Các thực nghiệm liệu khác chứng tỏ hiệu phương pháp đề xuất Chương BÀI TOÁN XÂY DỰNG ĐỒ THỊ TÁI TỔ HỢP DI TRUYỀN 1.1 Giới  thiệu  chung   1.1.1 Dữ liệu hệ gen người Giới thiệu cấu trúc gen người, nguyên nhân dẫn tới biến thể di truyền người loại biến thể di truyền phổ biến Hệ gen người gồm 23 cặp nhiễm sắc thể, có khoảng tỉ phân tử DNA, khoảng 20.000 đến 25.000 gen Hầu hết gen người nhau, có khoảng 0.1% vị trí mà nucleotit khác người gọi biến thể di truyền Đột biến tái tổ hợp nguyên nhân biến thể di truyền Đột biến nguồn gốc biến thể mới, xảy có lỗi q trình chép DNA mà khơng sửa chữa enzyme sửa chữa DNA Trong tái tổ hợp di truyền nguyên nhân biến thể di truyền hệ Tái tổ hợp góp phần vào biến đổi gen cách xáo trộn DNA cha mẹ tạo tổ hợp biến thể Biến thể đa hình đơn nucleotide (SNP) loại biến thể di truyền phổ biến hệ gen người có vai trò đặc biệt quan trọng nghiên cứu tương quan toàn nhiễm sắc thể 1.1.2 Mạng phát sinh loài Với đa dạng liệu sinh học có ngày đặt nhu cầu phát triển mạng phát sinh lồi (phylogenetic network), thay dùng phân loài trước đây, để biểu diễn mối quan hệ liệu khác Mạng phát sinh lồi đồ thị sử dụng để biểu diễn mối quan hệ tiến hóa (bằng cạnh) tập hợp nhãn (taxa) (là nút lá) Có khoảng 20 loại mạng phát sinh lồi khác Mỗi mạng có vai trò khác nhau: phân lồi mơ tả mối quan hệ lồi gen; mạng phân tách mơ tả khác phát sinh loài; kiện lai ghép hay tái tổ hợp mô hình hóa mạng lai ghép hay mạng tái tổ hợp, … Trong đó, kiện tái tổ hợp kiện quan trọng thu hút nhiều quan tâm nhà nghiên cứu, đặc biệt di truyền quần thể Do tái tổ hợp diễn tất hệ, gen mà cá thể thừa hưởng pha trộn phản ánh DNA nhiều cá thể khác qua hệ tổ tiên Sự tồn gen tổ hợp phong phú thúc đẩy nghiên cứu biến đổi gen quần thể để khám phá mối quan hệ nội dung gen đặc điểm quan tâm có ảnh hưởng từ yếu tố di truyền Việc phân tích xác định kiện tái tổ hợp giúp cho trình xác định đa dạng di truyền, tìm hiểu nguyên nhân dẫn đến bệnh đa yếu tố bệnh tiểu đường, ung thư, … tảng nghiên cứu thuốc chữa bệnh Trong luận án này, tập trung nghiên cứu đồ thị tái tổ hợp di truyền, loại mạng phát sinh lồi mơ hình hóa quan hệ di truyền trình tự hệ gen quan sát quần thể 1.2 Xây dựng đồ thị tái tổ hợp di truyền 1.2.1 Sự kiện tái tổ hợp Tái tổ hợp thành phần trình truyền DNA từ trình tự sang trình tự khác nhiễm sắc thể truyền từ hệ sang hệ khác Có kiểu tái tổ hợp phổ biến trao đổi chéo (crossing over) chuyển đổi gen (gene conversion) Mỗi loài sinh vật có chế tái tổ hợp khác Đối với loài người, trao đổi chéo kiểu tái tổ hợp phổ biến xảy trình giảm phân 1.2.2 Đồ thị tái tổ hợp di truyền Đồ thị tái tổ hợp tổ tiên đóng vai trò quan trọng nghiên cứu di truyền quần thể tốn liên quan đến tìm đa dạng hệ gen Bài toán xây dựng đồ thị ARG gắn với việc tái cấu trúc lịch sử tiến hóa trình tự quan sát quần thể trình tự tạo đột biến tái tổ hợp Do đó, trình tự hiểu trình tự DNA đơn Đối với quần thể người (và loài lưỡng bội nói chung), trình tự DNA người coi độc lập trình xây dựng đồ thị ARG 1.2.2.1 Mơ hình vị trí vơ hạn Trong chiều dài lịch sử tiến hóa, vị trí tập trình tự quan sát, kiện đột biến xảy nhiều lần (đột biến ngược đột biến lặp lại) Quá trình xây dựng đồ thị ARG, với kiện tái tổ hợp trọng tâm nghiên cứu, gắn với giả định có nhiều kiện đột biến xảy vị trí tồn lịch sử tiến hóa, khơng cho phép đột biến ngược lặp lại Mơ hình đột biến gọi mơ hình vị trí vơ hạn (infinite-sites model), mơ tả tiến hóa chuỗi DNA dài với tỷ lệ đột biến thấp vị trí 1.2.2.2 Cấu trúc đồ thị ARG Với tập chuỗi nhiễm sắc thể, đồ thị ARG đầy đủ mô tả cách đầy đủ lịch sử di truyền, mối quan hệ chúng với với tổ tiên chung thông qua ba kiện: đột biến, tái tổ hợp kết hợp Có thành phần cần thiết để xác định đồ thị ARG tổng quát cho tập trình tự nhị phân D cho trước: đồ thị sở, nhãn cạnh, nhãn nút, trình tự quan sát Sự kiện kết hợp Đột biến vị trí thứ Sự kiện tái tổ hợp Hình 1.1: Một ví dụ đồ thị ARG với ký hiệu: ■: trạng thái di truyền gốc, ◘: trạng thái di truyền đột biến, □: trạng thái khơng di truyền Hình 1.1 mơ tả ví dụ đồ thị tái tổ hợp tổ tiên Đồ thị hiển thị rõ thành phần di truyền không di truyền tập chuỗi trình tự Xét ngược chiều thời gian, kiện kết hợp xuất hai trình tự kết hợp với thành trình tự; kiện đột biến xuất vị trí alen trình tự bị thay đổi kiện tái tổ hợp xuất trình tự bị tách thành hai trình tự con, trình tự mang thơng tin di truyền phía trước vị trí cắt trình tự lại mang thơng tin di truyền phía sau vị trí cắt Điểm xảy kiện tái tổ hợp gọi điểm cắt tái tổ hợp (breakpoint) Với đồ thị ARG đầy đủ mô tả Hình 1.1, vị trí c đồ thị có thành phần (cây biên - marginal tree) T(c) mô tả lịch sử cá thể cho vị trí Từ tập trình tự ban đầu, với trình tự ta lần theo cạnh đồ thị tái tổ hợp di truyền cho vị trí c; kiện tái tổ hợp xuất hiện, ta theo đường bên trái vị trí tái tổ hợp xảy sau c theo đường bên phải trường hợp ngược lại Tập tất cạnh định nghĩa T(c) Hình 1.2 minh họa thành phần cho đồ thị ARG Hình 1.1 (1) Cây thành phần cho marker (2) Cây thành phần cho marker (3) Cây thành phần cho marker (4) Cây thành phần cho marker Hình 1.2: Cây thành phần đồ thị ARG Hình 1.1 Bên cạnh thuật toán xây dựng đồ thị ARG đầy đủ, nhiều thuật toán, đặc biệt theo cách tiếp cận thống kê thường xây dựng đồ thị ARG không đầy đủ, tức đồ thị ARG biểu diễn tập thành phần kiện tái tổ hợp 1.2.2 Bài toán xây dựng đồ thị ARG Bài toán xây dựng đồ thị ARG chứng minh toán NP-hard Do số kiện tái tổ hợp kiện đột biến vị trí thực xảy chúng q trình tiến hóa khơng thể xác định Do đó, hướng tiếp cận tốn tập trung vào giả định tối ưu số kiện tái tổ hợp kiện đột biến Dưới giả định vị trí vơ hạn, tốn xây dựng đồ thị ARG phát biểu sau: Cho tập D gồm n trình tự nhị phân, trình tự có độ dài m, tìm ARG hiển thị D với số kiện tái tổ hợp Nhiều nghiên cứu xây dựng đồ thị ARG đề xuất với mơ hình tái tổ hợp khác phù hợp với quần thể quan sát mục đích nghiên cứu khác Trong tốn xây dựng đồ thị ARG cho quần thể vi khuẩn, kiện tái tổ hợp xem xét mơ hình hóa kiện chuyển đổi gen Trong nghiên cứu di truyền quần thể người, kiện tái tổ hợp mơ hình hóa q trình xây dựng đồ thị ARG hầu hết kiện trao đổi chéo Trong nhiều thuật toán, đặc biệt thuật toán tổ hợp tập trung vào đặc điểm cấu trúc đồ thị, kiện chuyển đổi gen biểu diễn qua kiện trao đổi chéo liên tiếp Trong khuôn khổ luận án này, chúng tơi tập trung vào thuật tốn tổ hợp xây dựng đồ thị ARG đầy đủ có số kiện tái tổ hợp giả định mơ hình vị trí vơ hạn Sự kiện tái tổ hợp đồ thị ARG đề cập đến kiện trao đổi chéo sử dụng với ý nghĩa suốt phần luận án Dữ liệu trình tự xét đến toán liệu haplotype biểu diễn dạng nhị phân Dữ liệu vào: Dữ liệu đầu vào tập trình tự nhị phân độ dài m Các trình tự có độ dài Tập trình tự ký hiệu D = {S1, …, SN}, N số lượng trình tự, Sx trình tự tập D, ≤ x ≤ N Sx có độ dài m, Sx[i] biểu thị giá trị Sx vị trí i, Sx[i] có giá trị 1, ≤ i ≤ m Bài tốn: Tìm đồ thị ARG mơ tả mối quan hệ trình tự tập liệu vào thông qua kiện: đột biến, kết hợp tái tổ hợp, với giả định có nhiều đột biến xảy vị trí Do có nhiều phương pháp khác cho kết với độ hợp lý thời gian thực khác nhau, cần đề xuất phương pháp cho kết tốt dựa tiêu chí số kiện tái tổ hợp nhất, khả thi với liệu lớn hàng trăm đến hàng nghìn trình tự độ dài hệ gen, đồ thịứng dụng tốt tốn thực tế có thời gian thực khả thi Dữ liệu đầu ra: Đồ thị ARG chứa thông tin quan hệ dạng kiện bản: đột biến, kết hợp tái tổ hợp trình tự đầu vào (nút lá) với trình tự trung gian sinh trình xây dựng đồ thị (nút cây) với trình tự tổ tiên chung (nút gốc) 1.3 Các phương pháp xây dựng đồ thị ARG Có hướng nghiên cứu xây dựng đồ thị ARG: (1) Xây dựng đồ thị ARG tối thiểu (minimal ARG), tức đồ thị có xác số kiện tái tổ hợp nhỏ nhất, (2) xây dựng đồ thị ARG “hợp lý” (plausible ARG), tức thuật tốn khơng cố gắng xây dựng ARG có xác số kiện tái tổ hợp mà hướng đến việc xây dựng đồ thị ARG với số kiện tái tổ hợp sinh phụ thuộc vào phương pháp mơ hình hóa kiện tái tổ hợp khác 1.3.1 Các phương pháp xây dựng đồ thị ARG tối thiểu Các cách tiếp cận theo hướng nghiên cứu hầu hết dựa phương pháp tìm kiếm vét cạn đồ thị để cực tiểu hóa số kiện tái tổ hợp nhằm đạt tới ARG tối thiểu Trong đó, khái niệm cặp vị trí khơng tương thích sử dụng hầu hết thuật toán để xác định kiện tái tổ hợp: Cho tập D gồm nhiều trình tự, cặp vị trí gọi khơng tương thích tồn trình tự D chứa loại giao tử (0,0), (0,1), (1,0), (1,1) cho cặp vị trí Dưới giả định vị trí vơ hạn (có nhiều đột biến xảy vị trí), cách để có cặp vị trí khơng tương thích kiện tái tổ hợp xảy lịch sử vị trí Khái niệm cặp vị trí khơng tương thích yếu tố dẫn tới nhiều thuật tốn tìm cận tái tổ hợp thuật toán xây dựng đồ thị ARG tối thiểu Các phương pháp vét cạn hướng tới việc tìm điểm cắt tái tổ hợp tối ưu, tức là, số kiện tái tổ hợp để phá vỡ tất vị trí khơng tương thích Song cộng xây dựng đồ thị ARG cách duyệt qua tất qua vị trí Các kiện tái tổ hợp cần thiết để chuyển từ tất vị trí sang tất vị trí tính tốn Các đồ thị ARG tối thiểu sau xây dựng cách lần theo vị trí mà có số kiện tái tổ hợp Thay tính tốn từ trái qua phải dọc theo chuỗi trình tự, Lyngsø cộng sử dụng phương pháp nhánh cận, xây dựng đồ thị ARG ngược chiều thời gian, thực kiện đột biến, kết hợp tái tổ hợp đến tổ tiên chung tối ưu Tìm kiếm phân nhánh thực thi để khám phá tất chuỗi kiện có thể, cố gắng tìm chuỗi kiện với số kiện tái tổ hợp cho trước Nếu khơng tìm được, số kiện tái tổ hợp cho phép tăng thêm đồ thị ARG tìm thấy Gusfield cộng đề xuất thuật toán xây dựng trường hợp đặc biệt đồ thị ARG có - đồ thị ARG với ràng buộc tất chu trình tái tổ hợp khơng chung nút với Khi đó, đồ thị ARG có nốt sùi (galled-tree) chu trình tái tổ hợp nốt sùi (gall) thỏa mãn không nốt sùi chung nút với nốt sùi Wu cộng đưa toán xây dựng đồ thị ARG tốn tìm số trình tự trung gian tối thiểu cần để xây dựng ARG Gần đây, Cámara cộng đề xuất kiểu đồ thị tổng hợp gọi topological ARG Tuy nhiên, thuật toán xây dựng đồ thị ARG tối thiểu hạn chế áp dụng với tập liệu nhỏ, đến 100 trình tự ngắn, chưa khả thi với liệu hệ gen người 1.3.2 Các phương pháp xây dựng đồ thị ARG hợp lý Các phương pháp tìm ARG tối thiểu áp dụng cho liệu nhỏ độ phức tạp tính toán lớn Để tương tác với liệu lớn hơn, phương pháp xây dựng đồ thị ARG hợp lý đề xuất Theo hướng nghiên cứu này, phương pháp xây dựng đồ thị ARG thường theo cách tiếp cận dựa kinh nghiệm dựa thống kê Chương trình SHRUB xây dựng thuật tốn tính cận tái tổ hợp Rub đồ thị ARG cho tập liệu D sử dụng xác Rub kiện tái tổ hợp cách xây dựng đồ thị ARG từ nút Các phép biến đổi kết hợp/thay trình tự đầu vào tiến hành song song tương ứng với bước xây dựng đồ thị ARG đạt tới nút chung (chỉ lại trình tự qua phép biến đổi) Dựa ý tưởng từ thuật tốn tìm ARG tối thiểu Lyngso cộng sự, Minichiello Durbin đề xuất chiến lược để xác định kiện tái tổ hợp, kiện tái tổ hợp thực cặp trình tự có đoạn chung dài Thuật toán chạy với tập liệu tối đa nghìn trình tự có độ dài hàng trăm snp Ý tưởng độ dài đoạn chung cá thể khai thác thuật toán xây dựng đồ thị ARG hợp lý Parida cộng Một cách tiếp cận khác gần lấy mẫu (sampling) ARG từ xác suất hậu nghiệm mơ hình xấp xỉ q trình kết hợp tái tổ hợp (coalescent-withrecombination – CwR) Các thuật toán cố gắng tích hợp q trình kết hợp tái tổ hợp vào mơ hình học máy để xây dựng tập hợp phả hệ Các phương pháp theo cách tiếp cận thống kê hướng tiếp cận nhiều nhà nghiên cứu phát triển gần Tuy nhiên, phương pháp không suy luận ARG đầy đủ mà tập biên với tập kiện tái tổ hợp tương ứng Các phương pháp thường dùng việc mô liệu Hơn nữa, cách tiếp cận phức tạp, đòi hỏi chi phí tính tốn lớn nên chưa có ứng dụng thực tế tập liệu lớn Chương THUẬT TOÁN ARG4WG XÂY DỰNG ĐỒ THỊ TÁI TỔ HỢP DI TRUYỀN CHO DỮ LIỆU LỚN 2.1 Giới thiệu Qua khảo sát phương pháp tìm ARG hợp lý, nhận thấy cách tiếp cận dựa kinh nghiệm Minichiello Durbin cài đặt chương trình Margarita khả thi với tập liệu nghìn trình tự có độ dài hàng trăm SNP có ứng dụng vào số toán thực tế Tuy nhiên, thuật toán bị giới hạn với liệu lớn chiến lược thực kiện tái tổ hợp trình xây dựng đồ thị ARG Để thực bước tái tổ hợp, Margarita tìm cặp trình tự có đoạn giống liên tục dài (longest shared tract) thực tái tổ hợp hai đầu đoạn chung (xem Hình 2.1) Do đó, đoạn chung tìm thấy nằm bên trình tự, Margarita phải thực kiện tái tổ hợp, sinh trình tự từ trình tự để có trình tự chứa đoạn chung để thực kết hợp với trình tự lại Chiến lược gây bùng nổ số nút đồ thị số lượng kiện tái tổ hợp tăng Hình 2.1: Vấn đề việc thực kiện tái tổ hợp Margarita Hai trình tự S1 S2 với dải chung dài hai trình tự biểu diễn màu đen Thuật toán thực cặp tái tổ hợp R1 R2 trình tự S1 để sinh trình tự S11, S12 S13 Sau đó, S13 kết hợp với S2 Vì vậy, đoạn chung tìm thấy bên trình tự, thuật toán phải thực kiện tái tổ hợp trình tự cặp trình tự ban đầu biến thành trình tự 10 Luận án đề xuất thuật toán ARG4WG xây dựng đồ thị ARG hợpcho liệu lớn hàng nghìn mẫu độ dài toàn nhiễm sắc thể Cùng cách tiếp cận Margarita, nhiên, thực tái tổ hợp theo chiến lược tìm đoạn đầu chung dài Các chứng minh, thực nghiệm ứng dụng liệu khác chứng minh hiệu thuật tốn đề xuất 2.2 Chiến lược tìm đoạn đầu chung dài Cho trước tập trình tự D trình tự s, ta chứng minh việc lấy lặp lại đoạn chung dài đầu s mà kết hợp với trình tự D cho số kiện tái tổ hợp Ta lấy phía bên trái phía bên phải Từ chiến lược lấy đoạn chung dài trình tự luôn cho ta số kiện tái tổ hợp Mệnh đề 1: Cho tập trình tự D, trình tự s có độ dài m Số cực tiểu kiện tái tổ hợp, f ( s, D ) , để tách s thành trình tự mà kết hợp với trình tự D đạt cách lặp lại việc lấy đoạn dài từ phía trái s Chúng ta có cực tiểu số kiện tái tổ hợp cách lặp lại việc lấy đoạn chung dài từ phía bên trái s Tương tự với trường hợp lấy từ phía bên phải điều không không chọn đoạn chung dài từ hai phía s Hình 2.1 mơ tả giải pháp tối ưu mà cần kiện tái tổ hợp (xem Kịch A) Tuy nhiên, ta chọn đoạn chung dài khơng phải từ phía s (ở chọn đoạn chung dài s) ta phải cần đến kiện tái tổ hợp (Kịch B) Hình 2.2: Phân tách s cách chọn đoạn chung dài s để kết hợp với trình tự D khơng dẫn tới số cực tiểu kiện tái tổ hợp 11 Từ đó, chúng tơi định nghĩa đoạn đầu chung dài (longest shared end) đoạn chứa thông tin di truyền giống liên tục dài tính từ đầu trình tự 2.3 Thuật toán ARG4WG ARG4WG xây dựng ngược chiều thời gian, xây dựng ARG từ tập trình tự (haplotypes) đạt tới tổ tiên chung ARG4WG gồm bước chính: Bước kết hợp, bước đột biến bước tái tổ hợp Đầu tiên, thuật tốn tìm trình tự đồng để thực kết hợp Bước giúp giảm số lượng trình tự tới tổ tiên chung Trong bước đột biến, thuật tốn tìm vị trí mà có trình tự có giá trị khác với tất trình tự lại Kết bước sinh trình tự đồng để thực bước kết hợp Khi không thực kiện kết hợp hay đột biến, thuật toán chuyển sang bước tái tổ hợp Để xác định điểm cắt tái tổ hợp, thuật tốn chọn cặp trình tự (S1, S2) có đoạn chung dài từ đầu Giả sử S1 chứa vật liệu di truyền phần chung S2, thuật toán thực kiện tái tổ hợp việc tách S1 thành trình tự Trình tự chứa đoạn chung kết hợp với S2 sau (xem Hình 2.3) Đặt “*” trạng thái không di truyền nút đồ thị ARG ĐẦU VÀO: Tập liệu D = {S1, …, SN} trình tự (haplotype), Sx có m marker, Sx[i] có giá trị 1, ≤ x ≤ N, ≤ i ≤ m ĐẦU RA: đồ thị ARG mô tả mối quan hệ (các kiện kết hợp, đột biến, tái tổ hợp) nút (các trình tự) đồ thị đến tổ tiên chung SSCA Một trình tự S1 coi dài trình tự S2 (L(S1) > L(S2)) S1 chứa nhiều vật liệu di truyền S2 Ta định nghĩa (L(S1) > L(S2))[a,b] S1 dài S2 khoảng [a,b] Một tốn tử bù, ¬, !ược định nghĩa để S[i] = ¬S[i] = ngược lại, * phần bù Với cặp (S1, S2), đặt (S1, S2){d} !oạn đầu chung chúng Cụ thể, (S1, S2){d=left} phần chung đầu bên trái (S1, S2); (S1, S2){d=right} phần chung đầu bên phải (S1, S2) Chúng định nghĩa S1[i] khớp với S2[i] trình tự có trạng thái trạng thái trình tự * 12 Hình 2.3: Sự kiện tái tổ hợp biểu thị thuật tốn ARG4WG (a) Xét trình tự S1 S2, đoạn chung đầu trình tự từ phía bên trái (hình lượn sóng) từ phía bên phải (màu đen) xác định (b) Với tập trình tự S1, S2 S3, đoạn chung đầu cặp tính tốn (hình lượn sóng) đoạn đầu chung dài xác định mô tả màu đen (c) Một kiện tái tổ hợp thực trình tự S1 để sinh trình tự S11 S12 S12 chứa đoạn đầu chung dài sau kết hợp với S2 Do đó, cần thực kiện tái tổ hợp số trình tự khơng bị tăng lên q trình xây dựng đồ thị ARG 13 Chúng tơi định nghĩa cặp có đoạn đầu chung cực đại (S1,S2){d,l} với độ dài đoạn chung l (0 < l ≤ m) S1 S2 thỏa mãn điều kiện sau: Nếu d = left S1[i] khớp với S2[i] với ≤ i ≤ l l = m S1[l+1] không giống S2[l+1] Nếu d = right S1[i] khớp với S2[i] với m-l < i ≤ m l = m S1[m-l] không giống S2[m-l] Vùng giống phải có vị trí i mà S1[i] = S2[i] ≠ * Điều kiện thứ xác định trình tự đồng đoạn đầu chung dài chúng Điều kiện thứ nhấn mạnh đoạn đầu chung trình tự có chung vị trí mang vật liệu di truyền Điều làm giảm số nhánh thừa trình xây dựng đồ thị ARG Xét cặp trình tự (S1, S2) (khơng đồng nhất) có đoạn đầu chung cực đại từ phía bên trái từ phía bên phải tương ứng lL lR Nếu đoạn đầu chung cực đại từ phía bên phải chứa nhiều phần vật liệu di truyền chung đoạn đầu chung cực đại từ phía bên trái lR xác định đoạn đầu chung dài cặp trình tự (S1, S2) Thuật toán thời gian t = Tập trình tự thời gian t ký hiệu Dt (D1 = D) Với Dt xây dựng danh sách ứng cử viên cho kiện kết hợp, đột biến tái tổ hợp sau: • Danh sách kết hợp C: Với cặp có đoạn đầu chung dài (S1,S2){d,l}, l = m, ta cho cặp vào danh sách kết hợp • Danh sách đột biến M: Với vị trí i (1 ≤ i ≤ m), tồn trình tự S1, với trình tự S2 Dt╲{S1} ta có S2[i] = ¬S1[i] S1[i] cho vào danh sách đột biến • Danh sách tái tổ hợp R: Với cặp có đoạn đầu chung dài (S1,S2){d,l}, < l < m, (S1,S2){d,l} cho vào danh sách tái tổ hợp Khi ba kiện xuất hiện, tập trình tự Dt+1 tạo từ tập trình tự thời Dt danh sách ứng cử viên cập nhật BEGIN t = 1; Dt = D; Gán danh sách kết hợp C = {tất cặp (Sx,Sy){d,l} (1 ≤ x, y ≤ N) có l = m}; Gán danh sách đột biến M = {tất trình tự chứa vị trí đột biến đơn}; Gán danh sách tái tổ hợp R = {tất cặp (Sx,Sy){d,l} (1 ≤ x, y ≤ N) có < l < m }; while chưa đạt tới tổ tiên chung if (danh sách kết hợp C không rỗng) then Lấy ngẫu nhiên cặp trình tự có đoạn đầu chung (S1,S2); Thực kết hợp sau: Gán S’ = S1 L(S1) > L(S2); ng"ợc l$i S’ = S2; 14 Dt+1 = (Dt\{S1,S2}) ∪ {S’}; Cập nhật danh sách C, M, R; else if (danh sách !ột biến M khơng rỗng) then Lấy ngẫu nhiên trình tự S với đột biến vị trí i; Thực kiện đột biến sau: Dt+1 = (Dt\{S}) ∪ {S’} với S’[i] = ¬S[i] S’[j] = S[j] với j ≠ i ≤ i,j ≤ m Cập nhật danh sách C, M, R; else Lấy cặp trình tự có đoạn đầu chung dài (S1,S2){d,l} từ danh sách tái tổ hợp; Thực tái tổ hợp sau: if d = left then // !oạn đầu chung dài (S1, S2) từ đầu phía bên trái Gán SR = S1 (L(S1) < L(S2))[1,l]; ng"ợc l$i SR = S2; SR1[i] = SR[i] với ≤ i ≤ l; SR1[j] = * với l < j ≤ m SR2[i] = * với ≤ i ≤ l; SR2[j] = SR[j] với l < j ≤ m else //d = right Gán SR = S1 (L(S1) < L(S2))[m-l+1,m]; ng"ợc l$i SR = S2; SR1[i] = * với ≤ i ≤ m-l; SR1[j] = SR[j] với m-l < j ≤ m SR2[i] = SR[i] với ≤ i ≤ m-l; SR2[j] = * với m-l < j ≤ m endif Dt+1 = (Dt\{SR}) ∪ {SR1,SR2}; Cập nhật danh sách C, M, R; endif endif endwhile END; Thuật toán 2.1: Thuật toán ARG4WG xây dựng đồ thị ARG từ tập trình tự D cho trước Như vậy, kiện kết hợp làm giảm số trình tự Sự kiện đột biến xuất vị trí đơn Một kiện tái tổ hợp thay trình tự trình tự có vật liệu di truyền Chính vậy, ARG4WG ln đạt tới tổ tiên chung Những lựa chọn ngẫu nhiên bước thuật toán dẫn tới việc sinh đồ thị ARG khác cho lần chạy Thuật toán ARG4WG đơn giản hóa cách thực kiện tái tổ hợp suy luận đồ thị ARG hợp lý So với Margarita, chiến lược đoạn đầu chung dài 15 cho ta số kiện tái tổ hợp mà làm giảm thời gian tìm đoạn chung dài số lượng nút trình xây dựng đồ thị 2.4 Kết Các thực nghiệm liệu khác cho thấy hiệu thuật toán đề xuất Mặc có hình thái chút so với Margarita so sánh liệu mô ARG4WG nhanh hàng nghìn lần so với Margarita Các kết thực nghiệm cho thấy số kiện tái tổ hợp Margarita nhiều trung bình 1.4 lần so với ARG4WG Đặc biệt, ARG4WG sinh ARG với thời gian ~4.5 lần chạy sử dụng máy tính 16-thread cho liệu 4246 haplotype (2123 mẫu gen người) toàn nhiễm sắc thể (174,234 SNPs – nhiễm sắc thể dài gen người) từ dự án 1kGP Kết nói lên thuật tốn ARG4WG đề xuất chạy với liệu lớn hàng nghìn trình tự tồn hệ gen 2.5 Ứng dụng ARG4WG nghiên cứu tương quan toàn hệ gen Trong nghiên cứu tương quan người bệnh-người không bệnh (case-control association study), tần số alen vị trí quan tâm so sánh quần thể gồm cá thể bị bệnh cá thể không bị bệnh Tần số người bị bệnh mà cao minh chứng cho alen liên quan đến nguy gây bệnh tăng lên Bằng việc phân tích phân biệt alen SNP quần thể người bệnh người không bệnh ta xác định vị trí có liên quan cách thống kê tới bệnh 2.5.1 Cách tiếp cận sử dụng đồ thị ARG vào tốn tìm ánh xạ tương quan Di chuyển dọc theo nhiễm sắc thể, hình thái biên liên tiếp dịch chuyển theo tác động kiện tái tổ hợp mang tính lịch sử Các kiện tái tổ hợp định nghĩa vùng nhiễm sắc thể mà biên mở rộng Với vị trí cho trước, biên trích xuất từ ARG cách lần vết phả hệ vị trí ngược chiều thời gian từ nút Khi tái tổ hợp xuất hiện, phả hệ theo đường hệ cha mẹ phía bên trái điểm cắt tái tổ hợp nằm phía phải vị trí xét, ngược lại theo hệ cha mẹ phía bên phải Nếu có đột biến nguy gây bệnh vị trí cụ thể nhiễm sắc thể (giả sử đột biến xuất nhiều lần vị trí suốt lịch sử tiến hóa), xảy số nhánh bên biên vị trí Vì vậy, cách để tìm tương quan đến bệnh kiểm tra biên để tìm có nhánh phân biệt rõ người bệnh người không bệnh, tức nhánh mà nhiều người bệnh số khơng có người khơng bệnh thuộc nhánh Cụm người bệnh tập trung vào nhánh gợi ý có đột biến gây bệnh xuất nhánh (Hình 2.4) 16 Hình 2.4: (a) Đồ thị ARG cho tập trình tự, trình tự s1, s2 từ cá thể khỏe mạnh, trình từ s3, s4 từ cá thể bị bệnh (b) Đột biến (vùng khoanh tròn) biên vị trí đồ thị ARG (a) cho phân biệt rõ trình tự bệnh trình tự khơng bệnh Cách làm ánh xạ tương quan sử dụng đồ thị ARG tóm tắt sau: Với tập D haplotype từ cá thể người bệnh người không bệnh, xây dựng đồ thị ARG G cho D sử dụng thuật toán xây dựng đồ thị ARG Tìm tập biên T G vị trí D Các cạnh e T ∈ T tính điểm độ tốt (theo cách đó) việc phân biệt gán nhãn bệnh với gán nhãn không bệnh Sau đó, cạnh e với điểm cao thiết lập cho T Đặt T biên T có độ tương quan lớn nhất, tức chứa cạnh e với độ phân biệt lớn nhãn bệnh nhãn không bệnh tất cạnh tất biên T Nếu T đủ tốt (đạt ngưỡng cho trước), kết luận đột biến gây bệnh có khả xảy quanh vị trí biên T đột biến xuất xảy thời gian biểu thị cạnh e tìm thấy T 2.5.2 Ứng dụng ARG4WG vào tốn tìm vùng gen liên quan đến bệnh sốt rét Châu Phi 17 ARG4WG sử dụng để xây dựng đồ thị ARG từ tập liệu Gambia chứa 5560 haplotypes (tương ứng với 2780 mẫu cá thể, có 1533 mẫu khỏe mạnh 1247 mẫu bị bệnh sốt rét) toàn nhiễm sắc thể 11 (Band et al 2013) Chương trình Margarita xây dựng thuật tốn tìm ánh xạ tương quan dựa đồ thị ARG hợp lý sử dụng để thử nghiệm đồ thị ARG kết từ thuật tốn ARG4WG vào tốn tìm ánh xạ tương quan toàn hệ gen Các kết thực nghiệm cho kết vùng có tín hiệu mạnh liên quan đến bệnh từ 4.43Mb tới 6.28Mb nhiễm sắc thể 11 với p-values ≤ 10-7 Kết đồng ý với phân tích nhóm tác giả Garvin Band (Band et al 2013) vùng HBB (4.5Mb-5.5Mb) có nhiều khả liên quan đến bệnh sốt rét Trong nghiên cứu họ, họ giá trị P-value thấp vùng 5.7x10-13 sử dụng phương pháp phân tích SNPTEST meta-analysis Tuy nhiên, hạn chế phương pháp kiểm thử hốn vị cơng cụ Margarita nên ta khơng thể thực phân tích sâu đến >107 Sự thống kết thực nghiệm ARG4WG ổn định việc xây dựng ARG với số lượng SNP khác Các kết nghiên cứu chương công bố báo tạp chí quốc tế IEEE/ACM Transactions on Computational Biology and Bioinformatics năm 2017 (công trình khoa học số 1) Chương PHƯƠNG PHÁP TỐI ƯU HÓA SỐ SỰ KIỆN TÁI TỔ HỢP TRONG QUÁ TRÌNH XÂY DỰNG ĐỒ THỊ ARG Thuật tốn ARG4WG đề xuất giới thiệu chương xây dựng đồ thị ARG cho liệu lớn hàng nghìn mẫu tồn hệ gen Tuy nhiên, thuật tốn khơng thiết kế nhằm tối ưu hóa số kiện tái tổ hợp Trong chương này, chúng tơi trình bày phương pháp: (1) kết hợp đặc trưng liệu (2) kết hợp kĩ thuật tối ưu vào thuật toán ARG4WG nhằm tối ưu hóa số kiện tái tổ hợp trình xây dựng đồ thị ARG 3.1  Một  số  định  nghĩa  và  khái  niệm  sử  dụng  trong  các  thuật  tốn   Dưới giả định vị trí vơ hạn, ta gọi vị trí i j khơng tương thích chúng chứa tất loại giao tử 00, 01, 10, 11 Sẽ có kiện tái tổ hợp vị trí khơng tương thích i j Đặt D = {S1, S2, …, SN} tập N trình tự nhị phân có độ dài m, Sx[i] có giá trị 1, ≤ x ≤ N, ≤ i ≤ m; gọi * trạng thái không di truyền, tức không 18 mang thông tin di truyền từ liệu quan sát Chúng sử dụng số định nghĩa giống thuật toán ARG4WG sau: • Xét vị trí i, Sx[i] khớp với Sy[i] Sx[i] = Sy[i] Sx[i] = * Sy[i] = * • (Sx,Sy){d,l} cặp trình tự Sx Sy có đoạn đầu chung với độ dài tối đa l từ phía bên trái (d = left) từ phía bên phải (d = right) • (Sx,Sy){d,l} tồn có vị trí i phần chung thỏa mãn Sx[i] = Sy[i] ≠ * • Cặp (Sx,Sy) gọi cặp có đoạn đầu chung dài cặp chứa phần vật liệu di truyền chung dài đoạn đầu chung Với cặp có đoạn đầu chung (Sx,Sy){d,l}, theo chiến lược đoạn đầu chung dài điểm cắt tái tổ hợp xác định giữa: • l l + d = left Sx[i] khớp với Sy[i] với ≤ i ≤ l Sx[l+1] ≠ Sy[l+1] • l -1 l d = right Sx[i] khớp với Sy[i] với l ≤ i ≤ m Sx[l-1] ≠ Sy[l-1] Cũng giống với ARG4WG, thuật toán đề xuất hoạt động ngược thời gian có giả định có nhiều đột biến xảy vị trí suốt q trình xây dựng đồ thị ARG 3.2 Hạn chế thuật toán ARG4WG toán xây dựng đồ thị ARG tối thiểu Phần hạn chế chiến lược đoạn đầu chung dài việc xây dựng đồ thị ARG tối thiểu Chiến lược đoạn đầu chung dài giúp cho ARG4WG chạy với liệu lớn gồm hàng nghìn trình tự độ dài toàn hệ gen Tuy nhiên, nhiều cách chọn điểm cắt tái tổ hợp theo chiến lược khơng giúp phá vỡ cặp vị trí khơng tương thích nào, dẫn đến thuật tốn khơng xây dựng ARG tối thiểu 3.3  Thuật  toán  REARG   3.3.1 Động nghiên cứu Xuất phát từ quan sát trình làm thực nghiệm, chúng tơi nhận thấy việc lựa chọn cặp trình tự có độ dài đoạn đầu chung dài cho việc thực tái tổ hợp thuật toán ARG4WG thường khơng Nói cách khác, ARG4WG thường phải chọn ngẫu nhiên cặp trình tự cho việc thực tái tổ hợp từ nhiều cặp có độ dài đoạn đầu chung dài Các phân tích thực nghiệm cho thấy, bên cạnh tiêu chí độ dài đoạn đầu chung dài nhất, yếu tố khác độ tương đồng cặp trình tự chọn hay độ dài trình tự chọn để thực tái tổ hợp có ảnh hưởng đáng kể đến số kiện tái tổ hợp Do đó, việc kết hợp yếu tố việc lựa chọn cặp trình tự thích hợp cho việc tái tổ hợp giúp định hướng 19 trình xây dựng đồ thị ARG tới đồ thị ARG với số kiện tái tổ hợp tối ưu chạy với liệu lớn với số lần chạy giới hạn 3.3.2  Thuật  tốn  REARG   Chúng tơi định nghĩa: Độ tương đồng trình tự S1 S2: m Sim(S1 , S ) = ∑ Sim(S1 [i ], S [i ]) Với ⎧1 if S1[i] = S [i] ≠ * Sim(S1[i], S [i]) = ⎨ ⎩0 otherwise Độ dài trình tự S: m Len ( S ) = ∑ Len ( S[i]) Với "1 if S[i] ≠ * Len ( S[i]) = # $0 if S[i] = * Trong thuật toán REARG, thủ tục cho bước kết hợp đột biến giống thuật tốn ARG4WG Chúng tơi sử dụng thêm số tiêu chuẩn khác để lựa chọn ứng cử viên tốt cho bước tái tổ hợp Dưới đây, mô tả phiên khác thuật toán REARG: REARG_SIM, REARG_LEN REARG_COM Bước tái tổ hợp thuật tốn REARG_SIM • Bước 1: Tính độ dài đoạn đầu chung cho tất cặp trình tự Các cặp trình tự có đoạn đầu chung dài chọn cặp ứng cử viên cho việc tái tổ hợp • Bước 2: Tính độ tương đồng tất cặp ứng cử viên Chọn cặp ứng cử viên có độ tương đồng cao để thực tái tổ hợp Trong trường hợp có nhiều ứng cử viên có độ tương đồng cao nhất, cặp số chọn ngẫu nhiên để thực tái tổ hợp Bước tái tổ hợp thuật toán REARG_LEN • Bước 1: Tính độ dài đoạn đầu chung cho tất cặp trình tự Các cặp trình tự có đoạn đầu chung dài chọn cặp ứng cử viên cho việc tái tổ hợp • Bước 2: Tính độ dài trình tự ngắn tất cặp ứng cử viên Chọn ứng cử viên có độ dài trình tự dài để thực tái tổ hợp Trong 20 trường hợp có nhiều ứng cử viên có độ dài trình tự dài nhất, số chọn ngẫu nhiên để thực tái tổ hợp Bước tái tổ hợp thuật tốn REARG_COM • Bước 1: Tính độ dài đoạn đầu chung cho tất cặp trình tự Các cặp trình tự có đoạn đầu chung dài chọn cặp ứng cử viên cho việc tái tổ hợp • Bước 2: Tính độ tương đồng tất cặp ứng cử viên tính độ dài trình tự ngắn cặp ứng cử viên • Bước 3: Chọn ngẫu nhiên cặp ứng cử viên có độ tương đồng cao ứng cử viên có độ dài trình tự dài để thực tái tổ hợp 3.4  Thuật  toán  GAMARG   3.4.1 Động nghiên cứu Do chiến lược đoạn đầu chung dài không dẫn đến số kiện tái tổ hợp cực tiểu, nên ý tưởng đặt kết hợp ARG4WG với tiêu chí tối ưu khác để giảm số kiện tái tổ hợp Đáng ý, kiểm thử giao tử (four-gamete test) ý tưởng then chốt dẫn đến nhiều thuật toán khác tốn tìm cận số kiện tái tổ hợp toán xây dựng đồ thị ARG có xác số kiện tái tổ hợp nhỏ Do đó, chúng tơi đề xuất thuật tốn GAMARG kết hợp ràng buộc kiểm thử giao tử với chiến lược đoạn đầu chung dài ARG4WG để tối ưu hóa số kiện tái tổ hợp trình xây dựng đồ thị ARG Các kết thực nghiệm tập liệu khác cho thấy GAMARG chạy với hàng nghìn trình tự với hàng chục nghìn snp đạt đến ARG với số kiện tái tổ hợp nhỏ 3.4.2 Thuật toán GAMARG Các phương pháp vét cạn hướng tới việc tìm điểm cắt tái tổ hợp tối ưu, tức là, số kiện tái tổ hợp để phá vỡ tất cặp vị trí khơng tương thích Tuy nhiên, việc quét tất khả để đưa phương án tối ưu không khả thi với tập liệu vừa lớn Do đó, chúng tơi đưa số quan sát q trình xây dựng ARG sử dụng kiểm thử giao tử, từ dẫn đến số mở rộng đề xuất áp dụng kiểm thử giao tử vào thuật toán Đặt FreqGametei,j = {freq00i,j, freq01i,j, freq10i,j, freq11i,j} tần số loại giao tử 00, 01, 10, 11 xuất vị trí i vị trí j Đặt ઠ kích thước cửa sổ trượt mà chúng tơi qt để tìm tất cặp vị trí khơng tương thích vùng Cụ thể, quét qua tất vị trí Với vị trí i (0 ≤ i < m), chúng tơi qt để tìm tất cặp vị trí khơng tương thích phạm vi [i, i+ ઠ] 21 Đặt Sx(i,j) trình tự có loại giao tử có tần số cặp vị trí khơng tương thích i j (0 ≤ i < m, j - i ≤ ઠ) Tức là, Sx(i,j) thỏa mãn điều kiện sau: 𝑓𝑟𝑒𝑞00!,! >  𝑎𝑛𝑑  𝑓𝑟𝑒𝑞01!,! >  𝑎𝑛𝑑  𝑓𝑟𝑒𝑞10!,! >  𝑎𝑛𝑑  𝑓𝑟𝑒𝑞11!,! > 𝑓𝑟𝑒𝑞00!,! =  𝑜𝑟  𝑓𝑟𝑒𝑞01!,! =  𝑜𝑟  𝑓𝑟𝑒𝑞10!,! =  𝑜𝑟  𝑓𝑟𝑒𝑞11!,! = Khi đó, ta thực tái tổ hợp trình tự Sx vị trí i j ta phá vỡ cặp vị trí không tương thích (i,j) Xuất phát từ quan sát đó, chúng tơi đơn giản hóa chiến lược kiểm tra giao tử cách xem xét cặp vị trí khơng tương thích có loại giao tử có tần số Giả định đảm bảo thuật toán ln phá vỡ cặp vị trí khơng tương thích thực tái tổ hợp cặp vị trí khơng tương thích i j Thuật toán GAMARG thời điểm t = Tập trình tự thời điểm t kí hiệu Dt (D1=D) Với Dt, danh sách cho kiện kết hợp, đột biến tái tổ hợp xây dựng sau: • Danh sách kết hợp C: Đối với cặp trình tự Sx Sy có đoạn đầu chung (Sx,Sy){d,l}, l = m (Sx,Sy){d,l} thêm vào danh sách kết hợp • Danh sách đột biến M: Với vị trí i (1 ≤ i ≤ m), Sx[i] = ∀𝑆! ∈ 𝐷! ∖ 𝑆! : 𝑆! 𝑖 ≠ Sx[i] = ∀𝑆! ∈ 𝐷! ∖ 𝑆! : 𝑆! 𝑖 ≠ 0, Sx[i] thêm vào danh sách đột biến • Danh sách giao tử G: Đối với cặp vị trí khơng tương thích (i,j) (0 ≤ i < m, j - i ≤ ઠ), tồn trình tự Sx chứa loại giao tử có tần số Sx(i,j) thêm vào danh sách giao tử • Danh sách đoạn đầu chung S: Với cặp trình tự Sx Sy có đoạn đầu chung (Sx,Sy){d,l}, < l < m (Sx,Sy){d,l} thêm vào danh sách đoạn đầu chung Khi kiện xảy ra, tập trình tự Dt+1 tạo từ tập trình tự Dt thời danh sách ứng cử viên cập nhật Thuật toán GAMARG Đầu vào: Một tập N trình tự nhị phân độ dài m Đầu ra: Một đồ thị ARG chứa kiện kết hợp, đột biến, tái tổ hợp trình tự, trình tự trung gian sinh trình tự tổ tiên chung tìm thấy • Bước 1: Nếu danh sách kết hợp C không rỗng, thực tất kết hợp • Bước 2: Nếu danh sách đột biến M không rỗng, thực tất đột biến 22 sau chuyển sang Bước Nếu khơng có đột biến nào, chuyển sang Bước • Bước 3: Nếu danh sách giao tử G không rỗng, thực tái tổ hợp sau chuyển sang Bước • Bước 4: Nếu danh sách đoạn đầu chung S không rỗng, thực tái tổ hợp theo sau kiện kết hợp Chuyển đến Bước • Bước 5: Lặp lại Bước 1, Bước 2, Bước 3, Bước đạt đến tổ tiên chung Trong danh sách Giao tử G, trình tự ứng cử viên Sx(i, j) có khoảng cách ngắn từ vị trí i đến vị trí j, tức là, (j – i) có giá trị nhỏ Sx có thứ tự ưu tiên hàng đầu để thực tái tổ hợp Các ứng cử viên bước kết hợp, đột biến tái tổ hợp lấy ngẫu nhiên chúng đạt tiêu chuẩn đặt 3.5 Kết Các thực nghiệm liệu với kích thước khác cho thấy REARG giúp tìm ARG có số kiện tái tổ hợp so với ARG4WG với tập liệu vừa lớn Tuy nhiên, thuật tốn ARG4WG REARG khơng phù hợp với tập liệu nhỏ Thuật toán GAMARG tổng quát có kết tốt tất thực nghiệm GAMARG có khả xây dựng ARG có xác gần xác số kiện tái tổ hợp nhỏ Ngoài ra, thực nghiệm cho thấy thuật tốn Margarita khơng ổn định chạy với tập liệu kích thước trung bình trích xuất từ liệu 1kGP Các kết nghiên cứu chương công bố báo báo hội thảo quốc tế KSE năm 2017 (cơng trình khoa học số 2) báo cáo chấp nhận hội thảo quốc tế ICBBB năm 2019 (cơng trình khoa học số 3) Kết luận Xác định nguồn gốc di truyền bệnh việc xác định gen alen nhạy cảm với bệnh mục tiêu then chốt nghiên cứu di truyền học người Đồ thị tái tổ hợp di truyền đóng vai trò quan trọng nghiên cứu di truyền quần thể, đa dạng hệ gen đa hình di truyền SNP Tuy nhiên, tốn xây dựng đồ thị ARG tốn NP-khó đòi hỏi tính tốn khối lượng lớn nên ứng dụng vào thực tế hạn chế Thơng qua việc nghiên cứu phương pháp xây dựng đồ thị ARG, tập trung theo hướng tiếp cận xây dựng đồ thị ARG có số kiện tái tổ hợp thuật 23 tốn Margarita, chúng tơi đề xuất thuật toán ARG4WG xây dựng đồ thị ARG hợpcho liệu lớn hàng nghìn mẫu tồn hệ gen Bằng cách tiếp cận vấn đề theo cách Margarita, cải tiến sử dụng đoạn đầu chung dài cho bước tính tốn kiện tái tổ hợp, thuật tốn ARG4WG đề xuất cho đồ thị ARG có kiện tái tổ hợp Margarita Đồng thời, chiến lược giúp đảm bảo số nút đồ thị ổn định sau lần thực bước tái tổ hợp mà làm giảm đáng kể thời gian tìm kiếm đoạn chung dài trình xây dựng đồ thị ARG Kết thực nghiệm cho thấy thuật toán ARG4WG nhanh hàng trăm đến hàng nghìn lần thuật tốn Margarita Đặc biệt, ARG4WG chạy với hàng nghìn mẫu toàn nhiễm sắc thể lần chạy khoảng thời gian hợp lý thông qua xử lý đa luồng Chúng thực ứng dụng thuật toán đề xuất vào toán thực tế xác định tương quan toàn nhiễm sắc thể tập liệu lớn Cụ thể, thử nghiệm ứng dụng ARG4WG tốn tìm vùng gen liên quan đến bệnh sốt rét Châu Phi 5560 trình tự độ dài tồn nhiễm sắc thể 11 Kết vùng tín hiệu bệnh sốt rét tìm trùng với kết phân tích có Các kết cho thấy khả ứng dụng thuật toán ARG4WG vào toán thực tế liệu lớn Luận án đề xuất thuật toán cải tiến REARG GAMARG nhằm tối ưu thêm số kiện tái tổ hợp q trình xây dựng đồ thị ARG Thuật tốn REARG giúp trình xây dựng ARG khu trú vào ARG có số kiện tái tổ hợp nhỏ nhanh ARG4WG hữu hạn số lần chạy thuật toán tập liệu vừa lớn Tuy nhiên, GAMARG tổng quát GAMARG có khả xây dựng ARG có xác gần xác số kiện tái tổ hợp nhỏ Trong thời gian tới, việc xác định tham số δ GAMARG cần thực cách hệ thống Ý tưởng sử dụng thuật toán tốn tìm khối haplotype (haplotype blocks) áp dụng Bên cạnh đó, chúng tơi tiếp tục nghiên cứu triển khai ứng dụng thuật toán ARG4WG, GAMARG vào toán thực tế khác tốn tìm đa hình di truyền đơn nucleotide, xử lý liệu bị khuyết, … 24 ... đồ thị tái tổ hợp di truyền, loại mạng phát sinh lồi mơ hình hóa quan hệ di truyền trình tự hệ gen quan sát quần thể 1.2 Xây dựng đồ thị tái tổ hợp di truyền 1.2.1 Sự kiện tái tổ hợp Tái tổ hợp. .. tái tổ hợp khác Đối với loài người, trao đổi chéo kiểu tái tổ hợp phổ biến xảy trình giảm phân 1.2.2 Đồ thị tái tổ hợp di truyền Đồ thị tái tổ hợp tổ tiên đóng vai trò quan trọng nghiên cứu di. .. thường xây dựng đồ thị ARG không đầy đủ, tức đồ thị ARG biểu di n tập thành phần kiện tái tổ hợp 1.2.2 Bài toán xây dựng đồ thị ARG Bài toán xây dựng đồ thị ARG chứng minh toán NP-hard Do số kiện tái

Ngày đăng: 14/03/2019, 14:48

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w