Luận án tiến sĩ công nghệ thông tin xây dựng đồ thị tái tổ hợp di truyền cho dữ liệu hệ gen

110 0 0
Luận án tiến sĩ công nghệ thông tin  xây dựng đồ thị tái tổ hợp di truyền cho dữ liệu hệ gen

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Lời cam đoan Tôi xin cam đoan công trình nghiên cứu riêng tơi Các kết viết chung với tác giả khác đồng ý đồng tác giả trước đưa vào luận án Các kết nêu luận án trung thực chưa công bố cơng trình khác Tác giả Nguyễn Thị Phương Thảo Lời cảm ơn Luận án thực Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, hướng dẫn PGS TS Lê Sỹ Vinh PGS TS Lương Chi Mai Tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS TS Lê Sỹ Vinh, PGS TS Lương Chi Mai TS Lê Sĩ Quang, người có định hướng giúp tơi thành cơng việc nghiên cứu Các Thầy Cơ động viên khích lệ tinh thần, giúp tơi vượt qua khó khăn để tơi hồn thành luận án Tơi chân thành cảm ơn thầy Hồ Tú Bảo, Thầy cho nhiều kiến thức quý báu nghiên cứu khoa học Những bảo quý giá Thầy Cơ giúp tơi hồn thành tốt luận án Tôi xin cảm ơn tới Thầy, Cô thuộc Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội tạo điều kiện thuận lợi giúp tơi q trình làm nghiên cứu sinh Tôi xin chân thành cảm ơn đồng nghiệp phịng Nhận dạng Cơng nghệ Tri thức, Viện Công nghệ Thông tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam động viên, tạo điều kiện thuận lợi, bố trí thời gian tốt cho tơi suốt q trình làm nghiên cứu sinh Cuối cùng, xin gửi lời cảm ơn sâu sắc tới gia đình bạn bè, người cho tơi điểm tựa vững để tơi có thành công ngày hôm MỤC LỤC Lời cam đoan Lời cảm ơn MỤC LỤC Danh mục ký hiệu chữ viết tắt Danh mục bảng Danh mục hình vẽ, đồ thị Danh mục thuật toán 12 MỞ ĐẦU 13 Chương GIỚI THIỆU 16 1.1 Giới thiệu chung 16 1.1.1 Hệ gen người 16 1.1.2 Mạng phát sinh loài 21 1.2 Xây dựng đồ thị tái tổ hợp di truyền 23 1.2.1 Sự kiện tái tổ hợp 23 1.2.2 Đồ thị tái tổ hợp di truyền 25 1.2.3 Bài toán xây dựng đồ thị ARG 32 1.3 Các phương pháp xây dựng đồ thị ARG 35 1.3.1 Các phương pháp xây dựng đồ thị ARG tối thiểu 35 1.3.2 Các phương pháp xây dựng đồ thị ARG hợp lý 39 1.3.3 Tổng hợp phần mềm xây dựng đồ thị ARG 41 1.4 Ứng dụng ARG nghiên cứu tương quan toàn hệ gen 42 1.5 Kết luận chương 45 Chương THUẬT TOÁN ARG4WG XÂY DỰNG ĐỒ THỊ TÁI TỔ HỢP DI TRUYỀN HỢP LÝ CHO DỮ LIỆU HỆ GEN 47 2.1 Giới thiệu 47 2.1.1 Các định nghĩa 47 2.1.2 Thuật toán Margarita xây dựng đồ thị ARG 48 2.2 Thuật toán ARG4WG 51 2.2.1 Chiến lược tìm đoạn đầu chung dài 51 2.2.2 Thuật toán ARG4WG 54 2.3 Kết thực nghiệm 61 2.3.1 Các kết liệu thật 61 2.3.2 Các kết liệu mô 65 2.4 Kết ứng dụng ARG4WG vào tốn tìm vùng gen liên quan đến bệnh sốt rét Châu Phi 67 2.5 Kết luận chương 72 Chương PHƯƠNG PHÁP TỐI ƯU HÓA SỐ SỰ KIỆN TÁI TỔ HỢP TRONG QUÁ TRÌNH XÂY DỰNG ĐỒ THỊ ARG 75 3.1 Giới thiệu 75 3.2 Một số định nghĩa khái niệm sử dụng thuật toán 76 3.3 Hạn chế thuật toán ARG4WG 78 3.4 Thuật toán REARG 79 3.4.1 Động nghiên cứu 79 3.4.2 Thuật toán REARG 80 3.5 Thuật toán GAMARG 83 3.5.1 Động nghiên cứu 83 3.5.2 Thuật toán GAMARG 83 3.6 Kết thực nghiệm 88 3.6.1 Kết tập liệu nhỏ 89 3.6.2 Các kết tập liệu từ dự án 1kGP 90 3.7 Kết luận chương 98 KẾT LUẬN 100 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 102 TÀI LIỆU THAM KHẢO 103 Danh mục ký hiệu chữ viết tắt D Tập trình tự N Số lượng trình tự tập trình tự m độ dài trình tự Sx Trình tự thứ x tập trình tự Sx[i] Giá trị Sx vị trí thứ i ARG Đồ thị tái tổ hợp di truyền 1KGP Dự án 1000 hệ gen GWAS Nghiên cứu tương quan tồn hệ gen SNP Đa hình đơn nucleotit MRCA Tổ tiên chung gần CwR Mơ hình kết hợp tái tổ hợp STT Số thứ tự RF Khoảng cách Robinson-Fould Danh mục bảng Bảng 1.1: Các phần mềm xây dựng đồ thị ARG tiêu biểu 41 Bảng 2.1: Tập liệu trích xuất từ dự án 1000 hệ gen người .62 Bảng 3.1: Tập liệu từ dự án 1kGP 89 Bảng 3.2: Các kết thuật toán khác tập liệu nhỏ 89 Bảng 3.3: Số kiện tái tổ hợp tìm thấy thuật tốn cho 100 trình tự (a) DS1, (b) DS2 (c) DS3 .91 Bảng 3.4: Số kiện tái tổ hợp tìm thấy thuật tốn cho 200 trình tự (a) DS1, (b) DS2 (c) DS3 .92 Bảng 3.5: Trung bình thời gian chạy (giây) thuật tốn cho 100 trình tự tập liệu (a) DS1, (b) DS2, (c) DS3 .95 Bảng 3.6: Trung bình thời gian chạy (giây) thuật tốn cho 200 trình tự tập liệu (a) DS1, (b) DS2, (c) DS3 .97 Danh mục hình vẽ, đồ thị Hình 1.1: Cấu trúc hệ gen người Hệ gen người gồm 23 cặp nhiễm sắc thể, có khoảng tỉ phân tử DNA, khoảng 20.000 đến 25.000 gen Nguồn hình: https://genomainternational.com/introduction-to-genomics/ .16 Hình 1.2: Các kiểu biến thể trình tự: (a) Thay cặp bazơ đơn Trong ví dụ, biến thể xuất vị trí so với trình tự tham chiếu, thay nucleotit T↔A G↔A (b) Chuỗi GCA chèn vào so với trình tự tham chiếu (c) Chuỗi CG bị xóa so với trình tự tham chiếu .17 Hình 1.3: Các loại biến thể cấu trúc: xóa, thêm, lặp, đảo hay lặp nhiều lần đoạn DNA Đoạn đột biến cấu trúc có kích thước lớn 1kb 18 Hình 1.4: Ví dụ liệu SNP chứa biến thể alen nhiều alen Có vị trí SNP alen, gồm alen tham chiếu alen biến thể, ví dụ A G vị trí 1; T C vị trí Chỉ có vị trí alen: alen tham chiếu (G) alen biến thể C, T 19 Hình 1.5: Ví dụ haplotype cá thể vùng gen Một haplotype tạo thành từ kết hợp SNP di truyền đoạn DNA .19 Hình 1.6: Cây phân lồi biểu diễn mối quan hệ tiến hóa số loài linh trưởng Đười ươi Khỉ đột rẽ nhánh sớm loài linh trưởng khác Con người rẽ nhánh riêng nhánh lại cho Tinh tinh vượn Bonobo 21 Hình 1.7: Khái qt hóa mạng phát sinh lồi điển hình [36] 23 Hình 1.8: Hai tượng tái tổ hợp phổ biến người: (a) trao đổi chéo (b) chuyển đổi gen .24 Hình 1.9: Biến đổi liệu SNP thành dạng nhị phân Vị trí có giá trị giống với tham chiếu 0, giá trị khác tham chiếu 28 Hình 1.10: Đồ thị ARG cho tập liệu M gồm trình tự độ dài [26] Trình tự tổ tiên “00000”; kiện đột biến vị trí tương ứng (1,2,3,4,5) ghi cạnh xảy đột biến đồ thị; kiện tái tổ hợp xảy vị trí 29 Hình 1.11: Điểm cắt tái tổ hợp .30 Hình 1.12: Một ví dụ đồ thị ARG cho trình tự với ký hiệu: ■: trạng thái di truyền, ◘: trạng thái di truyền đột biến, □: trạng thái không xác định 31 Hình 1.13: Các thành phần (đường đậm nét) đồ thị ARG Hình 1.12 Nguồn hình [43] 33 Hình 1.14: (a) Ví dụ cặp vị trí tương thích: cặp vị trí chứa loại giao tử có từ tổ tiên chung thông qua kiện đột biến (b) Cặp vị trí khơng tương thích: cặp vị trí chứa loại giao tử trường hợp phải có kiện tái tổ hợp xảy giả định vị trí vơ hạn (kí hiệu * biểu thị vị trí khơng có thơng tin) 36 Hình 1.15: Một có nốt sùi cho tập trình tự giống với tập Hình 1.10 với nốt sùi tương ứng với chu trình tái tổ hợp khơng chung nút với [27] 38 Hình 1.16: (a) Đồ thị ARG cho tập trình tự, trình tự s1, s2 từ cá thể khỏe mạnh, trình từ s3, s4 từ cá thể bị bệnh (b) Đột biến (vùng khoanh tròn) biên vị trí đồ thị ARG (a) cho phân biệt rõ trình tự bệnh trình tự khơng bệnh .44 Hình 2.1: Lưu đồ thuật toán Margarita 49 Hình 2.2: Vấn đề việc thực kiện tái tổ hợp Margarita Hai trình tự S1 S2 với đoạn chung dài hai trình tự biểu diễn đoạn màu đen Thuật toán thực kiện tái tổ hợp R1 R2 trình tự S1 để sinh trình tự S11, S12 S13 Sau đó, trình tự chứa đoạn chung dài S13 kết hợp với S2 Vì vậy, đoạn chung dài tìm thấy bên trình tự, thuật tốn phải thực kiện tái tổ hợp trình tự từ trình tự ban đầu (S1 S2) thành trình tự hệ (S11, S12 S' (S' = S2)) 50 Hình 2.3: Tất trình tự từ phía bên trái s mà kết hợp với trình tự D tập đoạn bên trái dài s ( sl ) .52 Hình 2.4: Phân tách s cách chọn đoạn chung dài s để kết hợp với trình tự D khơng dẫn tới số cực tiểu kiện tái tổ hợp .53 Hình 2.5: Sự kiện tái tổ hợp biểu thị thuật toán ARG4WG (a) Xét trình tự S1 S2, đoạn đầu chung trình tự từ phía bên trái (hình lượn sóng) từ phía bên phải (màu đen) xác định (b) Với tập trình tự S1, S2 S3, đoạn đầu chung cặp tính tốn (hình lượn sóng) đoạn đầu chung dài xác định mô tả đoạn màu đen trình tự S1 S2 (c) Một kiện tái tổ hợp thực trình tự S1 để sinh trình tự S11 S12 S12 chứa đoạn đầu chung dài sau kết hợp với S2 Như vậy, ARG4WG thực tái tổ hợp trình tự từ trình tự ban đầu (S1, S2) thành trình tự hệ (S11, S’), S’ = S2 S11 có vật liệu di truyền S1 55 Hình 2.6: Trung bình thời gian chạy Margarita, Margarita1.0 ARG4WG cho: (a) 500 haplotype; (b) 1000 haplotype; (c) 2000 haplotype 63 Hình 2.7: Trung bình số kiện tái tổ hợp Margarita, Margarita1.0 ARG4WG cho: (a) 500 haplotype; (b) 1000 haplotype; (c) 2000 haplotype 65 Hình 2.8: Khoảng cách RF tạo thuật toán Margarita ARG4WG so với tương ứng khoảng tỉ lệ đột biến tái tổ hợp khác 67 Hình 2.9: Sự tương quan đến bệnh từ 106 kiểm định hoán vị trên: (A) 10 ARG xây dựng toàn NST 11; (B) 30 ARG xây dựng vùng 5000 SNP quanh gen 10 Số SNP (b) 2000 5000 Margarita 754.00 7709.00 140.00 ARG4WG 0.41 0.99 1.90 REARG_SIM 2.41 12.98 53.50 REARG_LEN 0.44 1.06 2.15 REARG_COM 2.56 13.77 55.88 GAMARG 2.41 6.83 21.09 Số SNP (c) 10000 2000 5000 10000 Margarita 743.50 7627.50 166.00 ARG4WG 0.36 0.96 1.96 REARG_SIM 2.04 13.01 53.63 REARG_LEN 0.39 1.02 2.08 REARG_COM 2.22 13.34 55.72 GAMARG 1.65 6.30 23.99 Các thuật toán khơng có khả chạy với liệu hàng nghìn trình tự độ dài hàng trăm nghìn SNP ARG4WG có khả chạy với liệu hàng nghìn trình tự độ dài hàng chục nghìn SNP 96 Bảng 3.6: Trung bình thời gian chạy (giây) thuật tốn cho 200 trình tự tập liệu (a) DS1, (b) DS2, (c) DS3 (a) (b) Số SNP 2000 5000 10000 Margarita 2826.51 31459.54 1157.00 ARG4WG 1.33 3.26 5.50 REARG_SIM 8.84 49.85 168.09 REARG_LEN 1.43 3.51 5.76 REARG_COM 9.71 49.20 169.77 GAMARG 14.91 34.42 105.01 Số SNP 2000 5000 10000 Margarita 3953.000 42623.510 839.503 ARG4WG 0.998 2.442 4.739 REARG_SIM 6.181 35.391 145.266 REARG_LEN 0.999 2.558 4.879 REARG_COM 7.001 35.246 146.843 GAMARG 5.886 20.043 59.926 97 (c) Số SNP 2000 5000 Margarita 3710.50 39230.55 1074.52 ARG4WG 0.96 2.42 4.94 REARG_SIM 5.55 34.77 149.67 REARG_LEN 0.95 2.55 5.45 REARG_COM 6.28 34.46 153.76 GAMARG 3.95 18.62 60.35 10000 3.7 Kết luận chương Chiến lược đoạn chung dài Margarita chiến lược đoạn đầu chung dài ARG4WG không tối ưu số kiện tái tổ hợp trình xây dựng đồ thị ARG Các thực nghiệm cho thấy chiến lược đoạn chung dài Margarita phù hợp so với chiến lược đoạn đầu chung dài ARG4WG liệu nhỏ Tuy nhiên, Margarita trở nên không ổn định cho đồ thị ARG có số kiện tái tổ hợp nhiều so ARG4WG liệu vừa lớn Trong chương này, luận án giới thiệu hai thuật toán REARG GAMARG cải tiến từ ARG4WG nhằm tối ưu thêm số kiện tái tổ hợp trình xây dựng đồ thị ARG Thơng qua việc kết hợp thêm đặc trưng độ tương đồng độ dài trình tự chọn thực tái tổ hợp bên cạnh ràng buộc đoạn đầu chung dài nhất, thuật tốn REARG giúp tìm ARG có số kiện tái tổ hợp so với ARG4WG với tập liệu vừa lớn Tức là, đặc trưng phù hợp, giúp q trình tìm kiếm khu trú vào ARG có số kiện tái tổ hợp nhỏ nhanh hữu hạn số lần chạy thuật tốn Tuy nhiên, khơng đặc trưng 98 tốt việc tìm kiếm cần tiến hành song song phiên khác thuật toán REARG Kiểm thử giao tử kĩ thuật đơn giản hiệu việc tính tốn đồ thị ARG tối thiểu cho liệu nhỏ Chiến lược đoạn đầu chung dài ARG4WG hiệu liệu lớn Sự kết hợp chúng GAMARG làm cho thuật toán tốt so với ARG4WG REARG số kiện tái tổ hợp GAMARG chạy với liệu hàng nghìn trình tự độ dài hàng nghìn đến chục nghìn SNP mà cịn có khả so sánh với thuật toán xây dựng ARG tối thiểu liệu nhỏ Các kết nghiên cứu chương công bố kỉ yếu Hội nghị quốc tế NAFOSTED năm 2017 (cơng trình khoa học số 2) kỉ yếu Hội nghị quốc tế ICBBB năm 2019 (công trình khoa học số 3) 99 KẾT LUẬN Xác định nguồn gốc di truyền bệnh việc xác định gen alen nhạy cảm với bệnh mục tiêu then chốt nghiên cứu di truyền học người Đồ thị tái tổ hợp di truyền đóng vai trò quan trọng nghiên cứu di truyền quần thể, đa dạng hệ gen đa hình di truyền SNP Tuy nhiên, toán xây dựng đồ thị ARG tốn NP-khó địi hỏi tính tốn khối lượng lớn nên ứng dụng vào thực tế hạn chế Thông qua việc nghiên cứu phương pháp xây dựng đồ thị ARG, tập trung theo hướng tiếp cận xây dựng đồ thị ARG có số kiện tái tổ hợp thuật toán Margarita, luận án đề xuất thuật toán ARG4WG xây dựng đồ thị ARG hợp lý cho liệu lớn hàng nghìn trình tự tồn hệ gen Bằng cách tiếp cận vấn đề theo cách Margarita, cải tiến sử dụng đoạn đầu chung dài cho bước tính tốn kiện tái tổ hợp, thuật tốn ARG4WG đề xuất khơng giúp làm giảm đáng kể thời gian tìm kiếm đoạn chung dài sau lần thực bước tái tổ hợp mà đảm bảo số nút đồ thị ln ổn định q trình xây dựng đồ thị ARG Kết thực nghiệm cho thấy thuật toán ARG4WG nhanh hàng trăm đến hàng nghìn lần thuật tốn Margarita Đặc biệt, ARG4WG chạy với hàng nghìn trình tự tồn nhiễm sắc thể lần chạy khoảng thời gian hợp lý thơng qua xử lý đa luồng Thuật tốn ARG4WG thử nghiệm ứng dụng vào tốn thực tế xác định tương quan tồn nhiễm sắc thể tập liệu lớn, cụ thể tốn tìm vùng gen liên quan đến bệnh sốt rét Châu Phi 5560 trình tự độ dài toàn nhiễm sắc thể 11 Kết vùng tín hiệu bệnh sốt rét tìm trùng với kết phân tích có Các kết cho thấy khả ứng dụng thuật toán ARG4WG vào toán thực tế liệu lớn Thuật toán cài đặt để 100 dạng mã nguồn mở cho cộng đồng nghiên cứu địa chỉ: https://github.com/thaontp711/arg4wg Luận án đề xuất thuật toán cải tiến từ thuật toán ARG4WG REARG GAMARG nhằm tối ưu thêm số kiện tái tổ hợp trình xây dựng đồ thị ARG Thuật tốn REARG giúp q trình xây dựng ARG khu trú vào ARG có số kiện tái tổ hợp nhỏ nhanh ARG4WG hữu hạn số lần chạy thuật toán tập liệu vừa lớn Tuy nhiên, thuật toán GAMARG tổng quát GAMARG có khả xây dựng ARG có xác gần xác số kiện tái tổ hợp nhỏ Trong thời gian tới, tiếp tục nghiên cứu cách để xây dựng đồ thị ARG tối thiểu cho liệu hệ gen Hệ gen người có cấu trúc khối haplotype (haplotype blocks), mà khối khơng có kiện tái tổ hợp xảy khối xác định kiện tái tổ hợp Do đó, hướng tiềm xét đến ứng dụng thuật tốn tốn tìm khối haplotype, từ tìm điểm nóng phân biệt khối (hot spots) vị trí tiềm xảy kiện tái tổ hợp, từ xây dựng đồ thị ARG dựa vị trí tái tổ hợp xác định Ngồi ra, chúng tơi nghiên cứu kết hợp phương pháp tối ưu tổ hợp vào thuật toán GAMARG để tối ưu số kiện tái tổ hợp trình xây dựng đồ thị ARG Bên cạnh đó, chúng tơi tiếp tục nghiên cứu triển khai ứng dụng thuật toán ARG4WG, GAMARG vào toán thực tế khác liệu lớn tốn tìm đa hình di truyền đơn nucleotide, xử lý liệu bị khuyết, … 101 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN Nguyen, T T P., Le, V S., Ho, H B., & Si Le, Q (2016), “Building ancestral recombination graphs for whole genomes”, IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB), 14(2), 478-483 Nguyen, T T P., Le, V S (2017), "Building minimum recombination ancestral recombination graphs for whole genomes", The 4th NAFOSTED Conference on Information and Computer Science 2017, pp 248-253 (IEEE conference) Nguyen, T T P., Le, V S (2019), “A Hybrid Approach to Optimize the Number of Recombination in Ancestral Recombination Graphs”, In Proceedings of the 2019 9th International Conference on Bioscience, Biochemistry and Bioinformatics, pp 36-42 (ACM conference) 102 TÀI LIỆU THAM KHẢO Arenas M (2013), “The importance and application of the ancestral recombination graph,” Frontiers in genetics, Vol 4, p.206 Bafna V, Bansal V (2006), “Inference about recombination from haplotype data: lower bounds and recombination hotspots,” Journal of Computational Biology, Vol 13(2), pp.501–521 Band G, Le QS, Jostins L, Pirinen M, Kivinen K, Jallow M, et al (2013), “Imputation-based meta-analysis of severe malaria in three African populations,” PLoS genetics, Vol 9(5), p.e1003509 Barsh GS, Copenhaver GP, Gibson G, Williams SM (2012), “Guidelines for genome-wide association studies,” PLoS genetics, Vol 8(7), p.e1002812 Browning SR, Browning BL (2011), “Haplotype phasing: existing methods and new developments,” Nature Reviews Genetics, Vol 12(10), p.703 Bush WS, Moore JH (2012), “Genome-wide association studies,” PLoS computational biology, Vol 8(12), p.e1002822 Cámara PG, Levine AJ, Rabadán R (2016), “Inference of ancestral recombination graphs through topological data analysis,” PLoS computational biology, Vol 12(8), p.e1005071 Cao M, Shi J, Wang J, Hong J, Cui B, Ning G (2015), “Analysis of Human Triallelic SNPs by Next-Generation Sequencing,” Annals of human genetics, Vol 79(4), pp.275–281 Carlsson G (2009), “Topology and data,” Bulletin of the American Mathematical Society, Vol 46(2), pp.255–308 10 Charlton ND, Carbone I, Tavantzis SM, Cubeta MA (2008), “Phylogenetic relatedness of the M2 double-stranded RNA in Rhizoctonia fungi,” 103 Mycologia, Vol 100(4), pp.555–564 11 Chen GK, Marjoram P, Wall JD (2009), “Fast and flexible simulation of DNA sequence data,” Genome research, Vol 19(1), pp.136–142 12 Consortium 1000 Genomes Project, others (2010), “A map of human genome variation from population-scale sequencing,” Nature, Vol 467(7319), p.1061 13 Consortium IH, others (2003), “The international HapMap project,” Nature, Vol 426(6968), p.789 14 Darwin C (2004), On the origin of species, 1859, Routledge 15 Delaneau O, Zagury J-F, Marchini J (2012), “Improved whole-chromosome phasing for disease and population genetic studies,” Nature methods, Vol 10(1), p.5 16 Devlin B, Risch N (1995), “A comparison of linkage disequilibrium measures for fine-scale mapping,” Genomics, Vol 29(2), pp.311–322 17 Didelot X, Lawson D, Darling A, Falush D (2010), “Inference of homologous recombination in bacteria using whole-genome sequences,” Genetics, Vol 186(4), pp.1435–1449 18 Durrant C, Zondervan KT, Cardon LR, Hunt S, Deloukas P, Morris AP (2004), “Linkage disequilibrium mapping via cladistic analysis of singlenucleotide polymorphism haplotypes,” The American Journal of Human Genetics, Vol 75(1), pp.35–43 19 Fearnhead P, Harding RM, Schneider JA, Myers S, Donnelly P (2004), “Application of coalescent methods to reveal fine-scale rate variation and recombination hotspots,” Genetics, Vol 167(4), pp.2067–2081 20 Frazer KA, Murray SS, Schork NJ, Topol EJ (2009), “Human genetic variation and its contribution to complex traits,” Nature Reviews Genetics, Vol 10(4), p.241 104 21 Grelon M (2016), “Meiotic recombination mechanisms,” Comptes rendus biologies, Vol 339(7–8), pp.247–251 22 Griffiths AJF, Miller JH, Suzuki DT, others (2000), “Sources of variation,” An Introduction to Genetic Analysis 7th edition Available from: https://www.ncbi.nlm.nih.gov/books/NBK22012/, 23 Griffiths RC, Marjoram P (1996), “Ancestral inference from samples of DNA sequences with recombination,” Journal of Computational Biology, Vol 3(4), pp.479–502 24 Gusfield D (1997), “Algorithms on stings, trees, and sequences: Computer science and computational biology,” Acm Sigact News, Vol 28(4), pp.41–60 25 Gusfield D (2005), “Optimal, efficient reconstruction of root-unknown phylogenetic networks with constrained and structured recombination,” Journal of Computer and System Sciences, Vol 70(3), pp.381–398 26 Gusfield D (2014), ReCombinatorics: the algorithmics of ancestral recombination graphs and explicit phylogenetic networks, MIT Press 27 Gusfield D, Eddhu S, Langley C (2004), “Optimal, efficient reconstruction of phylogenetic networks with constrained recombination,” Journal of bioinformatics and computational biology, Vol 2(01), pp.173–213 28 Hein J, Schierup M, Wiuf C (2004), Gene genealogies, variation and evolution: a primer in coalescent theory, Oxford University Press, USA 29 Heine K, Beskos A, Jasra A, Balding D, De Iorio M (2018), “Bridging trees for posterior inference on ancestral recombination graphs,” Proceedings of the Royal Society A, Vol 474(2220), p.20180568 30 Hejase HA, Dukler N, Siepel A (2020), “From Summary Statistics to Gene Trees: Methods for Inferring Positive Selection,” Trends in Genetics, 31 Hobolth A, Christensen OF, Mailund T, Schierup MH (2007), “Genomic 105 relationships and speciation times of human, chimpanzee, and gorilla inferred from a coalescent hidden Markov model,” PLoS genetics, Vol 3(2), p.e7 32 Hubisz MJ, Williams AL, Siepel A (2019), “Mapping gene flow between ancient hominins through demography-aware inference of the ancestral recombination graph,” bioRxiv, p.687368 33 Hubisz M, Siepel A (2020), “Inference of ancestral recombination graphs using ARGweaver,” In: Statistical Population Genomics, Humana, New York, NY, pp.231–266 34 Hudson RR (1983), “Properties of a neutral allele model with intragenic recombination,” Theoretical population biology, Vol 23(2), pp.183–201 35 Hudson RR, Kaplan NL (1985), “Statistical properties of the number of recombination events in the history of a sample of DNA sequences,” Genetics, Vol 111(1), pp.147–164 36 Huson DH, Rupp R, Scornavacca C (2010), Phylogenetic networks: concepts, algorithms and applications, Cambridge University Press 37 Huson DH, Scornavacca C (2011), “A survey of combinatorial methods for phylogenetic networks,” Genome biology and evolution, Vol 3, pp.23–35 38 Jenkins PA, Song YS, Brem RB (2012), “Genealogy-based methods for inference of historical recombination and gene flow and their application in Saccharomyces cerevisiae,” PloS one, Vol 7(11), p.e46947 39 Kingman JFC (1982), “The coalescent,” Stochastic processes and their applications, Vol 13(3), pp.235–248 40 Kitts A, Sherry S (2002), “The single nucleotide polymorphism database (dbSNP) of nucleotide sequence variation,” The NCBI Handbook McEntyre J, Ostell J, eds Bethesda, MD: US National Center for Biotechnology Information, 106 41 Kreitman M (1983), “Nucleotide polymorphism at the alcohol dehydrogenase locus of Drosophila melanogaster,” Nature, Vol 304(5925), p.412 42 Lam F, Tarpine R, Istrail S (2010), “The imperfect ancestral recombination graph reconstruction problem: upper bounds for recombination and homoplasy,” Journal of Computational Biology, Vol 17(6), pp.767–781 43 Larribe F, Lessard S, Schork NJ (2002), “Gene mapping via the ancestral recombination graph,” Theoretical population biology, Vol 62(2), pp.215– 229 44 Le SQ, Durbin R (2011), “SNP detection and genotyping from low-coverage sequencing data on multiple diploid samples,” Genome research, Vol 21(6), pp.952–960 45 Li H, Durbin R (2011), “Inference of human population history from individual whole-genome sequences,” Nature, Vol 475(7357), p.493 46 Li Y, Chen W, Liu EY, Zhou Y-H (2013), “Single nucleotide polymorphism (SNP) detection and genotype calling from massively parallel sequencing (MPS) data,” Statistics in biosciences, Vol 5(1), pp.3–25 47 Lyngsø RB, Song YS, Hein J (2005), “Minimum recombination histories by branch and bound,” In: International Workshop on Algorithms in Bioinformatics, pp.239–250 48 Mailund T, Dutheil JY, Hobolth A, Lunter G, Schierup MH (2011), “Estimating divergence time and ancestral effective population size of Bornean and Sumatran orangutan subspecies using a coalescent hidden Markov model,” PLoS genetics, Vol 7(3), p.e1001319 49 McCarthy JJ, Hilfiker R (2000), “The use of single-nucleotide polymorphism maps in pharmacogenomics,” Nature biotechnology, Vol 18(5), p.505 50 McVean GAT, Cardin NJ (2005), “Approximating the coalescent with 107 recombination,” Philosophical Transactions of the Royal Society B: Biological Sciences, Vol 360(1459), pp.1387–1393 51 Menelaou A, Marchini J (2012), “Genotype calling and phasing using nextgeneration sequencing reads and a haplotype scaffold,” Bioinformatics, Vol 21(6), pp.84–91 52 Minichiello MJ, Durbin R (2006), “Mapping trait loci by use of inferred ancestral recombination graphs,” The American Journal of Human Genetics, Vol 79(5), pp.910–922 53 Morris AP, Whittaker JC, Balding DJ (2002), “Fine-scale mapping of disease loci via shattered coalescent modeling of genealogies,” The American Journal of Human Genetics, Vol 70(3), pp.686–707 54 NIH (2007), “Understanding human genetic variation,” NIH Curriculum Supplement Series, http://www ncbi nlm nih gov/books/NBK20363 (last accessed 13 October 2015), 55 Parida L, Melé M, Calafell F, Bertranpetit J, Consortium G (2008), “Estimating the ancestral recombinations graph (ARG) as compatible networks of SNP patterns,” Journal of Computational Biology, Vol 15(9), pp.1133–1153 56 Pritchard JK, Przeworski M (2001), “Linkage disequilibrium in humans: models and data,” The American Journal of Human Genetics, Vol 69(1), pp.1–14 57 Rahim NG, Harismendy O, Topol EJ, Frazer KA (2008), “Genetic determinants of phenotypic diversity in humans,” Genome biology, Vol 9(4), p.215 58 Rasmussen MD, Hubisz MJ, Gronau I, Siepel A (2014), “Genome-wide inference of ancestral recombination graphs,” PLoS genetics, Vol 10(5), 108 p.e1004342 59 Salemi M, Vandamme A-M, Lemey P (2009), The phylogenetic handbook: a practical approach to phylogenetic analysis and hypothesis testing, Cambridge University Press 60 Scally A, Durbin R (2012), “Revising the human mutation rate: implications for understanding human evolution,” Nature Reviews Genetics, Vol 13(10), pp.745–753 61 Song YS, Ding Z, Gusfield D, Langley CH, Wu Y (2007), “Algorithms to distinguish the role of gene-conversion from single-crossover recombination in the derivation of SNP sequences in populations,” Journal of Computational Biology, Vol 14(10), pp.1273–1286 62 Song YS, Hein J (2005), “Constructing minimal ancestral recombination graphs,” Journal of Computational Biology, Vol 12(2), pp.147–169 63 Song YS, Lyngso R, Hein J (2006), “Counting all possible ancestral configurations of sample sequences in population genetics,” IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB), Vol 3(3), pp.239–251 64 Song YS, Wu Y, Gusfield D (2005), “Efficient computation of close lower and upper bounds on the minimum number of recombinations in biological sequence evolution,” Bioinformatics, Vol 21(suppl_1), pp.i413 i422 65 Than C, Ruths D, Nakhleh L (2008), “PhyloNet: a software package for analyzing and reconstructing reticulate evolutionary relationships,” BMC bioinformatics, Vol 9(1), p.322 66 Vaughan TG, Welch D, Drummond AJ, Biggs PJ, George T, French NP (2017), “Inferring ancestral recombination graphs from bacterial genomic data,” Genetics, Vol 205(2), pp.857–870 109 67 Visscher PM, Brown MA, McCarthy MI, Yang J (2012), “Five years of GWAS discovery,” The American Journal of Human Genetics, Vol 90(1), pp.7–24 68 Wall JD (2000), “A comparison of estimators of the population recombination rate,” Molecular Biology and Evolution, Vol 17(1), pp.156– 163 69 Wang L, Zhang K, Zhang L (2001), “Perfect phylogenetic networks with recombination,” Journal of Computational Biology, Vol 8(1), pp.69–78 70 Wiuf C, Hein J (1999), “Recombination as a point process along sequences,” Theoretical population biology, Vol 55(3), pp.248–259 71 Wu Y (2007), “Association mapping of complex diseases with ancestral recombination graphs: Models and efficient algorithms,” In: Annual International Conference on Research in Computational Molecular Biology, pp.488–502 72 Wu Y, Gusfield D (2007), “Efficient computation of minimum recombination with genotypes (not haplotypes),” Journal of bioinformatics and computational biology, Vol 5(02a), pp.181–200 73 Zöllner S, Pritchard JK (2005), “Coalescent-based association mapping and fine mapping of complex trait loci,” Genetics, Vol 169(2), pp.1071–1092 110

Ngày đăng: 18/04/2023, 16:49

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan