Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 176 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
176
Dung lượng
10,65 MB
Nội dung
DV.003950 "Ạl HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CỒ N G NGHỀ CÁC PHƯƠNG PHÂN TÍCH jSÁCH KHOA HỌC MS: 3Q1-KHTN 2Ữ19 030 apià * í"* "»'ỉ NHÀ XUẤT BẢN ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PGS.TS LÊ SỸVINH CÁC PHƯƠNG PHÁP PHÂN TÍCH Dữ LIỆU SINH HỌC c ó KÍCH THƯỚC LỚN (Sách chun khảo) NHÀ XUẤT BẢN ĐẠI HỌC QUỐC GIA HÀ NỘI M ỤC LỤ C Trang Danh sách thuật ngữ thường dùng Danh sách kí hiệu thường dùng 11 Giới thiệu .13 Chương MƠ hình trình biến đổi trình tự 1.1 Nucleotide axit am in 15 1.2 Mơ hình thay nucleotide 18 1.2.1 Quá trình biến đổi nucleotide 18 1.2.2 Mơ hình thay nucleotide tổng qt 20 1.2.3 Mơ hình thay nucleotide JC69 22 1.2.4 Mơ hình thay nuceotide K80 22 1.2.5 Mô hình thay nuceotide HKY85 23 1.3 Mơ hình thay axitam in 24 1.4 Sắp hàng đa trình t ự 25 1.5 Cây phân loài 27 1.6 Kết luận chương 28 Chương Xây dựng phân loài dựa vào khoảng cách 2.1 Cây 29 2.1.1 Số lượng phân loài 29 2.1.2 Khoảng cách hai 30 2.1.3 Các phép biến đổi 32 2.1.4 Các phương pháp duyệttrên 34 2.2 Ước lượng khoảng cách di truyển 36 2.3 Phương pháp xây dựng dựa khoảng cách 37 CÁC PHƯƠNG PHÁP PHÂN TÍCH Dử LIỆU SINH HỌC CĨ KÍCH THƯỚC LỚN 2.4 Phương pháp neighbor-joining 39 2.5 Thuật toán "shortest triplet clustering" 42 2.5.1 Mô tả thuật toán 42 2.5.2 Đánh giá thuật toán 46 2.6 Kết luận chương 49 Chương Xây dựng phân lồi dựa vào phân tích trình tự 3.1 Phương pháp cựctiểu số lượng biến đổi 51 3.1.1 Phương pháp duyệt toàn 52 3.1.2 Phương pháp xây dựng bước 54 3.1.3 Phương pháp leo đổi (hill-climbing) .57 3.2 Phương pháp cực đại hợp lý 58 3.2.1 Tiêu chuẩn cực đại hợp lý (maxium likelihood - M L) 58 3.2.2 Tính giá trị hợp lý 59 3.2.3 Tốc độ biến đổi nucleotide vị t r í 60 3.2.4 Phương pháp duyệt toàn 61 3.2.5 Thuật toán PhyNav 62 3.2.6 Phương pháp bốn (quartet puzzling) .65 3.2.7 Phương pháp IQPNNI 67 3.3 Kết luận chương 73 Chương Xây dựng mơ hình thay thếaxit amin 4.1 Phương pháp đếm 75 4.2 Phương pháp cực đại hợp lý 76 4.3 Phương pháp cực đại hợp lý cho tập liệu có kích thước lớn 78 4.3.1 Phương pháp chia nhỏ liệu 78 4.3.2 Thuật toán FastMG 82 4.3.3 Đánh giá thuật toán FastMG 83 4.4 Kết luận chương 88 Mục lục Chương Các mô hình thay axit amin thường dùng 5.1 Mơ hình JTT 89 5.2 Mơ hình BL0SUM62 91 5.3 Mơ hình WAG 93 5.4 Mơ hình LG 96 5.5 Mơ hình thay axit amin cho vi rút 99 5.6 Mơ hình thay axitamin hệ gen ti thể 108 5.7 Mơ hình thay axit amin hệ gen lục lạp 119 5.8 Mơ hình đa ma trận thay axlt am in 121 5.9 Kết luận chương 130 Chương Phân tích hệ gen người 6.1 Giới thiệu 131 6.2 Giải trình tự hệ gen 134 6.3 Biến đổi hệ gen 136 6.4 Sắp hàng đoạn DNA ngắn 138 6.4.1 Sắp hàng xác đoạn DNA ngắn 138 6.4.2 Sắp hàng gắn 139 6.5 Xác định biến đổi điểm 139 6.6 Xác định biến đổi cấu trúc 143 6.7 Chú giải biến đổi 146 6.7.1 Chú giải tẩn suất xuất biến đổi 146 6.7.2 Chú giải ảnh hưởng chức biến đ ổ i 147 6.8 Cơ sở liệu hệ gen người 148 6.8.1 Cơ sở liệu 2504 hệ gen người khỏe 148 6.8.2 Cơ sở liệu hệ gen người Việt 150 6.8.3 Các biến đổi gây bệnh quần thể người Kinh 153 6.9 Kết luận chương 160 \ CÁC PHƯƠNG PHÁP PHÂN TÍCH Dữ LIỆU SINH HỌC c ó KÍCH THƯỚC LỚN Chương Di truyền quẩn thề 7.1 Giới thiệu 161 7.2 Xây dựng phân loài 164 7.3 Phân tích thành phán PCA 166 7.4 Phân tích thành phẩn tổ tiên 167 7.5 Kiểm tra giả thuyết vể dịch chuyển gen 169 7.6 Kết luận chương 171 TÀI LIỆU THAM KHẢO 172 Danh sách thuật ngữ thường dùng Amino Acid Axitamin Bioinformatics Tin sinh học Deletion Biến đổi xóa Distance matrix Ma trận khoảng cách DNA DNA Exchangeability rate matrix Ma trận hệ số hốn đổi Evolution Tiến hóa Frequency vector Vector tần số xuất Gene Gen Genetic distance Khoảng cách di truyền Genome Hệgen Hill-climbing algorithm Thuật toán leo đổi Indel Biến đổi chèn/xóa Instantaneous substitution rate matrix Ma trận tốc độ thay tức Insertion Biến đổi chèn Maximum likelihood Cực đại hợp lý Maximum parsimony Cực tiểu số lượng biến đổi Model Mơ hình Molecular biology Sinh học phân tử Multiple sequence alignment Đa trình tự Nearest neighbor interchange (NNI) Đổi hai hàng xóm gần Neighbor-joining Phương pháp xây dựng phân loài Neighbor-joining dựa vào ma trận khoảng cách Mutation Đột biến Nucleotide Nucleotide 10 CÁC PHƯƠNG PHÁP PHÂN TÍCH DỮ LIỆU SINH HỌC c ó KÍCH THƯỚC LỚN Phylogentictree Cây phân lồi Population genetics Di truyền quẩn thể Principal component analysis (PCA) Phân tích thành phẩn Protein Protein Quartet tree Cây bốn Sequence Trình tự Site rate Tốc độ biến đổi vị trí trình tự Substitution Biến đổi thay Subtree pruning and regrafting (SPR) Cắt-chèn Tree bisection and reconnection (TBR) Tách-nối Variant Biến đổi trình tự Danh sách kí hiệu thường dùng D Dị Một đa trình tự D Tập đa trình tự n Số lượng lồi, số lượng trình tự ỉ Độ dài trình tự/đa trình tự dt Trình tự thứ / đa trình tự d J Vị trí thứýtrên đa trình tự T Cây phân lồi r Đỉnh gốc L ự ) Giá trị hợp lý (likelihood) T w Ma trận khoảng cách Q Ma trận tốc độ biến đổi tức R Ma trận hệ số biến đổi n Veđor tẩn suất xuất Lời nói đầu Các cơng nghệ giải trình tự hệ tạo lượng liệu sinh học phân tử khổng lồ giúp nghiên cứu giải toán quan trọng khoa học sống Hiện nay, chi phí giải trình tự hệ gen người vào khoảng 1000 la Mỹ, cho phép tiến hành nghiên cứu có kích thước hàng trăm hàng nghìn hệ gen Phân tích liệu trình tự giúp xác định cấu trúc, chức năng, mối quan hệ tưcmg tác trình tự Phân tích trình tự bao gồm nhiều tốn cốt lõi hàng đa trình tự, xây dựng phân lồi, mơ hình hóa q trình biển đổi nucleotide/axit amin, phân tích hệ gen người để nghiên cứu ứng dụng ơong y học, xác định trình hình thành, phát triển mối quan hệ quần thể người Các phương pháp phân tích liệu trình tự phát triển nhiều năm qua Tuy nhiên, nhiều phương pháp khơng cịn khả thi áp dụng cho tập liệu có kích thước lớn Các phương pháp cần phát triển để áp ứng nhu cầu Cuốn sách chuyên khảo trình bày tốn quan trọng phân tích dừ liệu trình tự, phương pháp để giải toán cho tập liệu có kích thước lớn Đối tượng sách chuyên khảo học viên cao học, nehiên cứu sinh, người nghiên cứu lĩnh vực tin sinh học hay sinh học phân tử muốn tìm hiểu sâu tốn phân tích trình tự, phương pháp phần mềm phân tích tập liệu có kích thước lớn cách hiệu Cuốn sách chia thành chương với cẩu trúc sau: - Chương trình bày trình biến đổi trình tự, phương pháp để mơ hình hóa biểu diễn trình biến đổi trình tự - Chương trình bày phương pháp xây dựng phân lồi cho tập liệu có kích thước lớn chứa hàng trăm đến hàng nghìn trình tự dựa vào ma trận khoảng cách 166 CÁC PHƯƠNG PHÁP PHÂN TÍCH Dử LIỆU SINH HỌC c ó KÍCH THƯỚC LỚN có độ tin cậy 100%, thể cấu trúc đáng tin cậy Hai phân loài xây dựng hai phương pháp khác có cấu trúc giống hệt Điều the phân lồi biểu diễn mối quan hệ tiến hóa 12 quần thể người, có người Kinh Việt Nam, có độ tin cậy cao Hình 7.4: Cây phân loài xây dựng phương pháp hợp lý biểu diễn mối quan hệ tiến hóa 12 quần thể người Các số cạnh thể mức độ tin cậy cạnh 7.3 Phân tích thành phẩn PCA Phân tích thành phần (Principal component analysis - PCA) phương pháp dùng để phân tích liệu đa chiều Phân tích thành phần giúp biểu diễn liệu mối quan hệ chúng dựa vào số chiều chúng, ứ n g dụng PCA phân tích di truyền quần thể giúp biếu diễn mối quan hệ cá thể quần thể, mối tương quan quần thể với Chúng ta sử dụng phần mềm Eigenst với tập liệu biến đổi đa hình đơn nucleotide độc lập để phân tích thành phần cá thể quần thể Hình 7.5 biểu diễn mối quan hệ quần thể người Đông Nam Á quần thể người Đông Á dựa vào hai thành phần Nhìn chung, cá thể thuộc quần thể phân vào cụm Các cụm quần thể khác tương Chương DI TRUYỀN QUẨN THỂ 167 đối tách biệt, ngoại trừ hai cụm biểu diễn người Kinh Việt Nam người Tài Thái Lan có giao thoa lớn thể mức độ tưoưg đồng cao hai quần thể người Người Hán Trung Quốc phía Nam đóng vai trị cầu nối người Đông Nam Á người Đông Á (bao gồm người Hán Trung Quốc phía Bắc, người Hàn Quốc người Nhật Bản) 0.15 0.10 0.05 0.00 -0.05 -0.05 0.00 0.05 PCI ♦ KHV + ID-JV ầ X TAI • MY ▼ CHB CHS ■ PI # KR ► «i JPT JP-RK Hình 7.5: Mối quan hệ quần thể người Đông Nam Á quần thể người Đơng Á dựa phân tích hai thành phần chính: người Kinh Việt Nam (KHV), người Malaysia (MY), Người Philipin (PI), người Indonesia (ID-JV), người Tài Thái Lan (TH), Người Trung Quốc phía nam (CHS), người Trung Quốc phía bắc (CHB), người Hàn Quốc (KR), Người Nhật Bản (JP) người Ryukyuan Nhật Bản Okinawa 7.4 Phân tích thành phần tể tiên Một phân tích thường tiến hành nghiên cứu di truyền quần thê phân tích quần thể người tổ tiên (ancestral population analysis) đóng góp vê di truyền quần thể người tổ tiên quần thể người Chúng 168 CÁC PHƯƠNG PHÁP PHÂN TÍCH DỮ LIỆU SINH HỌC CĨ KÍCH THƯỚC LỚN ta sử dụng phần mềm fastStructure để phân tích liệu biến đối đa hình đơn nucleotide độc lập (Raj, Stephens Pritchard, 2014) để xác định quẩn thể người tổ tiên Hình 7.6 biểu diễn quần thể người tổ tiên đóng góp quần thể người tổ tiên quần thể người với giả thuyết số lượng quần thể người tổ tiên từ đến Hình 7.6: Mối quan hệ quần thể dựa vào phân tích quần thể người tổ tiên Giá trị K thể số lượng quần thể người tổ tiên Kết với số lượng quần thể người tổ tiên khác cho thấy, người Đơng Nam Á có nguồn gốc chủ yếu từ quần thể người tổ tiên Đông Nam Á phần nhỏ từ quần thể người tổ tiên Đơng Á Cụ thể là: - Nếu có quần thể người tổ tiên (K=2), quần thể người tổ tiên liên quan đến người châu Phi, quần thể người tổ tiên liên quan đến người châu Á Người châu Âu kết hợp quần thể người tổ tiên châu Phi quần thể người tổ tiên châu Á - Nếu có quần thể người tổ tiên (K=3), quần thể người tổ tiên liên quan đến người châu Phi, quần thể người tổ tiên liên quan đến người châu Âu, quần thể người tổ tiên liên quan đến người châu Á - Nếu có quần thể người tổ tiên (K=4), quần thể người tổ tiên liên quan đến người châu Phi, quần thể người tổ tiên liên quan đến người châu Âu, quần thể người tổ tiên liên quan đến người Đông Nam Á, quần người tố tiên liên quan đến người Đông Á Người Hán Trung Quốc kết họp quần thể người tổ tiên Đông Nam Á quần thể người tổ tiên Đông Á Người Chương DI TRUYỀN QUẨN THỂ 169 Đơng Nam Á có nguồn gốc chủ yếu từ quần thể người tổ tiên Đông Nam Á, phần nhỏ từ quần thể người tổ tiên Đơng Á - Neu có quần thể người tổ tiên (K=5), quần thể người tổ tiên liên quan đến người Châu Phi, quần thể người tổ tiên liên quan đến người Châu Âu, quần thể người tổ tiên liên quan đến người Đông Nam Á, quần thể người tố tiên liên quan đến người Đông Á, quần thể người tổ tiên liên quan đến người Ryukyuan Nhật Bản - Ket phân tích với quần thể người tổ tiên trở lên không khác biệt đáng kể so với kết thu với quần thể người tổ tiên bản, người Đơng Nam Á có nguồn gốc từ quần thể người tổ tiên Đông Nam Á, có ảnh hưởng phần nhỏ từ quần thể người tổ tiên Đông Á Sự ảnh hưởng quần thể người tổ tiên Đơng Á đói với người Đơng Nam Á diễn khoảng 4000 năm trước kết họp nông dân Đông Á với người địa Đông Nam Á (McColl et al., 2018) Người Kinh Việt Nam có nguồn gốc từ quần thể người tổ tiên Đơng Nam Á Người Hán phía bắc có nguồn gốc từ quần thể người tổ tiên Đơng Á phần nhỏ từ quần thể người tổ tiên Đông Nam Á Người Hán phía nam có nguồn gốc từ quần thể người tổ tiên Đông Nam Á quần thể người tổ tiên Đơng Á, đóng vai trị cầu nối người Đơng Nam Á người Đông Á 7.5 Kiểm tra giả thuyết vể dịch chuyển gen Một phân tích quan trọng cần tiến hành phân tích cấu trúc mối liên hệ quần thể người kiểm tra dịch chuyển gen (gen flow) quần người với Chúng ta phân tích ảnh hưởng di truyền hai quần the người B c quần thể người X Điều thực thông qua kiểm tra giả thuyết F3 (X; B, C) dịch chuyển gen hai quần thể người B c đến quần thể người X (Patterson et al., 2012) Neu F3(X; B, C) có giá trị âm lớn (z —score < —1.96) có nghĩa hai quần thể B c có ảnh hưởng di truyền (gen-flow) đáng kể đến quần thể X Kiểm tra giải thuyết F3(X; B, C) thực bàng chương trinh Admixtool (Patterson et al., 2012) tập liệu biến đổi đa hình đơn nucleotide độc lập Bảng 7.2 biểu diễn kết F3 (X; B, C) có giá trị z —score < —1.96 liên quan đến 12 quần thể người Theo kết này, quần thể người Kinh Việt Nam có ảnh hưởng mặt di truyền đến quần thể người Malaysia, người Hán Trung Quốc phía nam người Hán Trung Quốc phía Bắc 170 CÁC PHƯƠNG PHÁP PHÂN TÍCH DỮ LIỆU SINH HỌC CĨ KÍCH THƯỚC LỚN Bảng 7.2: Kết F3 test có z —score < —1.96 B c X F3 (X; B, C) z-value YRI ID -JV MY -0.00521 -5.7 YRI PI MY -0.00642 -6.1 YRI TA I MY -0.00655 -6.7 YRI KHV MY -0.00390 -3.8 YRI CHS MY -0.00523 -4.5 YRI CHB MY -0.00310 -2.4 CEU ID -JV MY -0.00716 -9.5 C EU PI MY -0.00777 -9.7 CEU TA I MY -0.00785 -9.9 CEU KHV MY -0.00526 -5.9 C EU CHS MY -0.00679 -7.3 CEU CHB MY -0.00410 -4.0 C EU KR MY -0.00406 -3.9 ID -JV CHB CHS -0.00141 -4.2 ID -JV KR CHS -0.00223 -6.8 MY CHB CHS -0.00169 -5.1 MY KR CHS -0.00180 -5.5 PI CHB CHS -0.00141 -4.8 PI KR CHS -0.00164 -5.1 TA I CHB CHS -0.00139 -5.0 TA I KR CHS -0.00200 -6.7 KHV CHB CHS -0.00071 -2.5 KHV KR CHS -0.00157 -5.7 ID -JV KR CHB -0.00117 -3.2 TA I KR CHB -0.00097 -3.0 KHV KR CHB -0.00121 -4.2 Chương DI TRUYỀN QUẨN THẾ 171 Kết kiểm tra F3(X; B, C) không cho thấy có dịch chuyển gen thực lớn từ quần thể người Đông Nam Á quần thể người Đông Á đến quần thể người Kinh Việt Nam Điều giúp hiểu rõ lịch sử phát triển mối quan hệ mặt di truyền người Kinh Việt Nam với quần thể người khác Đông Nam Á Đông Á 7.6 Kết luận chương Phân tích mối quan hệ quần thể người tiến hành nhiều phương pháp khác nhau, phân tích hệ gen giúp hiểu chất lịch sử di cư, phát triển mối quan hệ quần thể người giới Các phương pháp khác áp dụng để phân tích mối quan hệ quần thể người, phương pháp quan trọng bao gồm: xây dựng tiến hóa biểu diễn mối quan hệ tiến hóa quần thể; phân tích thành phần PCA biểu diễn mối quan hệ cá thể ừong quần thể, quần thể khác nhau; phân tích quần thể người tổ tiên đóng góp chúng quần thể người tại; phương pháp kiểm thử thống kê F3(X; B, C) để kiểm fra dịch chuyển gen quần thể trình quần thể người sinh sống phát triển Ket phân tích quần thể người Kinh Việt Nam với quần thể người giới ủng hộ giả thuyết loài người di cư từ châu Phi, dọc theo đường bờ biển đến khu vực Đông Nam Á, sau tiếp tục di cư đến vùng Đơng Á Các phân tích hệ gen cho thấy người Kinh Việt Nam người Đơng Nam Á cỏ nguồn gốc từ người cổ đại Đông Nam Á mặt di truyền quần thể, người Kinh Việt Nam có mối quan hệ gần gũi với người Tài Thái Lan không chịu ảnh hưởng đáng kể từ quần người Đông Nam Á Đông Á khác Các kết nghiên cứu giúp làm sáng tỏ thêm phần lịch sử phát triển mối quan hệ người Kinh Việt Nam với dân tộc châu Á khác TÀI LIỆU THAM KHẢO 1000 Genomes Project Consortium, Adam Auton, Lisa D Brooks, Richard M Durbin, Erik P Garrison, Hyun Min Kang, Jan O Korbel, et al 2015 “A Global Reference for Human Genetic Variation.” Nature 526 (7571): 68-74 https://doi.org/10.1038/ naturel5393 Abdulla, Mahmood Ameen, Ikhlak Ahmed, Anunchai Assawamakin, Jong Bhak, Samir K Brahmachari, Gayvelline C Calacal, Amit Chaurasia, et al 2009 “Mapping Human Genetic Diversity in Asia.” Science 326 (5959): 1541-45 https://doi.org/ 10.1126/science 1177074 Abrahams, Brett S., Dan E Arking, Daniel B Campbell, Heather C Mefford, Eric M Morrow, Lauren A Weiss, Idan Menashe, Tim Wadkins, Sharmila Banerjee-Basu, and Alan Packer 2013 “SFARI Gene 2.0: A Community-Driven Knowledgebase for the Autism Spectrum Disorders (ASDs).” Molecular Autism (1): 36 https://d0i.0rg/l 0.1186/2040-2392-4-36 Adachi, Jun, Peter J Waddell, William Martin, and Masami Hasegawa 2000 “Plastid Genome Phylogeny and a Model of Amino Acid Substitution for Proteins Encoded by Chloroplast DNA.” Journal of Molecular Evolution, https://doi.org/10.1007/ S002399910038 Adzhubei, Ivan A, Steffen Schmidt, Leonid Peshkin, Vasily E Ramensky, Anna Gerasimova, Peer Bork, Alexey S Kondrashov, and Shamil R Sunyaev 2010 “A Method and Server for Predicting Damaging Missense Mutations.” Nature Methods (4): 248^19 https://doi.org/10.1038/nmeth0410-248 Altshuler, David L., Richard M Durbin, Gon9alo R Abecasis, David R Bentley, Aravinda Chakravarti, Andrew G Clark, Francis S Collins, et al 2010 “A Map of Human Genome Variation from Population-Scale Sequencing.” Nature 461: 1061-73 https://doi.org/10.1038/nature09534 Boomsma, Dorret I., Cisca Wijmenga, Eline P Slagboom, Morris A Swertz, Lennart C Karssen, Abdel Abdellaoui, Kai Ye, et al 2014 “The Genome of the Netherlands: Design, and Project Goals.” European Journal o f Human Genetics 22 (2): 221-27 https://doi.org/10.1038/ejhg.2013.118 Brent, R P 1972 “Algorithms for Minimization Without Derivatives.” Mathematics o f Computation 19 (5): 632-33 https://doi.org/10.1109/TAC.1974.1100629 Cingolani, Pablo, Viral M Patel, Melissa Coon, Tung Nguyen, Susan J Land, Douglas M Ruden, and Xiangyi Lu 2012 “Using Drosophila Melanogaster as a Model for Genotoxic Chemical Mutational Studies with a New Program, SnpSift.” Frontiers in Genetics 3: 35 https://doi.org/10.3389/fgene.2012.00035 Tài liệu th a m khảo 173 Cingolani, Pablo, Adrian Platts, Le Lily Wang, Melissa Coon, Tung Nguyen, Luan Wang, Susan J Land, Xiangyi Lu, and Douglas M Ruden 2012 “A Program for Annotating and Predicting the Effects of Single Nucleotide Polymorphisms, SnpEff: SNPs in the Genome of Drosophila Melanogaster Strain W1118; Iso-2; Iso-3.” Fly (2): 80-92 https://doi.org/10.4161/fly.19695 Dang, Cuong C.ao, Le Sy Vinh, Olivier Gascuel, Bart Hazes, and Quang S.i Le 2014 “FastMG: A Simple, Fast, and Accurate Maximum Likelihood Procedure to Estimate Amino Acid Replacement Rate Matrices from Large Data Sets.” BMC Bioinformatics 15: 341 https://doi.org/10.1186/1471-2105-15-341 Dang, Cuong Cao, Quang Si Le, Olivier Gascuel, and Le Sy Vinh 2010 “FLU, an Amino Acid Substitution Model for Influenza Proteins.” BMC Evolutionary Biology 10: 99 https://doi.org/10.1186/1471-2148-10-99 Dang, Cuong Cao, Vinh Sy Le, Olivier Gascuel, Bart Hazes, and Quang Si Le 2014 “FastMG: A Simple, Fast, and Accurate Maximum Likelihood Procedure to Estimate Amino Acid Replacement Rate Matrices from Large Data Sets.” BMC Bioinformatics 15 (1): 341 https://doi.org/10.1186/1471-2105-15-341 Dang, Cuong Cao, Vincent Lefort, Le Sy Vinh, Quang Si Le, and Olivier Gascuel 2011 “Replacementmatrix: A Web Server for Maximum-Likelihood Estimation of Amino Acid Replacement Rate Matrices.” Bioinformatics 27 (19): 2758-60 https://doi.org/10.1093/bioinformatics/btr435 Darwin, Charles 1872 On the Origin o f Species 6th ed London: John Murray David, Matei, Misko Dzamba, Dan Lister, Lucian Ilie, and Michael Brudno 2011 “SHRiMP2: Sensitive yet Practical Short Read Mapping.” Bioinformatics 12 (7): 1011-12 https://doi.org/10.1093/bioinformatics/btr046 Dayhoff, Mo, and RM Schwartz 1978 “A Model of Evolutionary Change in Proteins.” In Atlas o f Protein Sequence and Structure 22: 345-52 https://doi.org/10.Ll 145.4315 Depristo, Mark A., Eric Banks, Ryan Poplin, Kiran V Garimella, Jared R Maguire, Christopher Hard, Anthony A Philippakis, et al 2011 “A Framework for Variation Discovery and Genotyping Using Next-Generation DNA Sequencing Data.” Nature Genetics 43: 491-98 https://doi.org/10.1038/ng.806 Dimmic, Matthew W., Joshua S Rest, David P Mindell, and Richard A Goldstein 2002 “RtREV: An Amino Acid Substitution Matrix for Inference of Retrovirus and Reverse Transcriptase Phylogeny.” Journal o f Molecular Evolution 55 (1): 6573 https://d0i.0rg/l 0.1007/s00239-001-2304-y Edgar, Robert C 2004 “MUSCLE: Multiple Sequence Alignment with High Accuracy and High Throughput.” Nucleic Acids Research 32 (5): 1792-97 https://doi.org/ 10.1093/nar/gkh340 Felsenstein, Joseph 2003 Inferring Phytogenies Sunderland Sunderland, MA, USA: Sinauer Associates, https://doi.org/10.1086/383584 174 CÁC PHƯƠNG PHÁP PHÂN TÍCH DỮ LIỆU SINH HỌC c ó KÍCH THƯỚC LỚN Ferragina, Paolo, Rodrigo Gonzalez, Gonzalo Navarro, and Rossano Venturini 2009 “Compressed Text Indexes.” Journal o f Experimental Algorithmics 13: No 12 https://doi.org/10.1145/1412228.1455268 Ferragina, Paolo, and Giovanni Manzini 2005 “Indexing Compressed Text.” Journal o f the ACM 52 (4): 552-81 https://doi.org/10.1145/1082036.1082039 Fitch, Walter M 1971 “Toward Defining the Course of Evolution: Minimum Change for a Specific Tree Topology.” Systematic Biology 20 (4): 406-16 https://doi.org/ 10.1093/sysbio/20.4.406 Garrison, Erik, and Marth Gabor 2012 “Haplotype-Based Variant Detection from Short-Read Sequencing.” ArXiv Preprint, arXiv: 1207.3907 Gascuel, Olivier 1997 “BIONJ: An Improved Version of the NJ Algorithm Based on a Simple Model of Sequence Data.” Molecular Biology and Evolution 14 (7): 68595 https://doi.org/10.1093/oxfordjoumals.molbev.a025808 Giribet, Gonzalo 2005 “TNT: Tree Analysis Using New Technology.” Systematic Biology 54 (1): 176-78 https://doi.org/10.1080/10635150590905830 Guindon, Stephane, and Olivier Gascuel 2003 “A Simple, Fast, and Accurate Algorithm to Estimate Large Phylogenies by Maximum Likelihood.” Systematic Biology 52 (5): 696-704 https://doi.org/10.1080/10635150390235520 Guo, Yunfei, Xiao lei Ding, Yufeng Shen, Gholson J Lyon, and Kai Wang 2015 “SeqMule: Automated Pipeline for Analysis of Human Exome/Genome Sequencing Data.” Scientific Reports 5: 14283 https://doi.org/10.1038/srepl4283 Hai, Dang Thanh, Nguyen Dai Thanh, Pham Thi Minh Trang, Le Si Quang, Phan Thi Thu Hang, Dang Cao Cuong, Hoang Kim Phuc, et al 2015 “Whole Genome Analysis of a Vietnamese Trio.” Journal o f Biosciences 40 (1): 113-24 https://d0i.0rg/l 0.1007/s 12038-015-9501 -0 Hasegawa, Masami, Hirohisa Kishino, and Taka aki Yano 1985 “Dating of the Human-Ape Splitting by a Molecular Clock of Mitochondrial DNA.” Journal o f Molecular Evolution 22: 160-74 https://doi.org/10.1007/BF02101694 Henikoff, S, and J G Henikoff 1992 “Amino Acid Substitution Matrices from Protein Blocks.” Proceedings o f the National Academy o f Sciences o f the United States o f America 89 (22): 10915-19 Hoang, Diep Thi, Le Sy Vinh, Tomas Flouri, Alexandras Stamatakis, Arndt Von Haeseler, and Bui Quang Minh 2018 “MPBoot: Fast Phylogenetic Maximum Parsimony Tree Inference and Bootstrap Approximation.” BMC Evolutionary Biology 18: 11 https://doi.org/10.1186/sl2862-018-1131-3 Jones, David T., William R Taylor, and Janet M Thornton 1992 “The Rapid Generation of Mutation Data Matrices from Protein Sequences.” Bioinformatics 8: 275-82 https://doi org/10.1093/bioinformatics/8.3.275 Jukes, T.H., and C R Cantor 1969 “Evolution of Protein Molecules.” In Mammalian Protein Metabolism, edited by H.N Munro, 21-123 New York: Academic Press Tài liệu th a m khảo 175 Kimura, Motoo 1980 “A Simple Method for Estimating Evolutionary Rates of Base Substitutions through Comparative Studies of Nucleotide Sequences.” Journal o f Molecular Evolution 16: 111-20 https://doi.org/10.1007/BF01731581 Knuth, Donald E and Morris, Jr, James H and Pratt, Vaughan R 1977 “Fast Pattern Matching in Strings.” SIAM Journal on Computing (2): 323-50 https://doi.org/ 10.1137/0206024 Lan, Tianming, Haoxiang Lin, Wenjuan Zhu, Tellier Christian Asker Melchior Laurent, Mengcheng Yang, Xin Liu, Jun Wang, et al 2017 “Deep Whole-Genome Sequencing of 90 Han Chinese Genomes.” GigaScience (9): 1-7 https://doi.org/ 10.1093/gigascience/gix067 Landrum, Melissa J., Jennifer M Lee, Mark Benson, Garth R Brown, Chen Chao, Shanmuga Chitipiralla, Baoshan Gu, et al 2018 “ClinVar: Improving Access to Variant Interpretations and Supporting Evidence.” Nucleic Acids Research 46: D1062-67 https://doi.org/10.1093/nar/gkxl 153 Langmead 2013 “Bowtie2.” Nature Methods (4): 357-59 https://doi.org/10.1038/ nmeth 1923.Fast Langmead, Ben, Cole Trapnell, Mihai Pop, and Steven L Salzberg 2009 “Ultrafast and Memory-Efficient Alignment of Short DNA Sequences to the Human Genome.” Genome Biology 10 (3): R25 https://doi.org/10.1186/gb-2009-10-3-r25 Lappalainen, Ilkka, John Lopez, Lisa Skipper, Timothy Hefferon, J Dylan Spalding, John Gamer, Chao Chen, et al 2013 “DbVar and DGVa: Public Archives for Genomic Structural Variation.” Nucleic Acids Research 41 (Database issue): D936-41 https://d0i.0rg/l 0.1093/nar/gks 1213 Le, Si Quang, and Olivier Gascuel 2008 “An Improved General Amino Acid Replacement Matrix.” Molecular Biology and Evolution 25 (7): 1307-20 https://doi.org/10.1093/molbev/msn067 Lek, Monkol, Konrad J Karczewski, Eric V Minikel, Kaitlin E Samocha, Eric Banks, Timothy Fennell, Anne H O’Donnell-Luria, et al 2016 “Analysis of ProteinCoding Genetic Variation in 60,706 Humans.” Nature 536 (7616): 285-91 https://doi.org/10.1038/naturel9057 Li, Heng 2011 “A Statistical Framework for SNP Calling, Mutation Discovery, Association Mapping and Population Genetical Parameter Estimation from Sequencing Data.” Bioinformatics 27 (21): 2987-93 https://doi.org/10.1093/ bioinformatics/btr509 Li, Heng, and Richard Durbin 2009 “Fast and Accurate Short Read Alignment with Burrows-Wheeler Transform.” Bioinformatics 25 (14): 1754-60 https://doi.org/ 10.1093/bioinformatics/btp324 Li, Heng, Jue Ruan, and Richard Durbin 2008 “Mapping Short DNA Sequencing Reads and Calling Variants Using Mapping Quality Scores.” Genome Research 18 (11): 1851-58 https://doi.org/10.1101/gr.078212.108 176 CÁC PHƯƠNG PHÁP PHÂN TÍCH DỮ LIỆU SINH HỌC CĨ KÍCH THƯỚC LỚN Li, Ruiqiang, Yingrui Li, Karsten Kristiansen, and Jun Wang 2008 “SOAP: Short Oligonucleotide Alignment Program.” Bioinformatics 24 (5): 713-14 https://d0i.0rg/l 0.1093/bioinformatics/btn025 Lu, Dongsheng, and Shuhua Xu 2013 “Principal Component Analysis Reveals the 1000 Genomes Project Does Not Sufficiently Cover the Human Genetic Diversity in Asia.” Frontiers in Genetics 4: 127 https://doi.org/10.3389/fgene.2013.00127 Lunter, Gerton, and Martin Goodson 2011 “Stampy: A Statistical Algorithm for Sensitive and Fast Mapping of Illumina Sequence Reads.” Genome Research 21 (6): 936-39 https://doi.org/10.1101/gr.111120.110 MacDonald, Jeffrey R., Robert Ziman, Ryan K C Yuen, Lars Feuk, and Stephen W Scherer 2014 “The Database of Genomic Variants: A Curated Collection of Structural Variation in the Human Genome.” Nucleic Acids Research 42 (Dl) https://doi.org/10.1093/nar/gkt958 McColl, Hugh, Fernando Racimo, Lasse Vinner, Fabrice Demeter, Takashi Gakuhari, J Victor Moreno-Mayar, George Van Driem, et al 2018 “The Prehistoric Peopling of Southeast Asia.” Science 361 (6397): 88-92 https://doi.org/10.1126/science aat3628 McKenna, Aaron, Matthew Hanna, Eric Banks, Andrey Sivachenko, Kristian Cibulskis, Andrew Kemytsky, Kiran Garimella, et al 2010 “The Genome Analysis Toolkit: A MapReduce Framework for Analyzing next-Generation DNA Sequencing Data.” Genome Research 20 (9): 1297-1303 https://doi.org/10.1101/gr.107524.110 Minh, Bui Quang, Le Sy Vinh, Amdt von Haeseler, and Heiko A Schmidt 2005 “PIQPNNI: Parallel Reconstruction of Large Maximum Likelihood Phylogénies.” Bioinformatics 21 Í191: 3794-96 https://doi.org/10.1093/bioinformatics/bti594 Navarro, Gonzalo, and Veli Makinen 2007 “Compressed Full-Text Indexes.” ACM Computing Surveys 39 (1): No https://doi.Org/10.l 145/1216370.1216372. Nei, Masatoshi 1987.—“The—Neighbor-Joining Method: A New Method f o r Reconstructing Phylogenetic Trees’.” Molecular Biology Evolution (4): 406-25 https ://doi.org/citeulike-article-id:93683. = = = = = ^ = = = ^ ^ = = Nguyen Lam Tung Heiko A Schmidt Arndt Von Haeseler, and Bui Quang Minh 2015 “IO-TREF: A Fast and Effective Stochastic Algorithm for Estimating Olsen, Gary J., Hideo Matsuda, Ray Hagstrom, and Ross Overbeek 1994 “FastDNAml: A Tool for Construction of Phylogenetic Trees of DNA Sequences Using Maximum Likelihood.” Bioinformatics 10 (11: 41-48 https://doi.org/ 10.1093/bioinformatics/10.1.41 ” -Patterson Nick Priva Moorjani, Yontao Luo, Swapan Mallick, Nadin Rohland, Yipmg Zhan Teri Genschoreck Teresa Webster, and David Reich 2012 “Ancient Admixture in Human History.” Genetics 192 (3): 1065-93 https://doi.org/10.1534/ genetics.! 12.145037 Tài liệu th am khảo 177 Patterson, Nick, Alkes L Price, and David Reich 2006 “Population Structure and Eigenanalysis.” PLoS Genetics (12): el90 https://doi.org/10.1371/joumal.pgen 0020190 Pickrell, Joseph K., and Jonathan K Pritchard 2012 “Inference of Population Splits and Mixtures from Genome-Wide Allele Frequency Data.” PLoS Genetics (11): el002967 https://doi.org/10.1371/joumal.pgen.1002967 Press, William H, Saul A Teukolsky, William T Vettering, and Brian P Flannery 2007 NUMERICAL RECIPES The Art o f Scientific Computing Third Edition CAMBRIDGE UNIVERSITY PRESS https://doi.org/10.1017/CB0978110 7415324.004 Raj, Anil, Matthew Stephens, and Jonathan K Pritchard 2014 “FastSTRUCTURE: Variational Inference of Population Structure in Large SNP Data Sets.” Genetics 197 (2): 573-89 https://doi.org/10.1534/genetics.114.164350 Rambaut, Andrew, and Nicholas C Grass 1997 “Seq-Gen: An Application for the Monte Carlo Simulation of DNA Sequence Evolution along Phylogenetic Trees.” Computer Applications in the Biosciences 13 (3): 235-38 https://doi.org/10.1093/ bioinformatics/13.3.235 Rimmer, Andy, Hang Phan, Iain Mathieson, Zamin Iqbal, Stephen R F Twigg, Andrew O M Wilkie, Gil McVean, and Gerton Lunter 2014 “Integrating Mapping-, Assembly- and Haplotype-Based Approaches for Calling Variants in Clinical Sequencing Applications.” Nature Genetics 46 (8): 912-18 https://doi.org/ 10.1038/ng.3036 Schwarz, Jana Marie, Christian Rodelsperger, Markus Schuelke, and Dominik Seelow 2010 “MutationTaster Evaluates Disease-Causing Potential of Sequence Alterations.” Nature Methods (8): 575-76 https://doi.org/10.1038/nmeth0810-575 Sherry, S T, M H Ward, M Kholodov, J Baker, L Phan, E M Smigielski, and K Sirotkin 2001 “DbSNP: The NCBI Database of Genetic Variation.” Nucleic Acids Research 29 (1): 308-11 Stamatakis, Alexandras 2006 “RAxML-VI-HPC: Maximum Likelihood-Based Phylogenetic Analyses with Thousands of Taxa and Mixed Models.” Bioinformatics 22 (21): 2688-90 https://doi.org/10.1093/bioinformatics/btl446 - 2015 “Using RAxML to Infer Phylogenies.” Current Protocols in Bioinformatics / Editoral Board, Andreas D Baxevanis [et Al.J 51: 6.14.16.14.14 https://doi.org/10.1002/0471250953.bi0614s51 Stenson, PD, M Mort, EV Ball, K Shaw, A Phillips, and DN Cooper 2014 “The Human Gene Mutation Database: Building a Comprehensive Mutation Repository for Clinical and Molecular Genetics, Diagnostic Testing and Personalized Genomic Medicine.” Human Genetics 133 (1): 1-9 Stenson, Peter D., Edward V Ball, Matthew Mort, Andrew D Phillips, Jacqueline A Shiel, Nick S T Thomas, Shaun Abeysinghe, Michael Krawczak, and David N Cooper 2003 “Human Gene Mutation Database (HGMD): 2003 Update.” Human Mutation, https://doi.org/10.1002/humu.10212 178 CÁC PHƯƠNG PHÁP PHÂN TÍCH DỮ LIỆU SINH HỌC c ó KÍCH THƯỚC LỚN Strimmer, Korbinian, and Amdt Von Haeseler 1996 “Quartet Puzzling: A Quartet Maximum-Likelihood Method for Reconstructing Tree Topologies.” Molecular Biology and Evolution 13 (7): 964 https://doi.org/10.1093/oxfordjoumals.molbev a025664 Tattini, Lorenzo, Romina D’Aurizio, and Alberto Magi 2015 “Detection of Genomic Structural Variants from Next-Generation Sequencing Data.” Frontiers in Bioengineering and Biotechnology 3: 92 https://doi.org/10.3389/fbioe.2015.00092 Tavaré, Simon 1986 “Some Probabalistic and Statistical Problems in the Analysis of DNA Sequences.” Lectures on Mathematics in the Life Sciences 17: 57-86 Thomopson, J D, Desmond G Higgins, and Toby J Gibson 1994 “ClustalW.” Nucleic Acids Res 22 (22): 4673-80 Tran, Kien, Le Sy Vinh, Chinh Vu, and Liem Nguyen 2019 “A Novel Mutation in LAMA2 Unraveled Merosin Deficient Congenital Muscular Dystrophy Type 1A: A Case Report from a Vietnamese with Previously Unknown Diagnosis.” Submitted Varón, Andrés, Le Sy Vinh, and Ward c Wheeler 2010 “POY Version 4: Phylogenetic Analysis Using Dynamic Homologies.” Cladistics 26 (1): 72-85 https://doi.org/10T 111/j.l 096-003 L2009.00282.x7 Vinh, Le Sy, Cuong Cao Dang, and Quang Si Le 2017 “Improved Mitochondrial Amino Acid Substitution Models for Metazoan Evolutionary Studies.” BMC Evolutionary Biology 17: 136 https://doi.org/10.1186/sl2862-017-0987-y Vinh, Le Sy, and Arndt von Haeseler 2005 “Shortest Triplet Clustering: Reconstructing Large Phytogenies Using Representative Sets.” BMC Bioinformatics 6: 92 https://doi.org/10.1186/1471 -2105-6-92 Vinh, Le Sy, and Amdt Von Haeseler 2004 “IQPNNI: Moving Fast through Tree Space and Stopping in Time.” Molecular Biology and Evolution 21 (8): 1565-71 https://doi.org/10.1093/molbev/mshl76 Vinh, Le Sy, Phan Hoang True Le, Thi Khanh Van Le, Thi Thuy Kieu Huynh, and Thi Thu Hang Do 2017 “A Mutation in GABRB3 Associated with Dravet Syndrome.” American Journal o f Medical Genetics, Part A 173 (8): 2126-31 https://doi.Org/10.1002/ajmg.a.38282 Vinh, Le Sy, Canh Nguyen, Thang Bui, Chinh Duong, Hoang Tran, Hang Do, Minh Le, and Linh Pham 2017 “Genomedics: Whole Exome Analysis System for Clinical Studies.” In The 9th International Conference on Knowledge and Systems Engineering (KSE 2017), 142—47 Vinh, Le Sy, Heiko A Schmidt, and Amdt Von Haeseler 2005 “PhyNav: A Novel Approach to Reconstruct Large Phylogenies.” In Studies in Classification, Data Analysis, and Knowledge Organization, https://doi.org/10.1007/3-540-28084-7-44 Vinh, Le Sy, Kien Tran, Hoa Bui, Huong Le, Canh Nguyen, Duong Do, Ha Ly, Linh Pham, Lan Dao, and Liem Nguyen 2019 “A Vietnamese Human Genetic Variation Database.” Hum, Accepted, https://doi.org/doi: 10.1002/humu.23835 Tài liệu th am khảo 179 Wang, Kai, Mingyao Li, and Hakon Hakonarson 2010 “ANNOVAR: Functional Annotation of Genetic Variants from High-Throughput Sequencing Data.” Nucleic Acids Research 38 (16): el64 https://doi.org/10.1093/nar/gkq603 Whelan, S, and N Goldman 2001a “A General Empirical Model of Protein Evolution Derived from Multiple Protein Families Using a Maximum-Likelihood Approach.” Molecular Biology and Evolution 18 (5): 691-99 https://doi.org/10.1093/ oxfordjoumals.molbev.a003 851 - 2001b “A General Empirical Model of Protein Evolution Derived from Multiple Protein Families Using a Maximum-Likelihood Approach.” Molecular Biology and Evolution 18: 691-99 https://doi.org/10.1093/oxfordjoumals molbev.a003851 Whelan, Simon, and Nick Goldman 2001 “A General Empirical Model of Protein Evolution Derived from Multiple Protein Families Using a Maximum-Likelihood Approach.” Molecular Biology and Evolution 18 (5): 691-99 https://doi.org/10.1093/ oxfordjoumals.molbev.a003851 Wilgenbusch, James C., and David Swofford 2003 “Inferring Evolutionary Trees with PAUP*.” In Current Protocols in Bioinformatics, https://doi.org/10.1002/0471250953 bi0604s00 Wong, Lai-Ping, RickTwee-Hee Ong, Wan-Ting Poh, Xuanyao Liu, Peng Chen, Ruoying Li, Kevin Koi-Yau Lam, et al 2013 “Deep Whole-Genome Sequencing of 100 Southeast Asian Malays.” American Journal o f Human Genetics 92 (1): 5266 https://doi.Org/10.1016/j.ajhg.2012.12.005 Xue, Yali, Yuan Chen, Qasim Ayub, Ni Huang, Edward V Ball, Matthew Mort, Andrew D Phillips, et al 2012 “Deleterious- and Disease-Allele Prevalence in Healthy Individuals: Insights from Current Predictions, Mutation Databases, and Population-Scale Resequencing.” American Journal o f Human Genetics 91 (6): 1022-32 https://doi.orgT0.1016/j.ajhg.2012.10.015 Yang, Ziheng 1994 “Maximum Likelihood Phylogenetic Estimation from DNA Sequences with Variable Rates over Sites: Approximate Methods.” Journal o f Molecular Evolution 39 (3): 306-14 https://doi.org/10.1007/BF00160154 Zhang, Wenqian, Joe Meehan, Zhenqiang Su, Hui Wen Ng, Mao Shu, Heng Luo, Weigong Ge, Roger Perkins, Weida Tong, and Huixiao Hong 2014 “Whole Genome Sequencing of 35 Individuals Provides Insights into the Genetic Architecture of Korean Population.” BMC Bioinformatics 15 (Suppl 11): S6-S6 https://doi.org/! 0.1186/1471 -2105-15-S11-S6 NHÀ XUẤT BẢN ĐẠI HỌCQUỐCGIA HÀ NỘI 16 Hàng Chuối - Hai Bà Trưng - Hà Nội Chịu trách nhiệm xuất bản: Giám đốc - Tổng Biên tập: (024) 39715011 Quản lý xuât bàn: (024) 39728806; Fax: (024) 39724736 Biên tập: (024) 39714896 Kỹ thuậtxuẫt bản: (024) 39715013 Giám đốc - Tổng Biên tập: TS PHẠM THỊ TRÂM Hội nghiệm thu g iáo trinh Trường Đại học Công nghệ - ĐHQGHN Người nhận xét: PGS.TS TRÁN ĐĂNG HƯNG - TS LÊ QUANG MINH Biên tập: NGUYỄN THỊ THỦY Chế bản: NGUYỄN SỸ DƯƠNG Trình bày bìa: NGUYỄN NGỌC ANH CÁC PHƯƠNG PHẤP PHÂN TÍCH DỮ LIỆU SINH HỌC có KÍCH THƯỚC LỚN Mã số: 1K - 20 ĐH2019 In 200 bản, khổ 19x27 cm Công ty cổ phẩn In Bản Việt Địa chỉ: Thơn Hậu Ái, Vân Canh, Hồi Đức, Hà Nội Số xuất bản: 5287 - 2019/CXBIPH/01 - 355/ĐHQGHN, ngày 18/12/2019 Quyết định xuất số: 26 KH - TN/QĐ - NXBĐHQGHN, ngày 19/12/2019 In xong nộp lưu chiểu năm 2019