Trong bài báo này đề xuất một phương pháp lấy mẫu hai bước để lựa chọn các đặc trưng có ý nghĩa trong việc huấn luyện mô hình rừng ngẫu nhiên. Phương pháp này cho phép chọn ra một tập nhỏ các đặc trưng có liên hệ chặt chẽ với biến đích (bệnh), do đó làm giảm số chiều và có thể xử lý tốt trên các tập dữ liệu có số chiều cao. Mời bạn đọc tham khảo.
J Sci & Devel 2015, Vol 13, No 2: 301-307 Tạp chí Khoa học Phát triển 2015, tập 13, số 2: 301-307 www.vnua.edu.vn PHƯƠNG PHÁP LẤY MẪU THUỘC TÍNH MỚI TRONG RỪNG NGẪU NHIÊN CHO PHÂN TÍCH DỮ LIỆU SNP Nguyễn Văn Hoàng*, Phan Thị Thu Hồng, Nguyễn Thanh Tùng, Nguyễn Thị Thủy Khoa Công nghệ thông tin, Học viện Nông nghiệp Việt Nam Email*: nvhoang@vnua.edu.vn Ngày gửi bài: 22.10.2014 Ngày chấp nhận: 20.12.2014 TÓM TẮT Gần đây, nghiên cứu liên kết mức toàn hệ gen (GWAS) đạt thành công việc xác định số biến thể di truyền có ảnh hưởng tương đối lớn tới số bệnh phức tạp Hầu hết GWAS sử dụng tiếp cận đơn SNP (đa hình đơn nucleotide) tập trung vào việc đánh giá liên hệ SNP riêng biệt với bệnh Tuy nhiên, thực tế, bệnh phức tạp cho liên quan tới nguyên nhân phức tạp bao gồm tương tác rắc rối nhiều SNPs Do đó, cần có cách tiếp cận khác để xác định ảnh hưởng SNP tương tác phức tạp SNP tới bệnh Phương pháp rừng ngẫu nhiên (Random Forest, RF) gần ứng dụng thành công GWAS cho việc xác định số nhân tố di truyền có ảnh hưởng lớn tới số bệnh phức tạp Mặc dù RF xử lý tốt khía cạnh xác dự đốn số tập liệu có kích cỡ trung bình, mơ hình RF truyền thống có nhiều hạn chế việc xác định SNPs có ý nghĩa xây dựng mơ hình dự đốn xác Trong báo này, đề xuất phương pháp lấy mẫu hai bước để lựa chọn đặc trưng có ý nghĩa việc huấn luyện mơ hình rừng ngẫu nhiên Phương pháp cho phép chọn tập nhỏ đặc trưng có liên hệ chặt chẽ với biến đích (bệnh), làm giảm số chiều xử lý tốt tập liệu có số chiều cao Chúng tơi tiến hành thực nghiệm hai tập liệu chuẩn SNP mức toàn hệ gen để làm sáng tỏ hiệu phương pháp đề xuất Từ khóa: Genome-wide Association Study, học máy, khai phá liệu, rừng ngẫu nhiên A New Feature Sampling Method in Learning Random Forest for SNP Data Analysis ABSTRACT Recently, Genome-wide association studies (GWAS) have been successful in the identification of genetic variants that have effects in some complex diseases Most GWA studies used single SNP (single-nucleotide polymorphism) approaches that mainly focused on assessing the association between each individual SNP and the disease However, in fact, complex diseases are thought to involve complex etiologies including complicated interactions between many SNPs Thus, different approaches are necessary to identify SNPs that influence disease risk jointly or in complex interactions Random Forest (RF) method recently has been successfully used in GWAS for identifying genetic factors that have effects in some complex diseases In spite of performing well in terms of prediction accuracy in some data sets with moderate size, RF still suffers from working in GWAS for selecting informative SNPs and building accurate prediction models In this paper, we propose a new two-stage sampling method in learning random forests The proposed method allows to select a sub-set of informative SNPs which are most relevant to disease Therefore, it reduces the dimensionality and can perform well with high-dimensional data sets We conducted experiments on two genome-wide SNP data sets to demonstrate the effectiveness of the proposed method Keywords: Genome-wide Association Study, machine learning, data mining, random forest 301 ĐẶT VẤN ĐỀ CÁC NGHIÊN CỨU LIÊN QUAN Công nghệ sinh học đạt bước tiến vượt bậc cơng nghệ giải mã trình tự gen Giờ đây, tồn hệ gen giải mã trình tự dễ dàng nhanh chóng với chi phí thấp (Mardis, 2011) Hệ gen giải mã trình tự nhanh chóng tạo điều kiện cho nghiên cứu liên kết mức toàn hệ gen trở nên khả thi Thực tế nghiên cứu liên kết mức toàn hệ gen (Genome-wide association studies - GWAS) giúp xác định nhiều biến dị gen nguyên nhân dẫn tới số bệnh phức tạp (Wellcome Trust, 2007) Nhiều biến dị gen có liên hệ với bệnh bệnh tim mạch (Mohlke et al., 2008), bệnh miễn dịch (Lettre et al., 2008), bệnh tiểu đường (Sladek et al., 2007) nhiều bệnh ung thư khác (Easton et al., 2007; 2008) xác định thông qua nghiên cứu liên kết mức toàn hệ gen Hầu hết GWAS tiến hành sử dụng tiếp cận đơn SNP Tiếp cận đơn SNP sử dụng xem xét ảnh hưởng SNP riêng lẻ đến bệnh quan tâm Tuy nhiên, bệnh phức tạp cho tác động kết hợp nhiều SNP (Moore, 2005) Do đó, tiếp cận đơn SNP không xác định nguyên nhân di truyền bệnh phức tạp kết tương tác nhiều SNP Chính vậy, phương pháp nghiên cứu cho phép phát ảnh hưởng cộng tác nhiều SNP đến bệnh thực cần thiết Trong mục chúng tơi phân tích hướng tiếp cận có cho tốn phân tích liệu SNP Hướng tiếp cận đơn giản kiểm tra tất tổ hợp SNP Tuy nhiên số lượng tổ hợp lớn nên địi hỏi giá thành tính tốn lớn Tiếp cận kiểm tra tất tổ hợp gồm SNP thực cho thấy tốn thời gian, cụ thể cần tới 33 để phân tích liệu 1.000 trường hợp bệnh 1.000 trường hợp đối chứng cluster với 10 cpu (Marchini et al., 2005) Mở rộng ra, việc kiểm tra tất tổ hợp SNP trở nên không khả thi mặt tính tốn (Cordell, 2009) Một tiếp cận khác xây dựng tập SNP có khả liên quan tới bệnh thông qua kiểm thử đơn biến SNP sau kiểm tra tất tổ hợp SNP tập SNP vừa xây dựng Tiếp cận giúp giảm chi phí tính tốn nhiên loại bỏ SNP mà đứng độc lập liên quan tới bệnh ảnh hưởng lớn tới bệnh diện SNP khác Tuy nhiên, xét quy mơ tồn hệ gen số lượng SNP vô lớn Dữ liệu SNP liệu hàng trăm ngàn SNP lấy mẫu từ vài nghìn, chí vài trăm cá thể Do liệu SNP có số lượng thuộc tính lớn nhiều so với số lượng mẫu Như vậy, liệu SNP liệu có số chiều cao mơ hình thống kê truyền thống khơng cịn thích hợp để phân tích Ngồi ra, nhà nghiên cứu sinh học tin có lượng nhỏ SNP liên quan tới loại bệnh cụ thể nên liệu SNP liệu có độ nhiễu cao Vì vậy, việc xác định nhóm SNP có ảnh hưởng lớn tới bệnh tốn khó 302 Random Forest (RF) phương pháp phân lớp hồi quy dựa việc kết hợp kết dự đoán số lượng lớn định Trong mơ hình RF truyền thống định xây dựng từ tập liệu lấy ngẫu nhiên từ tập liệu ban đầu việc phát triển nút từ nút cha dựa thông tin khơng gian thuộc tính chọn ngẫu nhiên từ khơng gian thuộc tính ban đầu (Brieman, 2001) Do RF xây dựng định từ tập thuộc tính lựa chọn ngẫu nhiên tổng hợp kết dự đoán để tạo kết dự đoán cuối Các định xây dựng sử dụng thuật tốn CART (Brieman, 1984) mà khơng thực việc cắt tỉa thu với độ lệch thấp Bên cạnh đó, mối quan hệ tương quan định giảm thiểu nhờ việc xây dựng khơng gian thuộc tính cách ngẫu nhiên Do đó, việc kết hợp kết số lượng lớn định độc lập có độ lệch thấp, phương sai cao giúp RF đạt độ lệch thấp phương sai thấp Như vậy, xác RF phụ thuộc vào chất lượng dự đoán định mức độ tương quan định Trong thực tế RF trở thành công cụ tin cậy cho phân tích liệu đặc biệt liệu tin sinh học RF sử dụng nhiều nghiên cứu phân tích liệu SNP (Bureau et al., 2005; Goldstein et al., 2010; Goldstein et al., 2011; Winham et al., 2012) Tuy nhiên, tiếp cận cài đặt RF ban đầu Breiman hiệu cho phân tích liệu có số chiều thấp Bureau cộng cho thấy RF cho kết tốt với liệu SNP đối chứng (case-control) với cỡ 42 SNPs (Bureau et al., 2005) RF áp dụng tập liệu giả lập với số lượng SNP không 1.000 (Lunetta et al., 2004) Do tiếp cận cài đặt ban đầu RF áp dụng liệu hàng trăm ngàn SNP Vì vậy, RF áp dụng phân tích liệu SNP tồn hệ gen Để áp dụng RF lên liệu SNP tồn hệ gen, cần có cải tiến thích hợp Tiếp cận cải tiến tham số mtry mtry cỡ không gian thuộc tính lấy ngẫu nhiên từ khơng gian thuộc tính ban đầu để xây dựng định mtry thường lấy giá trị mặc định log2M+1 với M số thuộc tính liệu ban đầu Tuy nhiên giá trị log2M+1 thích hợp với liệu có số chiều nhỏ hồn tồn khơng thích hợp cho liệu có số chiều lớn, đặc biệt liệu có độ nhiễu cao liệu SNP Trong trường hợp liệu SNP, mtry nhỏ số lượng SNP sử dụng để tạo dựng định ít, có nhiều SNP khơng liên quan tới bệnh nên dẫn tới việc chọn tập SNP mà phần lớn SNP không liên quan tới bệnh, điều dẫn tới việc tạo định có chất lượng thấp, từ ảnh hưởng tới chất lượng dự đốn RF Do đó, với liệu có số chiều cao nhiễu liệu SNP mtry cần phải chọn đủ lớn để đảm bảo xác dự đoán (Wu et al., 2012) Tuy nhiên, chọn mtry lớn chi phí tính tốn kèm theo lớn Hơn việc tìm kiếm giá trị tốt cho tham số mtry khơng khả thi mặt tính tốn Một tiếp cận khác để cải tiến RF thay đổi phương pháp sinh khơng gian thuộc tính cho xây dựng định Trong cài đặt Brieman, khơng gian thuộc tính sinh cách lấy ngẫu nhiên có thay từ khơng gian thuộc tính ban đầu Việc lấy ngẫu nhiên dẫn tới việc sinh không gian SNP chứa đựng hầu hết SNP khơng có liên quan tới bệnh từ tạo định có chất lượng dự đốn thấp PHƯƠNG PHÁP ĐỀ XUẤT Như phân tích mục 2, tiếp cận cài đặt ban đầu Breiman khơng phù hợp cho phân tích liệu SNP có số chiều lớn việc lấy mẫu khơng gian thuộc tính dẫn tới việc chọn phải mẫu không tốt kết nhiều định có chất lượng thấp sinh Để khắc phục nhược điểm đề xuất phương pháp lấy mẫu tiến hành theo hai bước Ở bước cố gắng loại bỏ thuộc tính (SNP) khơng có liên quan tới bệnh (biến phụ thuộc, biến đích), chúng gọi thuộc tính nhiễu Để thực điều này, trước tiên bổ sung vào tập liệu huấn luyện thuộc tính thực nhiễu cách sinh ngẫu nhiên Những thuộc tính thực nhiễu khơng có giá trị việc dự đốn biến đích Sau RF xây dựng từ tập liệu huấn luyện bổ sung thuộc tính thực nhiễu để ước lượng mức độ quan trọng thuộc tính tới việc dự đốn biến đích Ta thu thập giá trị mức độ quan trọng lớn thuộc tính thực nhiễu qua lần ước lượng mức độ quan trọng thuộc tính để hình thành mẫu so sánh Cuối thực kiểm thử Wilcoxon cho thuộc tính để kiểm tra liệu trung bình hệ số quan trọng thuộc tính có lớn trung bình mẫu so sánh (tức hệ số quan trọng lớn thuộc tính thực nhiễu) hay khơng Tất thuộc tính mà kiểm thử Wilcoxon có pvalue lớn ngưỡng cho trước è (giá trị mặc định 0,05) coi thuộc tính nhiễu, khơng có ý nghĩa việc dự đốn 303 thuộc tính phụ thuộc loại bỏ khỏi tập liệu huấn luyện Ở bước thứ hai, tập thuộc tính cịn lại ký hiệu phân tách thành hai tập: tập thuộc tính có ảnh hưởng mạnh tới thuộc tính phụ thuộc, ký hiệu tập thuộc tính có ảnh hưởng yếu tới thuộc tính phụ thuộc Để tách thành hai tập , chúng tơi tính thực kiểm thử ÷ cho thuộc tính tập tất thuộc tính (SNP) sở hữu pvalue nhỏ 0,05 thơng qua kiểm thử ÷ = \ Cuối để sinh tập thuộc tính cho xây dựng định, thuộc tính chọn ngẫu nhiên độc lập với từ hai tập Số lượng thuộc tính chọn từ tập phụ thuộc vào cỡ không gian thuộc tính cỡ hai tập Nếu cần lấy mtry thuộc tính để xây dựng khơng gian thuộc tính = (‖ ‖/ ) thuộc tính lấy từ tập = (‖ ‖/ ) thuộc tính lấy từ tập , ‖ ‖ số lượng phần tử tập hợp A Bằng cách lựa chọn không gian thuộc tính đảm bảo khơng gian thuộc tính ln chứa đựng thuộc tính có ảnh hưởng lớn tới thuộc tính phụ thuộc đồng thời trì việc lựa chọn ngẫu nhiên thuộc tính KẾT QUẢ VÀ THẢO LUẬN 4.1 Các độ đo ước lượng thực nghiệm Trong phần thực nghiệm, áp dụng phương pháp đề xuất (từ gọi nRF), tiếp cận cài đặt RF ban đầu Breiman (Breiman, 2001) (từ gọi RF) wsRF (Xu et al., 2012) hai liệu đối chứng để làm sáng tỏ hiệu phương pháp đề xuất Trong trình tiến hành thực nghiệm, sử dụng phương pháp Breiman (Breiman, 2001) để tính tốn độ đo trung bình (s), độ đo tương quan trung bình (đ) c/s2=đ/ để đo lường hiệu RF Tương quan trung bình ñ phản ánh mức độ độc lập định rừng Độ đo trung bình s phản ánh độ xác hay chất lượng định rừng Để có mơ hình RF tốt, định phải có độ xác cao tương quan thấp, điều phản ánh qua tỉ số đ/ , c/s2 phản ánh độ xác tổng qt mơ hình RF Ngồi độ đo trên, hai độ đo sử dụng làm sáng tỏ xác hiệu mơ hình RF Area under the curve (AUC) độ xác kiểm thử tính sau: = ( ( , ) − max ( , ) > 0) đó, I(.) indicator function ( , )=∑ (ℎ ( ) = ) số lượng định lựa chọn di thuộc vào lớp j 4.2 Dữ liệu thực nghiệm Chúng tiến hành thực nghiệm hai liệu SNP tồn hệ gen với tính chất mơ tả bảng 1, cột “Abbr.” tên viết tắt tập liệu sử dụng thực nghiệm Tập liệu liệu bệnh chứng cho bệnh Alzheimer (ALZ) chứa đựng 380.157 SNPs lấy mẫu từ 188 cá thể người có tình trạng thần kinh bình thường (để kiểm chứng) 176 cá thể người mắc bệnh Alzheimer (bệnh) (Webster et al., 2009) Tập liệu thứ hai tập liệu bệnh chứng cho bệnh Parkinson chứa đựng 408.803 SNPs lấy mẫu từ 541 cá thể, 271 trường hợp kiểm chứng 270 trường hợp bệnh (Fung et al., 2006) Bảng Mô tả hai tập liệu SNP 304 Tập liệu Abbr #SNPs # Cases Controls # Classes Alzheimer ALZ 380.157 364 Parkinson PAR 408.803 451 4.3 Kết thực nghiệm Bảng cho thấy trung bình độ xác kiểm thử AUC phương pháp nRF, RF wsRF Kết bảng cho thấy nRF wsRF cho kết tốt với giá trị mtry khác wsRF RF cho kết tốt mtry lớn nRF với mtry = cho kết tốt RF wsRF liệu, = ‖ ‖ + ‖ ‖ số lượng SNP lại sau loại bỏ SNP nhiễu Như vậy, nRF thực tốt cho phân tích liệu SNP có số chiều cao khơng địi hỏi tham số mtry phải thiết lập cao hai phương pháp lại đạt kết tốt Như phân tích trên, việc thiết lập mtry q lớn dẫn tới thời gian tính tốn lâu, nRF thực rút ngắn đáng kể thời gian xử lý, áp dụng cho liệu có số chiều cao Bảng So sánh khác biệt phương pháp với giá trị mtry khác Tập liệu Phương pháp ALZ nRF Mtry Acc AUC 45 0,907 0,975 wsRF log 19 0,561 0,711 wsRF √ 616 0,692 0,757 log 19 0,530 0,623 √ 616 0,632 0,729 22 0,895 0,959 RF RF PAR Values nRF wsRF log 19 0,754 0,850 wsRF √ 638 0,837 0,917 RF log 19 0,564 0,722 RF √ 638 0,799 0,848 Bảng So sánh khác biệt mức độ xác dự đốn số lượng định thay đổi Tập liệu ALZ PAR Phương pháp K 20 50 80 100 200 nRF 0,711 0,775 0,791 0,846 0,893 wsRF 0,528 0,588 0,527 0,602 0,593 RF 0,517 0,491 0,505 0,555 0,533 nRF 0,852 0,871 0,858 0,861 0,871 wsRF 0,647 0,680 0,708 0,710 0,745 RF 0,579 0,557 0,553 0,597 0,580 Bảng So sánh khác biệt c/s2 số lượng định thay đổi K Tập liệu Phương pháp 20 50 80 100 200 ALZ nRF 0,711 0,775 0,791 0,846 0,893 wsRF 0,528 0,588 0,527 0,602 0,593 RF 0,517 0,491 0,505 0,555 0,533 PAR nRF 0,852 0,871 0,858 0,861 0,871 wsRF 0,647 0,680 0,708 0,710 0,745 RF 0,579 0,557 0,553 0,597 0,580 305 Bảng cho thấy mức độ xác dự đoán bảng cho thấy giới hạn lỗi tổng qt mơ hình RF sinh ba phương pháp Cả ba phương pháp chạy với tham số mtry nhận giá trị cố định ⌊log ( ) + 1⌋ số lượng định rừng điều chỉnh lần chạy Cụ thể thử nghiệm ba phương pháp với số lượng định thay đổi từ 20 tới 200 Kết cho thấy nRF vượt trội RF wsRF xác dự đốn mức độ lỗi tổng quát (c/s2) thấp so với hai phương pháp cịn lại KẾT LUẬN Chúng tơi đề xuất phương pháp lấy mẫu tập thuộc tính dựa phân tích điểm yếu phương pháp lấy mẫu mơ hình RF truyền thống đề xuất Breiman Phương pháp đề xuất đảm bảo chất lượng định RF xây dựng tập liệu có số chiều cao độ nhiễu lớn trì tính ngẫu nhiên RF Kết thực nghiệm cho thấy phương pháp đề xuất cho kết tốt tiếp cận cài đặt ban đầu Breiman số giải thuật cải tiến RF gần Với phương pháp lấy mẫu đề xuất, RF áp dụng để phân tích liệu có số chiều cao liệu SNP trường hợp cụ thể TÀI LIỆU THAM KHẢO Breiman, L., Friedman, J H., Olshen, R A., Stone, C J (1984) Classification and regression trees Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software ISBN 978-0-41204841-8 Breiman L (2001) Random forests Machine Learning, 45(1): 5-32 Bureau, A., Dupuis, J., Falls, K., Lunetta, K.L., Hayward, B., Keith, T.P., Van Eerdewegh, P (2005) Identifying snps predictive of phenotype using random forests Genetic epidemiology, 28(2): 171-182 Cordell, H.J (2009) Detecting gene–gene interactions that underlie human diseases Nature Reviews Genetics, 10(6): 392-404 306 Easton, D et al (2007) Genome-wide association study identifies novel breast cancer susceptibility loci Nature 447(7148): 1087-1093 Easton, D F., Eeles, R A (2008) Genome-wide association studies in cancer Hum Mol Genet, 17: R109-R115 Fung, H.C., Scholz, S., Matarin, M., Sim ´ on-S ´ anchez, J., Hernandez, D., Britton, A., Gibbs, J.R., Langefeld, C., Stiegert, M.L., Schymick, J., et al (2006) Genome-wide genotyping in Parkinson’s disease and neurologically normal controls: first stage analysis and public release of data The Lancet Neurology, 5(11): 911-916 Goldstein, B A., Hubbard, A E., Cutler, A.,Barcellos, L F (2010) An application of Random Forests to a genome-wide association dataset: Methodological considerations and new findings BMC Genetics, 11: 49 Goldstein, B A.; Polley, E C., Briggs, Farren B S (2011).Rndom Forests for Genetic Association Studies Statistical Applications in Genetics and Molecular Biology, 10(1): 32 Lettre G., Rioux J D (2008) Autoimmune diseases: insights from genome-wide association studies Hum Mol Genet, 17: R116-R121 Lunetta, K.L., Hayward, L.B., Segal, J., Van Eerdewegh, P (2004) Screening large-scale association study data: exploiting interactions using random forests BMC genetics, 5(1): 32 Marchini, J., Donnelly, P., Cardon, L.R (2005) Genome-wide strategies for detecting multiple loci that influence complex diseases Nature genetics, 37(4): 413-417 Mardis, E R (2011) A decade’s prespective on DNA sequencing technology Nature, 470(7333): 198-203 Mohlke K L., Boehnke M., Abecasis G R (2008) Metabolic and cardiovascular traits: an abundance of recently identified common genetic variants Hum Mol Genet, 17: R102-R108 Moore, J H (2005) A global view of epistasis Nature Genetic, 37(1): 13-14 Schwarz, D.F., K”onig, I.R., Ziegler, A (2010) On safari to Random Jungle: a fast implementation of Random Forests for high-dimensional data Bioinformatics, 26(14): 1752 Sladek, R et al (2007) A genome-wide association study identifies novel risk loci for type diabetes Nature, 445(7130): 881-885 Webster, J.A., Gibbs, J.R., Clarke, J., Ray, M., Zhang, W., Holmans, P., Rohrer, K., Zhao, A., Marlowe, L., Kaleem, M., et al (2009).Genetic control of human brain transcript expression in Alzheimer disease The American Journal of Human Genetics, 84(4): 445-458 Wellcome Trust (2007) Genome-wide association study of 14,000 cases of seven common diseases and 3,000 shared controls Nature, 447(7145): 661-678 Winham, S.J., Colby, C L., Freimuth, R., Wang, X., Andrade, M., Huebner, M., Biernacka, J M (2012) SNP interaction detection with Random Forests in high-dimensional genetic data BMC Bioinformatics, 13:164 Wu, Q., Ye, Y., Liu, Y., Ng, M.K (2012) SPN selection and classification of genome-wide snp data using stratified sampling random forests NanoBioscience, IEEE Transactions on, 11(3): 216-227 Xu, B., Huang, J.Z., Williams, G., Wang, Q., Ye, Y (2012) Classifying very high-dimensional data with random forests built from small subspaces International Journal of Data Warehousing and Mining (IJDWM), 8(2): 44-63 307 ... lượng thuộc tính chọn từ tập phụ thuộc vào cỡ khơng gian thuộc tính cỡ hai tập Nếu cần lấy mtry thuộc tính để xây dựng khơng gian thuộc tính = (‖ ‖/ ) thuộc tính lấy từ tập = (‖ ‖/ ) thuộc tính. .. xuất phương pháp lấy mẫu tập thuộc tính dựa phân tích điểm yếu phương pháp lấy mẫu mơ hình RF truyền thống đề xuất Breiman Phương pháp đề xuất đảm bảo chất lượng định RF xây dựng tập liệu có số... tác nhiều SNP Chính vậy, phương pháp nghiên cứu cho phép phát ảnh hưởng cộng tác nhiều SNP đến bệnh thực cần thiết Trong mục chúng tơi phân tích hướng tiếp cận có cho tốn phân tích liệu SNP Hướng