ÁP DỤNG HỌC MÁY ĐỂ NÂNG CAO ĐỘ CHÍNH XÁC CHO DỰ ĐOÁN NGUY CƠ ĐA DI TRUYỀN VỚI DỮ LIỆU RỐI LOẠN PHỔ TỰ KỶ APPLYING MACHINE LEARNING TO IMPROVE THE ACCURACY OF POLYGENIC RISK SCORES WITH AUTISM SPECTRUM DISORDER DATA Trịnh Thị Xuân*, Lê Thị Thanh Thuỳ†, Tạ Vn Nhõn, Hong Thanh TựngĐ, Trng Nam Hiả, Trn Đăng Hưng Ngày tòa soạn nhận báo: 03/11/2021 Ngày nhận kết phản biện đánh giá: 05/05/2022 Ngày báo duyệt đăng: 26/05/2022 Tóm tắt: Điểm nguy đa di truyền (polygenic risk scores, PRS) giá trị ước lượng tương đối nguy mắc bệnh dựa vào việc xác định tập hợp biến dị di truyền ảnh hưởng Trong năm gần đây, có nhiều cố gắng đưa tính tốn PRS ứng dụng vào lâm sàng, nhiên việc lựa chọn biến dị di truyền ảnh hưởng đến bệnh có độ xác chưa cao dẫn đến hiệu mơ hình chưa đạt kỳ vọng Trong nghiên cứu này, thực nghiệm mơ hình khác để chọn tập hợp biến dị cho giá trị dự đoán tốt Dữ liệu sử dụng liệu nghiên cứu tương quan toàn hệ gen (Genome-Wide Association Studies, GWAS) rối loạn phổ tự kỷ (Autism Spectrum Disorder, ASD) Tập hợp biến dị ban đầu thu gọn phương pháp nhóm đặt ngưỡng (Clumping and Thresholding, «C + T»), hồi quy logistic phạt (Penalized Logistic Regression, PLR), loại bỏ đặc trưng đệ quy dựa máy vec-tơ tựa (Support Vector Machine Recursive Feature Selection, SVM-RFE) Kết cho thấy phương pháp SVM-RFE đưa tập SNPs mà mơ hình dự đốn đạt hiệu tốt Từ khóa: Bệnh đa di truyền, điểm nguy đa di truyền, GWAS, SNPs, mảng SNP, học máy, bệnh tự kỷ Abstract: Polygenic risk scores (PRS) are relative estimation values of disease risk based on identification of effect variant set In recent years, there have been many attempts to apply PRS calculation to clinical practice, however, selection of genetic variants affecting * Khoa Công nghệ thông tin, Trường Đại học Mở Hà Nội † Khoa Công nghệ thông tin, Trường Đại học Mở Hà Nội ‡ Cơng ty TNHH LOBI Việt Nam § Phịng Nghiên cứu hệ thống quản lý, Viện Công nghệ Thơng Tin, VAST ¶ Phịng Kỹ thuật di truyền, Viện Công nghệ Sinh học, VAST Nghiên cứu trao đổi ● Research-Exchange of opinion 45 diseases has not been accurate, leading to the model’s performance not yet reached hope In this study, we have implemented different models to choose the set of variants giving the best prediction The data used were taken from Genome-Wide Association Studies (GWAS) of Autism Spectrum Disorder (ASD) Original set of variants was reduced by Clumping and Thresholding (“C + T”), Penalized Logistic Regression (PLR), and Recursive Feature Elimination based on Support Vector Machine (SVM-RFE) As a result, the SVM-RFE method gives a set of SNPs that the prediction model has the best performance Keywords: Complex diseases, polygenic risk scores, GWAS, SNPs, SNP arrays, machine learning, autism I Đặt vấn đề Hiện nay, ứng dụng lâm sàng dự đoán nguy mắc bệnh di truyền thường tập trung vào bệnh đơn gen gặp với nguy cao phần lớn nguy mắc bệnh có chất đa gen Lý độ xác dự đốn bệnh đa gen chưa cao độ xác dự đốn bệnh đơn gen [1] Từ thực tế đó, nhà khoa học có nhiều nghiên cứu cải tiến dự đoán nguy đa di truyền với mục đích đưa phương pháp vào thực hành lâm sàng Trước tiên, phương pháp phát triển để thu hẹp tập SNPs [2], [3], [4] sử dụng kỹ thuật điều chỉnh/thu hẹp thống kê LASSO hồi quy ridge (ridge regression) [3], sử dụng cách tiếp cận Bayes thông qua việc xác định phân phối [2], [4], [5] Sau đó, phương pháp trọng đến việc xác định biến dị ảnh hưởng thực đến kiểu hình tìm cách đánh trọng số phù hợp cho loại biến dị như: hồi quy tăng cường gradient điều chỉnh cân liên kết (GrabBLD) [6], dự đoán di truyền đa biến với ngưỡng trơn [7], xác định điểm đánh dấu di truyền [8] Tiếp nối nhóm phương pháp cải thiện độ xác việc xác định biến dị ảnh hưởng thực đến bệnh, áp dụng số phương pháp thuộc nhóm rút gọn đặc trưng khác hồi quy logisic phạt (Penalized Logistic Regression, PLR) loại bỏ đặc trưng đệ quy dựa máy vec-tơ tựa (Support Vector Machine Recursive Feature Selection, SVM-RFE) Dữ liệu sử dụng mẫu rối loạn phổ tự kỷ (Autism Spectrum Disorder, ASD) bao gồm liệu kiểu gen toàn hệ gen truy xuất từ liệu trao đổi tài nguyên di truyền bệnh tự kỷ (Autism Genetic Resource Exchange, AGRE) [9] Dữ liệu sau trình QC huấn luyện mơ hình học máy khác Kết sau so sánh mơ hình mơ hình “Nhóm đặt ngưỡng” (“C + T”), PLR, SVMRFE cho thấy mơ hình sử dụng SVM-RFE cho hiệu tốt với 100 SNPs Trong phần báo chúng tơi trình bày tiền xử lý liệu mục II, phương pháp mục III Kết so sánh mơ hình trình bày mục IV Cuối cùng, chúng tơi kết luận báo mục V II Cơ sở lý thuyết 2.1 Dữ liệu 2.1.1 Dữ liệu sở Dữ liệu sở (base data) bao gồm thống kê tóm tắt GWAS (ví dụ, β, Nghiên cứu trao đổi ● Research-Exchange of opinion 46 OR, P-values) tương quan kiểu genkiểu hình biến dị di truyền (SNP) Ở đây, sử dụng liệu thống kê tóm tắt gồm 9,112,386 SNPs xây dựng hệ gen hg19 [10] Trong đó, điểm thơng tin trình suy diễn thống kê (imputation information score) IN F OR > 0.7; tần số alen phụ (Minor Allele Frequency, MAF) > 0.01; hệ số di truyền h2G = 0.118 > 0.5 Dữ liệu đảm bảo tuân thủ tiêu chuẩn để đưa vào tính tốn điểm nguy đa di truyền** 2.1.2 Dữ liệu đích Dữ liệu đích liệu GWAS cấp độ cá thể, bao gồm định danh cá thể, bố , mẹ, phả hệ cá thể Hơn nữa, liệu cung cấp thơng tin giới tính, kiểu hình, alen, vị trí SNPs nhiễm sắc thể, khoảng cách di truyền hiệp biến Dữ liệu GWAS mức độ cá thể thường lưu dạng tệp định dạng PLINK [11] Chúng sử dụng liệu kiểu gen - kiểu hình mẫu rối loạn phổ tự kỷ (autism spectrum disorder, ASD)†† truy xuất từ liệu trao đổi tài nguyên di truyền bệnh tự kỷ (Autism Genetic Resource Exchange, AGRE) [9] Dữ liệu gồm ba tệp định dạng PLINK *.fam, *.bim, tệp nhị phân *.bed với hệ gen tham chiếu hg17 Trong có 399,147 biến dị; 2,883 mẫu với 1,816 nam 1,066 nữ, cá thể chưa rõ (nhãn gán cho nam, nhãn gán cho nữ); 2,879 cá thể có kiểu hình, cá thể khơng có kiểu hình (nhãn gán cho mẫu đối chứng, nhãn gán cho mẫu bệnh) 2.2 Kiểm soát chất lượng (QC) Độ xác dự đốn PRS phụ thuộc lớn vào chất lượng liệu sở liệu đích Cả hai tập liệu thường tiến hành QC với tiêu chuẩn QC chung GWAS [12], [13], [14], QC cho loại liệu [15] 1) QC liệu sở: Chúng tiến hành QC tiêu chuẩn cho liệu sở với IN F O > 0.8, kiểm tra SNPs trùng lặp, loại bỏ SNPs không rõ ràng Sau q trình này, liệu sở cịn lại 7,301,379 biến dị 2) QC liệu đích: Dữ liệu đích chuyển tọa độ từ hệ gen tham chiếu hg17 sang hệ gen tham chiếu hg19, có 34 biến dị không khớp tọa độ bị loại bỏ Chúng thực QC tiêu chuẩn với tần số alen phụ M AF > 0.01; ngưỡng p-value từ kiểm định χ2 kiểm định Fisher cho cân Hardy-Weinberg hwe = 10−6; loại bỏ biến dị cá thể có tỷ lệ kiểu gen bị thiếu với ngưỡng geno = 0.01, mind = 0.01 Ngồi ra, q trình pruning thực để giữ lại SNPs có tương quan thấp r2 < 0.25 Trên thực tế, tỷ lệ dị hợp tử cao chất lượng mẫu thấp, tỷ lệ thấp ảnh hưởng giao phối cận huyết, 74 cá thể lọc để liệu đạt tỷ lệ dị hợp tử tốt Tiếp theo, 134,126 SNPs không khớp liệu đích so với liệu sở xác định nhờ phương pháp đảo ngược sợi DNA Ngoài ** https://ipsych.dk/en/research/downloads/data-download-agreement-ipsych-pgc-asdnov2017/thank-you/ †† https://figshare.com/articles/dataset/Autism_GWAS_data/14253230 Nghiên cứu trao đổi ● Research-Exchange of opinion ra, liệu không bao gồm 26 cá thể có sai khác giới tính sinh học 1,446 cá thể có quan hệ gần Dữ liệu đích sau QC bao gồm 264,987 biến dị; 1,138 mẫu, có 142 mẫu bệnh, 996 mẫu đối chứng III Phương pháp nghiên cứu 3.1 Tính điểm nguy đa di truyền (Polygenic Risk Score, PRS) Điểm nguy đa di truyền (Polygenic Risk Score, PRS) tính tổng điểm có trọng số alen nguy với trọng số dựa mức độ ảnh hưởng từ GWAS [16] Công thức mặc định để tính PRS PLINK [11] là: Trong mức độ ảnh hưởng SNP thứ i Si; số alen ảnh hưởng SNP thứ i quan sát mẫu j Gi,j; đơn bội mẫu P (thường cho người); tổng số SNPs mẫu j N; tổng số SNPs không thiếu quan sát mẫu j Mj Nếu mẫu j có kiểu gen thiếu SNP thứ i tần số alen phụ quần thể nhân với đơn bội (M AFi.P ) sử dụng thay Gi,j 3.2 Tính tốn phân tầng quần thể Sự phân tầng quần thể hiểu diện nhiều quần thể liệu, ví dụ cá nhân có nguồn gốc dân tộc khác Vì mức độ ảnh hưởng ứng với tần số alen phụ khác quần thể khác nên việc tính tốn PRS cho cá thể trở nên khơng xác Do thành phần (Principal Components, PCs) đại diện cho phân tầng quần thể đưa vào mơ hình dự đốn để giảm sai lệch liệu GWAS Tuy nhiên, vấn đề 47 nằm chỗ xác định số lượng thành phần Theo kinh nghiệm, nhà nghiên cứu thường chọn số PCs 10 [17], [14] Một cách khác để chọn số lượng PCs thích hợp thực GWAS kiểu hình nghiên cứu với số lượng PCs khác Sau đó, phân tích hồi quy điểm cân liên kết (LD Score regression, LDSC) thực tập hợp thống kê tóm tắt GWAS, số PCs mà cấu trúc quần thể kiểm sốt xác số PCs mà hệ số tự LDSC gần [15] Trong báo này, đề xuất phương pháp xác định số lượng thành phần thuật tốn phân cụm kmeans clustering, thuật tốn học khơng giám sát Giả thuyết Số cụm tối ưu, sau huấn luyện mơ hình dựa đặc điểm liệu, tương đương với số lượng PCs Các PCs với số lượng khác đưa vào huấn luyện, số lượng PCs cho kết dự đoán tốt số cụm tối ưu chứng minh cho giả thuyết 3.3 Phương pháp nhóm đặt ngưỡng (“C+T”) Phương pháp truyền thống thường sử dụng “Nhóm Đặt ngưỡng” (“Clumping and Thresholding”, hay cịn gọi “C+T”) Các SNPs “Nhóm” (“Clumping”, C) cơng cụ PLINK để chọn SNPs có mối tương quan thấp với Trước tiên, Clumping chọn SNP đặc trưng gọi SNP mục (SNP index) tính tốn mối tương quan SNP với SNPs gần Ở đây, chúng tơi duyệt qua tất Nghiên cứu trao đổi ● Research-Exchange of opinion 48 SNPs, coi chúng SNPs mục (clump − p1 = 1) Sau loại bỏ SNPs với khoảng cách di truyền clump − kb = 250 (kb) mối tương quan chúng r2 > 0.1 [19] Như vậy, bước Clumping giúp loại bỏ liệu dư thừa cân liên kết (LD) gây Sau trình “Clumping” ta lựa chọn 67,188 SNPs cho tính tốn PRS Phương pháp “Đặt ngưỡng” (“Thresholding”) chọn tập hợp SNPs GWAS tương quan với kiểu hình ngưỡng P-value khác bán đoạn (0, 10−5], (0, 10−3], (0, 0.0225], (0, 0.05], (0, 0.1], (0, 0.2], (0, 0.3], (0, 0.4], (0, 0.5] Các tập SNPs tương ứng với ngưỡng sử dụng để tính tốn PRS Ngồi ra, mơ hình dự đốn cịn có đóng góp hiệp biến giới tính thành phần tập đích tính tốn dựa phân tầng quần thể Mơ hình ban đầu (mơ hình 1), chưa tính đến liệu kiểu gen, coi mơ hình vơ hiệu (null) để so sánh độ xác dự đốn với mơ hình có tính đến tập SNPs với ngưỡng P-value khác (mơ hình 2) (1) (2) pˆ = P (y = 1) với y kiểu hình bệnh (y ∈ {1, 2}), PC ma trận mà cột thành phần chính, SEX hiệp biến giới tính, X vec tơ mà thành phần điểm nguy đa di truyền tương ứng cá thể tính tương ứng với tập SNPs Vec tơ X tương ứng với P-value cho độ xác dự đốn mơ hình cao cao độ xác mơ hình vơ hiệu tập hợp SNPs tương ứng với ngưỡng xác định có ảnh hưởng đến bệnh 3.1 Phương pháp sử dụng hồi quy logistic phạt (Penalized Logistic Regression, PLR) Mơ hình hồi quy logistic phạt (Penalized Lo-gistic Regression, PLR) [20] chứa hai hàm điều chỉnh Hàm điều chỉnh L2 (“Ridge”) có tác dụng thu nhỏ hệ số hàm điều chỉnh L1 (“LASSO” [21]) đưa phần hệ số giá trị sử dụng để chọn biến trình học Kết hợp hàm điều chỉnh L1 L2 (“Elastic-Net” [22]) hiệu trường hợp số lượng SNPs lớn nhiều số lượng mẫu Cụ thể, toán đưa ước lượng hệ số β0, β để cực tiểu hóa hàm tổn thất điều chỉnh zi = 1/(1 + exp(−(β0 + xTi β))), x biểu diễn kiểu gen hiệp biến (các thành phần giới tính), y tình trạng bệnh, λ α hai siêu tham số điều chỉnh 3.2 Phương pháp loại bỏ đặc trưng đệ quy dựa máy vec-tơ tựa (Support Vector Machine Recursive Feature Elimination, SVM-RFE) Mục đích SVM-RFE tính toán trọng số xếp hạng với Nghiên cứu trao đổi ● Research-Exchange of opinion tất đặc trưng xếp đặc trưng theo vec-tơ trọng số SVM-RFE trình lặp việc loại bỏ ngược đặc trưng [23] • Sử dụng tập liệu để huấn luyện mơ hình phân loại • Tính tốn trọng số cho tất đặc trưng • Xóa đặc trưng với trọng số nhỏ 49 này, tập SNPs sau thu gọn nhờ mơ hình PLR tính tốn PRS, sau huấn luyện đánh giá tương tự phương pháp “C+T” Điều cho thấy rõ ràng hiệu hai mơ hình đánh giá với phương pháp đánh giá tập kiểm thử IV Kết 4.1 Phân tầng quần thể Chi tiết thuật toán SVM-RFE đưa Isabelle Guyon đồng nghiệp nghiên cứu chọn gen cho phân loại ung thư [24] (distortion) tính tốn số cụm tăng 3.3 Đánh giá hiệu mô sai tâm cụm giảm tuyến tính Theo Phương sai tâm cụm từ đến 10 Từ cụm thứ trở đi, phương hình phương pháp khuỷu tay, ta chọn số cụm Để đánh giá hiệu mơ hình ta sử dụng đường cong đặc tính (Receiver Operating Characteristic Curve, ROC) biểu diễn tương quan dương tính giả dương tính thật với ngưỡng Hiệu mơ hình đánh giá thơng qua giá trị diện tích đường ROC (Area Under the Curve, AUC), giá trị nằm khoảng (0, 1), AUC lớn hiệu mơ hình cao tối ưu (xem hình 1) Ta tiếp tục Mặt khác, nhằm đảm bảo mơ hình khác đánh giá tập kiểm thử, liệu ban đầu chia ngẫu nhiên thành hai tập, tập huấn luyện với 80% liệu, tập kiểm thử với 20% liệu Với mục đích giảm khớp (overfiting), kỹ thuật đánh gía chéo k lần (k-fold cross validation) áp dụng với tập huấn luyện, ta chọn k = Với mơ hình định, siêu tham số tối ưu xác định tương ứng với AUC trung bình cao mơ hình khớp với tập liệu khác Trong báo kiểm tra giả thuyết thực nghiệm với phương pháp “C + T” Số lượng PCs thay đổi từ đến 10 đưa vào mơ hình Với PCs, AUC lớn đạt 0.776 (Xem hình 2) Điều chứng tỏ với liệu phương pháp “C + T”, ta lựa chọn số lượng PCs số cụm tối ưu liệu kiểu gen Hình Xác định số cụm tối ưu Số cụm tối ưu phương sai tâm cụm giảm tuyến tính ... 9 ,11 2,386 SNPs xây dựng hệ gen hg19 [10 ] Trong đó, điểm thơng tin q trình suy diễn thống kê (imputation information score) IN F OR > 0.7; tần số alen phụ (Minor Allele Frequency, MAF) > 0. 01; ... tốt với 10 0 SNPs Trong phần báo trình bày tiền xử lý liệu mục II, phương pháp mục III Kết so sánh mơ hình trình bày mục IV Cuối cùng, kết luận báo mục V II Cơ sở lý thuyết 2 .1 Dữ liệu 2 .1. 1 Dữ liệu... định dạng PLINK *.fam, *.bim, tệp nhị phân *.bed với hệ gen tham chiếu hg17 Trong có 399 ,14 7 biến dị; 2,883 mẫu với 1, 816 nam 1, 066 nữ, cá thể chưa rõ (nhãn gán cho nam, nhãn gán cho nữ); 2,879 cá