Bài viết đề xuất một phương thức cải tiến mới nhằm mục đích ưu tiên cho các gen liên quan đến những bệnh có tính chất trên bằng cách tăng cường trọng số liên kết cho các gen ở xa các gen gây bệnh đã biết. Thông qua kiểm chứng hiệu quả phân hạng của phương pháp này với 148 bệnh trên mạng tương tác protein của người và so sánh hiệu quả phân hạng của phương pháp đề xuất với các phương pháp nổi trội hiện có như bước ngẫu nhiên có quay lại (RWR) và dựa trên xác suất liên kết (ERIN).
Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00051 MỘT PHƯƠNG PHÁP CẢI TIẾN CHO BÀI TOÁN XÁC ĐỊNH CÁC GEN LIÊN QUAN ĐẾN BỆNH Nguyễn Đại Phong1, Đặng Vũ Tùng2, Lê Đức Hậu3, Từ Minh Phƣơng4 Viện Công nghệ thông tin Truyền thông, Trƣờng Đại học Bách Khoa Hà Nội Trung tâm Tin học, Học viện Thanh thiếu niên Việt Nam Trung tâm Tin học, Đại học Thủy Lợi Khoa Công nghệ thông tin, Học viện Cơng nghệ Bƣu viễn thơng phongnd.hust@gmail.com, tung_dv@yahoo.com, hauldhut@gmail.com, phuongtm@ptit.edu.vn TÓM TẮT — Xác định gen gây bệnh thường bắt đầu việc phân hạng gen ứng viên theo mức độ liên quan đến bệnh Việc làm nhằm mục đích thu hẹp tập gen liên quan đến bệnh cần xác định thực nghiệm y sinh chuyên sâu Hiện nay, có nhiều phương pháp khác đề xuất để phân hạng gen ứng viên dựa mối quan hệ protein mạng tương tác gen/protein Trong đó, hầu hết phương pháp dựa giả thiết “mô đun bệnh”, tức gen liên quan đến bệnh có xu hướng nằm kề mạng tương tác Các phương pháp có xu hướng ưu tiên gen ứng viên gần với gen gây bệnh biết mạng tương tác Nhưng trình thực nghiệm, nhận thấy với nhiều bệnh, gen liên quan biết khơng hồn tồn tạo thành mơ đun mà chí chúng cịn cách xa mạng tương tác Do đó, phương pháp phân hạng có khơng cịn đạt hiệu cao Để giải vấn đề này, đề xuất phương thức cải tiến nhằm mục đích ưu tiên cho gen liên quan đến bệnh có tính chất cách tăng cường trọng số liên kết cho gen xa gen gây bệnh biết Chúng kiểm chứng hiệu phân hạng phương pháp với 148 bệnh mạng tương tác protein người so sánh hiệu phân hạng phương pháp đề xuất với phương pháp trội có bước ngẫu nhiên có quay lại (RWR) dựa xác suất liên kết (ERIN) Kết thực nghiệm phương pháp chúng tơi đạt độ xác 95.3%, tốt RWR (93.4%) ERIN (89.8%) Thêm vào đó, sử dụng phương pháp mình, chúng tơi xác định số gen liên quan đến bệnh ung thư tuyến tiền liệt Từ khóa — Disease genes prioritization, protein interaction network, random walk with restart algorithm, prostate cancer I GIỚI THIỆU Xác định gen có liên quan đến bệnh toán quan trọng nghiên cứu y sinh Đây coi bƣớc khởi đầu việc tìm phƣơng pháp điều trị cho bệnh phát sinh yếu tố di truyền [1-3] Trong giai đoạn trƣớc đây, việc xác định gen gây bệnh đƣợc thực chủ yếu thực nghiệm sinh học để xác định vùng nhiễm sắc thể khả nghi liên quan bệnh cần nghiên cứu [4, 5] Tuy nhiên, vùng nhiễm sắc thể thƣờng chứa hàng trăm gen ứng viên, có số gen thực liên quan đến bệnh [6] Để xác định đƣợc xác gen thực liên quan đến bệnh cần nghiên cứu, nhà y sinh học phải tiến hành thí nghiệm cho gen danh sách gen ứng viên thu đƣợc Đây công việc tốn thời gian kinh phí Thách thức phần đƣợc giải phƣơng pháp phân hạng gen ứng viên liên quan đến bệnh Tin sinh học trở thành trọng tâm lĩnh vực di truyền học Các phƣơng pháp phân hạng gen gây bệnh dựa mạng thƣờng vào nguyên lý “mô đun bệnh” (nghĩa là, gen/protein liên quan đến bệnh bệnh tƣơng tự có xu hƣớng nằm kề mạng tƣơng tác [5]) để tính tốn độ tƣơng tự tƣơng gen ứng viên gen gây bệnh biết Có nhiều phƣơng pháp dựa mạng đƣợc đề xuất cho toán nhƣ: dựa láng giềng gần nhất, dựa cụm mạng Ngồi ra, thuật tốn ph biến phân tích mạng xã hội mạng Web dùng để đánh giá tầm quan trọng tƣơng đối nút nhƣ: HITS with priors, PageRank with priors, K-step Markov [7], RL_Rank [8] ERIN [9] đƣợc sử dụng cho toán phân hạng gen ứng viên mạng tƣơng tác gen/protein Trong số phƣơng pháp phân hạng gen dựa mạng, phƣơng pháp sử dụng thuật toán bƣớc ngẫu nhiên có quay lại RWR [1012] đƣợc áp dụng ph biến phƣơng pháp khác thuật tốn xem xét tồn liên kết gen gây bệnh biết với gen ứng viên mạng tƣơng tác gen/protein, bao gồm tƣơng tác trực tiếp gián tiếp Không đạt đƣợc hiệu cao toán phân hạng gen ứng viên liên quan đến bệnh, thuật tốn cịn đƣợc sử dụng hiệu việc xác định microRNA liên quan đến bệnh [13] nhƣ đích tác động thuốc [14] Tiếp nối thành cơng thuật tốn RWR cho tốn phân hạng tìm kiếm gen gây bệnh mạng tƣơng tác gen/protein đồng Một phiên thuật toán đƣợc đề xuất sử dụng mạng không đồng kết hợp mạng tƣơng tác gen/protein mạng kiểu hình bệnh [15] mạng tƣơng tự bệnh [16] gọi RWRH Thuật toán cho hiệu dự đoán tốt RWR mạng protein đồng Tuy nhiên, thách thức cần đƣợc giải vấn đề nhiễu liệu mạng tƣơng tác sinh học nói chung t ng hợp chƣa đầy đủ liên kết gen mạng tƣơng tác gen/protein dẫn đến mạng tƣơng tác gen/protein có chƣa bao phủ hết toàn liên kết hệ gen ngƣời Cụ thể, làm thực nghiệm nhận thấy với nhiều bệnh, gen liên quan biết khơng hồn tồn tạo thành mơ đun mà chí chúng Nguyễn Đại Phong, Đặng Vũ Tùng, Lê Đức Hậu, Từ Minh Phƣơng 417 cách xa mạng tƣơng tác Vì vậy, phƣơng pháp phân hạng gen có chƣa đạt đƣợc hiệu cao Để giải vấn đề này, đề xuất phƣơng pháp kết hợp nhằm mục đích tìm kiếm gen ứng viên gây bệnh có liên kết yếu xa gen gây bệnh biết Trong phƣơng pháp này, tiến hành phân hạng tất gen ứng viên thuật tốn dựa xác suất liên kết, sau trích chọn tập gen có độ liên quan cao gen bệnh biết Tập gen lại đƣợc tăng cƣờng trọng số liên kết phƣơng pháp RWRH để xác định thêm gen có khả liên quan đến bệnh biết Kết thực nghiệm cho thấy phƣơng pháp đề xuất tốt đáng kể so với phƣơng pháp đƣợc sử dụng việc tìm kiếm gen ứng viên gây bệnh Các phần lại báo đƣợc bố cục nhƣ sau: Phần mô tả liệu, nghiên cứu liên quan phƣơng pháp đề xuất Phần trình bày kết thực nghiệm Cuối phần kết luận nêu đóng góp báo đề xuất hƣớng cải tiến II DỮ LIỆU VÀ PHƢƠNG PHÁP A Dữ liệu Để thực nghiệm với thuật tốn phân hạng dựa mạng, cần mạng tƣơng tác gen/protein bệnh biết số gen liên quan Cụ thể, sử dụng mạng tƣơng tác gen/protein từ [11, 17] Đây mạng vơ hƣớng, có trọng số (biểu thị độ tƣơng tự chức gen/protein) gồm 11.886 gen 111.943 liên kết Thêm vào đó, chúng tơi sử dụng sở liệu bệnh gen liên quan biết từ OMIM [18] Kết thu đƣợc 622 bệnh với t ng số 3246 gen liên quan, 148 bệnh có từ gen liên quan trở lên đƣợc phát Với bệnh, tập gen biết đƣợc sử dụng nhƣ tập gốc trình phân hạng thuật toán B Các phương pháp phân hạng dựa đồ thị Trong báo này, mạng tƣơng tác gen/protein đƣợc biểu diễn đồ thị vơ hƣớng, có trọng số G = (V, E) đó, tập nút V gen/protein tập cạnh E thể liên kết tƣơng tác gen/protein Giả sử, cho trƣớc S (S⊆V) tập gen bệnh biết (còn gọi tập hạt giống hay tập nút gốc), tức số lƣợng nhỏ gen đƣợc phát có liên quan đến bệnh nghiên cứu trƣớc đó, C (C ⊆V) tập gen ứng viên có liên kết với nút S Mục tiêu toán phân hạng gen tính tốn điểm số cho gen tập C theo độ liên quan với S Các điểm số sau đƣợc xếp hạng vào để đề xuất gen gây bệnh Thuật toán dựa xác suất liên kết (ERIN) Thuật toán dựa xác xuất liên kết [9] phƣơng pháp phân tích mạng xã hội đƣợc ứng dụng cho toán phân hạng gen gây bệnh [19] đạt kết khả quan Thuật toán xác định tất đƣờng khơng chu trình từ nút (hoặc tập nút gốc) tới nút lại đồ thị Bắt đầu từ nút gốc s chuyển tới nút láng giềng phƣơng pháp tìm kiếm theo chiều sâu (DFS) Tại bƣớc, tính t ng xác suất đƣờng từ nút gốc tới nút đƣợc thăm hành Quá trình dừng t ng xác suất đƣờng nhỏ ngƣỡng giá trị cho trƣớc Điều có nghĩa đƣờng tới nút chƣa thăm không cịn quan trọng xác xuất đƣờng từ nút gốc tới nút nhỏ Xác suất di chuyển từ nút vi tới nút láng giềng vj biểu thị độ liên quan nút vj với vi đƣợc xác định theo công thức: ( ) { ( ) ( ∑ ) ( ) ( ) (1) đó: e(vi,vj), e(vi,vk) trọng số cạnh tƣơng ứng nút vi với nút láng giềng vj vk ; f hệ số giảm trừ (0< f 0.7, kết phân hạng giảm cách đáng kể Điều cho thấy rằng, với giá trị đƣợc lựa chọn phù hợp (cụ thể = [0.1, 0.2]), thuật toán đề xuất ƣu tiên gen ứng viên nằm phân vùng cách xa gen gây bệnh biết, dẫn đến đạt hiệu tốt MỘT PHƢƠNG PHÁP CẢI TIẾN CHO BÀI TOÁN XÁC ĐỊNH CÁC GEN LIÊN QUAN ĐẾN BỆNH 420 Hình Biểu diễn giá trị AUC trung bình 148 bệnh với tham số β tăng từ 0.1 đến 0.9 B So sánh với RWR ERIN Để khẳng định hiệu phƣơng pháp đề xuất, tiến hành thực nghiệm so sánh kết phân hạng với phƣơng pháp RWR, ERIN liệu mô tả phần II.A phƣơng pháp đánh giá LOOCV Dựa kết phân hạng gen gây bệnh [10-12] [9], thiết lập giá trị tham số = 0.7 cho phƣơng pháp RWR = 10-6, f = 0.1 cho phƣơng pháp ERIN Đối với phƣơng pháp, tiến hành vẽ đƣờng cong ROC tính giá trị AUC trung bình cho tất 148 bệnh cách tính giá trị sensitivity 1specificity cho bệnh, sau tính giá trị sensitivity 1-specificity trung bình 148 bệnh ngƣỡng Hình biểu diễn đƣờng cong ROC giá trị AUC trung bình ba phƣơng pháp đƣợc so sánh Hình Đƣờng cong ROC biểu diễn kết thực thi thuật tốn Với kết thực nghiệm này, chúng tơi nhận thấy so với phƣơng pháp phân hạng dựa mạng tƣơng tác protein khác nhƣ RWR, ERIN phƣơng pháp đề xuất chúng tơi đạt đƣợc hiệu suất cao rõ rệt Điều cho thấy độ xác CRWR tốt ƣu tiên trọng số liên kết gen nằm phân vùng xa gen gây bệnh biết C Dự đoán gen liên quan đến bệnh ung thư tuyến tiền liệt Trong phần này, kiểm chứng khả xác định gen liên quan đến bệnh phƣơng pháp đề xuất cách áp dụng phƣơng pháp cho bệnh cụ thể Để thực điều này, tiến hành xác định Nguyễn Đại Phong, Đặng Vũ Tùng, Lê Đức Hậu, Từ Minh Phƣơng 421 gen liên quan đến bệnh ung thƣ tuyến tiền liệt (prostate cancer) có mã MIM 176807 thu thập chứng y văn gen có thứ hạng cao kết phân hạng Ung thƣ tuyến tiền liệt xảy tế bào bất thƣờng phát triển tuyến tiền liệt Những tế bào tiếp tục nhân lên cách khơng kiểm sốt đơi lan tuyến tiền liệt sang phận kế cận hay xa thể Tra cứu sở liệu OMIM, thu thập đƣợc 22 gen đƣợc chứng minh có liên quan tới bệnh Trong có gen khơng có liên kết mạng tƣơng tác gen/protein sử dụng để làm thực nghiệm Tập 15 gen lại đƣợc sử dụng nhƣ tập gốc trình phân hạng, gen lại mạng tƣơng tác gen/protein đƣợc coi gen ứng viên phân hạng theo phƣơng pháp đề xuất… Thông tin gen liên quan tới bệnh đƣợc trình bày Bảng Bảng Các gen gây bệnh ung thƣ tuyến tiền liệt số liên kết mạng gen/protein TT 10 11 Ký hiệu gen 367 675 3732 999 11200 60528 3029 6928 408259 408260 619402 Mã Entrez gen AR BRCA2 CD82 CDH1 CHEK2 ELAC2 HAGH HNF1B HPC3 HPC4 HPC5 Số liên kết PPI 108 42 17 64 80 25 44 0 TT 12 13 14 15 16 17 18 19 20 21 22 Ký hiệu gen 100188789 347747 9566 1316 8379 4481 4601 7834 5728 7991 463 Mã Entrez gen HPC6 HPCQTL19 HPCX KLF6 MAD1L1 MSR1 MXI1 PCAP PTEN TUSC3 ZFHX3 Số liên kết PPI 0 14 10 30 Sau phân hạng, lựa chọn 30 gen có thứ hạng cao tiến hành thu thập chứng mối quan hệ gen với bệnh ung thƣ tuyến tiền liệt từ sở liệu PubMed [19] Thông tin gen mã văn y chứng minh liên quan gen với bệnh đƣợc trình bày Bảng Các gen cịn lại chƣa có chứng trực tiếp liên quan đến bệnh cần nghiên cứu nhƣng chúng nguyên nhân gây bệnh ung thƣ khác nhƣ: ung thƣ tuyến giáp, tuyến mô, đại tràng,… Các gen đề xuất với nhà y sinh học nghiên cứu tìm kiểm thêm chứng liên quan đến bệnh thí nghiệm y sinh chuyên sâu Bảng Các gen liên quan tới bệnh ung thƣ tuyến tiền liệt số 30 gen có thứ hạng cao Xếp hạng 15 21 24 25 26 28 Ký hiệu gen 4602 10401 1487 1051 688 6184 6185 7157 9611 4609 10608 Mã Entrez gen Mã y văn tham khảo PubMed MYB PIAS3 CTBP1 CEBPB KLF5 RPN1 RPN2 TP53 NCOR1 MYC MXD4 26089205 11071847 23097625 25772238 24931571 19064571 17220478 25827447 23129261 25973080 15862967 IV KẾT LUẬN Trong báo này, đề xuất phƣơng pháp kết hợp thuật toán dựa xác suất đƣờng bƣớc ngẫu nhiên có quay lại áp dụng cho tốn phân hạng gen với mục đích tìm kiếm gen ứng viên gây bệnh nằm xa gen bệnh biết đồ thị mạng tƣơng tác gen/protein Kết thực nghiệm cho thấy phƣơng pháp đề xuất đạt đƣợc hiệu tốt so với phƣơng pháp đƣợc sử dụng cách đơn lẻ trƣớc Chúng áp dụng phƣơng pháp đề xuất để tìm kiếm gen liên quan đến bệnh ung thƣ tuyến tiền liệt thu đƣợc kết khả quan Với kết này, thấy khả dự đoán gen bệnh dựa độ liên quan/ tầm quan trọng tƣơng đối chúng so với gen bệnh biết hoàn toàn khả thi Các gen ứng viên thứ hạng cao đƣợc đề xuất cho nhà nghiên cứu y, sinh học kiểm tra thí nghiệm sinh học chuyên sâu Phƣơng pháp đề xuất báo đƣợc phát triển thành phần mềm ứng dụng, triển khai sở nghiên cứu y sinh học phục vụ công tác nghiên cứu đào tạo Đồng thời ứng dụng để phát gen liên quan đến bệnh di truyền cụ thể Đây bƣớc tiền đề cho việc tìm phƣơng pháp điều trị thích hợp cho bệnh liên quan đến gen Trong nghiên cứu tiếp theo, thực thêm kiểm nghiệm kết cách tìm 422 MỘT PHƢƠNG PHÁP CẢI TIẾN CHO BÀI TOÁN XÁC ĐỊNH CÁC GEN LIÊN QUAN ĐẾN BỆNH chứng y văn mối liên quan gen ứng viên có thứ hạng cao bệnh đƣợc xem xét Đồng thời, thử nghiệm phƣơng pháp đề xuất với đồ thị mạng sinh học khác nhƣ: mạng trao đ i chất, mạng điều hòa gen, mạng tƣơng tác di truyền… để khẳng định thêm hiệu thuật toán TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] G H Fernald, E Capriotti, R Daneshjou, K J Karczewski, and R B Altman, "Bioinformatics challenges for personalized medicine," Bioinformatics, vol 27, pp 1741-1748, 2011 K Reynolds, "Achieving the Promise of Personalized Medicine," Clinical Pharmacology & Therapeutics, vol 92, pp 401405, 2012 D Jones, "Steps on the road to personalized medicine," Nature Reviews Drug Discovery, vol 6, pp 770-771, 2007 M ML, M JC, L AC, A.-B M, C ME, and e al, "Meta-analysis of 13 genome scans reveals multiple cleft lip/palate genes with novel loci on 9q21 and 2q32-35," American Journal of Human Genetics, vol 75(2), pp 161-173, 2004 S R, U I, and S R, "Network-based prediction of protein function," Molecular Systems Biology, vol 3(88), 2007 J LB, "Linkage disequilibrium and the search for complex disease genes," Genome Research, vol 10(10), pp 1435-1444, 2000 C J., A B., and J A., "Disease candidate gene identification and prioritization using protein interaction networks," BMC Bioinformatics, vol 10, 2009 Đ V Tùng, D A Trà, L Đ Hậu, and T M Phƣơng, "Phân hạng gen gây bệnh sử dụng học tăng cƣờng kết hợp với xác suất tiền nghiệm," Tạp chí Cơng nghệ thơng tin & Truyền thơng, vol 13(33), pp 55-66, 2015 H Wang, C K Chang, H.-I Yang, and Y Chen, "Estimating the Relative Importance of Nodes in Social Networks," Journal of Information Processing Society of Japan, vol 21(3), pp 414-422, 2013 D.-H Le and Y.-K Kwon, "GPEC: A Cytoscape plug-in for random walk-based gene prioritization and biomedical evidence collection," Computational Biology and Chemistry, vol 37, pp 17-23, 2012 D.-H Le and Y.-K Kwon, "Neighbor-favoring weight reinforcement to improve random walk-based disease gene prioritization," Computational Biology and Chemistry, vol 44, pp 1-8, 2013 S Köhler, S Bauer, D Horn, and P N Robinson, "Walking the Interactome for Prioritization of Candidate Disease Genes," The American Journal of Human Genetics, vol 82, pp 949-958, 2008 D.-H Le, "Network-based ranking methods for prediction of novel disease associated microRNAs," Computational Biology and Chemistry, vol 58, pp 139-148, 2015 X Chen, M.-X Liu, and G.-Y Yan, "Drug–target interaction prediction by random walk on the heterogeneous network," Molecular BioSystems, vol 8, pp 1970-1978, 2012 L Y and P JC, "Genome-wide inferring gene-phenotype relationship by walking on the heterogeneous network," Bioinformatics, vol 26, pp 1219-1224, 2010 D.-H Le and V.-T Dang, "Ontology-based disease similarity network for disease gene prediction," Vietnam J Comput Sci, p 9, 2016 B Linghu, E S Snitkin, Z Hu, Y Xia, and C DeLisi, "Genome-wide prioritization of disease genes and identification of disease-disease associations from an integrated human functional linkage network," Genome Biology, vol 10, 2009 J Amberger, C A Bocchini, A F Scott and A Hamosh, "McKusick's Online Mendelian Inheritance in Man (OMIM®)", Nucleic Acids Research, 37 (2009), pp D793-D796 J D Osborne, S Lin, W A Kibbe, L J Zhu, M I Danila and R L Chisholm, "GeneRIF is a more comprehensive, current and computationally tractable source of gene-disease relationships than OMIM", Oxford University Press (2006) AN IMPROVED METHOD FOR DETERMINING DISEASE-RELATED GENES Nguyen Dai Phong, Dang Vu Tung, Le Duc Hau, Tu Minh Phuong ABSTRACT — In computational biology, the identification of disease genes often begins with prioritizing candidate genes according to their relevance to a disease phenotype This helps to narrow the set of disease-related genes which need to be identified by intensive biomedical experiments Currently, many different methods have been proposed to prioritize candidate genes based on the relationships between proteins, which are encoded in gene/protein interaction networks Most of these methods are based on the assumption of “module disease”, i.e genes relating to the same disease tend to be located next to each other on the interaction network These methods prioritize candidate genes which are close to known disease genes on the interaction network However, during the course of experiments, we found that for many diseases, the known genes not completely form a module, but are located far from each other on the interaction network In such cases, the existing methods for gene prioritization are no longer effective In this paper, we propose an improved method to prioritize genes related to the abovementioned diseases by increasing the linking weights for genes which are located away from known disease genes We experimentally evaluate the efficiency in prioritizing genes of this method on 148 diseases on human’s interaction network and compare its performance with that of other significant methods, such as Random walk with restart (RWR) algorithm and method based on the probability of association (ERIN) The experiment results show that our proposed method achieves high performance of 95.3%, which is better than RWR (93.4%) and ERIN (89.8%) In addition, by using such method, we are able to identify a number of new genes which are related to prostate cancer ... điều cho thấy t có độ liên quan cao s 418 MỘT PHƢƠNG PHÁP CẢI TIẾN CHO BÀI TOÁN XÁC ĐỊNH CÁC GEN LIÊN QUAN ĐẾN BỆNH Đối với tập hợp nút truy vấn S, thuật toán thực cho nút tập hợp Độ liên quan. .. 0.2]), thuật toán đề xuất ƣu tiên gen ứng viên nằm phân vùng cách xa gen gây bệnh biết, dẫn đến đạt hiệu tốt MỘT PHƢƠNG PHÁP CẢI TIẾN CHO BÀI TOÁN XÁC ĐỊNH CÁC GEN LIÊN QUAN ĐẾN BỆNH 420 Hình... đề cho việc tìm phƣơng pháp điều trị thích hợp cho bệnh liên quan đến gen Trong nghiên cứu tiếp theo, thực thêm kiểm nghiệm kết cách tìm 422 MỘT PHƢƠNG PHÁP CẢI TIẾN CHO BÀI TOÁN XÁC ĐỊNH CÁC GEN