1. Trang chủ
  2. » Luận Văn - Báo Cáo

Một phương pháp phân tích mạng tương tác protein để dự đoán gen gây bệnh ung thư

9 11 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Trong bài báo này, tác giả đề xuất một phương pháp tính toán dựa trên việc phân tích một mạng tích hợp các thông tin: mạng tương tác protein, mạng tương tác microRNA-gen, và các gen gây bệnh ung thư đã biết. Từ mạng tích hợp này, chúng tôi đưa ra phương pháp biểu diễn mới cho các gen dựa vào các tương tác trực tiếp và gián tiếp với các gen khác trong mạng.

JOURNAL OF SCIENCE OF HNUE FIT., 2013, Vol 58, pp 38-46 This paper is available online at http://stdb.hnue.edu.vn MỘT PHƯƠNG PHÁP PHÂN TÍCH MẠNG TƯƠNG TÁC PROTEIN ĐỂ DỰ ĐỐN GEN GÂY BỆNH UNG THƯ Trần Thị Bích Phương1 , Nguyễn Văn Huấn2, Trần Đăng Hưng2 Trường Đại học Tây Nguyên; Khoa Công nghệ Thông tin, Trường Đại học Sư Phạm Hà Nội Email: hungtd@hnue.edu.vn Tóm tắt Dự đoán gen gây bệnh mục tiêu quan trọng nghiên cứu y sinh Mặc dù có nhiều phương pháp xây dựng để dự đoán gen liên quan đến số bệnh cụ thể Tuy nhiên, mối quan hệ phức tạp gen bệnh, nên nhiều gen nguyên nhân gây số bệnh di truyền chưa phát Trong báo này, đề xuất phương pháp tính tốn dựa việc phân tích mạng tích hợp thông tin: mạng tương tác protein, mạng tương tác microRNA-gen, gen gây bệnh ung thư biết Từ mạng tích hợp này, chúng tơi đưa phương pháp biểu diễn cho gen dựa vào tương tác trực tiếp gián tiếp với gen khác mạng Các thơng tin sau dùng để dự đốn gen có phải gen gây bệnh ung thư hay không Chúng áp dụng phương pháp đề xuất vào liệu thực tế download từ trung tâm liệu sinh học giới sử dụng phương pháp phân lớp phổ biến để đánh giá hiệu phương pháp đề xuất Kết cho thấy tích hợp thơng tin mạng tương tác microRNA độ xác phương pháp dự đốn nâng lên Điều chứng tỏ thông tin microRNA hữu ích việc tiên lượng gen gây bệnh Từ khóa: Phân tích mạng, Protein, Ung thư, gen, microRNA, liệu sinh học Mở đầu Ung thư bệnh phổ biến nguy hiểm giới nay, hàng năm có hàng trăm nghìn người chết bệnh [1, 2] Việc tìm hiểu chế nguyên nhân gây bệnh ung thư toán quan trọng y sinh Các ngun nhân mơi trường, ngoại cảnh, nguyên nhân không nhỏ di truyền Vậy câu hỏi đặt là, vật chất di truyền nguồn gốc gây bệnh ung thư Bằng nghiên cứu thực nghiệm, người ta rằng, với loại bệnh cụ thể, số gen quy định gây [3] Tuy nhiên, nhà thực nghiệm tìm gen gây bệnh cách đơn lẻ số cá thể, thực nghiệm tốn thời gian chi phí lớn Với hỗ trợ máy tính, nhà sinh học tính tốn đưa 38 Một phương pháp phân tích mạng tương tác protein để dự đoán gen gây bệnh ung thư phương pháp tính tốn dựa tri thức biết để tiên lượng khả gây bênh gen khác [2, 4] Phương pháp tính tốn dùng phương pháp học máy (machine learning), học máy dựa kĩ thuật thống kê tối ưu hóa cho phép xây dựng mơ hình "học" tri thức từ nguồn thơng tin biết trước Sau sử dụng mơ hình để đự đốn tri thức Đối với toán dự đoán gen gây bệnh, khoảng năm trở lại đây, cộng đồng nghiên cứu đưa nhiều phương pháp Nhìn chung phương pháp tính tốn dựa hai khía cạnh Một là, tích hợp nhiều loại thơng tin liên quan đến gen, thông tin tương tác protein, thông tin biểu gen, thông tin gen gây bệnh biết, Vì phân tử sinh học (gen, protein) thể sống không tồn độc lập mà chúng thường tương tác với tạo thành phức hợp, phức hợp thể chức Vì vậy, tích hợp nhiều loại thơng tin đối tượng khả dự đốn chức cao [1, 6] Hai là, xây dựng mơ hình học máy phù hợp với liệu sinh học, đặc điểm liệu sinh học thường có số chiều lớn, nên cần đưa mơ hình học máy làm việc với liệu có số chiều lớn Ngoài ra, phương pháp học máy phải làm việc nhiều loại liệu khác Chẳng hạn số phương pháp nghiên cứu gần ENDEAVOUR [6] PhenoPred [7] sử dụng phương pháp học đa-nhân (mutil-kernel learning) để tích hợp nhiều loại thơng tin Nhìn chung, phương pháp tính tốn chủ yếu dựa vào việc tích hợp nguồn thơng tin khác liên quan đến gen bệnh để tăng cường khả đoán nhận gen bệnh Tuy nhiên, nguồn liệu thường có nhiễu chưa đầy đủ, nên việc tìm kiếm nguồn thông tin ảnh hưởng đến việc suy đoán chức phần tử sinh học toán thách thức Qua trình tìm hiểu, chúng tơi nhận thấy nghiên cứu gần rằng, yếu tố quan trọng ảnh hưởng đến tính di truyền gen microRNAs, loại RNA nhỏ, khơng có chức sản sinh protein lại đóng vai trị quan trọng biểu gen khác [9] Nhất bệnh ung thư người, thực nghiệm tìm nhiều microRNA có ảnh hưởng đến gen gây bệnh [5, 10] Trong báo này, đề xuất framework nhằm tích hợp thơng tin từ nhiều nguồn liệu khác thành mạng tổng thể, sau đưa cách phân tích mạng tương tác để biểu diễn gen thông qua gen khác có tương tác trực tiếp gián tiếp với Ý tưởng tìm cách biểu diễn tương tác gen với gen khác để từ đốn nhận khả gây bệnh Điểm báo chúng tơi tích hợp thông tin mạng tương tác microRNA-gen vào mạng tương tác protein đưa cách phân tích mạng tương tác dựa thuật tốn tìm kiếm theo chiều rộng để biểu diễn nút mạng Chúng áp dụng phương pháp đề xuất vào liệu thực tế download từ trung tâm liệu sinh học giới sử dụng phương pháp phân lớp phổ biến (SVM, C4.5, K-NN) để đánh giá hiệu phương pháp đề xuất Kết thực nghiệm liệu thực cho thấy tích hợp thơng tin mạng tương tác microRNA độ xác phương pháp dự đốn nâng lên Điều chứng tỏ thông tin microRNA hữu ích việc tiên lượng gen gây bệnh 39 Trần Thị Bích Phương, Nguyễn Văn Huấn, Trần Đăng Hưng 2.1 Nội dung nghiên cứu Phương pháp Trong nghiên cứu này, toán tiên lượng gen gây bệnh chúng tơi phát biểu dạng tốn phân lớp, cụ thể toán phân lớp, lớp gen gây ung thư lớp lại Để sử dụng phương pháp phân lớp có, chúng tơi tạo liệu có nhãn đánh giá mơ hình cross-validation Chúng tơi đề xuất phương pháp gồm bước chính: (1) kết hợp nguồn thơng tin để xây dựng mạng tích hợp dựa mạng tương tác protein; (2) đưa cách biểu diễn protein mạng thành liệu vector, gán nhãn cho liệu dựa thông tin gen gây ung thư biết; (3) thực mơ hình phân lớp liệu tạo đánh giá mơ hình * Xây dựng mạng tích hợp Giống với ý tưởng nghiên cứu gần [1, 6, 8], phương pháp chúng tơi theo hướng tích hợp nhiều nguồn thông tin khác liên quan đến gen để nâng cao hiệu dự đốn Các nguồn thơng tin thường nghiên cứu trước dùng thông tin chuỗi protein, thông tin giải gen (Gene Annotation), thông tin mạng tương tác protein Tuy nhiên, phương pháp lần đề xuất tích hợp thơng tin mạng tương tác gen microRNA vào mạng protein, tập gen ung thư biết để đưa mạng tích hợp Các bước xây dựng mạng tích hợp Hình Bước xuất phát từ mạng tương tác protein (được download từ nguồn tin cậy), mạng biểu diễn đồ thị vô hướng, đỉnh protein (hoặc gen, ngữ cảnh coi protein gen tương đương), cạnh nối hai protein thể hai protein có tương tác với Các protein mạng đánh dấu normal protein (nút màu xám) Bước ánh xạ mạng tương tác microRNA-gene (biểu diễn đồ thị hai phía) vào mạng tương tác protein trên, lúc protein (gen) có tương tác với microRNA đánh dấu microRNA protein (nút màu xanh) Bước ánh xạ tập gen ung thư biết vào mạng tích hợp microRNA, mạng nút gọi cancer protein (nút màu đỏ) Kết có loại nút mạng tương tác, loại normal protein, loại microRNA protein, loại cancer protein, loại microRNA-cancer protein (nút màu tím, tức protein vừa microRNA vừa cancer protein) Mạng gọi mạng tích hợp dùng bước sau 2.2 Biểu diễn mạng tích hợp Với protein p mạng tích hợp, chúng tơi xây dựng tập đặc trưng cho để dự đoán khả liên quan đến bệnh ung thư Chúng định nghĩa loại đặc trưng sau: l ◦ Nnp số lượng normal protein có khoảng cách ngắn đến p l l ◦ Ndp số lượng cancer protein có khoảng cách ngắn đến p l l ◦ Nmp số lượng microRNA protein có khoảng cách ngắn đến p l l ◦ Ndmp số lượng microRNA-cancer protein có khoảng cách ngắn đến p l 40 Một phương pháp phân tích mạng tương tác protein để dự đốn gen gây bệnh ung thư Hình Xây dựng mạng tích hợp (Integrated network) Trong l ∈ (1, Lmax), Lmax cực đại độ dài đường ngắn hai protein mạng Đối với mạng chúng tơi tính độ dài đường ngắn thấy giá trị Lmax ≤ 20 Khi thực nghiệm liệu cụ thể coi Lmax tham số người dùng đưa vào Với cách định nghĩa đặc trưng protein p biểu diễn thành vector với độ dài ∗ Lmax Các tính đặc trưng cho protein minh họa Hình Để tính đặc trưng trên, chúng tơi sử dụng thuật tốn tìm kiếm theo Hình Biểu diễn protein A1BG theo phân chiều rộng, chi tiết trình bày Thuật bố láng giềng theo mức khác toán (NodeAnalyzer) Với ý xuất phát Giả sử Lmax = 2, protein A từ nút thời loang theo chiều rộng, biểu diễn thành vector * thành phần nút thăm đánh (3, 1, 0, 1, 6, 4, 2, 4) dấu để khơng phải thăm lại, đảm bảo tính theo đường ngắn từ nút thời đến nút cịn lại mạng Chúng tơi tính tốn đặc trưng cho tồn nút mạng Thuật tốn (NetAnalyzer), đáng ý sau hồn thành tính tốn cho protein trạng thái nút mạng trả lại giá trị để thực cho protein Cuối cùng, nhãn vector liệu trạng thái protein tương ứng, protein có trạng thái cancer protein microRNA-cancer protein gán nhãn cancer protein lại non-cancer Như vậy, với cách làm chuyển liệu mạng tương tác thành liệu vector có nhãn, liệu đưa vào huấn luyện kiểm thử với mơ hình phân lớp phổ biến 41 Trần Thị Bích Phương, Nguyễn Văn Huấn, Trần Đăng Hưng Algorithm 1: NetAnalyzer: Thuật tốn tính vector phân bố loại protein tất nút mạng tích hợp Input: Danh sách protein mạng tích hợp; Mạng tích hợp; lmax - số mức tối đa Output: Biểu diễn protein vector độ dài 4*lmax foreach (gen ∈ listOf gene) Call NodeAnalyzer(gene, lmax); foreach (gen ∈ listOf gene) gen.visittedstatus ← true; Algorithm 2: NodeAnalyzer: Thuật tốn tính phân bố loại protein xung quan nút root với level khác Input: root - gen cần tính; lmax - độ dài đường ngắn Output: vector gồm 4*lmax giá trị, phân bố loại protein xung quanh root với level khác vector < int > Idx; vector < gene > Q; r ← 0; l ← 0; level ← −1; Idx ← −1; Q ← root; root.visittedstatus ← f alse; while (level < lmax) and (l ≤ r) currgene ← Q.pop(); if (l = 0) then level + +; else if (Idx[l − 1] = Idx[l]) then level + +; foreach (gene ∈ currgene.neibourhood) if (gene.visittedstatus then r + +; Q.push(gene); Idx.push(level); gen.visittedstatus ← f alse; switch gen.type case normal protein root.count[level].np + + case microRN A protein root.count[level].mp + + case cancer protein root.count[level].dp + + case microRN A − disease protein root.count[level].mdp + + 42 Một phương pháp phân tích mạng tương tác protein để dự đoán gen gây bệnh ung thư * Một số phương pháp phân lớp phổ biến Trong báo này, sử dụng ba phương pháp phân lớp sử dụng nhiều hiệu lĩnh vực khai phá liệu: máy vector hỗ trợ, định (C4.5) K-láng giềng gần Các thuật toán cài đặt phần mềm Weka, thực nghiệm tập liệu chuẩn bị theo bước đánh giá/so sánh hiệu phương pháp Vì giới hạn báo, chúng tơi khơng trình bày chi tiết phương pháp phân lớp báo, người đọc dễ dàng tìm tài liệu liên quan đến ba phương pháp 2.3 Kết thảo luận 2.3.1 Các tập liệu Hiện có nhiều trung tâm sinh học phân tử cung cấp sở liệu (CSDL) mạng tương tác protein, nghiên cứu sử dụng mạng tương tác protein tin cậy nhiều người sử dụng HINT, BIOGRID, HPRD Thông tin chi tiết CSDL cho Bảng Dữ liệu tương tác microRNA gen download từ CSDL TarBase, CSDL chứa tương tác microRNA gen tìm phương pháp thực nghiệm TarBase chứa 3576 tương tác 657 microRNAs 2297 gen Danh sách gen biết liên quan đến bệnh ung thư download từ website viện Sanger, UK (CancerGene) Danh sách gồm 954 gen biết có liên quan đến ung thư lọc từ báo thực nghiệm Từ nguồn liệu download, viết chương trình C++ để tích hợp thành mạng tích hợp dựa mạng tương tác protein, gọi iNET 1, iNET 2, iNET Trong iNET xây dựng từ HINT, TarBase, CancerGene; iNET xây dựng từ BIOGRID, TarBase, CancerGene; iNET xây dựng từ HPRD, TarBase, CancerGene Bảng Thông tin mạng tương tác protein Dataset HINT BIOGRID HPRD No Protein No Interaction 8237 27297 16166 65372 9584 38926 URL www.hint.yulab.org www.thebiogrid.org www.hprd.org Downloaded Date 1/2012 7/2012 5/2012 2.3.2 Kết dự đoán Sau tiền xử lí liệu để tạo liệu nói, chúng tơi tiến hành chạy thực nghiệm phân lớp phần mềm Weka (một phần mềm chuyên dụng khai phá liệu) Thực tế liệu mạng iNET 1, iNET 2, iNET số lượng mẫu non-cancer nhiều so với liệu cancer, điều dẫn đến tượng bị lệch liệu hai lớp thực thuật tốn phân lớp Chúng tơi giải tượng cách với liệu chọn ngẫu nhiên số lượng mẫu non-cancer 43 Trần Thị Bích Phương, Nguyễn Văn Huấn, Trần Đăng Hưng gấp đơi số lượng cancer lớp Ngồi ra, tham số quan trọng tạo liệu Lmax, khảo sát chọn giá trị Lmax = 10 cho thực nghiệm, với giá trị mơ hình dự đốn cho kết tốt (trên liệu) Để đánh giá mơ hình phân lớp, chúng tơi sử dụng phương pháp cross-validation, chia tập liệu thành phần, phần dùng huấn luyện, phần lại dùng để test mơ hình, với liệu thực 10 lần, lấy kết trung bình lần chạy Các tham số mơ hình phân lớp dùng theo giá trị mặc định Chúng sử dụng tiêu chuẩn Precision, Recall F1-measure để đánh giá độ xác mơ hình tập liệu Trong tiêu chuẩn tính sau: Gọi TP số lượng phần tử mơ hình dự đốn cho lớp cancer TN số lượng phần tử mơ hình dự đoán cho lớp non-cancer FP số lượng phần tử mơ hình dự đốn sai cho lớp cancer FN số lượng phần tử mơ hình dự đốn sai cho lớp non-cancer Ta có TP + FN, TN + FP tổng số phần tử lớp cancer tổng số phần tử lớp non-cancer thực có liệu thử nghiệm Từ tiêu chuẩn đánh giá mơ hình tính sau: P recision = T P/(T P + F P ) (2.1) Recall = T P/(T P + F N) (2.2) F = ∗ (P recision ∗ Recall)/(P recision + Recall) (2.3) Chúng tiến hành bước thực nghiệm sau: bước lấy ngẫu nhiên ba liệu mà chuẩn bị để thực phương pháp phân lớp Sau thống kê kết thấy phương pháp phân lớp phương pháp C4.5 cho kết tốt (Bảng 2) Sau đó, chúng tơi áp dụng ba liệu thống kê kết cho thấy liệu iNET2 cho kết tốt (Bảng 3) Bộ liệu cho kết tốt dễ dàng nhận thấy số lượng protein tương tác lớn ba bộ, thời gian cập nhật Dựa hai sở này, thực bước thực nghiệm áp dụng phương pháp C4.5 với iNET2 để so sánh kết iNET2 có tích hợp thơng tin microRNA khơng tích hợp thơng tin microRNA Kết cho thấy tích hợp thơng tin microRNA kết dự đốn cao trường hợp khơng tích hợp thơng tin microRNA (Bảng 4) Bảng Kết dự đoán phương pháp phân lớp khác Method Recall SVM 86.50 C4.5 90.90 K-NN 90.10 Precision 86.40 90.70 89.90 F-measure 85.50 90.70 89.90 Như vậy, chưa thiết lập quy trình để so sánh với phương pháp khác, qua kết thực nghiệm thấy phương pháp biểu diễn mạng 44 Một phương pháp phân tích mạng tương tác protein để dự đốn gen gây bệnh ung thư tích hợp chúng tơi hợp lí kết dự đốn mơ hình phân lớp cao Ngoài ra, đưa thêm mạng tương tác microRNA vào mạng tương tác protein, độ xác mơ hình tăng lên (mặc dù không nhiều), điều thể thông tin tương tác microRNA với gen thơng tin quan trọng để dự đốn gen gây bệnh ung thư Hạn chế liệu tương tác microRNA với gen thực nghiệm kiểm chứng chưa nhiều (đa phần liệu dự đoán), nên thời gian tới nhà sinh học cung cấp thêm lượng liệu nhiều hơn, hy vọng nâng cao độ xác mơ hình dự đốn Bảng Kết dự đốn mạng tích hợp với phương pháp phân lớp khác DATA SVM C4.5 kNN Rec Pre F1 Rec Pre F1 Rec Pre F1 iNET1 86.50 86.40 85.50 90.90 90.70 90.70 90.10 89.90 89.90 iNET2 92.60 92.60 92.40 95.10 95.10 95.10 93.10 93.10 93.10 iNET3 81.70 81.50 78.40 82.00 81.40 81.60 83.80 83.80 83.80 Bảng So sánh kết dự đốn trường hợp có microRNA khơng có microRNA Có microRNA Khơng có microRNA Rec Pre F1 Rec Pre F1 95.10 95.10 95.10 94.70 94.70 94.70 Kết luận Trong y học, việc tìm gen gây bệnh có ý nghĩa lớn đến việc chế tạo thuốc đưa phương pháp chữa trị Ngày nay, với tiến kĩ thuật sinh học phân tử, lượng liệu sinh học sinh nhiều Trong báo này, chúng tơi đưa framework nhằm tích hợp nhiều nguồn thông tin liên quan đến gen vào mạng tích hợp, thơng tin microRNA gen lần sử dụng Sau chúng tơi đề xuất phương pháp biểu diễn mạng tích hợp để đưa liệu phân lớp Kết qủa thực nghiệm phân lớp phương pháp học máy phổ biến cho kết khả quan, chứng tỏ framework đưa hợp lí hữu ích cho tốn tiên lượng gen gây bệnh Tuy nhiên báo thử nghiệm liệu bệnh ung thư, framework sử dụng để dự đoán cho loại bệnh khác TÀI LIỆU THAM KHẢO [1] Li L., Kangyu Z., James L., Shaun C., David P D., Zhijun T., 2009 Discovering cancer genes by integrating network and functional properties BMC Biomedical Genomics, 2(61) 45 Trần Thị Bích Phương, Nguyễn Văn Huấn, Trần Đăng Hưng [2] Kann M G., 2010 Advances in translational bioinformatics: computational approaches for the hunting of disease genes Briefings in Bioinformatics, 11(1), pp 96-110 [3] Lu A L., 2009 An analysis of human microRNA and disease associations PLoS One 3(10):e3420 [4] Xiujuan W., Natali G and Haiyuan Y., 2011 Network-based methods for human disease giene prediction Briefings in Functional Genomics [5] Jiang., 2010 Prioritization of disease microRNAs through a human phenome-microRNAome network BMC Systems Biology, 4(Suppl 1):S2 [6] Aerts S., Lambrechts D., Maity S., Van Loo P., Coessens B., De Smet F., Tranchevent L., De Moor B., Marynen P., Hassan B., Carmeliet P., Moreau Y., 2006 Gene prioritization through genomic data fusion Nature Biotechnology, Vol 24, No 5, pp 537-544 [7] Radivojac P., Peng K., Clark W T., Peters B J., Mohan A., Boyle S M., Mooney S.D., 2008 An integrated approach to inferring gene-disease associations in humans Proteins, 72(3), pp 1030-1037 [8] Jing C., Bruce J A., Anil G J., 2009 Disease candidate giene identification and prioritization using Protein interaction networks BMC Bioinformatics [9] Ambros V., 2004 The functions of animal microRNAs Nature, 431, pp 50-355 [10] Dalmay T., 2008 MicroRNA and cancer J Int Med, 263, pp 1365-2796 ABSTRACT A method to analyze protein interaction network to predict disease genes that cause cancer Predicting disease genes is an important aspect of biomedical research and many methods have been developed to predict which genes are associated with specific diseases However, due to the complex relationship between genes and diseases, the genes that are associated with so many genetic diseases have not yet been discovered In this paper, we propose a computational method based on an analysis of the protein interaction network, microRNA-gene interactions and known causing cancer genes We propose that this new integrated network of information is a new method to identify genes based on their direct and indirect interactions with other genes in the network This information is then used to predict whether a gene causes cancer or not We applied the proposed method to real data which were downloaded from biological data centers around the world and used common classification methods to assess the effectiveness of the proposed method The results show that with the integration of information on the microRNA interaction network, the accuracy of this prediction method is raised This shows that information about microRNAs is useful in the prognosis of genetic disease 46 .. .Một phương pháp phân tích mạng tương tác protein để dự đoán gen gây bệnh ung thư phương pháp tính tốn dựa tri thức biết để tiên lượng khả gây bênh gen khác [2, 4] Phương pháp tính tốn dùng phương. .. lập quy trình để so sánh với phương pháp khác, qua kết thực nghiệm thấy phương pháp biểu diễn mạng 44 Một phương pháp phân tích mạng tương tác protein để dự đốn gen gây bệnh ung thư tích hợp chúng... diễn tương tác gen với gen khác để từ đốn nhận khả gây bệnh Điểm báo chúng tơi tích hợp thơng tin mạng tương tác microRNA -gen vào mạng tương tác protein đưa cách phân tích mạng tương tác dựa thuật

Ngày đăng: 14/11/2020, 08:05

Xem thêm:

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w