Một phương pháp dự đoán gen gây bệnh sử dụng dữ liệu chưa có nhãn

9 61 0
Một phương pháp dự đoán gen gây bệnh sử dụng dữ liệu chưa có nhãn

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết trình bày một giải pháp sử dụng các dữ liệu chưa gán nhãn cho bài toán dự đoán gen gây bệnh (gọi tắt là gen bệnh). Thông thường, bài toán dự đoán gen bệnh có thể coi là bài toán phân lớp nhị phân.

JOURNAL OF SCIENCE OF HNUE Educational Sci., 2015, Vol 60, No 7A, pp 61-69 This paper is available online at http://stdb.hnue.edu.vn DOI: 10.18173/2354-1075.2015-0053 MỘT PHƯƠNG PHÁP DỰ ĐOÁN GEN GÂY BỆNH SỬ DỤNG DỮ LIỆU CHƯA CÓ NHÃN Lê Thu Hương Thái Thị Thanh Vân Trần Đăng Hưng Khoa Tự nhiên, Trường Cao đẳng Sư phạm Điện Biên Công nghệ Thông tin, Học viện Kỹ thuật Mật mã Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội Khoa Tóm tắt Trong báo này, chúng tơi trình bày giải pháp sử dụng liệu chưa gán nhãn cho toán dự đoán gen gây bệnh (gọi tắt gen bệnh) Thơng thường, tốn dự đốn gen bệnh coi tốn phân lớp nhị phân Tuy nhiên, tốn liệu âm tính (negative) thường khó xác định, nên hiệu phương pháp dự đốn chưa cao Chúng tơi đề xuất phương án xây dựng tập âm tính cách sử dụng liệu chưa có nhãn để huấn luyện mơ hình học máy nhằm tăng hiệu dự đốn Từ khóa: Dự đốn, gen gây bệnh, liệu chưa có nhãn, phân lớp nhị phân Mở đầu Từ nghiên cứu thực nghiệm cho thấy với loại bệnh cụ thể, số gen quy định gây Tuy nhiên, nhà thực nghiệm tìm gen gây bệnh cách đơn lẻ số cá thể, thực nghiệm thời gian chi phí lớn Khi số lượng liệu sinh học phân tử ngày nhiều, nhà sinh học tính tốn đưa phương pháp tính tốn dựa gen gây bệnh biết để tiên lượng gen khác Triết lí chung phương pháp tính tốn gen có quan hệ “gần” với có khả có chung số chức Giả sử rằng, ta biết thơng tin quan hệ gen lồi sinh vật dự đốn chức cho gen Nhìn từ lĩnh vực khai phá liệu, coi tốn dự đốn gen gây bệnh toán phân lớp toán xếp hạng Giả sử có tập gen lồi cụ thể đó, biết (dựa thực nghiệm) số gen liên quan đến bệnh cụ thể, cần dự đốn xem số gen lại, gen có khả gen gây bệnh Để làm điều này, phải dựa vào thông tin có gen tìm cách mơ hình hóa gen mối tương quan với gen khác Các phương pháp có ứng dụng nhiều cho toán dự đoán/tiên lượng gen bệnh tin sinh học gồm phương pháp: phương pháp phân tích liên kết (linkage analysis), phương pháp dựa vào giải chức gen (functional annotation-based), phương pháp dựa mạng sinh học (biological network-based) dựa vào kĩ thuật học máy (machine learning-based) Ngày nhận bài: 15/7/2015 Ngày nhận đăng: 01/11/2015 Liên hệ: Trần Đăng Hưng, e-mail: hungtd@hnue.edu.vn 61 Lê Thu Hương, Thái Thị Thanh Vân Trần Đăng Hưng Phương pháp phân tích liên kết: Phương pháp phân tích liên kết nhằm thiết lập mối liên kết gen hệ gen Phương pháp chủ yếu dựa thống kê để tìm vị trí gen có chức nhiễm sắc thể Tuy nhiên, với số lượng gen lớn hệ gen người việc tìm kiếm vị trí xác gen khó khăn [1, 3] Cho đến nay, phương pháp có ứng dụng phổ biến việc lập đồ gen với bệnh phổ biến Tuy nhiên, để thực thành cơng với phương pháp đòi hỏi cần nhiều thời gian, tài nguồn liệu lớn Phương pháp dựa vào giải chức năng: Phương pháp tìm cách xếp hạng gen ứng viên dựa vào độ tương tự chức gen ứng viên với tập hợp gen bệnh biết vào profile xây dựng dựa nhiều sở liệu sinh học [2, 3, 5] Do đó, phương pháp chủ yếu tập trung vào việc tích hợp nhiều nguồn liệu giải gen để thu độ xác cao Tuy nhiên, phương pháp gặp phải hạn chế mà nguồn liệu giải gen chưa đầy đủ cho tất gen [15, 20] Gần phương pháp phân hạng gen ứng viên mở rộng theo hướng tiếp cận sử dụng mạng sinh học [5, 11] tỏ trội phương pháp dựa vào giải chức [7, 13] Các phương pháp dựa mạng tương tác khơng bị hạn chế thiếu hụt sở liệu giải gen Ngoài ra, trội phương pháp dựa mạng phương dựa ngun lí “mơ đun bệnh” chứng minh (đó là, gen/protein liên quan đến bệnh bệnh tương tự thường hình thành mơ đun chức năng/vật lí mạng tương tác gen/protein [16, 19]) Trong phương pháp dựa mạng phương pháp dựa thuật tốn bước ngẫu nhiên có quay trở lại (RWRs) trội so với phương pháp khác hàng xóm trực tiếp (nearest neighbor), khoảng cách ngắn Do thuật toán tính tốn độ tương tự gen ứng viên gen gây bệnh biết cách toàn cục tồn mạng, khơng gen liên kết trực tiếp với gen bệnh biết xem xét, mà gen gián tiếp xem xét Cùng với hai phương pháp trên, gần kĩ thuật học máy sử dụng nhiều toán dự đoán gen bệnh [9, 12, 14, 15] Bản chất phương pháp học máy huấn luyện mơ hình (phân lớp/phân cụm) từ liệu có q khứ, nhằm dự đốn cho liệu Đối với toán dự đoán gen bệnh, coi tốn phân lớp nhị phân (binary classification) phân lớp đơn phân (one-class classification) Vấn đề phương pháp học máy cần có lượng liệu đủ lớn để huấn luyện mơ hình Về bản, có nhiều liệu mơ hình xây dựng xác Vì vậy, việc tích hợp nhiều nguồn liệu khác làm tăng độ xác kĩ thuật học máy toán dự đoán/tiên lượng gen gây bệnh Một số phương pháp theo kĩ thuật học máy phát triển gần Endevour [19], ProDiGe [14], Tuy nhiên, với phát triển công nghệ sinh học, lượng liệu sinh học phân tử sinh ngày nhiều, việc tích hợp nguồn liệu cho kết dự đốn/tiên lượng với độ xác cao Khi coi toán phân loại/dự đoán gen bệnh toán phân lớp nhị phân, liệu positive tập gen biết gen gây bệnh, gen thường phát phương pháp thực nghiệm số lượng gen gây bệnh bệnh cụ thể thường Dữ liệu negative tập gen lại, nhiên sử dụng tập gen có hai vấn đề xảy ra: (1) số lượng gen lớn, thường lớn nhiều so với tập positive, từ dẫn đến tốn huấn luyện liệu cân bằng; (2) số gen lại đó, chưa thể nói chắn gen gen khơng gây bệnh, nên có nhiều false negative liệu Để giải vấn đề này, lĩnh vực học máy có phương pháp gọi huấn luyện mơ hình dự đốn từ liệu positive liệu chưa biết nhãn (unlabeled data) Nghĩa 62 Một phương pháp dự đoán gen gây bệnh sử dụng liệu chưa có nhãn coi phần liệu lại liệu chưa có nhãn, tìm cách sử dụng liệu cho q trình huấn luyện mơ hình Một số nghiên cứu trước đề xuất mơ hình phân lớp nhị phân cho toán dự đoán gen bệnh, tập negative chọn ngẫu nhiên [8, 9, 11], sử dụng kĩ thuật bagging để lựa chọn tập negative [14, 15] Tuy nhiên cách làm cho kết dự đốn chưa cao số gen lại, khó để khẳng định gen gen khơng gây bệnh [12] Trong nghiên cứu này, chúng tơi xây dựng mơ hình dự đoán gen bệnh cách sử dụng hai tập liệu: tập liệu positive (P) tập gen bệnh biết thực nghiệm; tập gen lại gọi tập liệu chưa có nhãn (U) Để huấn luyện mơ hình dự đốn, chúng tơi đề xuất cách phân chia tập liệu U thành tập liệu N1, N2, N3, N4 Sau xây dựng tập liệu rồi, sử dụng phương pháp học máy weighted support vector machine (wSVM) để huấn luyện mơ hình, phương pháp wSVM cho phép đặt trọng số khác cho gen tập N1, N2, N3, N4 nhằm thể mức độ đóng góp vào q trình huấn luyện gen tập khác Cuối thử nghiệm tập liệu thực tế để kiểm chứng độ xác phương pháp 2.1 Nội dung nghiên cứu Biểu diễn đặc trưng gen Trong toán dự đoán gen bệnh, gen gi biểu diễn loại thông tin khác nhau, thông tin cấu trúc gen thành phẩm gen (protein), thông tin giải chức gen từ GO (gene ontology), Nhìn chung, tích hợp nhiều nguồn thơng tin sinh học liên quan đến gen mơ hình dự đốn cho kết tốt Trong nghiên cứu này, biểu diễn gen véc-tơ gồm thông tin lấy từ nguồn sau: Miền protein (D) Các chức phân tử (MF) Các trình sinh học (BP) Các thành phần tế bào (BP) Trong (1) lấy từ CSDL PFAM, (2)-(4) lấy từ từ điển gen [4] Như vậy, gen gi biểu diễn vectơ Vgi bao gồm: - Thành phần miền protein Dgi - Thành phần chức phân tử MFgi - Thành phần trình sinh học BPgi - Thành phần thành phần tế bào CCgi Tức Vgi = (Dgi , MFgi , BPgi , CCgi ) * Thành phần miền Dgi gen gi biểu diễn : Dgi = (di1 , di2 , ., di|P f am−A| ) - Trong đó: + dij = sản phẩm gen gi chứa miền tương ứng Pfam-A + dij = ngược lại (với ≤ j ≤ |P f am − A|) (CSDL Pfam-A lấy http://pfam.sanger.ac.uk/) * Đối với thành phần chức phân tử MFgi , thành phần trình sinh học 63 Lê Thu Hương, Thái Thị Thanh Vân Trần Đăng Hưng BPgi , thành phần thành phần tế bào CCgi sử dụng sở liệu GO lấy từ (GO, http://www.geneontology.org/ )và chúng biểu diễn tương tự Thành phần chức phân tử MFgi gen gi biểu diễn : - M F gi = (mfi1 , mfi2 , , mfi|SM F |), - BP gi = (bpi1 , bpi2 , , bpi|SBP | ), - CCgi = (cci1 , cci2 , , cci|SCC| ) Trong thành phần gen gi liên quan đến term GO tương ứng loại từ điển, trường hợp ngược lại Như gen gi biểu diễn véc-tơ gồm nhiều thành phần, thành phần có giá trị 2.2 Thuật toán xây dựng tập liệu N1, N2, N3, N4 Chúng xây dựng tập gen âm tính tin cậy N1 từ U cách tính tốn tương đồng gen chưa gán nhãn U với gen dương tính P; ý tưởng chúng tơi tìm cách nhặt gen U xa so với tập P vào tập N1, khái niệm xa thực độ đo khoảng cách gen, hay nói cách khác độ đo giống mặt chức gen Chi tiết thuật toán cho đoạn giả mã đây: N = ∅; Biểu diễn gen gi P U vector Vgi ; |P | pr = i=1 V gi |P |; ave_dist = 0; Với gi ǫUthực ave_dist += dist(pr,Vgi )/|U|; Với gi ǫUthực Nếu(dist(pr,Vgi ) > ave_dist) N = N ∪ {gi } Trong dist(a,b) khoảng cách Ơ-cơ-lít hai vector a b Như vậy, sau bước có tập gen: tập P, tập N1, U\N1 Tiếp theo, tiếp tục phân chia tập U\N1 thành tập N2, N3, N4 Trong đó, tập N2và tập N3 tập chứa gen gần với ranh giới phân loại tập positive tập negative.Để làm điều này, xây dựng đồ thị biểu diễn mối quan hệ gen P ∪ U (chú ý xét toàn gen P U): * Xét đồ thị GSIM = (VSIM , ESIM ) Trong đó: + VSIM tập đỉnh vbiểu diễn cho gen P ∪ U + ESIM tập cạnh (gi ,gj ) biểu diễn cho kết nối hai gen khác gi gj Sau biểu diễn đồ thị GSIM ma trậnWij để tìm độ giống hai gen gi gj sau: dist(gi , gj ) − minkǫ[1,|P ∪U |]dist(gi , gk ) (1) Wi j = − maxkǫ[1,|P ∪U |]dist(gi , gk ) − minkǫ[1,|P ∪U |]dist(gi , gk ) - Nếu Wij đạt giá trị cao hai gengivà gjcó đặc trưng sinh học giống 64 Một phương pháp dự đoán gen gây bệnh sử dụng liệu chưa có nhãn có khả hai gen thuộc loại - Với hệ thống có gen mang đặc điểm gần giống GSIM , lúc áp dụng thuật toán bước ngẫu nhiên để phát phần tử gần giống dương tính (positive) gần giống âm tính (negative), thuật tốn tiến hành sau: * Thuật toán bước ngẫu nhiên: Bước 1: Khởi tạo xác suất tiên nghiệm mẫu dương tính âm tính thật - Đặt P0 N0 biểu diễn xác suất tiên nghiệm mẫu dương tính âm tính - Trong P0 , xác suất tiên nghiệm mẫu dương tính P gán +1(tổng xác suất |P| ) - Trong N0 , xác suất tiên nghiệm mẫu thực âm tính N1được gán -|P| / |N1| (tổng xác suất - |P|) - Biểu diễn chung vector xác suất tiên nghiệm cho liệu: Go = (P0 ,U0 ,N0 ) Trong ΣP0 = ΣN0 xác suất trước U0 Bước 2: Truyền ảnh hưởng thông tin gắn nhãn từ G0 đến gen U\N1 Áp dụng thuật toán bước ngẫu nhiên vào đồ thị GSIM : - Đặt G0 vector xác suất tiên nghiệm - Gr vector xác suất bước r tính sau: Gr = (1 − α)Wij Gr − + αG0 , (r ≥ 2) (2) Trong đó: G1 = Go vWij = D −1 Wij (3) Dii = Σk Wik vα = 0.8; (chúng lựa chọn giá trị α 0.8) Khi Dif = |Gr − Gr−1 | ⇐ 10−6 thuật tốn dừng Bước 3: Gán nhãn cho gen có khả dương tính (N2), gen có khả âm tính (N3) gen âm tính yếu (N4) Dựa vào giá trị vector Gr , phân chia gen gi vào tập sau: - N = N ∪ gi Gr (gi ) > − α - N = N ∪ gi Gr (gi ) ← (1 − α) - N = N ∪ gi −(1 − α) ≤ Gr (gi ) ≤ (1 − α) Như vậy, từ liệu ban đầu gồm hai tập P U, phân chia thành tập với ý nghĩa trên: P, N1, N2, N3, N4 Tiếp theo huấn luyện mơ hình phân lớp với tập liệu sử dụng phương pháp wSVMs 2.3 Huấn luyện mơ hình với wSVMs Chúng tơi xây dựng mơ hình phân lớp để huấn luyện mơ hình dựa liệu chuẩn bị phương pháp wSVMs Trong hàm mục tiêu phương pháp wSVMs điều chỉnh sau: (4) minimize |w|2 + c0 ΣiǫN ξi + c2 ΣiǫN ξi + c3 ΣiǫN ξi + c4 ΣiǫN ξi Thỏa mãn ràng buộc: 65 Lê Thu Hương, Thái Thị Thanh Vân Trần Đăng Hưng yi (wT xi + B) ≥ 1ξi (i = 1, 2, , n) (5) - Trong ξi tham số cho phép phân loại sai số mẫu huấn luyện, c0 , c1 , c2 , c3 c4 hệ số phạt khác cho loại liệu thuộc vào tập mà phân loại mục 2.1 Chúng huấn luyện kiểm thử mơ hình dự đốn gen bệnh sử dụng thư viện libsvm [6] môi trường linux Chi tiết thực nghiệm trình bày mục 2.4 Thực nghiệm 2.4.1 Dữ liệu Như trình bày phần trước, gen biểu diễn thuộc tính thuộc vào nhóm đặc trưng : (1) miền protein D, (2) chức phân tử MF, (3) trình sinh học mà gen tham gia BP, (4) thành phần tế bào CC Trong liệu thuộc nhóm (1) lấy từ sở liệu PFAM (http://pfam.sanger.ac.uk/), liệu thuộc nhóm (2), (3), (4) lấy từ sở liệu GeneOntology (http://www.geneontology.org/).Ngồi thơng tin danh sách gen bệnh biết lấy từ sở liệu OMIM (http://www.omim.org) Từ nguồn liệu download về, tiền xử lí để có liệu đầu vào thực nghiệm thuật tốn đề xuất Thơng tin cụ thể Bảng STT Bảng Thông tin liệu thực nghiệm Đối tượng Tổng số gen sử dụng Số gen bệnh Số lượng miền protein Số lượng chức phân tử Số lượng trình sinh học Số lượng thành phần tế bào Số lượng protein lân cận xét (bao gồm 1N 2N) Số lượng 9720 1235 100 100 100 100 50 Như vậy, gen biểu diễn vector gồm 450 đặc trưng, giá trị đặc trưng (0 – gen khơng có đặc trưng tương ứng trường hợp ngược lại) Tổng số gen liệu thực nghiệm 9720 gen, 1235 gán nhãn gen bệnh (thuộc tập P), lại 8485 gen chưa biết nhãn 2.4.2 Cơng cụ tính tốn Dữ liệu download từ CSDL từ website chứa nhiều loại thông tin khác nhau, viết đoạn trình C++ (trong mơi trường linux) để xử lí giá trị nhiễu, ghép nối phần liệu từ nhiều nguồn thông qua tên định danh gen Dữ liệu cuối chúng tơi có trình bày Bảng Để tính toán tập N 1, N 2, N N theo thuật toán mục 2.2, chúng tơi viết chương trình C++ Sau chuẩn bị liệu dạng vector, sử dụng công cụ libsvm (http://www.csie.ntu.edu.tw/ cjlin/libsvm/) để huấn luyện kiểm thử mơ hình wSVMs cho tốn dự đoán gen bệnh 66 Một phương pháp dự đoán gen gây bệnh sử dụng liệu chưa có nhãn 2.4.3 Một số kết Chúng thử nghiệm mô hình weighted svm với tham số huấn luyện khác liệu chuẩn bị Để đánh giá mơ hình dự đốn, chúng tơi sử dụng tiêu chuẩn quen thuộc học máy precision, recall F1-measure Gọi T P số lượng phần tử mơ hình dự đốn cho lớp positive T N số lượng phần tử mơ hình dự đoán cho lớp negative F P số lượng phần tử mơ hình dự đốn sai cho lớp positive F N số lượng phần tử mơ hình dự đốn sai cho lớp negative Ta có T P + F N, T N + F P tổng số phần tử lớp positive tổng số phần tử lớp negative thực có liệu thử nghiệm Từ tiêu chuẩn đánh giá mơ hình tính sau: TP ; P recisionpositive = TP + FP TN P recisionnegative = ; TN + FN TP ; Recallpositive = TP + FN TN Recallnegative = ; TN + FN P recisionpositive + P recisionnegative P recision = ; Recallpositive + Recallnegative ; Recall = 2∗ (P recision ∗ Recall) F − measure = (P recision + Recall) Chúng thực 10-fold cross-validation tập liệu thực nghiệm, kết chạy mơ hình weighted svm với tham số khác liệt kê bảng đây, hệ số phạt c0 , c1 , c2 , c3 , c4 là: 1.0, 1.5, 2.0, 2.5 3.0 Bảng Kết dự đoán liệu thực nghiệm Tham số RBF Kernel (gamma = 0.001) RBF Kernel (gamma = 0.01) Polynomial kernel (d = 3) Linear kernel Precision (%) 86,5 83,2 81,7 79,2 Recall (%) 86,4 81,4 81,5 80,4 F1-Measure (%) 86,4 82,3 81,6 79,8 Khi thực nghiệm với liệu chuẩn bị phương pháp weighted SVMs, thực nghiệm hàm nhân phổ biến RBF, linear, polynomial Với loại hàm nhân, thử chọn giá trị tham số phù hợp cho kết dự đoán cao (Bảng 2) Trong loại hàm nhân hàm nhân RBF cho kết cao với F1 = 85.50, hàm nhân Linear cho kết thấp F1 = 79.8 Đối với hàm nhân RBF, tham số gamma (gamma = 1/(2*sigma2 )) thử nghiệm tìm giá trị tốt gamma = 0.001 Ngoài ra, để đánh giá mức độ ảnh hưởng nhóm đặc trưng đến kết phân lớp, thử nghiệm xây dựng mô hình nhóm đặc trưng riêng rẽ, sử dụng đồng thời nhóm đặc trưng Kết thử nghiệm cho Bảng Mặc dù sai khác sử dụng nhóm đặc trưng khác không nhiều, nhiên, chúng tơi thấy sử dụng nhóm đặc trưng riêng rẽ kết dự đốn khơng 67 Lê Thu Hương, Thái Thị Thanh Vân Trần Đăng Hưng cao trường hợp sử dụng kết hợp nhiều nhóm đặc trưng Bảng Kết thực nghiệm với nhóm đặc trưng khác Nhóm đặc trưng (1) (2) (3) (4) (2)+(3)+(4) (1)+(2)+(3)+(4) Precision (%) 76,3 79,6 81,9 78,4 83,2 86,5 Recall (%) 74,9 80,1 80,3 77,2 84,6 86,4 F1-Measure (%) 75,6 79,8 81,1 77,8 83,9 86,4 Điều lí giải kết hợp nhiều loại thông tin khác để mô tả gene huấn luyện mơ hình weighted svm dự đốn tốt Tuy nhiên, điều phụ thuộc vào việc lựa chọn tham số mô hình giá trị phạt c0 , c1 , c2 , c3 , c4 Trong thực nghiệm lựa chọn giá trị tham số phạt theo trực quan (như thực nghiệm bên trên) Trong thời gian tới thực nghiệm với nhiều tham số khác để tìm giá trị tốt cho loại nhóm đặc trưng khác Kết luận Để tìm kiếm gen bệnh, phương pháp học máy cổ điển thường xây dựng mơ hình phân lớp nhị phân, sử dụng gen bệnh biết làm liệu positive (P), tập gen lại liệu negative (N) Tuy nhiên, tập liệu N chứa nhiều nhiễu, số gen lại chứa số gen gây bệnh Trong nghiên cứu đưa phương pháp để xây dựng mơ hình dự đoán gen bệnh từ liệu gen bệnh biết (P) gen lại coi liệu chưa biết nhãn (U) Chúng tơi tìm cách phân chia tập U thành tập khác nhau, sau huấn luyện mơ hình wSVMs tập liệu Thực nghiệm liệu thực tế cho kết dự đoán cao, điều chứng tỏ phương pháp đề xuất phù hợp cho toán dự đoán gen bệnh Ngồi ra, chúng tơi tin phương pháp áp dụng cho tốn khác liệu negative khó xác định Lời cảm ơn Bài báo hoàn thành tài trợ Quỹ NAFOSTED (Mã số đề tài: 102.01-2011.05) TÀI LIỆU THAM KHẢO [1] Adie, E et al., 2005 Speeding disease gene discovery by sequence based candidate prioritization BMC Bioinformatics, 6(1): 55 [2] Adie, E.A., Adams, R.R., Evans, K.L., Porteous, D.J and Pickard, B.S., 2006 SUSPECTS: enabling fast and effective prioritization of positional candidates, Bioinformatics, 22, 773-774 [3] Aerts, S., Lambrechts, D., Maity, S., Van Loo, P., Coessens, B., De Smet, F., Tranchevent, L.-C., De Moor, B., Marynen, P., Hassan, B., Carmeliet, P and Moreau, Y., 2006 Gene prioritization through genomic data fusion, Nature Biotechnology, 24, 537-544 [4] Ashburner M et al., 2000 "Gene ontology: tool for the unification of biology The Gene Ontology Consortium" Nat Genet 25 (1): 25–29 [5] Barabasi, A.-L., Gulbahce, N and Loscalzo, J., 2011 Network medicine: a network-based approach to human disease Nat Rev Genet, 12, 56-68 [6] Chang, C & Lin, C., 2011 LIBSVM: a library for support vector machines ACM Transactions on Intelligent Systems and Technology, 27:1-27 68 Một phương pháp dự đoán gen gây bệnh sử dụng liệu chưa có nhãn [7] Chen J., Aronow B J and Jegga A G., 2009 Disease candidate gene identification and prioritization using protein interaction networks BMC Bioinformatics, 10:73 [8] Chen, J., Xu, H., Aronow, B and Jegga, A., 2007 Improved human disease candidate gene prioritization using mouse phenotype BMC Bioinformatics, 8, 392 [9] De Bie, T., Tranchevent, L.-C., Van Oeffelen, L.M.M and Moreau, Y., 2007 Kernel-based data fusion for gene prioritization Bioinformatics, 23, i125-i132 [10] Ideker, T., & Sharan, R., 2008 Protein networks in disease Geno Res., 18: 644-652 [11] Jonsson, P.F and Bates, P.A., 2006 Global topological features of cancer proteins in the human interactome Bioinformatics, 22, 2291-2297 [12] Kann M G., 2010 Advances in translational bioinformatics: computational approaches for the hunting of disease genes Briefings In Bioinformatics, 11(1), 96-110 [13] Kohler, S et al., 2008 Walking the Interactome for Prioritization of Candidate Disease Genes The American Journal of Human Genetics, 82(4):949-958 [14] Mordelet, F and Vert, J.-P., 2011 ProDiGe: Prioritization Of Disease Genes with multitask machine learning from positive and unlabeled examples BMC Bioinformatics, 12, 389 [15] Moreau, Y and Tranchevent, L.-C., 2012 Computational tools for prioritizing candidate genes: boosting disease gene discovery Nat Rev Genet, 13, 523-536 [16] Oti M, Snel B, et al., 2006 “Predicting disease genes using protein–protein interactions” JMG, 43(8):691-698 [17] Peng Y., Xiao L.L., Jian P.M., and Chee K.K., 2012 Positive-Unlabeled Learning for Disease Gene Identification Bioinformatics, Vol 28 no, pages 2640–2647 [18] Richard Twyman, 2003 Linkage analysis: Finding the rough position of human disease genes relative to known genetic markers [19] Tranchevent L C., Barriot R., Yu S., Van Vooren S., Van Loo P., Coessens B., De Moor B., Aerts S., Moreau Y., 2008 ENDEAVOUR update: a web resource for gene prioritization in multiple species Nucleic Acids Res, 36:W377-W384 [20] Wang, D., Wang, J., Lu, M., Song, F and Cui, Q., 2010 Inferring the human microRNA functional similarity and functional network based on microRNA-associated diseases.Bioinformatics, 26, 1644-1650 ABSTRACT Predicting disease-causing genes using unlabelled data In this paper, we present a method that uses unlabeled data to confront the disease-causing gene prediction problem Normally, disease-causing gene prediction does not have binary classification problems but it is difficult to identify negative data in our problems, and that leads to low prediction accuracy We propose the use of unlabeled data to train machine learning model in process of building negative set in order to improve efficiency Keywords: Disease-causing gene, unlabeled data, binary classification 69 ... đốn từ liệu positive liệu chưa biết nhãn (unlabeled data) Nghĩa 62 Một phương pháp dự đoán gen gây bệnh sử dụng liệu chưa có nhãn coi phần liệu lại liệu chưa có nhãn, tìm cách sử dụng liệu cho... Wij đạt giá trị cao hai gengivà gjcó đặc trưng sinh học giống 64 Một phương pháp dự đoán gen gây bệnh sử dụng liệu chưa có nhãn có khả hai gen thuộc loại - Với hệ thống có gen mang đặc điểm gần... vector, sử dụng công cụ libsvm (http://www.csie.ntu.edu.tw/ cjlin/libsvm/) để huấn luyện kiểm thử mơ hình wSVMs cho tốn dự đốn gen bệnh 66 Một phương pháp dự đoán gen gây bệnh sử dụng liệu chưa có nhãn

Ngày đăng: 14/01/2020, 01:57

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan