Phương pháp dựa trên mạng phức hợp

Một phần của tài liệu Phát triển các mô hình và kỹ thuật mạng phức hợp Để khai phá dữ liệu về bệnh ung thư (Trang 25 - 29)

CHƯƠNG 1. TỔNG QUAN VỀ MẠNG PHỨC HỢP VÀ KHAI PHÁ DỮ LIỆU BỆNH UNG THƢ

1.2. Phân loại các phương pháp giải bài toán xác định gene gây bệnh

1.2.3. Phương pháp dựa trên mạng phức hợp

Phương pháp này được tiến hành dựa trên việc quan sát thấy rằng các gene liên quan đến cùng một bệnh hoặc những bệnh tương tự thường có xu hướng nằm gần nhau trong mạng tương tác protein (hay còn gọi là module bệnh). Để sử dụng đƣợc kỹ thuật phân hạng này cần phải có dữ liệu mạng sinh học và thuật toán để phân tính mạng và xếp hạng các nút trên đồ thị. Có nhiều nghiên cứu đã

sử dụng các thuật toán phân hạng các nút trong mạng xã hội ứng dụng trong phân hạng các mạng protein do tính tương đồng về cấu trúc của mạng sinh học với các mạng xã hội [20].

Tuy có nhiều phương pháp phân hạng gene gây bệnh dựa trên mạng tương tác protein nhưng về cơ bản được chia làm 2 nhóm chính là các phương pháp cục bộ và phương pháp tổng thể [21]. Phương pháp cục bộ là chỉ xem xét các gene gần với gene gây bệnh đã đƣợc xác định nhƣ các gene đƣợc kết nối trực tiếp hoặc sử dụng đường đi ngắn nhất. Nhóm các phương pháp tổng thể sử dụng các thuật toán lan truyền thông tin bệnh từ các gene gây bệnh đã biết thông qua

hệ thống mạng để gán cho các gene ứng viên các trọng số đánh giá mức độ tương đồng với các gene gây bệnh đã biết, tức là mức độ liên quan với bệnh đang đƣợc xem xét.

Một phương pháp phân hạng điển hình là phương pháp bước ngẫu nhiên

có quay lại (RWR: Random Walk with Restart) [22] khai thác cấu trúc tổng thể của mạng dựa trên hành vi của một chuyển động ngẫu nhiên trên một mạng hay

đồ thị. Theo hành vi này, một thực thể xuất phát từ một nút khởi đầu sau đó di chuyển trên đồ thị bằng cách chuyển đến các nút lân cận một cách ngẫu nhiên với xác suất tỷ lệ với trọng số của các cạnh kết nối. Tập hợp các nút trong quá trình di chuyển là một chuỗi Markov và được gọi là một bước ngẫu nhiên trên

đồ thị (random walk on grap). Tại thời điểm bất kỳ trong quá trình di chuyển, thực thể cũng có thể quay lại nút khởi đầu với một xác suất nhất định đƣợc gọi

là xác suất quay lại (back-probability). Khi đó chúng ta có thể coi đây là bài toán bước ngẫu nhiên với các xác suất tiền nhiệm (random walk with priors). Các nút

24

đƣợc thăm nhiều hơn đƣợc coi là có độ quan trọng lớn hơn. Đại lƣợng này đánh giá tầm quan trọng tương đối (hay độ tương tự) của các nút còn lại so với tập các nút gốc.

Ưu điểm chính của phương pháp bước ngẫu nhiên là tốc độ thực hiện nhanh do đó có thể áp dụng cho các mạng có kích thước lớn. Khi áp dụng thuật toán này cho bài toán phân hạng gene bệnh, các gene gây bệnh đã biết đóng vai trò nhƣ các nút khởi đầu, các gene còn lại trên mạng đƣợc xem là các gene ứng viên. Kohler và cộng sự [23] đã áp dụng thuật toán này trên các mạng tương tác protein để xác định các gene gây bệnh mới. Kết quả thử nghiệm trên một tập gồm 110 nhóm bệnh cho thấy phương pháp này đạt được hiệu năng dự đoán tốt.

Ở một nghiên cứu khác, Lê Đức Hậu, Đặng Nhƣ Tùng và cộng sự [24-26]

đã cải tiến phương pháp RWR bằng cách tăng cường trọng số hàng xóm của các gene gây bệnh đã biết. Cũng xuất phát từ ý tưởng sử dụng các xác suất tiền nghiệm, Chen và cộng sự [27] đã sử dụng các thuật toán phổ biến trong phân tích mạng xã hội và mạng web dùng để đánh giá tầm quan trọng tương đối của nút nhƣ: HITS with priors, PageRank with priors và K-step Markov cho bài toán phân hạng các gene ứng viên trên các mạng tương tác protein.

Một cách tiếp cận khác sử dụng xác suất tiền nghiệm là PRINCE (PRIoritizatioN and Xcomplex Elucidation) đƣợc phát triển bởi Vanunu và cộng

sự [28]. PRINCE sử dụng thuật toán lan truyền để dự đoán gene bệnh dựa vào thông tin tích hợp giữa kiểu hình bệnh và mạng tương tác protein. Phương pháp này tính toán mối liên quan giữa một bệnh và gene bệnh đã biết với một bệnh khác dựa trên sự tương tự kiểu hình giữa hai bệnh. Gene liên quan tới bệnh sau

đó đƣợc sử dụng nhƣ xác suất tiền nghiệm để xây dựng chức năng phân hạng.

Trên mạng tương tác protein-protein được tích hợp với dữ liệu biểu hiện gene từ bệnh nhân, các dấu ấn sinh học ung thƣ có thể đƣợc xác định bằng các phương pháp dựa trên mạng như FUNMarker [29], NetAUC [30], ScaNGraF [31] và NetRank [32] trong đó thuật toán phân loại thường chạy trước khi thực hiện thuật toán xếp hạng nút. Cytoscape là một phần mềm mã nguồn mở đƣợc

25

thiết kế đặc biệt để trực quan hóa và phân tích các mạng lưới sinh học. Người dùng có thể sử dụng Cytoscape để mô hình hóa cách các phân tử trong cơ thể tương tác với nhau để hiểu rõ hơn về cấu trúc và chức năng sinh học. Đồng thời

có thể tùy chỉnh giao diện trực quan, điều chỉnh màu sắc, kích thước và cách hiển thị các thành phần mạng lưới để dễ dàng nhận diện các mối quan hệ quan trọng. Các ứng dụng Cytoscape nhƣ CyNetSVM [33], CyFinder, GTA [34] đã đƣợc phát triển để xác định các dấu ấn sinh học ung thƣ trong một mạng vô hướng như vậy. Một loại mạng vô hướng khác là mạng tương tác chức năng, với việc tích hợp dữ liệu biểu hiện gene, cũng đƣợc áp dụng rộng rãi để xác định các dấu ấn sinh học ung thư bằng các phương pháp tính toán như Google’s PageRank [35]. Gần đây, các thuật toán học máy nhƣ GAN [36, 37] đã đƣợc áp dụng cho các mạng chức năng để xác định các module gene tiên lƣợng với hiệu suất được cải thiện. Mặc dù các phương pháp học sâu có thể hỗ trợ việc xác định các gene và dự đoán kết quả chính xác hơn, nhƣng một trong những vấn đề chính trong việc áp dụng học sâu cho mục đích này là dữ liệu từ bệnh nhân ung thƣ có quá nhiều thứ nguyên. Điều này có thể dẫn đến vấn đề bị quá tải [38]. Để khắc phục hạn chế về thông tin của mạng vô hướng, các phương pháp dựa trên mạng gần đây tập trung vào mạng điều hòa gene (GRN). Loại mạng định hướng này cùng với sự xuất hiện của các phương pháp dự đoán dấu ấn sinh học mới tốt hơn như mRank [39], network rewiring [40] gợi ý rằng hướng của mạng là thông tin quan trọng cho kết quả dự đoán. Tuy nhiên, danh sách dấu ấn sinh học ung thƣ “Tiêu chuẩn vàng” không có sẵn, vì vậy rất khó để đánh giá hiệu quả của các phương pháp trước đây. Tóm lại, các mạng được sử dụng trong các phương pháp được mô tả trước đây thường đơn giản là các mạng đồng nhất với

ít thông tin tính toán hơn so với các con đường tín hiệu.

Các con đường tín hiệu với việc làm giàu thông tin đã được sử dụng rộng rãi trong các nghiên cứu khác nhau về bệnh ung thƣ, nhƣng không có công cụ nào nghiên cứu chúng để xác định các gene đánh dấu sinh học ung thƣ. Các con đường tín hiệu đã được nghiên cứu rộng rãi trong thập kỷ qua, cho phép phát

26

hiện ra các mục tiêu thuốc chống ung thƣ [41], phát hiện các gene bệnh [42], xác định các phân nhóm phân tử ung thƣ khác nhau [43], và sự phát triển của các dấu ấn sinh học tiên lượng và dự đoán ung thư [44, 45]. Các con đường tín hiệu thường được mô tả chi tiết bằng các mạng không đồng nhất bao gồm cả các liên kết có hướng và không có hướng để hiển thị đầy đủ các tương tác của một hệ thống sinh học. Các con đường tín hiệu này đã được tuyển chọn một cách có hệ thống từ các tài liệu và đƣợc tích hợp vào những cơ sở dữ liệu có sẵn công khai nhƣ KEGG pathway, Reactome, PathBank. Trong các cơ sở dữ liệu nhƣ vậy, các con đường tín hiệu còn được sử dụng để lập mô hình hệ thống của các gene liên quan đến một bệnh cụ thể, nhƣ bệnh miễn dịch và ung thƣ, nơi có thể dễ dàng xác định các gene dấu ấn sinh học cốt lõi của bệnh.

Gần đây, trong nước có một số nhóm nghiên cứu đã có những công bố liên quan đến hướng nghiên cứu này, như nhóm của tác giả Trần Tiến Dũng với một số công bố về dự đoán gene bệnh và gene chỉ dấu ung thƣ sử dụng thuật toán mức độ gần gũi theo thứ bậc [46, 47]. Các nghiên cứu này có ƣu điểm là xác định lõi của mạng vô hướng tuy nhiên còn có những hạn chế đối với mạng

có hướng. Nhóm nghiên cứu của tác giả Lê Đức Hậu ở với một số công bố về dự đoán gene bệnh dựa trên xếp hạng gene theo thuộc tính của đỉnh đƣợc xác định bởi thuật toán bước nhảy ngẫu nhiên và bước nhảy ngẫu nhiên có quay lại (RWR) [24], hay sử dụng mô hình mạng Boolean Network với thử nghiệm dự đoán đƣợc 27 gene có liên quan đến bệnh ung thƣ vú [48]. Các nghiên cứu này

đã cải tiến được phương pháp RWR với xác xuất tiền nghiệm, tuy nhiên còn hạn chế trong việc xếp hạng các gene trong lõi của mạng. Nhóm nghiên cứu của nhóm tác giả Trần Đăng Hƣng và Nguyễn Văn Tỉnh với một số công bố về dự đoán mối liên quan giữa miRNA và bệnh bằng cách sử dụng thuật toán bước nhảy ngẫu nhiên có quay lại và tích hợp nhiều điểm tương đồng [49], ngoài ra nhóm còn sử dụng thuật toán lọc cộng tác và phân bổ nguồn lực trên biểu đồ ba bên miRNA-bệnh-lncRNA [50]. Các nghiên cứu này có ƣu điểm là phân tích, dự

27

đoán về các mối liên kết, tuy nhiên còn hạn chế trong việc xác định các lõi của mạng và xếp thứ tự các nút trong lõi của mạng.

Một phần của tài liệu Phát triển các mô hình và kỹ thuật mạng phức hợp Để khai phá dữ liệu về bệnh ung thư (Trang 25 - 29)

Tải bản đầy đủ (PDF)

(136 trang)