Bài toỏn dúng hàng mạng tương tỏc protein-protein

Một phần của tài liệu (LUẬN án TIẾN sĩ) một số thuật toán dóng hàng các mạng protein luận án TS máy tính 94801 (Trang 28 - 33)

Chương 1 DểNG HÀNG CÁC MẠNG PROTEIN VÀ TỐI ƯU MỀM

1.1. Tin sinh học và dúng hàng cỏc mạng protein

1.1.3. Bài toỏn dúng hàng mạng tương tỏc protein-protein

Cỏc protein trong mỗi cơ thể sống khụng tồn tại một cỏch độc lập mà chỳng tương tỏc với nhau. Dựa trờn nghiờn cứu thực nghiệm, người ta xõy dựng được cỏc CSDL về cỏc mạng tương tỏc protein - protein.

Một mạng tương tỏc Protein được biểu thị bởi một đồ thị G(V,E) trong đú V là tập đỉnh mà mỗi nỳt ứng với một protein, E là tập cạnh, mỗi cạnh nối 2 nỳt biểu hiện tương tỏc của hai protein tương ứng. Ngoài tớnh topology thể hiện trờn mạng, nhiều khi người ta cũn quan tõm tới cả đặc tớnh cấu trỳc của mỗi protein mà chỳng khụng được biểu diễn trờn đồ thị.

Dựa trờn số lượng mạng tương tỏc được dúng hàng cựng một lỳc bài toỏn dúng hàng mạng tương tỏc protein - protein cú thể phõn loại thành bài toỏn dúng hàng hai mạng và bài toỏn dúng hàng đa mạng. Trong đú, dúng hàng hai mạng chỉ ghộp cặp 2 đồ thị cựng lỳc cũn bài toỏn dúng hàng đa mạng cho phộp dúng hàng đồng thời nhiều hơn hai mạng. Trong 2 bài toỏn này, bài toỏn dúng hàng đồng thời nhiều mạng tương tỏc protein – protein cú độ phức tạp lớn nờn ớt được nghiờn cứu hơn [Alkan & Erten, 2014; Gligorijević, Malod-Dognin, & Prulj, 2015; Liao, Lu, Baym, Singh, & Berger, 2009; Vipin Vijayan & Milenkovic, 2018]. Trong khi đú, dúng hàng hai mạng PPI cho phộp chỳng ta phỏt hiện cỏc tương đồng chức năng giữa hai loài/cỏ thể nhờ phỏt hiện cỏc vựng tương tự giữa chỳng. Vỡ vậy bài toỏn này được nghiờn cứu rất nhiều trong thời

gian gần đõy (xem thờm [Guzzi & Milenković, 2018]). Luận ỏn sẽ tập trung nghiờn cứu bài toỏn này.

Ngoài cỏch phõn loại trờn, bài toỏn dúng hàng mạng cũn được chia thành 2 loại dựa trờn hai hướng tiếp cận: dúng hàng cục bộ và dúng hàng toàn cục [Guzzi & Milenković, 2018].

1.1.3.1.Dúng hàng cục bộ

Cỏc nghiờn cứu đầu tiờn về dúng hàng mạng PPI là dúng hàng cục bộ [Berg & Lassig, 2004, 2006; Ciriello, Mina, Guzzi, Cannataro, & Guerra, 2012; Flannick, Novak, Balaji, Harley, & Batzglou, 2006; Kelley et al., 2004; Koyutỹrk et al., 2006; Liang, Xu, Teng, & Niu, 2006; Mina & Guzzi, 2012; Pache & P Aloy, 2012; Roded Sharan et al., 2005]. Dúng hàng cục bộ cú mục tiờu là xỏc định cỏc mạng/đồ thị con gần nhau về topology và về trỡnh tự nhờ một ỏnh xạ từ mạng nguồn vào mạng đớch như minh họa trong hỡnh 1.2 (a).

Hỡnh 1.2. Dúng hàng cục bộ và dúng hàng toàn cục

Cỏc thuật toỏn dúng hàng cục bộ thường cho kết quả nhiều-nhiều, trong đú một nỳt từ một mạng cú thể được ỏnh xạ tới một vài nỳt từ cỏc mạng khỏc (Hỡnh 1.2a).

Cú nhiều cỏch tiếp cận khỏc nhau đó được sử dụng để đỏnh giỏ chất lượng của một dúng hàng cục bộ. Cỏc độ đo để đỏnh giỏ chất lượng dúng hàng cục bộ

phổ biến là tương đồng bản thể gen [Ashburner et al., 2000], đặc trưng và độ nhạy [Ashburner et al., 2000; Flannick et al., 2006].

Dúng hàng cục bộ cú nhược điểm là khú tỡm ra cỏc đồ thị con với kớch thước lớn cú cấu trỳc và chức năng tương tự, kết quả của dúng hàng cục bộ là nhiều nhiều nờn thường chứa nhiều cỏc mạng con chồng lấn nhau nờn thường dẫn tới sự nhập nhằng dẫn đến khú ứng dụng. Vỡ vậy, hầu hết cỏc nghiờn cứu hiện nay tập trung vào dúng hàng mạng toàn cục.

1.1.3.2.Dúng hàng toàn cục

Xột hai mạng PPI được mụ hỡnh húa bởi 2 đồ thị G1(V1,E1) và G2(V2,E2) một dúng hàng toàn cục mạng PPI là một đơn ỏnh từ mạng cú số đỉnh nhỏ hơn vào mạng cú số đỉnh lớn (xem hỡnh 1.2b), nhờ đú mà xỏc định cỏc vựng mạng được bảo tồn. Việc xỏc định đơn ỏnh như vậy trỏnh được cỏc nhập nhằng thường gặp ở phương phỏp dúng hàng cục bộ.

Để xỏc định dúng hàng đủ tốt, người tadựa vào một tiờu chuẩn cụ thể và đưa về giải bài toỏn tối ưu tổ hợp. Cỏc tiờu chuẩn dúng hàng toàn cục chủ yếu dựa trờn tớnh tương tự tụpụ kết hợp với thụng tin trỡnh tự. Cú nhiều tiờu chuẩn dúng hàng đó được đề xuất, trong đú cú 4 tiờu chuẩn thụng dụng và hợp lý nhất sẽ được trỡnh bày trong chương 4. Bài toỏn tối ưu dúng hàng toàn cục mạng PPI được chứng minh thuộc loại NP-khú nờn đang là bài toỏn quan trọng trong sinh học phõn tử và đó cú nhiều thuật toỏn heuristic và metaheurristics đề xuất để giải chỳng.

Hầu hết cỏc thuật toỏn dúng hàng toàn cục nổi bật trước đõy thực hiện theo hai bước và chia thành hai nhúm.

Bước 1, dựng một hàm chi phớ tớnh toỏn độ tương tự giữa cỏc cặp nỳt trong cỏc mạng khỏc nhau;

Bước 2, sử dụng một chiến lược dúng hàng để xỏc định nhanh một dúng

hàng bắt đầu từ cặp nỳt cú điểm tương tự cao nhất [Aladag & Erten, 2013; Gligorijević et al., 2015; Hu, Kehr, & Reinert, 2014; O. Kuchaiev, Milenković, Memišević, Hayes, & Pržulj, 2010; Oleksii Kuchaiev & Pržulj, 2011; Liao et al., 2009; Mamano & Hayes, 2017; Memišević & Pržulj, 2012; Milenković, Ng, Hayes, & Pržulj, 2010; Patro & Kingsford, 2012; Sahraeian & Yoon, 2013; Singh, Xu, & Berger, 2007, 2008].

Nhúm thứ hai cũng thực hiện hai bước, nhưng trong bước 2, sau khi xỏc

định ma trận đo độ tương đồng giữa cỏc nỳt được tớnh toỏn trước từ trờn bước 1 để tạo ra một dúng hàng như nhúm thứ nhất thỡ thực hiện lặp việc sử dụng thụng tin từ dúng hàng đó cú để tớnh lại ma trận đo độ tương đồng để dúng hàng tiếp [El-Kebir, Heringa, & Klau, 2011; Ibragimov, Malek, Baumbach, & Guo, 2014; Meng, Crawford, Striegel, & Milenkovic, 2016; Zaslavskiy, Bach, & Vert, 2009].

Phần dưới đõy giới thiệu một số thuật toỏn dúng hàng toàn cục tiờu biểu được sử dụng để so sỏnh với cỏc thuật toỏn luận ỏn đề xuất.

Thuật toỏn dúng hàng toàn cục đỏng chỳ ý đầu tiờn là IsoRank [Singh et al., 2008] được Sing và cỏc cộng sự đề xuất năm 2008, phỏt triển dựa trờn dúng hàng cục bộ. IsoRank cú ý tưởng xuất phỏt từ thuật toỏn PageRank của Google [Brin & Page, 1998] để định nghĩa hàm đỏnh giỏ sự tương đồng. í tưởng chớnh của IsoRank là hai nỳt được dúng hàng với nhau, nếu cỏc nỳt kề với chỳng tương ứng được dúng hàng.

Họ cỏc thuật toỏn GRAAL [O. Kuchaiev et al., 2010; Oleksii Kuchaiev & Pržulj, 2011; Milenković et al., 2010] bao gồm GRAAL, H-GRAAL, MI-

GRALL và sau đú là C-GRAAL [Memišević & Pržulj, 2012] được phỏt triển song song với họ cỏc thuật toỏn IsoRank dựa trờn kết hợp kỹ thuật tham lam với thụng tin heuristic như: graphlet, hệ số phõn nhúm, độ lập dị và độ tương tự (giỏ trị E-values từ chương trỡnh BLAST). Cỏc thuật toỏn này đều đưa ra kết quả nhanh và tốt hơn so với cỏc thuật toỏn trước đú.

Gần đõy hơn là thuật toỏn GHOST, chiến lược dúng hàng của GHOST cũng tương tự như của MI-GRAAL, ngoại trừ việc thuật toỏn MI-GRAAL giải bài toỏn quy hoạch tuyến tớnh để tớnh toỏn độ tương tự giữa cỏc nỳt trờn cỏc mạng khỏc nhau, trong khi GHOST giải bài toỏn quy hoạch bậc 2 theo phương phỏp heuristic để tớnh toỏn độ tương tự giữa cỏc nỳt trong cựng một mạng.

Những thuật toỏn đó nờu chỉ tối ưu cho độ chớnh xỏc (hàm mục tiờu) hoặc tớnh khả mở. Vỡ cỏc mạng PPI thường cú số đỉnh lớn nờn cả tớnh chớnh xỏc và tớnh khả mở (thời gian chạy) cần được quan tõm. Sử dụng tiờu chuẩn GNAS, Aladag và cỏc cộng sự [Aladag & Erten, 2013] đề xuất thuật toỏn SPINAL cho lời giải tốt hơn cỏc thuật toỏn trước đú cả về thời gian và chất lượng lời giải.

Saraph và cỏc cộng sự [Saraph & Milenković, 2014] đề xuất thuật toỏn MAGNA (2014) dựa trờn giải thuật di truyền với quần thể ban đầu khởi tạo ngẫu nhiờn hoặc kết hợp với lời giải được tỡm bởi cỏc thuật toỏn như: IsoRank, MI-GRAAL và GHOST. MAGNA và phiờn bản cải tiến MAGNA ++ [V Vijayan, Saraph, & Milenković, 2015] sử dụng độ đo chất lượng dúng hàng S3, thực nghiệm cho thấy chỳng cải thiện đỏng kể chất lượng lời giải của cỏc thuật toỏn được dựng để khởi tạo.

Somaye Hashemifar và cỏc cộng sự (2016) [Hashemifar, Ma, Naveed, Canzar, & Xu, 2016] giới thiệu một thuật toỏn tối ưu toàn cục mới tờn là ModuleAlign, thuật toỏn này sử dụng thụng tin tối ưu cấu trỳc cục bộ để định nghĩa một hàm đỏnh giỏ tớnh tương đồng dựa trờn module. Dựa trờn một thuật

toỏn phõn cụm chức năng của cỏc protein cú gắn kết về mặt chức năng vào trong cựng module, ModuleAlign sử dụng một cơ chế lặp mới để tỡm dúng hàng giữa hai mạng. Cỏc thực nghiệm đó cho thấy ModuleAlign cho kết quả chất lượng dúng hàng tốt hơn một số thuật toỏn đề xuất trước đú trong một số trường hợp.

Trong chương 3, luận ỏn đề xuất cỏc thuật toỏn mới để giải bài toỏn dúng hàng toàn cục hai mạng tương tỏc protein - protein. Phỏt biểu toỏn học của bài toỏn dúng hàng toàn cục hai mạng tương tỏc protein - protein, cỏc hàm đỏnh giỏ chất lượng dúng hàng và dữ liệu thực nghiệm cho bài toỏn được trỡnh bày ở mục 3.1 và 3.5.1 của chương 3.

Một phần của tài liệu (LUẬN án TIẾN sĩ) một số thuật toán dóng hàng các mạng protein luận án TS máy tính 94801 (Trang 28 - 33)

Tải bản đầy đủ (PDF)

(132 trang)