Bài toỏn dúng hàng toàn cục mạng tương tỏc protein

Một phần của tài liệu (LUẬN án TIẾN sĩ) một số thuật toán dóng hàng các mạng protein luận án TS máy tính 94801 (Trang 83 - 86)

2.2.4 .Thủ tục tỡm kiếm cục bộ

3.1. Bài toỏn dúng hàng toàn cục mạng tương tỏc protein

Bài toỏn dúng hàng toàn cục mạng tương tỏc protein đó được giới thiệu ở chương 1. Tuy nhiờn để thuận tiện cho việc trỡnh bày cỏc thuật toỏn mới đề xuất, phần dưới đõy phỏt biểu lại bài toỏn dưới dạng toỏn học.

3.1.1. Phỏt biểu bài toỏn

Mạng tương tỏc protein là mạng được mụ hỡnh húa bởi một đồ thị G = (V, E) trong đú V là tập cỏc đỉnh của đồ thị đại diện cho cỏc protein và E là tập cỏc cạnh tương ứng của đồ thị mụ tả tương tỏc giữa cỏc protein.

Giả sử G1 = (V1, E1) và G2 = (V2, E2) là 2 đồ thị biểu diễn hai mạng tương tỏc protein, trong đú V1, V2 tương ứng là tập cỏc đỉnh của cỏc đồ thị G1 và G2;

giả sử |V1| | V2 | trong đú |V| là ký hiệu cho số phần tử của tập V. Dưới đõy là định nghĩa về bài toỏn dúng hàng toàn cục được sử dụng chủ yếu trong cỏc nghiờn cứu trước đõy [Aladag & Erten, 2013; L. Chindelevitch, Ma, Liao, & Berger, 2013; Leonid Chindelevitch, Liao, & Berger, 2010; Oleksii Kuchaiev & Pržulj, 2011; Singh et al., 2008].

Định nghĩa 3. 1. Dúng hàng toàn cục hai mạng tương tỏc protein là xỏc

định một đơn ỏnh f V: 1V2trong đú mỗi đỉnh của V1 được khớp với duy nhất

1 đỉnh v2  f v( )1 V2 .

Trong trường hợp |V1| | V2 | thỡ f là một song ỏnh.

Bài toỏn dúng hàng toàn cục hai mạng tương tỏc protein - protein là tỡm một dúng hàng tối ưu theo một hàm đỏnh giỏ chất lượng dúng hàng dựa trờn sự tương đồng về mặt trỡnh tự và/hoặc cấu trỳc được cho trước.

3.1.2. Đỏnh giỏ chất lượng dúng hàng toàn cục

Ở mỗi nghiờn cứu, người ta đề xuất cỏc tiờu chuẩn đỏnh giỏ chất lượng dúng hàng khỏc nhau, mỗi tiờu chuẩn đều cú ưu và nhược điểm riờng. Dưới đõy chỳng tụi giới thiệu cỏc tiờu chuẩn dúng hàng được sử dụng phổ biến nhất trong cỏc nghiờn cứu về bài toỏn dúng hàng toàn cục mạng tương tỏc protein.

Cho một dúng hàng mạng f ký hiệu f E( 1) {( ( ), ( )) f u f vE2: ( , )u vE1}và

1 2 1

( ) { ( ) : }

f Vf vV v V .

Tiờu chuẩn GNAS được Aladag [Aladag & Erten, 2013] giới thiệu được tớnh theo cụng thức sau:

trong đú 𝛼 ∈ [0, 1] là tham số thể hiện sự tương quan về mức độ quan trọng giữa độ tương đồng về mặt cấu trỳc và sự tương đồng về mặt trỡnh tự,

𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑢, 𝑓(𝑢)) là độ đo tương tự trỡnh tự nào đú, chẳng hạn, BLAST bit- scores hay E-values [Aladag & Erten, 2013; Altschul et al., 1990] (Cỏc giỏ trị này đó được tớnh toỏn trước và là dữ liệu đầu vào của một số thuật toỏn dúng hàng toàn cục).

Ưu điểm của độ đo GNAS là thể hiện được cả mối tương quan về sự tương đồng về topology và độ tương đồng về trỡnh tự giữa hai mạng tương tỏc protein- protein được dúng hàng.

Kuchaiev và cỏc cộng sự [O. Kuchaiev et al., 2010] đề xuất dựng độ đo EC như trong cụng thức 3.2. EC là độ đo tỷ lệ của cỏc cạnh trong đồ thị nguồn được dúng hàng chớnh xỏc đến cỏc cạnh trong đồ thị thứ hai với số lượng cạnh của đồ thị nguồn. 1 1 ( ) f E EC E  . (3.2)

Giỏ trị EC lớn cú nghĩa là hai mạng cú cấu trỳc tương tự nhau. Tiờu chuẩn này định lượng sự giống nhau giữa hai mạng. EC chỉ bằng 100% khi và chỉ khi đồ thị thứ hai G2 chứa một bản sao đẳng cấu của G1.

Khi dúng hàng một mạng cú mật độ cạnh thưa với mạng đớch cú mật độ cạnh dày, cú nhiều cỏch để dúng hàng G1 với cỏc mạng con của G2. Tuy nhiờn bằng trực giỏc cú thể thấy việc dúng hàng G1 với mạng con thưa của G2 sẽ tốt hơn so với việc dúng hàng G1 với một mạng con dày. Để “phạt” những dúng hàng mà ỏnh xạ đồ thị G1 với một mạng con dày của đồ thị G2, Patro và cỏc cộng sự [Patro & Kingsford, 2012] đề xuất dựng độ đo ICS, độ đo ICS thể hiện tỷ lệ cỏc cạnh của đồ thị nguồn được bảo tồn trờn đồ thị đớch sau khi dúng hàng (f(E1)) với số cạnh của đồ thị con của đồ thị đớch được sinh ra bởi cỏc đỉnh được

dúng hàng với cỏc đỉnh trờn đồ thị nguồn (E(G2[f(V1)])). Cụ thể ICS được tớnh theo cụng thức 3.3. 1 2 1 ( ) ( [ ( )]) f E ICS E G f V  , (3.3)

trong đú 𝐸(𝐺2[𝑓(𝐸1)]) là tập cạnh trong 𝐺2 của đồ thị con cú tập đỉnh là 𝑓(𝑉1). Qua cỏc cụng thức 3.2 và 3.3 cú thể thấy, độ đo EC chỳ trọng đến đồ thị nguồn, trong khi độ đo ICS chỳ trọng đến đồ thị đớch. Vỡ vậy độ đo EC khụng tốt khi đỏnh giỏ chất lượng dúng hàng nếu ta dúng hàng một mạng cú mật độ cạnh thưa với một mạng cú mật độ cạnh dày. Ngược lại độ đo ICS khụng tốt khi ta dúng hàng một mạng dày với 1 mạng thưa.

Nhận thấy nhược điểm trờn của 2 độ đo EC và ICS, Saraph và cỏc cộng sự [Saraph & Milenković, 2014] đề xuất độ đo S3 nhưcụng thức 3.4.

3 1 1 2 1 1 ( ) ( [ ( )]) ( ) f E S E E G f V f E    . (3.4)

Sự khỏc biệt của S3 với EC và ICS là ở mẫu số, S3 xột đến cả số cạnh của đồ thị nguồn và số cạnh của đồ thị con được sinh ra bởi cỏc đỉnh của đồ thị đớch được dúng hàng, vỡ vậy nú khắc phục được cỏc nhược điểm của EC và ICS như đó phõn tớch ở trờn.

Một phần của tài liệu (LUẬN án TIẾN sĩ) một số thuật toán dóng hàng các mạng protein luận án TS máy tính 94801 (Trang 83 - 86)

Tải bản đầy đủ (PDF)

(132 trang)