CHƯƠNG 1. TỔNG QUAN VỀ MẠNG PHỨC HỢP VÀ KHAI PHÁ DỮ LIỆU BỆNH UNG THƢ
1.4.5. Phép đo trung tâm mạng
Việc phân tích các mạng phức hợp thường gắn với việc phân tích các nút
và liên kết của các nút trên mạng, việc phân tích này thường dẫn đến một danh sách phân hạng theo đặc điểm chức năng nào đó của nút. Trong lý thuyết đồ thị
và phân tích mạng, tính trung tâm (centrality) của một đỉnh đánh giá tầm quan trọng tương đối của nó trong một đồ thị. Một chỉ số trung tâm xếp hạng các node trên đồ thị bằng các giá trị kiểu số thực. Thông thường, giá trị trung tâm của một nút càng cao thì vai trò của nó càng cao trong đồ thị. Có một số phép đo chính
37
về tính trung tâm bao gồm: tính trung tâm bậc (degree centrality), tính trung tâm gần (closeness centrality), tính trung tâm giữa (betweeness centrality) và Page Rank. Khi phân tích các mạng sinh học phân tử, các phép đo trung tâm mạng đưa ra các các phương pháp tính toán để xếp hạng các gene trên mạng sao cho các gene có khả năng liên quan tới bệnh đƣợc nhận thứ hạng cao hơn. Sau khi xếp hạng, một nhóm nhỏ các gene với thứ hạng cao sau đó sẽ đƣợc lựa chọn để kiểm nghiệm bằng thực nghiệm.
Trung tâm mạng
Tất cả các phép đo trung tâm mạng gán giá trị số cho mỗi đỉnh của mạng đƣợc giới thiệu sẽ đáp ứng định nghĩa sau:
Cho G = (V, E) là một đồ thị có hướng hoặc vô hướng. Một hàm C: V →
R đƣợc gọi là trung tâm.
Các phép đo trung tâm gán mọi đỉnh bằng một giá trị số thực. Chúng cho phép so sánh từng cặp các đỉnh và đỉnh v1 đƣợc cho là trung tâm hơn hoặc quan trọng hơn đỉnh v2 nếu C (v1)> C (v2). Hai vấn đề phải đƣợc xem xét trong quá
trình phân tích tính trung tâm của mạng: một là giá trị trung tâm chỉ có thể so sánh trong một mạng cụ thể, hai là một số phép đo trung tâm chỉ có thể đƣợc áp dụng cho các mạng đƣợc kết nối.
Trung tâm bậc
Trung tâm bậc của một nút được định nghĩa là số lượng tương tác trực tiếp đến hoặc đi của nút đó với các nút khác trong mạng.
Cho đồ thị mạng G = (V, E) có hướng hoặc vô hướng. Bậc của một nút
vV là số lượng các tương tác trực tiếp đến hoặc đi từ các nút khác trong mạng
đến nút v và đƣợc định nghĩa là:
38
{ } { } (1.12)
Trung tâm gần gũi
Trung tâm gần gũi xác định mức độ gần gũi của một nút với các nút khác trong mạng bằng cách đo tổng khoảng cách ngắn nhất giữa nút đó và tất cả các nút khác trong mạng. Trung tâm gần gũi đƣợc định nghĩa là nghịch đảo của tổng tất cả các khoảng cách theo cặp trong mạng.
Cho G = (V, E) là một mạng vô hướng và liên kết. Trung tâm gần gũi (Closeness) của một nút v đƣợc Sabidussi [79] định nghĩa nhƣ sau:
∑ { } (1.13)
Trong đó d(v, w) là khoảng cách của đường đi ngắn nhất từ nút v đến nút
w. Phép đo trung tâm gần gũi sử dụng độ dài của đường đi ngắn nhất giữa tất cả
các đỉnh theo cặp. Do đó, tính trung tâm của độ gần gũi phải tuân theo các ràng buộc mạng đƣợc phân tích phải đƣợc kết nối.
Phép đo trung tâm gần gũi đã đƣợc sử dụng hiệu quả trong dự đoán gene bệnh và thường được thực nghiệm trên các mạng sinh học vô hướng [80]. Ngoài
ra phép đo sự gần gũi cũng có thể đƣợc sửa đổi để áp dụng trong việc xác định các gene bệnh trên các mạng có hướng [81].
Trung ình đường dẫn v đường kính của mạng
Trung bình độ dài đường đi ngắn nhất được tính bằng cách tìm đường đi ngắn nhất giữa tất cả các cặp nút và lấy giá trị trung bình độ dài trên tất cả các đường đi của chúng (độ dài là số cạnh trung gian có trong đường dẫn, tức là khoảng cách du,v giữa hai đỉnh u,v trong mạng). Điều này cho chúng ta biết trung bình số bước cần thiết để đi từ đỉnh này đến đỉnh khác trong mạng.
Đường kính của mạng là một thông số để đo đồ thị mạng, chúng ta có thể xác định đường kính của mạng là đường dài nhất trong tất cả các đường đi ngắn
39
nhất đƣợc tính toán trong mạng. Nó là khoảng cách ngắn nhất giữa hai nút xa nhất trong mạng.
Trung tâm gần gũi thứ bậc
Mặc dù phép đo độ gần gũi biểu thị vị trí trung tâm một nút nằm trong mạng nhƣng không biểu thị rõ ràng thông tin về phạm vi của các nút khác có thể
bị ảnh hưởng bởi nút đã xác định được. Về vấn đề này, tác giả Tran và Kwon [46] đã đề xuất một phép đo trung tâm độ gần gũi mở rộng đƣợc gọi là mức độ gần gũi theo thứ bậc, là một thước đo tổng quát về mức độ trung tâm của mức
độ gần gũi vì nó cung cấp kết quả xếp hạng tương tự như mức độ gần gũi trên mạng vô hướng cũng như hoạt động hiệu quả trên mạng có hướng hoặc không kết nối đầy đủ.
Thuật toán xếp hạng trung tâm độ gần gũi thứ bậc (Hierarchical closeness HC) của một nút mạng vV đƣợc [46] đề xuất bởi công thức sau:
(1.14)
trong đó NR(v) [0, |V|-1] là thứ bậc của một nút v đƣợc định nghĩa bởi
NR(v)=|{wV| một đường dẫn từ v đến w}|. Nói cách khác, NR(v) đại diện cho số
lƣợng nút trong V có thể truy cập đƣợc từ v.
Nghiên cứu [42] cũng chỉ ra rằng mức độ gần gũi theo thứ bậc tốt hơn các loại cấu trúc trung tâm khác trong việc dự đoán gene bệnh. Hơn nữa, nghiên cứu chỉ ra rằng các gene có mức độ gần gũi thứ bậc cao có thể mã hóa các protein trong chất ngoại bào và các protein thụ thể trong mạng lưới tín hiệu của con người. Đặc biệt, sự gần gũi thứ bậc được sử dụng để xác định các gene đánh dấu sinh học [44], cũng đã được báo cáo là mục tiêu điều trị ung thư trong mạng lưới tín hiệu ung thƣ [82].
Trung tâm giữa
Phép đo trung tâm giữa thể hiện khả năng đo lường của một đỉnh trong việc giám sát các tương tác với các đỉnh khác. Mọi đỉnh là một phần của đường
40
đi ngắn nhất giữa hai đỉnh khác có thể giám sát tương tác giữa chúng. Việc đếm
số lƣợng giao tiếp mà một đỉnh có thể giám sát dẫn đến một định nghĩa trực quan về trung tâm: Một đỉnh là trung tâm nếu nó có thể giám sát nhiều tương tác giữa các đỉnh khác.
Cho G = (V, E) là một mạng vô hướng. Phép đo trung tâm giữa đường dẫn ngắn nhất (Betweeness) đƣợc [83] định nghĩa nhƣ sau:
∑ 𝜎
𝜎
{ } (1.15)
Ở đây, σst biểu thị tổng số đường đi ngắn nhất giữa hai đỉnh s và t và σst(v)
biểu thị số đường đi ngắn nhất đi qua v mà từ s tới t. Tốc độ truyền thông giữa s
và t có thể đƣợc giám sát bởi một đỉnh bên trong v đƣợc ký hiệu là δst(v)=σst
(v)/σst. Nếu không tồn tại đường đi ngắn nhất giữa s và t (σst = 0) thì khi đó ta thiết lập δst (v): = 0.
Phép đo trung tâm giữa đã đƣợc sử dụng để xác định mối liên quan giữa cấu trúc và độ bền vững trong các mạng gene của nguyên bào thần kinh đệmcho các mô ung thư thận [84]. Các protein có trung tâm giữa cao trong mạng lưới đƣợc đề xuất để nhắm tới các gene đích tác động thuốc [85].
Xếp hạng Page Rank
Page Rank là thuật toán xếp hạng trang của công cụ tìm kiếm Google. Tính trung tâm xếp hạng này thường được sử dụng để phát hiện gene bệnh [27]. Giả sử rằng mạng có n nút có các tương tác đến v: w1, w2, …, wn. Pagerank của một nút v đƣợc định nghĩa nhƣ sau:
(
)
Trong đó là một hệ số giảm chấn thường được thiết lập là 0.85 và C(w)
được định nghĩa là số lần tương tác ngoài của w.
(1.16)
41