CHƯƠNG 1. TỔNG QUAN VỀ MẠNG PHỨC HỢP VÀ KHAI PHÁ DỮ LIỆU BỆNH UNG THƢ
1.4.2. Các thành phần cơ bản trên mạng phức hợp
Một mạng đƣợc hình thành bởi vô số các nút và liên kết giữa chúng, các liên kết thể hiện sự tương tác và truyền thông giữa các nút. Như vậy một mạng
có thể hiểu gồm 3 thành phần sau:
31
- Nút mạng: là một thực thể trên mạng và đƣợc hiểu là các gene hoặc protein trên các mạng sinh học phân tử như mạng tương tác protein, mạng tín hiệu tế bào, mạng điều hòa gene, mạng truyền tải tín hiệu. Trong mạng trao đổi chất tế bào có thể đƣợc hiểu là một chất chuyển hóa.
- Liên kết: thể hiện mối quan hệ hoặc sự ảnh hưởng, tương tác giữa các thực thể trong mạng (nút mạng). Trong mạng trao đổi chất tế bào, mỗi cạnh đại diện cho một phản ứng sinh hoá. Trong mạng tương tác protein, liên kết thể hiện
sự tương tác giữa các protein với nhau. Trong mạng tín hiệu tế bào, liên kết thể hiện trạng thái truyền tín hiệu giữa các tế bào.
- Thông tin: thông tin trên mạng thể hiện nội dung tương tác giữa các thực thể mạng, trên mạng sinh học phân tử đƣợc hiểu là quá trình trao đổi chất và tín hiệu điều khiển, kiểm soát giữa các gene/protein với nhau.
1.4.3. Đặc trưng chung trên mạng phức hợp
Đặc trƣng thế giới nhỏ (Small-world), đƣợc Stanley Milgram mô tả vào năm 1967, và Duncan Watts [58] đã đối chiếu dữ liệu thực nghiệm trên mạng với biểu diễn toán học, mô tả kiến trúc mạng thế giới nhỏ (Small-world network). Mô hình mạng thế giới nhỏ đã đƣợc áp dụng tích cực vào nghiên cứu mạng truyền thông do liên kết mạng với các tính năng nhƣ độ trễ truyền trung bình nhỏ và kết nối mạng mạnh mẽ hơn [62].
Đặc trƣng không quy mô (Scale-free), đƣợc Albert-László Barabási và Reka Albert [59] giới thiệu, đó là một cấu trúc liên kết mạng lỏng lẻo chứa các đỉnh trung tâm với nhiều kết nối (gọi là hub). Mạng Scale-free có đặc điểm phân bố bậc tuân theo hàm toán học lũy thừa và sự phân bố bậc của các nút thường không bằng nhau. Những đỉnh có bậc cao thường là "trung tâm",
và các đỉnh kết nối với nhau thông qua các thành phần “khổng lồ”. Nhiều nghiên cứu đã được công bố về các mạng sinh học phân tử như mạng tương tác protein, mạng trao đổi chất, mạng biểu hiện gene, mạng tương tác gene thể hiện hành vi kiến trúc mạng Scale-free [63-66].
32
Đặc trƣng tập lõi: Cấu trúc của mạng sinh học phân tử có thể chịu sự điều khiển của một số nút quan trọng, các nút này thường có bậc cao và có thể đại diện cho đặc tính của cả hệ thống. Nếu điều khiển đƣợc trạng thái của các tập lõi của hệ thống, có thể điều khiển trạng thái của cả hệ thống. Thuật toán phân rã K- core là một thuật toán có thể giúp xác định lõi của một mạng. Một hệ thống có thể có nhiều tập lõi và các tập lõi có thể có các kích thước khác nhau. Một số nghiên cứu đã chỉ ra rằng các gene thuộc tập lõi của một mạng trao đổi chất, điều hòa gene và mạng lưới tương tác protein-protein mà đột biến thì có thể liên quan đến việc xuất hiện nhiều loại ung thƣ khác nhau [67].
1.4.4. Một số tính chất cơ bản của mạng phức hợp
Kích thước mạng
Kích thước của một mạng liên quan đến số lượng các nút của V, hoặc số lƣợng các cạnh E (đối với đồ thị đƣợc kết nối không có nhiều cạnh) mà có thể nằm trong khoảng |V|-1 đến Emax (một đồ thị hoàn chỉnh).
Trong trường hợp đồ thị đơn giản, một mạng trong đó tồn tại nhiều nhất một cạnh (vô hướng) giữa mỗi cặp đỉnh và trong đó không có đỉnh nào kết nối với chính nó, chúng ta có:
(
1.1) Với đồ thị có hướng, không có nút tự kết nối, ta có:
(
1.2) đối với các đồ thị có hướng cho phép tự kết nối, ta có:
(
1.3)
33
Trong trường hợp đồ thị có nhiều cạnh có thể tồn tại giữa một cặp đỉnh, ta có:
Emax (
1.4)
Mật độ mạng
Mật độ của mạng là một thuộc tính quan trọng ảnh hưởng đến các tính chất cấu trúc hoặc động lực học mạng. Mật độ đƣợc xác định trên đồ thị G(V, E) bằng công thức:
( 1.5)
với miền xác định trong đoạn [0,1]. Trên thực tế, tính chất Scale-free của một mạng ngẫu nhiên chỉ đƣợc duy trì nếu nó là một mạng “thƣa” [68]. Ngoài
ra, cấu trúc “thưa” của các mạng lưới là cần thiết cho sự tồn tại của chúng [69].
Do đó ta cần tập trung tính toán với việc giả lập các mạng thƣa có mật độ trong đoạn [0,1], tương ứng với hệ số hàm mũ của phân bố bậc nút nằm trong đoạn [0,2].
Trung bình bậc
Bậc k của một nút là số cạnh đƣợc kết nối với nó, đến hoặc đi. Liên quan chặt chẽ đến mật độ của mạng là trung bình bậc đƣợc tính bởi công thức:
( ) 2E
k V (
1.6) hoặc, trong trường hợp đồ thị có hướng,
( ) E
k V (
1.7)
Kết nối mạng
34
Phân tích kết nối mạng là một tập con của phân tích mạng, khám phá các liên kết giữa các đối tƣợng. Cách thức kết nối mạng phụ thuộc vào cách mà mạng đƣợc phân tích và diễn giải. Kết nối mạng đƣợc phân thành bốn loại sau:
Mạng hoàn thiện (Complete network): Một mạng đƣợc kết nối hoàn chỉnh,
nơi tất cả các nút đƣợc kết nối với mọi nút khác. Các mạng này đối xứng ở chỗ tất cả các nút đều có liên kết trong và liên kết ngoài từ tất cả các nút khác.
Thành phần “khổng lồ” (Giant Component): là một thành phần đƣợc kết
nối đơn lẻ chứa hầu hết các nút trong mạng.
Thành phần kết nối yếu: là một tập hợp các nút trong đó tồn tại một đường
dẫn từ một nút đến một nút nào đó trong tập hợp, bỏ qua hướng của các cạnh.
Thành phần kết nối mạnh: là một tập hợp các nút trong đó tồn tại
một đường dẫn trực tiếp từ một nút bất kỳ đến bất kỳ nút nào khác.
Độ bền vững của mạng
Robustnes hay còn gọi là độ bền vững của mạng, là khả năng của mạng duy trì những chức năng khi đối mặt với những xáo trộn hoặc chịu tác động. Độ bền vững dùng để tính toán sức chịu đựng của mạng khi bị tác động, xác định khả năng tồn tại của một mạng [70]. Độ bền vững có thể đƣợc dùng để nghiên cứu các mạng đột biến hoặc khả năng phục hồi sau một số đột biến trong lĩnh vực sinh học [71]. Công thức tính:
∑ ∑ ̅
( 1.8)
Trong đó: S là toàn bộ trạng thái mạng, I() là hàm chỉ thị =1 nếu I true hoặc = 0 nếu I false.
Hệ số phân cụm mạng
Tính module là mức độ mà các thành phần của hệ thống có thể đƣợc tách
ra và kết hợp lại. Nói cách khác, tính module là khuynh hướng cho một mạng
35
được chia thành các tập con của các nút được gọi là các module, chứa các tương tác dày đặc hơn nhiều so với các tương tác giữa các module [72].
Hệ số phân cụm của một nút là tỷ lệ giữa các liên kết hiện có kết nối các nút lân cận của nút với nhau, với số lƣợng liên kết tối đa có thể có. Hệ số phân cụm cho toàn bộ mạng là giá trị trung bình của các hệ số phân cụm của tất cả các nút.
Hệ số phân cụm của nút i đƣợc tính bằng công thức:
2 ,
( 1)
i i
i i
C e
k k
(
1.9)
Ở đây ki là số nút lân cận của nút thứ i và ei là số lƣợng kết nối giữa các nút lân cận này. Số lƣợng kết nối tối đa có thể có giữa các lân cận là:
Emax = ki(ki − 1)/2 (
1.10)
Từ quan điểm xác suất, hệ số phân cụm cục bộ dự kiến là khả năng tồn tại một liên kết giữa hai lân cận tùy ý của cùng một nút.
Tính module
Tính module (Modulearity) là mức độ mà các thành phần của hệ thống có thể được tách ra và kết hợp lại. Nói cách khác, tính module là khuynh hướng cho một mạng đƣợc chia thành các tập con của các nút đƣợc gọi là các module, chứa các tương tác dày đặc hơn nhiều so với các tương tác giữa các module [72, 73] . Cho một mạng lưới được biểu diễn bởi một đồ thị có hướng G = (V,A), ta sử dụng phép đo tính module đã được giới thiệu trong nghiên cứu trước đó [74]. Một phân hoạch P = {V1, V2, …, Vm) của V là tập các tập con khác rỗng và không giao nhau của V, bao phủ V (tức là ). Lúc
đó, tính module có hướng của phân vùng M(P) được định nghĩa như sau:
(1.11)
36
∑ (
)
Trong đó là số các tương tác có cả nút bắt đầu và kết thúc nằm trọn
trong module , hoặc là số các tương tác mà các nút của nó tương ứng chỉ bắt đầu hoặc kết thúc ở module và w là tổng số các tương tác trong mạng. Khi đó, tính module của mạng là . Để có đƣợc M(G)
ta sử dụng thuật toán tối ưu hóa được đề xuất trong một nghiên cứu trước đây
của Moack [75]. Các module đƣợc phát hiện bởi sự tối đa hóa hàm tính module
ở trên đã được sử dụng để phát hiện ra các chức năng trong các mạng lưới sinh học, chẳng hạn nhƣ trong mạng protein [76].
Cấu trúc lõi - ngoại biên
Các cấu trúc lõi - ngoại biên thường được tìm thấy trong các mạng lưới kinh tế, xã hội và các mạng vô hướng khác. Chúng bao gồm một lõi dính kết dày đặc và một vùng ngoại vi thƣa thớt, lỏng lẻo [77]. Các mạng có thể đƣợc mô tả trên các phạm vi vĩ mô, vi mô và trung bình khác nhau. Xác định các cấu trúc này cho phép so sánh các cấu trúc phức tạp [78]. Có hai trực giác chính nằm sau định nghĩa cấu trúc lõi – ngoại biên: Một giả định rằng một mạng chỉ có thể có một lõi, trong khi một giả định khác cho rằng một mạng cho phép có nhiều lõi. Hai khái niệm trực quan này là cơ sở cho hai phương thức cấu trúc lõi – ngoại biên.
1.4.5. Phép đo trung tâm mạng
Việc phân tích các mạng phức hợp thường gắn với việc phân tích các nút
và liên kết của các nút trên mạng, việc phân tích này thường dẫn đến một danh sách phân hạng theo đặc điểm chức năng nào đó của nút. Trong lý thuyết đồ thị
và phân tích mạng, tính trung tâm (centrality) của một đỉnh đánh giá tầm quan trọng tương đối của nó trong một đồ thị. Một chỉ số trung tâm xếp hạng các node trên đồ thị bằng các giá trị kiểu số thực. Thông thường, giá trị trung tâm của một nút càng cao thì vai trò của nó càng cao trong đồ thị. Có một số phép đo chính
37
về tính trung tâm bao gồm: tính trung tâm bậc (degree centrality), tính trung tâm gần (closeness centrality), tính trung tâm giữa (betweeness centrality) và Page Rank. Khi phân tích các mạng sinh học phân tử, các phép đo trung tâm mạng đưa ra các các phương pháp tính toán để xếp hạng các gene trên mạng sao cho các gene có khả năng liên quan tới bệnh đƣợc nhận thứ hạng cao hơn. Sau khi xếp hạng, một nhóm nhỏ các gene với thứ hạng cao sau đó sẽ đƣợc lựa chọn để kiểm nghiệm bằng thực nghiệm.
Trung tâm mạng
Tất cả các phép đo trung tâm mạng gán giá trị số cho mỗi đỉnh của mạng đƣợc giới thiệu sẽ đáp ứng định nghĩa sau:
Cho G = (V, E) là một đồ thị có hướng hoặc vô hướng. Một hàm C: V →
R đƣợc gọi là trung tâm.
Các phép đo trung tâm gán mọi đỉnh bằng một giá trị số thực. Chúng cho phép so sánh từng cặp các đỉnh và đỉnh v1 đƣợc cho là trung tâm hơn hoặc quan trọng hơn đỉnh v2 nếu C (v1)> C (v2). Hai vấn đề phải đƣợc xem xét trong quá
trình phân tích tính trung tâm của mạng: một là giá trị trung tâm chỉ có thể so sánh trong một mạng cụ thể, hai là một số phép đo trung tâm chỉ có thể đƣợc áp dụng cho các mạng đƣợc kết nối.
Trung tâm bậc
Trung tâm bậc của một nút được định nghĩa là số lượng tương tác trực tiếp đến hoặc đi của nút đó với các nút khác trong mạng.
Cho đồ thị mạng G = (V, E) có hướng hoặc vô hướng. Bậc của một nút
vV là số lượng các tương tác trực tiếp đến hoặc đi từ các nút khác trong mạng
đến nút v và đƣợc định nghĩa là:
38
{ } { } (1.12)
Trung tâm gần gũi
Trung tâm gần gũi xác định mức độ gần gũi của một nút với các nút khác trong mạng bằng cách đo tổng khoảng cách ngắn nhất giữa nút đó và tất cả các nút khác trong mạng. Trung tâm gần gũi đƣợc định nghĩa là nghịch đảo của tổng tất cả các khoảng cách theo cặp trong mạng.
Cho G = (V, E) là một mạng vô hướng và liên kết. Trung tâm gần gũi (Closeness) của một nút v đƣợc Sabidussi [79] định nghĩa nhƣ sau:
∑ { } (1.13)
Trong đó d(v, w) là khoảng cách của đường đi ngắn nhất từ nút v đến nút
w. Phép đo trung tâm gần gũi sử dụng độ dài của đường đi ngắn nhất giữa tất cả
các đỉnh theo cặp. Do đó, tính trung tâm của độ gần gũi phải tuân theo các ràng buộc mạng đƣợc phân tích phải đƣợc kết nối.
Phép đo trung tâm gần gũi đã đƣợc sử dụng hiệu quả trong dự đoán gene bệnh và thường được thực nghiệm trên các mạng sinh học vô hướng [80]. Ngoài
ra phép đo sự gần gũi cũng có thể đƣợc sửa đổi để áp dụng trong việc xác định các gene bệnh trên các mạng có hướng [81].
Trung ình đường dẫn v đường kính của mạng
Trung bình độ dài đường đi ngắn nhất được tính bằng cách tìm đường đi ngắn nhất giữa tất cả các cặp nút và lấy giá trị trung bình độ dài trên tất cả các đường đi của chúng (độ dài là số cạnh trung gian có trong đường dẫn, tức là khoảng cách du,v giữa hai đỉnh u,v trong mạng). Điều này cho chúng ta biết trung bình số bước cần thiết để đi từ đỉnh này đến đỉnh khác trong mạng.
Đường kính của mạng là một thông số để đo đồ thị mạng, chúng ta có thể xác định đường kính của mạng là đường dài nhất trong tất cả các đường đi ngắn
39
nhất đƣợc tính toán trong mạng. Nó là khoảng cách ngắn nhất giữa hai nút xa nhất trong mạng.
Trung tâm gần gũi thứ bậc
Mặc dù phép đo độ gần gũi biểu thị vị trí trung tâm một nút nằm trong mạng nhƣng không biểu thị rõ ràng thông tin về phạm vi của các nút khác có thể
bị ảnh hưởng bởi nút đã xác định được. Về vấn đề này, tác giả Tran và Kwon [46] đã đề xuất một phép đo trung tâm độ gần gũi mở rộng đƣợc gọi là mức độ gần gũi theo thứ bậc, là một thước đo tổng quát về mức độ trung tâm của mức
độ gần gũi vì nó cung cấp kết quả xếp hạng tương tự như mức độ gần gũi trên mạng vô hướng cũng như hoạt động hiệu quả trên mạng có hướng hoặc không kết nối đầy đủ.
Thuật toán xếp hạng trung tâm độ gần gũi thứ bậc (Hierarchical closeness HC) của một nút mạng vV đƣợc [46] đề xuất bởi công thức sau:
(1.14)
trong đó NR(v) [0, |V|-1] là thứ bậc của một nút v đƣợc định nghĩa bởi
NR(v)=|{wV| một đường dẫn từ v đến w}|. Nói cách khác, NR(v) đại diện cho số
lƣợng nút trong V có thể truy cập đƣợc từ v.
Nghiên cứu [42] cũng chỉ ra rằng mức độ gần gũi theo thứ bậc tốt hơn các loại cấu trúc trung tâm khác trong việc dự đoán gene bệnh. Hơn nữa, nghiên cứu chỉ ra rằng các gene có mức độ gần gũi thứ bậc cao có thể mã hóa các protein trong chất ngoại bào và các protein thụ thể trong mạng lưới tín hiệu của con người. Đặc biệt, sự gần gũi thứ bậc được sử dụng để xác định các gene đánh dấu sinh học [44], cũng đã được báo cáo là mục tiêu điều trị ung thư trong mạng lưới tín hiệu ung thƣ [82].
Trung tâm giữa
Phép đo trung tâm giữa thể hiện khả năng đo lường của một đỉnh trong việc giám sát các tương tác với các đỉnh khác. Mọi đỉnh là một phần của đường
40
đi ngắn nhất giữa hai đỉnh khác có thể giám sát tương tác giữa chúng. Việc đếm
số lƣợng giao tiếp mà một đỉnh có thể giám sát dẫn đến một định nghĩa trực quan về trung tâm: Một đỉnh là trung tâm nếu nó có thể giám sát nhiều tương tác giữa các đỉnh khác.
Cho G = (V, E) là một mạng vô hướng. Phép đo trung tâm giữa đường dẫn ngắn nhất (Betweeness) đƣợc [83] định nghĩa nhƣ sau:
∑ 𝜎
𝜎
{ } (1.15)
Ở đây, σst biểu thị tổng số đường đi ngắn nhất giữa hai đỉnh s và t và σst(v)
biểu thị số đường đi ngắn nhất đi qua v mà từ s tới t. Tốc độ truyền thông giữa s
và t có thể đƣợc giám sát bởi một đỉnh bên trong v đƣợc ký hiệu là δst(v)=σst
(v)/σst. Nếu không tồn tại đường đi ngắn nhất giữa s và t (σst = 0) thì khi đó ta thiết lập δst (v): = 0.
Phép đo trung tâm giữa đã đƣợc sử dụng để xác định mối liên quan giữa cấu trúc và độ bền vững trong các mạng gene của nguyên bào thần kinh đệmcho các mô ung thư thận [84]. Các protein có trung tâm giữa cao trong mạng lưới đƣợc đề xuất để nhắm tới các gene đích tác động thuốc [85].
Xếp hạng Page Rank
Page Rank là thuật toán xếp hạng trang của công cụ tìm kiếm Google. Tính trung tâm xếp hạng này thường được sử dụng để phát hiện gene bệnh [27]. Giả sử rằng mạng có n nút có các tương tác đến v: w1, w2, …, wn. Pagerank của một nút v đƣợc định nghĩa nhƣ sau:
(
)
Trong đó là một hệ số giảm chấn thường được thiết lập là 0.85 và C(w)
được định nghĩa là số lần tương tác ngoài của w.
(1.16)