1. Trang chủ
  2. » Luận Văn - Báo Cáo

luận án tiến sĩ nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư

116 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư
Tác giả Phạm Đức Tính
Người hướng dẫn TS. Trần Tiến Dũng, TS. Hoàng Đỗ Thanh Tùng
Trường học Học viện Khoa học và Công nghệ
Chuyên ngành Hệ thống Thông tin
Thể loại Luận án Tiến sĩ Hệ thống Thông tin
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 116
Dung lượng 1,86 MB

Nội dung

14 quyÃt v¿n đÅ đó, cách tiÃp cÁn theo h°ãng m¿ng l°ãi đã đ°āc giãi thiáu, cách tiÃp cÁn này đ°āc tiÃn hành dāa trên viác quan sát th¿y rằng các gen liên quan đÃn cùng mát bánh hoặc nhÿn

Trang 1

HàC VIàN KHOA HàC VÀ CÔNG NGHà

NGHIÊN CĀU PHÁT TRIÄN MÔ HÌNH ĐÞNG LĀC C¾NH

DĀNG DĀ ĐOÁN GEN ĐIÂU TRÞ UNG TH¯

LUÀN ÁN TIÀN S) Hà THÞNG THÔNG TIN

Hà Nội - 2024

Trang 2

Bà GIÁO DĂC

HàC VIàN KHOA HàC VÀ CÔNG NGHà

Ph¿m Đāc T*nh

NGHIÊN CĀU PHÁT TRIÄN MÔ HÌNH ĐÞNG LĀC C¾NH TRANH TRONG M¾NG THÔNG TIN PHĀC HþP VÀ ĀNG

DĀNG DĀ ĐOÁN GEN ĐIÂU TRÞ UNG TH¯

LUÀN ÁN TIÀN S) Hà THÞNG THÔNG TIN

Trang 3

LâI CAM ĐOAN

Tôi xin cam đoan luÁn án "Nghiên cāu phát triÇn mô hình đáng lāc c¿nh tranh trong m¿ng thông tin phāc hāp và āng dăng dā đoán gen điÅu trá ung th°"

là công trình nghiên cāu cÿa chính tôi, d°ãi sā h°ãng d¿n khoa hãc cÿa tÁp thÇ h°ãng d¿n LuÁn án sử dăng thông tin trích d¿n tă nhiÅu nguãn tham khÁo khác nhau và các thông tin trích d¿n đ°āc ghi rõ nguãn gác Các kÃt quÁ nghiên cāu cÿa tôi đ°āc công bá chung vãi các tác giÁ khác đã đ°āc sā đãng ý cÿa đãng tác giÁ khi đ°a vào luÁn án Các sá liáu, kÃt quÁ đ°āc trình bày trong luÁn án là hoàn toàn trung thāc và ch°a tăng đ°āc công bá trong b¿t kỳ mát công trình nào khác ngoài các công trình công bá cÿa tác giÁ LuÁn án đ°āc hoàn thành trong thßi gian tôi làm nghiên cāu sinh t¿i Hãc vián Khoa hãc và Công nghá, Vián Hàn lâm Khoa hãc và Công nghá Viát Nam

Tác giÁ luÁn án

Ph¿m Đāc T*nh

Trang 4

LâI CÀM ¡N

LuÁn án TiÃn sĩ <Nghiên cāu phát triÇn mô hình đáng lāc c¿nh tranh trong m¿ng thông tin phāc hāp và āng dăng dā đoán gen điÅu trá ung th°= đ°āc hoàn thián bằng sā cá gÃng cÿa bÁn thân và sā giúp đÿ cÿa tÁp thÇ h°ãng d¿n khoa hãc, Vián Công nghá Thông tin, Hãc vián Khoa hãc và Công nghá, Vián Hàn lâm Khoa hãc và Công nghá Viát Nam, Tr°ßng Đ¿i hãc Công nghiáp Hà Nái, và các Chuyên gia, các Nhà khoa hãc, đãng nghiáp, b¿n bè, cũng nh° ng°ßi thân trong gia đình

Tr°ãc tiên, NCS xin đ°āc bày tß lòng biÃt ¢n chân thành đÃn tÁp thÇ h°ãng d¿n khoa hãc là TS TrÁn TiÃn Dũng và TS Hoàng Đß Thanh Tùng Trong suát thßi gian làm nghiên cāu, NCS đã luôn nhÁn đ°āc nhÿng đánh h°ãng khoa hãc,

sā h°ãng d¿n tÁn tình và kinh nghiám nghiên cāu khoa hãc cÿa tÁp thÇ h°ãng d¿n

Tôi xin chân thành cÁm ¢n Vián Công nghá Thông tin, Hãc vián Khoa hãc

và Công nghá, Vián Hàn lâm Khoa hãc và Công nghá Viát Nam, đã t¿o điÅu kián thuÁn lāi cho tôi trong suát quá trình làm nghiên cāu và thāc hián luÁn án

Tôi cũng xin chân thành cÁm ¢n Ban Lãnh đ¿o Tr°ßng Đ¿i hãc Công nghiáp Hà Nái, Trung tâm Công nghá Thông tin - Tr°ßng Đ¿i hãc Công nghiáp

Hà Nái, đã quan tâm giúp đÿ t¿o mãi điÅu kián tát nh¿t đÇ tôi hoàn thành quá trình hãc tÁp và nghiên cāu cÿa mình Tôi xin chân thành cÁm ¢n sā quan tâm, đáng viên và nhÿng đóng góp quý báu cÿa quý đãng nghiáp và các Nhà khoa hãc

Cuái cùng, tôi xin cÁm ¢n sā đáng viên hÃt mình cÿa mãi thành viên trong gia đình tôi, sā khuyÃn khích đáng viên cÿa gia đình là đáng lāc hãc đÇ tôi hoàn thành luÁn án này

Hà Nội, ngày 27 tháng 6 năm 2024

Tác giÁ luÁn án

Ph¿m Đāc T*nh

Trang 5

1

MĀC LĀC

MĂC LĂC 1

DANH MĂC CÁC KÝ HIàU 4

DANH MĂC CÁC TĂ VIÂT TÂT 5

DANH MĂC CÁC BÀNG 7

DANH MĂC CÁC HÌNH VÀ, Đâ THà 8

DANH MĂC THUÀT TOÁN 8

Mà ĐÀU 9

Ch°¢ng 1 TäNG QUAN VÄ XÂP H¾NG ĐÆ DĀ ĐOÁN GEN MĂC TIÊU ĐIÄU TRà UNG TH¯ 13

1.1 Bài toán xÃp h¿ng đÇ dā đoán gen bánh 13

1.2 C¢ sá lý thuyÃt 15

1.2.1 Lý thuyÃt đã thá 16

1.2.2 BiÇu dißn đã thá trên máy tính 18

1.2.3 M¿ng phāc hāp 19

1.2.4 Dÿ liáu và mô hình hoá dÿ liáu m¿ng sinh hãc 29

1.3 Các ph°¢ng pháp và nghiên cāu liên quan dā đoán gen điÅu trá bánh dāa trên m¿ng phāc hāp 31

1.3.1 Thuác tính gÁn gũi cÿa mát đßnh 32

1.3.2 Thuác tính gÁn gũi theo thā bÁc cÿa đßnh 32

1.3.3 Thuác tính trung tâm giÿa cÿa mát đßnh 33

1.3.4 ThuÁt toán b°ãc nhÁy ng¿u nhiên có quay l¿i 34

1.3.5 ThuÁt toán ORIENT 35

1.3.6 ThuÁt toán sử dăng xác xu¿t tiÅn nhiám PRINCE 36

1.4 Tång quan vÅ m¿ng quy mô lãn 36

1.4.1 Khái niám m¿ng quy mô lãn 36

1.4.2 Mát sá h°ãng nghiên cāu trên m¿ng quy mô lãn 36

1.5 Mô hình đáng lāc m¿ng 38

1.6 KÃt luÁn 40

Ch°¢ng 2 MÔ HÌNH ĐàNG LĀC C¾NH TRANH TRÊN M¾NG PHĀC HĀP ĀNG DĂNG TRONG DĀ ĐOÁN GEN ĐIÄU TRà UNG TH¯ 41

Trang 6

2

2.1 Mô hình đáng lāc c¿nh tranh trên m¿ng phāc hāp 41

2.2 ĐÅ xu¿t mô hình đáng lāc c¿nh tranh ngoài trên m¿ng phāc hāp 44

2.3 Xây dāng thuÁt toán cÿa mô hình đáng lāc c¿nh tranh ngoài 47

2.3.1 Ý t°áng cÿa thuÁt toán 47

2.3.2 Chāc năng, đÁu vào, đÁu ra cÿa thuÁt toán 48

2.3.3 S¢ đã luãng và mã giÁ cÿa thuÁt toán 48

2.4 Đánh giá đá phāc t¿p cÿa thuÁt toán 52

2.5 Xây dāng há tháng dā đoán gen điÅu trá ung th° sử dăng mô hình đáng lāc hãc c¿nh tranh ngoài 53

2.5.1 Bài toán dā đoán gen măc tiêu điÅu trá ung th° 54

2.5.2 Dÿ liáu thāc nghiám 54

2.5.3 Sā t°¢ng quan giÿa các phép đo 56

2.5.4 Mô hình tång thÇ há tháng chẩn đoán gen ung th° dāa trên m¿ng phāc hāp 58

2.5.5 KÃt quÁ dā đoán gen măc tiêu điÅu trá ung th° 60

2.5.6 So sánh kÃt quÁ dā đoán 64

2.6 KÃt luÁn 66

Ch°¢ng 3 T¯¡NG TÁC GIÁN TIÂP TRONG MÔ HÌNH ĐàNG LĀC C¾NH TRANH NGOÀI VÀ ĀNG DĂNG DĀ ĐOÁN GEN ĐIÄU TRà UNG TH¯ 67

3.1 ĐÅ xu¿t mô hình tính toán t°¢ng tác gián tiÃp đáng lāc c¿nh tranh ngoài 67

3.1.1 Mô hình tính toán t°¢ng tác trāc tiÃp đáng lāc c¿nh tranh ngoài 67

3.1.2 ĐÅ xu¿t mô hình tính toán gián tiÃp đáng lāc c¿nh tranh ngoài 68

3.2 Xây dāng thuÁt toán tính toán t°¢ng tác gián tiÃp đáng lāc c¿nh tranh ngoài 69 3.2.1 ThuÁt toán tính toán ma trÁn khoÁng cách 70

3.2.2 ThuÁt toán tính toán ma trÁn Ánh h°áng 72

3.2.3 ThuÁt toán tính tång sā Ánh h°áng trên mßi đßnh m¿ng 75

3.3 Tính toán hiáu năng cao cho mô hình đáng lāc c¿nh tranh ngoài 76

3.3.1 Xây dāng thuÁt toán tính toán hiáu năng cao cho mô hình 76

3.3.2 ThiÃt kà công că phÁn mÅm tính toán hiáu năng cao 78

3.3.3 Đánh giá tác đá tính toán cÿa thuÁt toán 79

3.4 Thāc nghiám 79

3.4.1 Dÿ liáu thāc nghiám 80

Trang 7

3

3.4.2 KiÃn trúc cÿa mô hình dā đoán 81

3.4.3 KÃt quÁ dā đoán gen măc tiêu điÅu trá ung th° 83

3.4.5 So sánh kÃt quÁ dā đoán vãi các nghiên cāu khác 87

3.5 KÃt luÁn 90

KÂT LUÀN VÀ H¯âNG PHÁT TRIÆN 91

DANH MĂC CÁC CÔNG TRÌNH ĐÃ CÔNG Bà 93

THUàC LUÀN ÁN 93

TÀI LIàU THAM KHÀO 94

PHĂ LĂC 107

Trang 8

t¿i thßi điÇm t

X normþR N-2 Tr¿ng thái cÿa các đßnh bình th°ßng trong mô hình đáng

lāc c¿nh tranh m¿ng G(V, E)

i

Trang 9

5

DANH MĀC CÁC TĂ VIÀT TÂT

Tă viÁt

glossary/Deoxyribonucleic-Acid API

Application

Programming

Interface

Giao dián lÁp trình āng dăng (API) là cách

đÇ hai hoặc nhiÅu ch°¢ng trình máy tính giao tiÃp vãi nhau

đÇ phân tích tính toán và mô hình hóa m¿ng l°ãi gen/protein và m¿ng trao đåi ch¿t

sá dÿ liáu chính bao gãm GenBank cho trình tā DNA và PubMed

Trang 10

vì chāc năng cÿa chúng có xu h°ãng đ°āc điÅu chßnh PPI b¿t th°ßng có thÇ là nÅn tÁng cÿa nhiÅu bánh liên quan

RNA Ribonucleic Acid

Là mát chußi đ¢n gãm nhÿng Ribonucleotide RNA có chāc năng mang thông điáp di truyÅn tă DNA đÃn vá trí tång hāp protein và giúp c¢ thÇ tång hāp protein

Unit

Bá vi xử lý đ¢n lõi

Trang 11

7

DANH MĀC CÁC BÀNG

BÁng 2.1 KÃt quÁ dā đoán gen măc tiêu điÅu trá ung th° bái mô hình đáng lāc c¿nh tranh

ngoài 61

BÁng 2.2 BÁng minh chāng gen măc tiêu điÅu trá ung th° 62

BÁng 2.3: KÃt quÁ so sánh giÿa hai mô hình khác nhau trên cùng bá dÿ liáu 65

BÁng 3.1: Ví dă vÅ ma trÁn khoÁng cách 72

BÁng 3.2: Ví dă vÅ ma trÁn Ánh h°áng 73

B Áng 3.3: Năng lāc tính toán song song bái Drivergen.net 79

B Áng 3.4: Xác đánh gen măc tiêu thuác ung th° trên 3 m¿ng lãn 85

B Áng 3.5: Xác đánh lõi k-core và r-core 87

B Áng 3.6: KÃt quÁ dā đoán trên 2 mô hình c¿nh tranh ngoài đÅ xu¿t 87

BÁng 3.7: So sánh kÃt quÁ dā đoán giÿa các nghiên cāu đác lÁp 88

Trang 12

8

DANH MĀC CÁC HÌNH V¾, Đà THÞ

Hình 1.1 Bāc tranh tång quan dā đoán gen măc tiêu điÅu trá ung th° trên các m¿ng sinh hãc.

13

Hình 1.2: M át sá hình Ánh vÅ m¿ng phāc hāp 20

Hình 1.3: Ví dă vÅ mô hình m¿ng small-world 21

Hình 1.4: M¿ng trao đåi ch¿t cÿa sinh vÁt đặc tr°ng scale-free [32] 23

Hình 1.5: Mát ví dă vÅ phân tách lõi [13] 27

Hình 1.6: Phân căm m¿ng dāa trên khoÁng cách [38] 28

Hình 2.1: Mát ví dă vÅ mô hình đáng lāc c¿nh tranh trong trên m¿ng phāc hāp [73] 41

Hình 2.2 Mát ví dă vÅ mô hình đáng lāc c¿nh tranh ngoài 45

Hình 2.3 S¢ đã khái thuÁt toán mô hình đáng lāc c¿nh tranh ngoài 50

Hình 2.4: Ví dă vÅ m¿ng tín hiáu ung th° bàng quang [86] 55

Hình 2.5: Sā t°¢ng quan phép đo gÁn gũi vãi tång sā Ánh h°áng 57

Hình 2.6: Mô hình t ång thÇ xác đánh gen măc tiêu điÅu trá ung th° 59

Hình 3.1 Hiáu su¿t tính toán cÿa Drivergene.net 79

Hình 3.2: KiÃn trúc cÿa mô hình dā đoán gen măc tiêu điÅu trá ung th° trên m¿ng lãn 81

Hình 3.3: So sánh kÃt dā đoán vãi các nghiên cāu tr°ãc 89

DANH MĀC THUÀT TOÁN Thu Át toán 2.1 ThuÁt toán cÿa mô hình đáng lāc c¿nh tranh ngoài 50

ThuÁt toán 3.1: ThuÁt toán tính toán ma trÁn khoÁng cách 70

ThuÁt toán 3.2: ThuÁt toán tính toán ma trÁn Ánh h°áng 73

ThuÁt toán 3.3: ThuÁt toán tính toán tång sā Ánh h°áng cÿa các đßnh đÃn mßi đßnh m¿ng trong mô hình đáng lāc c¿nh tranh ngoài cÁi tiÃn 75

ThuÁt toán 3.4: ThuÁt toán tính toán song song 77

Trang 13

9

Mä ĐÀU

1 T ình hình thāc tißn

Ung th° là tên gãi chung cho h¢n 200 lo¿i bánh có liên quan và có tỷ lá

tử vong cao, chß đāng sau các bánh vÅ tim m¿ch ĐiÅu trá bánh nhân ung th° r¿t phāc t¿p và tán kém, māc đá tiên l°āng th¿p (māc đá sáng sót sau mát khoÁng thßi gian, th°ßng là 5 năm), phát hián bánh th°ßng á giai đo¿n muán Nguyên nhân cÿa ung th° đ°āc cho là tă đát biÃn gen gây ra Tuy nhiên không phÁi gen nào đát biÃn cũng gây ra ung th°, chß có mát sá gen đát biÃn đ°āc xác đánh là nguyên nhân gây ung th° [1] Dāa vào đặc điÇm, c¢ chà ho¿t đáng và chāc năng cÿa mát sá gen, ng°ßi ta gãi đó là gen điÅu khiÇn (t¿m gãi là đßnh điÅu khiÇn trong m¿ng sinh hãc) ung th°, và cũng th°ßng là măc tiêu điÅu trá ung th° [2]

Hián nay viác xác đánh các gen đát biÃn gây ra bánh (bánh nói chung và bánh ung th° nói riêng) hay còn đ°āc gãi là gen bánh á các c¢ sá y tà đ°āc thāc hián chÿ yÃu bằng các thāc nghiám xét nghiám sinh hãc lâm sàng trên các m¿u bánh phẩm [3] Công viác này th°ßng đ°āc thāc hián thÿ công trong phòng thí nghiám cho hàng nghìn gen āng viên nằm trên mát vùng nhißm sÃc thÇ khÁ nghi tă m¿u bánh và cho đá chính xác cao nh°ng đòi hßi nhiÅu thßi gian và chi phí [4] ĐÇ giÁm khái l°āng m¿u cho viác thāc nghiám lâm sàng, các h°ãng tiÃp cÁn công nghá đã đ°āc giãi thiáu Că thÇ nh° cách tiÃp cÁn theo tháng kê dāa trên sā t°¢ng đãng vÅ đát biÃn gen [5], cách tiÃp cÁn hãc máy bao gãm cÁ hãc sâu dāa trên dÿ liáu tÁp m¿u các gen đát biÃn hay tÁp m¿u chÿ ký gen liên quan đÃn bánh đã biÃt [6, 7] Các ph°¢ng pháp tháng kê dāa trên sā t°¢ng đãng đát biÃn tÁp trung vào viác đánh giá các đát biÃn và sā t°¢ng đãng cÿa chúng đÇ xác đánh các gen măc tiêu cÿa thuác cháng ung th° DrGaP là mát công că linh ho¿t xác đánh các gen măc tiêu cÿa thuác cháng ung th° và kiÇm soát các con đ°ßng tín hiáu trong các bá giÁi trình tā gen [10] OncodriveCLUST là mát ph°¢ng pháp khác xác đánh các gen măc tiêu bằng cách đánh giá các đát biÃn không mã hóa tă các đát biÃn soma [11] OncoVar

sử dăng các thuÁt toán tin sinh hãc đã biÃt đÇ xác đánh các gen măc tiêu dāa trên tiÅm năng gây ung th° cÿa các đát biÃn soma và các gen ung th° [12] Mát h¿n chà cÿa ph°¢ng pháp này xu¿t hián khi các gen bánh đã biÃt và ch°a biÃt

có mái quan há gián tiÃp hoặc chāc năng t°¢ng tā, d¿n đÃn viác gán chāc năng sai và Ánh h°áng đÃn kÃt quÁ dā đoán [13, 14] Các ph°¢ng pháp dāa trên hãc

Trang 14

10

máy bao gãm cÁ hãc sâu đÅu cÁn mát tÁp m¿u lãn rõ các gen ung th° đã biÃt, các đặc tr°ng trên tÁp m¿u rõ có thÇ đ°āc trích xu¿t và gán nhãn làm đÁu vào cÿa quá trình hãc, đÇ xác đánh các gen trên tÁp kiÇm tra Ví dă vÅ các công că nh° vÁy bao gãm DriverML, công că l°āng hóa các tác đáng chāc năng cÿa các đát biÃn lên protein đÇ xác đánh các gen măc tiêu [6] EARN (Ensemble of Artificial Neural Network, Random Forest, and non-linear Support Vector Machine) sử dăng hãc máy đÇ đánh giá các gen măc tiêu cÿa thuác cháng ung th° trong di căn vú [7] Mát công că khác gãi là PCDG-Pred phân biát các thuác tính cÿa các gen măc tiêu cÿa thuác cháng ung th° tă các thuác tính (hành khách) sử dăng dÿ liáu giÁi trình tā gen và mô hình hãc máy [8] Hiáu quÁ cÿa h°ãng nghiên cāu này phă thuác nhiÅu vào dÿ liáu tÁp m¿u rõ và cÁ

mô hình hãc Trong khi viác xác đánh tÁp các gen mà đát biÃn cÿa chúng có liên quan đÃn bánh cho viác xây dāng tÁp m¿u v¿n còn là mát thách thāc [10] Tuy vÁy, h°ãng nghiên cāu hãc máy bao gãm cÁ hãc sâu đang có nhÿng phát triÇn v°āt trái trong nhÿng năm gÁn đây, hß trā quan trãng trong viác giÁm sá l°āng m¿u trong thāc nghiám lâm sàng [6, 7]

Dÿ liáu sinh hãc á ng°ßi đ°āc cho là gãm khoÁng 22.000-25.000 gen và tãn t¿i trong tr¿ng thái <đáng=, chúng tãn t¿i trong sā t°¢ng tác l¿n nhau nh° kích ho¿t, āc chÃ, trao đåi ch¿t, tuyÅn tín hiáu và kiÇm soát l¿n nhau [11] Do

đó nhìn tă góc đá đã thá và m¿ng l°ãi, dÿ liáu sinh hãc có thÇ đ°āc mô hình hóa thành các m¿ng phāc hāp, mà á đó các đßnh đ°āc hiÇu là các gen hoặc sÁn phẩm cÿa gen (protein), liên kÃt thÇ hián sā t°¢ng tác giÿa chúng [11] Vì vÁy, viác khai phá dÿ liáu sinh hãc có thÇ đ°āc quy vÅ bài toán khai phá dÿ liáu trên m¿ng phāc hāp Tă quan điÇm đó, gÁn đây cách tiÃp cÁn mãi theo h°ãng m¿ng l°ãi trong viác dā đoán gen măc tiêu điÅu trá ung th° đã đ°āc giãi thiáu và đang nhÁn đ°āc sā quan tâm [12] Cách tiÃp cÁn này th°ßng d¿n đÃn viác đÅ xu¿t các mô hình tính toán trên m¿ng [13], các mô hình tính toán này th°ßng đ°a ra mát bÁng xÃp h¿ng các đßnh (gen) theo mát thuác tính nào đó và các đßnh có thā h¿ng cao đ°āc cho là quan trãng và có thÇ liên quan đÃn măc tiêu

dā đoán [13] Sau khi xÃp h¿ng, mát sá l°āng nhß các đßnh (gen/protein) có thā h¿ng cao sÁ đ°āc đ°a vào thāc nghiám lâm sàng, hoặc tìm kiÃm minh chāng, đÇ khẳng đánh chāc năng cÿa gen có liên quan đÃn bánh hay không

Các tiÃn bá gÁn đây trong lĩnh vāc gen, protein và sāc m¿nh cÿa máy tính đã má ra mát c¢ hái mãi cho các nhà khoa hãc dÿ liáu, khoa hãc m¿ng

Trang 15

11

l°ãi, nghiên cāu, đÅ xu¿t và thử nghiám các thuÁt toán, mô hình tính toán mãi trên các m¿ng sinh hãc, đÇ khai phá các dÿ liáu m¿ng sinh hãc tìm gen măc tiêu điÅu trá bánh nói chung và ung th° nói riêng [14] Hián t¿i đã có mát sá kÃt quÁ nghiên cāu đáng khích lá nh°ng còn nhiÅu thách thāc và cÁn tiÃp tăc đ°āc nghiên cāu thêm [15] Că thÇ nh°, hiáu su¿t dā đoán còn khiêm tán và cÁn tiÃp tăc đ°āc cÁi thián, m¿ng sinh hãc đ°āc cho là đáng [16], vãi thßi gian tính toán lãn, vì vÁy các mô hình tính toán trên m¿ng tĩnh và tuÁn tā có thÇ ch°a hiáu quÁ

Tă nhÿng phân tích trên, luÁn án chãn đÅ tài “Nghiên cāu phát triÅn

mô hình đßng lāc c¿nh tranh trong m¿ng thông tin phāc hÿp và āng dāng

dā đoán gen điÃu trß ung th°= đÇ thāc hián các nhiám vă cÿa đÅ tài, luÁn án

2 Māc tiêu nghiên cāu cÿa luÁn án

Măc tiêu nghiên cāu cÿa luÁn án là nghiên cāu và phát triÇn các mô hình đáng lāc c¿nh tranh trên các m¿ng thông tin phāc hāp, xác đánh thành phÁn điÅu khiÇn m¿ng, āng dăng trên các m¿ng sinh hãc dā đoán gen măc tiêu điÅu trá ung th°

3 Nßi dung nghiên cāu

- Tìm hiÇu bài toán xÃp h¿ng đÇ dā đoán gen bánh

- KhÁo cāu các ph°¢ng pháp xÃp h¿ng gen liên quan

- Há tháng hoá các kiÃn thāc c¢ bÁn vÅ lý thuyÃt đã thá và m¿ng phāc hāp

- Thu thÁp và mô hình hoá dÿ liáu m¿ng sinh hãc

- Nghiên cāu các mô hình tính toán và thuÁt toán xÃp h¿ng đßnh

- Nghiên cāu và phát triÇn mô hình đáng lāc c¿nh tranh m¿ng, āng dăng

dā đoán gen măc tiêu điÅu trá ung th°

4 Đßi t°ÿng và ph¿m vi nghiên cāu

- Đái t°āng nghiên cāu: Mô hình đáng lāc c¿nh tranh trên m¿ng thông tin phāc hāp m¿ng, gen măc tiêu điÅu trá ung th° trên m¿ng sinh hãc

- Ph¿m vi nghiên cāu thāc nghiám: 17 m¿ng tín hiáu ung th° đ°āc tÁi tă c¢ sá dÿ liáu KEGG và 03 bá dÿ liáu m¿ng sinh hãc quy mô lãn khác nhau

Trang 16

dā đoán gen điÅu trá ung th°;

- ĐÅ xu¿t mát mô hình đáng lāc c¿nh tranh ngoài cÁi tiÃn vãi khÁ năng

xử lý t°¢ng tác gián tiÃp giÿa các đßnh mô hình m¿ng phāc hāp, giúp nâng cao khÁ năng dā đoán gen măc tiêu điÅu trá ung th°, đặc biát trên các m¿ng sinh hãc có kích th°ãc lãn

7 Bß cāc cÿa luÁn án

Sau phÁn má đÁu, luÁn án đ°āc bá căc gãm 4 phÁn:

- Ch°¢ng 1 Tång quan vÅ xÃp h¿ng đÇ dā đoán gen bánh

Nái dung Ch°¢ng trình bày tång quan vÅ bài toán xÃp h¿ng đÇ dā đoán gen điÅu khiÇn mà cũng là gen măc tiêu điÅu trá ung th° TiÃp theo là các kiÃn thāc c¢ bÁn vÅ lý thuyÃt đã thá và m¿ng phāc hāp Cuái cùng, luÁn án trình bày các nghiên cāu liên quan và đÅ ra nái dung luÁn án cÁn giÁi quyÃt;

- Ch°¢ng 2 Mô hình đáng lāc c¿nh tranh ngoài trên m¿ng phāc hāp, āng dăng trong dā đoán gen măc tiêu điÅu trá ung th°

Nái dung Ch°¢ng đÅ xu¿t mát mô hình đáng lāc m¿ng mãi trên các m¿ng phāc hāp, gãi là mô hình đáng lāc hãc c¿nh tranh ngoài Mô hình thÇ hián sā c¿nh tranh giÿa mát tác nhân (đßnh) trong m¿ng và mát tác nhân đái thÿ c¿nh tranh bên ngoài m¿ng Cuái cùng, āng dăng mô hình vào dā đoán gen măc tiêu điÅu trá ung th° trên 17 m¿ng bánh tín hiáu ung th°

- Ch°¢ng 3 T°¢ng tác gián tiÃp trong mô hình đáng lāc c¿nh tranh ngoài, āng dăng nâng cao hiáu quÁ dā đoán gen măc tiêu điÅu trá ung th°

Nái dung Ch°¢ng đÅ xu¿t mát mô hình đáng lāc c¿nh tranh ngoài cÁi tiÃn, mô hình xem xét t¿t cÁ các t°¢ng tác trāc tiÃp và gián tiÃp tă các đßnh đÃn mßi đßnh trong m¿ng Ngoài ra, luÁn án thiÃt kà thuÁt toán cÿa mô hình theo h°ãng tính toán hiáu năng cao đÇ đÁm bÁo năng lāc thāc thi trên các m¿ng quy

mô lãn Áp dăng dā đoán các gen măc tiêu điÅu trá ung th° cho nhiÅu lo¿i ung th° khác nhau

- KÃt luÁn và h°ãng phát triÇn

Trang 17

13

C h°¢ng 1 TâNG QUAN VÂ XÀP H¾NG ĐÄ DĀ ĐOÁN GEN

MĀC TIÊU ĐIÂU TRÞ UNG TH¯

1.1 Bài toán x Áp h¿ng đÅ dā đoán gen bánh

(Deoxyribonucleic Acid) hoặc RNA (Ribonucleic Acid)) có chāc năng di truyÅn nh¿t đánh Gen có thÇ thu n¿p các đát biÃn sinh hãc nằm trong trình tā cÿa chúng, d¿n đÃn nhÿng đát biÃn, biÃn thÇ Đát biÃn gen có thÇ xu¿t hián trong quá trình phiên mã tā nhiên hoặc cháu sā tác đáng cÿa các yÃu tá bên ngoài Gen bá đát biÃn có thÇ gây ra mát bánh nào đó á ng°ßi [17] Thuác đ°āc thiÃt kà nhÃm đÃn các gen đát biÃn liên quan đÃn bánh, có thÇ làm nhißu lo¿n bÁn sao hoặc āc chà khÁ năng đát biÃn cÿa chúng, tăng b°ãc kìm hãm sā tiÃn triÇn cÿa bánh, khôi phăc chāc năng cÿa gen vÅ tr¿ng thái khße m¿nh [2, 17]

Viác xác đánh mát gen mà đát biÃn cÿa nó liên quan đÃn mát bánh nào

đó có ý nghĩa quan trãng trong quy trình phát triÇn thuác và điÅu trá bánh [13] Bài toán đặt ra là làm thà nào đÇ giÁm bãt thßi gian và chi phí, đãng thßi v¿n đÁm bÁo đ°āc đá chính xác trong viác dā đoán các gen gây bánh ? ĐÇ giÁi

Hình 1.1: Bāc tranh tång quan dā đoán gen măc tiêu điÅu trá ung th° trên

các m¿ng sinh hãc

(a) h°ãng tiÃp cÁn tháng kê, (b) h°ãng tiÃp cÁn hãc máy, (c) h°ãng tiÃp cÁn dāa trên m¿ng, (d) thāc nghiám lâm sàng

Trang 18

14

quyÃt v¿n đÅ đó, cách tiÃp cÁn theo h°ãng m¿ng l°ãi đã đ°āc giãi thiáu, cách tiÃp cÁn này đ°āc tiÃn hành dāa trên viác quan sát th¿y rằng các gen liên quan đÃn cùng mát bánh hoặc nhÿng bánh t°¢ng tā th°ßng có xu h°ãng nằm gÁn nhau trong c¿u trúc t°¢ng tác cÿa m¿ng sinh hãc [13] Cách tiÃp cÁn m¿ng sử dăng các mô hình tính toán trên m¿ng đÇ sÃp xÃp các gen, sao cho các gen có khÁ năng liên quan nhiÅu nh¿t đÃn bánh đ°āc xÃp h¿ng cao h¢n Sau khi xÃp h¿ng, mát nhóm nhß các gen (mát vài gen) có thā h¿ng cao sÁ đ°āc kiÇm tra bằng thāc nghiám, đÇ khẳng đánh xem các gen này có phÁi là gen gây bánh hay không [18]

ĐÇ sử dăng đ°āc các kỹ thuÁt xÃp h¿ng gen theo h°ãng m¿ng l°ãi, cÁn phÁi có dÿ liáu m¿ng sinh hãc và các thuÁt toán, mô hình tính toán đÇ phân tích

Có nhiÅu nghiên cāu đã sử dăng các thuÁt toán, mô hình tính toán xÃp h¿ng các đßnh trong m¿ng xã hái āng dăng trong xÃp h¿ng các m¿ng sinh hãc, do tính t°¢ng đãng vÅ c¿u trúc cÿa m¿ng sinh hãc vãi các m¿ng xã hái [19] Các thuÁt toán xÃp h¿ng gen dāa trên m¿ng đã đ°āc phát triÇn đÇ khai phá chāc năng các phân tử sinh hãc và các liên kÃt quan trãng giÿa chúng [13] Các nhà khoa hãc

dÿ liáu và tin sinh hãc th°ßng áp dăng xÃp h¿ng t°¢ng tác gen/protein dāa trên

bá gen đÇ phăc vă cho các thāc nghiám tiÃp sau

GÁn đây, trong n°ãc có mát sá nhóm nghiên cāu đã có nhÿng công bá liên quan đÃn h°ãng nghiên cāu này, nh° nhóm cÿa TS TrÁn TiÃn Dũng á Tr°ßng Đ¿i hãc Công nghiáp Hà Nái, vãi mát sá công bá vÅ dā đoán gen bánh

và gen chß d¿u ung th° dāa trên viác xÃp h¿ng đßnh theo thuác tính māc đá gÁn gũi theo thā bÁc [12, 20] Nhóm nghiên cāu cÿa PGS.TS Lê Đāc HÁu á Tr°ßng Đ¿i hãc Thÿy lāi, vãi mát sá công bá vÅ dā đoán gen bánh dāa trên xÃp h¿ng gen theo thuác tính cÿa đßnh đ°āc xác đánh bái thuÁt toán b°ãc nhÁy ng¿u nhiên

và b°ãc nhÁy ng¿u nhiên có quay l¿i (RWR), nhóm đã cÁi tiÃn ph°¢ng pháp RWR bằng cách tăng c°ßng trãng sá hàng xóm cÿa các gen gây bánh đã biÃt

đ°āc 27 gene có liên quan đÃn bánh ung th° vú [18] Nhóm nghiên cāu cÿa PGS.TS TrÁn Đăng H°ng và TS Nguyßn Văn Tßnh á Tr°ßng Đ¿i hãc S° ph¿m

Hà Nái, vãi mát sá công bá vÅ dā đoán mái liên quan giÿa miRNA và bánh bằng cách sử dăng thuÁt toán b°ãc nhÁy ng¿u nhiên có quay l¿i và tích hāp nhiÅu điÇm t°¢ng đãng [22], hay sử dăng thuÁt toán lãc cáng tác và phân bå nguãn lāc trên biÇu đã ba bên miRNA-bánh-lncRNA [23] Chi tiÃt nái dung

Trang 19

15

cÿa hai công bá này cũng đã đ°āc thÇ hián và bÁo vá thành công trong bÁn luÁn

án tiÃn sĩ cÿa TS Nguyßn Văn Tßnh năm 2023 t¿i Tr°ßng Đ¿i hãc S° ph¿m Hà Nái

Các ph°¢ng pháp xÃp h¿ng gen/protein dāa trên m¿ng phāc hāp nhìn chung đã đ°āc chāng minh là có đá chính xác cao, nhß vào viác tích hāp các mái quan há liên kÃt gen đã đ°āc chú thích tă các tÁp nguãn toàn dián vào c¢

sá tri thāc, nh° c¢ sá dÿ liáu STRING [24] và c¢ sá dÿ liáu HAPPYI 2.0 [25]

Ví dă vÅ các āng dăng xÃp h¿ng gen dāa trên m¿ng bao gãm khám phá các gen bánh cho các trÁt tā di truyÅn phāc t¿p cÿa ng°ßi [26], tìm măc tiêu và đánh vá l¿i thuác [27] Sau đây, luÁn án phát biÇu bài toán xÃp h¿ng đÇ dā đoán gen măc tiêu điÅu trá ung th°:

- Phát biÇu bài toán: Cho mát m¿ng sinh hãc gãm các gen/protein đ°āc cho là có liên quan đÃn bánh, các đßnh biÇu thá các gen/protein và các c¿nh thÇ hián sā t°¢ng tác giÿa chúng Dā đoán các gen/protein (đßnh) mà đát biÃn cÿa chúng có liên quan đÃn sā phát triÇn mát bánh nào đó á ng°ßi và là măc tiêu tác đáng cÿa thuác điÅu trá;

- ĐÁu vào: Cho tr°ãc mát m¿ng sinh hãc G = (V, E), vãi V là tÁp đßnh

(các phân tử sinh hãc nh° gen/protein) (ý = {ÿ1, ÿ2, & , ÿĄ} E là tÁp c¿nh

phép đo này coi là thuác tính F cÿa quan há đÁu ra S(V, F)

1.2 C¢ så lý thuyÁt

C¿u trúc m¿ng sinh hãc đÅ cÁp đÃn các v¿n đÅ cÿa mái quan há phāc t¿p giÿa các thành phÁn sinh hãc nh° gen/protein và các sÁn phẩm cÿa tà bào Vì vÁy, viác khai phá dÿ liáu sinh hãc có thÇ đ°āc quy vÅ bài toán khai phá dÿ liáu trên các m¿ng phāc hāp Viác này có thÇ đ°āc thāc hián bằng các mô hình tính toán và thuÁt toán trên m¿ng ĐÇ làm đ°āc điÅu đó, ng°ßi ta th°ßng biÇu dißn chúng d°ãi d¿ng mát đã thá và sử dăng các kỹ thuÁt tính toán trên đã thá và m¿ng phāc hāp đÇ giÁi quyÃt Sau đây luÁn án trình bày mát sá kiÃn thāc c¢

Trang 20

16

bÁn vÅ lý thuyÃt đã thá và m¿ng phāc hāp, làm c¢ sá cho viác đÅ xu¿t các mô hình tính toán và thuÁt toán cho viác giÁi quyÃt bài toán đặt ra

1.2.1 Lý thuyết đồ thị

Đã thá là mát công că mô hình hóa quan há giÿa các đái t°āng trong mát

há tháng, á đó mßi đái t°āng là mát đßnh và quan há giÿa chúng đ°āc hiÇu là c¿nh liên kÃt chúng Trong phân tích m¿ng phāc hāp, đã thá đ°āc sử dăng đÇ biÇu dißn m¿ng phāc hāp, trong đó các đßnh đ¿i dián cho các đ¢n vá trong há tháng và các c¿nh đ¿i dián cho các liên kÃt giÿa chúng Sau đây luÁn án trình bày mát sá khái niám c¢ bÁn vÅ đã thá:

- Đßnh là các thành phÁn cÿa há tháng đ°āc biÇu dißn bái các điÇm trên

đã thá;

- C¿nh là thành phÁn liên kÃt giÿa các đßnh đ°āc biÇu dißn bái các đ°ßng nái trên đã thá Các c¿nh có thÇ đ°āc đánh sá hoặc không (trãng sá c¿nh);

- Đ°ßng đi là mát chußi các đßnh kÃt nái vãi nhau bái các c¿nh Đ°ßng

đi đá dài n tă đßnh u đÃn đßnh v, trong đó n là sá nguyên d°¢ng Trên đã thá vô h°ãng G = (V, E) là dãy x 0 , x 1 ,…, x n-1 , x n ; trong đó u = x 0 , v = x n , (x i , x i+1 )þ E,

i = 0, 1, 2,…, n-1 Đ°ßng đi nói trên còn có thÇ biÇu dißn d°ãi d¿ng dãy các c¿nh: (x 0 , x 1 ), (x 1 , x 2 ), …, (x n-1 , x n ) Đßnh u gãi là đßnh đÁu, còn đßnh v gãi là đßnh cuái cÿa đ°ßng đi Đ°ßng đi có đßnh đÁu trùng vãi đßnh cuái (tāc là u =

v) đ°āc gãi là chu trình Đ°ßng đi hay chu trình đ°āc gãi là đ¢n nÃu nh° không

có c¿nh nào bá lặp l¿i;

- BÁc cÿa đßnh: Trong lý thuyÃt đã thá, bÁc cÿa mát đßnh v là sá c¿nh liên

thuác vãi v (trong đó, khuyên đ°āc tính hai lÁn) BÁc cÿa v đ°āc ký hiáu

là deg(v) Trong mát đã thá có h°ãng, bÁc trong cÿa đßnh v là sá cung kÃt thúc t¿i v, còn bÁc ngoài là sá cung xu¿t phát tă v BÁc trong và bÁc ngoài cÿa v đ°āc

ký hiáu là deg(v) và deg + (v) Do đó, deg(v)= deg(v) + deg + (v) Đßnh có

đßnh cÿa đã thá đÅu có bÁc bằng nhau và bằng k thì đã thá đ°āc gãi là đã thá chính quy bÁc k và đã thá đ°āc coi là có bÁc bằng k Đßnh có deg + (v)=0 đ°āc

gãi là đßnh phát, đßnh có deg(v) =0 là đßnh thu;

- Đã thá vô h°ãng là đã thá trong đó E là tÁp các cặp không thā tā chāa các đßnh phân biát Hai đßnh thuác mát c¿nh đ°āc gãi là các đßnh đÁu cuái cÿa

c¿nh đó Nh° vÁy, trong đã thá vô h°ãng, nÃu (v i , v j ) E thì (v j , v i ) E và (v j ,

Trang 21

17

chúng Đa đã thá vô h°ãng là mãi cặp đßnh có thÇ có nhiÅu h¢n mát c¿nh nái giÿa chúng;

- GiÁ đã thá vô h°ãng G = (V, E) bao gãm V là tÁp các đßnh khác rßng

và E là tÁp các cặp không có thā tā gãm hai phÁn tử (không nh¿t thiÃt phÁi khác nhau) cÿa V gãi là c¿nh Vãi v þ V , nÃu (v, v) þ E thì ta nói có mát khuyên t¿i

đßnh v GiÁ đã thá là lo¿i đã thá vô h°ãng tång quát nh¿t vì nó có thÇ chāa các

khuyên và các c¿nh lặp Đa đã thá là lo¿i đã thá vô h°ãng có thÇ chāa c¿nh bái nh°ng không thÇ có các khuyên, còn đ¢n đã thá là lo¿i đã thá vô h°ãng không chāa c¿nh bái hoặc các khuyên;

- Đã thá có h°ãng là đã thá có các c¿nh có h°ãng, có thÇ có c¿nh nái tă

u đÃn v nh°ng ch°a hẳn đã có c¿nh nái tă v đÃn u Hay nói cách khác, tÁp E gãm các cặp (u, v) có tính thā tā, (u, v) ≠ (v, u) Trong đã thá có h°ãng các c¿nh

đ°āc gãi là các cung Đã thá vô h°ãng cũng có thÇ coi là đã thá có h°ãng nÃu

coi c¿nh nái giÿa hai đßnh u, v t°¢ng đ°¢ng vãi hai cung (u, v) và (v, u) Đơn

đồ thị có hướng là mãi cặp đßnh chß có duy nh¿t mát cung nái chúng Đa đồ thị

có hướng là mãi cặp đßnh có thÇ có nhiÅu h¢n mát cung nái giÿa chúng;

- Đã thá liên thông: Đã thá vô h°ãng G = (V, E) đ°āc gãi là liên thông nÃu luôn tìm đ°āc đ°ßng đi giÿa hai đßnh b¿t kỳ cÿa nó;

- Đã thá con cÿa đã thá G = (V, E) là đã thá H = (W, F), trong đó WýV

và FýE Trong tr°ßng hāp đã thá là không liên thông, nó sÁ rã ra thành mát sá

đã thá con liên thông không có đßnh chung Nhÿng đã thá con liên thông nh° vÁy ta sÁ gãi là các thành phÁn liên thông cÿa đã thá;

- Đßnh v đ°āc gãi là đßnh rÁ nhánh nÃu viác lo¿i bß v cùng vãi các c¿nh liên thuác vãi nó khßi đã thá làm tăng sá thành phÁn liên thông cÿa đã thá;

- C¿nh e đ°āc gãi là cÁu nÃu viác lo¿i bß nó khßi đã thá làm tăng sá thành phÁn liên thông cÿa đã thá;

- Đã thá liên thông m¿nh: Đã thá có h°ãng G = (V, A) đ°āc gãi là liên thông m¿nh nÃu luôn tìm đ°āc đ°ßng đi giÿa hai đßnh b¿t kỳ cÿa nó;

- Đã thá liên thông yÃu: Đã thá có h°ãng G = (V, A) đ°āc gãi là liên

thông yÃu nÃu đã thá vô h°ãng t°¢ng āng vãi nó là vô h°ãng liên thông;

- Đã thá đÁy đÿ: Đã thá đÁy đÿ n đßnh, ký hiáu là Kn, là đ¢n đã thá mà hai

đßnh phân biát b¿t kỳ cÿa nó luôn liÅn kÅ Nh° vÁy, K n có n(n - 1)/2 c¿nh và mßi đßnh cÿa K n có bÁc là n-1

Trang 22

18

1.2.2 Biểu diễn đồ thị trên máy tính

1.2.2.1 Ma trận kề

Dÿ liáu đã thá có thÇ đ°āc mã hoá d°ãi d¿ng mát ma trÁn kÅ

Xét đ¢n đã thá có h°ãng G=(V, E), ma trÁn A={a i, j : i, j=1, 2, ,n} vãi

a i, j =0, nÃu (i, j) ÿ E và a i, j =1 , nÃu (i, j) þ E, i, j=1, 2, .,n gãi là ma trÁn kÅ cÿa đã thá G

Tính ch¿t cÿa ma trÁn kÅ cÿa đã thá vô h°ãng:

- Tính đái xāng: a[i, j]=a[j, i], i, j=1,2, .,n;

- Tång các phÁn tử trên dòng i (cát j) bằng bÁc cÿa đßnh i (đßnh j) Tính ch¿t cÿa ma trÁn kÅ cÿa đã thá có h°ãng:

đó sá  có thÇ đ°āc đặt bằng mát trong các giá trá sau: 0, +, -

¯u điÇm lãn nh¿t cÿa ph°¢ng pháp biÇu dißn đã thá bằng ma trÁn kÅ

(hoặc ma trÁn trãng sá) là đÇ trÁ lßi câu hßi là hai đßnh u, v có kÅ nhau trên đã

thá hay không, luÁn án chß phÁi thāc hián mát phép so sánh Nh°āc điÇm lãn nh¿t cÿa ph°¢ng pháp này là không phă thuác vào sá c¿nh cÿa đã thá, ta luôn

phÁi sử dăng n 2 đ¢n vá bá nhã đÇ l°u trÿ ma trÁn kÅ cÿa nó

1.2.2.3 Danh sách cạnh (cung)

Trong tr°ßng hāp đã thá th°a (đã thá có sá c¿nh m thoÁ mãn b¿t đẳng thāc: m<6n) ta có thÇ biÇu dißn đã thá d°ãi d¿ng danh sách c¿nh, ví dă, mát c¿nh (cung) e=(x,y) cÿa đã thá t°¢ng āng vãi hai biÃn Dau[e], Cuoi[e] ĐÇ l°u trÿ đã thá ta cÁn sử dăng 2m đ¢n vá bá nhã

Nh°āc điÇm: đÇ tìm các đßnh kÅ vãi mát đßnh cho tr°ãc, ta phÁi làm m

phép so sánh (khi duyát qua danh sách t¿t cÁ các c¿nh cÿa đã thá) Trong tr°ßng

hāp đã thá có trãng sá, ta cÁn thêm m đ¢n vá bá nhã đÇ l°u trÿ trãng sá cÿa các

c¿nh

Với danh sách kề Với mỗi đỉnh v, ta lưu trữ danh sách các đỉnh kề với

Trang 23

Ví dă, ta có khái niám m¿ng xã hái: M¿ng xã hái là n¢i thÇ hián mái quan há giÿa con ng°ßi vãi nhau, mßi ng°ßi có thÇ coi là mát đßnh và hai đßnh đ°āc kÃt nái bằng mát liên kÃt nÃu hã có quan há vãi nhau Ví dă mái quan há giÿa các thành viên trong mát gia đình sÁ xây dāng m¿ng l°ãi xã hái cÿa gia đình Mßi ng°ßi trong gia đình là mát đßnh cÿa m¿ng l°ãi và mßi mái quan há

là mát mÃt xích NÃu ta thay mßi ng°ßi cho mát trang web và các mái quan há cho các siêu liên kÃt, ta có m¿ng World Wide Web T°¢ng tā, đái vãi các sân bay và các chuyÃn bay khác nhau kÃt nái chúng, hoặc các tà bào thÁn kinh và

sā t°¢ng tác giÿa chúng Ta có thÇ phân lo¿i các m¿ng phāc hāp theo các khía c¿nh khác nhau nh° sau:

- Phân lo¿i theo kÃt nái giÿa các đßnh: m¿ng có h°ãng, vô h°ãng, hß hāp, đãng nh¿t, không đãng nh¿t.Ví dă trong mát m¿ng l°ãi thāc ăn, các đßnh t°¢ng āng vãi các loài khác nhau và các liên kÃt kÃt nái chúng nÃu chúng là đáng vÁt ăn thát và con mãi Chẳng h¿n, mát con thß ăn cß nh°ng điÅu ng°āc l¿i không xÁy ra (m¿ng có h°ãng);

- Phân lo¿i theo đặc tr°ng kiÃn trúc m¿ng, ví dă nh° sā phân bá bÁc Trong kiÇu phân lo¿i này th°ßng đÅ cÁp đÃn hai kiÇu đặc tr°ng kiÃn trúc là small-word và scale-free;

- Phân lo¿i theo đá dài đ°ßng d¿n giÿa các đßnh, nh° đá dài đ°ßng d¿n ngÃn nh¿t, trung bình đ°ßng đi ngÃn nh¿t giÿa các đßnh trên m¿ng vãi nhau

Sau đây là mát sá hình Ánh ví dă că thÇ vÅ các há tháng trong tā nhiên

và xã hái có thÇ đ°āc mô hình hoá và phân tích bái m¿ng phāc hāp, Hình 1.2

Trang 24

1.2.3.1 Các thành phần cơ bản của mạng phức hợp

- Đỉnh là mát thāc thÇ trên m¿ng Trong m¿ng sinh hãc, đßnh đ°āc hiÇu

là các thāc thÇ sinh hãc nh° gen/ protein hay mát ch¿t chuyÇn hóa

Trang 25

21

- Liên kết thÇ hián mái quan há hoặc sā Ánh h°áng, t°¢ng tác giÿa các

thāc thÇ trong m¿ng Trong m¿ng sinh hãc nh° m¿ng trao đåi ch¿t tà bào mßi c¿nh đ¿i dián cho mát phÁn āng sinh hoá Trong m¿ng t°¢ng tác protein liên kÃt thÇ hián sā t°¢ng tác giÿa các protein vãi nhau Trong m¿ng tín hiáu tà bào liên kÃt thÇ hián tr¿ng thái truyÅn tín hiáu giÿa các tà bào

1.2.3.2 Đặc trưng trên mạng phức hợp

Đặc tr°ng vÅ mặt kiÃn trúc cÿa m¿ng phāc hāp th°ßng đ°āc nhÃc đÃn thông qua hai lo¿i là đặc tr°ng thà giãi nhß (small-world) và đặc tr°ng má ráng bÁc lũy thăa (scale-free)

- Đặc trưng small-world

Đặc tr°ng kiÃn trúc m¿ng small-world là mát đặc tr°ng điÇn hình cÿa các m¿ng xã hái, trong đó các đßnh kÃt nái vãi nhau theo mô hình "small-world", mßi đßnh có thÇ kÃt nái vãi mát sá ít đßnh khác mà không cÁn thông qua nhiÅu đßnh trung gian

KiÃn trúc m¿ng small-world có hai đặc điÇm quan trãng:

- Đ°ßng đi ngÃn: Mßi đßnh trong m¿ng có thÇ kÃt nái đÃn mát đßnh khác thông qua mát sá ít đßnh trung gian ĐiÅu này t¿o ra tính ch¿t <đ°ßng đi ngÃn= trong m¿ng, nghĩa là hai đßnh b¿t kỳ trong m¿ng có thÇ kÃt nái vãi nhau thông qua mát

sá b°ãc ngÃn;

- Đặc điÇm phân c¿p: Trong m¿ng small-world, mặc dù có nhÿng kÃt nái ngÃn nh°ng v¿n có sā tãn t¿i cÿa các nhóm hay c¿u trúc phân c¿p, nghĩa là các liên

Hình 1.3: Ví dă vÅ mô hình m¿ng small-world

Mßi đßnh là mát ch¿m đen nằm trên đ°ßng tròn, c¿nh nái giÿa các đßnh là các cung

Trang 26

22

kÃt không chß là mát m¿ng kÃt nái ng¿u nhiên Thay vào đó, m¿ng có thÇ chāa các nhóm, căm hay c¿u trúc tå chāc

M¿ng small-world th°ßng đ°āc thÇ hián thông qua mô hình Watts-Strogatz

và mô hình Barabási-Albert [29] Đây là mô hình toán hãc giúp mô phßng cách mà các m¿ng xã hái thāc tà th°ßng ho¿t đáng, và chúng đ°āc sử dăng trong nhiÅu lĩnh vāc nh° khoa hãc m¿ng, xã hái hãc, và công nghá thông tin đÇ hiÇu c¿u trúc và tính ch¿t cÿa m¿ng mát cách chi tiÃt

Quy trình sau đây mô tÁ các b°ãc c¢ bÁn cÿa viác xây dāng m¿ng thà giãi nhß:

- Bước 1 BÃt đÁu vãi mát vòng các N đßnh;

- Bước 2 KÃt nái K các đßnh gÁn nh¿t cho t¿t cÁ các đßnh i=1 N;

- Bước 3 Nái các c¿nh vãi mát đßnh đ°āc chãn ng¿u nhiên vãi xác su¿t p;

Ngoài ra, bằng cách thay đåi xác su¿t quay l¿i p, ng°ßi ta có thÇ phân

tích sā chuyÇn đåi cÿa m¿ng tă c¿u trúc small-word sang c¿u trúc m¿ng ng¿u

nhiên vãi 0P1 [30]

- Đặc trưng scale-free

Đặc tr°ng kiÃn trúc m¿ng scale-free đ°āc Albert-László Barabási và Reka Albert giãi thiáu [31] Nó là mát d¿ng kiÃn trúc m¿ng l°ãi phāc hāp có phân phái bÁc (degree distribution) theo d¿ng lũy thăa

Đặc điÇm chính cÿa kiÃn trúc m¿ng scale-free:

- Đặc tr°ng phân phái bÁc d¿ng luỹ thăa (power-law): M¿ng t¿o ra mát phân phái không đãng đÅu, trong đó có mát sá đßnh vãi sá l°āng kÃt nái r¿t lãn (hub) và r¿t nhiÅu đßnh vãi sá l°āng kÃt nái nhß;

- Đặc tr°ng tÁp lõi: m¿ng scale-free th°ßng không có mát trung tâm duy nh¿t hoặc mát sá ít đßnh quan trãng duy nh¿t Thay vào đó, các đßnh "hub" chiÃm vai trò quan trãng trong viác truyÅn thông, lan truyÅn thông tin trong m¿ng

M¿ng scale-free th°ßng đ°āc sử dăng đÇ mô hình hóa các há tháng phāc t¿p nh° m¿ng xã hái, m¿ng l°ãi máy tính, m¿ng giao thông, và các há tháng sinh hãc Các ví dă că thÇ cÿa m¿ng scale-free bao gãm m¿ng Internet, m¿ng chính trá, m¿ng thÁn kinh, và m¿ng xã hái nh° Facebook hay Twitter NhiÅu nghiên cāu đã đ°āc báo cáo các m¿ng sinh hãc phân tử nh° m¿ng t°¢ng tác

Trang 27

ThuÁt toán sau đây cho th¿y các b°ãc xây dāng mát m¿ng không có quy mô:

- Bước 2 Giãi thiáu mát đßnh mãi vào m¿ng;

cāc đ¿i đ°āc hiÇn thá nh° công thāc (1.1);

(1.1)

trong đó /(āÿ) là xác su¿t chãn đßnh i, n là sá đßnh cÿa m¿ng, k i là bÁc cÿa

đßnh i và 3ĄĀ=1āĀ là tång sá c¿nh trong m¿ng hián t¿i

- Bước 4 Lặp l¿i các b°ãc 2 và 3 cho đÃn khi xây dāng xong mát m¿ng 1.2.3.3 Tính chất cơ bản của mạng phức hợp

Kích thước mạng có thÇ ám chß đÃn nhiÅu khía c¿nh khác nhau trong ngÿ

cÁnh khác nhau Ví dă: Trong kỹ thuÁt hãc máy (Machine Learning) và hãc sâu (Deep Learning), kích th°ãc m¿ng phāc hāp có thÇ hiÇu là sá l°āng lãp và sá l°āng đ¢n vá (neurons hoặc nodes) trong mßi lãp Trong c¢ sá dÿ liáu, kích

Trang 28

24

th°ãc m¿ng có thÇ hiÇu là sá l°āng bÁng, tr°ßng, dòng và cát trong mát c¢ sá

dÿ liáu quan há phāc t¿p Trong ngÿ cÁnh cÿa m¿ng xã hái, kích th°ãc m¿ng

có thÇ hiÇu là sá l°āng ng°ßi dùng, mái quan há kÃt nái và ho¿t đáng trên các nÅn tÁng nh° Facebook, Twitter, Instagram, v.v Trong lĩnh vāc đã thá, kích th°ãc m¿ng có thÇ hiÇu là sá l°āng đßnh (nodes) và sá l°āng c¿nh (edges) trong mát đã thá

Mật độ của mạng th°ßng đÅ cÁp đÃn māc đá kÃt nái hoặc quan há giÿa

các đßnh trong m¿ng và là mát thuác tính quan trãng trong phân tích m¿ng, Ánh h°áng đÃn các tính ch¿t c¿u trúc hoặc đáng lāc hãc m¿ng MÁt đá cÿa m¿ng đ°āc tính dāa trên sá l°āng c¿nh và sá l°āng đßnh trong m¿ng

MÁt đá cÿa mát m¿ng phāc hāp G(V, E) đ°āc tính bái công thāc (1.2)

MÁt đá th°ßng đ°āc biÇu thá d°ãi d¿ng mát giá trá tă 0 đÃn 1 Giá trá gÁn

0 cho th¿y m¿ng có ít kÃt nái h¢n, trong khi giá trá gÁn 1 cho th¿y m¿ng có nhiÅu kÃt nái MÁt đá cÿa m¿ng có thÇ cung c¿p thông tin quan trãng vÅ tính liên kÃt giÿa các đßnh M¿ng có mÁt đá cao th°ßng có mái quan há mÁt thiÃt giÿa các thành phÁn, trong khi m¿ng có mÁt đá th¿p có thÇ thÇ hián sā phân tán hoặc không gian tráng lãn giÿa các đßnh

Kết nối mạng là cách thāc liên kÃt các thành phÁn trong mát m¿ng Cách

thāc kÃt nái m¿ng đóng mát phÁn lãn vào cách m¿ng đ°āc phân tích và dißn giÁi Có 4 tính ch¿t kÃt nái cÿa m¿ng: M¿ng kÃt nái hoàn thián (Complete Graph) mà các đßnh đ°āc kÃt nái vãi mãi đßnh khác, t¿t cÁ các đßnh đÅu có liên kÃt trong và liên kÃt ngoài tă t¿t cÁ các đßnh khác M¿ng kÃt nái qua thành phÁn

<khång lã= (Giant Component) là kiÇu kÃt nái mà trong m¿ng có mát đßnh chāa hÁu hÃt các kÃt nái đÃn t¿t cÁ các đßnh đ¢n l¿ Thành phÁn kÃt nái yÃu là mát tÁp hāp cÿa các đßnh chß tãn t¿i mát kÃt nái tă mát đßnh nào đó đÃn nó bß qua h°ãng cÿa các c¿nh Thành phÁn kÃt nái m¿nh là mát tÁp hāp cÿa các đßnh trong đó tãn t¿i mát đ°ßng d¿n trāc tiÃp tă mát đßnh b¿t kỳ đÃn b¿t kỳ đßnh nào khác

Trang 29

25

Độ bền của mạng (Robusnet) là khÁ năng cÿa m¿ng duy trì nhÿng chāc

năng khi đái mặt vãi nhÿng xáo trán hoặc cháu tác đáng Đá bÅn cÿa m¿ng đ°āc sử dăng đÇ tính toán sāc cháu đāng cÿa m¿ng khi bá tác đáng, xác đánh khÁ năng tãn t¿i cÿa 1 m¿ng [33] Mát sá khía c¿nh quan trãng liên quan đÃn

đá bÅn trong m¿ng phāc hāp bao gãm:

- KhÁ năng tā phăc hãi (Resilience): M¿ng phāc hāp cÁn có khÁ năng tā phăc hãi sau khi gặp sā cá ĐiÅu này bao gãm viác phát hián sā cá, cách chuyÇn h°ãng tÁi trãng, và khôi phăc l¿i ho¿t đáng bình th°ßng mát cách nhanh chóng;

- KhÁ năng dā phòng (Redundancy): Sā dā phòng trong m¿ng phāc hāp đÁm bÁo rằng có các tuyÃn đ°ßng thay thÃ, căm điÅu khiÇn dā phòng, đÇ đÁm bÁo rằng sā cá á mát phÁn cÿa m¿ng không gây ra gián đo¿n toàn bá há tháng;

- KhÁ năng phân tán (Distribution): Sā phân tán các tài nguyên và chāc năng có thÇ giúp giÁm thiÇu tác đáng cÿa mát sā cá đáa ph°¢ng lên toàn bá m¿ng;

- KhÁ năng quÁn lý tÁi (Load Management): M¿ng phāc hāp th°ßng phÁi đái mặt vãi sā biÃn đåi vÅ tÁi công viác Các bián pháp quÁn lý tÁi giúp đÁm bÁo rằng m¿ng có thÇ xử lý tÁi lãn mà không gây ra sā cá;

- KhÁ năng dā báo và giám sát: Viác theo dõi liên tăc và quÁn lý tr¿ng thái các đßnh, cũng nh° kÃt nái giÿa các đßnh, giúp phát hián sãm các v¿n đÅ tiÅm ẩn và đ°a ra bián pháp khÃc phăc tr°ãc khi chúng gây ra sā cá lãn

Tóm l¿i, trong m¿ng phāc hāp, "đá bÅn" không chß đ¢n thuÁn là viác duy trì kÃt nái, mà còn đÅ cÁp đÃn khÁ năng cÿa m¿ng đÇ ho¿t đáng ån đánh, phăc hãi sau sā cá và thích āng vãi môi tr°ßng phāc t¿p và thay đåi Đá bÅn có thÇ đ°āc dùng đÇ nghiên cāu các m¿ng sinh hãc, đát biÃn sinh hãc hoặc khÁ năng phăc hãi sau mát sá đát biÃn trong lĩnh vāc sinh hãc [34]

Bậc của đỉnh (Degree) là mát chß sá quan trãng trong m¿ng và đ°āc đánh

nghĩa là sá l°āng t°¢ng tác trāc tiÃp đÃn hoặc đi cÿa đßnh đó vãi các đßnh khác trong m¿ng và đ°āc tính bái công thāc (1.3)

trong đó, E là tÁp c¿nh, V là tÁp đßnh, {(v,w)|(v,w)þE} biÇu thá mát t°¢ng tác

trāc tiÃp tă đßnh v đÃn đßnh w thuác V T°¢ng tā {(w, v)|(w, v)þE} biÇu thá mát

t°¢ng tác trāc tiÃp tă đßnh w đÃn đßnh v thuác V Trong m¿ng vô h°ãng t°¢ng tác tă v đÃn w đ°āc coi là t°¢ng tác tă w đÃn v Tuy nhiên điÅu này không đúng

vãi m¿ng có h°ãng và hình thành khái niám bÁc ra và bÁc vào

Trang 30

26

Dāa vào bÁc cÿa đßnh ng°ßi ta có thÇ dā đoán mát đßnh nåi bÁt h¢n hay kém nåi bÁt h¢n so vãi các đßnh khác Māc đá nåi bÁt càng cao thì khÁ năng nÃm giÿ vai trò điÅu khiÇn, kiÇm soát hay Ánh h°áng cho nhÿng thay đåi trong toàn m¿ng càng cao

1.2.3.4 Trung tâm mạng

M¿ng có thÇ đ°āc hình dung bao gãm mát lõi dày đặc (core) và mát sá kÃt nái không ån đánh gãi là biên Trung tâm m¿ng hay còn gãi là core cÿa m¿ng, là mát căm đßnh hoặc mát sá ít các đßnh mà th°ßng có thÇ đ¿i dián cho đặc tính cÿa m¿ng NÃu điÅu khiÇn đ°āc tr¿ng thái core cÿa m¿ng, có thÇ điÅu khiÇn tr¿ng thái cÿa cÁ há tháng m¿ng Ng°āc l¿i các đßnh biên (periphery nodes) là các đßnh mà sā thay đåi vÅ tr¿ng thái hoặc sā ho¿t đáng cÿa chúng không Ánh h°áng đáng kÇ đÃn ho¿t đáng cÿa cÁ há tháng Mát há tháng có thÇ

có nhiÅu core hoặc tÁp core vãi các kích th°ãc khác nhau K-core là mát thuÁt

toán có thÇ xác đánh các khu vāc lõi nhß đ°āc liên kÃt vãi nhau trong m¿ng

Khái niệm lõi K

C¿u trúc lõi hay còn gãi là core cÿa mát m¿ng có thÇ thu đ°āc bằng

ph°¢ng pháp phân rã m¿ng ThuÁt toán phân rã K-core [35] là mát thuÁt toán nåi tiÃng và th°ßng đ°āc sử dăng đÇ xác đánh lõi cÿa mát m¿ng, trong đó k đ¿i dián cho māc đá cÿa lõi, có thÇ hiÇu đ¢n giÁn quá trình phân tách lõi k nh° sau:

cho mát m¿ng, t¿t cÁ các đßnh có bÁc < k đ°āc lo¿i bß cùng vãi các liên kÃt cÿa chúng khßi m¿ng Quá trình lo¿i bß này đ°āc lặp l¿i cho đÃn khi bÁc cÿa mãi

đßnh trong m¿ng còn l¿i g k Khi đó lõi k biÇu thá tÁp hāp các đßnh còn l¿i và

do đó k 1 lõi là tÁp con cÿa k 2 lõi nÃu k1 g k2

Khái niệm lõi R

ThuÁt toán K-core đ°āc sử dăng đÇ xác đánh lõi cÿa m¿ng dāa trên bÁc cÿa đßnh, tuy nhiên h¿n chà cÿa K-core là không sử dăng thông tin vÅ h°ãng

cÿa c¿nh, tāc là chß áp dăng cho m¿ng vô h°ãng Vì vÁy, Tran và cáng sā [13]

đã đÅ xu¿t mát thuÁt toán phân tách m¿ng khác gãi là R-core, dāa trên khÁ năng tiÃp cÁn cÿa đßnh v đÃn các đßnh khác (xét theo h°ãng cÿa c¿nh đ°āc xu¿t phát

tă đßnh v Ví dă, tă đßnh v có mát liên kÃt có h°ãng tă v đÃn u, và tă đßnh u l¿i

có mát liên kÃt có h°ãng tă đßnh u đÃn đßnh e, và tă đßnh e l¿i có liên kÃt đÃn đßnh u, khi đó R(u) =3) và đ°āc ký hiáu là R(v) trên các m¿ng có

h°ãng Ph°¢ng pháp này sử dăng quy tÃc cÃt tßa t°¢ng tā nh° ph°¢ng pháp

phân tách K-core, ngo¿i tră R(v) đ°āc sử dăng thay vì bÁc cÿa đßnh Nói cách

Trang 31

27

khác, t¿t cÁ các đßnh có R(v) < r và các t°¢ng tác cÿa chúng sÁ bá lo¿i bß á mßi b°ãc cÃt tßa KÃt quÁ là R-core phân tách m¿ng có h°ãng thành các m¿ng con Theo đánh nghĩa phân tách K và R đ¿i dián cho lõi bên trong lãn h¢n khi giá trá c¿p đá lõi tăng lên H¢n nÿa, lõi K hoặc lõi R đ°āc đánh nghĩa là mát tÁp hāp các đßnh thuác vÅ māc đá lõi là k (hoặc r) chā không phÁi māc đá lõi (k +

1) hoặc māc đá lõi (r + 1) Mát ví dă vÅ các phân tách m¿ng này đ°āc thÇ hián

á hình 1.8 Các đßnh ngoài cùng đ°āc hiÇu là có māc đá lõi th¿p nh¿t Ngoài

ra, lõi trong cùng biÇu thá māc đá lõi cao nh¿t

Hình 1.5: Mát ví dă vÅ phân tách lõi [13]

M¿ng có h°ãng vãi 25 đßnh và 29 t°¢ng tác a) là kÃt quÁ cÿa quá trình phân hÿy lõi r, r = 1, 3 và 4, t°¢ng āng là xám, xanh lăc và đß (b) là kÃt

quÁ cÿa quá trình phân hÿy lõi k, k = 1 và 2 t°¢ng āng xám và xanh lăc

1.2.3.5 Phân cụm mạng

Phân căm m¿ng là mát trong nhÿng ph°¢ng pháp phân tích chính, đ°āc

sử dăng trong khai phá dÿ liáu m¿ng Sā lāa chãn cÿa thuÁt toán phân căm sÁ Ánh h°áng trāc tiÃp đÃn kÃt quÁ phân căm Phân căm m¿ng là quá trình phân chia m¿ng thành các mô-đun m¿ng mà mßi mô-đun là tÁp hāp các đßnh (bÁn ghi) có chung nhau mát hoặc mát vài thuác tính quan trãng nào đó, mà giÿa các căm r¿t mß nh¿t [36] Phân căm m¿ng, là chÿ đÅ cÁp đÃn viác phân căm

dÿ liáu đ°āc biÇu dißn d°ãi d¿ng m¿ng hoặc đã thá Qua đó, nhiÅu kiÇu dÿ liáu

có thÇ đ°āc mô hình hóa mát cách thuÁn tián bằng cách sử dăng đã thá Nói chung, các cách tiÃp cÁn phân căm m¿ng có thÇ đ°āc sử dăng đÇ thāc hián cÁ phân căm dāa trên khoÁng cách và phân căm khái niám Trong phân căm dāa trên khoÁng cách (Hình 1.9), các đßnh cÿa biÇu đã t°¢ng āng vãi các điÇm dÿ liáu và các c¿nh đ°āc thêm vào nÃu các điÇm đÿ gÁn dāa trên mát sá giá trá giãi h¿n Ngoài ra, khoÁng cách có thÇ đ°āc sử dăng đÇ xác đánh các c¿nh cÿa

Trang 32

28

mát biÇu đã hoàn chßnh đ¿i dián cho tÁp dÿ liáu Phân căm dāa trên khái niám, đÁu tiên m¿ng c¢ sá dÿ liáu th°ßng đ°āc xây dāng bằng cách chß đánh mát tr°ßng làm <tr°ßng khãp=, sau đó các đßnh đ¿i dián cho các bÁn ghi trong c¢

sá dÿ liáu đ°āc nái vãi nhau bằng mát c¿nh nÃu hai tr°ßng khãp là <gÁn nhau= Trong m¿ng t°¢ng tác protein, các protein đ°āc biÇu dißn bằng các đßnh và mát cặp đ°āc nái vãi nhau bằng mát c¿nh nÃu chúng đ°āc biÃt là t°¢ng tác Trong m¿ng đãng biÇu hián gen, các gen là các đßnh và mát c¿nh biÇu thá rằng cặp gen (điÇm cuái) cùng biÇu hián trên mát sá giá trá ng°ÿng dāa trên các thí nghiám microarray

Các thuÁt toán phân căm m¿ng đóng mát vai trò quan trãng trong viác phân tích m¿ng sinh hãc và có thÇ đ°āc sử dăng đÇ khám phá các mô-đun chāc năng và thu đ°āc các gāi ý vÅ tå chāc tà bào [37] Phân căm m¿ng đ°āc cho là cách tiÃp cÁn phå biÃn nh¿t đÇ phân tích m¿ng sinh hãc phân tử và th°ßng đ°āc

áp dăng đÇ khám phá các mô-đun chāc năng và phāc hāp protein, đÇ suy ra chāc năng cÿa gen, protein [37] Mát sá thuÁt toán phân căm m¿ng đã đ°āc phát triÇn cho các m¿ng sinh hãc phân tử đ°āc giãi thiáu á [37] Sau đây luÁn

án giãi thiáu mát thuÁt toán phân căm m¿ng nåi tiÃng trên các m¿ng phāc hāp, gãi là thuÁt toán tái °u hoá phân căm

Hình 1.6: Phân căm m¿ng dāa trên khoÁng cách [38]

M¿nh có 20 đßnh và 76 liên kÃt và đ°āc phân tách thành 3 căm, mßi căm

có nhiÅu đßnh liên kÃt dày đặc, giÿa các căm chß có 1 đÃn 2 liên kÃt

ThuÁt toán tái °u hóa phân căm m¿ng là mát thuÁt toán phân căm m¿ng đ°āc M E J Newman [39] đÅ xu¿t dāa trên nhÁn đánh tính mô đun (modularity) có thÇ đ°āc biÇu dißn d°ãi d¿ng các véc t¢ riêng (agent vector)

Trang 33

29

cÿa mát ma trÁn m¿ng đặc tr°ng, gãi là ma trÁn mô đun Ph°¢ng pháp gán điÇm

sá cho t¿t cÁ các c¿nh cÿa m¿ng theo vai trò t°¢ng đái cÿa chúng liên quan đÃn trãng sá cÿa các đßnh mà chúng kÃt nái, và nhằm măc đích tái đa hóa điÇm tích lũy bên trong căm, °u tiên các kÃt nái có điÇm sá d°¢ng và tránh nhÿng kÃt nái

có điÇm sá âm ThuÁt toán có khÁ năng cung c¿p nh¿t quán kÃt quÁ tát nh¿t vÅ điÇm mô đun so vãi các thuÁt toán khác [40], khÁ năng phân chia m¿ng không cÁn xác đánh tr°ãc sá căm nh° ph°¢ng pháp truyÅn tháng k-mean Viác phát hián ph¿m vi các căm m¿ng sÁ đ°āc thāc hián vãi viác cung c¿p thông tin c¿u trúc liên kÃt thô cÿa m¿ng đÁu vào H¢n nÿa, thuÁt toán không cá đánh kích th°ãc cũng nh° sā phân bá kích th°ãc cÿa các căm đ°āc phát hián và nó không

bá giãi h¿n bái b¿t kỳ ràng buác không gian nào

ThuÁt toán đ°āc phát biÇu nh° sau:

Cho m¿ng G(V, E), V là tÁp đßnh, E là tÁp c¿nh, n là tång sá đßnh cÿa m¿ng Đái vãi mát phép chia că thÇ cÿa m¿ng thành hai nhóm, thiÃt lÁp S v =1 nÃu đßnh v thuác nhóm 1 và S v =-1 nÃu nó thuác nhóm 2 Gãi sá c¿nh giÿa đßnh v và w là A vw và th°ßng có giá trá là 0 hoặc 1, 0 nÃu v không có kÃt nái

trāc tiÃp vãi w và bằng 1 nÃu có kÃt nái, Avw có thÇ có giá trá lãn h¢n 1 trong các m¿ng cho phép có nhiÅu c¿nh (Avw đ°āc gãi là ma trÁn kÅ cÿa m¿ng) Sá c¿nh dā kiÃn giÿa đßnh v và w b¿t kỳ là kv k w /2m , trong đó k v và k w là bÁc cÿa

đßnh v và w, và ÿ = 123Ąă=1āă là tång sá c¿nh trong m¿ng Khi đó, mô

đun Q đ°āc cho bái tång (A vw - k v k w /2m) trên t¿t cÁ các cặp đßnh v,w thuác

cùng mát nhóm Quan sát th¿y rằng đ¿i l°āng 12(ÿăÿĄ + 1) là 1

nÃu v và w thuác cùng mát nhóm và 0 nÃu ng°āc l¿i Chúng ta có thÇ tính giá

trá cÿa mô đun Q theo công thāc (1.4)

�㕄 = 2ÿ ∑ [�㔴1 㥠2ā2ÿ ]ăāĄ

Ą ăĄ=1

ÿăÿĄ + 1

1.2.4 Dữ liệu và mô hình hoá dữ liệu mạng sinh học

Dÿ liáu sinh hãc có thÇ hiÇu gãm tÁp hāp các thông tin vÅ các phân tử sinh hãc, chÿ yÃu là DNA, RNA và protein, đ°āc thu thÁp và l°u trÿ trong các c¢ sá dÿ liáu sinh hãc phân tử Dÿ liáu này có thÇ đ°āc thu thÁp tă nhiÅu nguãn khác nhau, bao gãm các phân tử tă các tå chāc sáng, bánh phẩm, m¿u máu, m¿u tà bào và mô, và đ°āc đánh giá và phân tích bằng nhiÅu công că và ph°¢ng

Trang 34

30

pháp khác nhau Các thông tin trong dÿ liáu sinh hãc phân tử có thÇ đ°āc sử dăng đÇ giÁi mã các thông tin vÅ c¿u trúc và chāc năng cÿa các phân tử sinh hãc, cung c¿p thông tin vÅ các mái quan há và xu h°ãng giÿa các phân tử Các công că và ph°¢ng pháp khai thác dÿ liáu sinh hãc phân tử có thÇ đ°āc sử dăng

đÇ tìm kiÃm các thông tin quan trãng vÅ di truyÅn, đánh giá tác dăng cÿa các lo¿i thuác, tìm kiÃm các bánh và giÁi pháp điÅu trá mãi Dÿ liáu sinh hãc phân

tử là mát trong nhÿng tài nguyên quan trãng nh¿t cho nghiên cāu trong lĩnh vāc sinh hãc phân tử và y hãc phân tử, là c¢ sá đÇ phát triÇn các āng dăng và công nghá mãi trong lĩnh vāc này

Ngày nay, dÿ liáu sinh hãc phân tử có thÇ đ°āc mô hình hóa thành các m¿ng phāc hāp, trong đó các đßnh thÇ hián cho các thành phÁn sinh hãc là các gen/protein, các liên kÃt giÿa các đßnh biÇu thá cho mái quan há, sā Ánh h°áng

và t°¢ng tác giÿa các thành phÁn trong m¿ng vãi nhau Ví dă, trong m¿ng trao đåi ch¿t tà bào mßi c¿nh đ¿i dián cho mát phÁn āng sinh hoá, trong khi trong m¿ng t°¢ng tác protein các liên kÃt đ¿i dián cho sā t°¢ng tác giÿa các protein/gen vãi nhau, trong m¿ng tín hiáu tà bào các liên kÃt biÇu thá tr¿ng thái truyÅn tín hiáu giÿa các tà bào

Vai trò chính trong m¿ng là các gen/protein, vãi chāc năng kiÇm soát sā tång hāp, ho¿t đáng và sā thoái hóa cÿa các gen/protein khác Theo đặc điÇm chāc năng, ta có thÇ chia thành 4 lo¿i m¿ng sinh hãc sau: M¿ng trao đåi ch¿t tà bào (metabolic network), m¿ng t°¢ng tác protein (protein-protein interaction network), m¿ng điÅu hòa gen (gen regulatory network), m¿ng tín hiáu tà bào (cellular signaling network)

đó có các lo¿i đßnh hoặc c¿nh t°¢ng tā nhau [42] Trong m¿ng trao đåi ch¿t tà bào, mßi đßnh đ¿i dián cho mát ch¿t chuyÇn hoá (phân tử) và mßi c¿nh đ¿i dián cho mát phÁn āng sinh hoá Mát phÁn āng sinh hoá là mát quá trình hoá hãc, kÃt quÁ là viác chuyÇn đåi mát phân tử sinh hãc khác M¿ng trao đåi ch¿t mô

tÁ các con đ°ßng trao đåi ch¿t cÿa tà bào, trong đó bao gãm mát chußi các phÁn āng mô tÁ các phân tử t°¢ng tác vãi nhau và chuyÇn đåi sang mát phân tử hoặc hāp ch¿t khác

- Mạng tương tác protein [43], là mát m¿ng vô h°ãng và đãng nh¿t, mßi

đßnh đ¿i dián cho các gen/protein và các c¿nh đ¿i dián cho các t°¢ng tác giÿa chúng, hai protein đ°āc kÃt nái vãi nhau nÃu chúng có t°¢ng tác vãi nhau

Trang 35

31

Trong sá các lo¿i phân tử, protein đóng vai trò là trung tâm và quan trãng trong viác điÅu hòa biÇu hián gen Mặt khác các protein đóng góp đáng kÇ vào viác liên kÃt các gen vãi nhau và t¿o thành nhiÅu m¿ch điÅu chßnh trong mát tà bào

và sā tãn t¿i cÿa các tà bào sáng phă thuác nhiÅu vào t°¢ng tác và phÁn āng hóa hãc giÿa các lo¿i phân tử khác nhau nh° protein ¯ãc tính c¢ thÇ con ng°ßi

có khoÁng h¢n 10 nghìn tß (1013) tà bào, trong đó có nhiÅu đ¿i phân tử hoặc phân tử sinh hãc nh° protein và các axit nucleic Protein là nhÿng phân tử sinh hãc, hay đ¿i phân tử gãm nhiÅu axit amin

trong nhân tà bào M¿ng thiÃt lÁp mái liên kÃt chặt chÁ giÿa các gen trong mát

tà bào t°¢ng āng trong mát khoÁng thßi gian và biên đá xác đánh Thông th°ßng thì mát gen đ°āc quy đánh bái gen khác thông qua các protein t°¢ng āng (gãi

là yÃu tá phiên mã) Do đó viác điÅu hoà gen đ°āc phái hāp trong mát m¿ng điÅu hoà gen, mát m¿ng điÅu hòa gen là mát m¿ng phå biÃn nh¿t th°ßng đ°āc hiÇn thá bái nhiÅu cặp protein/gen ĐiÅu hoà gen là mát thuÁt ngÿ chung cho viác điÅu khiÇn tà bào cÿa quá trình tång hāp protein á b°ãc phiên mã Nó có thÇ đ°āc xem nh° là phÁn āng cÿa mát tà bào tr°ãc nhÿng kích thích tă bên trong

chúng gãm cÁ các liên kÃt có h°ãng và vô h°ãng M¿ng tín hiáu tà bào, thÇ hián quá trình truyÅn tín hiáu giao tiÃp trong mát tà bào đÇ điÅu phái phÁn āng cÿa nó vãi sā thay đåi cÿa môi tr°ßng Trong sá các m¿ng liên quan đÃn ung th°, m¿ng tín hiáu ung th° là mát lo¿i m¿ng không đãng nh¿t và cung c¿p dÿ liáu thông tin lãn nh¿t đÇ phân tích m¿ng vì chúng chāa cÁ các lo¿i t°¢ng tác

có h°ãng và vô h°ãng, thay vì chß có mát lo¿i t°¢ng tác nh° các lo¿i m¿ng khác [46, 47] NÃu không có dÿ liáu bå sung nào chẳng h¿n nh° dÿ liáu biÇu hián gen đ°āc tích hāp vào phân tích thì viác tính toán trên các m¿ng này th°ßng trÁ vÅ kÃt quÁ dā đoán chính xác h¢n các m¿ng khác [48]

1.3 Các ph°¢ng pháp và nghiên cāu liên quan dā đoán gen điÃu trß

b ánh dāa trên m¿ng phāc hÿp

Nhìn tă khía c¿nh đã thá và m¿ng l°ãi, dÿ liáu sinh hãc có thÇ đ°āc mô hình hóa thành các m¿ng phāc hāp Trong đó đßnh cÿa m¿ng đ¿i dián cho các thành phÁn sinh hãc nh° gen/protein hoặc các ch¿t chuyÇn hoá, các liên kÃt giÿa các đßnh biÇu thá cho mái quan há, sā Ánh h°áng và t°¢ng tác giÿa các

Trang 36

32

thāc thÇ trong m¿ng Vì vÁy, bài toán khai phá dÿ liáu đÇ dā đoán chāc năng sinh hãc cÿa gen/protein (dā đoán gen bánh) có thÇ đ°āc quy vÅ bài toán xÃp h¿ng đÇ dā đoán vai trò chāc năng cÿa các đßnh trên mát m¿ng phāc hāp Đây cũng là h°ãng tiÃp cÁn và nghiên cāu xuyên suát cÿa luÁn án

Có nhiÅu ph°¢ng pháp và mô hình tính toán xÃp h¿ng đÇ dā đoán vai trò chāc năng cÿa các đßnh trong mát m¿ng phāc hāp Sau đây luÁn án trình bày mát sá nghiên cāu liên quan điÇn hình:

Có nhiÅu ph°¢ng pháp và mô hình tính toán xÃp h¿ng đÇ dā đoán vai trò chāc năng cÿa các đßnh trong mát m¿ng phāc hāp, vÅ c¢ bÁn chia làm 2 nhóm: Nhóm thā nh¿t là nhóm các ph°¢ng pháp căc bá Nhóm ph°¢ng pháp này chß xem xét các gen gÁn vãi gen gây bánh đã đ°āc xác đánh, nh° các gen đ°āc kÃt nái trāc tiÃp hoặc sử dăng đ°ßng đi ngÃn nh¿t Nhóm thā hai là nhóm các ph°¢ng pháp tång thÇ [49] Nhóm này sử dăng các thuÁt toán lan truyÅn thông tin tă các gen gây bánh đã biÃt, thông qua há tháng m¿ng đÇ gán cho các gen āng viên các trãng sá đánh giá māc đá t°¢ng đãng vãi các gen gây bánh đã biÃt, tāc là māc đá liên quan vãi bánh đang đ°āc xem xét Sau đây luÁn án giãi thiáu mát sá ph°¢ng pháp điÇn hình trong hai nhóm này:

1.3.1 T huộc tính gần gũi của một đỉnh

Định nghĩa 1.2 Thuác tính gÁn gũi (Closeness) cÿa mát đßnh trong m¿ng

đ°āc tính bằng tång nghách đÁo khoÁng cách ngÃn nh¿t giÿa đßnh đó đÃn t¿t cÁ các đßnh khác trong m¿ng [50] và đ°āc tính bái công thāc (1.4)

1.3.2 T huộc tính gần gũi theo thứ bậc của đỉnh

Mặc dù thuÁt toán tính toán māc đá gÁn gũi cÿa mát đßnh đã đ°āc giãi thiáu á trên biÇu thá vá trí trung tâm mát đßnh nằm trong m¿ng, nh°ng nó không

rõ ràng bao gãm thông tin vÅ ph¿m vi cÿa các đßnh khác có thÇ bá Ánh h°áng bái đßnh đã xác đánh đ°āc VÅ v¿n đÅ này, Tran và cáng sā [12] đã đÅ xu¿t mát

Trang 37

33

thuác tính gÁn gũi má ráng và đ°āc gãi là thuác tính gÁn gũi theo thā bÁc (Hierarchical closeness)

Định nghĩa 1.3 Thuác tính gÁn gũi theo thā bÁc cÿa mát đßnh trong m¿ng

bằng tång thā bÁc và māc đá gÁn gũi cÿa đßnh đó [12] và đ°āc tính bái công thāc (1.5)

trong đó N R (v) þ [0, |V|-1] là thā bÁc cÿa đßnh v đ°āc đánh nghĩa bái

l°āng đßnh trong V có thÇ truy cÁp đ°āc tă v

Nghiên cāu [52] chß ra rằng māc đá thuác tính gÁn gũi theo thā bÁc tát h¢n các thuác tính khác cÿa đßnh trong viác dā đoán gen bánh H¢n nÿa, nghiên cāu chß ra rằng các gen có māc đá gÁn gũi theo thā bÁc cao có thÇ mã hóa các protein trong ch¿t ngo¿i bào và các protein thă thÇ trong m¿ng l°ãi tín hiáu cÿa con ng°ßi Đặc biát māc đá gÁn gũi theo thā bÁc cÿa đßnh đ°āc sử dăng đÇ xác đánh các gen đánh d¿u sinh hãc [13], cũng đã đ°āc báo cáo là măc tiêu điÅu trá ung th° trong m¿ng l°ãi tín hiáu ung th° [53]

1.3.3 T huộc tính trung tâm giữa của một đỉnh

Định nghĩa 1.4 Thuác tính trung tâm giÿa (Betweenness) cÿa mát đßnh

cho biÃt khÁ năng đo l°ßng cÿa mát đßnh trong viác giám sát giao tiÃp giÿa các đßnh khác trong m¿ng [54] và đ°āc tính bái công thāc (1.6)

ÿĀăā(ÿ) = ∑ �㔎Āā�㔎(ÿ)

Āā

Ą

Āā=1 Āā∈�㕉\{ă}

Ābā

(1.6)

trong đó, n là sá đßnh, σ st biÇu thá tång sá đ°ßng đi ngÃn nh¿t giÿa hai đßnh s và

t σ st (v ) biÇu thá sá đ°ßng đi ngÃn nh¿t giÿa s và t đi qua v Māc đá truyÅn thông giÿa s và t có thÇ đ°āc giám sát bái mát đßnh bên trong là v đ°āc ký hiáu là

khi đó ta thiÃt lÁp · st (v) = 0

Māc đá thuác tính trung tâm giÿa cÿa mát đßnh đã đ°āc sử dăng đÇ điÅu tra mái liên quan giÿa c¿u trúc và đá bÅn vÿng trong các m¿ng sinh hãc cÿa nguyên bào thÁn kinh đám cho các mô ung th° thÁn [55] Ngoài ra, các protein

có māc đá thuác tính trung tâm giÿa cao trong m¿ng l°ãi đ°ßng d¿n đ°āc đÅ xu¿t đÇ nhÃm tãi các gen đích tác đáng thuác [56]

Trang 38

34

1.3 4 Thuật toán bước nhảy ngẫu nhiên có quay lại

Mát trong các ph°¢ng pháp xÃp h¿ng gen điÇn hình dāa trên m¿ng có thÇ kÇ đÃn là thuÁt toán b°ãc nhÁy ng¿u nhiên có quay l¿i (RWR: Random Walk with Restart) [57] ThuÁt toán khai thác c¿u trúc tång thÇ cÿa m¿ng dāa trên hành vi cÿa mát chuyÇn đáng ng¿u nhiên trên mát m¿ng hay đã thá Theo hành vi này, mát thāc thÇ xu¿t phát tă mát đßnh khái đÁu sau đó di chuyÇn trên

đã thá bằng cách chuyÇn đÃn các đßnh lân cÁn mát cách ng¿u nhiên vãi xác su¿t

tỷ lá vãi trãng sá cÿa các c¿nh kÃt nái TÁp hāp các đßnh trong quá trình di chuyÇn là mát chußi Markov và đ°āc gãi là mát b°ãc ng¿u nhiên trên đã thá T¿i thßi điÇm b¿t kỳ trong quá trình di chuyÇn, thāc thÇ cũng có thÇ quay l¿i đßnh khái đÁu vãi mát xác su¿t nh¿t đánh đ°āc gãi là xác su¿t quay l¿i Khi đó luÁn án có thÇ coi đây là bài toán b°ãc ng¿u nhiên vãi các xác su¿t tiÅn nhiám Các đßnh đ°āc thăm nhiÅu h¢n đ°āc coi là có đá quan trãng lãn h¢n Đ¿i l°āng này đánh giá tÁm quan trãng t°¢ng đái (hay đá t°¢ng tā) cÿa các đßnh còn l¿i

so vãi tÁp các đßnh gác

ThuÁt toán b°ãc nhÁy ng¿u nhiên có quay l¿i là mát biÃn thÇ cÿa thuÁt toán b°ãc nhÁy ng¿u nhiên (Random walk) [57] ThuÁt toán b°ãc nhÁy ng¿u nhiên trên mát m¿ng hoặc đã thá đ°āc đánh nghĩa là mát quá trình di chuyÇn tă mát đßnh hián t¿i tãi mát đßnh lân cÁn ng¿u nhiên b¿t kỳ bÃt đÁu tă mát đßnh nguãn [57] T¿i thßi điÇm b¿t kỳ trong quá trình di chuyÇn, nó cho phép quay

l¿i (restart) các đßnh nguãn, còn gãi là các đßnh khái đÁu vãi mát xác su¿t (ý), còn gãi là xác su¿t quay l¿i (back-probability)

ThuÁt toán b°ãc nhÁy ng¿u nhiên không có điÅu kián hái tă do tính ng¿u nhiên cÿa quá trình Trong mát sá tr°ßng hāp, quá trình có thÇ d¿n đÃn hái tă, tāc là sau mát sá lãn b°ãc, vá trí cÿa b°ãc ng¿u nhiên hái tă vào mát vá trí că thÇ hoặc mát phân bá xác su¿t că thÇ Tuy nhiên, trong hÁu hÃt các tr°ßng hāp quá trình không hái tă và có thÇ không có điÅu kián hái tă că thÇ Vá trí cÿa b°ãc ng¿u nhiên có thÇ dao đáng không giãi h¿n hoặc lan toÁ ra mát khoÁng không gian ráng h¢n theo thßi gian Viác hái tă hoặc không hái tă cÿa thuÁt toán phă thuác vào cách xác đánh các b°ãc ng¿u nhiên và phân bá xác su¿t cÿa chúng

ThuÁt toán RWR có thÇ đ°āc mô tÁ nh° sau:

Cho mát đã thá liên thông có trãng sá G(V, E) vãi mát tÁp các đßnh ý =

{ÿ1, ÿ2, & , ÿĄ} và mát tÁp các liên kÃt ā = {(ÿÿ, ÿĀ)|ÿÿ, ÿĀ ∈ ý}, mát tÁp các

Trang 39

35

đßnh nguãn ÿ ⊆ ý và mát ma trÁn kÅ W kích th°ãc �㕁 × �㕁 Khi đó xác xu¿t

quay l¿i đ°āc xác đánh bằng công thāc (1.7)

Trong đó, Ăā là mát vector xác su¿t �㕁 × 1 cÿa |ý| đßnh t¿i thßi điÇm

b°ãc t (phÁn tử thā ÿ đ¿i dián cho b°ãc đi t¿i đßnh ÿÿ ∈ ý), và Ă0 là vector khái

t¿o �㕁 × 1 mà giá trá cÿa mßi phÁn tử t°¢ng āng vãi đßnh không phÁi đßnh

nguãn hoặc đßnh nguãn là 0 và 1 |ÿ|⁄ Trong tr°ßng hāp vãi đã thá không trãng

sá thì có thÇ dß dàng chuyÇn thành đã thá có trãng sá bằng cách gán mát trãng

sá tuỳ ý lên t¿t cÁ các t°¢ng tác Ma trÁn kÅ W đ°āc thÇ hián bằng mát ma trÁn

cát d¿ng chuẩn (þ)ÿĀ trong đó phÁn tử (i, j) cÿa W biÇu thá cho xác su¿t đÇ mát b°ãc đi t¿i ÿÿ di chuyÇn tãi ÿĀ trong khoÁng ý 6 {ÿÿ}

¯u điÇm chính cÿa ph°¢ng pháp b°ãc ng¿u nhiên là tác đá thāc hián nhanh, do đó có thÇ áp dăng cho các m¿ng có kích th°ãc lãn Khi áp dăng thuÁt toán này cho bài toán xÃp h¿ng gen bánh, các gen gây bánh đã biÃt đóng vai trò nh° các đßnh khái đÁu, các gen còn l¿i trên m¿ng đ°āc xem là các gen āng viên [57]

1.3 5 Thuật toán ORIENT

ThuÁt toán ORIENT [21] là mát thuÁt toán nhằm cÁi thián hiáu su¿t cÿa

thuÁt toán Random walk with restart (RWR) thông qua viác tăng c°ßng trãng

sá cÿa các t°¢ng tác lân cÁn vãi các gen bánh đã biÃt [21] Trong thuÁt toán ORIENT có hai há sá Ánh h°áng tãi hiáu su¿t cÿa ph°¢ng pháp, đó là xác su¿t quay l¿i đßnh nguãn (back-probability) và tß lá gia tăng trãng sá (weight-reinforcement rate) Xác su¿t quay l¿i đßnh nguãn (ý) là xác su¿t đÇ mát đßnh trên đã thá quay trá l¿i đßnh nguãn n¢i mà nó đã xu¿t phát, hay khi ý có mát giá trá t°¢ng đái lãn thì các đßnh trên đã thá có xu h°ãng th°ßng xuyên quay trá vÅ đßnh nguãn và các đßnh lân cÁn xung quanh đßnh nguãn đó đ°āc xÃp h¿ng cao h¢n [21] ThuÁt toán ORIENT đ¿t hiáu su¿t tát nh¿t khi xác su¿t quay l¿i đßnh nguãn ý có giá trá nhß nh¿t Nói cách khác, khi giá trá ý cao nó sÁ h¿n chà khÁ năng đi đÃn các đßnh lân cÁn á xa đßnh nguãn mà chß tÁp trung á các đßnh nằm gÁn đßnh nguãn [21] Mát há sá nÿa Ánh h°áng tãi hiáu su¿t cÿa ph°¢ng pháp

là tß lá gia tăng trãng sá (weight-reinforcement rate) ORIENT sÁ có hiáu su¿t tát nh¿t khi tß lá gia tăng trãng sá mang giá trá đÿ lãn

Trang 40

36

1.3 6 Thuật toán sử dụng xác xuất tiền nhiệm PRINCE

Mát cách tiÃp cÁn khác là sử dăng xác su¿t tiÅn nghiám PRINCE (Prioritization and Complex Elucidation) đ°āc phát triÇn bái Vanunu và cáng

sā [58] PRINCE sử dăng thuÁt toán lan truyÅn đÇ dā đoán gen bánh dāa vào thông tin tích hāp giÿa kiÇu hình bánh và m¿ng t°¢ng tác protein Ph°¢ng pháp này tính toán mái liên quan giÿa mát bánh và gen bánh đã biÃt vãi mát bánh khác dāa trên sā t°¢ng tā kiÇu hình giÿa hai bánh Gen liên quan tãi bánh sau

đó đ°āc sử dăng nh° xác su¿t tiÅn nghiám đÇ xây dāng chāc năng xÃp h¿ng

Ngoài ra, Duc-Hau Le và cáng sā [21] đã cÁi tiÃn ph°¢ng pháp RWR bằng cách tăng c°ßng trãng sá hàng xóm cÿa các gen gây bánh đã biÃt Cũng xu¿t phát tă ý t°áng sử dăng các xác su¿t tiÅn nghiám Chen và cáng sā [59]

đã sử dăng các thuÁt toán phå biÃn trong phân tích m¿ng xã hái và m¿ng web dùng đÇ đánh giá tÁm quan trãng t°¢ng đái cÿa đßnh nh° HITS with priors, PageRank with priors và K-step Markov cho bài toán xÃp h¿ng các gen āng viên trên các m¿ng t°¢ng tác protein

1.4 T ãng quan và m¿ng quy mô lán

1.4 1 Khái niệm mạng quy mô lớn

Định nghĩa 1.5 M¿ng phāc hāp quy mô lãn (Large-scale Complex

Network) là mát lo¿i m¿ng bao gãm vô sá đßnh và c¿nh, có tính ch¿t phāc t¿p

và t°¢ng tác m¿nh mÁ giÿa các thành phÁn [60]

M¿ng quy mô lãn th°ßng có sá l°āng kÃt nái không đãng đÅu giÿa các đßnh, mát sá đßnh trong m¿ng quy mô lãn có thÇ có nhiÅu kÃt nái h¢n so vãi các đßnh khác, trong khi mát sá khác có ít kÃt nái h¢n ĐiÅu này t¿o ra mát phân bá m¿ng không đãng đÅu theo phân phái luÁt lũy thăa (power-law distribution), các đßnh tÁp trung nhiÅu liên kÃt đ°āc gãi là "hub" và th°ßng có vai trò quan trãng trong viác truyÅn thông, liên kÃt các phÁn khác cÿa m¿ng Vì

sā không đãng đÅu trong phân bá kÃt nái, m¿ng quy mô lãn có khÁ năng cháng l¿i các tác đáng ng¿u nhiên hoặc có măc tiêu vào <hub= tát h¢n so vãi m¿ng th°ßng

M¿ng quy mô lãn th°ßng đ°āc sử dăng đÇ mô phßng và nghiên cāu các

há tháng phāc t¿p trong nhiÅu lĩnh vāc nh° m¿ng xã hái, m¿ng sinh hãc, m¿ng l°ãi đián, m¿ng giao thông và các m¿ng khác

1.4 2 Một số hướng nghiên cứu trên mạng quy mô lớn

Có mát sá h°ãng nghiên cāu điÇn hình trên m¿ng quy mô lãn gãm:

Ngày đăng: 27/07/2024, 19:14

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w