Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư.
Trang 1VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
DỤNG DỰ ĐOÁN GEN ĐIỀU TRỊ UNG THƯ
LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN
Hà Nội - 2024
Trang 2BỘ GIÁO DỤC
VÀ ĐÀO TẠO
VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
Phạm Đức Tĩnh
NGHIÊN CỨU PHÁT TRIỂN MÔ HÌNH ĐỘNG LỰC CẠNH TRANH TRONG MẠNG THÔNG TIN PHỨC HỢP VÀ ỨNG
DỤNG DỰ ĐOÁN GEN ĐIỀU TRỊ UNG THƯ
LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận án "Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư"
là công trình nghiên cứu của chính tôi, dưới sự hướng dẫn khoa học của tập thể hướng dẫn Luận án sử dụng thông tin trích dẫn từ nhiều nguồn tham khảo khác nhau và các thông tin trích dẫn được ghi rõ nguồn gốc Các kết quả nghiên cứu của tôi được công bố chung với các tác giả khác đã được sự đồng ý của đồng tác giả khi đưa vào luận án Các số liệu, kết quả được trình bày trong luận án là hoàn toàn trung thực và chưa từng được công bố trong bất kỳ một công trình nào khác ngoài các công trình công bố của tác giả Luận án được hoàn thành trong thời gian tôi làm nghiên cứu sinh tại Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam
Hà Nội, ngày 27 tháng 6 năm 2024
Tác giả luận án
Phạm Đức Tĩnh
Trang 4LỜI CẢM ƠN
Luận án Tiến sĩ “Nghiên cứu phát triển mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng dự đoán gen điều trị ung thư” được hoàn thiện bằng sự cố gắng của bản thân và sự giúp đỡ của tập thể hướng dẫn khoa học, Viện Công nghệ Thông tin, Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam, Trường Đại học Công nghiệp Hà Nội, và các Chuyên gia, các Nhà khoa học, đồng nghiệp, bạn bè, cũng như người thân trong gia đình
Trước tiên, NCS xin được bày tỏ lòng biết ơn chân thành đến tập thể hướng dẫn khoa học là TS Trần Tiến Dũng và TS Hoàng Đỗ Thanh Tùng Trong suốt thời gian làm nghiên cứu, NCS đã luôn nhận được những định hướng khoa học,
sự hướng dẫn tận tình và kinh nghiệm nghiên cứu khoa học của tập thể hướng dẫn
Tôi xin chân thành cảm ơn Viện Công nghệ Thông tin, Học viện Khoa học
và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam, đã tạo điều kiện thuận lợi cho tôi trong suốt quá trình làm nghiên cứu và thực hiện luận án
Tôi cũng xin chân thành cảm ơn Ban Lãnh đạo Trường Đại học Công nghiệp Hà Nội, Trung tâm Công nghệ Thông tin - Trường Đại học Công nghiệp
Hà Nội, đã quan tâm giúp đỡ tạo mọi điều kiện tốt nhất để tôi hoàn thành quá trình học tập và nghiên cứu của mình Tôi xin chân thành cảm ơn sự quan tâm, động viên và những đóng góp quý báu của quý đồng nghiệp và các Nhà khoa học
Cuối cùng, tôi xin cảm ơn sự động viên hết mình của mọi thành viên trong gia đình tôi, sự khuyến khích động viên của gia đình là động lực học để tôi hoàn thành luận án này
Hà Nội, ngày 27 tháng 6 năm 2024
Tác giả luận án
Phạm Đức Tĩnh
Trang 51
MỤC LỤC
MỤC LỤC 1
DANH MỤC CÁC KÝ HIỆU 4
DANH MỤC CÁC TỪ VIẾT TẮT 5
DANH MỤC CÁC BẢNG 7
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 8
DANH MỤC THUẬT TOÁN 8
MỞ ĐẦU 9
Chương 1 TỔNG QUAN VỀ XẾP HẠNG ĐỂ DỰ ĐOÁN GEN MỤC TIÊU ĐIỀU TRỊ UNG THƯ 13
1.1 Bài toán xếp hạng để dự đoán gen bệnh 13
1.2 Cơ sở lý thuyết 15
1.2.1 Lý thuyết đồ thị 16
1.2.2 Biểu diễn đồ thị trên máy tính 18
1.2.3 Mạng phức hợp 19
1.2.4 Dữ liệu và mô hình hoá dữ liệu mạng sinh học 29
1.3 Các phương pháp và nghiên cứu liên quan dự đoán gen điều trị bệnh dựa trên mạng phức hợp 31
1.3.1 Thuộc tính gần gũi của một đỉnh 32
1.3.2 Thuộc tính gần gũi theo thứ bậc của đỉnh 32
1.3.3 Thuộc tính trung tâm giữa của một đỉnh 33
1.3.4 Thuật toán bước nhảy ngẫu nhiên có quay lại 34
1.3.5 Thuật toán ORIENT 35
1.3.6 Thuật toán sử dụng xác xuất tiền nhiệm PRINCE 36
1.4 Tổng quan về mạng quy mô lớn 36
1.4.1 Khái niệm mạng quy mô lớn 36
1.4.2 Một số hướng nghiên cứu trên mạng quy mô lớn 36
1.5 Mô hình động lực mạng 38
1.6 Kết luận 40
Chương 2 MÔ HÌNH ĐỘNG LỰC CẠNH TRANH TRÊN MẠNG PHỨC HỢP ỨNG DỤNG TRONG DỰ ĐOÁN GEN ĐIỀU TRỊ UNG THƯ 41
Trang 62
2.1 Mô hình động lực cạnh tranh trên mạng phức hợp 41
2.2 Đề xuất mô hình động lực cạnh tranh ngoài trên mạng phức hợp 44
2.3 Xây dựng thuật toán của mô hình động lực cạnh tranh ngoài 47
2.3.1 Ý tưởng của thuật toán 47
2.3.2 Chức năng, đầu vào, đầu ra của thuật toán 48
2.3.3 Sơ đồ luồng và mã giả của thuật toán 48
2.4 Đánh giá độ phức tạp của thuật toán 52
2.5 Xây dựng hệ thống dự đoán gen điều trị ung thư sử dụng mô hình động lực học cạnh tranh ngoài 53
2.5.1 Bài toán dự đoán gen mục tiêu điều trị ung thư 54
2.5.2 Dữ liệu thực nghiệm 54
2.5.3 Sự tương quan giữa các phép đo 56
2.5.4 Mô hình tổng thể hệ thống chẩn đoán gen ung thư dựa trên mạng phức hợp 58
2.5.5 Kết quả dự đoán gen mục tiêu điều trị ung thư 60
2.5.6 So sánh kết quả dự đoán 64
2.6 Kết luận 66
Chương 3 TƯƠNG TÁC GIÁN TIẾP TRONG MÔ HÌNH ĐỘNG LỰC CẠNH TRANH NGOÀI VÀ ỨNG DỤNG DỰ ĐOÁN GEN ĐIỀU TRỊ UNG THƯ 67
3.1 Đề xuất mô hình tính toán tương tác gián tiếp động lực cạnh tranh ngoài 67
3.1.1 Mô hình tính toán tương tác trực tiếp động lực cạnh tranh ngoài 67
3.1.2 Đề xuất mô hình tính toán gián tiếp động lực cạnh tranh ngoài 68
3.2 Xây dựng thuật toán tính toán tương tác gián tiếp động lực cạnh tranh ngoài 69 3.2.1 Thuật toán tính toán ma trận khoảng cách 70
3.2.2 Thuật toán tính toán ma trận ảnh hưởng 72
3.2.3 Thuật toán tính tổng sự ảnh hưởng trên mỗi đỉnh mạng 75
3.3 Tính toán hiệu năng cao cho mô hình động lực cạnh tranh ngoài 76
3.3.1 Xây dựng thuật toán tính toán hiệu năng cao cho mô hình 76
3.3.2 Thiết kế công cụ phần mềm tính toán hiệu năng cao 78
3.3.3 Đánh giá tốc độ tính toán của thuật toán 79
3.4 Thực nghiệm 79
3.4.1 Dữ liệu thực nghiệm 80
Trang 73
3.4.2 Kiến trúc của mô hình dự đoán 81
3.4.3 Kết quả dự đoán gen mục tiêu điều trị ung thư 83
3.4.5 So sánh kết quả dự đoán với các nghiên cứu khác 87
3.5 Kết luận 90
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 91
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 93
THUỘC LUẬN ÁN 93
TÀI LIỆU THAM KHẢO 94
PHỤ LỤC 107
Trang 8A t Ma trận kề kết nối biến thiên theo thời gian giữa các đỉnh
tại thời điểm t
Số đường đi ngắn nhất đi qua v mà từ s đến t
G¯ = (V, E¯) Đồ thị phần bù của đồ thị G(V,E)
N(v); N v Tập các đỉnh lân cận của đỉnh v trong G
Deg Bậc ngoài lớn nhất của đỉnh trong mạng
X normR N-2 Trạng thái của các đỉnh bình thường trong mô hình động
lực cạnh tranh mạng G(V, E)
i
x Trạng thái hội tụ của đỉnh i
Trang 95
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết
BC Betweenness Thuộc tính trung tâm của một đỉnh trong
Giao diện lập trình ứng dụng (API) là cách
để hai hoặc nhiều chương trình máy tính giao tiếp với nhau
để phân tích tính toán và mô hình hóa mạng lưới gen/protein và mạng trao đổi chất
sở dữ liệu chính bao gồm GenBank cho trình tự DNA và PubMed
Trang 10vì chức năng của chúng có xu hướng được điều chỉnh PPI bất thường có thể là nền tảng của nhiều bệnh liên quan
RNA Ribonucleic Acid
Là một chuỗi đơn gồm những Ribonucleotide RNA có chức năng mang thông điệp di truyền từ DNA đến vị trí tổng hợp protein và giúp cơ thể tổng hợp protein
CPU Central Processing
Unit
Bộ vi xử lý đơn lõi
Trang 117
DANH MỤC CÁC BẢNG
Bảng 2.1 Kết quả dự đoán gen mục tiêu điều trị ung thư bởi mô hình động lực cạnh tranh
ngoài 61
Bảng 2.2 Bảng minh chứng gen mục tiêu điều trị ung thư 62
Bảng 2.3: Kết quả so sánh giữa hai mô hình khác nhau trên cùng bộ dữ liệu 65
Bảng 3.1: Ví dụ về ma trận khoảng cách 72
Bảng 3.2: Ví dụ về ma trận ảnh hưởng 73
Bảng 3.3: Năng lực tính toán song song bởi Drivergen.net 79
Bảng 3.4: Xác định gen mục tiêu thuốc ung thư trên 3 mạng lớn 85
Bảng 3.5: Xác định lõi k-core và r-core 87
Bảng 3.6: Kết quả dự đoán trên 2 mô hình cạnh tranh ngoài đề xuất 87
Bảng 3.7: So sánh kết quả dự đoán giữa các nghiên cứu độc lập 88
Trang 128
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Bức tranh tổng quan dự đoán gen mục tiêu điều trị ung thư trên các mạng sinh học.
13
Hình 1.2: Một số hình ảnh về mạng phức hợp 20
Hình 1.3: Ví dụ về mô hình mạng small-world 21
Hình 1.4: Mạng trao đổi chất của sinh vật đặc trưng scale-free [32] 23
Hình 1.5: Một ví dụ về phân tách lõi [13] 27
Hình 1.6: Phân cụm mạng dựa trên khoảng cách [38] 28
Hình 2.1: Một ví dụ về mô hình động lực cạnh tranh trong trên mạng phức hợp [73] 41
Hình 2.2 Một ví dụ về mô hình động lực cạnh tranh ngoài 45
Hình 2.3 Sơ đồ khối thuật toán mô hình động lực cạnh tranh ngoài 50
Hình 2.4: Ví dụ về mạng tín hiệu ung thư bàng quang [86] 55
Hình 2.5: Sự tương quan phép đo gần gũi với tổng sự ảnh hưởng 57
Hình 2.6: Mô hình tổng thể xác định gen mục tiêu điều trị ung thư 59
Hình 3.1 Hiệu suất tính toán của Drivergene.net 79
Hình 3.2: Kiến trúc của mô hình dự đoán gen mục tiêu điều trị ung thư trên mạng lớn 81
Hình 3.3: So sánh kết dự đoán với các nghiên cứu trước 89
DANH MỤC THUẬT TOÁN Thuật toán 2.1 Thuật toán của mô hình động lực cạnh tranh ngoài 50
Thuật toán 3.1: Thuật toán tính toán ma trận khoảng cách 70
Thuật toán 3.2: Thuật toán tính toán ma trận ảnh hưởng 73
Thuật toán 3.3: Thuật toán tính toán tổng sự ảnh hưởng của các đỉnh đến mỗi đỉnh mạng trong mô hình động lực cạnh tranh ngoài cải tiến 75
Thuật toán 3.4: Thuật toán tính toán song song 77
Trang 139
MỞ ĐẦU
1 Tình hình thực tiễn
Ung thư là tên gọi chung cho hơn 200 loại bệnh có liên quan và có tỷ lệ
tử vong cao, chỉ đứng sau các bệnh về tim mạch Điều trị bệnh nhân ung thư rất phức tạp và tốn kém, mức độ tiên lượng thấp (mức độ sống sót sau một khoảng thời gian, thường là 5 năm), phát hiện bệnh thường ở giai đoạn muộn Nguyên nhân của ung thư được cho là từ đột biến gen gây ra Tuy nhiên không phải gen nào đột biến cũng gây ra ung thư, chỉ có một số gen đột biến được xác định là nguyên nhân gây ung thư [1] Dựa vào đặc điểm, cơ chế hoạt động và chức năng của một số gen, người ta gọi đó là gen điều khiển (tạm gọi là đỉnh điều khiển trong mạng sinh học) ung thư, và cũng thường là mục tiêu điều trị ung thư [2]
Hiện nay việc xác định các gen đột biến gây ra bệnh (bệnh nói chung và bệnh ung thư nói riêng) hay còn được gọi là gen bệnh ở các cơ sở y tế được thực hiện chủ yếu bằng các thực nghiệm xét nghiệm sinh học lâm sàng trên các mẫu bệnh phẩm [3] Công việc này thường được thực hiện thủ công trong phòng thí nghiệm cho hàng nghìn gen ứng viên nằm trên một vùng nhiễm sắc thể khả nghi từ mẫu bệnh và cho độ chính xác cao nhưng đòi hỏi nhiều thời gian và chi phí [4] Để giảm khối lượng mẫu cho việc thực nghiệm lâm sàng, các hướng tiếp cận công nghệ đã được giới thiệu Cụ thể như cách tiếp cận theo thống kê dựa trên sự tương đồng về đột biến gen [5], cách tiếp cận học máy bao gồm cả học sâu dựa trên dữ liệu tập mẫu các gen đột biến hay tập mẫu chữ ký gen liên quan đến bệnh đã biết [6, 7] Các phương pháp thống kê dựa trên sự tương đồng đột biến tập trung vào việc đánh giá các đột biến và sự tương đồng của chúng để xác định các gen mục tiêu của thuốc chống ung thư DrGaP là một công cụ linh hoạt xác định các gen mục tiêu của thuốc chống ung thư và kiểm soát các con đường tín hiệu trong các bộ giải trình tự gen [10] OncodriveCLUST là một phương pháp khác xác định các gen mục tiêu bằng cách đánh giá các đột biến không mã hóa từ các đột biến soma [11] OncoVar
sử dụng các thuật toán tin sinh học đã biết để xác định các gen mục tiêu dựa trên tiềm năng gây ung thư của các đột biến soma và các gen ung thư [12] Một hạn chế của phương pháp này xuất hiện khi các gen bệnh đã biết và chưa biết
có mối quan hệ gián tiếp hoặc chức năng tương tự, dẫn đến việc gán chức năng sai và ảnh hưởng đến kết quả dự đoán [13, 14] Các phương pháp dựa trên học
Trang 1410
máy bao gồm cả học sâu đều cần một tập mẫu lớn rõ các gen ung thư đã biết, các đặc trưng trên tập mẫu rõ có thể được trích xuất và gán nhãn làm đầu vào của quá trình học, để xác định các gen trên tập kiểm tra Ví dụ về các công cụ như vậy bao gồm DriverML, công cụ lượng hóa các tác động chức năng của các đột biến lên protein để xác định các gen mục tiêu [6] EARN (Ensemble of Artificial Neural Network, Random Forest, and non-linear Support Vector Machine) sử dụng học máy để đánh giá các gen mục tiêu của thuốc chống ung thư trong di căn vú [7] Một công cụ khác gọi là PCDG-Pred phân biệt các thuộc tính của các gen mục tiêu của thuốc chống ung thư từ các thuộc tính (hành khách) sử dụng dữ liệu giải trình tự gen và mô hình học máy [8] Hiệu quả của hướng nghiên cứu này phụ thuộc nhiều vào dữ liệu tập mẫu rõ và cả
mô hình học Trong khi việc xác định tập các gen mà đột biến của chúng có liên quan đến bệnh cho việc xây dựng tập mẫu vẫn còn là một thách thức [10] Tuy vậy, hướng nghiên cứu học máy bao gồm cả học sâu đang có những phát triển vượt trội trong những năm gần đây, hỗ trợ quan trọng trong việc giảm số lượng mẫu trong thực nghiệm lâm sàng [6, 7]
Dữ liệu sinh học ở người được cho là gồm khoảng 22.000-25.000 gen và tồn tại trong trạng thái “động”, chúng tồn tại trong sự tương tác lẫn nhau như kích hoạt, ức chế, trao đổi chất, tuyền tín hiệu và kiểm soát lẫn nhau [11] Do
đó nhìn từ góc độ đồ thị và mạng lưới, dữ liệu sinh học có thể được mô hình hóa thành các mạng phức hợp, mà ở đó các đỉnh được hiểu là các gen hoặc sản phẩm của gen (protein), liên kết thể hiện sự tương tác giữa chúng [11] Vì vậy, việc khai phá dữ liệu sinh học có thể được quy về bài toán khai phá dữ liệu trên mạng phức hợp Từ quan điểm đó, gần đây cách tiếp cận mới theo hướng mạng lưới trong việc dự đoán gen mục tiêu điều trị ung thư đã được giới thiệu và đang nhận được sự quan tâm [12] Cách tiếp cận này thường dẫn đến việc đề xuất các mô hình tính toán trên mạng [13], các mô hình tính toán này thường đưa ra một bảng xếp hạng các đỉnh (gen) theo một thuộc tính nào đó và các đỉnh có thứ hạng cao được cho là quan trọng và có thể liên quan đến mục tiêu
dự đoán [13] Sau khi xếp hạng, một số lượng nhỏ các đỉnh (gen/protein) có thứ hạng cao sẽ được đưa vào thực nghiệm lâm sàng, hoặc tìm kiếm minh chứng, để khẳng định chức năng của gen có liên quan đến bệnh hay không
Các tiến bộ gần đây trong lĩnh vực gen, protein và sức mạnh của máy tính đã mở ra một cơ hội mới cho các nhà khoa học dữ liệu, khoa học mạng
Trang 1511
lưới, nghiên cứu, đề xuất và thử nghiệm các thuật toán, mô hình tính toán mới trên các mạng sinh học, để khai phá các dữ liệu mạng sinh học tìm gen mục tiêu điều trị bệnh nói chung và ung thư nói riêng [14] Hiện tại đã có một số kết quả nghiên cứu đáng khích lệ nhưng còn nhiều thách thức và cần tiếp tục được nghiên cứu thêm [15] Cụ thể như, hiệu suất dự đoán còn khiêm tốn và cần tiếp tục được cải thiện, mạng sinh học được cho là động [16], với thời gian tính toán lớn, vì vậy các mô hình tính toán trên mạng tĩnh và tuần tự có thể chưa hiệu quả
Từ những phân tích trên, luận án chọn đề tài “Nghiên cứu phát triển
mô hình động lực cạnh tranh trong mạng thông tin phức hợp và ứng dụng
dự đoán gen điều trị ung thư” để thực hiện các nhiệm vụ của đề tài, luận án
2 Mục tiêu nghiên cứu của luận án
Mục tiêu nghiên cứu của luận án là nghiên cứu và phát triển các mô hình động lực cạnh tranh trên các mạng thông tin phức hợp, xác định thành phần điều khiển mạng, ứng dụng trên các mạng sinh học dự đoán gen mục tiêu điều trị ung thư
3 Nội dung nghiên cứu
- Tìm hiểu bài toán xếp hạng để dự đoán gen bệnh
- Khảo cứu các phương pháp xếp hạng gen liên quan
- Hệ thống hoá các kiến thức cơ bản về lý thuyết đồ thị và mạng phức hợp
- Thu thập và mô hình hoá dữ liệu mạng sinh học
- Nghiên cứu các mô hình tính toán và thuật toán xếp hạng đỉnh
- Nghiên cứu và phát triển mô hình động lực cạnh tranh mạng, ứng dụng
dự đoán gen mục tiêu điều trị ung thư
4 Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Mô hình động lực cạnh tranh trên mạng thông tin phức hợp mạng, gen mục tiêu điều trị ung thư trên mạng sinh học
- Phạm vi nghiên cứu thực nghiệm: 17 mạng tín hiệu ung thư được tải từ
cơ sở dữ liệu KEGG và 03 bộ dữ liệu mạng sinh học quy mô lớn khác nhau
5 Phương pháp nghiên cứu
Luận án sử dụng các phương pháp tổng hợp lý thuyết, phân tích, đánh giá các nghiên cứu liên quan Từ đó tiến hành thu thập và mô hình hóa dữ liệu,
đề xuất mô hình tính toán và tiến hành thực nghiệm
Trang 16dự đoán gen điều trị ung thư;
- Đề xuất một mô hình động lực cạnh tranh ngoài cải tiến với khả năng
xử lý tương tác gián tiếp giữa các đỉnh mô hình mạng phức hợp, giúp nâng cao khả năng dự đoán gen mục tiêu điều trị ung thư, đặc biệt trên các mạng sinh học có kích thước lớn
7 Bố cục của luận án
Sau phần mở đầu, luận án được bố cục gồm 4 phần:
- Chương 1 Tổng quan về xếp hạng để dự đoán gen bệnh
Nội dung Chương trình bày tổng quan về bài toán xếp hạng để dự đoán gen điều khiển mà cũng là gen mục tiêu điều trị ung thư Tiếp theo là các kiến thức cơ bản về lý thuyết đồ thị và mạng phức hợp Cuối cùng, luận án trình bày các nghiên cứu liên quan và đề ra nội dung luận án cần giải quyết;
- Chương 2 Mô hình động lực cạnh tranh ngoài trên mạng phức hợp, ứng dụng trong dự đoán gen mục tiêu điều trị ung thư
Nội dung Chương đề xuất một mô hình động lực mạng mới trên các mạng phức hợp, gọi là mô hình động lực học cạnh tranh ngoài Mô hình thể hiện sự cạnh tranh giữa một tác nhân (đỉnh) trong mạng và một tác nhân đối thủ cạnh tranh bên ngoài mạng Cuối cùng, ứng dụng mô hình vào dự đoán gen mục tiêu điều trị ung thư trên 17 mạng bệnh tín hiệu ung thư
- Chương 3 Tương tác gián tiếp trong mô hình động lực cạnh tranh ngoài, ứng dụng nâng cao hiệu quả dự đoán gen mục tiêu điều trị ung thư
Nội dung Chương đề xuất một mô hình động lực cạnh tranh ngoài cải tiến, mô hình xem xét tất cả các tương tác trực tiếp và gián tiếp từ các đỉnh đến mỗi đỉnh trong mạng Ngoài ra, luận án thiết kế thuật toán của mô hình theo hướng tính toán hiệu năng cao để đảm bảo năng lực thực thi trên các mạng quy
mô lớn Áp dụng dự đoán các gen mục tiêu điều trị ung thư cho nhiều loại ung thư khác nhau
- Kết luận và hướng phát triển
Trang 1713
Chương 1 TỔNG QUAN VỀ XẾP HẠNG ĐỂ DỰ ĐOÁN GEN
MỤC TIÊU ĐIỀU TRỊ UNG THƯ
1.1 Bài toán xếp hạng để dự đoán gen bệnh
Gen là một đoạn xác định của phân tử axit nuclêic (DNA (Deoxyribonucleic Acid) hoặc RNA (Ribonucleic Acid)) có chức năng di truyền nhất định Gen có thể thu nạp các đột biến sinh học nằm trong trình tự của chúng, dẫn đến những đột biến, biến thể Đột biến gen có thể xuất hiện trong quá trình phiên mã tự nhiên hoặc chịu sự tác động của các yếu tố bên ngoài Gen bị đột biến có thể gây ra một bệnh nào đó ở người [17] Thuốc được thiết kế nhắm đến các gen đột biến liên quan đến bệnh, có thể làm nhiễu loạn bản sao hoặc ức chế khả năng đột biến của chúng, từng bước kìm hãm sự tiến triển của bệnh, khôi phục chức năng của gen về trạng thái khỏe mạnh [2, 17]
Việc xác định một gen mà đột biến của nó liên quan đến một bệnh nào
đó có ý nghĩa quan trọng trong quy trình phát triển thuốc và điều trị bệnh [13] Bài toán đặt ra là làm thế nào để giảm bớt thời gian và chi phí, đồng thời vẫn đảm bảo được độ chính xác trong việc dự đoán các gen gây bệnh ? Để giải
Hình 1.1: Bức tranh tổng quan dự đoán gen mục tiêu điều trị ung thư trên
các mạng sinh học
(a) hướng tiếp cận thống kê, (b) hướng tiếp cận học máy, (c) hướng tiếp cận dựa trên mạng, (d) thực nghiệm lâm sàng
Trang 1814
quyết vấn đề đó, cách tiếp cận theo hướng mạng lưới đã được giới thiệu, cách tiếp cận này được tiến hành dựa trên việc quan sát thấy rằng các gen liên quan đến cùng một bệnh hoặc những bệnh tương tự thường có xu hướng nằm gần nhau trong cấu trúc tương tác của mạng sinh học [13] Cách tiếp cận mạng sử dụng các mô hình tính toán trên mạng để sắp xếp các gen, sao cho các gen có khả năng liên quan nhiều nhất đến bệnh được xếp hạng cao hơn Sau khi xếp hạng, một nhóm nhỏ các gen (một vài gen) có thứ hạng cao sẽ được kiểm tra bằng thực nghiệm, để khẳng định xem các gen này có phải là gen gây bệnh hay không [18]
Để sử dụng được các kỹ thuật xếp hạng gen theo hướng mạng lưới, cần phải có dữ liệu mạng sinh học và các thuật toán, mô hình tính toán để phân tích
Có nhiều nghiên cứu đã sử dụng các thuật toán, mô hình tính toán xếp hạng các đỉnh trong mạng xã hội ứng dụng trong xếp hạng các mạng sinh học, do tính tương đồng về cấu trúc của mạng sinh học với các mạng xã hội [19] Các thuật toán xếp hạng gen dựa trên mạng đã được phát triển để khai phá chức năng các phân tử sinh học và các liên kết quan trọng giữa chúng [13] Các nhà khoa học
dữ liệu và tin sinh học thường áp dụng xếp hạng tương tác gen/protein dựa trên
bộ gen để phục vụ cho các thực nghiệm tiếp sau
Gần đây, trong nước có một số nhóm nghiên cứu đã có những công bố liên quan đến hướng nghiên cứu này, như nhóm của TS Trần Tiến Dũng ở Trường Đại học Công nghiệp Hà Nội, với một số công bố về dự đoán gen bệnh
và gen chỉ dấu ung thư dựa trên việc xếp hạng đỉnh theo thuộc tính mức độ gần gũi theo thứ bậc [12, 20] Nhóm nghiên cứu của PGS.TS Lê Đức Hậu ở Trường Đại học Thủy lợi, với một số công bố về dự đoán gen bệnh dựa trên xếp hạng gen theo thuộc tính của đỉnh được xác định bởi thuật toán bước nhảy ngẫu nhiên
và bước nhảy ngẫu nhiên có quay lại (RWR), nhóm đã cải tiến phương pháp RWR bằng cách tăng cường trọng số hàng xóm của các gen gây bệnh đã biết [21], hay sử dụng mô hình mạng Boolean Network với thử nghiệm dự đoán được 27 gene có liên quan đến bệnh ung thư vú [18] Nhóm nghiên cứu của PGS.TS Trần Đăng Hưng và TS Nguyễn Văn Tỉnh ở Trường Đại học Sư phạm
Hà Nội, với một số công bố về dự đoán mối liên quan giữa miRNA và bệnh bằng cách sử dụng thuật toán bước nhảy ngẫu nhiên có quay lại và tích hợp nhiều điểm tương đồng [22], hay sử dụng thuật toán lọc cộng tác và phân bổ nguồn lực trên biểu đồ ba bên miRNA-bệnh-lncRNA [23] Chi tiết nội dung
Trang 1915
của hai công bố này cũng đã được thể hiện và bảo vệ thành công trong bản luận
án tiến sĩ của TS Nguyễn Văn Tỉnh năm 2023 tại Trường Đại học Sư phạm Hà Nội
Các phương pháp xếp hạng gen/protein dựa trên mạng phức hợp nhìn chung đã được chứng minh là có độ chính xác cao, nhờ vào việc tích hợp các mối quan hệ liên kết gen đã được chú thích từ các tập nguồn toàn diện vào cơ
sở tri thức, như cơ sở dữ liệu STRING [24] và cơ sở dữ liệu HAPPYI 2.0 [25]
Ví dụ về các ứng dụng xếp hạng gen dựa trên mạng bao gồm khám phá các gen bệnh cho các trật tự di truyền phức tạp của người [26], tìm mục tiêu và định vị lại thuốc [27] Sau đây, luận án phát biểu bài toán xếp hạng để dự đoán gen mục tiêu điều trị ung thư:
- Phát biểu bài toán: Cho một mạng sinh học gồm các gen/protein được cho là có liên quan đến bệnh, các đỉnh biểu thị các gen/protein và các cạnh thể hiện sự tương tác giữa chúng Dự đoán các gen/protein (đỉnh) mà đột biến của chúng có liên quan đến sự phát triển một bệnh nào đó ở người và là mục tiêu tác động của thuốc điều trị;
- Đầu vào: Cho trước một mạng sinh học G = (V, E), với V là tập đỉnh
(các phân tử sinh học như gen/protein) (𝑉 = {𝑣1, 𝑣2, … , 𝑣𝑛} E là tập cạnh
(tương tác giữa các phần tử sinh học) (𝐸 = {(𝑣𝑖, 𝑣𝑗)|𝑣𝑖, 𝑣𝑗 ∈ 𝑉, 𝑖, 𝑗 = 1, , 𝑛});
- Đầu ra: Một mối quan hệ S(V, F), trong đó V là tập đỉnh; FR* cho
biết khả năng đột biến của gen v gây ra ung thư và là mục tiêu điều trị
Các báo cáo trước đây đã đề cập, xếp hạng theo mức độ thuộc tính gần gũi và thuộc tính gần gũi theo thứ bậc của một đỉnh so với các đỉnh khác trong mạng được sử dụng để xếp hạng các gen bệnh [12, 13] Trong đó thuộc tính các
phép đo này coi là thuộc tính F của quan hệ đầu ra S(V, F)
1.2 Cơ sở lý thuyết
Cấu trúc mạng sinh học đề cập đến các vấn đề của mối quan hệ phức tạp giữa các thành phần sinh học như gen/protein và các sản phẩm của tế bào Vì vậy, việc khai phá dữ liệu sinh học có thể được quy về bài toán khai phá dữ liệu trên các mạng phức hợp Việc này có thể được thực hiện bằng các mô hình tính toán và thuật toán trên mạng Để làm được điều đó, người ta thường biểu diễn chúng dưới dạng một đồ thị và sử dụng các kỹ thuật tính toán trên đồ thị và mạng phức hợp để giải quyết Sau đây luận án trình bày một số kiến thức cơ
Trang 2016
bản về lý thuyết đồ thị và mạng phức hợp, làm cơ sở cho việc đề xuất các mô hình tính toán và thuật toán cho việc giải quyết bài toán đặt ra
1.2.1 Lý thuyết đồ thị
Đồ thị là một công cụ mô hình hóa quan hệ giữa các đối tượng trong một
hệ thống, ở đó mỗi đối tượng là một đỉnh và quan hệ giữa chúng được hiểu là cạnh liên kết chúng Trong phân tích mạng phức hợp, đồ thị được sử dụng để biểu diễn mạng phức hợp, trong đó các đỉnh đại diện cho các đơn vị trong hệ thống và các cạnh đại diện cho các liên kết giữa chúng Sau đây luận án trình bày một số khái niệm cơ bản về đồ thị:
- Đỉnh là các thành phần của hệ thống được biểu diễn bởi các điểm trên
đồ thị;
- Cạnh là thành phần liên kết giữa các đỉnh được biểu diễn bởi các đường nối trên đồ thị Các cạnh có thể được đánh số hoặc không (trọng số cạnh);
- Đường đi là một chuỗi các đỉnh kết nối với nhau bởi các cạnh Đường
đi độ dài n từ đỉnh u đến đỉnh v, trong đó n là số nguyên dương Trên đồ thị vô hướng G = (V, E) là dãy x0 , x 1 ,…, x n-1 , x n; trong đó u = x0 , v = x n , (x i , x i+1 ) E,
i = 0, 1, 2,…, n-1 Đường đi nói trên còn có thể biểu diễn dưới dạng dãy các
cạnh: (x0 , x 1 ), (x 1 , x 2 ), …, (x n-1 , x n ) Đỉnh u gọi là đỉnh đầu, còn đỉnh v gọi là
đỉnh cuối của đường đi Đường đi có đỉnh đầu trùng với đỉnh cuối (tức là u =
v) được gọi là chu trình Đường đi hay chu trình được gọi là đơn nếu như không
gọi là đỉnh phát, đỉnh có deg−(v) =0 là đỉnh thu;
- Đồ thị vô hướng là đồ thị trong đó E là tập các cặp không thứ tự chứa
các đỉnh phân biệt Hai đỉnh thuộc một cạnh được gọi là các đỉnh đầu cuối của
cạnh đó Như vậy, trong đồ thị vô hướng, nếu (vi , v j ) ∈ E thì (v j , v i ) ∈ E và (v j ,
v i ) ≡ (v i , v j ) Đơn đồ thị vô hướng là mọi cặp đỉnh chỉ có duy nhất một cạnh nối
Trang 2117
chúng Đa đồ thị vô hướng là mọi cặp đỉnh có thể có nhiều hơn một cạnh nối
giữa chúng;
- Giả đồ thị vô hướng G = (V, E) bao gồm V là tập các đỉnh khác rỗng
và E là tập các cặp không có thứ tự gồm hai phần tử (không nhất thiết phải khác nhau) của V gọi là cạnh Với v V, nếu (v, v) E thì ta nói có một khuyên tại
đỉnh v Giả đồ thị là loại đồ thị vô hướng tổng quát nhất vì nó có thể chứa các
khuyên và các cạnh lặp Đa đồ thị là loại đồ thị vô hướng có thể chứa cạnh bội nhưng không thể có các khuyên, còn đơn đồ thị là loại đồ thị vô hướng không chứa cạnh bội hoặc các khuyên;
- Đồ thị có hướng là đồ thị có các cạnh có hướng, có thể có cạnh nối từ
u đến v nhưng chưa hẳn đã có cạnh nối từ v đến u Hay nói cách khác, tập E
gồm các cặp (u, v) có tính thứ tự, (u, v) ≠ (v, u) Trong đồ thị có hướng các cạnh
được gọi là các cung Đồ thị vô hướng cũng có thể coi là đồ thị có hướng nếu
coi cạnh nối giữa hai đỉnh u, v tương đương với hai cung (u, v) và (v, u) Đơn
đồ thị có hướng là mọi cặp đỉnh chỉ có duy nhất một cung nối chúng Đa đồ thị
có hướng là mọi cặp đỉnh có thể có nhiều hơn một cung nối giữa chúng;
- Đồ thị liên thông: Đồ thị vô hướng G = (V, E) được gọi là liên thông
nếu luôn tìm được đường đi giữa hai đỉnh bất kỳ của nó;
- Đồ thị con của đồ thị G = (V, E) là đồ thị H = (W, F), trong đó WV
và FE Trong trường hợp đồ thị là không liên thông, nó sẽ rã ra thành một số
đồ thị con liên thông không có đỉnh chung Những đồ thị con liên thông như vậy ta sẽ gọi là các thành phần liên thông của đồ thị;
- Đỉnh v được gọi là đỉnh rẽ nhánh nếu việc loại bỏ v cùng với các cạnh
liên thuộc với nó khỏi đồ thị làm tăng số thành phần liên thông của đồ thị;
- Cạnh e được gọi là cầu nếu việc loại bỏ nó khỏi đồ thị làm tăng số thành phần liên thông của đồ thị;
- Đồ thị liên thông mạnh: Đồ thị có hướng G = (V, A) được gọi là liên
thông mạnh nếu luôn tìm được đường đi giữa hai đỉnh bất kỳ của nó;
- Đồ thị liên thông yếu: Đồ thị có hướng G = (V, A) được gọi là liên
thông yếu nếu đồ thị vô hướng tương ứng với nó là vô hướng liên thông;
- Đồ thị đầy đủ: Đồ thị đầy đủ n đỉnh, ký hiệu là Kn, là đơn đồ thị mà hai đỉnh phân biệt bất kỳ của nó luôn liền kề Như vậy, Kn có n(n - 1)/2 cạnh và mỗi đỉnh của Kn có bậc là n-1
Trang 2218
1.2.2 Biểu diễn đồ thị trên máy tính
1.2.2.1 Ma trận kề
Dữ liệu đồ thị có thể được mã hoá dưới dạng một ma trận kề
Xét đơn đồ thị có hướng G=(V, E), ma trận A={ai, j : i, j=1, 2, ,n} với
a i, j =0, nếu (i, j) E và a i, j =1, nếu (i, j) E, i, j=1, 2, .,n gọi là ma trận kề
của đồ thị G
Tính chất của ma trận kề của đồ thị vô hướng:
- Tính đối xứng: a[i, j]=a[j, i], i, j=1,2, .,n;
i, j=1, 2, .,n} với c[i, j]= c(i, j) nếu (i, j) E và c[i, j]= nếu (i, j) E trong
đó số có thể được đặt bằng một trong các giá trị sau: 0, +, -
Ưu điểm lớn nhất của phương pháp biểu diễn đồ thị bằng ma trận kề
(hoặc ma trận trọng số) là để trả lời câu hỏi là hai đỉnh u, v có kề nhau trên đồ
thị hay không, luận án chỉ phải thực hiện một phép so sánh Nhược điểm lớn nhất của phương pháp này là không phụ thuộc vào số cạnh của đồ thị, ta luôn
phải sử dụng n 2 đơn vị bộ nhớ để lưu trữ ma trận kề của nó
1.2.2.3 Danh sách cạnh (cung)
Trong trường hợp đồ thị thưa (đồ thị có số cạnh m thoả mãn bất đẳng thức: m<6n) ta có thể biểu diễn đồ thị dưới dạng danh sách cạnh, ví dụ, một cạnh (cung) e=(x,y) của đồ thị tương ứng với hai biến Dau[e], Cuoi[e] Để lưu trữ đồ thị ta cần sử dụng 2m đơn vị bộ nhớ
Nhược điểm: để tìm các đỉnh kề với một đỉnh cho trước, ta phải làm m
phép so sánh (khi duyệt qua danh sách tất cả các cạnh của đồ thị) Trong trường
hợp đồ thị có trọng số, ta cần thêm m đơn vị bộ nhớ để lưu trữ trọng số của các
cạnh
Với danh sách kề Với mỗi đỉnh v, ta lưu trữ danh sách các đỉnh kề với v: Ke(v)={u V: (v,u) E}
Trang 2319
1.2.3 Mạng phức hợp
Định nghĩa 1.1 Mạng phức hợp là đồ thị (mạng) có cấu trúc, đặc trưng
và tính chất phức tạp mô hình hóa các hệ thống thực, việc phân tích các thành phần mạng bởi các mô hình tính toán có thể tìm ra các tri thức, quy luật vận động của một hệ thống [28]
Ví dụ, ta có khái niệm mạng xã hội: Mạng xã hội là nơi thể hiện mối quan hệ giữa con người với nhau, mỗi người có thể coi là một đỉnh và hai đỉnh được kết nối bằng một liên kết nếu họ có quan hệ với nhau Ví dụ mối quan hệ giữa các thành viên trong một gia đình sẽ xây dựng mạng lưới xã hội của gia đình Mỗi người trong gia đình là một đỉnh của mạng lưới và mỗi mối quan hệ
là một mắt xích Nếu ta thay mỗi người cho một trang web và các mối quan hệ cho các siêu liên kết, ta có mạng World Wide Web Tương tự, đối với các sân bay và các chuyến bay khác nhau kết nối chúng, hoặc các tế bào thần kinh và
sự tương tác giữa chúng Ta có thể phân loại các mạng phức hợp theo các khía cạnh khác nhau như sau:
- Phân loại theo kết nối giữa các đỉnh: mạng có hướng, vô hướng, hỗ hợp, đồng nhất, không đồng nhất.Ví dụ trong một mạng lưới thức ăn, các đỉnh tương ứng với các loài khác nhau và các liên kết kết nối chúng nếu chúng là động vật ăn thịt và con mồi Chẳng hạn, một con thỏ ăn cỏ nhưng điều ngược lại không xảy ra (mạng có hướng);
- Phân loại theo đặc trưng kiến trúc mạng, ví dụ như sự phân bố bậc Trong kiểu phân loại này thường đề cập đến hai kiểu đặc trưng kiến trúc là small-word và scale-free;
- Phân loại theo độ dài đường dẫn giữa các đỉnh, như độ dài đường dẫn ngắn nhất, trung bình đường đi ngắn nhất giữa các đỉnh trên mạng với nhau
Sau đây là một số hình ảnh ví dụ cụ thể về các hệ thống trong tự nhiên
và xã hội có thể được mô hình hoá và phân tích bởi mạng phức hợp, Hình 1.2
Trang 241.2.3.1 Các thành phần cơ bản của mạng phức hợp
- Đỉnh là một thực thể trên mạng Trong mạng sinh học, đỉnh được hiểu
là các thực thể sinh học như gen/ protein hay một chất chuyển hóa
Trang 2521
- Liên kết thể hiện mối quan hệ hoặc sự ảnh hưởng, tương tác giữa các
thực thể trong mạng Trong mạng sinh học như mạng trao đổi chất tế bào mỗi cạnh đại diện cho một phản ứng sinh hoá Trong mạng tương tác protein liên kết thể hiện sự tương tác giữa các protein với nhau Trong mạng tín hiệu tế bào liên kết thể hiện trạng thái truyền tín hiệu giữa các tế bào
1.2.3.2 Đặc trưng trên mạng phức hợp
Đặc trưng về mặt kiến trúc của mạng phức hợp thường được nhắc đến thông qua hai loại là đặc trưng thế giới nhỏ (small-world) và đặc trưng mở rộng bậc lũy thừa (scale-free)
- Đặc trưng small-world
Đặc trưng kiến trúc mạng small-world là một đặc trưng điển hình của các mạng xã hội, trong đó các đỉnh kết nối với nhau theo mô hình "small-world", mỗi đỉnh có thể kết nối với một số ít đỉnh khác mà không cần thông qua nhiều đỉnh trung gian
Kiến trúc mạng small-world có hai đặc điểm quan trọng:
- Đường đi ngắn: Mỗi đỉnh trong mạng có thể kết nối đến một đỉnh khác thông qua một số ít đỉnh trung gian Điều này tạo ra tính chất “đường đi ngắn” trong mạng, nghĩa là hai đỉnh bất kỳ trong mạng có thể kết nối với nhau thông qua một
Trang 2622
kết không chỉ là một mạng kết nối ngẫu nhiên Thay vào đó, mạng có thể chứa các nhóm, cụm hay cấu trúc tổ chức
Mạng small-world thường được thể hiện thông qua mô hình Watts-Strogatz
và mô hình Barabási-Albert [29] Đây là mô hình toán học giúp mô phỏng cách mà các mạng xã hội thực tế thường hoạt động, và chúng được sử dụng trong nhiều lĩnh vực như khoa học mạng, xã hội học, và công nghệ thông tin để hiểu cấu trúc và tính chất của mạng một cách chi tiết
Quy trình sau đây mô tả các bước cơ bản của việc xây dựng mạng thế giới nhỏ:
- Bước 1 Bắt đầu với một vòng các N đỉnh;
- Bước 2 Kết nối K các đỉnh gần nhất cho tất cả các đỉnh i=1 N;
- Bước 3 Nối các cạnh với một đỉnh được chọn ngẫu nhiên với xác suất p;
- Bước 4 Lặp lại Bước 3 cho tất cả N K/2 các cạnh trong mạng vòng Ngoài ra, bằng cách thay đổi xác suất quay lại p, người ta có thể phân
tích sự chuyển đổi của mạng từ cấu trúc small-word sang cấu trúc mạng ngẫu
nhiên với 0P1 [30]
- Đặc trưng scale-free
Đặc trưng kiến trúc mạng scale-free được Albert-László Barabási và Reka Albert giới thiệu [31] Nó là một dạng kiến trúc mạng lưới phức hợp có phân phối bậc (degree distribution) theo dạng lũy thừa
Đặc điểm chính của kiến trúc mạng scale-free:
- Đặc trưng phân phối bậc dạng luỹ thừa (power-law): Mạng tạo ra một phân phối không đồng đều, trong đó có một số đỉnh với số lượng kết nối rất lớn (hub) và rất nhiều đỉnh với số lượng kết nối nhỏ;
- Đặc trưng tập lõi: mạng scale-free thường không có một trung tâm duy nhất hoặc một số ít đỉnh quan trọng duy nhất Thay vào đó, các đỉnh "hub" chiếm vai trò quan trọng trong việc truyền thông, lan truyền thông tin trong mạng
Mạng scale-free thường được sử dụng để mô hình hóa các hệ thống phức tạp như mạng xã hội, mạng lưới máy tính, mạng giao thông, và các hệ thống sinh học Các ví dụ cụ thể của mạng scale-free bao gồm mạng Internet, mạng chính trị, mạng thần kinh, và mạng xã hội như Facebook hay Twitter Nhiều nghiên cứu đã được báo cáo các mạng sinh học phân tử như mạng tương tác
Trang 27Thuật toán sau đây cho thấy các bước xây dựng một mạng không có quy mô:
- Bước 1 Bắt đầu với một số nhỏ các đỉnh n0 với bậc K;
- Bước 2 Giới thiệu một đỉnh mới vào mạng;
- Bước 3 Kết nối đỉnh mới với n các đỉnh hiện có dựa trên xác suất bậc
cực đại được hiển thị như công thức (1.1);
Kích thước mạng có thể ám chỉ đến nhiều khía cạnh khác nhau trong ngữ
cảnh khác nhau Ví dụ: Trong kỹ thuật học máy (Machine Learning) và học sâu (Deep Learning), kích thước mạng phức hợp có thể hiểu là số lượng lớp và số lượng đơn vị (neurons hoặc nodes) trong mỗi lớp Trong cơ sở dữ liệu, kích
Trang 2824
thước mạng có thể hiểu là số lượng bảng, trường, dòng và cột trong một cơ sở
dữ liệu quan hệ phức tạp Trong ngữ cảnh của mạng xã hội, kích thước mạng
có thể hiểu là số lượng người dùng, mối quan hệ kết nối và hoạt động trên các nền tảng như Facebook, Twitter, Instagram, v.v Trong lĩnh vực đồ thị, kích thước mạng có thể hiểu là số lượng đỉnh (nodes) và số lượng cạnh (edges) trong một đồ thị
Mật độ của mạng thường đề cập đến mức độ kết nối hoặc quan hệ giữa
các đỉnh trong mạng và là một thuộc tính quan trọng trong phân tích mạng, ảnh hưởng đến các tính chất cấu trúc hoặc động lực học mạng Mật độ của mạng được tính dựa trên số lượng cạnh và số lượng đỉnh trong mạng
Mật độ của một mạng phức hợp G(V, E) được tính bởi công thức (1.2)
Mật độ thường được biểu thị dưới dạng một giá trị từ 0 đến 1 Giá trị gần
0 cho thấy mạng có ít kết nối hơn, trong khi giá trị gần 1 cho thấy mạng có nhiều kết nối Mật độ của mạng có thể cung cấp thông tin quan trọng về tính liên kết giữa các đỉnh Mạng có mật độ cao thường có mối quan hệ mật thiết giữa các thành phần, trong khi mạng có mật độ thấp có thể thể hiện sự phân tán hoặc không gian trống lớn giữa các đỉnh
Kết nối mạng là cách thức liên kết các thành phần trong một mạng Cách
thức kết nối mạng đóng một phần lớn vào cách mạng được phân tích và diễn giải Có 4 tính chất kết nối của mạng: Mạng kết nối hoàn thiện (Complete Graph) mà các đỉnh được kết nối với mọi đỉnh khác, tất cả các đỉnh đều có liên kết trong và liên kết ngoài từ tất cả các đỉnh khác Mạng kết nối qua thành phần
“khổng lồ” (Giant Component) là kiểu kết nối mà trong mạng có một đỉnh chứa hầu hết các kết nối đến tất cả các đỉnh đơn lẻ Thành phần kết nối yếu là một tập hợp của các đỉnh chỉ tồn tại một kết nối từ một đỉnh nào đó đến nó bỏ qua hướng của các cạnh Thành phần kết nối mạnh là một tập hợp của các đỉnh trong đó tồn tại một đường dẫn trực tiếp từ một đỉnh bất kỳ đến bất kỳ đỉnh nào khác
Trang 2925
Độ bền của mạng (Robusnet) là khả năng của mạng duy trì những chức
năng khi đối mặt với những xáo trộn hoặc chịu tác động Độ bền của mạng được sử dụng để tính toán sức chịu đựng của mạng khi bị tác động, xác định khả năng tồn tại của 1 mạng [33] Một số khía cạnh quan trọng liên quan đến
độ bền trong mạng phức hợp bao gồm:
- Khả năng tự phục hồi (Resilience): Mạng phức hợp cần có khả năng tự phục hồi sau khi gặp sự cố Điều này bao gồm việc phát hiện sự cố, cách chuyển hướng tải trọng, và khôi phục lại hoạt động bình thường một cách nhanh chóng;
- Khả năng dự phòng (Redundancy): Sự dự phòng trong mạng phức hợp đảm bảo rằng có các tuyến đường thay thế, cụm điều khiển dự phòng, để đảm bảo rằng sự cố ở một phần của mạng không gây ra gián đoạn toàn bộ hệ thống;
- Khả năng phân tán (Distribution): Sự phân tán các tài nguyên và chức năng có thể giúp giảm thiểu tác động của một sự cố địa phương lên toàn bộ mạng;
- Khả năng quản lý tải (Load Management): Mạng phức hợp thường phải đối mặt với sự biến đổi về tải công việc Các biện pháp quản lý tải giúp đảm bảo rằng mạng có thể xử lý tải lớn mà không gây ra sự cố;
- Khả năng dự báo và giám sát: Việc theo dõi liên tục và quản lý trạng thái các đỉnh, cũng như kết nối giữa các đỉnh, giúp phát hiện sớm các vấn đề tiềm ẩn và đưa ra biện pháp khắc phục trước khi chúng gây ra sự cố lớn
Tóm lại, trong mạng phức hợp, "độ bền" không chỉ đơn thuần là việc duy trì kết nối, mà còn đề cập đến khả năng của mạng để hoạt động ổn định, phục hồi sau sự cố và thích ứng với môi trường phức tạp và thay đổi Độ bền có thể được dùng để nghiên cứu các mạng sinh học, đột biến sinh học hoặc khả năng phục hồi sau một số đột biến trong lĩnh vực sinh học [34]
Bậc của đỉnh (Degree) là một chỉ số quan trọng trong mạng và được định
nghĩa là số lượng tương tác trực tiếp đến hoặc đi của đỉnh đó với các đỉnh khác trong mạng và được tính bởi công thức (1.3)
𝐶𝑑𝑒𝑔(𝑣) = |{(𝑣, 𝑤)|(𝑣, 𝑤) ∈ 𝐸}| + |{(𝑤, 𝑣)|(𝑤, 𝑣) ∈ 𝐸}| (1.3)
trong đó, E là tập cạnh, V là tập đỉnh, {(v,w)|(v,w)E} biểu thị một tương tác
trực tiếp từ đỉnh v đến đỉnh w thuộc V Tương tự {(w, v)|(w, v)E} biểu thị một
tương tác trực tiếp từ đỉnh w đến đỉnh v thuộc V Trong mạng vô hướng tương tác từ v đến w được coi là tương tác từ w đến v Tuy nhiên điều này không đúng
với mạng có hướng và hình thành khái niệm bậc ra và bậc vào
Trang 3026
Dựa vào bậc của đỉnh người ta có thể dự đoán một đỉnh nổi bật hơn hay kém nổi bật hơn so với các đỉnh khác Mức độ nổi bật càng cao thì khả năng nắm giữ vai trò điều khiển, kiểm soát hay ảnh hưởng cho những thay đổi trong toàn mạng càng cao
1.2.3.4 Trung tâm mạng
Mạng có thể được hình dung bao gồm một lõi dày đặc (core) và một số kết nối không ổn định gọi là biên Trung tâm mạng hay còn gọi là core của mạng, là một cụm đỉnh hoặc một số ít các đỉnh mà thường có thể đại diện cho đặc tính của mạng Nếu điều khiển được trạng thái core của mạng, có thể điều khiển trạng thái của cả hệ thống mạng Ngược lại các đỉnh biên (periphery nodes) là các đỉnh mà sự thay đổi về trạng thái hoặc sự hoạt động của chúng không ảnh hưởng đáng kể đến hoạt động của cả hệ thống Một hệ thống có thể
có nhiều core hoặc tập core với các kích thước khác nhau K-core là một thuật
toán có thể xác định các khu vực lõi nhỏ được liên kết với nhau trong mạng
Khái niệm lõi K
Cấu trúc lõi hay còn gọi là core của một mạng có thể thu được bằng
phương pháp phân rã mạng Thuật toán phân rã K-core [35] là một thuật toán nổi tiếng và thường được sử dụng để xác định lõi của một mạng, trong đó k đại diện cho mức độ của lõi, có thể hiểu đơn giản quá trình phân tách lõi k như sau: cho một mạng, tất cả các đỉnh có bậc < k được loại bỏ cùng với các liên kết của
chúng khỏi mạng Quá trình loại bỏ này được lặp lại cho đến khi bậc của mọi
đỉnh trong mạng còn lại ≥ k Khi đó lõi k biểu thị tập hợp các đỉnh còn lại và
do đó k1 lõi là tập con của k 2 lõi nếu k1 ≥ k2
Khái niệm lõi R
Thuật toán K-core được sử dụng để xác định lõi của mạng dựa trên bậc của đỉnh, tuy nhiên hạn chế của K-core là không sử dụng thông tin về hướng
của cạnh, tức là chỉ áp dụng cho mạng vô hướng Vì vậy, Tran và cộng sự [13]
đã đề xuất một thuật toán phân tách mạng khác gọi là R-core, dựa trên khả năng tiếp cận của đỉnh v đến các đỉnh khác (xét theo hướng của cạnh được xuất phát
từ đỉnh v Ví dụ, từ đỉnh v có một liên kết có hướng từ v đến u, và từ đỉnh u lại
có một liên kết có hướng từ đỉnh u đến đỉnh e, và từ đỉnh e lại có liên kết đến đỉnh u, khi đó R(u) =3) và được ký hiệu là R(v) trên các mạng có
hướng Phương pháp này sử dụng quy tắc cắt tỉa tương tự như phương pháp
phân tách K-core, ngoại trừ R(v) được sử dụng thay vì bậc của đỉnh Nói cách
Trang 3127
khác, tất cả các đỉnh có R(v) < r và các tương tác của chúng sẽ bị loại bỏ ở mỗi bước cắt tỉa Kết quả là R-core phân tách mạng có hướng thành các mạng con Theo định nghĩa phân tách K và R đại diện cho lõi bên trong lớn hơn khi giá trị cấp độ lõi tăng lên Hơn nữa, lõi K hoặc lõi R được định nghĩa là một tập hợp các đỉnh thuộc về mức độ lõi là k (hoặc r) chứ không phải mức độ lõi (k + 1) hoặc mức độ lõi (r + 1) Một ví dụ về các phân tách mạng này được thể hiện
ở hình 1.8 Các đỉnh ngoài cùng được hiểu là có mức độ lõi thấp nhất Ngoài
ra, lõi trong cùng biểu thị mức độ lõi cao nhất
Hình 1.5: Một ví dụ về phân tách lõi [13]
Mạng có hướng với 25 đỉnh và 29 tương tác a) là kết quả của quá
trình phân hủy lõi r, r = 1, 3 và 4, tương ứng là xám, xanh lục và đỏ (b) là kết quả của quá trình phân hủy lõi k, k = 1 và 2 tương ứng xám và xanh lục
1.2.3.5 Phân cụm mạng
Phân cụm mạng là một trong những phương pháp phân tích chính, được
sử dụng trong khai phá dữ liệu mạng Sự lựa chọn của thuật toán phân cụm sẽ ảnh hưởng trực tiếp đến kết quả phân cụm Phân cụm mạng là quá trình phân chia mạng thành các mô-đun mạng mà mỗi mô-đun là tập hợp các đỉnh (bản ghi) có chung nhau một hoặc một vài thuộc tính quan trọng nào đó, mà giữa các cụm rất mờ nhạt [36] Phân cụm mạng, là chủ đề cập đến việc phân cụm
dữ liệu được biểu diễn dưới dạng mạng hoặc đồ thị Qua đó, nhiều kiểu dữ liệu
có thể được mô hình hóa một cách thuận tiện bằng cách sử dụng đồ thị Nói chung, các cách tiếp cận phân cụm mạng có thể được sử dụng để thực hiện cả phân cụm dựa trên khoảng cách và phân cụm khái niệm Trong phân cụm dựa trên khoảng cách (Hình 1.9), các đỉnh của biểu đồ tương ứng với các điểm dữ liệu và các cạnh được thêm vào nếu các điểm đủ gần dựa trên một số giá trị giới hạn Ngoài ra, khoảng cách có thể được sử dụng để xác định các cạnh của
Trang 3228
một biểu đồ hoàn chỉnh đại diện cho tập dữ liệu Phân cụm dựa trên khái niệm, đầu tiên mạng cơ sở dữ liệu thường được xây dựng bằng cách chỉ định một trường làm “trường khớp”, sau đó các đỉnh đại diện cho các bản ghi trong cơ
sở dữ liệu được nối với nhau bằng một cạnh nếu hai trường khớp là “gần nhau” Trong mạng tương tác protein, các protein được biểu diễn bằng các đỉnh và một cặp được nối với nhau bằng một cạnh nếu chúng được biết là tương tác Trong mạng đồng biểu hiện gen, các gen là các đỉnh và một cạnh biểu thị rằng cặp gen (điểm cuối) cùng biểu hiện trên một số giá trị ngưỡng dựa trên các thí nghiệm microarray
Các thuật toán phân cụm mạng đóng một vai trò quan trọng trong việc phân tích mạng sinh học và có thể được sử dụng để khám phá các mô-đun chức năng và thu được các gợi ý về tổ chức tế bào [37] Phân cụm mạng được cho là cách tiếp cận phổ biến nhất để phân tích mạng sinh học phân tử và thường được
áp dụng để khám phá các mô-đun chức năng và phức hợp protein, để suy ra chức năng của gen, protein [37] Một số thuật toán phân cụm mạng đã được phát triển cho các mạng sinh học phân tử được giới thiệu ở [37] Sau đây luận
án giới thiệu một thuật toán phân cụm mạng nổi tiếng trên các mạng phức hợp, gọi là thuật toán tối ưu hoá phân cụm
Hình 1.6: Phân cụm mạng dựa trên khoảng cách [38]
Mạnh có 20 đỉnh và 76 liên kết và được phân tách thành 3 cụm, mỗi cụm
có nhiều đỉnh liên kết dày đặc, giữa các cụm chỉ có 1 đến 2 liên kết
Thuật toán tối ưu hóa phân cụm mạng là một thuật toán phân cụm mạng được M E J Newman [39] đề xuất dựa trên nhận định tính mô đun (modularity) có thể được biểu diễn dưới dạng các véc tơ riêng (agent vector)
Trang 3329
của một ma trận mạng đặc trưng, gọi là ma trận mô đun Phương pháp gán điểm
số cho tất cả các cạnh của mạng theo vai trò tương đối của chúng liên quan đến trọng số của các đỉnh mà chúng kết nối, và nhằm mục đích tối đa hóa điểm tích lũy bên trong cụm, ưu tiên các kết nối có điểm số dương và tránh những kết nối
có điểm số âm Thuật toán có khả năng cung cấp nhất quán kết quả tốt nhất về điểm mô đun so với các thuật toán khác [40], khả năng phân chia mạng không cần xác định trước số cụm như phương pháp truyền thống k-mean Việc phát hiện phạm vi các cụm mạng sẽ được thực hiện với việc cung cấp thông tin cấu trúc liên kết thô của mạng đầu vào Hơn nữa, thuật toán không cố định kích thước cũng như sự phân bố kích thước của các cụm được phát hiện và nó không
bị giới hạn bởi bất kỳ ràng buộc không gian nào
Thuật toán được phát biểu như sau:
Cho mạng G(V, E), V là tập đỉnh, E là tập cạnh, n là tổng số đỉnh của mạng Đối với một phép chia cụ thể của mạng thành hai nhóm, thiết lập Sv =1
nếu đỉnh v thuộc nhóm 1 và Sv =-1 nếu nó thuộc nhóm 2 Gọi số cạnh giữa
đỉnh v và w là Avw và thường có giá trị là 0 hoặc 1, 0 nếu v không có kết nối trực tiếp với w và bằng 1 nếu có kết nối, Avw có thể có giá trị lớn hơn 1 trong các mạng cho phép có nhiều cạnh (Avw được gọi là ma trận kề của mạng) Số cạnh dự kiến giữa đỉnh v và w bất kỳ là kv k w /2m, trong đó k v và kw là bậc của đỉnh v và w, và 𝑚 = 1
2∑𝑛𝑣=1𝑘𝑣 là tổng số cạnh trong mạng Khi đó, mô
đun Q được cho bởi tổng (Avw - k v k w /2m) trên tất cả các cặp đỉnh v,w thuộc
cùng một nhóm Quan sát thấy rằng đại lượng 1
2(𝑆𝑣𝑆𝑤 + 1) là 1
nếu v và w thuộc cùng một nhóm và 0 nếu ngược lại Chúng ta có thể tính giá
trị của mô đun Q theo công thức (1.4)
𝑄 = 12𝑚 ∑ [𝐴𝑣𝑤 −
𝑘𝑣𝑘𝑤2𝑚 ]
𝑛
𝑣𝑤=1
𝑆𝑣𝑆𝑤 + 1
1.2.4 Dữ liệu và mô hình hoá dữ liệu mạng sinh học
Dữ liệu sinh học có thể hiểu gồm tập hợp các thông tin về các phân tử sinh học, chủ yếu là DNA, RNA và protein, được thu thập và lưu trữ trong các
cơ sở dữ liệu sinh học phân tử Dữ liệu này có thể được thu thập từ nhiều nguồn khác nhau, bao gồm các phân tử từ các tổ chức sống, bệnh phẩm, mẫu máu, mẫu tế bào và mô, và được đánh giá và phân tích bằng nhiều công cụ và phương
Trang 3430
pháp khác nhau Các thông tin trong dữ liệu sinh học phân tử có thể được sử dụng để giải mã các thông tin về cấu trúc và chức năng của các phân tử sinh học, cung cấp thông tin về các mối quan hệ và xu hướng giữa các phân tử Các công cụ và phương pháp khai thác dữ liệu sinh học phân tử có thể được sử dụng
để tìm kiếm các thông tin quan trọng về di truyền, đánh giá tác dụng của các loại thuốc, tìm kiếm các bệnh và giải pháp điều trị mới Dữ liệu sinh học phân
tử là một trong những tài nguyên quan trọng nhất cho nghiên cứu trong lĩnh vực sinh học phân tử và y học phân tử, là cơ sở để phát triển các ứng dụng và công nghệ mới trong lĩnh vực này
Ngày nay, dữ liệu sinh học phân tử có thể được mô hình hóa thành các mạng phức hợp, trong đó các đỉnh thể hiện cho các thành phần sinh học là các gen/protein, các liên kết giữa các đỉnh biểu thị cho mối quan hệ, sự ảnh hưởng
và tương tác giữa các thành phần trong mạng với nhau Ví dụ, trong mạng trao đổi chất tế bào mỗi cạnh đại diện cho một phản ứng sinh hoá, trong khi trong mạng tương tác protein các liên kết đại diện cho sự tương tác giữa các protein/gen với nhau, trong mạng tín hiệu tế bào các liên kết biểu thị trạng thái truyền tín hiệu giữa các tế bào
Vai trò chính trong mạng là các gen/protein, với chức năng kiểm soát sự tổng hợp, hoạt động và sự thoái hóa của các gen/protein khác Theo đặc điểm chức năng, ta có thể chia thành 4 loại mạng sinh học sau: Mạng trao đổi chất tế bào (metabolic network), mạng tương tác protein (protein-protein interaction network), mạng điều hòa gen (gen regulatory network), mạng tín hiệu tế bào (cellular signaling network)
- Mạng trao đổi chất tế bào [41], là một mạng có hướng và đồng nhất, ở
đó có các loại đỉnh hoặc cạnh tương tự nhau [42] Trong mạng trao đổi chất tế bào, mỗi đỉnh đại diện cho một chất chuyển hoá (phân tử) và mỗi cạnh đại diện cho một phản ứng sinh hoá Một phản ứng sinh hoá là một quá trình hoá học, kết quả là việc chuyển đổi một phân tử sinh học khác Mạng trao đổi chất mô
tả các con đường trao đổi chất của tế bào, trong đó bao gồm một chuỗi các phản ứng mô tả các phân tử tương tác với nhau và chuyển đổi sang một phân tử hoặc hợp chất khác
- Mạng tương tác protein [43], là một mạng vô hướng và đồng nhất, mỗi
đỉnh đại diện cho các gen/protein và các cạnh đại diện cho các tương tác giữa chúng, hai protein được kết nối với nhau nếu chúng có tương tác với nhau
Trang 3531
Trong số các loại phân tử, protein đóng vai trò là trung tâm và quan trọng trong việc điều hòa biểu hiện gen Mặt khác các protein đóng góp đáng kể vào việc liên kết các gen với nhau và tạo thành nhiều mạch điều chỉnh trong một tế bào
và sự tồn tại của các tế bào sống phụ thuộc nhiều vào tương tác và phản ứng hóa học giữa các loại phân tử khác nhau như protein Ước tính cơ thể con người
có khoảng hơn 10 nghìn tỉ (1013) tế bào, trong đó có nhiều đại phân tử hoặc phân tử sinh học như protein và các axit nucleic Protein là những phân tử sinh học, hay đại phân tử gồm nhiều axit amin
- Mạng điều hòa gen [44], là một mạng có hướng và đồng nhất, nằm
trong nhân tế bào Mạng thiết lập mối liên kết chặt chẽ giữa các gen trong một
tế bào tương ứng trong một khoảng thời gian và biên độ xác định Thông thường thì một gen được quy định bởi gen khác thông qua các protein tương ứng (gọi
là yếu tố phiên mã) Do đó việc điều hoà gen được phối hợp trong một mạng điều hoà gen, một mạng điều hòa gen là một mạng phổ biến nhất thường được hiển thị bởi nhiều cặp protein/gen Điều hoà gen là một thuật ngữ chung cho việc điều khiển tế bào của quá trình tổng hợp protein ở bước phiên mã Nó có thể được xem như là phản ứng của một tế bào trước những kích thích từ bên trong
- Mạng tín hiệu tế bào [45], là một mạng hỗn hợp, không đồng nhất vì
chúng gồm cả các liên kết có hướng và vô hướng Mạng tín hiệu tế bào, thể hiện quá trình truyền tín hiệu giao tiếp trong một tế bào để điều phối phản ứng của nó với sự thay đổi của môi trường Trong số các mạng liên quan đến ung thư, mạng tín hiệu ung thư là một loại mạng không đồng nhất và cung cấp dữ liệu thông tin lớn nhất để phân tích mạng vì chúng chứa cả các loại tương tác
có hướng và vô hướng, thay vì chỉ có một loại tương tác như các loại mạng khác [46, 47] Nếu không có dữ liệu bổ sung nào chẳng hạn như dữ liệu biểu hiện gen được tích hợp vào phân tích thì việc tính toán trên các mạng này thường trả về kết quả dự đoán chính xác hơn các mạng khác [48]
1.3 Các phương pháp và nghiên cứu liên quan dự đoán gen điều trị bệnh dựa trên mạng phức hợp
Nhìn từ khía cạnh đồ thị và mạng lưới, dữ liệu sinh học có thể được mô hình hóa thành các mạng phức hợp Trong đó đỉnh của mạng đại diện cho các thành phần sinh học như gen/protein hoặc các chất chuyển hoá, các liên kết giữa các đỉnh biểu thị cho mối quan hệ, sự ảnh hưởng và tương tác giữa các
Trang 3632
thực thể trong mạng Vì vậy, bài toán khai phá dữ liệu để dự đoán chức năng sinh học của gen/protein (dự đoán gen bệnh) có thể được quy về bài toán xếp hạng để dự đoán vai trò chức năng của các đỉnh trên một mạng phức hợp Đây cũng là hướng tiếp cận và nghiên cứu xuyên suốt của luận án
Có nhiều phương pháp và mô hình tính toán xếp hạng để dự đoán vai trò chức năng của các đỉnh trong một mạng phức hợp Sau đây luận án trình bày một số nghiên cứu liên quan điển hình:
Có nhiều phương pháp và mô hình tính toán xếp hạng để dự đoán vai trò chức năng của các đỉnh trong một mạng phức hợp, về cơ bản chia làm 2 nhóm: Nhóm thứ nhất là nhóm các phương pháp cục bộ Nhóm phương pháp này chỉ xem xét các gen gần với gen gây bệnh đã được xác định, như các gen được kết nối trực tiếp hoặc sử dụng đường đi ngắn nhất Nhóm thứ hai là nhóm các phương pháp tổng thể [49] Nhóm này sử dụng các thuật toán lan truyền thông tin từ các gen gây bệnh đã biết, thông qua hệ thống mạng để gán cho các gen ứng viên các trọng số đánh giá mức độ tương đồng với các gen gây bệnh đã biết, tức là mức độ liên quan với bệnh đang được xem xét Sau đây luận án giới thiệu một số phương pháp điển hình trong hai nhóm này:
1.3.1 Thuộc tính gần gũi của một đỉnh
Định nghĩa 1.2 Thuộc tính gần gũi (Closeness) của một đỉnh trong mạng
được tính bằng tổng nghịch đảo khoảng cách ngắn nhất giữa đỉnh đó đến tất cả các đỉnh khác trong mạng [50] và được tính bởi công thức (1.4)
1.3.2 Thuộc tính gần gũi theo thứ bậc của đỉnh
Mặc dù thuật toán tính toán mức độ gần gũi của một đỉnh đã được giới thiệu ở trên biểu thị vị trí trung tâm một đỉnh nằm trong mạng, nhưng nó không
rõ ràng bao gồm thông tin về phạm vi của các đỉnh khác có thể bị ảnh hưởng bởi đỉnh đã xác định được Về vấn đề này, Tran và cộng sự [12] đã đề xuất một
Trang 3733
thuộc tính gần gũi mở rộng và được gọi là thuộc tính gần gũi theo thứ bậc (Hierarchical closeness)
Định nghĩa 1.3 Thuộc tính gần gũi theo thứ bậc của một đỉnh trong mạng
bằng tổng thứ bậc và mức độ gần gũi của đỉnh đó [12] và được tính bởi công thức (1.5)
𝐶ℎ𝑐(𝑣) = 𝑁𝑅(𝑣) + 𝐶𝑐𝑙𝑜−𝑣(𝑣) (1.5)
trong đó NR (v) [0, |V|-1] là thứ bậc của đỉnh v được định nghĩa bởi
N R (v)=|{uV| một đường dẫn từ v đến u}| Nói cách khác, N R (v) đại diện cho số
lượng đỉnh trong V có thể truy cập được từ v
Nghiên cứu [52] chỉ ra rằng mức độ thuộc tính gần gũi theo thứ bậc tốt hơn các thuộc tính khác của đỉnh trong việc dự đoán gen bệnh Hơn nữa, nghiên cứu chỉ ra rằng các gen có mức độ gần gũi theo thứ bậc cao có thể mã hóa các protein trong chất ngoại bào và các protein thụ thể trong mạng lưới tín hiệu của con người Đặc biệt mức độ gần gũi theo thứ bậc của đỉnh được sử dụng để xác định các gen đánh dấu sinh học [13], cũng đã được báo cáo là mục tiêu điều trị ung thư trong mạng lưới tín hiệu ung thư [53]
1.3.3 Thuộc tính trung tâm giữa của một đỉnh
Định nghĩa 1.4 Thuộc tính trung tâm giữa (Betweenness) của một đỉnh
cho biết khả năng đo lường của một đỉnh trong việc giám sát giao tiếp giữa các đỉnh khác trong mạng [54] và được tính bởi công thức (1.6)
𝐶𝑏𝑒𝑡(𝑣) = ∑ 𝜎𝑠𝑡(𝑣)
𝜎𝑠𝑡
𝑛
𝑠𝑡=1 𝑠𝑡∈𝑉\{𝑣}
𝑠≠𝑡
(1.6)
trong đó, n là số đỉnh, σst biểu thị tổng số đường đi ngắn nhất giữa hai đỉnh s và
t σ st (v) biểu thị số đường đi ngắn nhất giữa s và t đi qua v Mức độ truyền thông
giữa s và t có thể được giám sát bởi một đỉnh bên trong là v được ký hiệu là
δ st (v)=σ st (v)/σ st Nếu không tồn tại đường đi ngắn nhất giữa s và t (σst = 0) thì khi đó ta thiết lập δst (v) = 0
Mức độ thuộc tính trung tâm giữa của một đỉnh đã được sử dụng để điều tra mối liên quan giữa cấu trúc và độ bền vững trong các mạng sinh học của nguyên bào thần kinh đệm cho các mô ung thư thận [55] Ngoài ra, các protein
có mức độ thuộc tính trung tâm giữa cao trong mạng lưới đường dẫn được đề xuất để nhắm tới các gen đích tác động thuốc [56]
Trang 3834
1.3.4 Thuật toán bước nhảy ngẫu nhiên có quay lại
Một trong các phương pháp xếp hạng gen điển hình dựa trên mạng có thể kể đến là thuật toán bước nhảy ngẫu nhiên có quay lại (RWR: Random Walk with Restart) [57] Thuật toán khai thác cấu trúc tổng thể của mạng dựa trên hành vi của một chuyển động ngẫu nhiên trên một mạng hay đồ thị Theo hành vi này, một thực thể xuất phát từ một đỉnh khởi đầu sau đó di chuyển trên
đồ thị bằng cách chuyển đến các đỉnh lân cận một cách ngẫu nhiên với xác suất
tỷ lệ với trọng số của các cạnh kết nối Tập hợp các đỉnh trong quá trình di chuyển là một chuỗi Markov và được gọi là một bước ngẫu nhiên trên đồ thị Tại thời điểm bất kỳ trong quá trình di chuyển, thực thể cũng có thể quay lại đỉnh khởi đầu với một xác suất nhất định được gọi là xác suất quay lại Khi đó luận án có thể coi đây là bài toán bước ngẫu nhiên với các xác suất tiền nhiệm Các đỉnh được thăm nhiều hơn được coi là có độ quan trọng lớn hơn Đại lượng này đánh giá tầm quan trọng tương đối (hay độ tương tự) của các đỉnh còn lại
so với tập các đỉnh gốc
Thuật toán bước nhảy ngẫu nhiên có quay lại là một biến thể của thuật toán bước nhảy ngẫu nhiên (Random walk) [57] Thuật toán bước nhảy ngẫu nhiên trên một mạng hoặc đồ thị được định nghĩa là một quá trình di chuyển từ một đỉnh hiện tại tới một đỉnh lân cận ngẫu nhiên bất kỳ bắt đầu từ một đỉnh nguồn [57] Tại thời điểm bất kỳ trong quá trình di chuyển, nó cho phép quay lại (restart) các đỉnh nguồn, còn gọi là các đỉnh khởi đầu với một xác suất (𝑐), còn gọi là xác suất quay lại (back-probability)
Thuật toán bước nhảy ngẫu nhiên không có điều kiện hội tụ do tính ngẫu nhiên của quá trình Trong một số trường hợp, quá trình có thể dẫn đến hội tụ, tức là sau một số lớn bước, vị trí của bước ngẫu nhiên hội tụ vào một vị trí cụ thể hoặc một phân bố xác suất cụ thể Tuy nhiên, trong hầu hết các trường hợp quá trình không hội tụ và có thể không có điều kiện hội tụ cụ thể Vị trí của bước ngẫu nhiên có thể dao động không giới hạn hoặc lan toả ra một khoảng không gian rộng hơn theo thời gian Việc hội tụ hoặc không hội tụ của thuật toán phụ thuộc vào cách xác định các bước ngẫu nhiên và phân bố xác suất của chúng
Thuật toán RWR có thể được mô tả như sau:
Cho một đồ thị liên thông có trọng số G(V, E) với một tập các đỉnh 𝑉 =
{𝑣1, 𝑣2, … , 𝑣𝑛} và một tập các liên kết 𝐸 = {(𝑣𝑖, 𝑣𝑗)|𝑣𝑖, 𝑣𝑗 ∈ 𝑉}, một tập các
Trang 3935
đỉnh nguồn 𝑆 ⊆ 𝑉 và một ma trận kề W kích thước 𝑁 × 𝑁 Khi đó xác xuất
quay lại được xác định bằng công thức (1.7)
𝑝𝑡+1 = (1 − 𝑐) × 𝑊 × 𝑝𝑡 + 𝑐 × 𝑝0 (1.7) Trong đó, 𝑝𝑡 là một vector xác suất 𝑁 × 1 của |𝑉| đỉnh tại thời điểm
bước t (phần tử thứ 𝑖 đại diện cho bước đi tại đỉnh 𝑣𝑖 ∈ 𝑉), và 𝑝0 là vector khởi tạo 𝑁 × 1 mà giá trị của mỗi phần tử tương ứng với đỉnh không phải đỉnh
nguồn hoặc đỉnh nguồn là 0 và 1 |𝑆|⁄ Trong trường hợp với đồ thị không trọng
số thì có thể dễ dàng chuyển thành đồ thị có trọng số bằng cách gán một trọng
số tuỳ ý lên tất cả các tương tác Ma trận kề W được thể hiện bằng một ma trận
cột dạng chuẩn (𝑊)𝑖𝑗 trong đó phần tử (i, j) của W biểu thị cho xác suất để một
bước đi tại 𝑣𝑖 di chuyển tới 𝑣𝑗 trong khoảng 𝑉 ∖ {𝑣𝑖}
Ưu điểm chính của phương pháp bước ngẫu nhiên là tốc độ thực hiện nhanh, do đó có thể áp dụng cho các mạng có kích thước lớn Khi áp dụng thuật toán này cho bài toán xếp hạng gen bệnh, các gen gây bệnh đã biết đóng vai trò như các đỉnh khởi đầu, các gen còn lại trên mạng được xem là các gen ứng viên [57]
1.3.5 Thuật toán ORIENT
Thuật toán ORIENT [21] là một thuật toán nhằm cải thiện hiệu suất của
thuật toán Random walk with restart (RWR) thông qua việc tăng cường trọng
số của các tương tác lân cận với các gen bệnh đã biết [21] Trong thuật toán ORIENT có hai hệ số ảnh hưởng tới hiệu suất của phương pháp, đó là xác suất quay lại đỉnh nguồn (back-probability) và tỉ lệ gia tăng trọng số (weight-reinforcement rate) Xác suất quay lại đỉnh nguồn (𝑐) là xác suất để một đỉnh trên đồ thị quay trở lại đỉnh nguồn nơi mà nó đã xuất phát, hay khi 𝑐 có một giá trị tương đối lớn thì các đỉnh trên đồ thị có xu hướng thường xuyên quay trở về đỉnh nguồn và các đỉnh lân cận xung quanh đỉnh nguồn đó được xếp hạng cao hơn [21] Thuật toán ORIENT đạt hiệu suất tốt nhất khi xác suất quay lại đỉnh nguồn 𝑐 có giá trị nhỏ nhất Nói cách khác, khi giá trị 𝑐 cao nó sẽ hạn chế khả năng đi đến các đỉnh lân cận ở xa đỉnh nguồn mà chỉ tập trung ở các đỉnh nằm gần đỉnh nguồn [21] Một hệ số nữa ảnh hưởng tới hiệu suất của phương pháp
là tỉ lệ gia tăng trọng số (weight-reinforcement rate) ORIENT sẽ có hiệu suất tốt nhất khi tỉ lệ gia tăng trọng số mang giá trị đủ lớn
Trang 4036
1.3.6 Thuật toán sử dụng xác xuất tiền nhiệm PRINCE
Một cách tiếp cận khác là sử dụng xác suất tiền nghiệm PRINCE (Prioritization and Complex Elucidation) được phát triển bởi Vanunu và cộng
sự [58] PRINCE sử dụng thuật toán lan truyền để dự đoán gen bệnh dựa vào thông tin tích hợp giữa kiểu hình bệnh và mạng tương tác protein Phương pháp này tính toán mối liên quan giữa một bệnh và gen bệnh đã biết với một bệnh khác dựa trên sự tương tự kiểu hình giữa hai bệnh Gen liên quan tới bệnh sau
đó được sử dụng như xác suất tiền nghiệm để xây dựng chức năng xếp hạng
Ngoài ra, Duc-Hau Le và cộng sự [21] đã cải tiến phương pháp RWR bằng cách tăng cường trọng số hàng xóm của các gen gây bệnh đã biết Cũng xuất phát từ ý tưởng sử dụng các xác suất tiền nghiệm Chen và cộng sự [59]
đã sử dụng các thuật toán phổ biến trong phân tích mạng xã hội và mạng web dùng để đánh giá tầm quan trọng tương đối của đỉnh như HITS with priors, PageRank with priors và K-step Markov cho bài toán xếp hạng các gen ứng viên trên các mạng tương tác protein
1.4 Tổng quan về mạng quy mô lớn
1.4.1 Khái niệm mạng quy mô lớn
Định nghĩa 1.5 Mạng phức hợp quy mô lớn (Large-scale Complex
Network) là một loại mạng bao gồm vô số đỉnh và cạnh, có tính chất phức tạp
và tương tác mạnh mẽ giữa các thành phần [60]
Mạng quy mô lớn thường có số lượng kết nối không đồng đều giữa các đỉnh, một số đỉnh trong mạng quy mô lớn có thể có nhiều kết nối hơn so với các đỉnh khác, trong khi một số khác có ít kết nối hơn Điều này tạo ra một phân bố mạng không đồng đều theo phân phối luật lũy thừa (power-law distribution), các đỉnh tập trung nhiều liên kết được gọi là "hub" và thường có vai trò quan trọng trong việc truyền thông, liên kết các phần khác của mạng Vì
sự không đồng đều trong phân bố kết nối, mạng quy mô lớn có khả năng chống lại các tác động ngẫu nhiên hoặc có mục tiêu vào “hub” tốt hơn so với mạng thường
Mạng quy mô lớn thường được sử dụng để mô phỏng và nghiên cứu các
hệ thống phức tạp trong nhiều lĩnh vực như mạng xã hội, mạng sinh học, mạng lưới điện, mạng giao thông và các mạng khác
1.4.2 Một số hướng nghiên cứu trên mạng quy mô lớn
Có một số hướng nghiên cứu điển hình trên mạng quy mô lớn gồm: