Tổng quan nghiên cứu đa dược lý mạng trong tìm kiếm đích phân tử liên quan đến ung thư

Từ đó, chúng ta sẽ xác định đƣợc các đích phân tử quan trọng trong quá trình bệnh sinh, cũng nhƣ dự đoán đƣợc các tác dụng không mong muốn của thuốc.. Tƣơng tác giữa các protein interact

TỔNG QUAN ĐA DƯỢC LÝ MẠNG

Đa dƣợc lý mạng trong nghiên cứu phát triển thuốc

Quá trình nghiên cứu và phát triển thuốc đòi hỏi nhiều thời gian và chi phí, với trung bình khoảng 1 tỷ đô la để ra mắt một loại thuốc mới.

Mỹ, kéo dài từ 10 đến 15 năm bao gồm nhiều giai đoạn khác nhau [43] Hình

1 mô tả các giai đoạn chung của quá trình nghiên cứu và phát triển thuốc

Hình 1.1: Quá trình nghiên cứu phát triển thuốc

Nghiên cứu thuốc mới bắt đầu bằng việc tìm hiểu cơ chế bệnh sinh để xác định các "mục tiêu phân tử", thường là các cấu trúc đại phân tử như enzyme hoặc kênh xuyên màng Việc chọn lựa đích phân tử phải chính xác, vì nó có ảnh hưởng lớn đến quá trình bệnh sinh.

Bước tiếp theo trong quá trình phát triển thuốc là sàng lọc các hoạt chất tiềm năng có khả năng ức chế hoặc tăng cường hoạt động của đích phân tử Các chất này có thể được chiết xuất từ tự nhiên, như cây cỏ và động vật, hoặc tổng hợp hóa học Những thử nghiệm này được thực hiện trong phòng thí nghiệm trên nhiều mô hình bệnh tật khác nhau, bao gồm cả thiết kế thuốc bằng máy tính Mục tiêu chính là tìm ra các hoạt chất có hiệu quả cao nhất, liều lượng thấp nhất và đảm bảo an toàn cho người sử dụng.

Theo nghiên cứu của Trường Đại học Y Dược, VNU, chỉ có 1 trong số 10.000 hợp chất được sàng lọc có khả năng trở thành ứng viên thuốc tiềm năng.

Các hoạt chất tiềm năng sẽ được thử nghiệm tiền lâm sàng trên các mô hình động vật như chuột và chó để xác định khả năng điều trị và độ an toàn của chúng trên cơ thể sống, đặc biệt là cơ thể giống con người Những ứng viên thuốc tiềm năng sẽ tiếp tục được thử nghiệm lâm sàng qua ba giai đoạn (pha I, II và III), bắt đầu với người tình nguyện khỏe mạnh ở pha I và sau đó là người bệnh ở pha II-III, với số lượng người tham gia tăng dần từ khoảng 50 đến vài ngàn Cuối cùng, sau khi thu thập đầy đủ dữ liệu khoa học, thuốc sẽ được đăng ký với cơ quan pháp lý, được bảo hộ độc quyền trong khoảng 10-15 năm và đưa ra thị trường.

Trong 60 năm qua, sự phát triển nhanh chóng của công nghệ khoa học đã không ngừng diễn ra Tuy nhiên, trong lĩnh vực dược học, số lượng thuốc mới được phát triển lại giảm dần Cụ thể, từ năm 1950 đến 2008, chỉ có 1222 hoạt chất mới được ra đời.

(1103 phân tử hóa học và 119 hoạt chất sinh học) đƣợc FDA (Food and Drug

Cục Quản lý Thực phẩm và Dược phẩm Hoa Kỳ chỉ chấp thuận trung bình 21 loại thuốc mới mỗi năm, một con số đáng lo ngại khi hàng trăm bệnh tật đang tồn tại trên thế giới và số lượng bệnh không có thuốc trị ngày càng gia tăng Gần đây, sự xuất hiện của chủng siêu vi khuẩn Escherichia coli kháng colistin, loại kháng sinh dự phòng cho vi khuẩn kháng thuốc, đã tạo ra một tình trạng báo động trong giới y học.

Nghiên cứu và phát triển thuốc trước đây chủ yếu dựa vào phương pháp “thử và lỗi”, dẫn đến chi phí cao và tỷ lệ thành công thấp Nhiều yếu tố cản trở sự thành công của quá trình này, bao gồm mục tiêu tác dụng không chính xác và khó khăn trong việc tìm kiếm.

Trong hơn ba thập kỷ qua, nghiên cứu và phát triển thuốc mới đã tập trung vào việc sàng lọc và thiết kế các hợp chất có hoạt tính chọn lọc nhằm giảm thiểu tác dụng không mong muốn.

Kỷ nguyên hậu genomic đã làm nổi bật sự phức tạp trong cơ chế tác dụng của thuốc Nghiên cứu của Yildirim và cộng sự (2007) đã chỉ ra rằng nhiều thuốc có thể gắn với cùng một đích, và một thuốc có thể tác động lên nhiều đích khác nhau Cơ chế tác dụng đa đích này rất phổ biến trong các loại thuốc kháng ung thư, thuốc điều trị bệnh lý thần kinh, kháng sinh và kháng viêm.

Năm 2014, David Cook và cộng sự đã chỉ ra rằng việc xác định đúng đích phân tử là yếu tố then chốt đầu tiên quyết định thành công trong nghiên cứu và phát triển thuốc mới, dựa trên phân tích dữ liệu từ các dự án của Astra Zeneca trong giai đoạn 2005-2010 Nghiên cứu của Yildirim cùng nhiều tác giả khác về sinh học phân tử và tin sinh học cũng khẳng định rằng đa dược lý mạng (pharmacological network, PN) là công cụ hữu ích để sàng lọc đích mới và hiểu rõ cơ chế tác dụng của thuốc.

Cách tiếp cận đa dược lý mạng giúp xác định các đích phân tử thông qua việc tổng hợp các tương tác giữa các protein trong quá trình bệnh sinh, bao gồm mạng tương tác protein (PPIN) và các tương tác thuốc-protein Phương pháp này cung cấp cái nhìn tổng quát về cơ chế bệnh sinh, từ đó xây dựng chiến lược nghiên cứu và phát triển thuốc hiệu quả Tuy nhiên, do tính chất phức tạp và chồng chéo của các mối liên hệ này, việc nghiên cứu đa dược lý mạng yêu cầu dữ liệu lớn từ công nghệ sinh học, sinh học phân tử và công nghệ thông tin Các công cụ tính toán, đặc biệt là tin sinh học, được sử dụng rộng rãi trong việc xử lý thông tin và xác định đích phân tử.

Sơ lƣợc lý` thuyết Graph

Đa dược lý mạng là một dạng đồ thị biểu diễn các tương tác giữa protein và thuốc Trong toán học, đồ thị được định nghĩa là một cấu trúc rời rạc gồm các đỉnh và các cạnh kết nối chúng, ký hiệu là G(V,E), với V là tập hợp các đỉnh và E là tập hợp các cạnh.

1 Tập hợp V, bao gồm các đối tƣợng, đƣợc gọi là tập hợp các đỉnh (vertex hay node) của đồ thị

2 Tập hợp E là tập hợp các cạnh (edge) của đồ thị

Gọi n và m lần lƣợt là số đỉnh và số cạnh của đồ thị, trong đó m E n

Bậc của một đỉnh trong đồ thị được xác định bởi số lượng các cạnh nối với đỉnh đó, thường được ký hiệu là d(a) Các đỉnh trong đồ thị không nhất thiết phải có bậc giống nhau Hình 1.2 minh họa một số đồ thị có 5 đỉnh, bao gồm a, b, c, d và e.

Hình 1.2: Các dạng đồ thị Graph

Trong đồ thị, cạnh lặp (loop) và cạnh song song (parallel edges) là những khái niệm quan trọng Đồ thị được gọi là đơn đồ thị (simple graph) khi không có cạnh lặp và cạnh song song, ngược lại, nếu có, nó được gọi là đa đồ thị (multigraph) Đồ thị G(V,E) có thể là vô hướng hoặc có hướng Ngoài ra, đồ thị cũng có thể được biểu diễn bằng ma trận kề (adjacency matrix) A kích thước n×n.

Kích thước của cách biểu diễn đồ thị bằng ma trận kề là O(n²), bất kể số lượng cạnh có thể nhiều hay ít Đồ thị có thể có số lượng cạnh m lên tới O(n²), được gọi là đồ thị dày Tuy nhiên, nhiều đồ thị thực tế như mạng PN lại có số lượng cạnh m = O(n), được gọi là đồ thị thưa, làm cho cách biểu diễn bằng ma trận kề trở nên tốn kém về bộ nhớ Để tiết kiệm bộ nhớ, đồ thị có thể được biểu diễn bằng danh sách kề, trong đó mỗi đỉnh a∈V lưu trữ một danh sách các đỉnh kề với nó, yêu cầu danh sách có d(a) phần tử Tổng số phần tử của các danh sách kề sẽ giúp giảm thiểu lượng bộ nhớ cần thiết.

Trong đồ thị V a d(a) 2m, mỗi cạnh được tính hai lần trong tổng bậc của hai đỉnh kề Phương pháp biểu diễn này phù hợp với đồ thị thưa và giúp tiết kiệm bộ nhớ Tuy nhiên, nó không thích hợp cho một số thao tác trên đồ thị.

Ví dụ về hai cách biểu diễn đồ thị cho trong hình dưới đây:

Hình 1.3: Ví dụ về hai cách biểu diễn đồ thị theo ma trận kề và theo danh

Biểu diễn đa dƣợc lý mạng bằng đồ thị Graph

Đa dược lý mạng là một hệ thống tích hợp bao gồm các mạng nhỏ, phản ánh sự tương tác giữa thuốc và đích phân tử (DPIN), giữa các đích phân tử (PPIN), và giữa các thuốc với nhau (DDIN) Hệ thống này cung cấp cái nhìn tổng quan về mối quan hệ phức tạp giữa các thành phần trong lĩnh vực dược lý.

Các cạnh gồm có cạnh vô hướng, cạnh có hướng và cạnh có gắn trọng số

Các cạnh vô hướng, thường xuất hiện trong mạng lưới tương tác protein–protein (PPIN), thể hiện mối quan hệ giữa các nút thông qua sự kết nối đơn giản mà không có hướng đi xác định.

Các cạnh được định hướng là một khái niệm quan trọng trong mạng lưới trao đổi chất và chuyển hóa gene, nơi mà tín hiệu di chuyển theo một hướng nhất định đã được quy ước Mạng lưới này có thể được tổ chức theo cấu trúc cấp bậc, giúp dễ dàng theo dõi và phân tích các mối quan hệ giữa các thành phần trong hệ thống.

Các cạnh có gắn trọng số, dù có hướng hay không, mang giá trị trọng số liên quan, được sử dụng để minh họa khả năng xảy ra tương tác, ảnh hưởng của gene lên mức độ biểu hiện của gene khác, hoặc mối liên hệ giữa các trình tự chuỗi giống nhau trên hai gene Ngoài ra, các cạnh cũng có thể được định lượng qua các giá trị trung tâm hoặc các tham số mạng lưới khác.

Mạng có thể được phân loại thành ba dạng chính dựa trên các cạnh: mạng vô hướng, mạng có hướng và mạng có gắn trọng số Hình 1.4 minh họa các dạng này của mạng.

Hình 1.4: Các dạng của mạng (a) mạng vô hướng, (b) mạng có định hướng, (c) mạng có gắn trọng số

1.3.1 Mạng tương tác giữa thuốc với đích phân tử (DPIN)

Mạng DPIN là một đồ thị biểu diễn các nút là thuốc hoặc protein, với các cạnh thể hiện sự tương tác giữa chúng Tương tác protein-thuốc diễn ra khi phân tử thuốc kết hợp với protein, dẫn đến sự thay đổi cấu trúc hoặc hoạt tính của protein, từ đó tạo ra tác dụng dược lý của thuốc.

Thuốc tác động lên thụ thể hoặc enzyme thông qua các liên kết vật lý như cộng hóa trị, tĩnh điện, Van der Waals và liên kết hydro Liên kết cộng hóa trị là loại liên kết bền vững nhất, trong khi liên kết ion xảy ra do lực hút tĩnh điện giữa các ion mang điện tích trái dấu, thường liên quan đến đồng yếu tố kim loại trong protein Tương tác Van der Waals, là lực phân tử yếu, xuất hiện do sự phân cực của các phân tử, thường liên quan đến các tương tác giữa các nhân thơm và mạch thẳng Ngoài ra, thuốc còn có thể tương tác với protein qua cầu nối hydro, ví dụ như giữa nhóm cho acid yếu và chất nhận có cặp electron tự do như oxy và nitơ.

Hình 1.5 minh họa mạng tương tác giữa các thuốc hoá trị và protein liên quan đến ung thư, với thuốc đa đích được biểu thị bằng hình lục giác màu cam và các đích bằng hình elip màu xanh lam, thể hiện sự tương tác của 20 loại thuốc với 17 đích Phân tích mạng sử dụng bậc (degree) để đánh giá mức độ tương tác giữa thuốc và đích, trong đó bậc của một nút phản ánh số lượng cạnh liên kết với nó Theo hình 1.5, bậc tối đa của các thuốc đa đích là 5 và tối thiểu là 2 Đặc biệt, các thuốc đa đích như Sorafenib, Sunitinib và Pazopanib có bậc lần lượt là 5, 3 và 3, cho thấy ảnh hưởng lớn đến cấu trúc mạng, trong đó Sorafenib có bậc cao nhất, phản ánh tính đa dạng của nó.

The School of Medicine and Pharmacy, VNU emphasizes the treatment indications for cancers such as hepatocellular carcinoma, renal cell carcinoma, and thyroid carcinoma The targets for therapy range from a minimum of 1 to a maximum of 8, with significant mutations including VEGFR2, c-Kit, PDGFR-b, and EGFR identified as multi-target drug candidates Notably, VEGFR2 and c-Kit are categorized as high-level targets, while VEGF and VEGFR2 are extensively utilized receptors in renal cell carcinoma treatment.

VEGFR2 và c-Kit có vai trò quan trọng trong sự phát sinh và phát triển của ung thư biểu mô thận di căn Việc phát triển các loại thuốc nhắm vào VEGFR2 và c-Kit hiện đang là xu hướng phổ biến trong nghiên cứu và điều trị ung thư, với mục tiêu tạo ra các liệu pháp kháng ung thư đa đích hiệu quả.

Hình 1.5: Mạng tương tác giữa thuốc hóa trị với các đích protein tyrosine kinase

Theo hình 1.5, thuốc được biểu diễn dưới dạng các nút lục giác màu da cam, trong khi đích được thể hiện bằng hình elip màu xanh Tương tác giữa thuốc và đích được minh họa qua các cạnh hình mũi tên, với mũi tên chỉ sự kích hoạt và ký hiệu “T” biểu thị cho sự ức chế.

1.3.2 Mạng tương tác protein – protein (PPIN)

Thông qua đa dược lý mạng, chúng ta có thể xác định các đích phân tử dựa trên các tương tác giữa các protein trong quá trình bệnh sinh (PPIN) Protein và các tương tác của chúng là trung tâm của hầu hết các quá trình sinh học, vì chúng thường không hoạt động độc lập mà thông qua sự tương tác với các đơn vị phân tử sinh học khác Tương tác protein điều chỉnh nhiều quá trình sinh học, bao gồm phiên mã, miễn dịch, nội tiết và tín hiệu dược lý Việc nghiên cứu các tương tác protein-protein (PPIs) là cần thiết để hiểu cơ chế phân tử của các quá trình sinh học PPIN là mạng tương tác giữa các protein, thường có cấu trúc dạng đồ thị, với các protein là nút và mối quan hệ giữa chúng là các cạnh nối Tương quan giữa các protein (interactome) được hiểu là các quá trình hóa sinh như tổng hợp cấu trúc, truyền tín hiệu, vận chuyển và phosphoryl hóa.

Tương tác protein-protein là những tương tác vật lý đặc hiệu giữa hai hoặc nhiều phân tử protein, có thể ổn định hoặc tạm thời Tương tác ổn định tạo ra các phức hợp đa tiểu đơn vị, như hemoglobin và lõi RNA polymerase, trong khi tương tác tạm thời thường xảy ra trong các quá trình tế bào và cần điều kiện nhất định như phosphoryl hóa hoặc thay đổi cấu hình để thúc đẩy Các tương tác tạm thời có thể có độ mạnh và tốc độ khác nhau, đóng vai trò quan trọng trong chức năng tế bào.

Hình 1.6 minh họa mạng tương tác PPIN của Interleukin-10, một cytokine đa tác động quan trọng Cytokine là protein tan trong nước, có vai trò thiết yếu trong hệ miễn dịch, bao gồm tăng sinh, phát triển, biệt hóa và hóa hướng động Các interleukin hoạt động qua các lộ trình tín hiệu của thụ thể Toll-like, được sinh ra trong phản ứng viêm cấp tính và đáp ứng với nhiễm khuẩn hoặc tổn thương tế bào từ hệ miễn dịch bẩm sinh, như macrophage Mạng PPIN được xây dựng để tìm hiểu cơ chế và các lộ trình tín hiệu đặc hiệu trong phản ứng viêm ở bệnh nhân mắc Crohn.

Hình 1.6: Mạng tương tác protein-protein của interleukin-10

Theo hình 1.6, có 49 protein và 70 tương tác trong mạng này và chỉ có

Đa dƣợc lý mạng trong tìm kiếm đích tác dụng của thuốc chống ung thƣ

Nghiên cứu hoạt tính của thuốc thường dựa trên nguyên tắc chìa khóa và ổ khóa, trong đó thuốc giống như một chìa khóa chọn lọc phù hợp với một đích cụ thể Trong hai thập kỷ qua, thiết kế phối tử có chọn lọc nhằm tránh tác dụng không mong muốn đã trở thành mô hình nổi bật trong phát triển thuốc mới Tuy nhiên, sự phát triển của sinh học hậu genomic đã chỉ ra rằng hoạt động của thuốc trong cơ thể con người rất phức tạp Điều này cho thấy không chỉ có nhiều chìa khóa mở cùng một ổ khóa, mà một chìa khóa có thể mở được nhiều ổ khóa khác nhau Cơ chế tác dụng đa đích rất phổ biến trong thuốc kháng ung thư, thuốc điều trị bệnh lý thần kinh, kháng sinh và kháng viêm.

Đa dược lý mạng là một sơ đồ dạng graph tích hợp thông tin tương tác từ các mạng DPIN, PPIN và DDIN, trong đó thuốc hoặc protein đóng vai trò là các nút, và mối tương quan giữa chúng được thể hiện qua các cạnh nối Tương quan giữa các protein, hay còn gọi là interactome, liên quan đến các quá trình hóa sinh học như tổng hợp cấu trúc, truyền tín hiệu, vận chuyển và phosphoryl hóa Một nút có thể kết nối với nhiều nút khác, và những protein này được gọi là hub, trong khi các nút không liên kết được gọi là non-hub Trong PPIN, tầm quan trọng của một protein được xác định qua mức độ thay đổi trong cấu trúc của PPIN khi một nút bị loại bỏ, do đó, các protein hub thường được xem là quan trọng hơn trong việc bảo tồn cấu trúc tổng thể của mạng PPI cũng như hoạt động của tế bào.

Trong tế bào khối u, các đích phân tử liên quan đến ung thư thường có cấu trúc hỗn tạp, tạo điều kiện cho sự tương tác dễ dàng với các protein khác Nhiều nghiên cứu đã chỉ ra rằng trong tế bào ác tính, số lượng và tính chất của các đích này đóng vai trò quan trọng trong sự phát triển và tiến triển của bệnh ung thư.

Năm 2010, nghiên cứu của Sun và Zhao về 342 đích ung thư cho thấy 240 trong số đó, chiếm hơn 70%, là trung tâm của mạng lưới tương tác protein (PPIN) liên quan đến các bệnh ung thư phổ biến Trung bình, mỗi protein có khả năng tương tác với ít nhất một số lượng lớn các protein khác, cho thấy sự gia tăng tương tác giữa các protein trong nghiên cứu này.

4 protein khác Do đó PPIN cho phép phát hiện đích ung thƣ cũng nhƣ biomarker mới [41]

Trong những năm gần đây, nhiều nghiên cứu đã được công bố về việc xây dựng mạng PPIN nhằm hỗ trợ nghiên cứu thuốc kháng ung thư mới Nghiên cứu tiêu biểu của Kar và cộng sự đã phân tích cấu trúc các protein ung thư trong mạng ciSPIN, cho thấy rằng các protein này có khả năng tiếp xúc với khoảng 56% protein lân cận nhờ tính đa diện (nút đa diện, multi-interface hubs) Những nút này chiếm tỷ trọng lớn, lên đến hơn 76% trong mạng Đặc biệt, nghiên cứu cũng tập trung vào các tiểu mạng liên quan đến hoạt hóa các con đường tín hiệu-dịch chuyển và hoạt động xúc tác của protein kinase ERBB3.

Erb-B2 Receptor Tyrosine Kinase 3 là một yếu tố quan trọng trong con đường truyền tín hiệu Erb, và pertuzumab (Perjeta TM) đóng vai trò ức chế hiệu quả quá trình này Thuốc này hiện đang được sử dụng để điều trị ung thư vú HER2 dương tính, mang lại hy vọng cho nhiều bệnh nhân.

Nghiên cứu của Joshi và cộng sự đã xây dựng và phân tích mạng PPIN của 11 histon deacetylase (HDAC) trong tế bào T của người Nhóm enzym này đóng vai trò quan trọng trong quá trình deacetyl hóa lysine amino acid ở phần đuôi histon, và được xác định là mục tiêu phân tử quan trọng trong nghiên cứu phát triển thuốc điều trị ung thư Đây là lần đầu tiên các tác giả công bố và kiểm chứng những thông tin này.

Nghiên cứu đã phát hiện 200 tương tác mới giữa các histone deacetylase và các protein liên quan đến quá trình ubiquitination, điều hòa nhiễm sắc, biểu hiện gene, chế biến RNA thông tin (mRNA splicing) và điều hòa chu kỳ tế bào Đặc biệt, histone deacetylase 1, histone deacetylase 2 và histone deacetylase 11 được xác định là ba enzyme chủ chốt trong mạng lưới protein, qua đó mở rộng hiểu biết về cơ chế tác động của các histone deacetylase trong các quá trình sinh học quan trọng.

The School of Medicine and Pharmacy at VNU highlights the significance of histone deacetylase inhibitors in identifying new therapeutic targets and designing effective cancer treatments that focus on inhibiting the histone deacetylase enzyme.

Việc xây dựng mạng PPIN ngày nay trở nên dễ dàng hơn nhờ vào sự gia tăng thông tin về tinh thể nhiễu xạ tia X, gene và protein Nhiều cơ sở dữ liệu như BindingDB, ChEMBL và canSAR cung cấp thông tin về đích tác dụng, trong khi Drugbank, Therapeutic Target Database, SuperTarget và Mandator tích hợp thông tin về tương tác thuốc-đích phân tử Các cơ sở dữ liệu như SIDER, Chem2Bio2RDF, STITCH và PROMISCUOUS còn cung cấp thông tin về tương tác thuốc-đích gây phản ứng phụ Ngoài ra, dữ liệu về tương tác giữa các protein cũng có thể được khai thác từ cơ sở dữ liệu GEO.

Omnibus), MIPS, BIND hay PRIDE Các con đường chuyển hóa có thể tìm thấy từ KEGG hay BIGG [21]

Mạng PPIN là công cụ hữu ích trong việc xác định mục tiêu ung thư, nhận diện cơ chế và sàng lọc hợp chất kháng ung thư Phương pháp này cung cấp cái nhìn tổng quát về cơ chế bệnh sinh, từ đó giúp xây dựng chiến lược nghiên cứu và phát triển thuốc hiệu quả Với sự tiến bộ của công nghệ sinh học, sinh học phân tử và công nghệ thông tin, nghiên cứu PPIN ngày càng khả thi và sẽ được ứng dụng rộng rãi hơn trong tương lai.

Mạng PPIN đóng vai trò quan trọng trong việc xác định các đích kháng ung thư hiện nay Trong các phần tiếp theo, chúng tôi sẽ trình bày chi tiết cách xây dựng mạng PPIN và ứng dụng của nó trong việc tìm kiếm các đích điều trị ung thư mới.

QUY TRÌNH XÂY DỰNG MẠNG TƯƠNG TÁC PROTEIN-PROTEIN (PPIN)

Các công cụ phân tích

Hình 2.1: Logo phần mềm Cytoscape - công cụ phân tích và xây dựng hình ảnh trực quan cho PPIN

Cytoscape là phần mềm mã nguồn mở dựa trên Java, giúp mô tả và phân tích các mạng tương tác phân tử, tích hợp dữ liệu từ nhiều nguồn khác nhau Công cụ này hỗ trợ phân tích mạng PPI với các ứng dụng như MCODE, clusterMaker2 và JActiveModules, cũng như thực hiện phân tích làm giàu tập hợp gen thông qua Gene Set Enrichment Analysis, BiNGO, ClueGO và EnrichmentMap Cytoscape cung cấp các tính năng cơ bản như tích hợp và mô tả dữ liệu, đồng thời có sẵn các ứng dụng mẫu cho việc phân tích profile mạng và phân tử Cơ sở dữ liệu bệnh-đích-thuốc cho phép người dùng tìm kiếm thông tin liên quan đến các bệnh, đích hoặc thuốc, cấu trúc hóa học, và trình tự protein, từ đó tạo ra một mạng tổng thể trực tuyến về các mối liên hệ này.

Gephi là một công cụ xây dựng mạng PPIN không cần lập trình, có khả năng liên kết hàng trăm nghìn nút và hàng triệu cạnh, tuy nhiên yêu cầu máy tính có cấu hình mạnh để vẽ và xử lý mạng Là phần mềm mã nguồn mở và đa nền tảng, Gephi cung cấp nhiều thuật toán mạng nâng cao thông qua các plug-in, điều mà ít phần mềm khác có được Tuy nhiên, Gephi không có khả năng xử lý thông tin sinh học cụ thể, vì vậy nó chủ yếu được sử dụng để liệt kê, thống kê và trực quan hóa dữ liệu mạng.

Hình 2.2: Logo Phần mềm Gephi

2.1.3 Các phần mềm lập trình

Các phương pháp lập trình cho phân tích mạng quy mô lớn bao gồm các gói như igraph (hỗ trợ R, Python và C) và NetworkX (dành cho Python) Những công cụ này có thể được áp dụng một cách dễ dàng trong quá trình phân tích tin sinh học Hình 2.3 minh họa các phần mềm lập trình igraph và NetworkX.

Hình 2.3: Phần mềm lập trình igraph và NetworkX

Nguồn dữ liệu

Dữ liệu có thể được thu thập từ nhiều nguồn khác nhau, bao gồm các phương pháp thực nghiệm, cơ sở dữ liệu PPI sơ khai, siêu dữ liệu và dữ liệu dự đoán.

2.2.1 Các cơ sở dữ liệu tương tác protein (PPI)

Hình 2.4 và bảng 1 mô tả một số cơ sở dữ liệu có thể khai thác:

Hình 2.4: Các cơ sở dữ liệu về tương tác protein

Bảng 1: Các cơ sở dữ liệu về PPI

Cơ sở dữ liệu URL Mô tả

STRING (https://string-db.org/) là cơ sở dữ liệu sinh học cung cấp thông tin về các tương tác protein-protein đã được biết và dự đoán Cơ sở dữ liệu này tích hợp dữ liệu từ nhiều nguồn khác nhau, bao gồm thông tin thử nghiệm, các phương pháp dự đoán tính toán và bộ thu thập dữ liệu công cộng.

2000 sinh vật STRING đƣợc phát triển bởi các cơ sở giáo dục gồm CPR, EMBL, KU, SIB, TUD và UZH [27]

UniHi (http://www.unihi.org/) cho phép người dùng nhập các gen hoặc protein từ nhiều sinh vật khác nhau để khám phá các tương tác vật lý và quy định trong tương tác Kết quả được trình bày qua công cụ trực quan hóa của UniHi, cung cấp nhiều tùy chọn lọc tương tác, chẳng hạn như theo nguồn tương tác hoặc số lượng bằng chứng Người dùng có thể dễ dàng đánh dấu và phân tích các đích thuốc trong mạng lưới đã truy xuất Dữ liệu từ cơ sở dữ liệu UniHI hoặc do người dùng tải lên có thể được sử dụng để xây dựng mạng lưới mô, quá trình hoặc bệnh Ngoài ra, UniHi cũng cung cấp các công cụ để kiểm tra sự liên quan chức năng của các mạng phân tử.

InAct https://www.ebi.ac.uk/inta ct/

IntAct là một cơ sở dữ liệu và bộ công cụ để lập mô hình, lưu trữ và phân tích dữ liệu tương tác

BioGRIP là kho lưu trữ dữ liệu tương tác, cung cấp thông tin về DNA, RNA và các tương tác phân tử nhỏ Đây là nguồn cơ sở dữ liệu lớn nhất về nấm men với hơn 55.000 tương tác thiết yếu và hơn 130.000 tương tác khác BioGRIP liên tục cập nhật và hợp nhất các dữ liệu về các tương tác vật lý và tương tác chung, đảm bảo tính toàn vẹn và độ tin cậy của thông tin.

ChEMBL http://www.ebi.ac.uk/che mbl

canSAR là cơ sở dữ liệu sinh học chứa hơn 1 triệu hợp chất druglike có hoạt tính sinh học, giúp dự đoán tương tác thuốc-đích và thể hiện mối quan hệ giữa cấu trúc và hoạt tính Kho lưu trữ này bao gồm dữ liệu về biểu hiện gen, tương tác protein-protein và sàng lọc RNAi, cùng với thông tin về sàng lọc hóa chất và dược lý học STITCH là cơ sở dữ liệu tương tác hóa chất-protein, cung cấp thông tin về các mối tương quan đã biết hoặc được dự đoán, thông qua việc kết hợp thư viện, dữ liệu thử nghiệm và các cơ sở dữ liệu khác Tiêu chuẩn dự đoán tương tác protein-protein bằng phương pháp in silico cũng được áp dụng trong STITCH.

Việc tích hợp nhiều nguồn dữ liệu PPI là cần thiết do không có cơ sở dữ liệu nào bao quát tất cả các PPI hiện có Tuy nhiên, điều này gây ra thách thức vì các cơ sở dữ liệu khác nhau sử dụng định danh và loại dữ liệu khác nhau Để tránh sự rườm rà và mâu thuẫn, việc hiểu rõ sự khác biệt giữa các cơ sở dữ liệu là rất quan trọng.

1 Loại dữ liệu và siêu dữ liệu chúng bao gồm Ví dụ: một số cơ sở dữ liệu sẽ chỉ cung cấp cho bạn dữ liệu có nguồn gốc thực nghiệm và các cơ sở dữ liệu khác cũng sẽ bao gồm các dự đoán Tương tự, mức độ chi tiết đƣợc đƣa ra về thiết lập thử nghiệm thay đổi giữa các cơ sở dữ liệu

2 Các định danh đƣợc cơ sở dữ liệu sử dụng Cơ sở dữ liệu khác nhau đƣa ra các lựa chọn khác nhau về vấn đề này, vì vậy đôi khi bạn có thể phải ánh xạ các loại định danh khác nhau để tích hợp dữ liệu

2.2.2 Các phương pháp thực nghiệm

Các phương pháp thử nghiệm và tính toán có thể được sử dụng để thu thập dữ liệu về tương tác protein-protein, bao gồm phương pháp lai đôi nấm men (Y2H), khối phổ (MS) và protein microarray Bên cạnh đó, các phương pháp toán học như tiếp cận quy mô bộ gen, quy mô trình tự gen, tiếp cận dựa trên cấu trúc và tiếp cận dựa trên học máy cũng được áp dụng để dự đoán các tương tác này Trong bài viết này, chúng tôi sẽ trình bày một số phương pháp phát hiện tương tác protein tiêu biểu nhất.

Hệ thống lai đôi nấm men Y2H là một trong những phương pháp phổ biến nhất để phát hiện tương tác giữa các cặp protein Phương pháp này hoạt động bằng cách kích hoạt phiên mã gen reporter khi hai protein tương tác, dẫn đến phản ứng màu sắc Phản ứng này cho phép theo dõi sự tương tác giữa protein "con mồi" và protein "mồi" Hình 2.5 minh họa quy trình phát hiện tương tác protein-protein thông qua phương pháp Y2H.

Hình 2.5: Hệ thống lai đôi nấm men giúp phát hiện tương tác giữa các cặp protein

Hình 2.5 minh họa quá trình phát hiện tương tác protein-protein qua hệ thống lai đôi nấm men Trong Hình 2.5 (a), sự kết hợp giữa protein "mồi" và phần gắn kết với DNA không kích hoạt được gen reporter, dẫn đến việc không có sự thay đổi màu sắc và không thể theo dõi tương tác Tương tự, Hình 2.5 (b) cho thấy sự kết hợp của protein "mồi" và vùng kích hoạt chất kích hoạt phiên mã cũng không đủ để kích hoạt gen reporter Tuy nhiên, trong Hình 2.5 (c), có sự thay đổi đáng kể khi các yếu tố tương tác khác được thêm vào.

"Bait" và "prey" kết nối, giúp phần gắn kết với DNA và vùng kích hoạt gần nhau để kích hoạt gen báo cáo Kết quả là quá trình phiên mã diễn ra, dẫn đến sự thay đổi màu sắc có thể quan sát được.

Phương pháp khối phổ (MS) là kỹ thuật quan trọng trong việc phân tích thành phần của phức hợp protein Quá trình phân tích khối phổ diễn ra qua ba bước chính: gắn mồi, liên kết và sàng lọc phức, sau đó tiến hành phân tích các protein đã gắn kết.

[11] Hình 2.6 mô tả quá trình phân tích phức hợp protein bằng phương pháp khối phổ

Hình 2.6: Quá trình phân tích phức hợp protein bằng phương pháp khối phổ

Trong quy trình nghiên cứu, bước đầu tiên là gắn một "tag ái lực" vào protein đích Sau đó, protein mồi cùng với các protein liên kết sẽ được kết tủa vào một "cột ái lực" Các phức hợp protein này sẽ được lọc và phân tích bằng điện di SDS-PAGE, cho phép phân tách các protein theo khối lượng Tiếp theo, các dải protein sẽ được tách dựa vào kích thước và sau đó được xử lý bằng trypsin Cuối cùng, các thành phần protein sẽ được phát hiện qua MS và phân tích tin sinh học.

Phương pháp dựa trên cấu trúc (structure-based approaches):

Phương pháp docking là một phương pháp truyền thống để phát hiện tương tác protein-protein (PPI) thông qua việc dự đoán cấu trúc của các phức hợp protein dock Quá trình phát hiện các protein dock được thực hiện qua hai bước, trong đó một chức năng chấm điểm được phát triển để phân biệt giữa các dock đúng hướng và không đúng hướng.

Phân tích topo của PPIN

Phân tích tính năng topo của mạng giúp xác định các thành phần và cấu trúc con có ý nghĩa sinh học Có nhiều chiến lược khác nhau để thực hiện phân tích topo, trong đó nổi bật là các chiến lược phân tích trung tâm và cụm topo.

Hình 2.7: Các cách phân tích topo

2.3.1 Phân tích trung tâm Độ trung tâm (Centrality) đƣa ra một đánh về tầm quan trọng của một nút hoặc cạnh đối với kết nối hoặc luồng thông tin của mạng (Hình 2.8) Nó là một tham số hữu ích trong các mạng tín hiệu và nó thường được sử dụng khi tìm các đích thuốc Phân tích trung tâm trong PPIN thường nhằm mục

The School of Medicine and Pharmacy, VNU, addresses the question of which protein is the most important and why While centrality measures, such as edge centrality, can be analyzed, they are less commonly utilized in this context.

Hình 2.8: Nút trung tâm đại diện trong một mạng

Theo hình 2.8, các nút lớn hơn với màu đỏ sậm thể hiện giá trị trọng tâm cao hơn Định nghĩa về "trung tâm" có thể thay đổi tùy thuộc vào bối cảnh hoặc mục đích của phân tích Trung tâm có thể được đo bằng nhiều tham số và tiêu chuẩn khác nhau, chẳng hạn như bậc của nút.

Bậc của các nút trong mạng có thể được sử dụng để ước tính trung tâm, với các nút bậc cao (hub) đóng vai trò quan trọng trong việc duy trì các đặc điểm của mạng không có quy mô, như độ mạnh và hiệu ứng mạng con Tuy nhiên, phương pháp này chỉ là biện pháp cục bộ, không xem xét toàn bộ mạng và phụ thuộc nhiều vào kích thước của nó Các phép đo trung tâm toàn mạng là cần thiết để có cái nhìn tổng quát hơn về cấu trúc mạng.

Các phép đo trung tâm toàn mạng đánh giá toàn bộ mạng lưới và cung cấp giá trị chuẩn hóa độc lập với kích thước mạng Có nhiều loại phép đo trung tâm khác nhau, mỗi loại đưa ra định nghĩa riêng về tính trung tâm Hai trong số các phép đo trung tâm toàn mạng phổ biến nhất là độ trung tâm dựa trên sự gần gũi (closeness centralities) và độ trung tâm ở giữa (betweenness centralities).

Closeness centralities Độ trung tâm dựa trên sự gần gũi (Closeness centrality) chỉ ra một nút trong mạng có thể truy cập nhanh tới nhiều nút khác trong mạng

Nó thường được biểu diễn bằng nghịch đảo của tổng các khoảng cách topo trong đồ thị

Trong mạng, độ dài quãng đường ngắn nhất giữa các nút i và j được ký hiệu là d(i,j), với N là tổng số nút Tổng các khoảng cách này được gọi là độ xa (farness) của các nút, trong khi closeness centrality có thể được hiểu là nghịch đảo của độ xa Ví dụ trong hình 2.9 cho thấy ma trận khoảng cách cho biểu đồ bên trái và các phép tính closeness centrality bên phải, trong đó nút B được xác định là nút trung tâm nhất dựa trên các tham số này.

Hình 2.9: Ví dụ về cách tính closeness centrality của nút trong một graph

Độ trung tâm ở giữa (Betweenness centrality) xác định vị trí của nút trong mạng và khả năng kết nối các thành phần, với các nút có betweenness centrality cao nhất đóng vai trò quan trọng trong việc kiểm soát luồng truyền tin Những nút này có thể đại diện cho các protein quan trọng trong các đường truyền tín hiệu và là mục tiêu tiềm năng trong nghiên cứu thuốc Bằng cách kết hợp dữ liệu này với phân tích giao thoa, chúng ta có thể mô phỏng các tấn công nhắm đến mạng tương tác protein-protein và dự đoán các protein có khả năng trở thành ứng cử viên thuốc tốt hơn.

Betweenness centrality là một chỉ số quan trọng trong lý thuyết đồ thị, được định nghĩa là tỷ lệ giữa số lượng đường đi ngắn nhất đi qua một nút N và tổng số đường đi ngắn nhất giữa tất cả các cặp nút (v1, v2) Để tính toán betweenness centrality của nút N, ta cần xác định số lượng đường đi ngắn nhất kết nối hai nút v1 và v2 mà đi qua nút N, sau đó so sánh với tổng số đường đi ngắn nhất giữa v1 và v2.

Trong đó g ik là tổng số đường đi ngắn nhất từ j tới k, g jk (n i ) là tổng số đường đi ngắn nhất từ j tới k đi qua nút i

Hình 2.10: Ví dụ về betweenness centrality

Trong hình 2.10, ví dụ về betweenness centrality cho thấy rằng nếu loại bỏ một trong hai nút B hoặc C, vẫn có thể duy trì các đường dẫn đến nút E Tuy nhiên, nút D đóng vai trò trung tâm quan trọng, vì mọi con đường đều phải đi qua nó để kết nối với nút E.

Các phép đo phức tạp trong mạng có thể được xác định dựa trên phương pháp tính toán cụ thể Một ví dụ là việc tính toán các trung tâm thông qua "bước đi ngẫu nhiên" (random walk), trong đó các nút ngẫu nhiên được chọn làm điểm khởi đầu và "thời gian" hoặc "tốc độ" để tiếp cận các nút khác được tính toán Phương pháp này có thể kết hợp với trọng số được gán cho các nút hoặc cạnh trong đồ thị, tương tự như cách thuật toán Google PageRank gán trọng số cho mỗi trang web.

2.3.2 Phân tích cụm (Clustering analysis)

Tìm kiếm các cụm trong mạng là chiến lược hiệu quả để giảm độ phức tạp và tạo ra các mô-đun chức năng, như phức hợp protein, phản ánh tính sinh học của mạng Một số thuật ngữ phổ biến thường được sử dụng trong phân tích cụm bao gồm các khái niệm cơ bản liên quan đến cấu trúc và chức năng của mạng.

Hình 2.11: Một số khải niệm trong phân tích cụm

Cụm (community/cluster) là nhóm các nút có mối liên kết chặt chẽ hơn so với phần còn lại của mạng Định nghĩa cụ thể về một cụm phụ thuộc vào phương pháp hoặc thuật toán xác định Trong lĩnh vực PPIN, cụm được phân chia thành hai loại chính: mô đun chức năng và phức hợp protein.

Mô đun trong sinh học là các đơn vị chức năng trao đổi, nơi các nút protein không cần tương tác đồng thời hoặc trong cùng một không gian Đặc điểm nổi bật của mô đun là các thuộc tính chức năng nội tại của nó vẫn giữ nguyên khi được đặt trong bối cảnh khác.

Phức hợp là một nhóm các protein tương tác đồng thời trong cùng một không gian, tạo thành một hệ thống đa protein ổn định.

Các bước cơ bản xây dựng mạng tương tác PPIN

(seed proteins), là phân tử chính được quan tâm, và là xương sống của toàn mạng lưới PPIN

Giả thuyết cuối cùng được tìm ra trong quá trình phân tích mạng lưới sẽ liên quan trực tiếp đến protein gốc này

Bước 2: Thu thập tương tác protein-protein

Có thể thu thập tương tác từ các dữ liệu có sẵn như trong bảng 1 hoặc tiến hành các thực nghiệm để thu được các tương tác protein

Bước 3: Xây dựng cấu trúc mạng PPIN

Sử dụng phần mềm để xây dựng cấu trúc PPIN nhƣ cytoscape, igraph, Gephi, Network X

Bước 4: phân tích cấu trúc mạng lưới với mục đích chính để tìm ra các nút hub (đây có thể là các đích tiềm năng)

Phân tích mạng có thể được thực hiện qua hai phương pháp chính: phân tích trung tâm và phân tích cụm Mục tiêu của phân tích trung tâm là xác định các nút quan trọng nhất trong mạng bằng cách sử dụng các chỉ số khác nhau để tính toán trọng tâm Các thông số quan trọng bao gồm bậc của nút, độ trung tâm ở giữa (betweenness centrality) và độ trung tâm dựa trên sự gần gũi (closeness centrality) để xác định các nút hub Bậc của các nút phản ánh số lượng cạnh kết nối, với các nút có bậc cao thường là những nút quan trọng và có nhiều tương tác trong mạng lưới Việc tác động vào những nút này có thể gây ảnh hưởng lớn đến toàn bộ mạng tương tác.

Mục đích của phân tích cụm là xác định các thành phần có liên kết chặt chẽ, nhằm đại diện cho các phức hợp protein và hệ thống.

PHÂN TÍCH MỘT SỐ VÍ DỤ VỀ ỨNG DỤNG CỦA ĐA DƢỢC LÝ MẠNG TRONG NGHIÊN CỨU ĐÍCH PHÂN TỬ LIÊN QUAN ĐẾN UNG THƢ

Ung thƣ và đích phân tử

Ung thư là một bệnh lý ác tính của tế bào, khi bị kích thích bởi các tác nhân gây ung thư, tế bào tăng sinh vô hạn và không có tổ chức, không tuân theo các cơ chế kiểm soát sự phát triển của cơ thể.

Ứng dụng của nghiên cứu đa dƣợc lý mạng trong tìm kiếm đích phân tử liên quan đến ung thƣ

tử liên quan đến ung thƣ

Các phương pháp đa dược lý mạng nhằm phát hiện các đích tác dụng chưa biết của thuốc hiện tại, còn được gọi là thuốc tái nghiên cứu Để thực hiện phương pháp này, cần tích hợp dữ liệu từ nhiều lĩnh vực khác nhau như mô hình tính toán, hóa học tổng hợp, nghiên cứu in vitro/in vivo trong dược lý và nghiên cứu lâm sàng.

Nhiều loại thuốc, mặc dù không được thiết kế có chủ đích, lại có tác động đa mục tiêu Ví dụ, aspirin không chỉ giảm đau nhẹ và hạ sốt mà còn có tác dụng chống viêm, điều trị bệnh viêm khớp dạng thấp, viêm màng ngoài tim và bệnh Kawasaki Ngoài ra, aspirin còn được sử dụng để phòng ngừa các cơn thiếu máu cục bộ thoáng qua, đột quỵ, đau tim, sảy thai và thậm chí là ung thư Tương tự, Sildenafil (Viagra) ban đầu được phát triển cho cao huyết áp và bệnh thiếu máu cục bộ, nhưng hiện nay chủ yếu được sử dụng để điều trị rối loạn cương dương.

Hình 3.1: Các ứng dụng của đa dƣợc lý mạng

Xác định đích phân tử mới

Sàng lọc và tìm kiếm thuốc

Cá thể hóa điều Hiệu lực trên trị đích/ngoài đích Tiên lƣợng và tỷ lệ sống của bệnh nhân

Hình 3.2: Ứng dụng của đa dƣợc lý mạng trong tìm kiếm thuốc mới

Phân tích một số ví dụ về ứng dụng của đa dƣợc lý mạng trong nghiên cứu đích phân tử liên quan đến ung thƣ

Đa dược lý mạng đã trở thành một công cụ quan trọng trong việc tìm kiếm đích phân tử cho các bệnh phức tạp, đặc biệt là ung thư Bài viết này sẽ phân tích một số ví dụ tiêu biểu về ứng dụng của nghiên cứu đa dược lý mạng trong việc phát hiện các đích phân tử liên quan đến ung thư, nhằm cung cấp cái nhìn thực tế hơn về tiềm năng của phương pháp này.

3.3.1 Ví dụ 1 Xác định gen đích ung thư vú bằng mạng tương tác PPIN

Nghiên cứu cứu đƣợc công bố bởi nhóm tác giả Bafna, Divya Isaac và Arnold Emerson, đăng trên tạp chí International Journal of Cancer Research, tập 13, số 2, năm 2017 [5]

Ung thư vú thường khởi phát từ các tuyến sản xuất sữa hoặc các ống dẫn sữa, kết nối từ thùy đến núm vú Nhiều lý thuyết mạng đã được áp dụng để xác định các mục tiêu phân tử trong nghiên cứu điều trị ung thư theo hướng đích.

The protein-protein interaction network was constructed and analyzed using Network Analyzer Genes associated with breast cancer were sourced from the KEGG database to create a breast cancer subnetwork The analysis of this network was conducted based on clustering coefficient values.

The study conducted by the School of Medicine and Pharmacy, VNU, focuses on the clustering coefficient and the shortest path length (L-shortest path length) to evaluate network strength Deletion analysis is performed on the subnetworks, identifying the top 10 genes with the highest hub values Additionally, measures of betweenness centrality and closeness centrality are utilized in the deletion analysis to assess the network's structural integrity.

Betweenness centrality được chọn làm tham số chính trong nghiên cứu này Số đột biến của các gen liên quan được lấy từ dbSNP, và các gen có tần suất đột biến cao được xác định thông qua giá trị điểm z (z-score) Mục tiêu của nghiên cứu là phân tích các gen gây ung thư vú bằng cách sử dụng mạng tương tác protein-protein, từ đó xác định các gen đích tiềm năng có liên quan đến sự tiến triển của bệnh.

Các tương tác protein được thu thập từ BioGRID và được xây dựng mạng bằng phần mềm Cytoscape (3.4.0) Các gen liên quan đến con đường gây ung thư vú được trích xuất từ KEGG disease, với tổng cộng 130 gen tham gia vào cơ chế này Để xác định các gen liên quan, chúng tôi đã sử dụng cơ sở dữ liệu dbSNP Các đột biến gen được chuẩn hóa theo chiều dài gen bằng cách chia số lượng đột biến cho chiều dài tương ứng của từng gen.

Các gen đột biến có ý nghĩa thống kê (p ≤ 0,05) đƣợc đánh giá bằng cách sử dụng các giá trị z-score của số đột biến gen

Trong đó X là số đột biến chuẩn hóa cho gen, μ là mức trung bình của điểm chuẩn và σ là độ lệch chuẩn tương ứng

Mạng tương tác có chứa 19634 nút và 270970 cạnh như trong hình 3.3 Các nút được biểu thị bằng màu xanh dương trong khi các cạnh có màu xám

Số lƣợng gen thu đƣợc là 130 và sau đó sử dụng cytoscape (3.4.0) để xây

Hình 3.3: Mạng PPIN của ung thƣ vú

(a) Mạng PPIN, (b) Mạng con PPIN của ung thƣ vú

Các thông số mạng cơ bản được tính bằng Network Analyzer cho thấy độ dài đường đi ngắn nhất (L) là 2,85 và hệ số phân cụm (C) là 0,286 Khi phân tích xóa, việc loại bỏ các gen có số lượng hub cao nhất dẫn đến L tăng lên 4,177 và C giảm xuống 0,188, cho thấy vai trò quan trọng của các hub trong sự bền vững của mạng Ngoài ra, khi xóa các gen có giá trị closeness centrality cao nhất, L đạt 3,547 và C là 0,251, mặc dù các giá trị này không lệch nhiều so với thông số mạng con của ung thư vú, nhưng L lại có xu hướng tăng lên.

Sau khi loại bỏ 10 gen có giá trị betweenness centrality cao nhất, giá trị L đạt 3.195 và giá trị C là 0.187 So với phân tích mạng của ung thư vú, giá trị C thấp hơn trong khi giá trị L lại cao hơn.

Sau đó, betweenness centrality là thông số đƣợc chọn để so sánh các gen là hệ số phân cụm thấp hơn (hình 3.4) và đường đi ngắn nhất cao hơn

(hình 3.5) tương ứng khi các gen có 10 betweenness centrality cao nhất bị xóa so với các gen có 10 closeness centrality cao nhất bị xóa

Hình 3.4: Giá trị hệ số phân cụm của mạng con ung thƣ vú khi xóa 10 gen có giá trị hub, betweenness và closenness

Hình 3.5: Giá trị đường đi ngắn nhất của mạng con ung thư vú khi xóa

10 gen có giá trị hub, betweenness và closenness

Các SNPs liên quan đến mạng con ung thư vú đã được thu thập và chuẩn hóa theo chiều dài gen Các gen trung tâm có ý nghĩa thống kê được xác định thông qua hàm z-score, với 10 gen đầu có giá trị betweenness centrality cao nhất được hiển thị trong hình 3.6 Trong số đó, hai gen có điểm z dương là 4851 (họ NOTCH của các protein) và 1956 (họ EGFR).

Hình 3.6: Các giá trị đột biến có ý nghĩa thống kê của gen có betweenness centraility cao nhất BÀN LUẬN

Mạng lưới tương tác protein-protein của các protein ung thư vú được xây dựng từ cơ sở dữ liệu KEGG pathway Việc xóa nút hoặc gen trong mạng giúp hiểu rõ hơn về sự bền vững của nó Khi loại bỏ 10 gen trung tâm lớn nhất, chiều dài đường đi ngắn nhất tăng lên, trong khi hệ số phân cụm giảm Phân tích xóa cho thấy rằng các gen liên quan có ảnh hưởng lớn đến cơ chế ung thư khi các gen trung tâm bị loại bỏ.

Research concludes that the NOTCH-1 protein group and EGFR protein are the most effective targets for developing drugs that disrupt protein-protein interaction networks in breast cancer These genes exhibit high betweenness centrality, which indicates the centrality of the proteins within the network.

Các đỉnh kết nối cao trong mạng tương tác protein thường đóng vai trò quan trọng, và việc loại bỏ những đỉnh này có thể dẫn đến khả năng gây chết Hai gen này có hệ số phân cụm tương đối thấp và chiều dài đường đi ngắn nhất cao trong phân tích xóa Để tăng độ chính xác trong việc xác định các protein mục tiêu từ 10 protein có betweenness centrality cao nhất, các giá trị đột biến có ý nghĩa dương tính đã được xem xét Phân tích mạng cũng có thể được áp dụng để suy ra các chức năng của protein.

Đích NOTCH có thể mang lại giá trị điều trị trong ung thư vú, với các con đường NOTCH truyền tin đóng vai trò quan trọng trong sự phát triển và tiến triển của bệnh Các thụ thể EGFR đã được nghiên cứu sâu rộng trong ung thư vú, với các yếu tố tăng trưởng như EGFR, c-kit và đột biến p53 cùng với các cơ chế tăng sinh như kinase protein (MAPK) và các thành phần protein kinase của ERK là yếu tố quyết định hóa trị liệu trong ung thư vú bộ ba âm tính (TNBC) Ung thư vú bộ ba âm tính thường liên quan đến biểu hiện EGFR.

3.3.2 Ví dụ 2: Xác định các gen đích điều trị mới và cơ chế trong ung thư tuyến tụy bằng phân tích tổng hợp

Nghiên cứu đƣợc công bố bởi nhóm tác giả Mohammad Saberi Anvar, Zarrin Minuchehr, Mohsen Shahlaei, Samira Kheitan, đăng trên tạp chí

Biochemistry and biophysics Reports, tập 13, năm 2018 [3]

Ung thư tuyến tụy hiện đang đứng thứ 4 trong danh sách những nguyên nhân gây tử vong do ung thư trên toàn cầu Mặc dù đã có những tiến bộ đáng kể trong chẩn đoán và quản lý bệnh, nhưng vẫn còn nhiều thách thức cần vượt qua Gần đây, nghiên cứu sử dụng công nghệ microarray đã giúp xác định các gen có thể liên quan đến ung thư tuyến tụy thông qua việc phân tích các gen có biểu hiện khác thường (DEG), từ đó mở ra hướng đi mới cho các phương pháp điều trị tiềm năng.

XÂY DỰNG MẠNG TƯƠNG TÁC

Thu thập dữ liệu microarray :

Bộ dữ liệu về microarry đƣợc lấy từ CSDL GEO (Gene Expression

Dữ liệu được chọn từ Omnibus của NCBI (National Center for Biotechnology Information) bao gồm các mẫu ung thư tuyến tụy người với kích thước lớn hơn 5 mẫu Các bệnh nhân trong nghiên cứu này không được điều trị đặc biệt như xạ trị hoặc hóa trị, và loại nghiên cứu của tập dữ liệu là nghiên cứu biểu hiện.

Phân tích các gen biểu hiện khác thường (DEG-Differentially expressed genes):

Tiêu đề	Tổng Quan Nghiên Cứu Đa Dược Lý Mạng Trong Tìm Kiếm Đích Phân Tử Liên Quan Đến Ung Thư
Tác giả	Lý Thị Duyên
Người hướng dẫn	TS. Lê Thị Thu Hường, PGS.TS. Lê Đức Hậu
Trường học	Đại học Quốc Gia Hà Nội
Chuyên ngành	Dược học
Thể loại	Khóa Luận Tốt Nghiệp
Năm xuất bản	2018
Thành phố	Hà Nội

Định dạng
Số trang	67
Dung lượng	2,62 MB