Triển khai thực nghiệm

Một phần của tài liệu Phát triển các mô hình và kỹ thuật mạng phức hợp Để khai phá dữ liệu về bệnh ung thư (Trang 97 - 102)

CHƯƠNG 3. MÔ HÌNH VÀ KỸ THUẬT XÁC ĐỊNH GENE CHỈ THỊ UNG THƢ BẰNG MẠNG PHỨC HỢP

3.2. Thực nghiệm và kết quả

3.2.1. Triển khai thực nghiệm

C-Biomarker.net đƣợc tích hợp vào Cytoscape nhƣ một ứng dụng bổ trợ thông qua ngôn ngữ lập trình Java. Đầu tiên, người dùng có thể sử dụng chức năng File\Import\Network from File từ Cytoscape để đọc tệp mạng dưới dạng danh sách liền kề bao gồm 3 cột đƣợc phân tách bằng một ký tự tab và có tiêu đề bằng bộ ba nút (Start, End, Direction) trong đó nút Start biểu thị nút nguồn, End biểu thị nút đích và Direction cho biết nếu cạnh hiện tại giữa cặp (Start, End) là

vô hướng (0) hay có hướng (1). Nếu tệp nằm trong phần mở rộng XML, chẳng hạn nhƣ tệp đƣợc tải xuống từ cơ sở dữ liệu KEGG, chức năng “Convert KEGG xml to text” trong phần Extensions có thể đƣợc khai thác để chuyển đổi nó thành tệp mạng và sau đó tệp mạng này có thể đƣợc nhập vào phần mềm. Phần mềm này có thể hoạt động rất hiệu quả với các mạng quy mô lớn bằng chế độ chạy song song trên GPU.

Để tiến hành phân tích mạng, luận án đã sử dụng 16 mạng ung thƣ từ cơ

sở dữ liệu KEGG (www.geneome.jp/kegg) [123-125]. Mỗi mạng không đồng nhất là một con đường ung thư, trong đó sự tương tác giữa protein và protein được thể hiện bằng một nút và một liên kết tương ứng với một protein.

Luận án đã áp dụng phương pháp được đề xuất với thuật toán song song trên GPU để xác định các dấu ấn sinh học trên các mạng truyền tín hiệu tế bào phân tử sinh học ung thƣ này.

Sau khi cài đặt, C-Biomarker.net sẽ đƣợc tải từ App Cytoscape. Quá trình xác định gene dấu ấn sinh học từ C-Biomarker.net bao gồm 4 bước: bước 1 và

96

bước 2 được thực hiện trong phần mềm, bước 3 và bước 4 được thực hiện bằng các công cụ khác có sẵn. Cụ thể:

Bước 1: Tải mạng

Bước 1.1: Tải xuống tệp mạng (XML) từ cơ sở dữ liệu KEGG tại địa chỉ:

https://www.geneome.jp/kegg/pathway.html#disease.

Bước 1.2: Chuyển tệp XML đã tải xuống thành tệp văn bản bằng nút

Convert KEGG XML to text trong Extension tab.

Bước 1.3: Tải tệp đã chuyển đổi vào Cytoscape bằng cách chọn File \

Import \ Network.

Bước 2: Xếp hạng các gene dấu ấn sinh học

Thực hiện viện xếp hạng gene bệnh tại nút Biomarker trên menu C- Biomarker.net. Kết quả ta đƣợc danh sách các nút đã đƣợc xếp hạng từ cao xuống thấp theo R-Core và HC nhƣ Hình 3.5.

Hình 3.5 Giao diện kết quả khi chạy thuật toán

97

Bước 3: Tìm kiếm bằng chứng từ PubMed

Bước 3.1. Đọc kết quả. Trong Hình 3.4, kết quả là danh sách các nút đã

được xếp hạng từ cao xuống thấp theo R-Core và HC. Trong trường hợp kết quả không đƣợc xếp hạng từ cao xuống thấp, cần phải sao chép dữ liệu trong tệp và đƣa vào excel để sắp xếp một cách thủ công. Các nút Biomarker là 3-10 nút đƣợc xếp hạng cao nhất nằm ở lõi trong cùng của mạng. Nói cách khác, dấu ấn sinh học là các nút nhạy cảm (dễ bị thay đổi) nằm trong vùng lõi trong cùng của mạng.

Bước 3.2. Chuyển đổi từ gene ID (số) sang gene Symbol: bằng cách truy

cập vào địa chỉ trang web: https://www.geneome.jp/kegg/tool/conv_id.html để thực hiện việc chuyển đổi.

Kết quả sau khi chuyển từ gene ID sang gene Symbol đƣợc thể hiện ở Bảng 3.2.

Bảng 3.2 Kết quả top 3 dấu ấn sinh học lớn nhất

Mạng Số nốt Số

cạnh G1 G2 G3

Bệnh bạch cầu

dòng tủy cấp

tính

66 53 FLT3 KIT GRB2

Ung thƣ biểu

mô tế bào đáy 63 20 SMO SUFU KIF7

Ung thƣ bàng

quang 29 16 CDKN2A CDKN1A CCND1

Ung thƣ vú 148 104 FGF22 FGF20 FGF17

Bệnh bạch cầu

dòng tủy mãn

tính

72 42 BCR ABL1 GRB2

98

Ung thƣ đại

trực tràng 79 56 EGF AREG EREG

Ung thƣ nội

mạc tử cung 55 34 EGF EGFR PDPK1

Ung thƣ dạ

dày 141 73 FGF22 FGF20 FGF17

U thần kinh

đệm 78 77 CALML3 CALML6 CALM1

U ác tính 71 27 PDGFD FGF22 FGF10

Ung thƣ phổi

không phải tế

bào nhỏ

73 59 EGF TGFA ALK

Ung thƣ tuyến

tụy 78 52 KRAS EGF TGFA

Ung thƣ tuyến

tiền liệt 94 43 PDGFD PDGFC EGF

Ung thƣ biểu

mô tế bào

thận

60 35 RAC1 CDC42 PAK6

Ung thƣ phổi

tế bào nhỏ 89 36 LAMA2 LAMA3 COL4A6

Ung thƣ tuyến

giáp 37 20 PAX8 PPARG RXRG

Để tìm kiếm bằng chứng về gene dấu ấn sinh học người dùng cần truy cập vào địa chỉ trang web: https://pubmed.ncbi.nlm.nih.gov/

Thông tin về bằng chứng tìm kiếm đƣợc của các bệnh đƣợc thể hiện cụ thể nhƣ sau:

99

Bảng 3.3. Thông tin bằng chứng của bệnh

Mạng G1 PubMed

ID G2 PubMed

ID G3 PubMed

ID

Bệnh bạch

cầu dòng

tủy cấp tính

FLT3 31217189 KIT 32678289 GRB2 26895103

Ung thƣ

biểu mô tế

bào đáy

SMO 32796174 SUFU 29186568 KIF7

Ung thƣ

bàng quang CDKN2A 30258198 CDKN1A 29602637 CCND1 23887292

Ung thƣ vú FGF22 FGF20 FGF17

Bệnh bạch

cầu dòng

tủy mãn

tính

BCR 31311809 ABL1 34185393 GRB2 23399893

Ung thƣ đại

trực tràng EGF 33833529 AREG 32943459 EREG 26869404

Ung thƣ nội

mạc tử cung EGF 20579378 EGFR 27092881 PDPK1

Ung thƣ dạ

dày FGF22 FGF20 FGF17

U thần kinh

đệm CALML3 CALML6 CALM1

U ác tính PDGFD 23462921 FGF22 FGF10

Ung thƣ

phổi không

phải tế bào

nhỏ

EGF 28348561 TGFA 21528670 ALK 29455675

100

Ung thƣ

tuyến tụy KRAS 32005945 EGF 29125273 TGFA

Ung thƣ

tuyến tiền

liệt

PDGFD 33918816 PDGFC EGF 24435707

Ung thƣ

biểu mô tế

bào thận

RAC1 32371578 CDC42 16343437 PAK6

Ung thƣ

phổi tế bào

nhỏ

LAMA2 LAMA3 COL4A6

Ung thƣ

tuyến giáp PAX8 21878896 PPARG 27250077 RXRG

Bước 4: Phân tích chức năng sinh học

Để phân tích chức năng sinh học, người dùng cần truy cập vào địa chỉ website: https://david.ncifcrf.gov/tools.jsp.

Kết quả chi tiết về phân tích chức năng sinh học của các gene dấu ấn sinh học đƣợc thể hiện trong phần phụ lục ở cuối luận án.

Một phần của tài liệu Phát triển các mô hình và kỹ thuật mạng phức hợp Để khai phá dữ liệu về bệnh ung thư (Trang 97 - 102)

Tải bản đầy đủ (PDF)

(136 trang)