CHƯƠNG 3. MÔ HÌNH VÀ KỸ THUẬT XÁC ĐỊNH GENE CHỈ THỊ UNG THƢ BẰNG MẠNG PHỨC HỢP
3.2. Thực nghiệm và kết quả
3.2.1. Triển khai thực nghiệm
C-Biomarker.net đƣợc tích hợp vào Cytoscape nhƣ một ứng dụng bổ trợ thông qua ngôn ngữ lập trình Java. Đầu tiên, người dùng có thể sử dụng chức năng File\Import\Network from File từ Cytoscape để đọc tệp mạng dưới dạng danh sách liền kề bao gồm 3 cột đƣợc phân tách bằng một ký tự tab và có tiêu đề bằng bộ ba nút (Start, End, Direction) trong đó nút Start biểu thị nút nguồn, End biểu thị nút đích và Direction cho biết nếu cạnh hiện tại giữa cặp (Start, End) là
vô hướng (0) hay có hướng (1). Nếu tệp nằm trong phần mở rộng XML, chẳng hạn nhƣ tệp đƣợc tải xuống từ cơ sở dữ liệu KEGG, chức năng “Convert KEGG xml to text” trong phần Extensions có thể đƣợc khai thác để chuyển đổi nó thành tệp mạng và sau đó tệp mạng này có thể đƣợc nhập vào phần mềm. Phần mềm này có thể hoạt động rất hiệu quả với các mạng quy mô lớn bằng chế độ chạy song song trên GPU.
Để tiến hành phân tích mạng, luận án đã sử dụng 16 mạng ung thƣ từ cơ
sở dữ liệu KEGG (www.geneome.jp/kegg) [123-125]. Mỗi mạng không đồng nhất là một con đường ung thư, trong đó sự tương tác giữa protein và protein được thể hiện bằng một nút và một liên kết tương ứng với một protein.
Luận án đã áp dụng phương pháp được đề xuất với thuật toán song song trên GPU để xác định các dấu ấn sinh học trên các mạng truyền tín hiệu tế bào phân tử sinh học ung thƣ này.
Sau khi cài đặt, C-Biomarker.net sẽ đƣợc tải từ App Cytoscape. Quá trình xác định gene dấu ấn sinh học từ C-Biomarker.net bao gồm 4 bước: bước 1 và
96
bước 2 được thực hiện trong phần mềm, bước 3 và bước 4 được thực hiện bằng các công cụ khác có sẵn. Cụ thể:
Bước 1: Tải mạng
Bước 1.1: Tải xuống tệp mạng (XML) từ cơ sở dữ liệu KEGG tại địa chỉ:
https://www.geneome.jp/kegg/pathway.html#disease.
Bước 1.2: Chuyển tệp XML đã tải xuống thành tệp văn bản bằng nút
Convert KEGG XML to text trong Extension tab.
Bước 1.3: Tải tệp đã chuyển đổi vào Cytoscape bằng cách chọn File \
Import \ Network.
Bước 2: Xếp hạng các gene dấu ấn sinh học
Thực hiện viện xếp hạng gene bệnh tại nút Biomarker trên menu C- Biomarker.net. Kết quả ta đƣợc danh sách các nút đã đƣợc xếp hạng từ cao xuống thấp theo R-Core và HC nhƣ Hình 3.5.
Hình 3.5 Giao diện kết quả khi chạy thuật toán
97
Bước 3: Tìm kiếm bằng chứng từ PubMed
Bước 3.1. Đọc kết quả. Trong Hình 3.4, kết quả là danh sách các nút đã
được xếp hạng từ cao xuống thấp theo R-Core và HC. Trong trường hợp kết quả không đƣợc xếp hạng từ cao xuống thấp, cần phải sao chép dữ liệu trong tệp và đƣa vào excel để sắp xếp một cách thủ công. Các nút Biomarker là 3-10 nút đƣợc xếp hạng cao nhất nằm ở lõi trong cùng của mạng. Nói cách khác, dấu ấn sinh học là các nút nhạy cảm (dễ bị thay đổi) nằm trong vùng lõi trong cùng của mạng.
Bước 3.2. Chuyển đổi từ gene ID (số) sang gene Symbol: bằng cách truy
cập vào địa chỉ trang web: https://www.geneome.jp/kegg/tool/conv_id.html để thực hiện việc chuyển đổi.
Kết quả sau khi chuyển từ gene ID sang gene Symbol đƣợc thể hiện ở Bảng 3.2.
Bảng 3.2 Kết quả top 3 dấu ấn sinh học lớn nhất
Mạng Số nốt Số
cạnh G1 G2 G3
Bệnh bạch cầu
dòng tủy cấp
tính
66 53 FLT3 KIT GRB2
Ung thƣ biểu
mô tế bào đáy 63 20 SMO SUFU KIF7
Ung thƣ bàng
quang 29 16 CDKN2A CDKN1A CCND1
Ung thƣ vú 148 104 FGF22 FGF20 FGF17
Bệnh bạch cầu
dòng tủy mãn
tính
72 42 BCR ABL1 GRB2
98
Ung thƣ đại
trực tràng 79 56 EGF AREG EREG
Ung thƣ nội
mạc tử cung 55 34 EGF EGFR PDPK1
Ung thƣ dạ
dày 141 73 FGF22 FGF20 FGF17
U thần kinh
đệm 78 77 CALML3 CALML6 CALM1
U ác tính 71 27 PDGFD FGF22 FGF10
Ung thƣ phổi
không phải tế
bào nhỏ
73 59 EGF TGFA ALK
Ung thƣ tuyến
tụy 78 52 KRAS EGF TGFA
Ung thƣ tuyến
tiền liệt 94 43 PDGFD PDGFC EGF
Ung thƣ biểu
mô tế bào
thận
60 35 RAC1 CDC42 PAK6
Ung thƣ phổi
tế bào nhỏ 89 36 LAMA2 LAMA3 COL4A6
Ung thƣ tuyến
giáp 37 20 PAX8 PPARG RXRG
Để tìm kiếm bằng chứng về gene dấu ấn sinh học người dùng cần truy cập vào địa chỉ trang web: https://pubmed.ncbi.nlm.nih.gov/
Thông tin về bằng chứng tìm kiếm đƣợc của các bệnh đƣợc thể hiện cụ thể nhƣ sau:
99
Bảng 3.3. Thông tin bằng chứng của bệnh
Mạng G1 PubMed
ID G2 PubMed
ID G3 PubMed
ID
Bệnh bạch
cầu dòng
tủy cấp tính
FLT3 31217189 KIT 32678289 GRB2 26895103
Ung thƣ
biểu mô tế
bào đáy
SMO 32796174 SUFU 29186568 KIF7
Ung thƣ
bàng quang CDKN2A 30258198 CDKN1A 29602637 CCND1 23887292
Ung thƣ vú FGF22 FGF20 FGF17
Bệnh bạch
cầu dòng
tủy mãn
tính
BCR 31311809 ABL1 34185393 GRB2 23399893
Ung thƣ đại
trực tràng EGF 33833529 AREG 32943459 EREG 26869404
Ung thƣ nội
mạc tử cung EGF 20579378 EGFR 27092881 PDPK1
Ung thƣ dạ
dày FGF22 FGF20 FGF17
U thần kinh
đệm CALML3 CALML6 CALM1
U ác tính PDGFD 23462921 FGF22 FGF10
Ung thƣ
phổi không
phải tế bào
nhỏ
EGF 28348561 TGFA 21528670 ALK 29455675
100
Ung thƣ
tuyến tụy KRAS 32005945 EGF 29125273 TGFA
Ung thƣ
tuyến tiền
liệt
PDGFD 33918816 PDGFC EGF 24435707
Ung thƣ
biểu mô tế
bào thận
RAC1 32371578 CDC42 16343437 PAK6
Ung thƣ
phổi tế bào
nhỏ
LAMA2 LAMA3 COL4A6
Ung thƣ
tuyến giáp PAX8 21878896 PPARG 27250077 RXRG
Bước 4: Phân tích chức năng sinh học
Để phân tích chức năng sinh học, người dùng cần truy cập vào địa chỉ website: https://david.ncifcrf.gov/tools.jsp.
Kết quả chi tiết về phân tích chức năng sinh học của các gene dấu ấn sinh học đƣợc thể hiện trong phần phụ lục ở cuối luận án.