4. Ý nghĩa khoa học và thực tiễn của đề tài
4.2.3 Thông tin đặc trưng của virus cúm Việt Nam
Hệ thống IVDBVN đã xây dựng chức năng cho phép người sử dụng tìm được các luật đặc trưng của virus cúm Việt Nam. Chức năng này cho phép người sử dụng tìm ra
được các luật giống nhau cũng như khác nhau của hai hay nhiều quốc gia. Chức năng
này rất là hữu ích, nó cho phép người dùng đối chiếu và so sánh các luật một cách trực
quan. Danh sách các luật kết hợp của hai quốc gia cần xem xét sẽ nằm ở hai khung. Người sử dụng chỉ cần nhấn nút khác nhau hoặc giống nhau là sẽ thu được các luật cần
tìm.
Trong quá trình thử nghiệm, chức năng này đã được ứng dụng để tìm ra các thông tin
đặc trưng của virus cúm Việt Nam. Nghĩa là tìm ra các luật chỉ có ở CSDL virus cúm
Việt Nam.
Chúng ta định nghĩa luật giống nhau là: Hai luật giống nhau khi vế trái của trái của luật
này bằng với vế trái của luật kia. Và đồng thời vế phải của hai luật đó cũng bằng nhau. Để thực hiện, ta tiến hành khai phá dữ liệu virus cúm ba quốc gia: Việt Nam,
Indonesia, Thái Lan.
Thông số chung cho bài toán: Minsupport=10%; Minconfidence=50%
Sau đây là các bước thực hiện trên hệ thống IVDBVN:
Bước 1: Chọn dữ liệu Việt Nam cho khung bên trái, dữ liệu Indonesia cho khung bên phải.
Hình 4.3: Khai phá dữ liệu virus cúm của Việt Nam (khung bên trái) và Indonesia (khung bên phải)
Bước 2: Nhấn nút Khác Nhau, lúc này khung bên trái chỉ còn chứa các luật chỉ có ở
Việt Nam. Tức là đã loại bỏ phần luật giống nhau.
Hình 4.4:Khai phá dữ liệu virus cúm của Việt Nam (khung bên trái) và Thái Lan (khung bên phải) Bước 4: Nhấn nút Khác Nhau, lúc này khung bên trái chỉ còn chứa các luật chỉ có ở
Việt Nam. Tức là đã loại bỏ phần luật giống nhau.
Bước 5: Tìm kiếm các luật (tính chất) đặctrưng của virus cúm Việt Nam.
Trong quá trình thực nghiệm, sau khi đã bỏ được các luật giống nhau, ta thu được các
luật chỉ có ở virus cúm Việt Nam. Hiển nhiên, sẽ có rất nhiều luật có ý nghĩa thấp hoặc
vô nghĩa. Tùy vào mục đích sử dụng mà người dùng sẽ thu được các luật cần thiết. Trong trường hợp CSDL virus Việt Nam, với mục đích là tìm ra được các luật giúp cho
những nhà làm công tác chuyên môn; các nhà làm công tác quản lý (bộ, ngành y tế)
cúm. Trên cơ sở đó, họ sẽ có được sự chủ động trong việc ứng phó với diễn biến của
dịch cúm.
Danh sách các luật đặc trưng của virus cúm Việt Nam:
Bảng 4.3: Danh sách các luật (tính chất) đặc trưng của virus cúm Việt Nam
Vế trái Vế phải Độ hỗ trợĐộ tin cậy Ý nghĩa
H5N1 Human 30% 53% 53% virus chủng H5N1 thì có động vật chủ là
Human
H6N2 Avian 11% 100% 100% virus chủng H6N2 thì có động vật chủ là Avian
Tháng10 Avain 11% 69% 69% virus cúm thu thập vào tháng 10 thì có
động vật chủ là Avian
Tháng12 H5N1 30% 93% 93% virus cúm thu thập vào tháng 12 thì thuộc về chủng H5N1
Tháng12 Avian,H5N1 25% 75% 75% virus thu thập vào Tháng 12 thì có động
vật chủ là Avian và có chủng là H5N1
Nhận xét: Qua bảng danh sách các luật của virus cúm Việt Nam, ta có những thông tin
đặc trưng của virus cúm Việt Nam sau:
Dịch cúm ở Việt Nam nếu diễn ra vào các tháng cuối năm (tháng 10,12) thì từ động vật chủ (Host) là người (Human) hoặc gia cầm (Avian)
Thông tin hữu ích có được từ IVDBVN sẽ giúp cho các nhà chuyên môn, các nhà quản lý (bộ, ngành y tế) có được sự chủ động trong việc ứng phó với dịch cúm.
4.3 Kết luận
Các dữ liệu trình tự của virus đã được giải mã ngày càng tăng, theo thống kê ngày 22
tháng 3 năm 2011 thì có hơn 150.000 trình tự đã được công bố và con số này sẽ còn
tăng hơn nữa theo thời gian. Với khối lượng dữ liệu ngày càng lớn, việc sử dụng khai
Bên cạnh đó, việc chiết xuất các thông tin tiềm ẩn từ CSDL trình tự virus của các quốc
gia sẽ giúp cho các nhà nghiên cứu; các nhà quản lý (bộ, ngành y tế) có những thông
tin hữu ích. Với những thông tin này, họ có thể chủ động đưa ra các dự báo, sự chuẩn
Chương 5: Kết Luận
5.1 Đóng góp của đề tài
Xây dựng được hệ thống có khả năng cập nhật tự động các dữ liệu virus cúm từ
các ngân hàng dữ liệu dùng chung trên thế giới.
Xây dựng được một hệ thống thông tin virus cúm giúp cho các nhà quản lý (bộ,
ngành y tế); các nhà chuyên môn; và người dân có được thông tin, dữ liệu, cũng như những công cụ phân tích (thống kê) về virus cúm trên thế giới, đặc biệt chi
tiết hóa đến mức độ tỉnh thành phố cho virus cúm ở Việt Nam. Điểm đặc biệt
của hệ thống đó là hệ thống có khả năng biểu diễn thông tin virus cúm đến mức độ thấp hơn tỉnh thành phố nếu có thông tin đầy đủ về các trình tự.
Biểu diễn được thông tin virus cúm của 32 tỉnh thành của Việt Nam.
Áp dụng công nghệ Google map để biểu diễn và theo dõi sự phân bố, lan truyền
của virus cúm.
Sử dụng khai phá dữ liệu để chiết xuất những thông tin hữu ích từ các CSDL trình tự virus cúm, từ đó có thể giúp phát hiện ra những điểm đặc thù trong virus cúm ở Việt Nam.
Tạo ra được một sản phẩm thân thiện với người dùng Việt Nam, thể hiện qua
nền tảng phát triển, giao diện và dữ liệu đầu vào. Qua sản phẩm này, người dân
sẽ có những hiểu biết nhất định về sự phân bố virus cúm.
5.2 Hướng phát triển
Hoàn thiện giao diện sao cho dễ dàng sử dụng hơn.
Phát triển hệ thống thông tin virus cúm chi tiết đến mức tỉnh thành phố cho các
Quốc gia vùng Đông Nam Á. Hoàn thiện để có thể thành một sản phẩm có khả năng bản địa hóa dễ dàng cho các nước khi mong muốn chi tiết hóa virus cúm đến các cấp độ hành chính nhỏ hơn quốc gia.
Phát triển thêm các công cụ để cho phép người dùng có thể thực hiện các bài toán sinh học phân tử như xây dụng cây phát sinh loài, sắp hàng đa trình tự, tìm
kiếm BLAST,…
Phần hiệu quả của công cụ đã được đánh giá cơ bản về mặt lý thuyết. Cụ thể là những sự khác biệt về khai phá dữ liệu virus cúm khi có thêm tách biệt dữ liệu tỉnh thành, biểu diễn thông tin virus cúm của 32 tỉnh thành, áp dụng công nghệ Google map để theo dõi sự phân bố và lan truyền của virus cúm,... Tuy nhiên, phần lợi ích của công cụ chưa được đánh giá vì phải tốn nhiều thời gian khảo sát và thu thập ý kiến của cộng đồng trong thực tế.
Phát triển thêm các chức năng để đánh giá được hiệu quả và lợi ích thực tế của
Tài Liệu Tham Khảo
Tiếng Việt
[1] Hồ Huỳnh Thùy Dương (2005), Sinh học phân tử, Nxb. Giáo dục
[2] Trần Văn Lăng, và cộng sự (2004), Nghiên cứu để xây dựng công cụ tin
học xử lý thông tin về gen và protein, Đề tài cấp bộ, Viện Khoa học và Công nghệ Việt Nam.
[3] Trần Văn Lăng (2008), Ứng dụng tin học trong việc giải một số bài toán của Sinh học phân tử, Nxb. Giáo dục
Tiếng Anh
[4] Bao Y., P. Bolotov, D. Dernovoy, B. Kiryutin, L. Zas lavsky, T. Tatusova, J. Ostell, D.Lipman (2008) The Influenza Virus Resource at the National Center for Biotechnology Information. J. Virol. 2008 Jan; 82(2):596-601.
[5] Chang, S., Zhang, J., Liao, X., Zhu, X., Wang, D., Zhu, J., Feng, T., Zhu, B., Gao, G.F., Wang, J. et al. (2007) Influenza Virus Database (IVDB): an integrated information resource DNA analysis platform for influenza virus research. Nucleic Acids Res, 35, D376-380
[6] Dang Cao Cuong, Le Si Quang, Le Sy Vinh (2009). Influenza-specific
amino acid substitution model, The first international conference on knowledge DNA systems engineering, Hanoi.
[7] Tien Dung Nguyen, The Vinh Nguyen, Dhanasekaran Vijaykrishna, Robert G. Webster,Yi Guan, J.S. Malik Peiris, and Gavin J.D. Smith (2008) Multiple Sublineages of Influenza A Virus (H5N1), Vietnam, 2005-2007. Emerging Infectious Diseases 2008, Vol 14,632 – 636.
[8] M.J. Zaki, C.J. Hsiao (2005), Efficient Algorithms for Mining Closed Itemsets and Their Lattice Structure, IEEE Transactions on Knowledge and Data Engineering
[9] Mohammed J. Zaki, Karam Gouda (2003), Fast Vertical Mining Using Diffsets
[10] http://code.google.com/apis/maps/index.html [11] http://msdn.microsoft.com/
[12] http://www.codeproject.com
[13] http://www.ddbj.nig.ac.jp, DNA Data Bank of Japan [14] http://xml.nig.ac.jp/wsdl/GetEntry.wsdl
PHỤ LỤC
CƠ SỞ DỮ LIỆU VIRUS CÚM 1. Giải thích một số từ khóa trong cơ sở dữ liệu DNA [3][13]
Attennuator Vùng trình tự điều hòa kết thúc sự phiên mã,
điều khiển sự biểu hiện của các operon vi
khuẩn (nằm giữa promotor và gen cấu trúc)
C_region Vùng ổn định (đoạn trong mạch L hoặc H của
immunoglobulin mà trình tự của nó tương đối
giống nhau ở các immunoglobulin)
CAAT_signal Hộp CAAT là một phần của trình tự bảo tồn
nằm cách vị trí bắt đầu phiên mã khoảng 75 base, liên quan đến sự gắn RNA polymerase
CDS Vùng trình tự mã hóa cho protein
Conflict Xác định vùng thay đổi trên trình tự
D-loop Vùng ba sợi hay nút chuyển đổi trên trình tự
D_segment Vùng trình tự biến đổi của mạch nặng
immunoglobulin của chuỗi beta của thụ quan
tế bào T
enhancer Nhân tố tăng cường
exon Vùng trình tự có mặt trong mRNA ở tế bào chất, thường tương ứng với phần mã hóa của
gen và sẽ được dịch mã thành protein
GC_signal Trình tự giàu GC điều khiển sự khởi động của
quá trình phiên mã ở eukaryote(tương đương
với hộp TATA)
gene Gen
iDNA Vùng trình tự lặp lại giữa trình tự DNA
intron Vùng trình tự được phiên mã nhưng sẽ bị loại
bỏ trong quá trình trưởng thành của mRNA
J_segment Đoạn nối giữa hai mạch nặng và mạch nhẹ
của immunoglobulin
LTR Vùng trình tự lặp lại ở hai đầu cuối của một
trình tự được tìm thấy ở Retrovirus
map_peptide Peptide trưởng thành (đã qua bộ máy golgi và
misc_binding Cho biết đặc tính liên kết của một vùng trình tự hoặc một nucleotide
misc_difference Đặc tính khác biệt (không thể được mô tả với
các từ khóa như conflict, old_sequence,
variation, modified_base)
misc_feature Vùng có đặc điểm mới hoặc hiếm
misc_recomb Chỉ ra vùng được chèn vào hoặc bị loại bỏ do
tái tổ hợp
misc_RNA Cho biết sản phẩm phiên mã được tạo ra
misc_signal Chỉ rõ vùng trình tự có thể thay đổi chức năng
sinh học
misc_structure Cho biết đặc tính cấu trúc của trình tự(có cấu
trúc bậc hai hay bậc ba)
modified_base Base được sửa sai
mRNA RNA thông tin
N_region Vùng trình tự có nucleotide được gắn thêm vào giữa những đoạn trình tự immunoglobulin đã được tái sắp xếp
old_segment Trình tự trước đây
polyA_signal Vùng trình tự giàu Adenine
polyA_site Vị trí gắn poly_A
precursor_RNA Tiền thân RNA(RNA chưa qua quá trình splicing)
prim_transcript Sản phẩm phiên mã sơ khởi (vẫn còn các vùng 5’clip, 5’UTR, exon, intron, 3’UTR, 3’clip)
primer_bind Vị trí gắn mồi
Promoter Trình tự khởi động
Protein_bind Vị trí gắn protein không có liên kết cộng hóa
trị
RBS Vị trí gắn ribosom
Repeat_region Vùng gen chứa những trình tự lặp
Repeat_unit Trình tự lặp
Rep_region Vị trí bắt đầu sao chép
rRNA RNA ribosom
S_region Vùng chuyển đổi
satellite Trình tự vệ tinh(là một trình tự lặp)
DNA DNA
scRNA RNA tế bào
snRNA RNA nhân (tham gia vào quá trình sau phiên mã)
snoRNA RNA hạt nhân
source Nguồn gốc trình tự
Stem_loop Đặc điểm về sự tự bắt cặp của những trình tự
bổ sung ở RNA hoặc DNA mạch đơn (dạng
vòng xoáy hay cấu trúc kẹp tóc,...)
STS Vị trí đánh dấu trình tự
TATA_signal Hộp TATA (kiểm tra sự khởi động phiên mã
ở eukaryote, nằm trước vị trí bắt đầu phiên mã 25-35 nucleotide)
terminator Điểm kết thúc quá trình phiên mã
Transit_peptide Vùng trình tự mã hóa cho peptide vận chuyển
tRNA RNA vận chuyển
unsure Dữ liệu không xác định
V_region Vùng biến đổi
V_segment Đoạn trình tự biến đổi
variation Biến dị
3’clip Vùng sẽ bị loại bỏ trong quá trình phiên mã (có ở tiền RNA)
5’clip Vùng sẽ bị loại bỏ trong quá trình phiên mã (có ở RNA trưởng thành)
3’UTR Vùng sẽ bị loại bỏ trong quá trình dịch mã (có
ở RNA trưởng thành)
5’UTR Vùng sẽ bị loại bỏ trong quá trình dịch mã (có
ở RNA trưởng thành) -10_signal
-35_signal
Đặc tính của promoter là hai trình tự gồm 6
nucleotide, một trình tự nằm cách điểm vị trí
bắt đầu sinh tổng hợp RNA 10 cặp base (- 10_signal), trình tự kia cách 35 cặp base (trình tự -35_signal)
2. Ý nghĩa của các thuộc tính [3][13]
Các từ khóa Ý nghĩa Ghi chú
allele Tên allele tương ứng của
gen(chỉ trạng thái khác nhau
của gen)
cặp bổ sung với bộ ba
mã hóa. bound_moiety Đặc tính liên kết
cell_line Dòng tế bào mang trình tự
cell_type Loại tế bào mang trình tự
chromosome Nhiễm sắc thể chứa trình tự
citation Tham khảo đến các tham
khảo được dẫn xuất
clone Tên dòng tế bào vô tính clone_lib Thư viện dòng vô tính
codon_start Vị trí bắt đầu codon codon_start=1 cons_splice Đặc điểm của vị trí cắt bảo
tồn
country Cho biết nguồn gốc của mẫu
thử DNA được nghiên cứu, là nơi mà trình tự được thu
thập.
country="Viet Nam"
collection_date Ngày thu thập mẫu trình tự collection_date="2005";
thường có dạng: dd- Mmm-yyy, Mmm-yyyy hoặc yyyy
collected_by Tên của người thu thập mẫu
trình tự
collected_by="Dan Janzen"
cultivar Giống cây trồng chứa trình tự (chỉ dùng cho nấm và thực vật)
db_xref Cho biết thông tin về mã số
phân loại taxon của trình tự
theo hệ thống phân loại của
NCBI hay mã số truy cập
của trình tự ở một cơ sở dữ
liệu khác
db_xref="taxon:680789", db_xref="GI:269824262 "
dev_stage Giai đoạn phát triển của sinh
vật chứa trình tự
direction Hướng sao chép của DNA
EC_number Mã số sản phẩm enzym của
trình tự
environmental_sample Mẫu thử môi trường
nghiệm hay lý thuyết
exception Cho biết amino acid hoặc
trình tự RNA được dịch mã hoặc phiên mã khác những
qui luật sinh học thông thường
focus Cần phải chú ý đặc tính
nguồn gốc được nêu ra
(được sử dụng đối với
những trình tự có nhiều đặc
tính nguồn gốc)
frequency Tần số xuất hiện của một đặc tính nào đó
function Chức năng của trình tự
germline Dòng tế bào nấm
gene Ký hiệu của gene tương ứng
với vùng trình tự
Ví dụ:
gene="PA",gene="NP" host Tên động vật chủ Ví dụ: host="duck"
germline Dòng tế bào mầm
haplotype Kiểu đơn của sinh vật mang
trình tự
insertion_seq Trình tự chèn
isolate Nguồn phân lập
isolation_source Mô tả các đặc tính về địa lý, môi trường, vật lý của các
mẫu thử sinh học chứa trình tự
label Thẻ đánh dấu với một đặc điểm được sử dụng thường
xuyên
lab_host Vật chủ dùng để nhân giống
chứa trình tự
locus_tag Tên thẻ đánh dấu tại vị trí
locus
map Vị trí vùng trình tự trên bản
đồ gen
macronuclear Cho biết trình tự được nhân sinh dưỡng hay nhân sinh
mod_base Tên base nucleotide được
sửa sai
mol_type Loại trình tự trên cơ thể sinh
vật
mol_type="viral cRNA"
note Ghi chú note="passaged in
allantoic fluid" number Xác định trình tự các nhân
tố di truyền theo hướng 5’ đến 3’
organelle Cơ quan chứa trình tự
organism Tên khoa học của sinh vật
mang trình tự
partial Dấu ngăn cách (đã không còn dùng từ ngày
15/12/2001). Đối với những
truy cập mới, NCBI dùng ký hiệu <,> để thể hiện.
PCR_condition Điều kiện của phản ứng
khuếch đại PCR
phenotype Kiểu hình
pop_variant Tên biến dị quần thể
plasmid Tên plasmid chứa trình tự
product Tên sản phẩm mà trình tự
mã hóa
product="polymerase PA"
protein_id Mã số truy cập của protein được qui định theo loại cơ
sở dữ liệu chứa nó
protein_id="ACZ46268. 1"
proviral Cho biết trình tự virus đã gắn kết vào bộ gen của tế
bào
pseudo Một đặc tính là giả (không có chức năng)
rearranged Cho biết trình tự khởi nguồn
từ một trình tự DNA khác đã
được sắp xếp lại
replace Cho biết sự thay thế tại vị trí
trình tự đang xét
rpt_family Tên của trình tự lặp (Alu hoặc Kpn)
rpt_type Cách tổ chức của vùng trình tự lặp
rpt_type= "inverted" rpt_unit Vùng trình tự lặp
segment Số phân đoạn của gen gene="PA" thì segment="3"; gene="NP" thì segment="5" serotype Chủng virus serotype="H5N1" serovar Giống serotype nhưng dùng
cho prokaryote(các sinh vật
tiền nhân)