Thông tin đặc trưng của virus cúm Việt Nam

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam (Trang 59 - 79)

4. Ý nghĩa khoa học và thực tiễn của đề tài

4.2.3 Thông tin đặc trưng của virus cúm Việt Nam

Hệ thống IVDBVN đã xây dựng chức năng cho phép người sử dụng tìm được các luật đặc trưng của virus cúm Việt Nam. Chức năng này cho phép người sử dụng tìm ra

được các luật giống nhau cũng như khác nhau của hai hay nhiều quốc gia. Chức năng

này rất là hữu ích, nó cho phép người dùng đối chiếu và so sánh các luật một cách trực

quan. Danh sách các luật kết hợp của hai quốc gia cần xem xét sẽ nằm ở hai khung. Người sử dụng chỉ cần nhấn nút khác nhau hoặc giống nhau là sẽ thu được các luật cần

tìm.

Trong quá trình thử nghiệm, chức năng này đã được ứng dụng để tìm ra các thông tin

đặc trưng của virus cúm Việt Nam. Nghĩa là tìm ra các luật chỉ có ở CSDL virus cúm

Việt Nam.

Chúng ta định nghĩa luật giống nhau là: Hai luật giống nhau khi vế trái của trái của luật

này bằng với vế trái của luật kia. Và đồng thời vế phải của hai luật đó cũng bằng nhau. Để thực hiện, ta tiến hành khai phá dữ liệu virus cúm ba quốc gia: Việt Nam,

Indonesia, Thái Lan.

Thông số chung cho bài toán: Minsupport=10%; Minconfidence=50%

Sau đây là các bước thực hiện trên hệ thống IVDBVN:

Bước 1: Chọn dữ liệu Việt Nam cho khung bên trái, dữ liệu Indonesia cho khung bên phải.

Hình 4.3: Khai phá dữ liệu virus cúm của Việt Nam (khung bên trái) và Indonesia (khung bên phải)

Bước 2: Nhấn nút Khác Nhau, lúc này khung bên trái chỉ còn chứa các luật chỉ có ở

Việt Nam. Tức là đã loại bỏ phần luật giống nhau.

Hình 4.4:Khai phá dữ liệu virus cúm của Việt Nam (khung bên trái) và Thái Lan (khung bên phải) Bước 4: Nhấn nút Khác Nhau, lúc này khung bên trái chỉ còn chứa các luật chỉ có ở

Việt Nam. Tức là đã loại bỏ phần luật giống nhau.

Bước 5: Tìm kiếm các luật (tính chất) đặctrưng của virus cúm Việt Nam.

Trong quá trình thực nghiệm, sau khi đã bỏ được các luật giống nhau, ta thu được các

luật chỉ có ở virus cúm Việt Nam. Hiển nhiên, sẽ có rất nhiều luật có ý nghĩa thấp hoặc

vô nghĩa. Tùy vào mục đích sử dụng mà người dùng sẽ thu được các luật cần thiết. Trong trường hợp CSDL virus Việt Nam, với mục đích là tìm ra được các luật giúp cho

những nhà làm công tác chuyên môn; các nhà làm công tác quản lý (bộ, ngành y tế)

cúm. Trên cơ sở đó, họ sẽ có được sự chủ động trong việc ứng phó với diễn biến của

dịch cúm.

Danh sách các luật đặc trưng của virus cúm Việt Nam:

Bảng 4.3: Danh sách các luật (tính chất) đặc trưng của virus cúm Việt Nam

Vế trái Vế phải Độ hỗ trợĐộ tin cậy Ý nghĩa

H5N1 Human 30% 53% 53% virus chủng H5N1 thì có động vật chủ là

Human

H6N2 Avian 11% 100% 100% virus chủng H6N2 thì có động vật chủ là Avian

Tháng10 Avain 11% 69% 69% virus cúm thu thập vào tháng 10 thì có

động vật chủ là Avian

Tháng12 H5N1 30% 93% 93% virus cúm thu thập vào tháng 12 thì thuộc về chủng H5N1

Tháng12 Avian,H5N1 25% 75% 75% virus thu thập vào Tháng 12 thì có động

vật chủ là Avian và có chủng là H5N1

Nhận xét: Qua bảng danh sách các luật của virus cúm Việt Nam, ta có những thông tin

đặc trưng của virus cúm Việt Nam sau:

Dịch cúm ở Việt Nam nếu diễn ra vào các tháng cuối năm (tháng 10,12) thì từ động vật chủ (Host) là người (Human) hoặc gia cầm (Avian)

Thông tin hữu ích có được từ IVDBVN sẽ giúp cho các nhà chuyên môn, các nhà quản lý (bộ, ngành y tế) có được sự chủ động trong việc ứng phó với dịch cúm.

4.3 Kết luận

Các dữ liệu trình tự của virus đã được giải mã ngày càng tăng, theo thống kê ngày 22

tháng 3 năm 2011 thì có hơn 150.000 trình tự đã được công bố và con số này sẽ còn

tăng hơn nữa theo thời gian. Với khối lượng dữ liệu ngày càng lớn, việc sử dụng khai

Bên cạnh đó, việc chiết xuất các thông tin tiềm ẩn từ CSDL trình tự virus của các quốc

gia sẽ giúp cho các nhà nghiên cứu; các nhà quản lý (bộ, ngành y tế) có những thông

tin hữu ích. Với những thông tin này, họ có thể chủ động đưa ra các dự báo, sự chuẩn

Chương 5: Kết Luận

5.1 Đóng góp của đề tài

 Xây dựng được hệ thống có khả năng cập nhật tự động các dữ liệu virus cúm từ

các ngân hàng dữ liệu dùng chung trên thế giới.

 Xây dựng được một hệ thống thông tin virus cúm giúp cho các nhà quản lý (bộ,

ngành y tế); các nhà chuyên môn; và người dân có được thông tin, dữ liệu, cũng như những công cụ phân tích (thống kê) về virus cúm trên thế giới, đặc biệt chi

tiết hóa đến mức độ tỉnh thành phố cho virus cúm ở Việt Nam. Điểm đặc biệt

của hệ thống đó là hệ thống có khả năng biểu diễn thông tin virus cúm đến mức độ thấp hơn tỉnh thành phố nếu có thông tin đầy đủ về các trình tự.

 Biểu diễn được thông tin virus cúm của 32 tỉnh thành của Việt Nam.

 Áp dụng công nghệ Google map để biểu diễn và theo dõi sự phân bố, lan truyền

của virus cúm.

 Sử dụng khai phá dữ liệu để chiết xuất những thông tin hữu ích từ các CSDL trình tự virus cúm, từ đó có thể giúp phát hiện ra những điểm đặc thù trong virus cúm ở Việt Nam.

 Tạo ra được một sản phẩm thân thiện với người dùng Việt Nam, thể hiện qua

nền tảng phát triển, giao diện và dữ liệu đầu vào. Qua sản phẩm này, người dân

sẽ có những hiểu biết nhất định về sự phân bố virus cúm.

5.2 Hướng phát triển

 Hoàn thiện giao diện sao cho dễ dàng sử dụng hơn.

 Phát triển hệ thống thông tin virus cúm chi tiết đến mức tỉnh thành phố cho các

Quốc gia vùng Đông Nam Á. Hoàn thiện để có thể thành một sản phẩm có khả năng bản địa hóa dễ dàng cho các nước khi mong muốn chi tiết hóa virus cúm đến các cấp độ hành chính nhỏ hơn quốc gia.

 Phát triển thêm các công cụ để cho phép người dùng có thể thực hiện các bài toán sinh học phân tử như xây dụng cây phát sinh loài, sắp hàng đa trình tự, tìm

kiếm BLAST,…

 Phần hiệu quả của công cụ đã được đánh giá cơ bản về mặt lý thuyết. Cụ thể là những sự khác biệt về khai phá dữ liệu virus cúm khi có thêm tách biệt dữ liệu tỉnh thành, biểu diễn thông tin virus cúm của 32 tỉnh thành, áp dụng công nghệ Google map để theo dõi sự phân bố và lan truyền của virus cúm,... Tuy nhiên, phần lợi ích của công cụ chưa được đánh giá vì phải tốn nhiều thời gian khảo sát và thu thập ý kiến của cộng đồng trong thực tế.

 Phát triển thêm các chức năng để đánh giá được hiệu quả và lợi ích thực tế của

Tài Liệu Tham Khảo

Tiếng Việt

[1] Hồ Huỳnh Thùy Dương (2005), Sinh học phân tử, Nxb. Giáo dục

[2] Trần Văn Lăng, và cộng sự (2004), Nghiên cứu để xây dựng công cụ tin

học xử lý thông tin về gen và protein, Đề tài cấp bộ, Viện Khoa học và Công nghệ Việt Nam.

[3] Trần Văn Lăng (2008), Ứng dụng tin học trong việc giải một số bài toán của Sinh học phân tử, Nxb. Giáo dục

Tiếng Anh

[4] Bao Y., P. Bolotov, D. Dernovoy, B. Kiryutin, L. Zas lavsky, T. Tatusova, J. Ostell, D.Lipman (2008) The Influenza Virus Resource at the National Center for Biotechnology Information. J. Virol. 2008 Jan; 82(2):596-601.

[5] Chang, S., Zhang, J., Liao, X., Zhu, X., Wang, D., Zhu, J., Feng, T., Zhu, B., Gao, G.F., Wang, J. et al. (2007) Influenza Virus Database (IVDB): an integrated information resource DNA analysis platform for influenza virus research. Nucleic Acids Res, 35, D376-380

[6] Dang Cao Cuong, Le Si Quang, Le Sy Vinh (2009). Influenza-specific

amino acid substitution model, The first international conference on knowledge DNA systems engineering, Hanoi.

[7] Tien Dung Nguyen, The Vinh Nguyen, Dhanasekaran Vijaykrishna, Robert G. Webster,Yi Guan, J.S. Malik Peiris, and Gavin J.D. Smith (2008) Multiple Sublineages of Influenza A Virus (H5N1), Vietnam, 2005-2007. Emerging Infectious Diseases 2008, Vol 14,632 – 636.

[8] M.J. Zaki, C.J. Hsiao (2005), Efficient Algorithms for Mining Closed Itemsets and Their Lattice Structure, IEEE Transactions on Knowledge and Data Engineering

[9] Mohammed J. Zaki, Karam Gouda (2003), Fast Vertical Mining Using Diffsets

[10] http://code.google.com/apis/maps/index.html [11] http://msdn.microsoft.com/

[12] http://www.codeproject.com

[13] http://www.ddbj.nig.ac.jp, DNA Data Bank of Japan [14] http://xml.nig.ac.jp/wsdl/GetEntry.wsdl

PHỤ LỤC

CƠ SỞ DỮ LIỆU VIRUS CÚM 1. Giải thích một số từ khóa trong cơ sở dữ liệu DNA [3][13]

Attennuator Vùng trình tự điều hòa kết thúc sự phiên mã,

điều khiển sự biểu hiện của các operon vi

khuẩn (nằm giữa promotor và gen cấu trúc)

C_region Vùng ổn định (đoạn trong mạch L hoặc H của

immunoglobulin mà trình tự của nó tương đối

giống nhau ở các immunoglobulin)

CAAT_signal Hộp CAAT là một phần của trình tự bảo tồn

nằm cách vị trí bắt đầu phiên mã khoảng 75 base, liên quan đến sự gắn RNA polymerase

CDS Vùng trình tự mã hóa cho protein

Conflict Xác định vùng thay đổi trên trình tự

D-loop Vùng ba sợi hay nút chuyển đổi trên trình tự

D_segment Vùng trình tự biến đổi của mạch nặng

immunoglobulin của chuỗi beta của thụ quan

tế bào T

enhancer Nhân tố tăng cường

exon Vùng trình tự có mặt trong mRNA ở tế bào chất, thường tương ứng với phần mã hóa của

gen và sẽ được dịch mã thành protein

GC_signal Trình tự giàu GC điều khiển sự khởi động của

quá trình phiên mã ở eukaryote(tương đương

với hộp TATA)

gene Gen

iDNA Vùng trình tự lặp lại giữa trình tự DNA

intron Vùng trình tự được phiên mã nhưng sẽ bị loại

bỏ trong quá trình trưởng thành của mRNA

J_segment Đoạn nối giữa hai mạch nặng và mạch nhẹ

của immunoglobulin

LTR Vùng trình tự lặp lại ở hai đầu cuối của một

trình tự được tìm thấy ở Retrovirus

map_peptide Peptide trưởng thành (đã qua bộ máy golgi và

misc_binding Cho biết đặc tính liên kết của một vùng trình tự hoặc một nucleotide

misc_difference Đặc tính khác biệt (không thể được mô tả với

các từ khóa như conflict, old_sequence,

variation, modified_base)

misc_feature Vùng có đặc điểm mới hoặc hiếm

misc_recomb Chỉ ra vùng được chèn vào hoặc bị loại bỏ do

tái tổ hợp

misc_RNA Cho biết sản phẩm phiên mã được tạo ra

misc_signal Chỉ rõ vùng trình tự có thể thay đổi chức năng

sinh học

misc_structure Cho biết đặc tính cấu trúc của trình tự(có cấu

trúc bậc hai hay bậc ba)

modified_base Base được sửa sai

mRNA RNA thông tin

N_region Vùng trình tự có nucleotide được gắn thêm vào giữa những đoạn trình tự immunoglobulin đã được tái sắp xếp

old_segment Trình tự trước đây

polyA_signal Vùng trình tự giàu Adenine

polyA_site Vị trí gắn poly_A

precursor_RNA Tiền thân RNA(RNA chưa qua quá trình splicing)

prim_transcript Sản phẩm phiên mã sơ khởi (vẫn còn các vùng 5’clip, 5’UTR, exon, intron, 3’UTR, 3’clip)

primer_bind Vị trí gắn mồi

Promoter Trình tự khởi động

Protein_bind Vị trí gắn protein không có liên kết cộng hóa

trị

RBS Vị trí gắn ribosom

Repeat_region Vùng gen chứa những trình tự lặp

Repeat_unit Trình tự lặp

Rep_region Vị trí bắt đầu sao chép

rRNA RNA ribosom

S_region Vùng chuyển đổi

satellite Trình tự vệ tinh(là một trình tự lặp)

DNA DNA

scRNA RNA tế bào

snRNA RNA nhân (tham gia vào quá trình sau phiên mã)

snoRNA RNA hạt nhân

source Nguồn gốc trình tự

Stem_loop Đặc điểm về sự tự bắt cặp của những trình tự

bổ sung ở RNA hoặc DNA mạch đơn (dạng

vòng xoáy hay cấu trúc kẹp tóc,...)

STS Vị trí đánh dấu trình tự

TATA_signal Hộp TATA (kiểm tra sự khởi động phiên mã

ở eukaryote, nằm trước vị trí bắt đầu phiên mã 25-35 nucleotide)

terminator Điểm kết thúc quá trình phiên mã

Transit_peptide Vùng trình tự mã hóa cho peptide vận chuyển

tRNA RNA vận chuyển

unsure Dữ liệu không xác định

V_region Vùng biến đổi

V_segment Đoạn trình tự biến đổi

variation Biến dị

3’clip Vùng sẽ bị loại bỏ trong quá trình phiên mã (có ở tiền RNA)

5’clip Vùng sẽ bị loại bỏ trong quá trình phiên mã (có ở RNA trưởng thành)

3’UTR Vùng sẽ bị loại bỏ trong quá trình dịch mã (có

ở RNA trưởng thành)

5’UTR Vùng sẽ bị loại bỏ trong quá trình dịch mã (có

ở RNA trưởng thành) -10_signal

-35_signal

Đặc tính của promoter là hai trình tự gồm 6

nucleotide, một trình tự nằm cách điểm vị trí

bắt đầu sinh tổng hợp RNA 10 cặp base (- 10_signal), trình tự kia cách 35 cặp base (trình tự -35_signal)

2. Ý nghĩa của các thuộc tính [3][13]

Các từ khóa Ý nghĩa Ghi chú

allele Tên allele tương ứng của

gen(chỉ trạng thái khác nhau

của gen)

cặp bổ sung với bộ ba

mã hóa. bound_moiety Đặc tính liên kết

cell_line Dòng tế bào mang trình tự

cell_type Loại tế bào mang trình tự

chromosome Nhiễm sắc thể chứa trình tự

citation Tham khảo đến các tham

khảo được dẫn xuất

clone Tên dòng tế bào vô tính clone_lib Thư viện dòng vô tính

codon_start Vị trí bắt đầu codon codon_start=1 cons_splice Đặc điểm của vị trí cắt bảo

tồn

country Cho biết nguồn gốc của mẫu

thử DNA được nghiên cứu, là nơi mà trình tự được thu

thập.

country="Viet Nam"

collection_date Ngày thu thập mẫu trình tự collection_date="2005";

thường có dạng: dd- Mmm-yyy, Mmm-yyyy hoặc yyyy

collected_by Tên của người thu thập mẫu

trình tự

collected_by="Dan Janzen"

cultivar Giống cây trồng chứa trình tự (chỉ dùng cho nấm và thực vật)

db_xref Cho biết thông tin về mã số

phân loại taxon của trình tự

theo hệ thống phân loại của

NCBI hay mã số truy cập

của trình tự ở một cơ sở dữ

liệu khác

db_xref="taxon:680789", db_xref="GI:269824262 "

dev_stage Giai đoạn phát triển của sinh

vật chứa trình tự

direction Hướng sao chép của DNA

EC_number Mã số sản phẩm enzym của

trình tự

environmental_sample Mẫu thử môi trường

nghiệm hay lý thuyết

exception Cho biết amino acid hoặc

trình tự RNA được dịch mã hoặc phiên mã khác những

qui luật sinh học thông thường

focus Cần phải chú ý đặc tính

nguồn gốc được nêu ra

(được sử dụng đối với

những trình tự có nhiều đặc

tính nguồn gốc)

frequency Tần số xuất hiện của một đặc tính nào đó

function Chức năng của trình tự

germline Dòng tế bào nấm

gene Ký hiệu của gene tương ứng

với vùng trình tự

Ví dụ:

gene="PA",gene="NP" host Tên động vật chủ Ví dụ: host="duck"

germline Dòng tế bào mầm

haplotype Kiểu đơn của sinh vật mang

trình tự

insertion_seq Trình tự chèn

isolate Nguồn phân lập

isolation_source Mô tả các đặc tính về địa lý, môi trường, vật lý của các

mẫu thử sinh học chứa trình tự

label Thẻ đánh dấu với một đặc điểm được sử dụng thường

xuyên

lab_host Vật chủ dùng để nhân giống

chứa trình tự

locus_tag Tên thẻ đánh dấu tại vị trí

locus

map Vị trí vùng trình tự trên bản

đồ gen

macronuclear Cho biết trình tự được nhân sinh dưỡng hay nhân sinh

mod_base Tên base nucleotide được

sửa sai

mol_type Loại trình tự trên cơ thể sinh

vật

mol_type="viral cRNA"

note Ghi chú note="passaged in

allantoic fluid" number Xác định trình tự các nhân

tố di truyền theo hướng 5’ đến 3’

organelle Cơ quan chứa trình tự

organism Tên khoa học của sinh vật

mang trình tự

partial Dấu ngăn cách (đã không còn dùng từ ngày

15/12/2001). Đối với những

truy cập mới, NCBI dùng ký hiệu <,> để thể hiện.

PCR_condition Điều kiện của phản ứng

khuếch đại PCR

phenotype Kiểu hình

pop_variant Tên biến dị quần thể

plasmid Tên plasmid chứa trình tự

product Tên sản phẩm mà trình tự

mã hóa

product="polymerase PA"

protein_id Mã số truy cập của protein được qui định theo loại cơ

sở dữ liệu chứa nó

protein_id="ACZ46268. 1"

proviral Cho biết trình tự virus đã gắn kết vào bộ gen của tế

bào

pseudo Một đặc tính là giả (không có chức năng)

rearranged Cho biết trình tự khởi nguồn

từ một trình tự DNA khác đã

được sắp xếp lại

replace Cho biết sự thay thế tại vị trí

trình tự đang xét

rpt_family Tên của trình tự lặp (Alu hoặc Kpn)

rpt_type Cách tổ chức của vùng trình tự lặp

rpt_type= "inverted" rpt_unit Vùng trình tự lặp

segment Số phân đoạn của gen gene="PA" thì segment="3"; gene="NP" thì segment="5" serotype Chủng virus serotype="H5N1" serovar Giống serotype nhưng dùng

cho prokaryote(các sinh vật

tiền nhân)

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam (Trang 59 - 79)

Tải bản đầy đủ (PDF)

(79 trang)