Hướng phát triển

4. Ý nghĩa khoa học và thực tiễn của đề tài

5.2 Hướng phát triển

 Hoàn thiện giao diện sao cho dễ dàng sử dụng hơn.

 Phát triển hệ thống thông tin virus cúm chi tiết đến mức tỉnh thành phố cho các

Quốc gia vùng Đông Nam Á. Hoàn thiện để có thể thành một sản phẩm có khả năng bản địa hóa dễ dàng cho các nước khi mong muốn chi tiết hóa virus cúm đến các cấp độ hành chính nhỏ hơn quốc gia.

 Phát triển thêm các công cụ để cho phép người dùng có thể thực hiện các bài toán sinh học phân tử như xây dụng cây phát sinh loài, sắp hàng đa trình tự, tìm

kiếm BLAST,…

 Phần hiệu quả của công cụ đã được đánh giá cơ bản về mặt lý thuyết. Cụ thể là những sự khác biệt về khai phá dữ liệu virus cúm khi có thêm tách biệt dữ liệu tỉnh thành, biểu diễn thông tin virus cúm của 32 tỉnh thành, áp dụng công nghệ Google map để theo dõi sự phân bố và lan truyền của virus cúm,... Tuy nhiên, phần lợi ích của công cụ chưa được đánh giá vì phải tốn nhiều thời gian khảo sát và thu thập ý kiến của cộng đồng trong thực tế.

 Phát triển thêm các chức năng để đánh giá được hiệu quả và lợi ích thực tế của

Tài Liệu Tham Khảo

Tiếng Việt

[1] Hồ Huỳnh Thùy Dương (2005), Sinh học phân tử, Nxb. Giáo dục

[2] Trần Văn Lăng, và cộng sự (2004), Nghiên cứu để xây dựng công cụ tin

học xử lý thông tin về gen và protein, Đề tài cấp bộ, Viện Khoa học và Công nghệ Việt Nam.

[3] Trần Văn Lăng (2008), Ứng dụng tin học trong việc giải một số bài toán của Sinh học phân tử, Nxb. Giáo dục

Tiếng Anh

[4] Bao Y., P. Bolotov, D. Dernovoy, B. Kiryutin, L. Zas lavsky, T. Tatusova, J. Ostell, D.Lipman (2008) The Influenza Virus Resource at the National Center for Biotechnology Information. J. Virol. 2008 Jan; 82(2):596-601.

[5] Chang, S., Zhang, J., Liao, X., Zhu, X., Wang, D., Zhu, J., Feng, T., Zhu, B., Gao, G.F., Wang, J. et al. (2007) Influenza Virus Database (IVDB): an integrated information resource DNA analysis platform for influenza virus research. Nucleic Acids Res, 35, D376-380

[6] Dang Cao Cuong, Le Si Quang, Le Sy Vinh (2009). Inﬂuenza-speciﬁc

amino acid substitution model, The first international conference on knowledge DNA systems engineering, Hanoi.

[7] Tien Dung Nguyen, The Vinh Nguyen, Dhanasekaran Vijaykrishna, Robert G. Webster,Yi Guan, J.S. Malik Peiris, and Gavin J.D. Smith (2008) Multiple Sublineages of Influenza A Virus (H5N1), Vietnam, 2005-2007. Emerging Infectious Diseases 2008, Vol 14,632 – 636.

[8] M.J. Zaki, C.J. Hsiao (2005), Efficient Algorithms for Mining Closed Itemsets and Their Lattice Structure, IEEE Transactions on Knowledge and Data Engineering

[9] Mohammed J. Zaki, Karam Gouda (2003), Fast Vertical Mining Using Diffsets

[10] http://code.google.com/apis/maps/index.html [11] http://msdn.microsoft.com/

[12] http://www.codeproject.com

[13] http://www.ddbj.nig.ac.jp, DNA Data Bank of Japan [14] http://xml.nig.ac.jp/wsdl/GetEntry.wsdl

PHỤ LỤC

CƠ SỞ DỮ LIỆU VIRUS CÚM 1. Giải thích một số từ khóa trong cơ sở dữ liệu DNA [3][13]

Attennuator Vùng trình tự điều hòa kết thúc sự phiên mã,

điều khiển sự biểu hiện của các operon vi

khuẩn (nằm giữa promotor và gen cấu trúc)

C_region Vùng ổn định (đoạn trong mạch L hoặc H của

immunoglobulin mà trình tự của nó tương đối

giống nhau ở các immunoglobulin)

CAAT_signal Hộp CAAT là một phần của trình tự bảo tồn

nằm cách vị trí bắt đầu phiên mã khoảng 75 base, liên quan đến sự gắn RNA polymerase

CDS Vùng trình tự mã hóa cho protein

Conflict Xác định vùng thay đổi trên trình tự

D-loop Vùng ba sợi hay nút chuyển đổi trên trình tự

D_segment Vùng trình tự biến đổi của mạch nặng

immunoglobulin của chuỗi beta của thụ quan

tế bào T

enhancer Nhân tố tăng cường

exon Vùng trình tự có mặt trong mRNA ở tế bào chất, thường tương ứng với phần mã hóa của

gen và sẽ được dịch mã thành protein

GC_signal Trình tự giàu GC điều khiển sự khởi động của

quá trình phiên mã ở eukaryote(tương đương

với hộp TATA)

gene Gen

iDNA Vùng trình tự lặp lại giữa trình tự DNA

intron Vùng trình tự được phiên mã nhưng sẽ bị loại

bỏ trong quá trình trưởng thành của mRNA

J_segment Đoạn nối giữa hai mạch nặng và mạch nhẹ

của immunoglobulin

LTR Vùng trình tự lặp lại ở hai đầu cuối của một

trình tự được tìm thấy ở Retrovirus

map_peptide Peptide trưởng thành (đã qua bộ máy golgi và

misc_binding Cho biết đặc tính liên kết của một vùng trình tự hoặc một nucleotide

misc_difference Đặc tính khác biệt (không thể được mô tả với

các từ khóa như conflict, old_sequence,

variation, modified_base)

misc_feature Vùng có đặc điểm mới hoặc hiếm

misc_recomb Chỉ ra vùng được chèn vào hoặc bị loại bỏ do

tái tổ hợp

misc_RNA Cho biết sản phẩm phiên mã được tạo ra

misc_signal Chỉ rõ vùng trình tự có thể thay đổi chức năng

sinh học

misc_structure Cho biết đặc tính cấu trúc của trình tự(có cấu

trúc bậc hai hay bậc ba)

modified_base Base được sửa sai

mRNA RNA thông tin

N_region Vùng trình tự có nucleotide được gắn thêm vào giữa những đoạn trình tự immunoglobulin đã được tái sắp xếp

old_segment Trình tự trước đây

polyA_signal Vùng trình tự giàu Adenine

polyA_site Vị trí gắn poly_A

precursor_RNA Tiền thân RNA(RNA chưa qua quá trình splicing)

prim_transcript Sản phẩm phiên mã sơ khởi (vẫn còn các vùng 5’clip, 5’UTR, exon, intron, 3’UTR, 3’clip)

primer_bind Vị trí gắn mồi

Promoter Trình tự khởi động

Protein_bind Vị trí gắn protein không có liên kết cộng hóa

trị

RBS Vị trí gắn ribosom

Repeat_region Vùng gen chứa những trình tự lặp

Repeat_unit Trình tự lặp

Rep_region Vị trí bắt đầu sao chép

rRNA RNA ribosom

S_region Vùng chuyển đổi

satellite Trình tự vệ tinh(là một trình tự lặp)

DNA DNA

scRNA RNA tế bào

snRNA RNA nhân (tham gia vào quá trình sau phiên mã)

snoRNA RNA hạt nhân

source Nguồn gốc trình tự

Stem_loop Đặc điểm về sự tự bắt cặp của những trình tự

bổ sung ở RNA hoặc DNA mạch đơn (dạng

vòng xoáy hay cấu trúc kẹp tóc,...)

STS Vị trí đánh dấu trình tự

TATA_signal Hộp TATA (kiểm tra sự khởi động phiên mã

ở eukaryote, nằm trước vị trí bắt đầu phiên mã 25-35 nucleotide)

terminator Điểm kết thúc quá trình phiên mã

Transit_peptide Vùng trình tự mã hóa cho peptide vận chuyển

tRNA RNA vận chuyển

unsure Dữ liệu không xác định

V_region Vùng biến đổi

V_segment Đoạn trình tự biến đổi

variation Biến dị

3’clip Vùng sẽ bị loại bỏ trong quá trình phiên mã (có ở tiền RNA)

5’clip Vùng sẽ bị loại bỏ trong quá trình phiên mã (có ở RNA trưởng thành)

3’UTR Vùng sẽ bị loại bỏ trong quá trình dịch mã (có

ở RNA trưởng thành)

5’UTR Vùng sẽ bị loại bỏ trong quá trình dịch mã (có

ở RNA trưởng thành) -10_signal

-35_signal

Đặc tính của promoter là hai trình tự gồm 6

nucleotide, một trình tự nằm cách điểm vị trí

bắt đầu sinh tổng hợp RNA 10 cặp base (- 10_signal), trình tự kia cách 35 cặp base (trình tự -35_signal)

2. Ý nghĩa của các thuộc tính [3][13]

Các từ khóa Ý nghĩa Ghi chú

allele Tên allele tương ứng của

gen(chỉ trạng thái khác nhau

của gen)

cặp bổ sung với bộ ba

mã hóa. bound_moiety Đặc tính liên kết

cell_line Dòng tế bào mang trình tự

cell_type Loại tế bào mang trình tự

chromosome Nhiễm sắc thể chứa trình tự

citation Tham khảo đến các tham

khảo được dẫn xuất

clone Tên dòng tế bào vô tính clone_lib Thư viện dòng vô tính

codon_start Vị trí bắt đầu codon codon_start=1 cons_splice Đặc điểm của vị trí cắt bảo

tồn

country Cho biết nguồn gốc của mẫu

thử DNA được nghiên cứu, là nơi mà trình tự được thu

thập.

country="Viet Nam"

collection_date Ngày thu thập mẫu trình tự collection_date="2005";

thường có dạng: dd- Mmm-yyy, Mmm-yyyy hoặc yyyy

collected_by Tên của người thu thập mẫu

trình tự

collected_by="Dan Janzen"

cultivar Giống cây trồng chứa trình tự (chỉ dùng cho nấm và thực vật)

db_xref Cho biết thông tin về mã số

phân loại taxon của trình tự

theo hệ thống phân loại của

NCBI hay mã số truy cập

của trình tự ở một cơ sở dữ

liệu khác

db_xref="taxon:680789", db_xref="GI:269824262 "

dev_stage Giai đoạn phát triển của sinh

vật chứa trình tự

direction Hướng sao chép của DNA

EC_number Mã số sản phẩm enzym của

trình tự

environmental_sample Mẫu thử môi trường

nghiệm hay lý thuyết

exception Cho biết amino acid hoặc

trình tự RNA được dịch mã hoặc phiên mã khác những

qui luật sinh học thông thường

focus Cần phải chú ý đặc tính

nguồn gốc được nêu ra

(được sử dụng đối với

những trình tự có nhiều đặc

tính nguồn gốc)

frequency Tần số xuất hiện của một đặc tính nào đó

function Chức năng của trình tự

germline Dòng tế bào nấm

gene Ký hiệu của gene tương ứng

với vùng trình tự

Ví dụ:

gene="PA",gene="NP" host Tên động vật chủ Ví dụ: host="duck"

germline Dòng tế bào mầm

haplotype Kiểu đơn của sinh vật mang

trình tự

insertion_seq Trình tự chèn

isolate Nguồn phân lập

isolation_source Mô tả các đặc tính về địa lý, môi trường, vật lý của các

mẫu thử sinh học chứa trình tự

label Thẻ đánh dấu với một đặc điểm được sử dụng thường

xuyên

lab_host Vật chủ dùng để nhân giống

chứa trình tự

locus_tag Tên thẻ đánh dấu tại vị trí

locus

map Vị trí vùng trình tự trên bản

đồ gen

macronuclear Cho biết trình tự được nhân sinh dưỡng hay nhân sinh

mod_base Tên base nucleotide được

sửa sai

mol_type Loại trình tự trên cơ thể sinh

vật

mol_type="viral cRNA"

note Ghi chú note="passaged in

allantoic fluid" number Xác định trình tự các nhân

tố di truyền theo hướng 5’ đến 3’

organelle Cơ quan chứa trình tự

organism Tên khoa học của sinh vật

mang trình tự

partial Dấu ngăn cách (đã không còn dùng từ ngày

15/12/2001). Đối với những

truy cập mới, NCBI dùng ký hiệu <,> để thể hiện.

PCR_condition Điều kiện của phản ứng

khuếch đại PCR

phenotype Kiểu hình

pop_variant Tên biến dị quần thể

plasmid Tên plasmid chứa trình tự

product Tên sản phẩm mà trình tự

mã hóa

product="polymerase PA"

protein_id Mã số truy cập của protein được qui định theo loại cơ

sở dữ liệu chứa nó

protein_id="ACZ46268. 1"

proviral Cho biết trình tự virus đã gắn kết vào bộ gen của tế

bào

pseudo Một đặc tính là giả (không có chức năng)

rearranged Cho biết trình tự khởi nguồn

từ một trình tự DNA khác đã

được sắp xếp lại

replace Cho biết sự thay thế tại vị trí

trình tự đang xét

rpt_family Tên của trình tự lặp (Alu hoặc Kpn)

rpt_type Cách tổ chức của vùng trình tự lặp

rpt_type= "inverted" rpt_unit Vùng trình tự lặp

segment Số phân đoạn của gen gene="PA" thì segment="3"; gene="NP" thì segment="5" serotype Chủng virus serotype="H5N1" serovar Giống serotype nhưng dùng

cho prokaryote(các sinh vật

tiền nhân)

sex Giới tính của sinh vật mang

trình tự

specific_host Tế bào chủ chứa trình tự

specimen_voucher Cho biết nơi lưu trữ tiêu bản

của sinh vật(thường là ở các

viện nghiên cứu,...)

standard_name Tên đầy đủ của gen

strain Chủng sinh vật chứa trình tự strain="A/duck/Hai Phong /208/2006"

sub_clone Dòng phụ

sub_species Loài phụ

sub_strain Chủng phụ

tissue_lib Thư viện mô chứa trình tự

tissue_type Kiểu mô

transgenic Cho biết sinh vật được

chuyển gen

translation Đoạn trình tự được dịch mã Có 2 loại hệ thống dịch

mã: hệ thống 3 ký tự và hệ thống 1 ký tự, ví dụ

Methionine có thể viết

tắt là Met hoặc M,…

transl_except Cho biết vị trí aa được dịch

mã không tuân theo khung dịch mã chuẩn

transl_table Khung dịch mã được sử

dụng để dịch mã gen

transposon Tên gen nhảy Transposon là một trình tự DNA có khả năng tự

gắn xen vào một vị trí

mới trên gen usedin Mô tả tên cơ sở dữ liệu, mã

số truy cập trình tự ở những cơ sở dữ liệu khác.

variety Cho biết thực vật thuộc thứ

nào

varion Cho biết trình tự của virus

nằm trong vỏ capsid(chưa

gắn vào bộ gen của tế bào chủ)

Viron là một dạng virus

ký sinh bắt buộc trong tế

bào chủ

3. Mô tả các đặc tính của virus cúm

Bảng sau sẽ mô tả thông tin tổng quát của virus cúm:

Loại virus Các loại gen Các loại protein

chính

Các động vật chủ

phổ biến

A PB1, PB2, NP, HA, NA, PA, NS, M

PB1, PB1-F2, PB2, PA, HA, NA, NP, M1, M2, NS1, NS2

Người, chim, gia

cầm, động vật có

vú B PB1, PB2, NP,

HA, NA, PA, NS, M

PB1, PB2, PA, HA, NP, NA, NB, M1, BM2, NS1, NS2

Người, chuột, hải

cẩu C PB2, PB1, P3, HE, NP, MP, NS PB1, PB2, P3, HE, NP, M1, CM2, NS1, NS2 Người, lợn

4. Mô tả cấu trúc các bảng dữ liệu

BẢNG PROVINCE – Lưu trữ thông tin các tỉnh thành phố

Tên trường Kiểu dữ liệu Ràng buộc

PROVINCE_ID varchar(20) Primary Key

NATION_ID varchar(20) Foreign Key

PROVINCE_NAME nvarchar(50) Unique

BẢNG NEIGHBOR_PROVINCE – Lưu trữ thông tin các làng giềng của Tỉnh thành

phố

PROVINCE_ID varchar(20) Foreign Key

NEIBORGH_ID varchar(20) Foreign Key

Bảng NATION – Lưu trữ thông tin các quốc gia

Tên trường Kiểu dữ liệu Ràng buộc

NATION_ID varchar(20) Primary Key

CONTINENT_ID varchar(20) Foreign Key

NATION_NAME nvarchar(50) Unique

Bảng NEIGHBOR_NATION – Lưu trữ thông tin các quốc gia láng giềng

Tên trường Kiểu dữ liệu Ràng buộc

NATION_ID varchar(20) Foreign Key

NATION_NEIGHBOR_ID varchar(20) Foreign Key

Bảng CONTINENT – Lưu trữ thông tin các châu lục

Tên trường Kiểu dữ liệu Ràng buộc

CONTINENT_ID varchar(20) Primary Key

CONTINENT_NAME nvarchar(30) BẢNG HOST – Lưu trữ thông tin các động vật chủ

Tên trường Kiểu dữ liệu Ràng buộc

HOST_ID bigint Primary Key

HOST varchar(20)

BẢNG GEN_TYPE – Lưu trữ thông tin các loại gen của virus

Tên trường Kiểu dữ liệu Ràng buộc

GENE_TYPE varchar(4) Primary Key

DESCRIPTION_GT nvarchar(100)

BẢNG PROTEIN_TYPE – Lưu trữ thông tin các loại Protein của virus

Tên trường Kiểu dữ liệu Ràng buộc

PROTEIN_TYPE varchar(10) Primary Key

PROTEIN_NAME varchar(10)

BẢNG VIRALTYPE – Lưu trữ thông tin các loại virus

Tên trường Kiểu dữ liệu Ràng buộc

VIRAL_ID varchar(3) Primary Key

BẢNG SUBTYPE_H- Lưu trữ thông tin chỉ số H của virus

Tên trường Kiểu dữ liệu Ràng buộc

H tinyint Primary Key

BẢNG SUBTYPE_N – Lưu trữ thông tin chỉ số N của virus

Tên trường Kiểu dữ liệu Ràng buộc

N tinyint Primary Key

BẢNG SUBTYPE_HN – Lưu trữ thông tin một tổ hợp chỉ số H, N của virus

Tên trường Kiểu dữ liệu Ràng buộc

H tinyint Foreign Key

N tinyint Foreign Key

BẢNG GENVIRUS – Lưu trữ thông tin loại gen của từng loại virus

Tên trường Kiểu dữ liệu Ràng buộc

VIRAL_ID varchar(3) Foreign Key

GENE_TYPE varchar(10) Foreign Key

BẢNG PRO_VIRUS – Lưu trữ thông tin loại protein của virus

Tên trường Kiểu dữ liệu Ràng buộc

VIRAL_ID varchar(3) Foreign Key

PROTEIN_TYPE varchar(10) Foreign Key

BẢNG SOURCE_FEATURE – Lưu trữ thông tin nguồn gốc của trình tự virus

Tên trường Kiểu dữ liệu Ràng buộc

SOURCE_FEATURE_ID bigint Primary Key

ACCESSION varchar(20) LENGTH varchar(50) ORGANISM varchar(100) COUNTRY varchar(50) DB_XREF varchar(200) ISOLATION_SOURCE varchar(500) LAB_HOST varchar(500) MOL_TYPE varchar(500) NOTE varchar(500) SEGMENT varchar(10) SEX varchar(100) STRAIN varchar(200)

COLLECTED_BY varchar(100) IDENTIFIED_BY varchar(100)

HOST varchar(100)

SEROTYPE varchar(100)

H tinyint Foreign Key

N tinyint Foreign Key

GENE_TYPE varchar(20)

TYPE varchar(3) Foreign Key

LOCATION_ID bigint Foreign Key

AGE varchar(10)

GENDER varchar(10)

FULL_LENGTH varchar(10) BẢNG CDS – Lưu trữ thông tin của CDS

Tên trường Kiểu dữ liệu Ràng buộc

CDS_ID int Primary Key

ACCESSION varchar(20) Foreign Key

ID_GENE_VALUE varchar(100) CODON_START int DB_XREF varchar(100) EC_NUMBER varchar(100) EVIDENCE varchar(300) EXCEPTION varchar(300) [FUNCTION] varchar(300) GENE varchar(100) MAP varchar(100) NOTE varchar(500) PRODUCT varchar(300) PROTEIN_ID varchar(200) PSEUDO varchar(300) STANDART_NAME varchar(300) TRANSLATION varchar(5000) TRANSL_EXCEPT varchar(300) TRANSL_TABLE varchar(300) USEDIN varchar(300) EXPERIMENT varchar(300) GENE_SYNONYM varchar(300)

Tên trường Kiểu dữ liệu Ràng buộc

LOCATION_ID bigint Primary Key

LOCATION_VALUE varchar(20) Foreign Key BẢNG REFERENCE – Lưu trữ thông tin tham chiếu của trình tự

Tên trường Kiểu dữ liệu Ràng buộc

REFERENCE_ID int Primary Key

LENGTH varchar(1000)

AUTHORS varchar(1000)

TITLE varchar(1000)

JOURNAL varchar(1000)

BẢNG GEN_REFERENCE – Lưu trữ thông tin chi tiết tham chiếu của trình tự virus

Tên trường Kiểu dữ liệu Ràng buộc

ACCESSION varchar(20) Foreign Key

REFERENCE_ID int Foreign Key

BẢNG GENECOMPLETE – Lưu trữ thông tin tổng quan của một trình tự virus

Tên trường Kiểu dữ liệu Ràng buộc

ACCESSION varchar(20) Primary Key

DEFINITION varchar(2000) VERSION varchar(50) KIND_ID varchar(3) KEYWORDS varchar(1000) ORGANISM varchar(1000) COMMENTION varchar(2000) ORIGIN varchar(8000) DATE_UP smalldatetime PL_DATED smalldatetime GENBANK_ID varchar(20)

So sánh và đánh giá

Thống kê virus cúm của Việt Nam