4. Ý nghĩa khoa học và thực tiễn của đề tài
5.2 Hướng phát triển
Hoàn thiện giao diện sao cho dễ dàng sử dụng hơn.
Phát triển hệ thống thông tin virus cúm chi tiết đến mức tỉnh thành phố cho các
Quốc gia vùng Đông Nam Á. Hoàn thiện để có thể thành một sản phẩm có khả năng bản địa hóa dễ dàng cho các nước khi mong muốn chi tiết hóa virus cúm đến các cấp độ hành chính nhỏ hơn quốc gia.
Phát triển thêm các công cụ để cho phép người dùng có thể thực hiện các bài toán sinh học phân tử như xây dụng cây phát sinh loài, sắp hàng đa trình tự, tìm
kiếm BLAST,…
Phần hiệu quả của công cụ đã được đánh giá cơ bản về mặt lý thuyết. Cụ thể là những sự khác biệt về khai phá dữ liệu virus cúm khi có thêm tách biệt dữ liệu tỉnh thành, biểu diễn thông tin virus cúm của 32 tỉnh thành, áp dụng công nghệ Google map để theo dõi sự phân bố và lan truyền của virus cúm,... Tuy nhiên, phần lợi ích của công cụ chưa được đánh giá vì phải tốn nhiều thời gian khảo sát và thu thập ý kiến của cộng đồng trong thực tế.
Phát triển thêm các chức năng để đánh giá được hiệu quả và lợi ích thực tế của
Tài Liệu Tham Khảo
Tiếng Việt
[1] Hồ Huỳnh Thùy Dương (2005), Sinh học phân tử, Nxb. Giáo dục
[2] Trần Văn Lăng, và cộng sự (2004), Nghiên cứu để xây dựng công cụ tin
học xử lý thông tin về gen và protein, Đề tài cấp bộ, Viện Khoa học và Công nghệ Việt Nam.
[3] Trần Văn Lăng (2008), Ứng dụng tin học trong việc giải một số bài toán của Sinh học phân tử, Nxb. Giáo dục
Tiếng Anh
[4] Bao Y., P. Bolotov, D. Dernovoy, B. Kiryutin, L. Zas lavsky, T. Tatusova, J. Ostell, D.Lipman (2008) The Influenza Virus Resource at the National Center for Biotechnology Information. J. Virol. 2008 Jan; 82(2):596-601.
[5] Chang, S., Zhang, J., Liao, X., Zhu, X., Wang, D., Zhu, J., Feng, T., Zhu, B., Gao, G.F., Wang, J. et al. (2007) Influenza Virus Database (IVDB): an integrated information resource DNA analysis platform for influenza virus research. Nucleic Acids Res, 35, D376-380
[6] Dang Cao Cuong, Le Si Quang, Le Sy Vinh (2009). Influenza-specific
amino acid substitution model, The first international conference on knowledge DNA systems engineering, Hanoi.
[7] Tien Dung Nguyen, The Vinh Nguyen, Dhanasekaran Vijaykrishna, Robert G. Webster,Yi Guan, J.S. Malik Peiris, and Gavin J.D. Smith (2008) Multiple Sublineages of Influenza A Virus (H5N1), Vietnam, 2005-2007. Emerging Infectious Diseases 2008, Vol 14,632 – 636.
[8] M.J. Zaki, C.J. Hsiao (2005), Efficient Algorithms for Mining Closed Itemsets and Their Lattice Structure, IEEE Transactions on Knowledge and Data Engineering
[9] Mohammed J. Zaki, Karam Gouda (2003), Fast Vertical Mining Using Diffsets
[10] http://code.google.com/apis/maps/index.html [11] http://msdn.microsoft.com/
[12] http://www.codeproject.com
[13] http://www.ddbj.nig.ac.jp, DNA Data Bank of Japan [14] http://xml.nig.ac.jp/wsdl/GetEntry.wsdl
PHỤ LỤC
CƠ SỞ DỮ LIỆU VIRUS CÚM 1. Giải thích một số từ khóa trong cơ sở dữ liệu DNA [3][13]
Attennuator Vùng trình tự điều hòa kết thúc sự phiên mã,
điều khiển sự biểu hiện của các operon vi
khuẩn (nằm giữa promotor và gen cấu trúc)
C_region Vùng ổn định (đoạn trong mạch L hoặc H của
immunoglobulin mà trình tự của nó tương đối
giống nhau ở các immunoglobulin)
CAAT_signal Hộp CAAT là một phần của trình tự bảo tồn
nằm cách vị trí bắt đầu phiên mã khoảng 75 base, liên quan đến sự gắn RNA polymerase
CDS Vùng trình tự mã hóa cho protein
Conflict Xác định vùng thay đổi trên trình tự
D-loop Vùng ba sợi hay nút chuyển đổi trên trình tự
D_segment Vùng trình tự biến đổi của mạch nặng
immunoglobulin của chuỗi beta của thụ quan
tế bào T
enhancer Nhân tố tăng cường
exon Vùng trình tự có mặt trong mRNA ở tế bào chất, thường tương ứng với phần mã hóa của
gen và sẽ được dịch mã thành protein
GC_signal Trình tự giàu GC điều khiển sự khởi động của
quá trình phiên mã ở eukaryote(tương đương
với hộp TATA)
gene Gen
iDNA Vùng trình tự lặp lại giữa trình tự DNA
intron Vùng trình tự được phiên mã nhưng sẽ bị loại
bỏ trong quá trình trưởng thành của mRNA
J_segment Đoạn nối giữa hai mạch nặng và mạch nhẹ
của immunoglobulin
LTR Vùng trình tự lặp lại ở hai đầu cuối của một
trình tự được tìm thấy ở Retrovirus
map_peptide Peptide trưởng thành (đã qua bộ máy golgi và
misc_binding Cho biết đặc tính liên kết của một vùng trình tự hoặc một nucleotide
misc_difference Đặc tính khác biệt (không thể được mô tả với
các từ khóa như conflict, old_sequence,
variation, modified_base)
misc_feature Vùng có đặc điểm mới hoặc hiếm
misc_recomb Chỉ ra vùng được chèn vào hoặc bị loại bỏ do
tái tổ hợp
misc_RNA Cho biết sản phẩm phiên mã được tạo ra
misc_signal Chỉ rõ vùng trình tự có thể thay đổi chức năng
sinh học
misc_structure Cho biết đặc tính cấu trúc của trình tự(có cấu
trúc bậc hai hay bậc ba)
modified_base Base được sửa sai
mRNA RNA thông tin
N_region Vùng trình tự có nucleotide được gắn thêm vào giữa những đoạn trình tự immunoglobulin đã được tái sắp xếp
old_segment Trình tự trước đây
polyA_signal Vùng trình tự giàu Adenine
polyA_site Vị trí gắn poly_A
precursor_RNA Tiền thân RNA(RNA chưa qua quá trình splicing)
prim_transcript Sản phẩm phiên mã sơ khởi (vẫn còn các vùng 5’clip, 5’UTR, exon, intron, 3’UTR, 3’clip)
primer_bind Vị trí gắn mồi
Promoter Trình tự khởi động
Protein_bind Vị trí gắn protein không có liên kết cộng hóa
trị
RBS Vị trí gắn ribosom
Repeat_region Vùng gen chứa những trình tự lặp
Repeat_unit Trình tự lặp
Rep_region Vị trí bắt đầu sao chép
rRNA RNA ribosom
S_region Vùng chuyển đổi
satellite Trình tự vệ tinh(là một trình tự lặp)
DNA DNA
scRNA RNA tế bào
snRNA RNA nhân (tham gia vào quá trình sau phiên mã)
snoRNA RNA hạt nhân
source Nguồn gốc trình tự
Stem_loop Đặc điểm về sự tự bắt cặp của những trình tự
bổ sung ở RNA hoặc DNA mạch đơn (dạng
vòng xoáy hay cấu trúc kẹp tóc,...)
STS Vị trí đánh dấu trình tự
TATA_signal Hộp TATA (kiểm tra sự khởi động phiên mã
ở eukaryote, nằm trước vị trí bắt đầu phiên mã 25-35 nucleotide)
terminator Điểm kết thúc quá trình phiên mã
Transit_peptide Vùng trình tự mã hóa cho peptide vận chuyển
tRNA RNA vận chuyển
unsure Dữ liệu không xác định
V_region Vùng biến đổi
V_segment Đoạn trình tự biến đổi
variation Biến dị
3’clip Vùng sẽ bị loại bỏ trong quá trình phiên mã (có ở tiền RNA)
5’clip Vùng sẽ bị loại bỏ trong quá trình phiên mã (có ở RNA trưởng thành)
3’UTR Vùng sẽ bị loại bỏ trong quá trình dịch mã (có
ở RNA trưởng thành)
5’UTR Vùng sẽ bị loại bỏ trong quá trình dịch mã (có
ở RNA trưởng thành) -10_signal
-35_signal
Đặc tính của promoter là hai trình tự gồm 6
nucleotide, một trình tự nằm cách điểm vị trí
bắt đầu sinh tổng hợp RNA 10 cặp base (- 10_signal), trình tự kia cách 35 cặp base (trình tự -35_signal)
2. Ý nghĩa của các thuộc tính [3][13]
Các từ khóa Ý nghĩa Ghi chú
allele Tên allele tương ứng của
gen(chỉ trạng thái khác nhau
của gen)
cặp bổ sung với bộ ba
mã hóa. bound_moiety Đặc tính liên kết
cell_line Dòng tế bào mang trình tự
cell_type Loại tế bào mang trình tự
chromosome Nhiễm sắc thể chứa trình tự
citation Tham khảo đến các tham
khảo được dẫn xuất
clone Tên dòng tế bào vô tính clone_lib Thư viện dòng vô tính
codon_start Vị trí bắt đầu codon codon_start=1 cons_splice Đặc điểm của vị trí cắt bảo
tồn
country Cho biết nguồn gốc của mẫu
thử DNA được nghiên cứu, là nơi mà trình tự được thu
thập.
country="Viet Nam"
collection_date Ngày thu thập mẫu trình tự collection_date="2005";
thường có dạng: dd- Mmm-yyy, Mmm-yyyy hoặc yyyy
collected_by Tên của người thu thập mẫu
trình tự
collected_by="Dan Janzen"
cultivar Giống cây trồng chứa trình tự (chỉ dùng cho nấm và thực vật)
db_xref Cho biết thông tin về mã số
phân loại taxon của trình tự
theo hệ thống phân loại của
NCBI hay mã số truy cập
của trình tự ở một cơ sở dữ
liệu khác
db_xref="taxon:680789", db_xref="GI:269824262 "
dev_stage Giai đoạn phát triển của sinh
vật chứa trình tự
direction Hướng sao chép của DNA
EC_number Mã số sản phẩm enzym của
trình tự
environmental_sample Mẫu thử môi trường
nghiệm hay lý thuyết
exception Cho biết amino acid hoặc
trình tự RNA được dịch mã hoặc phiên mã khác những
qui luật sinh học thông thường
focus Cần phải chú ý đặc tính
nguồn gốc được nêu ra
(được sử dụng đối với
những trình tự có nhiều đặc
tính nguồn gốc)
frequency Tần số xuất hiện của một đặc tính nào đó
function Chức năng của trình tự
germline Dòng tế bào nấm
gene Ký hiệu của gene tương ứng
với vùng trình tự
Ví dụ:
gene="PA",gene="NP" host Tên động vật chủ Ví dụ: host="duck"
germline Dòng tế bào mầm
haplotype Kiểu đơn của sinh vật mang
trình tự
insertion_seq Trình tự chèn
isolate Nguồn phân lập
isolation_source Mô tả các đặc tính về địa lý, môi trường, vật lý của các
mẫu thử sinh học chứa trình tự
label Thẻ đánh dấu với một đặc điểm được sử dụng thường
xuyên
lab_host Vật chủ dùng để nhân giống
chứa trình tự
locus_tag Tên thẻ đánh dấu tại vị trí
locus
map Vị trí vùng trình tự trên bản
đồ gen
macronuclear Cho biết trình tự được nhân sinh dưỡng hay nhân sinh
mod_base Tên base nucleotide được
sửa sai
mol_type Loại trình tự trên cơ thể sinh
vật
mol_type="viral cRNA"
note Ghi chú note="passaged in
allantoic fluid" number Xác định trình tự các nhân
tố di truyền theo hướng 5’ đến 3’
organelle Cơ quan chứa trình tự
organism Tên khoa học của sinh vật
mang trình tự
partial Dấu ngăn cách (đã không còn dùng từ ngày
15/12/2001). Đối với những
truy cập mới, NCBI dùng ký hiệu <,> để thể hiện.
PCR_condition Điều kiện của phản ứng
khuếch đại PCR
phenotype Kiểu hình
pop_variant Tên biến dị quần thể
plasmid Tên plasmid chứa trình tự
product Tên sản phẩm mà trình tự
mã hóa
product="polymerase PA"
protein_id Mã số truy cập của protein được qui định theo loại cơ
sở dữ liệu chứa nó
protein_id="ACZ46268. 1"
proviral Cho biết trình tự virus đã gắn kết vào bộ gen của tế
bào
pseudo Một đặc tính là giả (không có chức năng)
rearranged Cho biết trình tự khởi nguồn
từ một trình tự DNA khác đã
được sắp xếp lại
replace Cho biết sự thay thế tại vị trí
trình tự đang xét
rpt_family Tên của trình tự lặp (Alu hoặc Kpn)
rpt_type Cách tổ chức của vùng trình tự lặp
rpt_type= "inverted" rpt_unit Vùng trình tự lặp
segment Số phân đoạn của gen gene="PA" thì segment="3"; gene="NP" thì segment="5" serotype Chủng virus serotype="H5N1" serovar Giống serotype nhưng dùng
cho prokaryote(các sinh vật
tiền nhân)
sex Giới tính của sinh vật mang
trình tự
specific_host Tế bào chủ chứa trình tự
specimen_voucher Cho biết nơi lưu trữ tiêu bản
của sinh vật(thường là ở các
viện nghiên cứu,...)
standard_name Tên đầy đủ của gen
strain Chủng sinh vật chứa trình tự strain="A/duck/Hai Phong /208/2006"
sub_clone Dòng phụ
sub_species Loài phụ
sub_strain Chủng phụ
tissue_lib Thư viện mô chứa trình tự
tissue_type Kiểu mô
transgenic Cho biết sinh vật được
chuyển gen
translation Đoạn trình tự được dịch mã Có 2 loại hệ thống dịch
mã: hệ thống 3 ký tự và hệ thống 1 ký tự, ví dụ
Methionine có thể viết
tắt là Met hoặc M,…
transl_except Cho biết vị trí aa được dịch
mã không tuân theo khung dịch mã chuẩn
transl_table Khung dịch mã được sử
dụng để dịch mã gen
transposon Tên gen nhảy Transposon là một trình tự DNA có khả năng tự
gắn xen vào một vị trí
mới trên gen usedin Mô tả tên cơ sở dữ liệu, mã
số truy cập trình tự ở những cơ sở dữ liệu khác.
variety Cho biết thực vật thuộc thứ
nào
varion Cho biết trình tự của virus
nằm trong vỏ capsid(chưa
gắn vào bộ gen của tế bào chủ)
Viron là một dạng virus
ký sinh bắt buộc trong tế
bào chủ
3. Mô tả các đặc tính của virus cúm
Bảng sau sẽ mô tả thông tin tổng quát của virus cúm:
Loại virus Các loại gen Các loại protein
chính
Các động vật chủ
phổ biến
A PB1, PB2, NP, HA, NA, PA, NS, M
PB1, PB1-F2, PB2, PA, HA, NA, NP, M1, M2, NS1, NS2
Người, chim, gia
cầm, động vật có
vú B PB1, PB2, NP,
HA, NA, PA, NS, M
PB1, PB2, PA, HA, NP, NA, NB, M1, BM2, NS1, NS2
Người, chuột, hải
cẩu C PB2, PB1, P3, HE, NP, MP, NS PB1, PB2, P3, HE, NP, M1, CM2, NS1, NS2 Người, lợn
4. Mô tả cấu trúc các bảng dữ liệu
BẢNG PROVINCE – Lưu trữ thông tin các tỉnh thành phố
Tên trường Kiểu dữ liệu Ràng buộc
PROVINCE_ID varchar(20) Primary Key
NATION_ID varchar(20) Foreign Key
PROVINCE_NAME nvarchar(50) Unique
BẢNG NEIGHBOR_PROVINCE – Lưu trữ thông tin các làng giềng của Tỉnh thành
phố
PROVINCE_ID varchar(20) Foreign Key
NEIBORGH_ID varchar(20) Foreign Key
Bảng NATION – Lưu trữ thông tin các quốc gia
Tên trường Kiểu dữ liệu Ràng buộc
NATION_ID varchar(20) Primary Key
CONTINENT_ID varchar(20) Foreign Key
NATION_NAME nvarchar(50) Unique
Bảng NEIGHBOR_NATION – Lưu trữ thông tin các quốc gia láng giềng
Tên trường Kiểu dữ liệu Ràng buộc
NATION_ID varchar(20) Foreign Key
NATION_NEIGHBOR_ID varchar(20) Foreign Key
Bảng CONTINENT – Lưu trữ thông tin các châu lục
Tên trường Kiểu dữ liệu Ràng buộc
CONTINENT_ID varchar(20) Primary Key
CONTINENT_NAME nvarchar(30) BẢNG HOST – Lưu trữ thông tin các động vật chủ
Tên trường Kiểu dữ liệu Ràng buộc
HOST_ID bigint Primary Key
HOST varchar(20)
BẢNG GEN_TYPE – Lưu trữ thông tin các loại gen của virus
Tên trường Kiểu dữ liệu Ràng buộc
GENE_TYPE varchar(4) Primary Key
DESCRIPTION_GT nvarchar(100)
BẢNG PROTEIN_TYPE – Lưu trữ thông tin các loại Protein của virus
Tên trường Kiểu dữ liệu Ràng buộc
PROTEIN_TYPE varchar(10) Primary Key
PROTEIN_NAME varchar(10)
BẢNG VIRALTYPE – Lưu trữ thông tin các loại virus
Tên trường Kiểu dữ liệu Ràng buộc
VIRAL_ID varchar(3) Primary Key
BẢNG SUBTYPE_H- Lưu trữ thông tin chỉ số H của virus
Tên trường Kiểu dữ liệu Ràng buộc
H tinyint Primary Key
BẢNG SUBTYPE_N – Lưu trữ thông tin chỉ số N của virus
Tên trường Kiểu dữ liệu Ràng buộc
N tinyint Primary Key
BẢNG SUBTYPE_HN – Lưu trữ thông tin một tổ hợp chỉ số H, N của virus
Tên trường Kiểu dữ liệu Ràng buộc
H tinyint Foreign Key
N tinyint Foreign Key
BẢNG GENVIRUS – Lưu trữ thông tin loại gen của từng loại virus
Tên trường Kiểu dữ liệu Ràng buộc
VIRAL_ID varchar(3) Foreign Key
GENE_TYPE varchar(10) Foreign Key
BẢNG PRO_VIRUS – Lưu trữ thông tin loại protein của virus
Tên trường Kiểu dữ liệu Ràng buộc
VIRAL_ID varchar(3) Foreign Key
PROTEIN_TYPE varchar(10) Foreign Key
BẢNG SOURCE_FEATURE – Lưu trữ thông tin nguồn gốc của trình tự virus
Tên trường Kiểu dữ liệu Ràng buộc
SOURCE_FEATURE_ID bigint Primary Key
ACCESSION varchar(20) LENGTH varchar(50) ORGANISM varchar(100) COUNTRY varchar(50) DB_XREF varchar(200) ISOLATION_SOURCE varchar(500) LAB_HOST varchar(500) MOL_TYPE varchar(500) NOTE varchar(500) SEGMENT varchar(10) SEX varchar(100) STRAIN varchar(200)
COLLECTED_BY varchar(100) IDENTIFIED_BY varchar(100)
HOST varchar(100)
SEROTYPE varchar(100)
H tinyint Foreign Key
N tinyint Foreign Key
GENE_TYPE varchar(20)
TYPE varchar(3) Foreign Key
LOCATION_ID bigint Foreign Key
AGE varchar(10)
GENDER varchar(10)
FULL_LENGTH varchar(10) BẢNG CDS – Lưu trữ thông tin của CDS
Tên trường Kiểu dữ liệu Ràng buộc
CDS_ID int Primary Key
ACCESSION varchar(20) Foreign Key
ID_GENE_VALUE varchar(100) CODON_START int DB_XREF varchar(100) EC_NUMBER varchar(100) EVIDENCE varchar(300) EXCEPTION varchar(300) [FUNCTION] varchar(300) GENE varchar(100) MAP varchar(100) NOTE varchar(500) PRODUCT varchar(300) PROTEIN_ID varchar(200) PSEUDO varchar(300) STANDART_NAME varchar(300) TRANSLATION varchar(5000) TRANSL_EXCEPT varchar(300) TRANSL_TABLE varchar(300) USEDIN varchar(300) EXPERIMENT varchar(300) GENE_SYNONYM varchar(300)
Tên trường Kiểu dữ liệu Ràng buộc
LOCATION_ID bigint Primary Key
LOCATION_VALUE varchar(20) Foreign Key BẢNG REFERENCE – Lưu trữ thông tin tham chiếu của trình tự
Tên trường Kiểu dữ liệu Ràng buộc
REFERENCE_ID int Primary Key
LENGTH varchar(1000)
AUTHORS varchar(1000)
TITLE varchar(1000)
JOURNAL varchar(1000)
BẢNG GEN_REFERENCE – Lưu trữ thông tin chi tiết tham chiếu của trình tự virus
Tên trường Kiểu dữ liệu Ràng buộc
ACCESSION varchar(20) Foreign Key
REFERENCE_ID int Foreign Key
BẢNG GENECOMPLETE – Lưu trữ thông tin tổng quan của một trình tự virus
Tên trường Kiểu dữ liệu Ràng buộc
ACCESSION varchar(20) Primary Key
DEFINITION varchar(2000) VERSION varchar(50) KIND_ID varchar(3) KEYWORDS varchar(1000) ORGANISM varchar(1000) COMMENTION varchar(2000) ORIGIN varchar(8000) DATE_UP smalldatetime PL_DATED smalldatetime GENBANK_ID varchar(20)