Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 79 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
79
Dung lượng
2,3 MB
Nội dung
Lời cảm ơn Hoàn thành đề tài luậnvăn này, tôi đã nhận được sự giúp đỡ rất nhiệt tình của các Thầy, Cô, gia đình, của các bạn bè và đồng nghiệp. Tôi xin gởi lời cảm ơn chân thành đến với những người đã luôn sẳn lòng chia sẽ thời gian, công việc và kiến thức để giúp tôi hoàn thành luậnvănmột cách tốt nhất. Tôi xin chân thành bày tỏ lời cảm ơn đến Tiến sĩ Trần Văn Hoài, người Thầy đã hết sức nhiệt tình hướng dẫn tôi thực hiện luậnvăn này. Nguyễn Gia Khoa MỤC LỤC Phần Mở Đầu 1 1. Lý do thực hiện đề tài .1 2. Mục tiêu đề tài 6 3. Nội dung thực hiện .6 4. Ý nghĩa khoa học và thực tiễn của đề tài .6 Chương 1: CơSởDữLiệuVirusCúm .8 1.1 Khái quát 8 1.2 Xây dựng cởsởdữliệuviruscúm 10 1.3 Kết luận 12 Chương 2: Xây Dựng Hệ Thống Cập Nhật 13 Tự Động CơSởDữLiệuVirusCúm 13 2.1 Những thách thức khi muốn cập nhật dữliệu tự động .13 2.2 Xây dựng hệ thống cập nhật tự động cơsởdữliệuviruscúm .13 2.2.1 Mô hình hoạt động .13 2.2.2 Mô tả mộtsố khối chức năng chính của hệ thống .15 2.2.2.1 Phần tương tác với người quản trị .15 2.2.2.2 Quyết định cập nhật dữliệu 15 2.2.2.3 Lấy dữliệu tự động .16 2.2.2.4 Phân tích dữliệu mới cần lấy về .16 2.2.3 Hoạt động của hệ thống cập nhật .16 2.2.3.1 Thông tin truy cập trên hệ thống của NCBI 17 2.2.3.2 Cơsởdữliệu từ NCBI 17 2.2.3.3 Cơsởdữliệu từ DDBJ 18 2.2.3.4 Phương pháp lấy dữliệu tự động 21 2.3 Kết luận 22 Chương 3: Hệ Thống Thông Tin VirusCúm 23 3.1 Tổng quan .23 3.2 So sánh và đánh giá 23 3.3 Giới thiệu mộtsố kết quả .25 3.3.1 Lấy dữliệu ban đầu .25 3.3.2 Cập nhật dữliệu định kỳ 26 3.3.3 Thêm dữliệu từ một tập tin trình tự 26 3.3.4 Hệ thống thông tin viruscúm 28 3.3.4.1 Cung cấp thông tin viruscúm theo nhiều tiêu chí 29 3.3.4.2 Theo dõi mối quan hệ của viruscúm 30 3.3.4.3 Biểu diễn thông tin viruscúm của ViệtNam trên Google map 32 3.3.4.4 Thống kê viruscúm của ViệtNam .34 3.3.4.5 Thống kê viruscúm của Quốc tế 38 3.3.4.6 Thống kê viruscúm của Quốc gia 41 3.4 Kết luận 44 Chương 4: Khai Phá DữLiệuVirusCúm .45 4.1 Phát biểu bài toán .45 4.2 Khai phá dữliệuviruscúmViệtNam 45 4.2.1 Thông tin virus các tỉnh thành ViệtNam 46 4.2.2 Thông tin viruscúmViệtNam 50 4.2.3 Thông tin đặc trưng của viruscúmViệtNam .53 4.3 Kết luận 56 Chương 5: Kết Luận 58 5.1 Đóng góp của đề tài 58 5.2 Hướng phát triển .58 Tài Liệu Tham Khảo PHỤ LỤC CƠSỞDỮLIỆUVIRUSCÚM Danh Mục Các Từ Viết Tắt A Adenine API Application Programming Interface BLAST Basic Local Alignment Search Tool C Cytosine cDNA Complementary DNA CSDL Cơsởdữliệu DDBJ DNA Data Bank of Japan DNA Deoxyribonucleic acid EMBL European Molecular Bioinformatic Laboratory IVDBVN Influenza Virus DataBase Vietnam FASTA Fast Aligment Search Tool G Guanine GC Guanine Cytosine INSDC International Nucleotide Sequence Database Collaboration mRNA messager RNA NCBI National Center for Biotechnology Information RNA Ribonucleic acid rRNA robosomal RNA T Thymine, Thymidine tRNA transfer RNA U Uracil Danh Mục Các Hình Hình 1: Số lượng trình tự viruscúm được lưu trữ tại NCBI 2 Hình 2: Trang chủ hệ thống viruscúm của IVDB 2 Hình 3: Trang chủ hệ thống viruscúm của NCBI .3 Hình 4: Thống kê số trường hợp người mắc cúm H5N1 .4 Hình 1.1: Mô hình quan hệ của cơsởdữliệuviruscúm 11 Hình 2.1: Mô hình hoạt động của hệ thống quản lý, tự động cập nhật dữliệu .14 Hình 2.2: Trao đổi dữliệu giữa ba ngân hàng DDBJ-NCBI-EMBL 15 Hình 2.3: Số lượt truy cập Web Server của DDBJ .19 Hình 2.4: Qui trình lấy dữliệu mới 22 Hình 3.1: Thêm dữliệu lần đầu tiên vào CSDL nội tại 25 Hình 3.2: Lập lịch cập nhật CSDL tự động theo định kỳ .26 Hình 3.3: Chọn quốc gia .27 Hình 3.4: Chọn tập tin trình tự 27 Hình 3.5: Thêm trình tự mới từ một tập tin 28 Hình 3.6: Hệ thống thông tin viruscúm của IVDBVN 29 Hình 3.7: Trình tự viruscúm của tỉnh Tiền Giang .30 Hình 3.8: Đánh dấu Tỉnh Tiền Giang trên Google map .30 Hình 3.9: Trình tự láng giềng của Tiền Giang 31 Hình 3.10: Xác định các tỉnh/thành phố láng giềng với Tiền Giang trên Google map 31 Hình 3.11: Biểu diễn viruscúm của ViệtNam trên Google map theo dạng đánh dấu .32 Hình 3.12: Biểu diễn viruscúm của ViệtNam trên Google map theo dạng mối quan hệ giữa số lượng trình tự và màu sắc .33 Hình 4.1: Các luật của viruscúm các tỉnh thành ViệtNam 48 Hình 4.2: Danh sách các luật của viruscúmViệtNam 51 Hình 4.3: Khai phá dữliệuviruscúm của ViệtNam (khung bên trái) và Indonesia (khung bên phải) 54 Hình 4.4: Khai phá dữliệuviruscúm của ViệtNam (khung bên trái) và Thái Lan (khung bên phải) 55 Danh Mục Các Bảng Bảng 3.1: So sánh và đánh giá với các hệ thống thông tin viruscúm .23 Bảng 3.2: Các loại gene của viruscúm 36 Bảng 4.1: Danh sách các luật của viruscúm các tỉnh thành ViệtNam .49 Bảng 4.2: Danh sách các luật của viruscúmViệtNam 52 Bảng 4.3: Danh sách các luật (tính chất) đặc trưng của viruscúmViệtNam .56 1 Phần Mở Đầu Tên đề tài: NGHIÊNCỨUMỘTSỐVẤNĐỀLIÊNQUANĐẾNCƠSỞDỮLIỆUVIRUSCÚMỞVIỆTNAM 1. Lý do thực hiện đề tài Viruscúm (influenza) - là nguyên nhân gây ra bệnh cúmở người và động vật. Viruscúm được chia thành ba loại chính là cúm A, cúm B, và cúm C. Cúm A bao gồm nhiều chủng (subtype) khác nhau (ví dụ H1N1, H2N2, H5N1,…) và là viruscúm phổ biến và nguy hiểm nhất. Với khả năng biến đổi và lan truyền nhanh từ động vật sang động vật, từ động vật sang người, và đặc biệt là từ người sang người, viruscúm là một trong những loài virus nguy hiểm nhất cho nền kinh tế cũng như sức khỏe con người trên toàn thế giới từ trước đến nay. Hiện nay, một lượng lớn dữliệu sinh học phân tử (các trình tự DNA/protein) của viruscúm đã được giải mã và lưu trữ ở các cơsởdữliệu dùng chung của thế giới như Trung tâm Thông tin về công nghệ sinh học Hoa Kỳ - NCBI (National Center for Biotechnology Information) [4]. Theo thống kê ngày 22 tháng 03 năm 2011, NCBI hiện đang lưu giữ hơn 150.000 trình tự DNA/protein của viruscúm được thu thập và giải mã từ nhiều quốc gia trên thế giới trong suốt thời gian qua (Hình 1). 2 Hình 1: Số lượng trình tự viruscúm được lưu trữ tại NCBI (http://www.ncbi.nlm.nih.gov/genomes/FLU/growth.html) Ở châu Á, Viện nghiêncứu genome Bắc Kinh, Trung Quốc xây dựng cơsởdữliệuviruscúm IVDB (http://influenza.psych.ac.cn). Hiện tại, IVDB lưu trữ khoảng 43.000 trình tự DNA/protein của nhiều loại; nhiều chủng loại viruscúm khác nhau của nhiều quốc gia trên thế giới [5]. Hình 2: Trang chủ hệ thống viruscúm của IVDB (http://influenza.psych.ac.cn) 3 Tuy nhiên, các thông tin do hệ thống NCBI, IVDB cung cấp chỉ chi tiết đến mức độ quốc gia. Tức là không chi tiết đến mức độ các tỉnh thành trong một quốc gia (Hình 3). Hình 3: Trang chủ hệ thống viruscúm của NCBI (http://www.ncbi.nlm.nih.gov/genomes/FLU/Database/nph-select.cgi?go=database) ViệtNam với khí hậu nhiệt đới là một trong những quốc gia chịu ảnh hưởng nặng nề của virus cúm. Từ năm 2003 đến nay chúng ta đang phải đối mặt với dịch cúm gia cầm H5N1. Cúm gia cầm H5N1 đã làm nhiều người chết, và thiêu hủy một lượng lớn gia cầm với tổng thiệt hại hàng trăm triệu đô la Mỹ (Hình 4). Hiện nay, chúng ta đang đối mặt với dịch cúm lợn H1N1 – số người nhiễm được thông báo là 11 ngàn, và đã có trên 58 ca tử vong. (http://www.moh.gov.vn/homebyt/vn/portal/InfoDetail.jsp?area=58&cat=1545&ID=8486) 4 Hình 4: Thống kê số trường hợp người mắc cúm H5N1 http://www.who.int/csr/disease/avian_influenza/country/cases_table_2010_04_09/en/index.html Do tính chất đặc biệt nguy hiểm của virus cúm, hàng loạt các nghiêncứu về viruscúm đã được tiến hành ởViệt Nam. Sự phát triển mạnh mẽ của công nghệ sinh học ởViệtNam đã giúp chúng ta đã tiến hành nhiều nghiêncứu về viruscúmở mức độ sinh học phân tử (molecular biology). Việc giải mã các trình tự DNA/protein hay thậm chí cả hệ gen của virus đã được tiến hành trong thời gian qua. Hiện tại có hơn 2.951 trình tự DNA/protein của viruscúm (chủ yếu là cúm gia cầm H5N1) đã được giải mã trên nhiều tỉnh thành ởViệtNam từ năm 2001 đến nay. Cục thú y trung ương đã tiến hành nhiều nghiêncứu về virus cúm, đặc biệt là cúm gia cầm H5N1. Tiêu biểu là nhóm nghiêncứu của TS. Nguyễn Tiến Dũng đã tiến hành giải mã toàn bộ hệ gen của 33 viruscúmở nhiều tỉnh thành khác nhau từ 10/2005 đến 5/2007: Đồng tháp, Sóc Trăng, An Giang, Hà Tây, Vĩnh Long, Hà Nội,… Nhóm đã