1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ

79 573 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 79
Dung lượng 2,3 MB

Nội dung

Lời cảm ơn Hoàn thành đề tài luận văn này, tôi đã nhận được sự giúp đỡ rất nhiệt tình của các Thầy, Cô, gia đình, của các bạn bè và đồng nghiệp. Tôi xin gởi lời cảm ơn chân thành đến với những người đã luôn sẳn lòng chia sẽ thời gian, công việc và kiến thức để giúp tôi hoàn thành luận văn một cách tốt nhất. Tôi xin chân thành bày tỏ lời cảm ơn đến Tiến Trần Văn Hoài, người Thầy đã hết sức nhiệt tình hướng dẫn tôi thực hiện luận văn này. Nguyễn Gia Khoa MỤC LỤC Phần Mở Đầu 1 1. Lý do thực hiện đề tài .1 2. Mục tiêu đề tài 6 3. Nội dung thực hiện .6 4. Ý nghĩa khoa học và thực tiễn của đề tài .6 Chương 1: Sở Dữ Liệu Virus Cúm .8 1.1 Khái quát 8 1.2 Xây dựng cở sở dữ liệu virus cúm 10 1.3 Kết luận 12 Chương 2: Xây Dựng Hệ Thống Cập Nhật 13 Tự Động Sở Dữ Liệu Virus Cúm 13 2.1 Những thách thức khi muốn cập nhật dữ liệu tự động .13 2.2 Xây dựng hệ thống cập nhật tự động sở dữ liệu virus cúm .13 2.2.1 Mô hình hoạt động .13 2.2.2 Mô tả một số khối chức năng chính của hệ thống .15 2.2.2.1 Phần tương tác với người quản trị .15 2.2.2.2 Quyết định cập nhật dữ liệu 15 2.2.2.3 Lấy dữ liệu tự động .16 2.2.2.4 Phân tích dữ liệu mới cần lấy về .16 2.2.3 Hoạt động của hệ thống cập nhật .16 2.2.3.1 Thông tin truy cập trên hệ thống của NCBI 17 2.2.3.2 sở dữ liệu từ NCBI 17 2.2.3.3 sở dữ liệu từ DDBJ 18 2.2.3.4 Phương pháp lấy dữ liệu tự động 21 2.3 Kết luận 22 Chương 3: Hệ Thống Thông Tin Virus Cúm 23 3.1 Tổng quan .23 3.2 So sánh và đánh giá 23 3.3 Giới thiệu một số kết quả .25 3.3.1 Lấy dữ liệu ban đầu .25 3.3.2 Cập nhật dữ liệu định kỳ 26 3.3.3 Thêm dữ liệu từ một tập tin trình tự 26 3.3.4 Hệ thống thông tin virus cúm 28 3.3.4.1 Cung cấp thông tin virus cúm theo nhiều tiêu chí 29 3.3.4.2 Theo dõi mối quan hệ của virus cúm 30 3.3.4.3 Biểu diễn thông tin virus cúm của Việt Nam trên Google map 32 3.3.4.4 Thống kê virus cúm của Việt Nam .34 3.3.4.5 Thống kê virus cúm của Quốc tế 38 3.3.4.6 Thống kê virus cúm của Quốc gia 41 3.4 Kết luận 44 Chương 4: Khai Phá Dữ Liệu Virus Cúm .45 4.1 Phát biểu bài toán .45 4.2 Khai phá dữ liệu virus cúm Việt Nam 45 4.2.1 Thông tin virus các tỉnh thành Việt Nam 46 4.2.2 Thông tin virus cúm Việt Nam 50 4.2.3 Thông tin đặc trưng của virus cúm Việt Nam .53 4.3 Kết luận 56 Chương 5: Kết Luận 58 5.1 Đóng góp của đề tài 58 5.2 Hướng phát triển .58 Tài Liệu Tham Khảo PHỤ LỤC SỞ DỮ LIỆU VIRUS CÚM Danh Mục Các Từ Viết Tắt A Adenine API Application Programming Interface BLAST Basic Local Alignment Search Tool C Cytosine cDNA Complementary DNA CSDL sở dữ liệu DDBJ DNA Data Bank of Japan DNA Deoxyribonucleic acid EMBL European Molecular Bioinformatic Laboratory IVDBVN Influenza Virus DataBase Vietnam FASTA Fast Aligment Search Tool G Guanine GC Guanine Cytosine INSDC International Nucleotide Sequence Database Collaboration mRNA messager RNA NCBI National Center for Biotechnology Information RNA Ribonucleic acid rRNA robosomal RNA T Thymine, Thymidine tRNA transfer RNA U Uracil Danh Mục Các Hình Hình 1: Số lượng trình tự virus cúm được lưu trữ tại NCBI 2 Hình 2: Trang chủ hệ thống virus cúm của IVDB 2 Hình 3: Trang chủ hệ thống virus cúm của NCBI .3 Hình 4: Thống kê số trường hợp người mắc cúm H5N1 .4 Hình 1.1: Mô hình quan hệ của sở dữ liệu virus cúm 11 Hình 2.1: Mô hình hoạt động của hệ thống quản lý, tự động cập nhật dữ liệu .14 Hình 2.2: Trao đổi dữ liệu giữa ba ngân hàng DDBJ-NCBI-EMBL 15 Hình 2.3: Số lượt truy cập Web Server của DDBJ .19 Hình 2.4: Qui trình lấy dữ liệu mới 22 Hình 3.1: Thêm dữ liệu lần đầu tiên vào CSDL nội tại 25 Hình 3.2: Lập lịch cập nhật CSDL tự động theo định kỳ .26 Hình 3.3: Chọn quốc gia .27 Hình 3.4: Chọn tập tin trình tự 27 Hình 3.5: Thêm trình tự mới từ một tập tin 28 Hình 3.6: Hệ thống thông tin virus cúm của IVDBVN 29 Hình 3.7: Trình tự virus cúm của tỉnh Tiền Giang .30 Hình 3.8: Đánh dấu Tỉnh Tiền Giang trên Google map .30 Hình 3.9: Trình tự láng giềng của Tiền Giang 31 Hình 3.10: Xác định các tỉnh/thành phố láng giềng với Tiền Giang trên Google map 31 Hình 3.11: Biểu diễn virus cúm của Việt Nam trên Google map theo dạng đánh dấu .32 Hình 3.12: Biểu diễn virus cúm của Việt Nam trên Google map theo dạng mối quan hệ giữa số lượng trình tự và màu sắc .33 Hình 4.1: Các luật của virus cúm các tỉnh thành Việt Nam 48 Hình 4.2: Danh sách các luật của virus cúm Việt Nam 51 Hình 4.3: Khai phá dữ liệu virus cúm của Việt Nam (khung bên trái) và Indonesia (khung bên phải) 54 Hình 4.4: Khai phá dữ liệu virus cúm của Việt Nam (khung bên trái) và Thái Lan (khung bên phải) 55 Danh Mục Các Bảng Bảng 3.1: So sánh và đánh giá với các hệ thống thông tin virus cúm .23 Bảng 3.2: Các loại gene của virus cúm 36 Bảng 4.1: Danh sách các luật của virus cúm các tỉnh thành Việt Nam .49 Bảng 4.2: Danh sách các luật của virus cúm Việt Nam 52 Bảng 4.3: Danh sách các luật (tính chất) đặc trưng của virus cúm Việt Nam .56 1 Phần Mở Đầu Tên đề tài: NGHIÊN CỨU MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN SỞ DỮ LIỆU VIRUS CÚM VIỆT NAM 1. Lý do thực hiện đề tài Virus cúm (influenza) - là nguyên nhân gây ra bệnh cúm người và động vật. Virus cúm được chia thành ba loại chính là cúm A, cúm B, và cúm C. Cúm A bao gồm nhiều chủng (subtype) khác nhau (ví dụ H1N1, H2N2, H5N1,…) và là virus cúm phổ biến và nguy hiểm nhất. Với khả năng biến đổi và lan truyền nhanh từ động vật sang động vật, từ động vật sang người, và đặc biệt là từ người sang người, virus cúmmột trong những loài virus nguy hiểm nhất cho nền kinh tế cũng như sức khỏe con người trên toàn thế giới từ trước đến nay. Hiện nay, một lượng lớn dữ liệu sinh học phân tử (các trình tự DNA/protein) của virus cúm đã được giải mã và lưu trữ các sở dữ liệu dùng chung của thế giới như Trung tâm Thông tin về công nghệ sinh học Hoa Kỳ - NCBI (National Center for Biotechnology Information) [4]. Theo thống kê ngày 22 tháng 03 năm 2011, NCBI hiện đang lưu giữ hơn 150.000 trình tự DNA/protein của virus cúm được thu thập và giải mã từ nhiều quốc gia trên thế giới trong suốt thời gian qua (Hình 1). 2 Hình 1: Số lượng trình tự virus cúm được lưu trữ tại NCBI (http://www.ncbi.nlm.nih.gov/genomes/FLU/growth.html) châu Á, Viện nghiên cứu genome Bắc Kinh, Trung Quốc xây dựng sở dữ liệu virus cúm IVDB (http://influenza.psych.ac.cn). Hiện tại, IVDB lưu trữ khoảng 43.000 trình tự DNA/protein của nhiều loại; nhiều chủng loại virus cúm khác nhau của nhiều quốc gia trên thế giới [5]. Hình 2: Trang chủ hệ thống virus cúm của IVDB (http://influenza.psych.ac.cn) 3 Tuy nhiên, các thông tin do hệ thống NCBI, IVDB cung cấp chỉ chi tiết đến mức độ quốc gia. Tức là không chi tiết đến mức độ các tỉnh thành trong một quốc gia (Hình 3). Hình 3: Trang chủ hệ thống virus cúm của NCBI (http://www.ncbi.nlm.nih.gov/genomes/FLU/Database/nph-select.cgi?go=database) Việt Nam với khí hậu nhiệt đới là một trong những quốc gia chịu ảnh hưởng nặng nề của virus cúm. Từ năm 2003 đến nay chúng ta đang phải đối mặt với dịch cúm gia cầm H5N1. Cúm gia cầm H5N1 đã làm nhiều người chết, và thiêu hủy một lượng lớn gia cầm với tổng thiệt hại hàng trăm triệu đô la Mỹ (Hình 4). Hiện nay, chúng ta đang đối mặt với dịch cúm lợn H1N1 – số người nhiễm được thông báo là 11 ngàn, và đã trên 58 ca tử vong. (http://www.moh.gov.vn/homebyt/vn/portal/InfoDetail.jsp?area=58&cat=1545&ID=8486) 4 Hình 4: Thống kê số trường hợp người mắc cúm H5N1 http://www.who.int/csr/disease/avian_influenza/country/cases_table_2010_04_09/en/index.html Do tính chất đặc biệt nguy hiểm của virus cúm, hàng loạt các nghiên cứu về virus cúm đã được tiến hành Việt Nam. Sự phát triển mạnh mẽ của công nghệ sinh học Việt Nam đã giúp chúng ta đã tiến hành nhiều nghiên cứu về virus cúm mức độ sinh học phân tử (molecular biology). Việc giải mã các trình tự DNA/protein hay thậm chí cả hệ gen của virus đã được tiến hành trong thời gian qua. Hiện tại hơn 2.951 trình tự DNA/protein của virus cúm (chủ yếu là cúm gia cầm H5N1) đã được giải mã trên nhiều tỉnh thành Việt Nam từ năm 2001 đến nay. Cục thú y trung ương đã tiến hành nhiều nghiên cứu về virus cúm, đặc biệt là cúm gia cầm H5N1. Tiêu biểu là nhóm nghiên cứu của TS. Nguyễn Tiến Dũng đã tiến hành giải mã toàn bộ hệ gen của 33 virus cúm nhiều tỉnh thành khác nhau từ 10/2005 đến 5/2007: Đồng tháp, Sóc Trăng, An Giang, Hà Tây, Vĩnh Long, Hà Nội,… Nhóm đã

Ngày đăng: 18/12/2013, 14:28

HÌNH ẢNH LIÊN QUAN

Hình 2: Trang chủ hệ thống virus cúm của IVDB - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
Hình 2 Trang chủ hệ thống virus cúm của IVDB (Trang 8)
Hình 1: Số lượng trình tự virus cúm được lưu trữ tại NCBI (http://www.ncbi.nlm.nih.gov/genomes/FLU/growth.html)  - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
Hình 1 Số lượng trình tự virus cúm được lưu trữ tại NCBI (http://www.ncbi.nlm.nih.gov/genomes/FLU/growth.html) (Trang 8)
Hình 4: Thống kê số trường hợp người mắc cúm H5N1 - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
Hình 4 Thống kê số trường hợp người mắc cúm H5N1 (Trang 10)
Hình 1.1: Mô hình quan hệ của cơ sở dữ liệu virus cúm - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
Hình 1.1 Mô hình quan hệ của cơ sở dữ liệu virus cúm (Trang 17)
Hình 2.1: Mô hình hoạt động của hệ thống quản lý, tự động cập nhật dữ liệu. - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
Hình 2.1 Mô hình hoạt động của hệ thống quản lý, tự động cập nhật dữ liệu (Trang 20)
Hình 2.2: Trao đổi dữ liệu giữa ba ngân hàng DDBJ-NCBI-EMBL, từ đó tạo thành cơ - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
Hình 2.2 Trao đổi dữ liệu giữa ba ngân hàng DDBJ-NCBI-EMBL, từ đó tạo thành cơ (Trang 21)
của mình. Hình 2.3 sẽ cho chúng ta biết số lượt truy cập đến Web Server của DDBJ. - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
c ủa mình. Hình 2.3 sẽ cho chúng ta biết số lượt truy cập đến Web Server của DDBJ (Trang 25)
liệu nội tại. Hình sau sẽ chỉ rõ quá trình lấy dữ liệu mới. - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
li ệu nội tại. Hình sau sẽ chỉ rõ quá trình lấy dữ liệu mới (Trang 27)
Bảng 3.1: So sánh và đánh giá với các hệ thống thông tin virus cúm - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
Bảng 3.1 So sánh và đánh giá với các hệ thống thông tin virus cúm (Trang 29)
Qua bảng so sán hở trên, hệ thống thông tin virus cúm của IVDBVN đã cung cấp một - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
ua bảng so sán hở trên, hệ thống thông tin virus cúm của IVDBVN đã cung cấp một (Trang 30)
hệ thống đã thêm vào CSDL được trên 140.000 trình tự virus cúm (Hình 3.1). - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
h ệ thống đã thêm vào CSDL được trên 140.000 trình tự virus cúm (Hình 3.1) (Trang 31)
Hình 3.2: Lập lịch cập nhật CSDL tự động theo định kỳ - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
Hình 3.2 Lập lịch cập nhật CSDL tự động theo định kỳ (Trang 32)
Hình 3.4: Chọn tập tin trình tự Bước 3: Nhấn nút  Thêm vào CSDL - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
Hình 3.4 Chọn tập tin trình tự Bước 3: Nhấn nút Thêm vào CSDL (Trang 33)
Hình 3.5: Thêm trình tự mới từ một tập tin - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
Hình 3.5 Thêm trình tự mới từ một tập tin (Trang 34)
Hình 3.6: Hệ thống thông tin virus cúm của IVDBVN - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
Hình 3.6 Hệ thống thông tin virus cúm của IVDBVN (Trang 35)
Hình 3.7: Trình tự virus cúm của tỉnh Tiền Giang - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
Hình 3.7 Trình tự virus cúm của tỉnh Tiền Giang (Trang 36)
Hình 3.8: Đánh dấu Tỉnh Tiền Giang trên Google map - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
Hình 3.8 Đánh dấu Tỉnh Tiền Giang trên Google map (Trang 36)
Hình 3.9: Trình tự láng giềng của Tiền Giang - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
Hình 3.9 Trình tự láng giềng của Tiền Giang (Trang 37)
Hình 3.11: Biểu diễn virus cúm của Việt Nam trên Google map theo dạng đánh dấu - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
Hình 3.11 Biểu diễn virus cúm của Việt Nam trên Google map theo dạng đánh dấu (Trang 38)
Hình 3.12: Biểu diễn virus cúm của Việt Nam trên Google map theo dạng mối quan - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
Hình 3.12 Biểu diễn virus cúm của Việt Nam trên Google map theo dạng mối quan (Trang 39)
virus. Bảng sau cho chúng ta thông tin về các loại gene virus và số phân đoạn của nó. - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
virus. Bảng sau cho chúng ta thông tin về các loại gene virus và số phân đoạn của nó (Trang 42)
Nhìn vào biểu đồ, chúng ta thấy tình hình dịch cúm diễn ra phức tạp nhất là vào các - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
h ìn vào biểu đồ, chúng ta thấy tình hình dịch cúm diễn ra phức tạp nhất là vào các (Trang 47)
Hình 4.2: Danh sách các luật của virus cúm Việt Nam - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
Hình 4.2 Danh sách các luật của virus cúm Việt Nam (Trang 57)
Bảng 4.2: Danh sách các luật của virus cúm Việt Nam - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
Bảng 4.2 Danh sách các luật của virus cúm Việt Nam (Trang 58)
Hình 4.3: Khai phá dữ liệu virus cúm của Việt Nam (khung bên trái) và Indonesia (khung bên phải) - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
Hình 4.3 Khai phá dữ liệu virus cúm của Việt Nam (khung bên trái) và Indonesia (khung bên phải) (Trang 60)
phenotype Kiểu hình - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
phenotype Kiểu hình (Trang 73)
4. Mô tả cấu trúc các bảng dữ liệu - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
4. Mô tả cấu trúc các bảng dữ liệu (Trang 75)
Bảng NATION – Lưu trữ thông tin các quốc gia - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
ng NATION – Lưu trữ thông tin các quốc gia (Trang 76)
BẢNG LOCATION – Lưu trữ thông tin vị trí địa lý của một trình tự virus - Nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam luận văn thạc sĩ
u trữ thông tin vị trí địa lý của một trình tự virus (Trang 78)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN