Luận văn : XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 và REVERSE TRANSCRIPTE-RNaseH Ở MỘT SỐ LOÀI VIRUS THỰC VẬT part 2 potx

x DANH MỤC HÌNH Trang Hình 1.1 Định nghĩa Bioinformatics theo NCBI 1 Hình 1.2 Định nghĩa bioinformatics đƣợc mở rộng 2 Hình 2.1 Tƣơng tác giữa Perl script-DBI-DBD-và RBDMS 8 Hình 2.2 Tƣơng quan giữa NCBI, NLM 11 Hình 2.3 Một số cơ sở dữ liệu trong NCBI 14 Hình 2.4 Ba cơ sở dữ liệu nucleotide (GenBank – EMB - DDB) và công cụ tìm kiếm tƣơng ứng…………………………………………………………………………… 16 Hình 2.5. Sự hợp nhất của ba cơ sở dữ liệu MSD, PDBj, PDB 16 Hình 2.6 Tổ chức genome của virus CaMV 19 Hình 2.7 Một số loài trong họ Caulimoviridae 20 Hình 2.8 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus dsDNA 21 Hình 2.9 Hình thái virion của Citrus tristeza virus thuộc Closterovirus 22 Hình 2.10 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus (+)ssRNA 22 Hình 2.11 Vị trí gene RT-RNasseH nằm trong cấu trúc genome Cauliflower mosaic virus 23 Hình 2.12. Protein reverse transcriptase 24 Hình 2.13 Vị trí gene hsp-70 nằm trong tổ chức genome của Beet yellows virus 24 Hình 2.14 Protein HSP-70 24 Hình 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự 28 Hình 3.2 Sơ đồ xác định gene trong genome virus 29 Hình 3.3 Định dạng FASTA để thực hiện sắp gióng cột hai trình tự 30 Hình 3.4 Kết quả sắp gióng cột cặp trình tự gene RT-RNaseH (đã biết vị trí) với RT- RNaseH trong ORF hay genome của virus 31 Hình 3.5 Sơ đồ các đối tƣợng của CSDL gene hsp-70 và RT-RNaseH 32 Hình 3.6 Tiến trình lấy thông tin từ CSDL hai gene ở hai loài virus 37 Hình 3.7 Sơ đồ chi tiết các bảng quan hệ trong CSDL hai gene và protein hsp-70 và RT-RNaseH ở hai họ virus Caulimoviridae và Closteroviridae …………………………38 Hình 4.1 File chứa accession number và dòng định nghĩa của giống Crinivirus 39 xi Hình 4.2 Mẫu tin về gene hsp-70 của Sweet potato chlorotic stunt virus trên NCBI……… 40 Hình 4.3 Mô hình thu nhận gene RT-RNaseH trong ORF5 của CMV……………… 41 Hình 4.4 Sơ đồ cấu trúc của trang web CSDL gene hsp-70 và RT-RNaseH 46 Hình 4.5 Trang HOME PAGE 47 Hình 4.6 Trang tìm kiếm trình tự khi biết ACCESSION NUMBER 48 Hình 4.7 Trang kết quả tìm kiếm trình tự khi biết ACCESION NUBER 48 Hình 4.8 Trang tìm kiếm trình tự tƣơng đồng bằng Alignment 50 Hình 4.9 Trang kết quả khi thực hiện Alignment giữa các trình tự………………… 51 Hình 4.10 Trang tìm kiếm trình tự tƣơng đồng bằng BLAST 51 Hình 4.11 Trang cây phân loài của hai họ Caulimoviridae và Closteroviridae 52 Hình 4.12 Trang web thể hiện nội dung các đặc tính của họ…………………………53 xii DANH SÁCH CÁC CHỮ VIẾT TẮT CSDL Cơ sở dữ liệu. RT-RNaseH Reverse transcriptase-RnaseH hsp-70 Heat sock protein 70. Perl Practical Extraction and Report Language CGI Common Gateway Interface DBI Database Interface DBD Datadbase Driver WWW World Wide Web HTML Hypertext Markup Language HTTP Hypertext Transfer Protocol NCBI Center for Bioinformatic Information BLAST Basic Local Alignment Search Tool EBI European Bioinformatics Insiture EMBL European Molecular Biology Laboratory SIB Swiss Insitute of Bioiformatics DDBJ DNA Data Bank Japan PDBj Protein Database Japan CaMV Caulimoflower mosaic virus 1 PHẦN 1 LỜI MỞ ĐẦU Với những bƣớc tiến vƣợt bậc trong việc khám phá và ứng dụng những kỹ thuật sinh học phân tử vào trong giải trình tự genome của sinh vật, ngày càng nhiều trình tự đƣợc giải. Đòi hỏi có sự lƣu trữ, tổ chức, quản lý và khai thác tốt các thông tin về trình tự thu đƣợc này ngày càng hiệu quả và nhanh chóng hơn. Vì vậy, cần có sự hỗ trợ đắc lực của các nghành khoa học khác.Với khả năng xử lý, lƣu trữ, liên kết và truy xuất một lƣợng thông tin lớn một cách nhanh chóng của máy tính đã giúp nó trở thành một công cụ hữu ích cho việc ứng dụng vào trong lĩnh vực sinh học. Sự kết hợp giữa ngành tin học và sinh học dẫn đến cho ra đời một công cụ mới, phục vụ cho việc nghiên cứu trong sinh học đó là Tin - sinh học. Mặc dù Tin - sinh học là một lĩnh vực mới ra đời nhƣng triển vọng của nó phục vụ cho nghiên cứu sinh học rất lớn. KHÁI NIỆM VỀ TIN - SINH HỌC Sự kết hợp, liên thông giữa các ngành khoa học giúp cho khoa học có những bƣớc phát triển mới.Trong thời đại khoa học hiện nay, sự kết hợp giữa các ngành lại với nhau là hết sức cần thiết. Không một ngành khoa học nào có thể phát triển mà không cần sự hổ trợ của ngành khác.Với những bƣớc đột phá mạnh mẽ trong lĩnh vực công nghệ thông tin và một số thành tựu mới trong nghiên cứu sinh học (giải mã toàn bộ genome của ngƣời và một số loài khác) thì sự kết hợp này cho ra đời một lĩnh vực nghiên cứu mới – Bioinformatics hay Tin - sinh học là một ví dụ điển hình cho sự liên kết này. Nhƣ vậy, bioinformatics là gì? Có nhiều định nghĩa khác nhau về thuật ngữ này. Có thể định nghĩa một cách ngắn gọn thuật ngữ này nhƣ sau “Bioinformatics là sự kết hợp giữa công nghệ sinh học và công nghệ thông tin với mục tiêu giúp hiểu biết và khám phá những nguyên lý trong sinh học” (theo trang web NCBI). [7, 22] Công nghệ sinh học Bioinformatics: giúp hiểu biết và khám phá những nguyên lý trong sinh học Hình 1.1 Định nghĩa Bioinformatics theo NCBI. Công nghệ tin học 2 TOÁN HỌC KHOA HỌC MÁY TÍNH THỐNG KÊ SINH HỌC HÓA HỌC VẬT LÝ Bioinformatics Hình 1.2 Định nghĩa bioinformatics đƣợc mở rộng Thật vậy, sự kết hợp này đã giải quyết hàng loạt những nghiên cứu trong sinh học mà đòi hỏi thời gian khá dài hay khó có thể thực hiện bằng tay và mắt thƣờng đƣợc. Nhƣng định nghĩa trên chƣa hoàn toàn đầy đủ, vì bioinformatics không chỉ đơn thuần là sự kết hợp giữa công nghệ sinh học và công nghệ thông tin, mà là sự kết hợp của nhiều ngành khoa học khác nhau nhƣ toán học, thống kê, khoa học máy tính, sinh học, hóa học, vật lý,… Ngoài ra, sự kết hợp này có sự đan xen tƣơng hỗ với nhau. Vì thế, thành quả nghiên cứu mang lại của ngành học này không chỉ đóng góp cho sinh học mà còn cho các ngành khác. Một ví dụ rõ ràng nhất là trong qui trình nghiên cứu về hệ thần kinh của động vật, con ngƣời đã phát hiện ra neuron thần kinh và cách xung thần kinh đƣợc dẫn truyền các tính hiệu qua các tế bào thần kinh. Kết hợp với những tính toán vật lý, trí tuệ nhân tạo, những lý thuyết sinh học trên đƣợc áp dụng vào tin học, để hình thành một mạng tính toán (Neuron network). Một ví dụ khác là thuật giải di truyền (GA - Genetic Algorithm) giúp giải những bài toán gần đúng có tính chính xác cao, dựa trên lý thuyết tiến hóa trong sinh học của Darwin. Nhƣ vậy, sơ đồ trên cần đƣợc bổ sung nhƣ sau: 3 Hầu hết, các nhà tin – sinh học trên thế giới hiện nay đang phát triển bioinformatics theo hƣớng nhƣ định nghĩa ban đầu (theo trang NCBI) do công nghệ sinh học là ngành khoa học mũi nhọn của thế kỷ 21. Sự phát triển của kỹ thuật giải trình tự, một số lƣợng lớn các gene hsp-70 và RT-RNaseH đã đƣợc giải trình tự. Những trình tự gene này đƣợc lƣu trữ trong CSDL sinh học lớn nhƣ NCBI, EMBL, DDBj,… Vì các CSDL này quá lớn và chứa rất nhiều thông tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt Vì vậy, khóa luận đƣợc thực hiện với các mục tiêu lần lƣợt nhƣ sau. Một là xây dựng cơ sở dữ liệu (CSDL) về trình tự nucleotide và protein của 2 gene hsp-70 và Reverse transcriptase-RNaseH (RT-RNaseH). Hai là dùng giao diện web để truy xuất thông tin về cơ sở dữ liệu và thực hiện việc chia sẻ thông tin đó. Để đạt đƣợc mục tiêu này, khóa luận cần đảm bảo thực hiện nội dung nhƣ sau: Dùng Perl script để thu nhận trình tự các nucleotide và protein của hai gene từ CSDL GenBank (NCBI cơ sở dữ liệu nucleotide). Xác định gene và protein của hai gene hsp-70 và Reverse transcriptase-RNaseH (RT-RNaseH) trong genome hay ORF (Open Reading Frame) của virus. Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lƣu trữ dữ liệu các trình tự nucleotide và protein của hai gene, tạo CSDL hai gene này. Dùng Perl script để chuyển tự động các dữ liệu vào CSDL. Sử dụng giao thức CGI kết hợp với ngôn ngữ lập trình Perl, để thiết kế trang web CSDL về hai gene hsp-70 và RT-RNaseH trên hai họ virus Closteroviridae và Caulimoviridae. 4 PHẦN 2 TỔNG QUAN TÀI LIỆU 2.1. SƠ LƢỢC VỀ CƠ SỞ DỮ LIỆU 2.1.1. Định nghĩa [3, 8] Cơ sở dữ liệu (CSDL) là một tập hợp dữ liệu đƣợc tổ chức theo một cấu trúc chặt chẽ nhằm phục vụ cho nhiều mục tiêu khác nhau một cách có chọn lọc. Tập hợp dữ liệu sẽ đƣợc lƣu trữ trên các thiết bị lƣu trữ thông tin thứ cấp nhƣ băng từ, đĩa từ,… để thỏa mãn nhu cầu khai thác thông tin đồng thời của nhiều ngƣời sử dụng hay nhiều chƣơng trình ứng dụng với nhiều mục đích khác nhau. Nhƣ vậy, các đặc tính của một CSDL là: Tính nhất quán Tính toàn vẹn Tính tích hợp Tính chia sẻ Tính độc lập dữ liệu Tính an toàn Tính bảo mật 2.1.2. Hệ quản trị CSDL (Database Management System – DBMS) Là một hệ thống phần mềm cho phép các nhà phân tích và thiết kế CSDL cũng nhƣ ngƣời khai thác CSDL đƣợc thuận lợi trong quá trình định nghĩa, thao tác, truy xuất và quản lý dữ liệu. Hệ quản trị CSDL đầu tiên ra đời vào đầu những năm 60 dựa trên mô hình dữ liệu phân cấp và mô hình mạng. Năm 1976 đánh dấu sự ra đời hệ quản trị CSDL đầu tiên dựa trên mô hình quan hệ mang tên System-R. Đến những năm 90, bắt đầu xuất hiện các hệ quản trị CSDL dựa trên mô hình hƣớng đối tƣợng,… Tuy nhiên chúng vẫn dựa chủ yếu vào nền tảng là mô hình quan hệ. Hệ quản trị ODMG ra đời năm 1996 đƣợc coi là hệ quản trị thuần hƣớng đối tƣợng nhất. Hiện nay, một số hệ quản trị CSDL mạnh đang đƣợc đƣa ra thị trƣờng nhƣ Visual FoxPro, SQL-Server, Oracle,… 5 Một hệ quản trị cơ sở dữ liệu phải có khả năng giải quyết các vấn đề:  Tính chủ quyền của dữ liệu: đó là phải bảo đảm vấn đề an toàn dữ liệu và tính chính xác của dữ liệu.  Tính bảo mật và quyền khai thác thông tin của ngƣời sử dụng.  Tranh chấp dữ liệu: do có thể cùng một lúc có nhiều ngƣời cùng truy cập vào một nguồn tài nguyên dữ liệu với các mục đích khác nhau nên hệ quản trị CSDL phải có cơ chế ƣu tiên truy cập dữ liệu. Cơ chế ƣu tiên có thể đƣợc thực hiện bằng cách cấp quyền ƣu tiên cho ngƣời khai thác (ngƣời đƣợc cấp quyền hạn ƣu tiên cao hơn thì đƣợc phép truy cập dữ liệu trƣớc) hay dựa vào thời điểm truy cập (ngƣời truy xuất trƣớc thì có quyền truy cập dữ liệu trƣớc).  Phục hồi dữ liệu khi có sự cố. 2.1.3. Các mô hình dữ liệu [2, 3] 2.1.3.1. Định nghĩa Mô hình dữ liệu là sự trừu tƣợng hóa thế giới thực, là sự biểu diễn dữ liệu mức quan niệm. Mô hình dữ liệu đƣợc phân loại dựa trên các cách tiếp cận dữ liệu khác nhau của các nhà phân tích, thiết kế CSDL. Mô hình dữ liệu hoàn toàn độc lập giữa hệ thống máy tính và cấu trúc dữ liệu. Hiện nay, có năm loại mô hình dữ liệu chính. Đó là:  Mô hình dữ liệu mạng: thập niên 60-70.  Mô hình dữ liệu phân cấp: thập niên 60-70.  Mô hình dữ liệu quan hệ: thập niên 80.  Mô hình dữ liệu thực thể kết hợp: thập niên 90.  Mô hình dữ liệu hƣớng đối tƣợng: thập niên 90. 2.1.3.2. So sánh các mô hình dữ liệu [2] Sự ra đời của mô hình dữ liệu quan hệ đã khắc phục đƣợc những khó khăn khi thiết kế và quản lí CSDL theo mô hình mạng và mô hình phân cấp.  Thứ nhất, mô hình mạng và mô hình phân cấp sử dụng nguyên lý chủ nhân – thành viên, cha – con rất khó khăn cho việc thiết kế, sắp xếp và sau khi thiết kế xong muốn sửa đổi rất phức tạp, hầu nhƣ phải làm lại từ đầu. Mô hình quan hệ tổ chức dữ liệu dƣới dạng bảng dễ hiểu và đơn giản hơn 6 trong việc thiết kế và sửa đổi sau này. Ngoài ra, việc thiết kế mô hình quan hệ hoàn toàn độc lập với hệ quản trị CSDL.  Thứ hai, các ngôn ngữ để tạo và thao tác các cấu trúc trong mô hình mạng và mô hình phân cấp rất khó sử dụng. Ví dụ khi sử dụng hệ quản trị IDMS đòi hỏi phải thông thạo về ngôn ngữ từ điển dữ liệu tích hợp và các trình biên dịch lƣợc đồ và lƣợc đồ con. Trong khi đó, các hệ quản trị theo mô hình quan hệ dễ sử dụng hơn vì sử dụng ngôn ngữ truy vấn dữ liệu ở mức độ cao nhƣ SQL,… Do những ƣu điểm trên CSDL quan hệ ngày càng đƣợc sử dụng rộng rãi. Tuy nhiên, trong một số trƣờng hợp, mô hình quan hệ trở nên không thích hợp, nhất là khi sử dụng nó để thể hiện những dữ liệu có quan hệ cấu trúc nhƣ cây hệ thống sinh học. đối với những loại dữ liệu loại này, sử dụng mô hình dữ liệu hƣớng đối tƣợng là thích hợp nhất. Khi một CSDL đƣợc xây dựng xong, thì việc tiếp theo là làm sao để có thể truy xuất thông tin từ CSDL này, nghĩa là ngƣời dùng có thể nhận đƣợc các thông tin mà họ cần hay có thể bổ sung thêm một vài thông tin qua một giao diện thân thiện. Hơn thế nữa, ngƣời dùng còn muốn chia sẻ thông tin với các nơi khác. Để thực hiện đƣợc điều đó, ngƣời ta thƣờng chọn giao thức CGI, hiển thị những đòi hỏi thông tin về CSDL của ngƣời dùng thông qua dịch vụ web. 2.2. NGÔN NGỮ LẬP TRÌNH PERL, MẠNG INTERNET VÀ WEB 2.2.1. Perl [19] 2.2.1.1. Tóm tắt lịch sử phát triển Perl là chữ viết tắt của “Practical Extraction and Report Language”. Larry Wall tạo ra ngôn ngữ Perl năm 1986 nhằm quản trị và cấu hình các mạng máy tính lớn. Ngôn ngữ này phát sinh từ ngôn ngữ lập trình C và bị ảnh hƣởng bởi ngôn ngữ khác nhƣ BASIC, awk, sed và UNIX shell. Năm 1987, Perl 1.0 ra đời. Năm 1988, Perl 2.0 phát hành và đƣợc các nhà quản trị UNIX sử dụng rộng rãi. . 4 PHẦN 2 TỔNG QUAN TÀI LIỆU 2. 1. SƠ LƢỢC VỀ CƠ SỞ DỮ LIỆU 2. 1.1. Định nghĩa [3, 8] Cơ sở dữ liệu (CSDL) là một tập hợp dữ liệu đƣợc tổ chức theo một cấu trúc chặt chẽ nhằm. chuyên biệt Vì vậy, khóa luận đƣợc thực hiện với các mục tiêu lần lƣợt nhƣ sau. Một là xây dựng cơ sở dữ liệu (CSDL) về trình tự nucleotide và protein của 2 gene hsp-70 và Reverse transcriptase-RNaseH. 1 .2 Định nghĩa bioinformatics đƣợc mở rộng 2 Hình 2. 1 Tƣơng tác giữa Perl script-DBI-DBD -và RBDMS 8 Hình 2. 2 Tƣơng quan giữa NCBI, NLM 11 Hình 2. 3 Một số cơ sở dữ liệu trong NCBI 14 Hình 2. 4

Định dạng
Số trang	9
Dung lượng	343,49 KB