Xây dựng cơ sở dữ liệu hai gene HSP-70 và Reverse transcripte-rnaseH ở một số loài virus thực vật

Trang 1

TRƯỜNG ĐẠI HỌC NÔNG LÂM TP HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC

***000***

KHÓA LUẬN TỐT NGHIỆP

XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 và REVERSE TRANSCRIPTE-RNaseH Ở MỘT SỐ

LOÀI VIRUS THỰC VẬT

Nghành học: CÔNG NGHỆ SINH HỌC Niên khóa: 2001-2005

Sinh viên thực hiện: NGUYỄN VĂN THÁI

Thành phố Hồ Chí Minh

Tháng 8/2005

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC NÔNG LÂM TP HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC

************

XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 và REVERSE TRANSCRIPTASE-RNaseH Ở MỘT

SỐ LOÀI VIRUS THỰC VẬT

Giáo viên hướng dẫn: TS TRẦN THỊ DUNG

Cử Nhân LƯU PHÚC LỢI

Thành phố Hồ Chí Minh

Tháng 8/2005

Sinh viên thực hiện: NGUYỄN VĂN THÁI

Trang 3

Cử Nhân Lưu Phúc Lợi

Đã tận tụy hướng dẫn, truyền đạt kiến thức cho tôi hoàn thành khóa luận này, đặc biệt là thầy Lưu Phúc Lợi đã trang bị cho tôi những kiến thức quí báu và là người đầu tiên đưa tôi đến với Bioinformatics

Xin chân thành cảm ơn đến quí thầy cô bộ môn Công Nghệ Sinh Học, khoa Công Nghệ Thông Tin Đã nhiệt tình giúp đỡ, khuyên bảo, tạo điều kiện thuận lợi và đóng góp ý kiến chân thành cho tôi trong suốt thời gian làm khóa luận này

Xin gởi lời cảm ơn đến tập thể lớp Công Nghệ Sinh Học K27 đã động viên, giúp đỡ và luôn ở bên cạnh tôi trong những lúc khó khăn trong suốt thời gian học đại học

Nguyễn Văn Thái

Trang 4

iv

TÓM TẮT KHOÁ LUẬN

NGUYỄN VĂN THÁI, Đại học Nông Lâm TP Hồ Chí Minh Tháng 8/2005

“XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 VÀ REVERSE

TRANSCRIPTASE-RNaseH Ở MỘT SỐ LOÀI VIRUS THỰC VẬT”

Hội đồng hướng dẫn: TS Trần Thị Dung Cử Nhân Lưu Phúc Lợi

Khóa luận được thực hiện tại bộ môn Công Nghệ Sinh Học Trường Đại Học Nông Lâm TP Hồ Chí Minh Trong khoảng thời gian từ tháng 3/2005 đến 8/2005 Với

sự phát triển của kỹ thuật giải trình tự, một số lượng lớn các gene hsp-70 và

RT-RNaseH đã được giải trình tự Những trình tự gene này được lưu trữ trong CSDL sinh

học lớn như NCBI, EMBL, DDBj,…Vì các CSDL này quá lớn và chứa rất nhiều thông tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt Do vậy, mục

tiêu của chúng tôi là tiến hành xây dựng cơ sở dữ liệu hai gene hsp-70 và reverse

transcriptase-RNaseH ở một số loài virus thực vật

Để đạt được mục tiêu trên, khóa luận cần đảm bảo thực hiện nội dung như sau: Dùng Perl script để thu nhận trình tự các nucleotide và protein của hai gene từ trang CSDL GenBank (NCBI cơ sở dữ liệu nucleotide)

Xác định gene và protein của hai gene hsp-70 và Reverse transcriptase-RNaseH (RT-RNaseH) trong genome hay ORF (Open Reading Frame) của virus

Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lưu trữ dữ liệu các trình tự nucleotide và protein của hai gene, tạo CSDL hai gene này Dùng Perl script để chuyển tự động các dữ liệu vào CSDL

Sử dụng giao thức CGI kết hợp với ngôn ngữ lập trình Perl, để thiết kế trang

web CSDL về hai gene hsp-70 và RT-RNaseH ở trên hai họ virus

Closteroviridae và Caulimoviridae

Trang 5

v

Sau khi thực hiện các nội dung trên chúng tôi đạt được những kết quả như sau:

 Chúng tôi đã tải được 325 trình tự gene hsp-70 và RT-RNaseH từ cơ sở dữ

 Trang Web CSDL gene hsp-70 và RT-RNaseH gồm có 6 trang chính, đó là

HOME, SEARCH, TOOL, TAXONOMY, LINK, ABOUT PAGE Ngoài ra, từ những trang web chính này còn có thể kết nối đến những trang phụ khác để cung cấp những tiện ích cho người dùng Từ các trang web này, người sử dụng có thể truy xuất thông tin, so sánh một trình tự quan tâm với các trình tự

trong cơ sở dữ liệu gene hsp-70 và RT-RNaseH, tìm kiếm trình tự, các đặc

tính của loài,…

Trang 6

Phần 2 TỔNG QUAN TÀI LIỆU 4

2.1 SƠ LƯỢC VỀ CƠ SỞ DỮ LIỆU 4

2.2.1.3 Một số module của Perl thường được sử dụng 7

2.2.2 Giới thiệu về mạng Internet 8

2.2.2.1 Tóm lược lịch sử phát triển 8

2.2.2.2 Một số khái niệm 9

2.2.3 Web 9

2.2.3.1 Tóm lượt lịch sử phát triển 9

2.2.3.2 Tích hợp CSDL với web dùng CGI 10

2.3 CƠ SỞ DỮ LIỆU SINH HỌC 11

2.3.1 NCBI 11

Trang 7

vii

2.3.1.1 Vài nét về NCBI 11

2.3.1.2 Một số cơ sở dữ liệu trong NCBI 11

2.3.1.3 Một số công cụ trong NCBI 12

2.3.2 EBI 13

2.3.2.1 Vài nét về EBI 13

2.3.2.2 Một số cơ sở dữ liệu trong EBI 13

2.3.2.3 Một số công cụ hỗ trợ phân tích trình tự sinh học 14

2.4.2.3 Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ 22

2.5 Gene Hsp-70 và Reverse transcriptase-RNaseH 23

2.5.1 Gene Reverse transciptase-RNaseH 23

2.5.2.1 Vị trí gene RT-RNaseH nằm trong genome 23

2.5.2.2 Chức năng của protein 23

Trang 8

viii

3.1.2.3 Hệ quả trị CSDL quan hệ MySQL 26

3.1.2.4 Apache web Server 27

3.1.2.5 Ngôn ngữ lập trình Perl và các gói sử dụng 27

3.2 Phương pháp 28

3.2.1 Thu nhận trình tự 28

3.2.2 Xác định gene và protein trong bộ gene virus 29

3.2.3 Thiết kế CSDL trình tự gene và protein hsp-70 và RT-RNaseH 32

3.2.3.1 Phân tích dữ liệu 32

3.2.3.2 Thiết kế CSDL dạng bảng 34

3.2.3.3 Lưu trữ các thông tin vào CSDL 35

3.2.4 Tích hợp CSDL gene hsp-70 và RT-RNaseH với trang Web 37

Phần 4 KẾT QUẢ VÀ THẢO LUẬN 39

4.1 Kết quả thu nhận trình tự của hai họ Closteroviridae và Caulimoviridae 39

4.2 Kết quả thu nhận trình tự hai gene hsp-70 và Reverse transcriptase-RNaseH 41

4.3 CSDL trình tự gene hsp-70 và RT-RNaseH 42

4.4 Trang web thể hiện thông tin CSDL gene hsp-70 và RT-RNaseH 46

4.4.1 Trang thông tin chung về CSDL gene hsp-70 và RT-RNaseH 47

Trang 9

ix

DANH MỤC BẢNG

Trang

Bảng 2.1 Một số CSDL sinh học lớn và các địa chỉ web tương ứng 17

Bảng 2.2 Một số CSDL sinh học lớn và các địa chỉ web tương ứng.(tiếp theo) 18

Bảng 3.1 Các đối tượng phụ dựa trên đối tượng chính Sinh vật (Organism) 33

Bảng 3.2 Các đối tượng phụ dựa trên đối tượng chính trình tự (Sequence) 34

Bảng 4.1 Tổng số trình tự trong CSDL gene hsp-70 và RT-RNaseH 43

Bảng 4.2 Số trình tự gene hsp-70 43

Bảng 4.3 Số trình tự gene RT-RNaseH 43

Trang 10

Hình 2.1 Tương tác giữa Perl script-DBI-DBD-và RBDMS 8

Hình 2.2 Tương quan giữa NCBI, NLM 11

Hình 2.3 Một số cơ sở dữ liệu trong NCBI 14

Hình 2.4 Ba cơ sở dữ liệu nucleotide (GenBank – EMB - DDB) và công cụ tìm kiếm tương ứng……… 16 Hình 2.5 Sự hợp nhất của ba cơ sở dữ liệu MSD, PDBj, PDB 16

Hình 2.6 Tổ chức genome của virus CaMV 19

Hình 2.7 Một số loài trong họ Caulimoviridae 20

Hình 2.8 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus dsDNA 21

Hình 2.9 Hình thái virion của Citrus tristeza virus thuộc Closterovirus 22

Hình 2.10 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus (+)ssRNA 22

Hình 2.11 Vị trí gene RT-RNasseH nằm trong cấu trúc genome Cauliflower mosaic virus 23

Hình 2.12 Protein reverse transcriptase 24

Hình 2.13 Vị trí gene hsp-70 nằm trong tổ chức genome của Beet yellows virus 24

Hình 2.14 Protein HSP-70 24

Hình 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự 28

Hình 3.2 Sơ đồ xác định gene trong genome virus 29

Hình 3.3 Định dạng FASTA để thực hiện sắp gióng cột hai trình tự 30

Hình 3.4 Kết quả sắp gióng cột cặp trình tự gene RNaseH (đã biết vị trí) với RNaseH trong ORF hay genome của virus 31

RT-Hình 3.5 Sơ đồ các đối tượng của CSDL gene hsp-70 và RT-RNaseH 32

Hình 3.6 Tiến trình lấy thông tin từ CSDL hai gene ở hai loài virus 37

Hình 3.7 Sơ đồ chi tiết các bảng quan hệ trong CSDL hai gene và protein hsp-70 và RT-RNaseH ở hai họ virus Caulimoviridae và Closteroviridae ………38

Hình 4.1 File chứa accession number và dòng định nghĩa của giống Crinivirus 39

Trang 11

xi

Hình 4.2 Mẫu tin về gene hsp-70 của Sweet potato chlorotic stunt virus trên

NCBI……… 40

Hình 4.3 Mô hình thu nhận gene RT-RNaseH trong ORF5 của CMV……… 41

Hình 4.4 Sơ đồ cấu trúc của trang web CSDL gene hsp-70 và RT-RNaseH 46

Hình 4.5 Trang HOME PAGE 47

Hình 4.6 Trang tìm kiếm trình tự khi biết ACCESSION NUMBER 48

Hình 4.7 Trang kết quả tìm kiếm trình tự khi biết ACCESION NUBER 48

Hình 4.8 Trang tìm kiếm trình tự tương đồng bằng Alignment 50

Hình 4.9 Trang kết quả khi thực hiện Alignment giữa các trình tự……… 51

Hình 4.10 Trang tìm kiếm trình tự tương đồng bằng BLAST 51

Hình 4.11 Trang cây phân loài của hai họ Caulimoviridae và Closteroviridae 52

Hình 4.12 Trang web thể hiện nội dung các đặc tính của họ………53

Trang 12

HTML Hypertext Markup Language HTTP Hypertext Transfer Protocol

NCBI Center for Bioinformatic Information BLAST Basic Local Alignment Search Tool EBI European Bioinformatics Insiture

EMBL European Molecular Biology Laboratory SIB Swiss Insitute of Bioiformatics

DDBJ DNA Data Bank Japan PDBj Protein Database Japan

CaMV Caulimoflower mosaic virus

Trang 13

PHẦN 1

LỜI MỞ ĐẦU

Với những bước tiến vượt bậc trong việc khám phá và ứng dụng những kỹ thuật sinh học phân tử vào trong giải trình tự genome của sinh vật, ngày càng nhiều trình tự được giải Đòi hỏi có sự lưu trữ, tổ chức, quản lý và khai thác tốt các thông tin về trình tự thu được này ngày càng hiệu quả và nhanh chóng hơn Vì vậy, cần có sự hỗ trợ đắc lực của các nghành khoa học khác.Với khả năng xử lý, lưu trữ, liên kết và truy xuất một lượng thông tin lớn một cách nhanh chóng của máy tính đã giúp nó trở thành một công cụ hữu ích cho việc ứng dụng vào trong lĩnh vực sinh học Sự kết hợp giữa ngành tin học và sinh học dẫn đến cho ra đời một công cụ mới, phục vụ cho việc nghiên cứu trong sinh học đó là Tin - sinh học Mặc dù Tin - sinh học là một lĩnh vực mới ra đời nhưng triển vọng của nó phục vụ cho nghiên cứu sinh học rất lớn

KHÁI NIỆM VỀ TIN - SINH HỌC

Sự kết hợp, liên thông giữa các ngành khoa học giúp cho khoa học có những bước phát triển mới.Trong thời đại khoa học hiện nay, sự kết hợp giữa các ngành lại với nhau là hết sức cần thiết Không một ngành khoa học nào có thể phát triển mà không cần sự hổ trợ của ngành khác.Với những bước đột phá mạnh mẽ trong lĩnh vực công nghệ thông tin và một số thành tựu mới trong nghiên cứu sinh học (giải mã toàn bộ genome của người và một số loài khác) thì sự kết hợp này cho ra đời một lĩnh vực nghiên cứu mới – Bioinformatics hay Tin - sinh học là một ví dụ điển hình cho sự liên kết này

Như vậy, bioinformatics là gì? Có nhiều định nghĩa khác nhau về thuật ngữ này Có thể định nghĩa một cách ngắn gọn thuật ngữ này như sau “Bioinformatics là sự kết hợp giữa công nghệ sinh học và công nghệ thông tin với mục tiêu giúp hiểu biết và khám phá những nguyên lý trong sinh học” (theo trang web NCBI) [7, 22]

Công nghệ sinh học

Bioinformatics:

giúp hiểu biết và khám phá những nguyên lý trong sinh học

Hình 1.1 Định nghĩa Bioinformatics theo NCBI

Công nghệ tin học

Trang 14

TOÁN HỌC

KHOA HỌC MÁY TÍNH THỐNG KÊ

SINH HỌC

HÓA HỌC VẬT LÝ

Bioinformatics

Hình 1.2 Định nghĩa bioinformatics được mở rộng

Thật vậy, sự kết hợp này đã giải quyết hàng loạt những nghiên cứu trong sinh học mà đòi hỏi thời gian khá dài hay khó có thể thực hiện bằng tay và mắt thường được

Nhưng định nghĩa trên chưa hoàn toàn đầy đủ, vì bioinformatics không chỉ đơn thuần là sự kết hợp giữa công nghệ sinh học và công nghệ thông tin, mà là sự kết hợp của nhiều ngành khoa học khác nhau như toán học, thống kê, khoa học máy tính, sinh học, hóa học, vật lý,… Ngoài ra, sự kết hợp này có sự đan xen tương hỗ với nhau Vì thế, thành quả nghiên cứu mang lại của ngành học này không chỉ đóng góp cho sinh học mà còn cho các ngành khác Một ví dụ rõ ràng nhất là trong qui trình nghiên cứu về hệ thần kinh của động vật, con người đã phát hiện ra neuron thần kinh và cách xung thần kinh được dẫn truyền các tính hiệu qua các tế bào thần kinh Kết hợp với những tính toán vật lý, trí tuệ nhân tạo, những lý thuyết sinh học trên được áp dụng vào tin học, để hình thành một mạng tính toán (Neuron network) Một ví dụ khác là thuật giải di truyền (GA - Genetic Algorithm) giúp giải những bài toán gần đúng có tính chính xác cao, dựa trên lý thuyết tiến hóa trong sinh học của Darwin Như vậy, sơ đồ trên cần được bổ sung như sau:

Trang 15

Hầu hết, các nhà tin – sinh học trên thế giới hiện nay đang phát triển bioinformatics theo hướng như định nghĩa ban đầu (theo trang NCBI) do công nghệ sinh học là ngành khoa học mũi nhọn của thế kỷ 21

Sự phát triển của kỹ thuật giải trình tự, một số lượng lớn các gene hsp-70 và

RT-RNaseH đã được giải trình tự Những trình tự gene này được lưu trữ trong CSDL

sinh học lớn như NCBI, EMBL, DDBj,… Vì các CSDL này quá lớn và chứa rất nhiều thông tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt

Vì vậy, khóa luận được thực hiện với các mục tiêu lần lượt như sau Một là xây

dựng cơ sở dữ liệu (CSDL) về trình tự nucleotide và protein của 2 gene hsp-70 và

Reverse transcriptase-RNaseH (RT-RNaseH) Hai là dùng giao diện web để truy xuất

thông tin về cơ sở dữ liệu và thực hiện việc chia sẻ thông tin đó

Để đạt được mục tiêu này, khóa luận cần đảm bảo thực hiện nội dung như sau: Dùng Perl script để thu nhận trình tự các nucleotide và protein của hai gene từ CSDL GenBank (NCBI cơ sở dữ liệu nucleotide)

Xác định gene và protein của hai gene hsp-70 và Reverse transcriptase-RNaseH (RT-RNaseH) trong genome hay ORF (Open Reading Frame) của virus

Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lưu trữ dữ liệu các trình tự nucleotide và protein của hai gene, tạo CSDL hai gene này Dùng Perl script để chuyển tự động các dữ liệu vào CSDL

Sử dụng giao thức CGI kết hợp với ngôn ngữ lập trình Perl, để thiết kế trang

web CSDL về hai gene hsp-70 và RT-RNaseH trên hai họ virus Closteroviridae và Caulimoviridae

Trang 16

PHẦN 2

TỔNG QUAN TÀI LIỆU

2.1 SƠ LƯỢC VỀ CƠ SỞ DỮ LIỆU 2.1.1 Định nghĩa [3, 8]

Cơ sở dữ liệu (CSDL) là một tập hợp dữ liệu được tổ chức theo một cấu trúc chặt chẽ nhằm phục vụ cho nhiều mục tiêu khác nhau một cách có chọn lọc Tập hợp dữ liệu sẽ được lưu trữ trên các thiết bị lưu trữ thông tin thứ cấp như băng từ, đĩa từ,… để thỏa mãn nhu cầu khai thác thông tin đồng thời của nhiều người sử dụng hay nhiều chương trình ứng dụng với nhiều mục đích khác nhau

Như vậy, các đặc tính của một CSDL là: Tính nhất quán

Tính toàn vẹn Tính tích hợp Tính chia sẻ

Tính độc lập dữ liệu Tính an toàn

Tính bảo mật

2.1.2 Hệ quản trị CSDL (Database Management System – DBMS)

Là một hệ thống phần mềm cho phép các nhà phân tích và thiết kế CSDL cũng như người khai thác CSDL được thuận lợi trong quá trình định nghĩa, thao tác, truy xuất và quản lý dữ liệu

Hệ quản trị CSDL đầu tiên ra đời vào đầu những năm 60 dựa trên mô hình dữ liệu phân cấp và mô hình mạng Năm 1976 đánh dấu sự ra đời hệ quản trị CSDL đầu tiên dựa trên mô hình quan hệ mang tên System-R Đến những năm 90, bắt đầu xuất hiện các hệ quản trị CSDL dựa trên mô hình hướng đối tượng,… Tuy nhiên chúng vẫn dựa chủ yếu vào nền tảng là mô hình quan hệ Hệ quản trị ODMG ra đời năm 1996 được coi là hệ quản trị thuần hướng đối tượng nhất

Hiện nay, một số hệ quản trị CSDL mạnh đang được đưa ra thị trường như Visual FoxPro, SQL-Server, Oracle,…

Trang 17

Một hệ quản trị cơ sở dữ liệu phải có khả năng giải quyết các vấn đề:

 Tính chủ quyền của dữ liệu: đó là phải bảo đảm vấn đề an toàn dữ liệu và tính chính xác của dữ liệu

 Tính bảo mật và quyền khai thác thông tin của người sử dụng

 Tranh chấp dữ liệu: do có thể cùng một lúc có nhiều người cùng truy cập vào một nguồn tài nguyên dữ liệu với các mục đích khác nhau nên hệ quản trị CSDL phải có cơ chế ưu tiên truy cập dữ liệu Cơ chế ưu tiên có thể được thực hiện bằng cách cấp quyền ưu tiên cho người khai thác (người được cấp quyền hạn ưu tiên cao hơn thì được phép truy cập dữ liệu trước) hay dựa vào thời điểm truy cập (người truy xuất trước thì có quyền truy cập dữ liệu trước)

 Phục hồi dữ liệu khi có sự cố

2.1.3 Các mô hình dữ liệu [2, 3] 2.1.3.1 Định nghĩa

Mô hình dữ liệu là sự trừu tượng hóa thế giới thực, là sự biểu diễn dữ liệu mức quan niệm Mô hình dữ liệu được phân loại dựa trên các cách tiếp cận dữ liệu khác nhau của các nhà phân tích, thiết kế CSDL Mô hình dữ liệu hoàn toàn độc lập giữa hệ thống máy tính và cấu trúc dữ liệu

Hiện nay, có năm loại mô hình dữ liệu chính Đó là:  Mô hình dữ liệu mạng: thập niên 60-70

 Mô hình dữ liệu phân cấp: thập niên 60-70  Mô hình dữ liệu quan hệ: thập niên 80

 Mô hình dữ liệu thực thể kết hợp: thập niên 90  Mô hình dữ liệu hướng đối tượng: thập niên 90

Trang 18

trong việc thiết kế và sửa đổi sau này Ngoài ra, việc thiết kế mô hình quan hệ hoàn toàn độc lập với hệ quản trị CSDL

 Thứ hai, các ngôn ngữ để tạo và thao tác các cấu trúc trong mô hình mạng và mô hình phân cấp rất khó sử dụng Ví dụ khi sử dụng hệ quản trị IDMS đòi hỏi phải thông thạo về ngôn ngữ từ điển dữ liệu tích hợp và các trình biên dịch lược đồ và lược đồ con Trong khi đó, các hệ quản trị theo mô hình quan hệ dễ sử dụng hơn vì sử dụng ngôn ngữ truy vấn dữ liệu ở mức độ cao như SQL,…

Do những ưu điểm trên CSDL quan hệ ngày càng được sử dụng rộng rãi Tuy nhiên, trong một số trường hợp, mô hình quan hệ trở nên không thích hợp, nhất là khi sử dụng nó để thể hiện những dữ liệu có quan hệ cấu trúc như cây hệ thống sinh học đối với những loại dữ liệu loại này, sử dụng mô hình dữ liệu hướng đối tượng là thích hợp nhất

Khi một CSDL được xây dựng xong, thì việc tiếp theo là làm sao để có thể truy xuất thông tin từ CSDL này, nghĩa là người dùng có thể nhận được các thông tin mà họ cần hay có thể bổ sung thêm một vài thông tin qua một giao diện thân thiện Hơn thế nữa, người dùng còn muốn chia sẻ thông tin với các nơi khác Để thực hiện được điều đó, người ta thường chọn giao thức CGI, hiển thị những đòi hỏi thông tin về CSDL của người dùng thông qua dịch vụ web

2.2 NGÔN NGỮ LẬP TRÌNH PERL, MẠNG INTERNET VÀ WEB 2.2.1 Perl [19]

2.2.1.1 Tóm tắt lịch sử phát triển

Perl là chữ viết tắt của “Practical Extraction and Report Language” Larry Wall tạo ra ngôn ngữ Perl năm 1986 nhằm quản trị và cấu hình các mạng máy tính lớn Ngôn ngữ này phát sinh từ ngôn ngữ lập trình C và bị ảnh hưởng bởi ngôn ngữ khác như BASIC, awk, sed và UNIX shell

Năm 1987, Perl 1.0 ra đời

Năm 1988, Perl 2.0 phát hành và được các nhà quản trị UNIX sử dụng rộng rãi

Trang 19

Năm 1989, Perl 3.0 ra đời, nhưng phiên bản này được phát hành dưới bản quyền được bảo vệ của GNU Với phiên bản này Perl nhanh chóng trở thành tiêu chuẩn để viết CGI script dùng cho việc xử lý dữ liệu được gửi trên Internet

Năm 1991, phiên bản 4.0 được đưa ra vào tháng 3 Đến thời điểm này, Perl đã trở thành ngôn ngữ khá hoàn chỉnh mặc dù vẫn còn một số khuyết điểm nhỏ

Năm 1994, phiên bản Perl 5.0 ra đời cùng với sự ra đời của DBI (Database Interface) và DBD (Datadbase Driver) cho hệ quản trị CSDL Oracle của Tim Bunce Từ đó, các DBD của các hệ quản trị CSDL khác cũng dần xuất hiện

Năm 2000, phiên bản 5.6 xuất hiện vào tháng 3 Phiên bản này đã chuyển sang định dạng tiêu chuẩn và có sự hỗ trợ cả Unicode và UTF-8

Năm 2002, phiên bản Perl 5.8 ra đời cùng với nhiều cải tiến mới được bổ sung

2.2.1.2 Ứng dụng [6]

Perl được dùng để xử lý tập tin, truy cập dữ liệu và được dùng cho giao diện cổng chung (Common Gateway Interface – CGI), tiến hành tạo script của Microsoft Windows, tạo giao diện người dùng đồ họa (graphical user interface – GUI)

Ưu điểm: là ngôn ngữ dễ nắm bắt, thích hợp cho xử lý chuỗi và văn bản thuần túy, được sự hổ trợ của nhiều hệ điều hành Vì vậy, Perl là ngôn ngữ lập trình thích hợp cho các nhà tin – sinh học vì nó có thể giúp cho việc thao tác trên các chuỗi trình tự sinh học, tạo CSDL sinh học dễ dàng hơn Ngoài ra, Perl còn được sự hỗ trợ module (tập các hàm) giúp kết nối, truy xuất CSDL với trang Web, tạo ra trang web động

Nhược điểm: chỉ có thể dùng để viết các chương trình, script nhỏ

2.2.1.3 Một số module của Perl thường được sử dụng [20, 21]

Mudule CGI (Common Gateway Interface – CGI) của Perl: do Lincoln D

Stein viết và bổ sung, nâng cấp thêm các tính năng từ version 1.44 đến version 3.04 Module này gồm các hàm giúp viết kịch bản Perl theo giao thức CGI Các script này giúp lấy thông tin từ trình diệt khách gởi đến máy chủ, đưa vào chương trình sử lý và đưa lại thông tin kết quả đến máy khách

Module DBI (Database Interface) của Perl: là tập các hàm, biến và những

qui ước cần thiết cho việc tương tác với một CSDL nhất định thông qua Perl script, hoàn toàn độc lập với hệ quản trị CSDL (do tác giả của DBI, Tim Bunce, định nghĩa)

Trang 20

Những tương tác có thể nhập, nâng cấp, xử lý, rút trích,…dữ liệu vào hay ra khỏi CSDL Phiên bản hiện tại là 1.48

Module DBD (Datadbase Driver) của Perl: là một module phụ thuộc loại hệ

quản trị CSDL và liên kết với module BDI để truy cập vào một loại hệ quản trị CSDL nhất định Như vậy tương ứng với một hệ quản trị CSDL có một loại DBD Ví dụ như hệ quản trị MySQL có Database Driver là DBD::MySQL

Từ năm 1969 đến 1986, số lượng máy chủ tăng lên khoảng năm ngàn

Đến năm 1973, mạng xuyên quốc gia đầu tiên được thiết lập giữa hai nước Anh và Na Uy

Năm 1982, giao thức TCP/IP ra đời và nhanh chóng trở thành giao thức chuẩn

Internet dần dần được phát triển và đột phá từ khi có sự ra đời của dịch vụ WWW (World Wide Web) Và từ đây, Internet được mở rộng sử dụng cho các ngành

nghiên cứu khác và trở thành một công cụ có mụch đích thương mại P

ERL SCRIPT

DBI Switch

Hình 2.1 Tương tác giữa Perl script-DBI-DBD-và RBDMS

RDBMS (Relational Database Management Systems): hệ quản trị CSDL quan hệ

Trang 21

Từ đó, một loạt các thuật ngữ lần lượt ra đời như webServer, webClient, webPage, webSite, URL:

WebServer: máy cung cấp thông tin dạng web WebClient: máy truy xuất thông tin từ web server

WebSite: tập hợp các trang web của một tổ chức, một website có thể có nhiều web server

WebPage: một trang tự liệu web

URL (Uniform Resource Locator) đường dẫn chỉ đến một tập tin trong một máy chủ trên Internet

Để truy xuất các thông tin trên web server, các web client phải sử dụng một chương trình để duyệt các thông tin này gọi là web browser Đến năm 1993, trung tâm ứng dụng siêu máy tính quốc gia NCSA (National Center Supercomputer Application) xây dựng trình duyệt web, có tên là Mosaic, đầu tiên có giao diện đồ họa

Năm 1995, đánh dấu sự ra đời của trình duyệt Netscape và sau đó là Microsoft Internet Explorer Các trình duyệt này cho phép truy xuất dữ liệu khu trú trên máy WWW Hai công cụ hỗ trợ WWW là ngôn ngữ đánh dấu siêu văn bản HTML (Hypertext Markup Language) dùng để tạo ra các trang web và giao thức truyền siêu văn bản HTTP (Hypertext Transfer Protocol)

Trang 22

Tuy nhiên, các trang web này chỉ là những trang web tĩnh Khi nhu cầu trao đổi thông tin người sử dụng và các nhà cung cấp thông tin ngày càng tăng, các trang web động dần dần thay thế các trang web tĩnh Trang web động là trang web được tạo ra để đáp ứng các dữ liệu nhập vào của người dùng trực tiếp hay gián tiếp và trả lại kết quả thông qua sự tương tác với hệ thống CSDL

Có nhiều kỹ thuật được dùng để tích hợp CSDL với web để tạo ra trang web động như CGI, PHP, ASP, JSP, Coldfusion Trong đó:

 CGI (Common Gateway Interface): là kỹ thuật ra đời sớm nhất và được các nhà tin – sinh học sử dụng Cụ thể CGI được định nghĩa là một cách thức mà web server chạy một chương trình một cách cục bộ và trả lại kết quả thông qua máy server về trình duyệt web (ở máy client) của người dùng yêu cầu nội dung động Nhiều ngôn ngữ lập trình được sử dụng để viết CGI như Perl, C, C++

 ASP (Active Server Page): là kỹ thuật của Microsoft sử dụng Visual Basic hay các ngôn ngữ khác để viết, thường chỉ ứng dụng trên hệ điều hành Windows

 JSP (Java Server Page): là thuật ngữ dùng Java để viết, có thể chạy trên các hệ điều hành như Unix, Linux, Windows, Mac,…

 PHP (Hypertext Preprocessior): là dự án của Apache Software Foundation Tương tự như ASP và JSP, PHP có một tập các thẻ mã chương trình đặt bên cạnh các thẻ HTML

2.2.3.2 Tích hợp CSDL với web dùng CGI [2]

Gồm ba bước:

Bước 1: từ trình duyệt web (trên máy client) gởi đi những yêu cầu của

người dùng đến máy server Ở máy server, thông qua trình ứng dụng CGI chuyển những yêu cầu đó thành những câu truy vấn SQL

Bước 2: kết nối CSDL, thực hiện những câu truy vấn đó

Bước 3: thu lấy kết quả truy vấn, thông qua trình ứng dụng CGI chuyển kết

quả thu được từ CSDL thành định dạng HTML, rồi trả về máy client

Trang 23

NLM

NCBI

NIH

Hình 2.2 Tương quan giữa NCBI, NLM (National Library of Medicine và NIH)

2.3 CƠ SỞ DỮ LIỆU SINH HỌC

Dữ liệu sinh học ngày càng tăng theo cấp số mũ qua các dự án giải trình tự bộ gene, do sự phát triển của kỹ thuật và thiết bị thí nghiệm như kỹ thuật DNA micro array, kỹ thuật giải trình tự tự động cho phép tạo ra hàng ngàn dữ liệu sinh học trong chốc lát Như vậy vấn đề đặt ra là cần phải có biện pháp lưu trữ, quản lý, sử dụng và chia sẽ nguồn dữ liệu này Do đó cần xây dựng các dữ liệu này thành một CSDL hoàn chỉnh để có thể thực hiện được mục đích trên Hơn thế nữa, với việc hệ thống hóa toàn bộ dữ liệu trên, chúng ta dễ dàng thực hiện việc chia sẽ những thông tin ấy qua mạng Internet hay kết nối thêm vào những tập dữ liệu ở nơi khác

Một số CSDL lớn, trực tuyến đã được xây dựng để cung cấp thông tin cho các nhà nghiên cứu sinh học như NCBI, EBI, SIB, DDBJ,…

2.3.1 NCBI (National Center for Bioinformatic Information) [22] 2.3.1.1 Vài nét về NCBI

NCBI là chữ viết tắt của “Center for Bioinformatic Information” Đây là trung tâm quốc gia về Công nghệ sinh học, thuộc viện sức khỏe quốc gia của Hoa kỳ (NIH – National Insitute of Health) NCBI chính thức được thành lập vào ngày 4/10/1988 Đến năm 1991, NCBI đảm nhiệm việc quản lý CSDL trình tự DNA và từ đó NCBI còn được gọi là GenBank

NCBI là nơi cung cấp, trao đổi thông tin về sinh học phân tử của Mỹ, thông qua những CSDL trực tuyến Ngoài ra, NCBI còn tham gia những nghiên cứu về “sinh học tính toán” (computation biology), phát triển những công cụ phân tích dữ liệu bộ gene, protein,…

2.3.1.2 Một số cơ sở dữ liệu trong NCBI

Nucleotide (GenBank): là CSDL về trình tự nucleotide Protein: là CSDL về trình tự amino acid

Genome: trình tự toàn bộ genome của một số sinh vật

Trang 24

Structure: hay còn có tên gọi là MMDB (Molecular Modeling Database)

chứa cấu trúc ba chiều của những đại phân tử bao gồm cả protein lẫn những chuỗi nucleotide

Ngoài ra, NCBI còn một số CSDL khác Chúng là các CSDL trung gian, được tạo thành từ sự kết hợp của hai hay nhiều CSDL trên, hay do liên kết đến các CSDL khác

2.3.1.3 Một số công cụ trong NCBI

 Công cụ khai thác dữ liệu

o Tìm kiếm thông tin sinh học dựa trên từ khóa có dạng văn bản: Entrez: chứa các phương thức tìm kiếm như tìm kiếm dựa trên accession

number, hay dựa theo tên sinh vật, tên gene, tên protein,… trên tất cả các CSDL đã đề cập ở phần 2.3.1.2

o Tìm kiếm trình tự tương đồng: có phần mềm điển hình như:

BLAST (Basic Local Alignment Search Tool): có BLAST Homepage là nơi

cung cấp thông tin hướng dẫn về BLAST, chương trình BLAST,…

Blink: nơi hiển thị kết quả bằng BLAST trên mọi protein có trong mọi CSDL

protein Entrez

Network-client BLAST: client BLAST (blastcl3) có thể thâm nhập vào bộ

máy BLAST của NCBI Blastcl3 này có thể tìm kiếm tất cả các trình tự dưới dạng file FASTA và tạo sự gióng cột một-nhiều trình tự, sau đó lưu dưới dạng file text hay HTML Ngoài ra, blastcl3 còn có thể thực hiện việc tìm kiếm trên nhiều CSDL

Stand-alone BLAST: là phần mềm có thể tải về từ NCBI Phần mềm này

thực hiện việc tìm kiếm các trình tự tương tự trên CSDL trình tự cục bộ o Phân loại sinh vật:

Taxonomy Browser: công cụ thực hiện việc tìm kiếm trên CSDL Taxonomy Taxonomy BLAST: nhóm lại những kết quả có tỉ lệ tương đồng khi thực

hiện BLAST, tùy thuộc vào sự phân loại của chúng trong CSDL Taxonomy

TaxTable: tóm tắt kết quả sau khi thực hiện BLAST với CSDL Taxonomy và

hiển thị mối quan hệ giữa sinh vật này với sinh vật khác bằng các biểu đồ màu

Trang 25

 Công cụ phục vụ cho việc góp trình tự protein, DNA, EST, STS,

…lên NCBI

Sequin: phần mềm này có thể tải về từ NCBI, hổ trợ cho việc tạo ra những

file văn bản (chứa trình tự, tên tác giả, bài báo,…) có cấu trúc theo khuôn mẫu Trong phần mềm này còn kèm theo một số công cụ nhỏ như công cụ tìm khung đọc mở, công cụ gióng cột trình tự,… phần mềm này thích hợp cho việc góp nhiều trình tự cùng một lúc

 NCBI còn tích hợp khá nhiều những công cụ, phần mềm phân tích trình tự DNA, protein như:

BanklIt, ORF Finder, Electronic-PCR (e-PCR), VecScreen, Homologene, COGs, COGnitor, GEO, MGC, Clone Registry, CDD, LocusLink,…

2.3.2 EBI (European Bioinformatics Insiture) [23] 2.3.2.1 Vài nét về EBI

EBI là viện Tin - sinh học của Cộng đồng chung Châu Âu, EBI đặt tại Welcome Trust Genome Campus nước Anh, thành lập năm 1992 EBI bắt nguồn từ EMBL (European Molecular Biology Laboratory) EBML được thành lập năm 1980 tại phòng thí nghiệm sinh học phân tử Heidelberg của Đức và đây là CSDL trình tự nucleotide đầu tiên của thế giới

EBI phục vụ cho việc nghiên cứu trong các lĩnh vực như sinh học phân tử, di truyền, y học, nông nghiệp,… bằng cách xây dựng, duy trì những CSDL chia sẻ trực tuyến thông tin cần thiết Bên cạnh đó, EBI còn thực hiện những nghiên cứu trong lĩnh vực Tin-sinh học và sinh học phân tử tính toán

2.3.2.2 Một số cơ sở dữ liệu trong EBI

EMBL (European Molecular Biology Laboratory): còn được gọi là

EMBL-BANK chứa CSDL về trình tự DNA, RNA

MSD (Macromolecular Structure Database): chứa thông tin cấu trúc của các

đại phân tử sinh học như protein, DNA, RNA,…

ArrayExpress: tích trữ nguồn dữ liệu về sự biểu hiện của gene dựa trên kỹ

thuật microArray

TrEMBL (Translate EMBL): là cơ sở dữ liệu về protein Do lượng trình tự

này ngày càng nhiều và để quản lý tốt hơn, TrEMBL đã kết hợp với Swiss-Prot (CSDL

Trang 26

Cơ sở dữ liệu về protein của Thụy Sỹ đặt tại Genva Cơ sở dữ liệu về protein

của trường đại học Y Georgetown (Mỹ)

Hình 2.3 Một số cơ sở dữ liệu trong EBI

về trình tự protein của Thụy Sỹ), PIR (CSDL về protein của trường đại học Y Georgetown, Hoa Kỳ) tạo thành CSDL UniProt

Ngoài ra, EBI còn một số CSDL khác Chúng là các CSDL trung gian, được tạo thành từ sự kết hợp của hai hay nhiều CSDL trên, hay do liên kết đến CSDL khác

2.3.2.3 Một số công cụ hỗ trợ phân tích trình tự sinh học

FASTA: Do Smith và Waterman tạo ra năm 1981, là chương trình tìm kiếm

những trình tự tương đồng, có thể là trình tự DNA hay trình tự protein, trong CSDL đã chọn

BLAST: chủ yếu là phần mềm WU-BLAST (Washington University Bacis

Local Alignment Tool version 2.0) Đặc điểm chính của công cụ này là tìm kiếm vùng trình tự tương đồng nhanh chóng

ClustalW: là công cụ dành cho việc sắp gióng cột ở hai hay nhiều trình tự

sinh học (cả protein và DNA), công cụ này cho ra kết quả có ý nghĩa sinh học cao

Trang 27

2.3.3 SIB (Swiss Insitute of Bioiformatics) [32]

Là viện Tin-sinh học của Thụy Sỹ đặt tại Genva, nơi cung cấp dịch vụ trên web chất lượng cao cho cộng đồng khoa học thế giới qua trang ExPASy (Expert Protein Analyis System)

Một số CSDL trong ExPASy:

SWISS-PROT: là CSDL protein, được thành lập năm 1986 Nhưng kể từ

năm 1987, SWISS-PROT liên kết với EBI

SWISS-2DPAGE (2-dimensional polyacrylamide gel electrophoresis

database): chứa dữ liệu điện di hai chiều từ protein của người, chuột, E.coli,…

PROSITE: tích trữ về các họ protein có cùng chức năng

ENZYME (enzyme nomenclature): cung cấp thông tin về danh pháp của

enzyme

SWISS-3DIMAGE: lưu trữ hình ảnh chất lượng cao của các đại phân tử sinh

học đã biết cấu trúc không gian ba chiều

2.3.4 DDBJ (DNA Data Bank Japan) và PDBj (Protein Database Japan) [25]

DDBJ là CSDL về trình tự DNA của Nhật Bản, chính thức đi vào hoạt động năm 1986, đặt tại viện di truyền quốc gia (NIG) Đến năm 2001, trung tâm thông tin về sinh học ở NIG được tổ chức lại với cái tên là CIB (Center Information Biology) kết hợp với DDBJ, viết tắt CIB/DDBJ

PDBj là CSDL của Nhật Bản, tích trữ dữ liệu về cấu trúc, chức năng protein DDBJ của Nhật Bản, EMBL của Châu Âu, NCBI của Hoa Kỳ là ba CSDL về trình tự nucleotide lớn, mang tính chất toàn cầu và ba cơ sở dữ liệu này có sự hợp tác, trao đổi qua lại dữ liệu Từ đó càng làm cho dữ liệu về trình tự nucleotide trở nên phong phú hơn

Trang 28

Các tổ chức này đều xây dựng công cụ tìm kiếm trong CSDL của họ Với NCBI là Entrez, EBI là SRS và CIB là getentry Như vậy để có thể khai thác hiệu quả các CSDL này thì việc đầu tiên cần thực hiện là nắm vững các hoạt động của công cụ tìm kiếm (“search engines”) này

Ngoài ra, cũng có sự kết hợp của các CSDL protein trên thế giới để tạo ra một CSDL thống nhất wwPDB (world wide Protein Database)

EBI

GenBank

DDBJ

EMBL

EMBL

Entrez

SRS getentry

NIG

CIB

NCBI

NIH

Hình 2.4 Ba cơ sở dữ liệu nucleotide (GenBank – EMB -DDB) và

công cụ tìm kiếm tương ứng

Hình 2.5 Sự hợp nhất của ba cơ sở dữ liệu MSD, PDBj, PDB

Trang 29

Bảng 2.1 MỘT SỐ CSDL SINH HỌC LỚN VÀ CÁC ĐỊA CHỈ WEB TƯƠNG ỨNG

STT Tổ chức Tên cơ sở dữ

liệu Địa chỉ trang web 1 EBI

(http://www.ebi.ac.uk/)

EMBL-BANK http://www.ebi.ac.uk/embl/index.html TrEMBL http://www.ebi.ac.uk/swissprot/

dbEST http://www.ncbi.nlm.nih.gov/dbEST/

dbSTS http://www.ncbi.nlm.nih.gov/dbSTS/

DbGSS http://www.ncbi.nlm.nih.gov/dbGSS/

Trang 30

Bảng 2.2 MỘT SỐ CSDL SINH HỌC LỚN VÀ CÁC ĐỊA CHỈ WEB TƯƠNG ỨNG

(tiếp theo)

2.4 VIRUS CAULIMOVIRIDAE VÀ CLOSTEROVIRIDAE

Giới thiệu chung [1]

Bệnh hại do virus thực vật gây ra cho nền nông nghiệp rất lớn Nhưng xác định đúng tác nhân gây ra những thiệt hại này đối với từng loại cây trồng gặp nhiều khó khăn vì bệnh do virus gây ra thường rất khó xác định, do kích thước của chúng quá bé, do biến chuyển của quá trình gây bệnh thường rất phức tạp và chịu ảnh hưởng của nhiều điều kiện khác nhau

Ví dụ: Theo J.S.Hu và cộng sự, bệnh héo do virus (Mealybug wilt of

pineapple- MWP) là bệnh gây thiệt hại ở nhiều khu vực trồng dứa trên thế giới Các nghiên cứu đã chứng minh rằng một yếu tố tiềm tàng liên quan đến bệnh là virus Một

dạng closterovirus hình que gấp khúc được phân lập từ những cây có triệu chứng

MWP ở Hawaii Tuy nhiên sau đó những tiểu phần closterovirus cũng được tìm thấy ở cả cây dứa có và không có thể hiện triệu chứng trên phạm vi thế giới Virus liên quan đến bệnh héo ở dứa (PMWaV) thực chất là phức hợp của 2 loại virus PMWaV-1 và PMWaV-2 Vì tác nhân không biểu hiện ra ngoài không gây ảnh hưởng đến sự sinh trưởng và phát triển của dứa, để phát hiện phân biệt hai tác nhân này ở những cây không và có biểu hiện ra ngoài là rất khó khăn

STT Tổ chức Tên cơ sở dữ liệu Địa chỉ trang web 3 SIB

(http://au.expasy.org)

6 PDB PDB http://www.pdb.org

Trang 31

Trong đó:

ORF I Movement protein ORF II Insect transmission factor ORF III

ORF IV Capsid protein

ORF V Protease, reverse transcriptase and RNaseH ORF VI Translational activator / Inclusion body protein ORF VII Unknown (dispensable)

Hình 2.6 Tổ chức genome của virus CaMV (Caulimoflower mosaic virus)

2.4.1 CAULOMOVIRIDAE [29]

2.4.1.1 Khái quát

Caulimoviriruse là họ virus thực vật có genome chứa dsDNA Được chia ra

làm năm nhóm gồm:

 Caulimovirus (loài đặc trưng: cauliflower mosaic virus)

 Soymovirus (loài đặc trưng: Soybean chlorotic mottle-like viruses)  Cavemovirus (loài đặc trưng: Cassava vein mosaic-like viruses)  Tungrovirus (loài đặc trưng: Rice tungro bacilliform-like viruses)  Badnavirus (loài đặc trưng: Cammelina yellow mottle virus)  Petuvirus (loài đặc trưng: Petunia vein clearing-like virus)

Trong đó, Virion của các loài Caulimovirus, Soymovirus, Cavemovirus,

Petuvirus có đường kính khoảng 50 nm Còn Tungrovirus và Badnavirus có chiều dài

110-400 và 130 nm, đường kính khoảng 30-35 và 30-35 nm tương ứng Các loài trong họ có kích thước genome khoảng 7,5-8 kb và tổ chức genome gồm 9 ORF (Open Reading Frame) trong ORF1 gồm có ORF1a và ORF1b) Sự sao mã genome của virus trong tế bào ký chủ phụ thuộc vào gene reverse transcriptase (gene này không chèn vào DNA của tế bào ký chủ trong quá sao mã và dịch mã)

Trang 32

2.4.1.2 Cấu tạo

Virion có cấu trúc đơn giản gồm một lớp vỏ capsid Viron không có áo (enveloped) bao bọc bên ngoài Capsid có hình cầu hoặc dạng bacilliform Ở dạng cầu có đường kính khoảng 35-47.52-50 nm Các lớp vỏ (shell) capsid của virion là tổ hợp của những màng đa, sự sắp xếp của capsomer không có sự phân biệt Còn ở dạng bacilliform thì capsid có độ dài 130 nm hoặc 60-900 nm và có đường kính 24-30-35 nm

2.4.1.3 ĐẶC TÍNH SINH HỌC  Dãy ký chủ tự nhiên

Ký chủ của virus liên quan đến Domain Eucarya  Mối quan hệ vector và ký chủ trung gian

Virus có thể được vận chuyển bởi một số nhân tố sau: vector, hạt, phấn hoa, sự cọ sát giữa hai ký chủ,…

 Vùng phân bố

Phân bố khắp nơi như châu Phi, Mỹ, Á,…

2.4.1.4 Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ [18]

Virus tấn công vào tế bào ký chủ thông qua các thụ thể trên màng, khi vào tế bào ký chủ tiến hành cởi bỏ lớp vỏ, phóng thích dsDNA vào tế bào chất của tế bào ký chủ Sợi dsDNA này tiến hành đi vào nhân của tế bào ký chủ, sau đó nó tiến hành nhân bản trong nhân và sao mã tạo mRNA dưới sự tham gia của các enzyme của nhân và virus (DNA-dependent RNA polymerase) mRNA này từ nhân đi ra tế bào chất của tế bào ký chủ để thực hiện việc dịch mã Các protein của sự dịch mã mRNA virus lại trở

Hình 2.7 Hình thái virion của một số loài trong họ Caulimoviridae

Trang 33

Hình 2.8 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của

Closteroviridae cũng là họ virus gây hại trên thực vật, có bộ genome là

ssRNA và virion có hình dạng sợi tròn mảnh (flexuous rod-shaped virion), có độ dài khoảng 1250-2200 nm chứa một sợi sense dương, kích thước của một RNA sợi đơn khoảng 15,5-19.3 kb (Martelli và cộng sự, 2002) Được chia ra làm 3 nhóm gồm:

 Ampelovirus (loài đặc trưng: Grapevine leafroll-associated virus 3)  Closterovirus (loài đặc trưng: Beet yellows virus)

 Crinivirus (loài đặc trưng: Lettuce infectious yellows virus)

2.4.2.2 Cấu tạo [30]

Virion có cấu tạo đơn giản gồm có một lớp vỏ (capsid), không có lớp áo (enveloped) bao bên ngoài Capsid của nó rất mảnh, có độ dài khoảng 650-900 hoặc 1200-2325 nm và có đường kính khoảng 10-13 nm

Trang 34

Hình 2.9 Hình thái virion của Citrus tristeza virus thuộc Closterovirus

2.4.2.3 Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ [18]

Thông qua các thụ thể trên màng của tế bào ký chủ, virus nhận biết và tấn công vào vào tế bào ký chủ để đi vào tế bào chất của tế bào ký chủ Khi ở trong tế bào chất virus tiến hành sự hóa acid thể nhân (acidification of endosome) để tạo ra sợi single strand RNA sense (+) Ở trong tế bào chất, mRNA này có hai nhiệm vụ là:

 Thực hiện việc dịch mã ra protein virus, protein này sau đó đƣợc biến đổi để hình thành nên các protein cấu trúc của virus

 Sao mã genome của virus tiếp đó tạo nên sợi single strand RNA (ssRNA) Các protein cấu trúc đƣợc hình thành sẽ “gói” các ssRNA ở trên để hình thành các virion trong tế bào chất, sau đó ly giải màng tế bào ký chủ và phóng thích ra ngoài (hình 2.10)

Hình 2.10 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus (+)ssRNA

Trang 35

2.5 Gene Hsp-70 và Reverse transcriptase-RNaseH

Mụch tiêu của khóa luận là xây dựng CSDL phục vụ cho việc phân biệt các loài trong họ hay phân biệt các họ với nhau thông qua phản ứng PCR phát hiện Nên chúng tôi chỉ quan tâm đến vùng gene bảo tồn để tiến hành xây dựng CSDL Mặc dù, trong hai họ virus này có nhiều gene bảo tồn, nhưng sau khi tìm hiểu thông tin chúng tôi tiến

hành xây dựng CSDL về hai gene hsp-70 và RT-RnasH với hai lý do sau:

Thứ nhất, gene hsp-70 là gene quan trọng ở Closteroviridae khi tồn tại trong môi trường sốc nhiệt và gene Reverse Transcriptase-RNaseH (RT-RNaseH) ở

Caulimoviridae thuộc nhóm Retrovirus nên gene RT-RNaseH rất quan trọng cho quá

trình hoàn thành chu kỳ sống của chúng trong tế bào ký chủ

Thứ hai, các thông tin về trình tự hai gene này được nghiên cứu, giải trình tự và đăng tải nhiều trên CSDL nucleotide của NCBI

2.5.1 Gene Reverse transciptase-RnasH (RT-RNaseH)

2.5.1.1 Vị trí gene RT-RNaseH nằm trong genome [15, 16]

Gene RT-RNaseH đây là tổ hợp của hai gene RT và RNaseH mã hóa cho

enzyme reverse transcriptase và ribonuclease H (RNaseH) thuộc ORF5 trong tổ chức

genome của Cauliflower mosaic virus Đây là hai gene có mối quan hệ chặt chẽ trong

quá trình thực hiện sao chép từ ssRNA sang dsDNA của quá trình tạo genome hoàn chỉnh của virus Ngoài ra, trong ORF5 này còn chứa một số gene khác mã hóa cho một số polyprotein khác như aspartic protease, protein áo,… Còn một số thành viên khác

thuộc giống Badnavirus thì gene này nằm trong ORF3 Gene RT-RNaseH bảo tồn

trong họ mã hóa cho protein reverse transcriptase-RNaseH, đây là một trong những

protein bảo tồn trong họ virus Caulimoviridae

2.5.1.2 Chức năng của protein [31]

Đối với các loài virus có tổ chức genome là dsDNA trong quá trình sao mã trong tế bào ký chủ, chúng sử dụng enzyme Reverse transcriptase-RNaseH để hoàn thành chu kỳ sao mã của chúng

Protein Reverse transcriptase-RNaseH có hai chức năng:

 DNA polymerase: Trong chu kỳ sống của virus reverse transcriptase chỉ sao chép RNA Nó sẽ sao mã cả khuân mẫu RNA và DNA sợi đơn Trong cả hai trường hợp này nó điều cần những primer RNA hoặc DNA để khởi đầu cho sự tổng hợp của nó

Hình 2.11 Vị trí gene RT-RNaseH nằm trong cấu trúc genome Cauliflower mosaic virus (CMV)

Trang 36

Hình 2.13 Vị trí gene hsp-70 nằm trong tổ chức genome của Beet yellows virus (BYV) Hình 2.12 Protein Reverse transcriptase

 RNase H: là một ribonuclease, enzyme này có chức năng phân tách RNA từ những RNA-DNA lai, RNA-DNA lai này được hình thành trong quá trình sao mã ngược của đoạn khuôn mẫu RNA RNase H hoạt động có hai tính năng endonuclease và exonuclease trong quá trình phân tách RNA-DNA lai

2.5.2 Gene hsp-70

2.5.2.1 Vị trí gene hsp-70 nằm trong genome [13, 17]

Gene hsp-70 mã hóa cho enzyme HSP-70 thuộc ORF2 trong tổ chức genome

(gồm có 9 ORF nằm trong 2 RNA là RNA1 và RNA2) và gene này thuộc RNA2 của

họ Closteroviridae Đây là gene bảo tồn trong họ và nhiều nghiên cứu tiến hành xây

dựng cây phát sinh loài dựa trên gene này

2.5.2.2 Chức năng [10]

Protein HSP-70 (hình 2.14), trọng lượng phân tử 70 kD được mã hóa từ gene

hsp-70 có vai trò quan trọng trong quá trình tồn tại của sinh vật trong môi trường có sự

thay đổi đột ngột về nhiệt độ Ngoài ra, protein HSP-70 còn tham gia vào một số quá trình điều hòa quan trọng khác như: giúp sự hình thành cấu của protein, giúp di chuyển của virus qua các tế bào ký chủ,…Đây là protein bảo tồn trong họ

Hình 2.14 Protein HSP-70

Tiêu đề	Xây Dựng Cơ Sở Dữ Liệu Hai Gene HSP-70 Và Reverse Transcriptase-RNaseH Ở Một Số Loài Virus Thực Vật
Tác giả	Nguyễn Văn Thái
Người hướng dẫn	TS. Trần Thị Dung, Cử Nhân. Lưu Phúc Lợi
Trường học	Đại học Nông Lâm TP. Hồ Chí Minh
Chuyên ngành	Công Nghệ Sinh Học
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2001-2005
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	72
Dung lượng	1,7 MB