16 Các tổ chức này đều xây dựng công cụ tìm kiếm trong CSDL của họ. Với NCBI là Entrez, EBI là SRS và CIB là getentry. Nhƣ vậy để có thể khai thác hiệu quả các CSDL này thì việc đầu tiên cần thực hiện là nắm vững các hoạt động của công cụ tìm kiếm (“search engines”) này. Ngoài ra, cũng có sự kết hợp của các CSDL protein trên thế giới để tạo ra một CSDL thống nhất wwPDB (world wide Protein Database). EB I GenBank DDBJ EMB L E E M M B B L L Entrez SRS getentry N N I I G G CI B NCB I N N I I H H •Submissions •Updates •Submissions •Updates •Submissions •Updates Hình 2.4 Ba cơ sở dữ liệu nucleotide (GenBank – EMB -DDB) và công cụ tìm kiếm tƣơng ứng. Hình 2.5 Sự hợp nhất của ba cơ sở dữ liệu MSD, PDBj, PDB 17 Bảng 2.1. MỘT SỐ CSDL SINH HỌC LỚN VÀ CÁC ĐỊA CHỈ WEB TƢƠNG ỨNG. STT Tổ chức Tên cơ sở dữ liệu Địa chỉ trang web 1 EBI (http://w ww.ebi.a c.uk/) EMBL-BANK http://www.ebi.ac.uk/embl/index.html TrEMBL http://www.ebi.ac.uk/swissprot/ MSD http://www.ebi.ac.uk/msd/ Ensembl http://www.ensembl.org/ ArrayExpress http://www.ebi.ac.uk/arrayexpress/ 2 NCBI (http://w ww.ncbi. nlm.nih. gov) OMIM http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM GenBank http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Nucleotide Protein http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Protein Genome http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome MMDB http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Structure Taxonomy http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Taxonomy dbSNP http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=snp CDD http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=cdd Pubmed http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed Cancer Chromosomes http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Cancer Chromosomes dbEST http://www.ncbi.nlm.nih.gov/dbEST/ dbSTS http://www.ncbi.nlm.nih.gov/dbSTS/ DbGSS http://www.ncbi.nlm.nih.gov/dbGSS/ 18 Bảng 2.2. MỘT SỐ CSDL SINH HỌC LỚN VÀ CÁC ĐỊA CHỈ WEB TƢƠNG ỨNG (tiếp theo) 2.4. VIRUS CAULIMOVIRIDAE VÀ CLOSTEROVIRIDAE Giới thiệu chung [1] Bệnh hại do virus thực vật gây ra cho nền nông nghiệp rất lớn. Nhƣng xác định đúng tác nhân gây ra những thiệt hại này đối với từng loại cây trồng gặp nhiều khó khăn vì bệnh do virus gây ra thƣờng rất khó xác định, do kích thƣớc của chúng quá bé, do biến chuyển của quá trình gây bệnh thƣờng rất phức tạp và chịu ảnh hƣởng của nhiều điều kiện khác nhau. Ví dụ: Theo J.S.Hu và cộng sự, bệnh héo do virus (Mealybug wilt of pineapple- MWP) là bệnh gây thiệt hại ở nhiều khu vực trồng dứa trên thế giới. Các nghiên cứu đã chứng minh rằng một yếu tố tiềm tàng liên quan đến bệnh là virus. Một dạng closterovirus hình que gấp khúc đƣợc phân lập từ những cây có triệu chứng MWP ở Hawaii. Tuy nhiên sau đó những tiểu phần closterovirus cũng đƣợc tìm thấy ở cả cây dứa có và không có thể hiện triệu chứng trên phạm vi thế giới. Virus liên quan đến bệnh héo ở dứa (PMWaV) thực chất là phức hợp của 2 loại virus PMWaV-1 và PMWaV-2. Vì tác nhân không biểu hiện ra ngoài không gây ảnh hƣởng đến sự sinh trƣởng và phát triển của dứa, để phát hiện phân biệt hai tác nhân này ở những cây không và có biểu hiện ra ngoài là rất khó khăn. STT Tổ chức Tên cơ sở dữ liệu Địa chỉ trang web 3 SIB (http://au.exp asy.org) SWISS-PROT http://au.expasy.org/sprot/ SWISS-2DPAGE http://au.expasy.org/ch2d/ PROSITE http://au.expasy.org/prosite/ ENZYME http://au.expasy.org/enzyme/ SWISS-3DIMAGE http://au.expasy.org/sw3d/ CD40L http://au.expasy.org/cd40lbase/ 4 CIB/DDBJ DDBJ http://www.ddbj.nig.ac.jp 5 Pdbj Pdbj http://www.pdbj.org 6 PDB PDB http://www.pdb.org 7 wwPDB wwPDB http://www.wwpdb.org 19 Trong đó: ORF I Movement protein ORF II Insect transmission factor ORF III ORF IV Capsid protein ORF V Protease, reverse transcriptase and RNaseH ORF VI Translational activator / Inclusion body protein ORF VII Unknown (dispensable) Hình 2.6 Tổ chức genome của virus CaMV (Caulimoflower mosaic virus) 2.4.1. CAULOMOVIRIDAE [29] 2.4.1.1. Khái quát Caulimoviriruse là họ virus thực vật có genome chứa dsDNA. Đƣợc chia ra làm năm nhóm gồm: Caulimovirus (loài đặc trƣng: cauliflower mosaic virus). Soymovirus (loài đặc trƣng: Soybean chlorotic mottle-like viruses). Cavemovirus (loài đặc trƣng: Cassava vein mosaic-like viruses). Tungrovirus (loài đặc trƣng: Rice tungro bacilliform-like viruses). Badnavirus (loài đặc trƣng: Cammelina yellow mottle virus). Petuvirus (loài đặc trƣng: Petunia vein clearing-like virus). Trong đó, Virion của các loài Caulimovirus, Soymovirus, Cavemovirus, Petuvirus có đƣờng kính khoảng 50 nm. Còn Tungrovirus và Badnavirus có chiều dài 110-400 và 130 nm, đƣờng kính khoảng 30-35 và 30-35 nm tƣơng ứng. Các loài trong họ có kích thƣớc genome khoảng 7,5-8 kb và tổ chức genome gồm 9 ORF (Open Reading Frame) trong ORF1 gồm có ORF1a và ORF1b). Sự sao mã genome của virus trong tế bào ký chủ phụ thuộc vào gene reverse transcriptase (gene này không chèn vào DNA của tế bào ký chủ trong quá sao mã và dịch mã) 20 2.4.1.2. Cấu tạo Virion có cấu trúc đơn giản gồm một lớp vỏ capsid. Viron không có áo (enveloped) bao bọc bên ngoài. Capsid có hình cầu hoặc dạng bacilliform. Ở dạng cầu có đƣờng kính khoảng 35-47.52-50 nm. Các lớp vỏ (shell) capsid của virion là tổ hợp của những màng đa, sự sắp xếp của capsomer không có sự phân biệt. Còn ở dạng bacilliform thì capsid có độ dài 130 nm hoặc 60-900 nm và có đƣờng kính 24-30-35 nm. 2.4.1.3. ĐẶC TÍNH SINH HỌC Dãy ký chủ tự nhiên Ký chủ của virus liên quan đến Domain Eucarya. Mối quan hệ vector và ký chủ trung gian Virus có thể đƣợc vận chuyển bởi một số nhân tố sau: vector, hạt, phấn hoa, sự cọ sát giữa hai ký chủ,… Vùng phân bố Phân bố khắp nơi nhƣ châu Phi, Mỹ, Á,… 2.4.1.4. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ [18] Virus tấn công vào tế bào ký chủ thông qua các thụ thể trên màng, khi vào tế bào ký chủ tiến hành cởi bỏ lớp vỏ, phóng thích dsDNA vào tế bào chất của tế bào ký chủ. Sợi dsDNA này tiến hành đi vào nhân của tế bào ký chủ, sau đó nó tiến hành nhân bản trong nhân và sao mã tạo mRNA dƣới sự tham gia của các enzyme của nhân và virus (DNA-dependent RNA polymerase). mRNA này từ nhân đi ra tế bào chất của tế bào ký chủ để thực hiện việc dịch mã. Các protein của sự dịch mã mRNA virus lại trở Hình 2.7 Hình thái virion của một số loài trong họ Caulimoviridae 21 Hình 2.8 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus dsDNA lại nhân, kết hợp với sản phẩm của quá trình nhân bản, để hình thành nên các virion, các virion này thoát khỏi nhân và cuối cùng ly giải ra khỏi tế bào ký chủ (Hình 2.8). 2.4.2. CLOSTEROVIRIDAE 2.4.2.1. Khái quát [12] Closteroviridae cũng là họ virus gây hại trên thực vật, có bộ genome là ssRNA và virion có hình dạng sợi tròn mảnh (flexuous rod-shaped virion), có độ dài khoảng 1250-2200 nm chứa một sợi sense dƣơng, kích thƣớc của một RNA sợi đơn khoảng 15,5-19.3 kb (Martelli và cộng sự, 2002). Đƣợc chia ra làm 3 nhóm gồm: Ampelovirus (loài đặc trƣng: Grapevine leafroll-associated virus 3). Closterovirus (loài đặc trƣng: Beet yellows virus). Crinivirus (loài đặc trƣng: Lettuce infectious yellows virus). 2.4.2.2. Cấu tạo [30] Virion có cấu tạo đơn giản gồm có một lớp vỏ (capsid), không có lớp áo (enveloped) bao bên ngoài. Capsid của nó rất mảnh, có độ dài khoảng 650-900 hoặc 1200-2325 nm và có đƣờng kính khoảng 10-13 nm. 22 Hình 2.9 Hình thái virion của Citrus tristeza virus thuộc Closterovirus 2.4.2.3. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ [18] Thông qua các thụ thể trên màng của tế bào ký chủ, virus nhận biết và tấn công vào vào tế bào ký chủ để đi vào tế bào chất của tế bào ký chủ. Khi ở trong tế bào chất virus tiến hành sự hóa acid thể nhân (acidification of endosome) để tạo ra sợi single strand RNA sense (+). Ở trong tế bào chất, mRNA này có hai nhiệm vụ là: Thực hiện việc dịch mã ra protein virus, protein này sau đó đƣợc biến đổi để hình thành nên các protein cấu trúc của virus Sao mã genome của virus tiếp đó tạo nên sợi single strand RNA (ssRNA). Các protein cấu trúc đƣợc hình thành sẽ “gói” các ssRNA ở trên để hình thành các virion trong tế bào chất, sau đó ly giải màng tế bào ký chủ và phóng thích ra ngoài. (hình 2.10). Hình 2.10 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus (+)ssRNA 23 2.5. Gene Hsp-70 và Reverse transcriptase-RNaseH Mụch tiêu của khóa luận là xây dựng CSDL phục vụ cho việc phân biệt các loài trong họ hay phân biệt các họ với nhau thông qua phản ứng PCR phát hiện. Nên chúng tôi chỉ quan tâm đến vùng gene bảo tồn để tiến hành xây dựng CSDL. Mặc dù, trong hai họ virus này có nhiều gene bảo tồn, nhƣng sau khi tìm hiểu thông tin chúng tôi tiến hành xây dựng CSDL về hai gene hsp-70 và RT-RnasH với hai lý do sau: Thứ nhất, gene hsp-70 là gene quan trọng ở Closteroviridae khi tồn tại trong môi trƣờng sốc nhiệt và gene Reverse Transcriptase-RNaseH (RT-RNaseH) ở Caulimoviridae thuộc nhóm Retrovirus nên gene RT-RNaseH rất quan trọng cho quá trình hoàn thành chu kỳ sống của chúng trong tế bào ký chủ. Thứ hai, các thông tin về trình tự hai gene này đƣợc nghiên cứu, giải trình tự và đăng tải nhiều trên CSDL nucleotide của NCBI. 2.5.1. Gene Reverse transciptase-RnasH (RT-RNaseH) 2.5.1.1. Vị trí gene RT-RNaseH nằm trong genome [15, 16] Gene RT-RNaseH đây là tổ hợp của hai gene RT và RNaseH mã hóa cho enzyme reverse transcriptase và ribonuclease H (RNaseH) thuộc ORF5 trong tổ chức genome của Cauliflower mosaic virus. Đây là hai gene có mối quan hệ chặt chẽ trong quá trình thực hiện sao chép từ ssRNA sang dsDNA của quá trình tạo genome hoàn chỉnh của virus. Ngoài ra, trong ORF5 này còn chứa một số gene khác mã hóa cho một số polyprotein khác nhƣ aspartic protease, protein áo,… Còn một số thành viên khác thuộc giống Badnavirus thì gene này nằm trong ORF3. Gene RT-RNaseH bảo tồn trong họ mã hóa cho protein reverse transcriptase-RNaseH, đây là một trong những protein bảo tồn trong họ virus Caulimoviridae. 2.5.1.2. Chức năng của protein [31] Đối với các loài virus có tổ chức genome là dsDNA trong quá trình sao mã trong tế bào ký chủ, chúng sử dụng enzyme Reverse transcriptase-RNaseH để hoàn thành chu kỳ sao mã của chúng. Protein Reverse transcriptase-RNaseH có hai chức năng: DNA polymerase: Trong chu kỳ sống của virus reverse transcriptase chỉ sao chép RNA. Nó sẽ sao mã cả khuân mẫu RNA và DNA sợi đơn. Trong cả hai trƣờng hợp này nó điều cần những primer RNA hoặc DNA để khởi đầu cho sự tổng hợp của nó. Hình 2.11 Vị trí gene RT-RNaseH nằm trong cấu trúc genome Cauliflower mosaic virus (CMV) 24 Hình 2.13 Vị trí gene hsp-70 nằm trong tổ chức genome của Beet yellows virus (BYV) Hình 2.12 Protein Reverse transcriptase RNase H: là một ribonuclease, enzyme này có chức năng phân tách RNA từ những RNA-DNA lai, RNA-DNA lai này đƣợc hình thành trong quá trình sao mã ngƣợc của đoạn khuôn mẫu RNA. RNase H hoạt động có hai tính năng endonuclease và exonuclease trong quá trình phân tách RNA-DNA lai. 2.5.2. Gene hsp-70 2.5.2.1. Vị trí gene hsp-70 nằm trong genome [13, 17] Gene hsp-70 mã hóa cho enzyme HSP-70 thuộc ORF2 trong tổ chức genome (gồm có 9 ORF nằm trong 2 RNA là RNA1 và RNA2) và gene này thuộc RNA2 của họ Closteroviridae. Đây là gene bảo tồn trong họ và nhiều nghiên cứu tiến hành xây dựng cây phát sinh loài dựa trên gene này. 2.5.2.2. Chức năng [10] Protein HSP-70 (hình 2.14), trọng lƣợng phân tử 70 kD đƣợc mã hóa từ gene hsp-70 có vai trò quan trọng trong quá trình tồn tại của sinh vật trong môi trƣờng có sự thay đổi đột ngột về nhiệt độ. Ngoài ra, protein HSP-70 còn tham gia vào một số quá trình điều hòa quan trọng khác nhƣ: giúp sự hình thành cấu của protein, giúp di chuyển của virus qua các tế bào ký chủ,…Đây là protein bảo tồn trong họ. Hình 2.14 Protein HSP-70 . Hình 2 .4 Ba cơ sở dữ liệu nucleotide (GenBank – EMB -DDB) và công cụ tìm kiếm tƣơng ứng. Hình 2.5 Sự hợp nhất của ba cơ sở dữ liệu MSD, PDBj, PDB 17 Bảng 2.1. MỘT SỐ CSDL SINH HỌC LỚN VÀ. hành xây dựng CSDL. Mặc dù, trong hai họ virus này có nhiều gene bảo tồn, nhƣng sau khi tìm hiểu thông tin chúng tôi tiến hành xây dựng CSDL về hai gene hsp-70 và RT-RnasH với hai lý do sau: Thứ. bacilliform-like viruses). Badnavirus (loài đặc trƣng: Cammelina yellow mottle virus) . Petuvirus (loài đặc trƣng: Petunia vein clearing-like virus) . Trong đó, Virion của các loài Caulimovirus, Soymovirus,