Xây dựng cơ sở dữ liệu gen HSP-70 và Reverse transcripte-rnaseH ở một số loài virus thực vật sử dụng công cụ NCBI trực tuyến

MỤC LỤC

DANH SÁCH CÁC CHỮ VIẾT TẮT

NCBI Center for Bioinformatic Information BLAST Basic Local Alignment Search Tool EBI European Bioinformatics Insiture.

LỜI MỞ ĐẦU

Nhƣng định nghĩa trên chƣa hoàn toàn đầy đủ, vì bioinformatics không chỉ đơn thuần là sự kết hợp giữa công nghệ sinh học và công nghệ thông tin, mà là sự kết hợp của nhiều ngành khoa học khác nhau nhƣ toán học, thống kê, khoa học máy tính, sinh học, hóa học, vật lý,… Ngoài ra, sự kết hợp này có sự đan xen tương hỗ với nhau. Những trình tự gene này được lưu trữ trong CSDL sinh học lớn nhƣ NCBI, EMBL, DDBj,… Vì các CSDL này quá lớn và chứa rất nhiều thông tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt.

Hình 1.2 Định nghĩa bioinformatics đƣợc mở rộng
Hình 1.2 Định nghĩa bioinformatics đƣợc mở rộng

DDBJ

Các tổ chức này đều xây dựng công cụ tìm kiếm trong CSDL của họ. Nhƣ vậy để có thể khai thác hiệu quả các CSDL này thì việc đầu tiên cần thực hiện là nắm vững các hoạt động của công cụ tìm kiếm (“search engines”) này. Ngoài ra, cũng có sự kết hợp của các CSDL protein trên thế giới để tạo ra một CSDL thống nhất wwPDB (world wide Protein Database).

NCB I

VIRUS CAULIMOVIRIDAE VÀ CLOSTEROVIRIDAE Giới thiệu chung [1]

  • CLOSTEROVIRIDAE 1. Khái quát [12]

    Nhƣng xác định đúng tác nhân gây ra những thiệt hại này đối với từng loại cây trồng gặp nhiều khó khăn vì bệnh do virus gây ra thường rất khó xác định, do kích thước của chúng quá bé, do biến chuyển của quá trình gây bệnh thường rất phức tạp và chịu ảnh hưởng của nhiều điều kiện khác nhau. Vì tác nhân không biểu hiện ra ngoài không gây ảnh hưởng đến sự sinh trưởng và phát triển của dứa, để phát hiện phân biệt hai tác nhân này ở những cây không và có biểu hiện ra ngoài là rất khó khăn. Sự sao mã genome của virus trong tế bào ký chủ phụ thuộc vào gene reverse transcriptase (gene này không chèn vào DNA của tế bào ký chủ trong quá sao mã và dịch mã).

    Virus tấn công vào tế bào ký chủ thông qua các thụ thể trên màng, khi vào tế bào ký chủ tiến hành cởi bỏ lớp vỏ, phóng thích dsDNA vào tế bào chất của tế bào ký chủ. Sợi dsDNA này tiến hành đi vào nhân của tế bào ký chủ, sau đó nó tiến hành nhân bản trong nhân và sao mã tạo mRNA dưới sự tham gia của các enzyme của nhân và virus (DNA-dependent RNA polymerase). Closteroviridae cũng là họ virus gây hại trên thực vật, có bộ genome là ssRNA và virion có hình dạng sợi tròn mảnh (flexuous rod-shaped virion), có độ dài khoảng 1250-2200 nm chứa một sợi sense dương, kích thước của một RNA sợi đơn khoảng 15,5-19.3 kb (Martelli và cộng sự, 2002).

    Các protein cấu trúc đƣợc hình thành sẽ “gói” các ssRNA ở trên để hình thành các virion trong tế bào chất, sau đó ly giải màng tế bào ký chủ và phóng thích ra ngoài.

    Hình 2.6 Tổ chức genome của virus CaMV (Caulimoflower mosaic virus)
    Hình 2.6 Tổ chức genome của virus CaMV (Caulimoflower mosaic virus)

    Gene Hsp-70 và Reverse transcriptase-RNaseH

    • Gene Reverse transciptase-RnasH (RT-RNaseH)
      • Gene hsp-70

         RNase H: là một ribonuclease, enzyme này có chức năng phân tách RNA từ những RNA-DNA lai, RNA-DNA lai này đƣợc hình thành trong quá trình sao mã ngƣợc của đoạn khuôn mẫu RNA. RNase H hoạt động có hai tính năng endonuclease và exonuclease trong quá trình phân tách RNA-DNA lai. Gene hsp-70 mã hóa cho enzyme HSP-70 thuộc ORF2 trong tổ chức genome (gồm có 9 ORF nằm trong 2 RNA là RNA1 và RNA2) và gene này thuộc RNA2 của họ Closteroviridae.

        Đây là gene bảo tồn trong họ và nhiều nghiên cứu tiến hành xây dựng cây phát sinh loài dựa trên gene này. Protein HSP-70 (hình 2.14), trọng lƣợng phân tử 70 kD đƣợc mã hóa từ gene hsp-70 có vai trò quan trọng trong quá trình tồn tại của sinh vật trong môi trường có sự thay đổi đột ngột về nhiệt độ. Ngoài ra, protein HSP-70 còn tham gia vào một số quá trình điều hòa quan trọng khác nhƣ: giúp sự hình thành cấu của protein, giúp di chuyển của virus qua các tế bào ký chủ,…Đây là protein bảo tồn trong họ.

        Hình 2.13 Vị trí gene hsp-70 nằm trong tổ chức genome của Beet yellows virus (BYV)  Hình 2.12 Protein Reverse transcriptase
        Hình 2.13 Vị trí gene hsp-70 nằm trong tổ chức genome của Beet yellows virus (BYV) Hình 2.12 Protein Reverse transcriptase

        PHƯƠNG PHÁP VÀ CHƯƠNG TRÌNH SỬ DỤNG

        Các chương trình và ngôn ngữ lập trình được sử dụng

        • Các chương trình phân tích trình tự

          Stand-alone BLAST version 2.28 là phiên bản đƣợc sử dụng trong khóa luận này, có thể dễ dàng tải về từ địa chỉ web của trang CSDL NCBI. MySQL là một hệ quản trị CSDL quan hệ nguồn mở phổ biến nhất, dưới sự phát triển, phân phối và bảo vệ bởi MySQL AB (MySQL AB là một công ty thương mại). SQL là một ngôn ngữ chuẩn đƣợc dùng phổ biến để xây dựng CSDL và đƣợc công nhận bởi cơ quan tiêu chuẩn SQL là ANSI/ISO công nhận (phiên bản chuẩn của SQL ra đời từ năm 1986 và cho đến nay thì có rất nhiều phiên bản đã tồn tại, “SQL:2003” là phiên bản chuẩn ra đời vào giữa năm 2003, phiên bản này có nhiều ƣu điểm so với các phiên bản trước đó).

          Tiền tố My của MySQL chỉ xuất hiện cỏch đây khoảng 10 năm nay, có lẽ nó được lấy từ tên con gái của Monty Widenius (người đặt nền móng cho sự phát triển của MySQL). Theo số liệu thăm dò của NetCraft, có trên 60% trình chủ web đang đƣợc sử dụng trên Internet hiện nay là sử dụng Apache web Server. Chỉ trong thời gian 5 năm qua, Apache đã trở thành một trình chủ web có chức năng tương đương, thậm chí còn vượt trội so với nhiều trình chủ web thương mại khác.

          Khi một yêu cầu từ trình tự khách đƣợc gởi đến Apache phải trải qua một loạt nhiều giai đoạn sử lý để cuối cùng trả về kết quả cho người dùng.

          NCBI

          Phương pháp

          • Xác định gene và protein trong bộ gene virus

            Sau khi khảo sát các mẫu tin về trình tự gene hsp-70 và RT-RNaseH trên hai họ virus chúng tôi nhận thấy toàn bộ mẫu tin gene hsp-70 và chỉ có một số mẫu tin của gene RT-RNaseH đƣợc xỏc định vị trớ rừ trong ORF hay genome, nờn chỳng tụi chỉ cần viết chương trình perl script để tách chúng (thông qua vị trí đã biết). Thông qua kết quả của sắp gióng cột (Hình 3.4), ta có thể xác định vị trí của gene trong genome của virus, do tính bảo tồn cao nên kết quả của sắp gióng cột có độ tương đồng rất cao. Từ các thông số hiển thị trong bản kết quả của ClustalW ta có thể xác định vị trí của gene thông qua các vị trí được biết này ta viết chương trình Perl script để tách lấy trình tự gene mong muốn.

            Mối quan hệ của các đối tƣợng này là: một sinh vật có thể có nhiều gene, protein (mỗi trình tự thì chỉ có một số accession number) và một sinh vật có những đặc điểm (sinh lý sinh hóa, vùng phân bố,…) riêng biệt. Các đối tƣợng dựa trên thực thể Sequence đƣợc liệt kê trong bảng 3.2 Mối quan hệ của các đối tƣợng này là một trình tự của đối tƣợng Sequence chỉ có một số accession number, một thông tin chung về trình tự đó. Sau khi có các bảng quan hệ, ta thực hiện thiết kế các bảng này ở mức vật lý, nghĩa là đƣa vào hệ quản trị CSDL quan hệ MySQL bằng các ngôn ngữ truy vấn SQL nhƣ tạo CSDL, tạo bảng,….

            Nhằm mục đích cung cấp giao diện cho người sử dụng truy xuất thông tin, chia sẽ CSDL trực tuyến, CSDL gene và protein hsp-70 và RT-RNaseH đƣợc tích hợp với Web bằng giao thức CGI.

            Hình 3.2 Sơ đồ xác định gene trong ORF hay genome virus Lưu trữ các trình tự trên vào CSDL
            Hình 3.2 Sơ đồ xác định gene trong ORF hay genome virus Lưu trữ các trình tự trên vào CSDL

            Hsp-70 and RT-RNaseH gene DATABASE WEB PAGE

            • Trang cây phân loài (Taxonomy)

               Nội dung trang web: cung cấp thông tin về các giống, loài trong họ, trình tự của từng loài, kiểm tra độ tương đồng về trình tự (nucleotide và protein) giữa các loài trong họ thông qua công cụ Alignment. Rồi chọn một hay nhiều trình tự trong CSDL gene hsp-70 và RT-RNaseH để thực hiện sắp gióng cột (có thể thực hiện Alignment giữa các gene, protein trong CSDL) (Hình 4.8). Trang Caulimoviridae: cung cấp thông tin chung cho các đặc trưng cho họ như thông tin về các giống, loài trong hai họ, đồng thời, kích thước genome, hình thể, các đặc tính sinh hóa, dãy kí chủ trong tự nhiên, triệu chứng, vùng phân bố, các loài trong họ,….

              Trang thông tin về bộ môn công nghệ sinh học (ABOUT PAGE) Trang này cung cấp các thông tin về cấu trúc tổ chức, các hoạt động giáo dục - đào tạo và nghiên cứu khoa học,… của khoa công nghệ sinh học (phụ lục). Web chứa trang công cụ Alignment và BLAST giúp người sử dụng tìm kiếm các trình tự tương đồng thông qua công cụ này chúng ta có thể biết được mức độ tương đồng của về trình tự giữa các loài. Mục đích của trang web chỉ phục vụ cho việc truy xuất thông tin trong nội bộ ở cấp độ phòng thí nghiệm, trường đại học,… nên chúng tôi không xây dựng chế độ bảo mật cho web.

              Tuy nhiên, trang web còn tồn tại một số vấn đề nhƣ số lƣợng trang trên web ít (6 trang chính), các thông tin cung cấp không chƣa đáp ứng thỏa mãn cho các nghiên cứu lớn và các công cụ đƣợc tích hợp vào ít cần đƣợc bổ sung vào thêm.

              Hình 4.5 Trang HOME PAGE
              Hình 4.5 Trang HOME PAGE