Kết quả thu nhận trình tự của hai họ Closteroviridae và Caulimoviridae

Một phần của tài liệu Xây dựng cơ sở dữ liệu Gene (Trang 51)

Khi sử dụng các từ khóa và phƣơng pháp nhƣ ở mục 3.2 (phần phƣơng pháp và chƣơng trình sử dụng). Chúng tôi đã thu nhận đƣợc 7 file gồm:

Thu 3 file chứa ACCESSION NUMBER và dòng định nghĩa về loài và gene

hsp-70 tƣơng ứng cho 3 giống trong họ Closteroviridae.

Thu 4 file chứa ACCESSION NUMBER và dòng định nghĩa về loài và gene

Reverse transcriptase-RNaseH tƣơng ứng cho 4 giống trong họ Caulimoviridae.

Ví dụ, một file của giống Crinivirus chứa bảng danh sách các ACCESSION NUMBER và dòng định nghĩa về loài và gene hsp-70 trong giống nhƣ sau:

Sau khi thu đƣợc các file chứa số ACCESSION NUMBER cùng với dòng định nghĩa ngắn ngọn nhƣ trên, chúng tôi tiến hành chạy chƣơng trình perl script (đƣợc viết dựa trên ngôn ngữ lập trình perl để phục vụ cho việc tải mẫu tin chứa ACCESSION NUMBER có trong file) trên mạng Internet để tải thông tin, kết quả chúng tôi thu đƣợc hơn 300 các mẫu tin có số ACCESION NUMBER và dòng định nghĩa chứa trong 7 file trên.

Ví dụ, một mẫu tin có số ACCESSION NUMBER AJ010920 sau khi chạy chƣơng trình perl script thu đƣợc mẫu tin trên NCBI có dạng nhƣ sau:

Hình 4.1 File chứa ACCESSION NUMBER và dòng định nghĩa của giống Crinivirus

1: AJ344213

Tomato infectious chlorosis virus partial HSP70 gene for heat shock protein 70,

genomic RNA, isolate Gr/P1

gi|17976838|emb|AJ344213.1|TIN344213[17976838] 2: AJ010920

Sweet potato chlorotic stunt virus mRNA for heat shock protein 70, isolate S1EA-19a, partial

gi|3560042|emb|AJ010920.1|SPO010920[3560042] 3: AY048854

Tomato chlorosis virus Sicily heat shock protein 70 gene, partial cds gi|15292654|gb|AY048854.1|[15292654]

(…)

4: AJ010921

Sweet potato chlorotic stunt virus mRNA for heat shock protein 70, isolate S2EA-4a, partial

gi|3560044|emb|AJ010921.1|SPO010921[3560044] (…)

20: AY048855

Tomato infectious chlorosis virus Liguria heat shock protein 70 gene, partial cds

LOCUS SPO010920 486 bp mRNA linear VRL 02-MAR-2000 DEFINITION Sweet potato chlorotic stunt virus mRNA for heat shock protein 70, isolate S1EA-19a, partial.

ACCESSION AJ010920

VERSION AJ010920.1 GI:3560042

KEYWORDS heat shock protein 70; hsp70 gene; HSP70 protein. SOURCE Sweet potato chlorotic stunt virus

ORGANISM Sweet potato chlorotic stunt virus

Viruses; ssRNA positive-strand viruses, no DNA stage; Closteroviridae; Crinivirus.

REFERENCE 1

AUTHORS Alicai,T., Fenby,N.S., Gibson,R.W., Adipala,E., Vetten,J.H., Foster,G.D. and Seal,S.

TITLE Occurence of two serotypes of sweet potato chlorotic stunt virus in East Africa and their associated differences in coat protein and HSP70 homologue gene sequences

JOURNAL Plant Pathol. 48, 718-726 (1999) REFERENCE 2 (bases 1 to 486)

AUTHORS Fenby,N.S.

TITLE Direct Submission

JOURNAL Submitted (28-AUG-1998) Fenby N.S., Department of Biology, Bristol University, Woodland Road, Bristol, BS8 1UG, U.K

FEATURES Location/Qualifiers source 1..486

/organism="Sweet potato chlorotic stunt virus" /mol_type="mRNA" /isolate="S1EA-19a" /db_xref="taxon:81931" gene 1..486 /gene="hsp70" CDS <1..>486 /gene="hsp70" /codon_start=2

/product="heat shock protein 70 (HSP70)" /protein_id="CAA09397.1" /db_xref="GI:3560043" /db_xref="GOA:Q9YIR1" /db_xref="UniProt/TrEMBL:Q9YIR1" /translation="SAYVGGTMKVLRINGSEFIPTCLSVTATGDVVVGGAAQVLDSSQ PHCYFYDLKRWVGVDRLSFEEIKRKISPQYTVRLEGNDVLITGISKGFSCTYTVK QLYVDTLVRLFSNVEKLKILSLNVSVPADYKTKQRMFMKSVCESLGFPLRRIINE PSAA" ORIGIN

1 atcggcgtat gttggtggta cgatgaaggt ccttagaata aacgggtcgg agtttattcc 61 cacctgttta tctgtcacgg ctacaggcga cgtggttgtt ggtggggctg cccaggtttt 121 ggattcttcg cagttacccc attgctattt ctatgactta aaacgttggg ttggcgttga 181 taggttgtcc tttgaagaaa taaaacgtaa gatatcccca cagtatacgg tcagattgga 241 aggtaatgat gtgctaataa caggaatctc gaaggggttc tcttgtacat atactgtgaa 301 acagctcatt cttctctatg ttgacacctt ggtcagacta ttctcaaatg ttgaaaagct 361 gaagattctg agtttaaatg tgtcagttcc cgcagattac aaaaccaagc aacggatgtt 421 tatgaaatca gtttgtgagt cgctcggttt tccattgaga aggatcataa acgagccttc 481 tgctgc

//

Khi tiến hành khảo sát thu nhận trình tự bằng các từ khóa và nhƣ phƣơng pháp phần 3.2.1, ở các giống thuộc họ Caulimoviridae chúng tôi chỉ nhận đƣợc 4 giống (Caulimovirus, Soymovirus, BadnavirusPetuvirus) có trình tự gene RT-RNaseH

đƣợc đăng tải trên NCBI. Còn hai giống còn lại (Tungrovirus Cavemovirus) thì không thu nhận đƣợc mẫu tin về gene RT-RnasH của hai giống này đăng tải.

Trong 4 giống (Caulimovirus, Soymovirus, BadnavirusPetuvirus)

Caulimoviridae và 3 giống (Ampelovirus, CrinivirusClosterovirus) ở

Closteroviridae khi sử dụng các từ khóa và phƣơng pháp này, chúng tôi nhận đƣợc hầu hết các loài trong giống có chứa hai gene này. Vì trong quá trình tìm kiếm chúng tôi tiến hành kiểm tra các mẫu tin thu nhận đƣợc bằng cách lấy trình tự gene trên để thức hiện BLAST với tất cả các sinh vật trong CSDL nucleotide của NCBI, kết quả BLAST không hoặc rất ít xuất hiện loài nào thuộc hai họ mà chúng tôi chƣa thu nhận. Tuy nhiên, cũng thông qua BLAST thì chúng tôi nhận thấy các từ khóa đƣợc sử dụng vẫn chƣa hoàn toàn đầy đủ, để có thể nhận đƣợc hoàn toàn gene hsp-70RT-RNaseH

trong hai họ, nên cần có sự kiểm tra lại bằng cách lấy một đoạn gene hsp-70 hay RT- RNaseH rồi thực hiện BLAST trên NCBI.

4.2. Kết quả thu nhận trình tƣ hai gene hsp-70 và RT-RNaseH

Sau khi tải trên Internet chúng tôi thu nhận đƣợc:  125 gene hsp-70 của Closteroviridae đã biết.  215 gene RT-RNaseH của Caulimoviridae

Trong đó:

o Gene RT-RNaseH chỉ có 180 gene đã biết còn 35 gene lại nằm chung với các gene khác trong ORF hay trong genome.

Vì có các gene RT-RNaseH nằm trong ORF hay genome nên chúng tôi tiến hành thu nhận gene này bằng phƣơng pháp đƣợc mô tả nhƣ ở phần 3.2.2. Kết quả chúng tôi thu nhận đƣợc 35 gene RT-RNaseH còn lại.

Ví dụ: mô hình xác định gene RT-RNaseH Caulimoviridae theo sơ đồ sau:

Alignment Thu nhận đƣợc vị trí gene RT- RNaseH trong ORF5, rồi dùng perl script tách ra.

Hình 4.3 Mô hình thu nhận gene RT-RNaseH trong ORF5 của CMV Gene RT-RNaseH

Khi tiến hành khảo sát thu nhận trình tự trên NCBI, chúng tôi nhận đƣợc chiều dài của hai gene có sự giao động lớn, do các phƣơng pháp và mục tiêu giải trình tự khác nhau nên kết quả đăng tải trình tự về hai gene này có sự giao động khoảng từ 409 đến 2200 bp. Nhƣ phƣơng pháp thu nhận trình tự ở phần 3.2.2, chúng tôi chỉ tiến hành sắp gióng cột dựa vào một trình tự gene RT-RNaseH đã biết chiều dài để tách lấy trình tự gene RT-RNaseH nằm cùng với các gene khác hay genome của virus nên chỉ thu đƣợc một đoạn nhất định của gene này. Tuy nhiên, với mụch đích xây dựng CSDL phục vụ cho việc thiết kế primer để phân biệt giữa các loài nên có thể chấp nhận đƣợc. Việc dựa vào sự bảo tồn của gene RT-RNaseH để thực hiện sắp gióng cột nên độ chính xác của phƣơng pháp này không cao. Chỉ rất ít loài trong họ Caulimoviridae gene

Reverse transcriptase đƣợc xác định chính xác, còn lại hầu hết nó nằm chung với gene

RNaseH, nên chúng tôi chƣa có đủ các thông tin để tách riêng chúng ra đƣợc nên trong CSDL chứa cả gene RTRNaseH.

4.3. CSDL trình tự gene hsp-70RT-RNaseH

Nhờ sự phát triển của kỹ thuật giải trình tự, một số lƣợng lớn các gene hsp-70

RT-RNaseH đã đƣợc giải trình tự. Những trình tự gene này đƣợc lƣu trữ trong CSDL sinh học lớn nhƣ NCBI, EMBL, DDBj, … Vì các CSDL này quá lớn và chứa rất nhiều thông tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt. Do vậy, chúng tôi đã tập hợp các trình tự gene hsp-70 (của Closteroviridae) và

RT-RNaseH (của Caulimoviridae). Để xây dựng CSDL riêng cho hai gene này. Đồng thời xác định các loài trong họ có chứa hai gene trên.

Về sinh vật

CSDL lƣu trữ hai họ, 7 giống, 56 loài. Số lƣợng trình tự thu nhận ở bảng 4.1.

Về trình tự

CSDL gene hsp-70RT-RNaseH gồm 325 trình tự (hsp-70RT-RNaseH), kết quả chi tiết ở bảng III.3.2. và III.3.3. CSDL gene này đƣợc phân chia thành hai nhóm trình tự hsp-70 thuộc ClosteroviridaeRT-RNaseH thuộc Caulimoviridae, tƣơng ứng với mỗi gene có thông tin về protein tƣơng ứng.

Bảng 4.1 Tổng số trình tự trong CSDL gene hsp-70RT-RNaseH Họ Số trình tự gene Số trình tự protein Closteroviridae 125 125 Caulimoviridae 200 200 Bảng 4.2 Số trình tự gene hsp-70 Họ Genus Species Số trình tự Closteroviridae Ampelovirus

Grapevine leafroll-associated virus 1 45

Grapevine leafroll-associated virus 3 16

Grapevine leafroll-associated virus 9 2

Closterovirus

Beet yellows virus 3

Apricot stem pitting asso 3

Mint virus 1 4

Citrus tristeza virus 6

Little cherry virus 1 2

Grapevine leafroll-associated virus 2 2

Crinivirus

Sweet potato chlorotic stunt virus 16

Cucurbit yellow stunting disorder

virus 3

Tomato infectious chlorosis virus 9

Potato yellow vein virus 7

Tomato chlorosis virus 4

Beet pseudo-yellows virus 3

Tổng số trinh tự 125

Tƣơng tự, số trình tự về protein của họ Closteroviridae cũng thu nhận đƣợc với số lƣợng tƣơng ứng với gene hsp-70 (mỗi trình tự điều có một trình tự protein tƣơng ứng trong CSDL).

Bảng 4.3 Số trình tự gene RT-RNaseH

Họ Genus Species Số trình tự

Caulimoviridae Badnavirus

Banana streak Obino l'Ewai virus 13

Banana streak Goldfinger virus 10

Banana streak Uganda A virus 11

Banana streak Uganda B virus 2

Banana streak Uganda C virus 1

Banana streak Uganda D virus 2

Banana streak Uganda E virus 3

Banana streak Uganda F virus 2

Banana streak Uganda G virus 2

Banana streak Uganda H virus 2

Banana streak Uganda I virus 26

Banana streak Uganda J virus 4

Banana streak Uganda K virus 4

Banana streak Uganda L virus 20

Banana streak Uganda M virus 32

Banana streak virus 1

Rubus yellow net virus 2

Stilbocarpa mosaic bacilliform

virus 1

Banana streak OL virus 2

Taro bacilliform virus 9

Citrus yellow mosaic virus 2

Bougainvillea spectabilis chlorotic

vein-banding virus 1 Pineapple bacilliform virus 1

Sugarcane bacilliform virus 1

Cacao swollen shoot virus 5

Kalanchoe top-spotting virus 1

Banana streak virus strain

Acuminata Vietnam 1 Banana streak Mys virus 1

Caulimovirus

Cauliflower mosaic virus 8

Blueberry red ringspot virus 2

Dahlia mosaic virus 2

Carnation etched ring virus 2

Horseradish latent virus 1

Peanut chlorotic streak virus 2

Cassava vein mosaic virus 2

Figwort mosaic virus 2

Petuvirus Petunia vein clearing virus 4

Soymovirus

Peanut chlorotic streak virus 2

Soybean chlorotic mottle virus 2

Tổng số trình tự 200

Trong CSDL chứa hai đối tƣợng chính thì còn chứa đối tƣợng phụ nhằm cung cấp các thông tin khác để bổ sung cho hai đối tƣợng chính nhƣ: tên tác giả, tên bài báo, cây phân loài,…

CSDL về hai gene hsp-70RT-RNaseH, rất tiện ích cho việc truy xuất, nghiên cứu các thông tin liên quan đến trình tự DNA, protein, loài, các đặc trƣng của từng loài chứa hai gene này, tiết kiệm thời gian tìm hiểu, nắm bắt thông tin nhanh. CSDL này đƣợc xây dựng trên hai gene khá bảo tồn ở hai loài nên chúng ta có thể dựa vào các thông tin trong CSDL để nghiên cứu các hiện tƣợng biến chủng trong họ, giúp đƣa ra các kết luận chính xác về các biến chủng xảy ra ở trên hai gene này. Nhƣng CSDL nhỏ, chỉ có 325 trình tự gene hsp-70RT-RNaseH ở hai họ virus, chứa lƣợng thông tin ít và chƣa có chế độ bảo mật. Ở cấp độ phòng thí nghiệm, cơ quan nghiên cứu hay trƣờng đại học thì việc xây dựng CSDL cho từng đối tƣợng (về một gene, một sinh vật,…) thì rất tiện ích để phục vụ cho các nghiên cứu về một đối tƣợng nhất định.

46

4.4. Trang web thể hiện thông tin CSDL gene hsp-70RT-RNaseH

Cấu trúc của các trang web CSDL gene hsp-70RT-RNaseH thể hiện ở hình (4.4)

Hsp-70 and RT-RNaseH gene DATABASE WEB PAGE

HOME PAGE SEARCH PAGE TOOL PAGE TAXONOMY PAGE LINK PAGE ABOUT PAGE

ACCESSION NUMBER(s)

ORGANISM ALIGNMENT CAULIMOVIRDAE

CLOSTEROVIRIDAE

BIOTECH. Dep.

BLAST

Hình 4.4 Sơ đồ cấu trúc của trang web CSDL gene hsp-70 và RT-RNaseH

4.4.1. Trang thông tin chung về CSDL gene hsp-70 RT-RNaseH

(HOME PAGE)

Nội dung trang web: cung cấp thông tin về các giống, loài trong họ, trình tự của từng loài, kiểm tra độ tƣơng đồng về trình tự (nucleotide và protein) giữa các loài trong họ thông qua công cụ Alignment.

Hình thức thể hiện: Hình 4.5

4.4.2. Trang tìm kiếm (SEARCH PAGE)

Nội dung của trang web: cho phép ngƣời dùng tìm kiếm trình tự gene hay protein có trong CSDL gene hsp-70RT-RNaseH. Trong trang này gồm có hai thanh công cụ tìm kiếm. Tìm kiếm khi biết ACCESSION NUMBER, hai là khi biết tên của loài trong họ.

Hình thức thể hiện:

Với trang tìm kiếm khi biết ACCESSION NUMBER(s)

o Khi biết ACCESSION NUMBER (số truy cập của CDSL GenBank), ngƣời ta dùng có thể nhập một hoặc nhiều mã số này, để tìm các trình tự nucleotide, protein,… có mã số tƣơng ứng (Hình 4.6).

o Ngƣời dùng có thể tùy chọn các phần sẽ hiện thị trong kết quả tìm kiếm, ví dụ ngƣời dùng có thể tùy chọn các phần cần thông tin cần tìm và kết quả sẽ hiển thị sau khi thực hiện lệnh SEARCH là trình tự protein, gene và cả phần định nghĩa, tác giả, ngày xuất bản, tựa đề của bài báo,… của trình tự gene hsp-70RT-RNaseH (Hình 4.7).

Với trang tìm kiếm khi biết tên của loài.

o Khi biết tên của sinh vật, chúng ta có thể nhập tên của nó vào trong thanh ORGANISM(s). để tìm sinh vật đó trong CSDL (phụ lục).

o Ngƣời dùng có thể tùy chọn các phần sẽ hiển thị trong kết quả tìm kiếm, ví dụ ngƣời dùng có thể tùy chọn phần hiển thị nhƣ là loài, giống, vùng phân bố, đặc tính sinh lý,… của sinh vật đó (phụ lục).

4.4.3. Trang công cụ (TOOL PAGE)

Sắp gióng cột (alignment) hai hay nhiều trình tự là một công cụ khá thông dụng để khảo sát sự tƣơng đồng, đột biến, nghiên cứu chức năng của gene. Mặc khác để tìm trình tự tƣơng đồng với một trình tự quan tâm, các nhà sinh học thƣờng sử dụng

công cụ BLAST. Do nhu cầu đó, chúng tôi đã tích hợp hai công cụ này vào trang web CSDL gene hsp-70RT-RNaseH.

Nội dung trang web: trang này cung cấp hai công cụ chủ yếu để phân tích trình tự sinh học, đó là sắp gióng cột (alignment) và tìm kiếm trình tự tƣơng đồng (BLAST).

Hình thức thể hiện:

 Với công cụ Alignment: ngƣời sử dụng có thể nhập vào một hay nhiều trình tự (có thể là DNA hay protein) thông qua ô nhập văn bản hay một tập tin dƣới định dạng FASTA. Rồi chọn một hay nhiều trình tự trong CSDL gene

hsp-70RT-RNaseH để thực hiện sắp gióng cột (có thể thực hiện Alignment giữa các gene, protein trong CSDL) (Hình 4.8).

 Với công cụ BLAST: ngƣời dùng có thể nhập vào một trình tự (có thể là DNA hay protein). Trình tự này sẽ đƣợc so sánh tƣơng đồng cục bộ với CSDL của trình tự gene hsp-70RT-RNaseH. Các tham số của BLAST: giá trị mong đợi E_value, ma trận sử dụng có thể thay đổi (Hình 4.10).

Hình 4.9 Trang kết quả Alignment giữa các trình tự

4.4.4. Trang cây phân loài (Taxonomy)

Nội dung trang web: trang gồm có hai trang về hai họ Caulimoviridae

Closteroviridae.

Hình thức thể hiện: Hình 4.11

4.4.4.1. Trang Caulimoviridae: cung cấp thông tin chung cho các đặc trƣng cho họ nhƣ thông tin về các giống, loài trong hai họ, đồng thời, kích thƣớc trƣng cho họ nhƣ thông tin về các giống, loài trong hai họ, đồng thời, kích thƣớc genome, hình thể, các đặc tính sinh hóa, dãy kí chủ trong tự nhiên, triệu chứng, vùng phân bố, các loài trong họ,…

Nội dung trang web: đƣợc thể hiện qua các mục điển hình sau:

o Đặc tính Virion: cung cấp các thông tin về hình thể, đặc tính vật lý và hóa lý, acid nucleic, protein, tổ chức genome,…

o Đặc tính sinh học: cung cấp các thông tin về dãy kí chủ tự nhiên, kí chủ trung gian, triệu chứng, vùng phân bố địa lý, phƣơng pháp chuẩn

đoán,…

o Cấu trúc phân loài: chứa các thông tin về các thành viên trong loài.  Hình thức thể hiện: Hình 4.12

4.4.4.2. Trang Closteroviridae: cung cấp các thông tin về họ

Closteroviridae tƣơng tự nhƣ trang caulimoviridae (phụ lục).

4.4.5. Trang liên kết (LINK PAGE)

Trang này thực hiện việc liên kết đến một vài CSDL lớn trên thế giới nhƣ NCBI, EMBL,… (phụ lục).

4.4.6. Trang thông tin về bộ môn công nghệ sinh học (ABOUT PAGE)

Trang này cung cấp các thông tin về cấu trúc tổ chức, các hoạt động giáo dục - đào tạo và nghiên cứu khoa học,… của khoa công nghệ sinh học (phụ lục).

Dùng giao diện web để truy xuất thông tin và chia sẽ nguồn thông đó. Trang

Một phần của tài liệu Xây dựng cơ sở dữ liệu Gene (Trang 51)