Luận văn : XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 và REVERSE TRANSCRIPTE-RNaseH Ở MỘT SỐ LOÀI VIRUS THỰC VẬT part 6 pdf

9 392 0
Luận văn : XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 và REVERSE TRANSCRIPTE-RNaseH Ở MỘT SỐ LOÀI VIRUS THỰC VẬT part 6 pdf

Đang tải... (xem toàn văn)

Thông tin tài liệu

34  Đối tƣợng trình tự (Sequence) Các đối tƣợng dựa trên thực thể Sequence đƣợc liệt kê trong bảng 3.2 Mối quan hệ của các đối tƣợng này là một trình tự của đối tƣợng Sequence chỉ có một số accession number, một thông tin chung về trình tự đó. Nhƣng một trình tự có một hay nhiều tác giả cũng nhƣ một hay nhiều bài báo về trình tự đó. Bảng 3.2 Các đối tƣợng phụ dựa trên đối tƣợng chính Trình tự (Sequence) 3.2.3.2. Thiết kế CSDL dạng bảng Theo các mô tả trong mô hình đối tƣợng, ta chuyển từ mô hình đối tƣợng sang mô hình quan hệ nhƣ sau:  Mỗi đối tƣợng trong mô hình đối tƣợng là một quan hệ trong mô hình quan hệ.  Mỗi thuộc tính trong mô hình đối tƣợng là thuộc tính trên quan hệ tƣơng ứng.  Khóa của đối tƣợng là khóa của quan hệ tƣơng ứng. Tên đối tƣợng Ý nghĩa của đối tƣợng Thuộc tính Ý nghĩa của thuộc tính Gen_seq Chứa trình tự nucleotide Gen_name Chứa tên trình tự nucleotide Gen_seq Chứa trình tự nucleotide Length Chứa chiều dài của gene Pro_seq Chứa trình tự protein Pro_name Chứa tên protein Pro_seq Chứa trình tự protein Accession number Chứa số truy cập của các trình tự trong CSDL Acc_no Là các số truy cập NCBI Các thông tin chung cho trình tự Definition Định nghĩa của trình tự Locus Locus của trình tự Pubday Ngày công bố trình tự Author Các thông tin về tác giả giải trình tự và những bài báo của tác giả về các trình tự đó Author Tác giả của trình tự Paper Bài báo của tác giả về trình tự 35  Tạo các quan hệ nhƣ sau:  1:1 đặt khóa chính của quan hệ thứ nhất thành khóa ngoại của quan hệ thứ hai và ngƣợc lại.  1: n đặt khóa chính của quan hệ ở đầu một thành khóa ngoại của quan hệ ở đầu n. Ta có các bảng quan hệ và sơ đồ chi tiết của các bảng quan hệ (hình 3.7) này nhƣ sau:  organism_table(organism_id, organism_name, morphology, physicochemical, nucleic_acid, protein, symptom_and_host_range, susceptible_host, insusceptible_host, transmission, geographic_distribution, diagnostic_and_method).  char_table (char_id, family, genus, species, RNA_stage, organism_id)  acc_table (acc_id, acc_no, organism_id)  gen_seq (gen_id, gen_name, gen_seq, length, acc_id)  pro_table (pro_id, pro_name, pro_seq, acc_id)  ncbi_table (ncbi_id, definition, pubday, locus, acc_id)  author_table (author_id, author_name, paper, ncbi_id) Sau khi có các bảng quan hệ, ta thực hiện thiết kế các bảng này ở mức vật lý, nghĩa là đƣa vào hệ quản trị CSDL quan hệ MySQL bằng các ngôn ngữ truy vấn SQL nhƣ tạo CSDL, tạo bảng,… 3.2.3.3. Lƣu trữ các thông tin vào CSDL Sau khi CSDL đƣợc thiết kế ở mức vật lý, ta thực hiện việc đƣa các dữ liệu vào CSDL. Công việc này đƣợc thực hiện tự động cùng một lúc tất cả các quan hệ bằng Perl script và thông qua hai gói DBI, DBD::MySQL để kết nối với CSDL. Tuy nhiên, để việc trình bày này đƣợc mạch lạc rõ ràng, chúng tôi chia ra thành từng phần nhƣ sau: o Lƣu trữ các trình tự (chỉ có chứa trình tự gene và protein hsp-70 và RT- RNaseH), thông tin chung, tác giả, bài báo, definition, locus, tên sinh vật,…(các thành phần này đã có trong mẫu tin của NCBI). o Lƣu trữ các đoạn gene và protein RT-RNaseH, mà chúng nằm trong bộ genome hay các gene khác trong ORF (dữ liệu của phần này cần đƣợc xác định qua nhiều bƣớc và đã đƣợc trình bày ở phần 3.2.2) và các thông 36 tin khác (ký chủ, vùng phân bố, triệu chứng,…) đƣợc tham khảo và thu nhận từ các trang web trên Internet [21, 22]. Lƣu trữ các trình tự, thông tin chung, tác giả và bài báo,… Một mẫu tin về trình tự gene hsp-70 hay RT-RNaseH đƣợc trình bày nhƣ hình 4.2 ta có thể rút trích các thông tin để đƣa vào CSDL.  Trong phần LOCUS: ta lấy phần đầu “SPO010920“ cho vào trƣờng locus trong bảng ncbi_table, phần ngày tháng “02-MAR-2000 “ ta cho vào trƣờng pubday cũng trong bảng ncbi_table.  Trong phần DEFINITION: lấy toàn bộ phần này cho vào trƣờng definition trong bảng ncbi_table.  Phần ACCESSION: lấy số truy cập này cho vào trƣờng acc_no của bảng acc_table.  Phần ORGANISM: tách lấy các phần tên loài, họ, giống và RNA_stage.  Phần AUTHOR, TITLE: lần lƣợt cho vào trƣờng author, paper của bảng author_table  Phần gene:lấy độ dài của đoạn gene.  Phần note: lấy tên của gene.  Phần product: lấy tên protein.  Phần translation: cho vào trƣờng pro_seq của bảng pro_table.  Phần ORIGIN: cho vào trƣờng gen_seq của bảng gen_table. Lƣu trữ các thông tin gen, protein, morphylogy,… Tất cả các trình tự gene, protein đƣợc xác định trong mục 3.2.2 đƣợc đƣa tự động vào CSDL gen_seq và pro_seq bằng Perl script. Đồng thời các dữ liệu về morphology, triệu chứng,… cũng đƣợc đƣa vào CSDL tự động bằng Perl script hay bằng các thao tác bằng tay. Gồm có các thông tin sau:  Trình tự gene và protein của virus có số ACCESSION tƣơng ứng.  Độ dài của gene.  Các đặc điểm sinh lý, sinh hóa, hình thể, vùng phân bố,… Do quan hệ của các bảng đƣợc xác định ngay từ đầu, nên việc đƣa dữ liệu vào phải đƣợc thực hiện tuần tự nhƣ sau:  Đầu tiên là đƣa vào bảng organism_table  Rồi lần lƣợt đến acc_table, gen_table, pro_table, char_table.  Cuối cùng vào các bảng ncbi_table, author_table. 37 3.2.4. Tích hợp CSDL gene hsp-70 và RT-RNaseH với trang Web Nhằm mục đích cung cấp giao diện cho ngƣời sử dụng truy xuất thông tin, chia sẽ CSDL trực tuyến, CSDL gene và protein hsp-70 và RT-RNaseH đƣợc tích hợp với Web bằng giao thức CGI. Bên cạnh đó, việc tích hợp với web cũng nhằm cung cấp một vài công cụ phân tích trình tự sinh học để hổ trợ cho việc truy xuất thông tin tốt hơn. Tiến trình ngƣời sử dụng lấy thông tin từ CSDL về hai gene trên đƣợc thực hiện ở hình 3.6, gồm các bƣớc nhƣ sau:  Thông qua giao thức truyền siêu văn bản HTTP, trình chủ web Apache nhận thông tin từ yêu cầu trình duyệt, sau đó sử lý và chuyển đến script CGI.  Từ yêu cầu đƣa vào, sử dụng ngôn ngữ truy vấn SQL và các hàm trong module DBI, DBD::MySQL để lấy kết quả trong CSDL của hai gene trên.  Kết quả đƣợc script CGI chuyển đến trình chủ Apache. Sau đó Apache chuyển thông tin kết quả lên trình duyệt của ngƣời sử dụng. CSDL hai GEN Trình chủ web Apache * Nhận và xử lý yêu cầu * Tƣơng tác CSDL * Trả kết quả PERL DBI, CGI DBD::MySQ L Kết quả Yêu cầu Trình duyệt client Hình 3.6 Tiến trình lấy thông tin từ CSDL hai gene ở hai loài virus 38 gen_table gen_id <pk> gen_name gen_seq length acc_id <fk> acc_table acc_id <pk> acc_no organism_id <fk> organism_table organism_id <pk> organism_name morphology physicochemical nucleic_acid protein symptom_and_host susceptible_host insusceptible_host transmission geographic_distribution diagnostic_and_method ncbi_table ncbi_id <pk> definition pubday locus acc_id <fk> pro_table pro_id <pk> pro_name pro_seq acc_id <fk> author_table author_id <pk> author paper ncbi_id <fk> char_table char_id <pk> family genus species RNA_stage organism_id <fk> 1 Hình 3.7 Sơ đồ chi tiết các bảng quan hệ trong CSDL hai gene và protein hsp-70 và RT-RNaseH ở hai họ virus Caulimoviridae và Closteroviridae pk: primary key fk: foreign key 1 1 1 n 1 1 1 AY 99 55 66 Ci tr us tr is te za vi ru s is ol at e 46 4- 2 p6 , Hs p7 0h , p6 1, CP m, CP , p1 8, p1 3, p2 0, an d p2 3 ge ns , co mp le te cd 1 1 1 1 39 PHẦN 4 KẾT QUẢ VÀ THẢO LUẬN 4.1. Kết quả thu nhận trình tự của hai họ Closteroviridae và Caulimoviridae Khi sử dụng các từ khóa và phƣơng pháp nhƣ ở mục 3.2 (phần phƣơng pháp và chƣơng trình sử dụng). Chúng tôi đã thu nhận đƣợc 7 file gồm: Thu 3 file chứa ACCESSION NUMBER và dòng định nghĩa về loài và gene hsp-70 tƣơng ứng cho 3 giống trong họ Closteroviridae. Thu 4 file chứa ACCESSION NUMBER và dòng định nghĩa về loài và gene Reverse transcriptase-RNaseH tƣơng ứng cho 4 giống trong họ Caulimoviridae. Ví dụ, một file của giống Crinivirus chứa bảng danh sách các ACCESSION NUMBER và dòng định nghĩa về loài và gene hsp-70 trong giống nhƣ sau: Sau khi thu đƣợc các file chứa số ACCESSION NUMBER cùng với dòng định nghĩa ngắn ngọn nhƣ trên, chúng tôi tiến hành chạy chƣơng trình perl script (đƣợc viết dựa trên ngôn ngữ lập trình perl để phục vụ cho việc tải mẫu tin chứa ACCESSION NUMBER có trong file) trên mạng Internet để tải thông tin, kết quả chúng tôi thu đƣợc hơn 300 các mẫu tin có số ACCESION NUMBER và dòng định nghĩa chứa trong 7 file trên. Ví dụ, một mẫu tin có số ACCESSION NUMBER AJ010920 sau khi chạy chƣơng trình perl script thu đƣợc mẫu tin trên NCBI có dạng nhƣ sau: Hình 4.1 File chứa ACCESSION NUMBER và dòng định nghĩa của giống Crinivirus 1: AJ344213 Tomato infectious chlorosis virus partial HSP70 gene for heat shock protein 70, genomic RNA, isolate Gr/P1 gi|17976838|emb|AJ344213.1|TIN344213[17976838] 2: AJ010920 Sweet potato chlorotic stunt virus mRNA for heat shock protein 70, isolate S1EA-19a, partial gi|3560042|emb|AJ010920.1|SPO010920[3560042] 3: AY048854 Tomato chlorosis virus Sicily heat shock protein 70 gene, partial cds gi|15292654|gb|AY048854.1|[15292654] (…) 4: AJ010921 Sweet potato chlorotic stunt virus mRNA for heat shock protein 70, isolate S2EA-4a, partial gi|3560044|emb|AJ010921.1|SPO010921[3560044] (…) 20: AY048855 Tomato infectious chlorosis virus Liguria heat shock protein 70 gene, partial cds gi|15292656|gb|AY048855.1|[15292656] (…) 40 LOCUS SPO010920 486 bp mRNA linear VRL 02-MAR-2000 DEFINITION Sweet potato chlorotic stunt virus mRNA for heat shock protein 70, isolate S1EA-19a, partial. ACCESSION AJ010920 VERSION AJ010920.1 GI:3560042 KEYWORDS heat shock protein 70; hsp70 gene; HSP70 protein. SOURCE Sweet potato chlorotic stunt virus ORGANISM Sweet potato chlorotic stunt virus Viruses; ssRNA positive-strand viruses, no DNA stage; Closteroviridae; Crinivirus. REFERENCE 1 AUTHORS Alicai,T., Fenby,N.S., Gibson,R.W., Adipala,E., Vetten,J.H., Foster,G.D. and Seal,S. TITLE Occurence of two serotypes of sweet potato chlorotic stunt virus in East Africa and their associated differences in coat protein and HSP70 homologue gene sequences JOURNAL Plant Pathol. 48, 718-726 (1999) REFERENCE 2 (bases 1 to 486) AUTHORS Fenby,N.S. TITLE Direct Submission JOURNAL Submitted (28-AUG-1998) Fenby N.S., Department of Biology, Bristol University, Woodland Road, Bristol, BS8 1UG, U.K FEATURES Location/Qualifiers source 1 486 /organism="Sweet potato chlorotic stunt virus" /mol_type="mRNA" /isolate="S1EA-19a" /db_xref="taxon:81931" gene 1 486 /gene="hsp70" CDS <1 >486 /gene="hsp70" /codon_start=2 /product="heat shock protein 70 (HSP70)" /protein_id="CAA09397.1" /db_xref="GI:3560043" /db_xref="GOA:Q9YIR1" /db_xref="UniProt/TrEMBL:Q9YIR1" /translation="SAYVGGTMKVLRINGSEFIPTCLSVTATGDVVVGGAAQVLDSSQ PHCYFYDLKRWVGVDRLSFEEIKRKISPQYTVRLEGNDVLITGISKGFSCTYTVK QLYVDTLVRLFSNVEKLKILSLNVSVPADYKTKQRMFMKSVCESLGFPLRRIINE PSAA" ORIGIN 1 atcggcgtat gttggtggta cgatgaaggt ccttagaata aacgggtcgg agtttattcc 61 cacctgttta tctgtcacgg ctacaggcga cgtggttgtt ggtggggctg cccaggtttt 121 ggattcttcg cagttacccc attgctattt ctatgactta aaacgttggg ttggcgttga 181 taggttgtcc tttgaagaaa taaaacgtaa gatatcccca cagtatacgg tcagattgga 241 aggtaatgat gtgctaataa caggaatctc gaaggggttc tcttgtacat atactgtgaa 301 acagctcatt cttctctatg ttgacacctt ggtcagacta ttctcaaatg ttgaaaagct 361 gaagattctg agtttaaatg tgtcagttcc cgcagattac aaaaccaagc aacggatgtt 421 tatgaaatca gtttgtgagt cgctcggttt tccattgaga aggatcataa acgagccttc 481 tgctgc // Hình 4.2 Mẫu tin về gene hsp-70 của Sweet potato chlorotic stunt virus trên NCBI 41 Khi tiến hành khảo sát thu nhận trình tự bằng các từ khóa và nhƣ phƣơng pháp phần 3.2.1, ở các giống thuộc họ Caulimoviridae chúng tôi chỉ nhận đƣợc 4 giống (Caulimovirus, Soymovirus, Badnavirus và Petuvirus) có trình tự gene RT-RNaseH đƣợc đăng tải trên NCBI. Còn hai giống còn lại (Tungrovirus và Cavemovirus) thì không thu nhận đƣợc mẫu tin về gene RT-RnasH của hai giống này đăng tải. Trong 4 giống (Caulimovirus, Soymovirus, Badnavirus và Petuvirus) ở Caulimoviridae và 3 giống (Ampelovirus, Crinivirus và Closterovirus) ở Closteroviridae khi sử dụng các từ khóa và phƣơng pháp này, chúng tôi nhận đƣợc hầu hết các loài trong giống có chứa hai gene này. Vì trong quá trình tìm kiếm chúng tôi tiến hành kiểm tra các mẫu tin thu nhận đƣợc bằng cách lấy trình tự gene trên để thức hiện BLAST với tất cả các sinh vật trong CSDL nucleotide của NCBI, kết quả BLAST không hoặc rất ít xuất hiện loài nào thuộc hai họ mà chúng tôi chƣa thu nhận. Tuy nhiên, cũng thông qua BLAST thì chúng tôi nhận thấy các từ khóa đƣợc sử dụng vẫn chƣa hoàn toàn đầy đủ, để có thể nhận đƣợc hoàn toàn gene hsp-70 và RT-RNaseH trong hai họ, nên cần có sự kiểm tra lại bằng cách lấy một đoạn gene hsp-70 hay RT- RNaseH rồi thực hiện BLAST trên NCBI. 4.2. Kết quả thu nhận trình tƣ hai gene hsp-70 và RT-RNaseH Sau khi tải trên Internet chúng tôi thu nhận đƣợc:  125 gene hsp-70 của Closteroviridae đã biết.  215 gene RT-RNaseH của Caulimoviridae Trong đó: o Gene RT-RNaseH chỉ có 180 gene đã biết còn 35 gene lại nằm chung với các gene khác trong ORF hay trong genome. Vì có các gene RT-RNaseH nằm trong ORF hay genome nên chúng tôi tiến hành thu nhận gene này bằng phƣơng pháp đƣợc mô tả nhƣ ở phần 3.2.2. Kết quả chúng tôi thu nhận đƣợc 35 gene RT-RNaseH còn lại. Ví dụ: mô hình xác định gene RT-RNaseH ở Caulimoviridae theo sơ đồ sau: Alignment Thu nhận đƣợc vị trí gene RT- RNaseH trong ORF5, rồi dùng perl script tách ra. Hình 4.3 Mô hình thu nhận gene RT-RNaseH trong ORF5 của CMV Gene RT-RNaseH Gene RT-RNaseH nằm trong ORF5 42 Khi tiến hành khảo sát thu nhận trình tự trên NCBI, chúng tôi nhận đƣợc chiều dài của hai gene có sự giao động lớn, do các phƣơng pháp và mục tiêu giải trình tự khác nhau nên kết quả đăng tải trình tự về hai gene này có sự giao động khoảng từ 409 đến 2200 bp. Nhƣ phƣơng pháp thu nhận trình tự ở phần 3.2.2, chúng tôi chỉ tiến hành sắp gióng cột dựa vào một trình tự gene RT-RNaseH đã biết chiều dài để tách lấy trình tự gene RT-RNaseH nằm cùng với các gene khác hay genome của virus nên chỉ thu đƣợc một đoạn nhất định của gene này. Tuy nhiên, với mụch đích xây dựng CSDL phục vụ cho việc thiết kế primer để phân biệt giữa các loài nên có thể chấp nhận đƣợc. Việc dựa vào sự bảo tồn của gene RT-RNaseH để thực hiện sắp gióng cột nên độ chính xác của phƣơng pháp này không cao. Chỉ rất ít loài trong họ Caulimoviridae gene Reverse transcriptase đƣợc xác định chính xác, còn lại hầu hết nó nằm chung với gene RNaseH, nên chúng tôi chƣa có đủ các thông tin để tách riêng chúng ra đƣợc nên trong CSDL chứa cả gene RT và RNaseH. 4.3. CSDL trình tự gene hsp-70 và RT-RNaseH Nhờ sự phát triển của kỹ thuật giải trình tự, một số lƣợng lớn các gene hsp-70 và RT-RNaseH đã đƣợc giải trình tự. Những trình tự gene này đƣợc lƣu trữ trong CSDL sinh học lớn nhƣ NCBI, EMBL, DDBj, … Vì các CSDL này quá lớn và chứa rất nhiều thông tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt. Do vậy, chúng tôi đã tập hợp các trình tự gene hsp-70 (của Closteroviridae) và RT-RNaseH (của Caulimoviridae). Để xây dựng CSDL riêng cho hai gene này. Đồng thời xác định các loài trong họ có chứa hai gene trên. Về sinh vật CSDL lƣu trữ hai họ, 7 giống, 56 loài. Số lƣợng trình tự thu nhận ở bảng 4.1. Về trình tự CSDL gene hsp-70 và RT-RNaseH gồm 325 trình tự (hsp-70 và RT-RNaseH), kết quả chi tiết ở bảng III.3.2. và III.3.3. CSDL gene này đƣợc phân chia thành hai nhóm trình tự hsp-70 thuộc Closteroviridae và RT-RNaseH thuộc Caulimoviridae, tƣơng ứng với mỗi gene có thông tin về protein tƣơng ứng. . quan hệ trong CSDL hai gene và protein hsp-70 và RT-RNaseH ở hai họ virus Caulimoviridae và Closteroviridae pk: primary key fk: foreign key 1 1 1 n 1 1 1 AY 99 55 66 Ci tr us tr is te za. gene RT-RnasH của hai giống này đăng tải. Trong 4 giống (Caulimovirus, Soymovirus, Badnavirus và Petuvirus) ở Caulimoviridae và 3 giống (Ampelovirus, Crinivirus và Closterovirus) ở Closteroviridae. thiết kế ở mức vật lý, ta thực hiện việc đƣa các dữ liệu vào CSDL. Công việc này đƣợc thực hiện tự động cùng một lúc tất cả các quan hệ bằng Perl script và thông qua hai gói DBI, DBD::MySQL để

Ngày đăng: 28/07/2014, 04:21

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan