Luận văn : XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 và REVERSE TRANSCRIPTE-RNaseH Ở MỘT SỐ LOÀI VIRUS THỰC VẬT part 5 docx

9 274 1
Luận văn : XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 và REVERSE TRANSCRIPTE-RNaseH Ở MỘT SỐ LOÀI VIRUS THỰC VẬT part 5 docx

Đang tải... (xem toàn văn)

Thông tin tài liệu

25 PHẦN 3 PHƢƠNG PHÁP VÀ CHƢƠNG TRÌNH SỬ DỤNG 3.1. Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng 3.1.1. Hệ điều hành: Windows XP (Microsoft). Xây dựng CSDL trình tự nucleotide, protein ở Caulimoviridae và Closteroviridae trên hệ điều hành này. 3.1.2. Các chƣơng trình phân tích trình tự 3.1.2.1. Chƣơng trình so sánh trình tự ClustalW [26] ClustalW là một phần mềm (chạy trên nền Dos) dùng để so sánh sự tƣơng đồng của hai hay nhiều trình tự sinh học (pairswise or mutiple alignment). ClustalW mô tả kết quả bằng hệ thống các kí hiệu làm nổi bậc những nét đặc trƣng trong những đoạn tƣơng đồng. ClustalW ngày càng trở nên hữu ích cho các nhà nghiên cứu trong việc tìm kiếm những vùng bảo tồn trên những trình tự DNA hoặc protein. Sự hiểu biết về mutiple alignment giúp ích rất nhiều cho các nhà khoa học trong việc dự đoán cấu trúc bậc hai, bậc ba của protein, đồng thời phát hiện sự tƣơng đồng giữa những đoạn gene (hoặc protein) vừa đƣợc giải trình tự với những gene (hoặc protein) đã tồn tại. ClustalW tiến hành so sánh tƣơng đồng nhiều trình tự sinh học qua ba giai đoạn: Đầu tiên chƣơng trình sử dụng thuật toán alignment xấp xỉ của Wilbur và Lipman năm 1983 để tính hệ số tƣơng đồng giữa mỗi cặp trình tự. Những hệ số tƣơng đồng tính đƣợc sẽ đƣợc sử dụng để thành lập cây phả hệ (“Guide tree” hay dendrogram) bằng phƣơng pháp UPGMA (Unwieghted Pair – Group Method) của Sneath và Sokal năm 1973. Cuối cùng các trình tự đƣợc so sánh với những nhóm trình tự lớn hơn và cứ thế tiếp tục. Ở mỗi giai đoạn so sánh này, ClustalW sẽ sử dụng thuật toán của Myers và Miller (1998) nhằm tối ƣu kết quả. ClustalW 1.83 đƣợc sử dụng trong khóa luận này, đƣợc tải về từ trang web (http://www.es.embnet.org/Services/ftp/software/ebi/dos/clustalw/) 3.1.2.2. Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST [27] BLAST là một chƣơng trình tìm kiếm và so sánh trình tự tƣơng đồng đƣợc nhiều ngƣời dùng nhất hiện nay. Thuật giải của BLAST xuất phát từ ý tƣởng “liệu trong ngân hàng dữ liệu (bao gồm cả CSDL cục bộ và những CSDL lớn trên thế giới 26 nhƣ GenBank, EMBL,…) có trình tự nào giống hoặc gần giống với trình tự đang quan tâm”. BLAST thực hiện so sánh trình tự nhập vào (có thể DNA hay protein) với những trình tự trong CSDL. Kết quả của BLAST là những số liệu thống kê chính xác về tỉ lệ tƣơng đồng và nguồn gốc các trình tự. Chiến lƣợc tìm kiếm trình tự tƣơng đồng trong BLAST đƣợc thực hiện qua ba bƣớc chính: Đầu tiên BLAST tìm kiếm những đoạn tƣơng đồng HSPs (High Scoring Pair) giữa một trình tự đƣa vào và mỗi trình tự trong CSDL. Công việc tiếp theo là thực hiện đánh giá ý nghĩa thống kê dựa trên bất cứ sự tƣơng đồng nào đƣợc tìm thấy. Sau cùng BLAST đƣa ra một báo cáo kết quả giống nhau thỏa mãn ngƣỡng giá trị mà ngƣời dùng mong muốn. Stand-alone BLAST version 2.28 là phiên bản đƣợc sử dụng trong khóa luận này, có thể dễ dàng tải về từ địa chỉ web của trang CSDL NCBI (ftp://ftp.ncbi.nih.gov.blast/executables/). 3.1.2.3. Hệ quả trị CSDL quan hệ MySQL[33] MySQL là một hệ quản trị CSDL quan hệ nguồn mở phổ biến nhất, dƣới sự phát triển, phân phối và bảo vệ bởi MySQL AB (MySQL AB là một công ty thƣơng mại). Phần SQL của MySQL đƣợc viết tắt từ chữ ”Structured Query Language''. SQL là một ngôn ngữ chuẩn đƣợc dùng phổ biến để xây dựng CSDL và đƣợc công nhận bởi cơ quan tiêu chuẩn SQL là ANSI/ISO công nhận (phiên bản chuẩn của SQL ra đời từ năm 1986 và cho đến nay thì có rất nhiều phiên bản đã tồn tại, “SQL:2003” là phiên bản chuẩn ra đời vào giữa năm 2003, phiên bản này có nhiều ƣu điểm so với các phiên bản trƣớc đó). Xuất xứ của tên MySQL không rõ. Tiền tố My của MySQL chỉ xuất hiện cách đây khoảng 10 năm nay, có lẽ nó đƣợc lấy từ tên con gái của Monty Widenius (ngƣời đặt nền móng cho sự phát triển của MySQL). MySQL đƣợc viết dựa trên ngôn ngữ C và C++, hoạt động trên nhiều hệ điều hành khác nhau. Phiên bản mới nhất của MySQL là MySQL 5.0. Ƣu điểm.  Dể sử dụng.  Mã nguồn mở. 27  Thích hợp cho việc xây dựng CSDL vừa và nhỏ. Nhƣợc điểm:  Không thích hợp cho việc xây dựng CSDL lớn. Phiên bản MySQL 4.0.15 đƣợc sử dụng trong khóa luận này. 3.1.2.4. Apache web Server [28] Trên thế giới hiện nay có rất nhiều trình chủ web hỗ trợ CGI và một trong số đó là Apache web Server. Apache web Server là một trình chủ web đƣợc nhiều ngƣời dùng nhất hiện nay trên Internet. Theo số liệu thăm dò của NetCraft, có trên 60% trình chủ web đang đƣợc sử dụng trên Internet hiện nay là sử dụng Apache web Server. Sở dĩ Apache có đƣợc một vị trí đáng nể nhƣ thế là nhờ vào việc nó là một chƣơng trình mã nguồn mở và hoàn toàn miễn phí. Hai ƣu điểm này đã giúp Apache đƣợc yêu thích đối với những công việc vừa và lớn của nhiều công ty trên thế giới. Hơn thế, Apache hoạt động ổn định, an toàn và đáng tin cậy. Chỉ trong thời gian 5 năm qua, Apache đã trở thành một trình chủ web có chức năng tƣơng đƣơng, thậm chí còn vƣợt trội so với nhiều trình chủ web thƣơng mại khác. Một trong những điểm mạnh của Apache là khả năng nâng cấp trình chủ web thông qua các module. Có 2 loại module trong Apache đó là external module và internal module. Cả hai loại module này điều có thể đƣợc sửa chữa, thay thế hoặc nâng cấp vì chúng có kèm theo mã nguồn mở. Khi một yêu cầu từ trình tự khách đƣợc gởi đến Apache phải trải qua một loạt nhiều giai đoạn sử lý để cuối cùng trả về kết quả cho ngƣời dùng. Apache có một chế độ bảo mật đáng tin cậy. Quy trình làm việc của Apache cho phép ngƣời dùng thêm mới những module cần thiết vào bất kỳ giai đoạn nào của quá trình xử lý. Apache 1.3.24 là phiên bản đƣợc sử dụng trong khóa luận này, có thể tải phiên bản này từ địa chỉ (http://httpd.apache.org/download.cgi). 3.1.2.5. Ngôn ngữ lập trình Perl và các gói sử dụng Trình dịch phiên bản Perl phiên bản 5.6 DBI, DBD::MySQL, CGI.pm DBI: version 1.37 http://ppm.activestate.com/PPMpackages/zips/6xx-builds-only/ DBD::MySQL version 2.9002 28 Dùng Perl script tải về lấy tất cả các trình tự có ACCESSION NUMBER của hai gene RT-RNaseH và hsp-70 Từ khóa Tách lấy ACCESSION NUMBER NCBI Toàn bộ thông tin về trình tự gene hsp-70 và RT-RNaseH Hình 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự http://www.cpan.org/modules/by-module/DBD/ CGI.pm version 2.752 http://stein.cshl.org/WWW/software/CGI/#download Các gói này đƣợc cài đặt thông qua ppm trong Perl. 3.2. Phƣơng pháp 3.2.1 Thu nhận trình tự Trình tự nucleotide và protein của hai gene hsp-70 (heat sock protein 70) và RT-RNaseH (Reverse transcriptase-RNaseH), dùng để tạo CSDL đƣợc thu nhận từ trang CSDL NCBI. Sơ đồ tóm tắt quá trình thu nhận nhƣ sau: Các bƣớc thực hiện tuần tự theo sơ đồ sau: Từ khóa sử dụng là: “Caulimovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]” “Badnavius[ORGANISM]reverse transcriptase-RNaseH[GENE]” “Soymovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]” “Cavemovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]” 29 Tách lấy tất cả các trình tự Thực hiện sắp gióng cột từng cặp trình tự gene (trên cùng loài) tƣơng ứng Sau đó ta xác định vị trí của gene trong ORF hay genome thông qua trình tự gene đã biết Hình 3.2 Sơ đồ xác định gene trong ORF hay genome virus Lƣu trữ các trình tự trên vào CSDL Trình tự của gene RT- RNaseH trong ORF hay genome từ NCBI Trình tự gene RT-RNaseH đã biết đƣợc thu nhận từ NCBI Viết chƣơng trình Perl script để tách lấy các gene đã đƣợc xác định vị trí ở trên “Tungrovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]” “Petuvirus[ORGANISM]reverse transcripte-RNaseH[GENE]” “Ampelovirus[ORGANISM]hsp-70[GENE]” “Closterovirus[ORGANISM]hsp-70[GENE]” “Crinivirus [ORGANISM]hsp-70[GENE]” 3.2.2. Xác định gene và protein trong bộ gene virus Sau khi khảo sát các mẫu tin về trình tự gene hsp-70 và RT-RNaseH trên hai họ virus chúng tôi nhận thấy toàn bộ mẫu tin gene hsp-70 và chỉ có một số mẫu tin của gene RT-RNaseH đƣợc xác định vị trí rõ trong ORF hay genome, nên chúng tôi chỉ cần viết chƣơng trình perl script để tách chúng (thông qua vị trí đã biết). Còn đối với có một số mẫu tin chứa gene RT-RNaseH chƣa biết vị trí chúng tôi tiến hành thu nhận gene này theo sơ đồ sau: 30 Các bƣớc thực hiện Bƣớc 1: thu nhận trình tự gene về gene RT-RNaseH đã biết và chƣa biết (các mẫu tin chứa toàn bộ genome hay ORF). Để xác định đƣợc vị trí của một gene trong các gene khác trong ORF hay genome của virus, phải thông qua các trình gene đã biết thu nhận đƣợc. Từ đó, thông qua trình tự gene đã biết này ta xác định vị trí của gene RT- RNasH nằm trong genome hay nằm cùng với các gene trong ORF của virus. Bƣớc 2: tách các trình tự gene trong các file text tải về từ NCBI có chứa gene mong muốn, nằm cùng với các gene khác trong ORF hay genome. Các trình tự sau khi rút trích đƣợc lƣu vào file dƣới dạng FASTA (Hình 3.3), đây là một trong những dạng file mà ClustalW có thể nhận dạng đƣợc. Bƣớc 3: thực hiện sắp gióng cột trình tự gene đã biết ở trên với trình tự nuleotide trong ORF hay genome của virus, bằng công cụ ClustalW. Thông qua kết quả của sắp gióng cột (Hình 3.4), ta có thể xác định vị trí của gene trong genome của virus, do tính bảo tồn cao nên kết quả của sắp gióng cột có độ tƣơng đồng rất cao. >AY186615 agccatattt caaagaaaaa tggactcggt attcaaaggg tgtgaaaaat tcctcgctgt ttatattgat gatattctgg tattttctaa caatgaggaa gatcatgcaa aacacctgac tatcatgcta caactgtgta aagaacatgg tcttgttctt tcacccacca agatgaatat tgcagtcaaa gaagttaatt ttctcggagc tactattggc agcagaaaag taaagctcca ggaaaatatt attaagaaga tccttgactt caatgaagaa aatcttcaat caaagaaggg tcttcggtca ttcttgggaa ttctcaacta tgcccgaaat catattccta atctcgggaa aatagctggt cctctttatt ctaagacttc cgtctatggt gatatcaggt tttcagcatc tgattggaag cttattaaag agatcaaggc tattgtggag aagctcccac cgcttgatta tccaccagag caagcataca tcattattga atctgatggc tgtatggat >NC_007002 tggtgctgaa aagaaaggca aagaacgtct tgtcttcaat tataaaaggc ttaatgacaa tactgaaaag gatcagtatt ccttacctgg gataaacaca atcatagcta gaatcagcca ttcaaaaata tattctaaat ttgacttgaa gagcggtttt catcaagtag ctatggagga ggaatctatc ccatggacgg ccttttgggc tattaacggg ttatacgaat ggctcgtaat gccgtttggt ctgaagaacg cacctgccat atttcaacga aagatggaca actgcttccg aggtacagaa aaatttatag ctgtttacat agatgatatt ctaatctttt cagatagcaa ggaagcccat cgaacccatc tcagacaatt catcaccata tgtgaagaaa atgggctggt actaagccca acgaagatga agataggagt ccaacaagtg gatttcttgg gtgcaaccat tggcgattct aaagtaaggc ttcagcctca catagtcaaa aaagtgctag aaacaaagga agaaagcctg tctgaaacga aggccttaag aagatggtta ggcatactca attatgccag agcatatatt cctgatcttg gaaaaatcct aggtccctta tactcaaaaa cctcaggaaa aggggagcga aaactcaatc accaagacat gaagataatt caccagatca aggaaaaggt aaaaaatctc cctgaattag aggttcctcc accagagtcc atcatactaa ttgaaacaga cggatgtatg gatggttggg gtggcatttg caaatggaag ttaaacaaag gggaaccccg atccgctgaa aagatctgtg cttatgcaag tggacgtttc aaccccatca aaggagctat tgacgctgaa atacaggctg ttatctacag tctagaaaaa tttaagatct actatcttga caaaagggag cttattttaa gaactgacag caaggcaatt gtcaggttct acgaaaaatg (…) ttcagaacac aaaccctctc gtgtccgatg gatgactcta actgactaca tctcgggatg cggagtcaag gtatattttg aacacatcga tggaaaagat aatacacttg cagacgaact atcacgactt gttcaagcaa ttctcatcaa caaagaagaa tctcctataa tactatctct aatcaaagca acaacggagg tattacaaaa ggaaaatcct atttccagga gtagattagc tctatgcatt tccagagcac tgggtaacaa atatcaagtc aatttcatga cttgggaaca accccagctg aagtgtgcct gtggagaaaa tgccgtactc cttacttcac ataccagccg aaatccagga cggagattct atagatgtgg taccaacact tgtcatgtat ggtactgggc tgatctaatc gaagattata ttgcgcaact tagcaatctt cagaatcttg actcaggaca (…) agcagatgat gaaggatggg cctatcaaac agaagatctg atcaacccag aagatctggc caactccgac atagacgacc ctccagaaga ctcaggacta ttccaccgac atgatgacta aggcggacgt ggtggaccca gcaataatta aggaatccaa ttccttactt caccaggttc attattaaag agcctttaca gctcataccc ttattaataa tgttggtgct tgtactattg (…) Hình 3.3 Định dạng FASTA để thực hiện sắp gióng cột hai trình tự 31 Từ các thông số hiển thị trong bản kết quả của ClustalW ta có thể xác định vị trí của gene thông qua các vị trí đƣợc biết này ta viết chƣơng trình Perl script để tách lấy trình tự gene mong muốn. Sau đó các trình tự này đƣợc đƣa vào CSDL Khi thu nhận mẫu tin trình tự gene thì chúng đồng thời chứa luôn trình tự protein của gene đó. Nên chúng tôi tiến hành thu nhận trình tự protein với các bƣớc đã đƣợc thực hiện để thu nhận đƣợc một trình tự gene. (…) NC_007002 GCCGTTTGGTCTGAAGAACGCACCTGCCATATTTCAACGAAAGATGGACAACTGCTTCCG AY186615 AGCCATATTTCAAAGAAAAATGGACTCGGTATTCAA ************ **** ****** *** NC_007002 AGGTACAGAAAAATTTATAGCTGTTTACATAGATGATATTCTAATCTTTTCAGATAGCAA AY186615 AGGGTGTGAAAAATTCCTCGCTGTTTATATTGATGATATTCTGGTATTTTCTAACAATGA *** ******** * ******** ** *********** * ***** * * * NC_007002 GGAAGCCCATCGAACCCATCTCAG-ACAATTCATCACCATATGTGAAGAAAATGGGCTGG AY186615 GGAAGATCATGCAAAACACCTGACTATCATGCTACAAC-TGTGTAAAGAACATGGTCTTG ***** *** ** ** ** * * ** * ** * * *** ***** **** ** * NC_007002 TACTAAGCCCAACGAAGATGAAGATAGGAGTCCAACAAGTGGATTTCTTGGGTGCAACCA AY186615 TTCTTTCACCCACCAAGATGAATATTGCAGTCAAAGAAGTTAATTTTCTCGGAGCTACTA * ** ** ** ******** ** * **** ** **** **** * ** ** ** * NC_007002 TTGGCGATTCTAAAGTAAGGCTTCAGCCTCACATAGTCAAAAAAGTGCTAGAAACAAAGG AY186615 TTGGCAGCAGAAAAGTAAAGCTCCAGGAAAATATTATTAAGAAGATCCTTGACTTCAATG ***** ******* *** *** * ** * ** ** * ** ** ** * NC_007002 AAGAAAGCCTGTCTGAAACGAAGGCCTTAAGAAGATGGTTAGGCATACTCAATTATGCCA AY186615 AAGAAAATCTTCAATCAAAGAAGGGTCTTCGGTCATTCTTGGGAATTCTCAACTATGCCC ****** ** ** ***** * * ** ** ** ** ***** ****** NC_007002 GAGCATATATTCCTGATCTTGGAAAAATCCTAGGTCCCTTATACTCAAAAACCTCAGGAA AY186615 GAAATCATATTCCTAATCTCGGGAAAATAGCTGGTCCTCTTTATTCTAAGACTTCCGTCT ** ******** **** ** ***** ***** * ** ** ** ** ** * NC_007002 AAGGGGA-GCGAAAACTCAATCACCAAGACATGAAGATAATTCACCAGATCAAGGAAAAG AY186615 ATGGTGATATCAGGTTTTCAGCATCT-GATTGGAAGCTTATTAAAGAGATCAAGGCTATT * ** ** * * * ** * ** **** * *** * ********* * NC_007002 GTAAAAAATCTCCCTGAATTAGAGGTTCCTCCACCAGAGTCCATCATACTAATTGAAACA AY186615 GTGGAGAAGCTCCCACCGCTTGATTATCCACCAGAGCAAGCATACATCATTATTGAATCT ** * ** ***** * ** *** *** * * *** * ****** * NC_007002 GACGGATGTATGGATGGTTGGGGTGGCATTTGCAAATGGAAGTTAAACAAAGGGGAACCC AY186615 GATGGCTGTATGGAT ** ** ********* (…) Hình 3.4 Kết quả sắp gióng cột cặp trình tự gene RT-RNaseH (đã biết vị trí) với RT- RNaseH trong ORF hay genome của virus 32 3.2.3. Thiết kế CSDL trình tự gene và protein hsp-70 và RT-RNaseH 3.2.3.1. phân tích dữ liệu Các yêu cầu của dữ liệu Dữ liệu về trình tự nucleotide của gene hsp-70 và RT-RNaseH gồm có hai thực thể chính cần quan tâm: là Trình tự (Sequence) và Sinh vật (Organism). Nhƣ vậy, ta có thể xác định đƣợc sơ đồ đối tƣợng nhƣ sau: Đối tƣợng sinh vật cung cấp các thông tin về:  Tên sinh vật trong hai họ virus là Caulimoviridae và Closteroviridae.  Ký chủ nhạy cảm.  Ký chủ không nhạy cảm  Ký chủ trung gian.  Hình thể.  Đặc tính hóa lý và vật lý.  Vùng phân bố địa lý  Nucleic acid  Protein  Phƣơng pháp chẩn đoán. CSDL tham khảo của sinh vật nhƣ accession number, họ,… Đối tƣợng trình tự cung cấp các thông tin về:  Trình tự các gene hsp-70 và RT-RNaseH.  Trình tự các protein HSP-70 và RT-RNaseH tƣơng ứng với các trình tự nucleotide nói trên.  Tên của các trình tự nucleotide và protein trên.  Chiều dài của gene hsp-70 và RT-RNaseH. CSDL tham khảo của trình tự tác giả, bài báo,… Sinh vật Trình tự có Hình 3.5 Sơ đồ các đối tƣợng của CSDL gene hsp-70 và RT-RNaseH 33 Xác định các đối tƣợng phụ  Đối tƣợng Sinh vật (Organism): Các đối tƣợng phụ dựa trên thực thể Sinh vật đƣợc liệt kê trong bảng 3.1. Mối quan hệ của các đối tƣợng này là: một sinh vật có thể có nhiều gene, protein (mỗi trình tự thì chỉ có một số accession number) và một sinh vật có những đặc điểm (sinh lý sinh hóa, vùng phân bố,…) riêng biệt. Bảng 3.1 Các đối tƣợng phụ dựa trên đối tƣợng chính Sinh vật (Organism) Tên đối tƣợng Ý nghĩa của đối tƣợng Thuộc tính Ý nghĩa của thuộc tính Organism Chứa các đặc điểm về các loài trong họ Organism_name Chứa tên của các loài trong họ Morphology Hình thể của virus Physicochemical_and_ph ysical properties Chứa các đặc tính hóa lý và vật lý Nucleic acid Mô tả về trạng thái DNA và kích thƣớc genome Protein Chứa sự mã hóa của virus cho các protein Symptom_and_host Chứa các triệu chứng virus gây ra cho ký chủ Susceptible_host Ký chủ nhạy cảm Insusceptible_host Ký chủ không nhạy cảm Transmission Ký chủ trung gian Geographic_distribution Chứa vùng phân bố của virus Diagnostic_and_method Phƣơng pháp chuẩn đoán Char Chứa các thông tin về quan hệ họ hàng Family Chứa họ virus genus Giống species Loài RNA_stage Trạng thái RNA Acc Chứa số truy cập trên NCBI Acc_no Các số truy cập . gene và protein hsp-70 và RT-RNaseH 3.2.3.1. phân tích dữ liệu Các yêu cầu của dữ liệu Dữ liệu về trình tự nucleotide của gene hsp-70 và RT-RNaseH gồm có hai thực thể chính cần quan tâm:. ở trên “Tungrovirus[ORGANISM ]reverse transcriptase-RNaseH [GENE] ” “Petuvirus[ORGANISM ]reverse transcripte-RNaseH [GENE] ” “Ampelovirus[ORGANISM ]hsp-70 [GENE] ” “Closterovirus[ORGANISM ]hsp-70 [GENE] ”. “Closterovirus[ORGANISM ]hsp-70 [GENE] ” “Crinivirus [ORGANISM ]hsp-70 [GENE] ” 3.2.2. Xác định gene và protein trong bộ gene virus Sau khi khảo sát các mẫu tin về trình tự gene hsp-70 và RT-RNaseH trên hai họ virus chúng tôi

Ngày đăng: 28/07/2014, 04:21

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan