Xác định gene và protein trong bộ gene virus

Một phần của tài liệu Xây dựng cơ sở dữ liệu Gene (Trang 41 - 44)

Sau khi khảo sát các mẫu tin về trình tự gene hsp-70RT-RNaseH trên hai họ virus chúng tôi nhận thấy toàn bộ mẫu tin gene hsp-70 và chỉ có một số mẫu tin của gene RT-RNaseH đƣợc xác định vị trí rõ trong ORF hay genome, nên chúng tôi chỉ cần viết chƣơng trình perl script để tách chúng (thông qua vị trí đã biết). Còn đối với có một số mẫu tin chứa gene RT-RNaseH chƣa biết vị trí chúng tôi tiến hành thu nhận gene này theo sơ đồ sau:

Các bƣớc thực hiện

Bƣớc 1: thu nhận trình tự gene về gene RT-RNaseH đã biết và chƣa biết (các mẫu tin chứa toàn bộ genome hay ORF).

Để xác định đƣợc vị trí của một gene trong các gene khác trong ORF hay genome của virus, phải thông qua các trình gene đã biết thu nhận đƣợc.

Từ đó, thông qua trình tự gene đã biết này ta xác định vị trí của gene RT- RNasH nằm trong genome hay nằm cùng với các gene trong ORF của virus.

Bƣớc 2: tách các trình tự gene trong các file text tải về từ NCBI có chứa gene mong muốn, nằm cùng với các gene khác trong ORF hay genome. Các trình tự sau khi rút trích đƣợc lƣu vào file dƣới dạng FASTA (Hình 3.3), đây là một trong những dạng file mà ClustalW có thể nhận dạng đƣợc.

Bƣớc 3: thực hiện sắp gióng cột trình tự gene đã biết ở trên với trình tự nuleotide trong ORF hay genome của virus, bằng công cụ ClustalW. Thông qua kết quả của sắp gióng cột (Hình 3.4), ta có thể xác định vị trí của gene trong genome của virus, do tính bảo tồn cao nên kết quả của sắp gióng cột có độ tƣơng đồng rất cao.

>AY186615

agccatattt caaagaaaaa tggactcggt attcaaaggg tgtgaaaaat tcctcgctgt ttatattgat gatattctgg tattttctaa caatgaggaa gatcatgcaa aacacctgac tatcatgcta caactgtgta aagaacatgg tcttgttctt tcacccacca agatgaatat tgcagtcaaa gaagttaatt ttctcggagc tactattggc agcagaaaag taaagctcca ggaaaatatt attaagaaga tccttgactt caatgaagaa aatcttcaat caaagaaggg tcttcggtca ttcttgggaa ttctcaacta tgcccgaaat catattccta atctcgggaa aatagctggt cctctttatt ctaagacttc cgtctatggt gatatcaggt tttcagcatc tgattggaag cttattaaag agatcaaggc tattgtggag aagctcccac cgcttgatta tccaccagag caagcataca tcattattga atctgatggc tgtatggat

>NC_007002

tggtgctgaa aagaaaggca aagaacgtct tgtcttcaat tataaaaggc ttaatgacaa tactgaaaag gatcagtatt ccttacctgg gataaacaca atcatagcta gaatcagcca ttcaaaaata tattctaaat ttgacttgaa gagcggtttt catcaagtag ctatggagga ggaatctatc ccatggacgg ccttttgggc tattaacggg ttatacgaat ggctcgtaat gccgtttggt ctgaagaacg cacctgccat atttcaacga aagatggaca actgcttccg aggtacagaa aaatttatag ctgtttacat agatgatatt ctaatctttt cagatagcaa ggaagcccat cgaacccatc tcagacaatt catcaccata tgtgaagaaa atgggctggt actaagccca acgaagatga agataggagt ccaacaagtg gatttcttgg gtgcaaccat tggcgattct aaagtaaggc ttcagcctca catagtcaaa aaagtgctag aaacaaagga agaaagcctg tctgaaacga aggccttaag aagatggtta ggcatactca attatgccag agcatatatt cctgatcttg gaaaaatcct aggtccctta tactcaaaaa cctcaggaaa aggggagcga aaactcaatc accaagacat gaagataatt caccagatca aggaaaaggt aaaaaatctc cctgaattag aggttcctcc accagagtcc atcatactaa ttgaaacaga cggatgtatg gatggttggg gtggcatttg caaatggaag ttaaacaaag gggaaccccg atccgctgaa aagatctgtg cttatgcaag tggacgtttc aaccccatca aaggagctat tgacgctgaa atacaggctg ttatctacag tctagaaaaa tttaagatct actatcttga caaaagggag cttattttaa gaactgacag caaggcaatt gtcaggttct acgaaaaatg (…)

ttcagaacac aaaccctctc gtgtccgatg gatgactcta actgactaca tctcgggatg cggagtcaag gtatattttg aacacatcga tggaaaagat aatacacttg cagacgaact atcacgactt gttcaagcaa ttctcatcaa caaagaagaa tctcctataa tactatctct aatcaaagca acaacggagg tattacaaaa ggaaaatcct atttccagga gtagattagc tctatgcatt tccagagcac tgggtaacaa atatcaagtc aatttcatga cttgggaaca accccagctg aagtgtgcct gtggagaaaa tgccgtactc cttacttcac ataccagccg aaatccagga cggagattct atagatgtgg taccaacact tgtcatgtat ggtactgggc tgatctaatc gaagattata ttgcgcaact tagcaatctt cagaatcttg actcaggaca

(…)

agcagatgat gaaggatggg cctatcaaac agaagatctg atcaacccag aagatctggc caactccgac atagacgacc ctccagaaga ctcaggacta ttccaccgac atgatgacta aggcggacgt ggtggaccca gcaataatta aggaatccaa ttccttactt caccaggttc attattaaag agcctttaca gctcataccc ttattaataa tgttggtgct tgtactattg

(…)

Từ các thông số hiển thị trong bản kết quả của ClustalW ta có thể xác định vị trí của gene thông qua các vị trí đƣợc biết này ta viết chƣơng trình Perl script để tách lấy trình tự gene mong muốn. Sau đó các trình tự này đƣợc đƣa vào CSDL

Khi thu nhận mẫu tin trình tự gene thì chúng đồng thời chứa luôn trình tự protein của gene đó. Nên chúng tôi tiến hành thu nhận trình tự protein với các bƣớc đã đƣợc thực hiện để thu nhận đƣợc một trình tự gene.

(…) NC_007002 GCCGTTTGGTCTGAAGAACGCACCTGCCATATTTCAACGAAAGATGGACAACTGCTTCCG AY186615 ---AGCCATATTTCAAAGAAAAATGGACTCGGTATTCAA ************ **** ****** *** NC_007002 AGGTACAGAAAAATTTATAGCTGTTTACATAGATGATATTCTAATCTTTTCAGATAGCAA AY186615 AGGGTGTGAAAAATTCCTCGCTGTTTATATTGATGATATTCTGGTATTTTCTAACAATGA *** ******** * ******** ** *********** * ***** * * * NC_007002 GGAAGCCCATCGAACCCATCTCAG-ACAATTCATCACCATATGTGAAGAAAATGGGCTGG AY186615 GGAAGATCATGCAAAACACCTGACTATCATGCTACAAC-TGTGTAAAGAACATGGTCTTG ***** *** ** ** ** * * ** * ** * * *** ***** **** ** * NC_007002 TACTAAGCCCAACGAAGATGAAGATAGGAGTCCAACAAGTGGATTTCTTGGGTGCAACCA AY186615 TTCTTTCACCCACCAAGATGAATATTGCAGTCAAAGAAGTTAATTTTCTCGGAGCTACTA * ** ** ** ******** ** * **** ** **** **** * ** ** ** * NC_007002 TTGGCGATTCTAAAGTAAGGCTTCAGCCTCACATAGTCAAAAAAGTGCTAGAAACAAAGG AY186615 TTGGCAGCAGAAAAGTAAAGCTCCAGGAAAATATTATTAAGAAGATCCTTGACTTCAATG ***** ******* *** *** * ** * ** ** * ** ** ** * NC_007002 AAGAAAGCCTGTCTGAAACGAAGGCCTTAAGAAGATGGTTAGGCATACTCAATTATGCCA AY186615 AAGAAAATCTTCAATCAAAGAAGGGTCTTCGGTCATTCTTGGGAATTCTCAACTATGCCC ****** ** ** ***** * * ** ** ** ** ***** ****** NC_007002 GAGCATATATTCCTGATCTTGGAAAAATCCTAGGTCCCTTATACTCAAAAACCTCAGGAA AY186615 GAAATCATATTCCTAATCTCGGGAAAATAGCTGGTCCTCTTTATTCTAAGACTTCCGTCT ** ******** **** ** ***** ***** * ** ** ** ** ** * NC_007002 AAGGGGA-GCGAAAACTCAATCACCAAGACATGAAGATAATTCACCAGATCAAGGAAAAG AY186615 ATGGTGATATCAGGTTTTCAGCATCT-GATTGGAAGCTTATTAAAGAGATCAAGGCTATT * ** ** * * * ** * ** **** * *** * ********* * NC_007002 GTAAAAAATCTCCCTGAATTAGAGGTTCCTCCACCAGAGTCCATCATACTAATTGAAACA AY186615 GTGGAGAAGCTCCCACCGCTTGATTATCCACCAGAGCAAGCATACATCATTATTGAATCT ** * ** ***** * ** *** *** * * *** * ****** * NC_007002 GACGGATGTATGGATGGTTGGGGTGGCATTTGCAAATGGAAGTTAAACAAAGGGGAACCC AY186615 GATGGCTGTATGGAT--- ** ** ********* (…)

Hình 3.4 Kết quả sắp gióng cột cặp trình tự gene RT-RNaseH (đã biết vị trí) với RT- RNaseH trong ORF hay genome của virus

Một phần của tài liệu Xây dựng cơ sở dữ liệu Gene (Trang 41 - 44)