Mụch tiêu của khóa luận là xây dựng CSDL phục vụ cho việc phân biệt các loài trong họ hay phân biệt các họ với nhau thông qua phản ứng PCR phát hiện. Nên chúng tôi chỉ quan tâm đến vùng gene bảo tồn để tiến hành xây dựng CSDL. Mặc dù, trong hai họ virus này có nhiều gene bảo tồn, nhƣng sau khi tìm hiểu thông tin chúng tôi tiến hành xây dựng CSDL về hai gene hsp-70 và RT-RnasH với hai lý do sau:
Thứ nhất, gene hsp-70 là gene quan trọng ở Closteroviridae khi tồn tại trong môi trƣờng sốc nhiệt và gene Reverse Transcriptase-RNaseH (RT-RNaseH) ở
Caulimoviridae thuộc nhóm Retrovirus nên gene RT-RNaseH rất quan trọng cho quá trình hoàn thành chu kỳ sống của chúng trong tế bào ký chủ.
Thứ hai, các thông tin về trình tự hai gene này đƣợc nghiên cứu, giải trình tự và đăng tải nhiều trên CSDL nucleotide của NCBI.
2.5.1. Gene Reverse transciptase-RnasH (RT-RNaseH)
2.5.1.1. Vị trí gene RT-RNaseH nằm trong genome [15, 16]
Gene RT-RNaseH đây là tổ hợp của hai gene RT và RNaseH mã hóa cho enzyme reverse transcriptase và ribonuclease H (RNaseH) thuộc ORF5 trong tổ chức genome của Cauliflower mosaic virus. Đây là hai gene có mối quan hệ chặt chẽ trong quá trình thực hiện sao chép từ ssRNA sang dsDNA của quá trình tạo genome hoàn chỉnh của virus. Ngoài ra, trong ORF5 này còn chứa một số gene khác mã hóa cho một số polyprotein khác nhƣ aspartic protease, protein áo,… Còn một số thành viên khác thuộc giống Badnavirus thì gene này nằm trong ORF3. Gene RT-RNaseH bảo tồn trong họ mã hóa cho protein reverse transcriptase-RNaseH, đây là một trong những protein bảo tồn trong họ virus Caulimoviridae.
2.5.1.2. Chức năng của protein [31]
Đối với các loài virus có tổ chức genome là dsDNA trong quá trình sao mã trong tế bào ký chủ, chúng sử dụng enzyme Reverse transcriptase-RNaseH để hoàn thành chu kỳ sao mã của chúng.
Protein Reverse transcriptase-RNaseH có hai chức năng:
DNA polymerase: Trong chu kỳ sống của virus reverse transcriptase chỉ
sao chép RNA. Nó sẽ sao mã cả khuân mẫu RNA và DNA sợi đơn. Trong cả hai trƣờng hợp này nó điều cần những primer RNA hoặc DNA để khởi đầu cho sự tổng hợp của nó.
Hình 2.13 Vị trí gene hsp-70 nằm trong tổ chức genome của Beet yellows virus (BYV)
Hình 2.12 Protein Reverse transcriptase
RNase H: là một ribonuclease, enzyme này có chức năng phân tách RNA
từ những RNA-DNA lai, RNA-DNA lai này đƣợc hình thành trong quá trình sao mã ngƣợc của đoạn khuôn mẫu RNA. RNase H hoạt động có hai tính năng endonuclease và exonuclease trong quá trình phân tách RNA-DNA lai.
2.5.2. Gene hsp-70
2.5.2.1. Vị trí gene hsp-70 nằm trong genome [13, 17]
Gene hsp-70 mã hóa cho enzyme HSP-70 thuộc ORF2 trong tổ chức genome (gồm có 9 ORF nằm trong 2 RNA là RNA1 và RNA2) và gene này thuộc RNA2 của họ Closteroviridae. Đây là gene bảo tồn trong họ và nhiều nghiên cứu tiến hành xây dựng cây phát sinh loài dựa trên gene này.
2.5.2.2. Chức năng [10]
Protein HSP-70 (hình 2.14), trọng lƣợng phân tử 70 kD đƣợc mã hóa từ gene
hsp-70 có vai trò quan trọng trong quá trình tồn tại của sinh vật trong môi trƣờng có sự thay đổi đột ngột về nhiệt độ. Ngoài ra, protein HSP-70 còn tham gia vào một số quá trình điều hòa quan trọng khác nhƣ: giúp sự hình thành cấu của protein, giúp di chuyển của virus qua các tế bào ký chủ,…Đây là protein bảo tồn trong họ.
PHẦN 3
PHƢƠNG PHÁP VÀ CHƢƠNG TRÌNH SỬ DỤNG 3.1. Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng
3.1.1. Hệ điều hành: Windows XP (Microsoft). Xây dựng CSDL trình tự nucleotide, protein ở Caulimoviridae và Closteroviridae trên hệ điều hành này.
3.1.2. Các chƣơng trình phân tích trình tự
3.1.2.1. Chƣơng trình so sánh trình tự ClustalW [26]
ClustalW là một phần mềm (chạy trên nền Dos) dùng để so sánh sự tƣơng đồng của hai hay nhiều trình tự sinh học (pairswise or mutiple alignment). ClustalW mô tả kết quả bằng hệ thống các kí hiệu làm nổi bậc những nét đặc trƣng trong những đoạn tƣơng đồng. ClustalW ngày càng trở nên hữu ích cho các nhà nghiên cứu trong việc tìm kiếm những vùng bảo tồn trên những trình tự DNA hoặc protein. Sự hiểu biết về mutiple alignment giúp ích rất nhiều cho các nhà khoa học trong việc dự đoán cấu trúc bậc hai, bậc ba của protein, đồng thời phát hiện sự tƣơng đồng giữa những đoạn gene (hoặc protein) vừa đƣợc giải trình tự với những gene (hoặc protein) đã tồn tại.
ClustalW tiến hành so sánh tƣơng đồng nhiều trình tự sinh học qua ba giai đoạn: Đầu tiên chƣơng trình sử dụng thuật toán alignment xấp xỉ của Wilbur và Lipman năm 1983 để tính hệ số tƣơng đồng giữa mỗi cặp trình tự.
Những hệ số tƣơng đồng tính đƣợc sẽ đƣợc sử dụng để thành lập cây phả hệ (“Guide tree” hay dendrogram) bằng phƣơng pháp UPGMA (Unwieghted Pair – Group Method) của Sneath và Sokal năm 1973.
Cuối cùng các trình tự đƣợc so sánh với những nhóm trình tự lớn hơn và cứ thế tiếp tục. Ở mỗi giai đoạn so sánh này, ClustalW sẽ sử dụng thuật toán của Myers và Miller (1998) nhằm tối ƣu kết quả.
ClustalW 1.83 đƣợc sử dụng trong khóa luận này, đƣợc tải về từ trang web (http://www.es.embnet.org/Services/ftp/software/ebi/dos/clustalw/)
3.1.2.2. Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST [27] BLAST là một chƣơng trình tìm kiếm và so sánh trình tự tƣơng đồng đƣợc BLAST là một chƣơng trình tìm kiếm và so sánh trình tự tƣơng đồng đƣợc nhiều ngƣời dùng nhất hiện nay. Thuật giải của BLAST xuất phát từ ý tƣởng “liệu trong ngân hàng dữ liệu (bao gồm cả CSDL cục bộ và những CSDL lớn trên thế giới
nhƣ GenBank, EMBL,…) có trình tự nào giống hoặc gần giống với trình tự đang quan tâm”. BLAST thực hiện so sánh trình tự nhập vào (có thể DNA hay protein) với những trình tự trong CSDL. Kết quả của BLAST là những số liệu thống kê chính xác về tỉ lệ tƣơng đồng và nguồn gốc các trình tự.
Chiến lƣợc tìm kiếm trình tự tƣơng đồng trong BLAST đƣợc thực hiện qua ba bƣớc chính:
Đầu tiên BLAST tìm kiếm những đoạn tƣơng đồng HSPs (High Scoring Pair) giữa một trình tự đƣa vào và mỗi trình tự trong CSDL.
Công việc tiếp theo là thực hiện đánh giá ý nghĩa thống kê dựa trên bất cứ sự tƣơng đồng nào đƣợc tìm thấy.
Sau cùng BLAST đƣa ra một báo cáo kết quả giống nhau thỏa mãn ngƣỡng giá trị mà ngƣời dùng mong muốn.
Stand-alone BLAST version 2.28 là phiên bản đƣợc sử dụng trong khóa luận này, có thể dễ dàng tải về từ địa chỉ web của trang CSDL NCBI
(ftp://ftp.ncbi.nih.gov.blast/executables/).
3.1.2.3. Hệ quả trị CSDL quan hệ MySQL[33]
MySQL là một hệ quản trị CSDL quan hệ nguồn mở phổ biến nhất, dƣới sự phát triển, phân phối và bảo vệ bởi MySQL AB (MySQL AB là một công ty thƣơng mại). Phần SQL của MySQL đƣợc viết tắt từ chữ ”Structured Query Language''. SQL là một ngôn ngữ chuẩn đƣợc dùng phổ biến để xây dựng CSDL và đƣợc công nhận bởi cơ quan tiêu chuẩn SQL là ANSI/ISO công nhận (phiên bản chuẩn của SQL ra đời từ năm 1986 và cho đến nay thì có rất nhiều phiên bản đã tồn tại, “SQL:2003” là phiên bản chuẩn ra đời vào giữa năm 2003, phiên bản này có nhiều ƣu điểm so với các phiên bản trƣớc đó).
Xuất xứ của tên MySQL không rõ. Tiền tố My của MySQL chỉ xuất hiện cách đây khoảng 10 năm nay, có lẽ nó đƣợc lấy từ tên con gái của Monty Widenius (ngƣời đặt nền móng cho sự phát triển của MySQL). MySQL đƣợc viết dựa trên ngôn ngữ C và C++, hoạt động trên nhiều hệ điều hành khác nhau. Phiên bản mới nhất của MySQL là MySQL 5.0.
Ƣu điểm.
Dể sử dụng. Mã nguồn mở.
Thích hợp cho việc xây dựng CSDL vừa và nhỏ. Nhƣợc điểm:
Không thích hợp cho việc xây dựng CSDL lớn. Phiên bản MySQL 4.0.15 đƣợc sử dụng trong khóa luận này.
3.1.2.4. Apache web Server [28]
Trên thế giới hiện nay có rất nhiều trình chủ web hỗ trợ CGI và một trong số đó là Apache web Server. Apache web Server là một trình chủ web đƣợc nhiều ngƣời dùng nhất hiện nay trên Internet. Theo số liệu thăm dò của NetCraft, có trên 60% trình chủ web đang đƣợc sử dụng trên Internet hiện nay là sử dụng Apache web Server. Sở dĩ Apache có đƣợc một vị trí đáng nể nhƣ thế là nhờ vào việc nó là một chƣơng trình mã nguồn mở và hoàn toàn miễn phí. Hai ƣu điểm này đã giúp Apache đƣợc yêu thích đối với những công việc vừa và lớn của nhiều công ty trên thế giới. Hơn thế, Apache hoạt động ổn định, an toàn và đáng tin cậy. Chỉ trong thời gian 5 năm qua, Apache đã trở thành một trình chủ web có chức năng tƣơng đƣơng, thậm chí còn vƣợt trội so với nhiều trình chủ web thƣơng mại khác.
Một trong những điểm mạnh của Apache là khả năng nâng cấp trình chủ web thông qua các module. Có 2 loại module trong Apache đó là external module và internal module. Cả hai loại module này điều có thể đƣợc sửa chữa, thay thế hoặc nâng cấp vì chúng có kèm theo mã nguồn mở. Khi một yêu cầu từ trình tự khách đƣợc gởi đến Apache phải trải qua một loạt nhiều giai đoạn sử lý để cuối cùng trả về kết quả cho ngƣời dùng.
Apache có một chế độ bảo mật đáng tin cậy. Quy trình làm việc của Apache cho phép ngƣời dùng thêm mới những module cần thiết vào bất kỳ giai đoạn nào của quá trình xử lý.
Apache 1.3.24 là phiên bản đƣợc sử dụng trong khóa luận này, có thể tải phiên bản này từ địa chỉ (http://httpd.apache.org/download.cgi).
3.1.2.5. Ngôn ngữ lập trình Perl và các gói sử dụng
Trình dịch phiên bản Perl phiên bản 5.6 DBI, DBD::MySQL, CGI.pm
DBI: version 1.37
http://ppm.activestate.com/PPMpackages/zips/6xx-builds-only/ DBD::MySQL version 2.9002
Dùng Perl script tải về lấy tất cả các trình tự có ACCESSION NUMBER của hai gene RT-RNaseHvà hsp-70
Từ khóa
Tách lấy ACCESSION
NUMBER
NCBI
Toàn bộ thông tin về trình tự gene hsp-70
và RT-RNaseH
Hình 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự
http://www.cpan.org/modules/by-module/DBD/ CGI.pm version 2.752
http://stein.cshl.org/WWW/software/CGI/#download Các gói này đƣợc cài đặt thông qua ppm trong Perl.
3.2. Phƣơng pháp
3.2.1 Thu nhận trình tự
Trình tự nucleotide và protein của hai gene hsp-70 (heat sock protein 70) và RT-RNaseH (Reverse transcriptase-RNaseH), dùng để tạo CSDL đƣợc thu nhận từ trang CSDL NCBI. Sơ đồ tóm tắt quá trình thu nhận nhƣ sau:
Các bƣớc thực hiện tuần tự theo sơ đồ sau: Từ khóa sử dụng là:
“Caulimovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]” “Badnavius[ORGANISM]reverse transcriptase-RNaseH[GENE]” “Soymovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]” “Cavemovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]”
Tách lấy tất cả các trình tự
Thực hiện sắp gióng cột từng cặp trình tự gene (trên cùng loài)
tƣơng ứng
Sau đó ta xác định vị trí của gene trong ORF hay genome thông qua
trình tự gene đã biết
Hình 3.2 Sơ đồ xác định gene trong ORF hay genome virus
Lƣu trữ các trình tự trên vào CSDL Trình tự của gene RT-
RNaseH trong ORF hay genome từ NCBI
Trình tự gene RT-RNaseH
đã biết đƣợc thu nhận từ NCBI
Viết chƣơng trình Perl script để tách lấy các gene đã đƣợc xác
định vị trí ở trên
“Tungrovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]” “Petuvirus[ORGANISM]reverse transcripte-RNaseH[GENE]” “Ampelovirus[ORGANISM]hsp-70[GENE]”
“Closterovirus[ORGANISM]hsp-70[GENE]” “Crinivirus [ORGANISM]hsp-70[GENE]”
3.2.2. Xác định gene và protein trong bộ gene virus
Sau khi khảo sát các mẫu tin về trình tự gene hsp-70 và RT-RNaseH trên hai họ virus chúng tôi nhận thấy toàn bộ mẫu tin gene hsp-70 và chỉ có một số mẫu tin của gene RT-RNaseH đƣợc xác định vị trí rõ trong ORF hay genome, nên chúng tôi chỉ cần viết chƣơng trình perl script để tách chúng (thông qua vị trí đã biết). Còn đối với có một số mẫu tin chứa gene RT-RNaseH chƣa biết vị trí chúng tôi tiến hành thu nhận gene này theo sơ đồ sau:
Các bƣớc thực hiện
Bƣớc 1: thu nhận trình tự gene về gene RT-RNaseH đã biết và chƣa biết (các mẫu tin chứa toàn bộ genome hay ORF).
Để xác định đƣợc vị trí của một gene trong các gene khác trong ORF hay genome của virus, phải thông qua các trình gene đã biết thu nhận đƣợc.
Từ đó, thông qua trình tự gene đã biết này ta xác định vị trí của gene RT- RNasH nằm trong genome hay nằm cùng với các gene trong ORF của virus.
Bƣớc 2: tách các trình tự gene trong các file text tải về từ NCBI có chứa gene mong muốn, nằm cùng với các gene khác trong ORF hay genome. Các trình tự sau khi rút trích đƣợc lƣu vào file dƣới dạng FASTA (Hình 3.3), đây là một trong những dạng file mà ClustalW có thể nhận dạng đƣợc.
Bƣớc 3: thực hiện sắp gióng cột trình tự gene đã biết ở trên với trình tự nuleotide trong ORF hay genome của virus, bằng công cụ ClustalW. Thông qua kết quả của sắp gióng cột (Hình 3.4), ta có thể xác định vị trí của gene trong genome của virus, do tính bảo tồn cao nên kết quả của sắp gióng cột có độ tƣơng đồng rất cao.
>AY186615
agccatattt caaagaaaaa tggactcggt attcaaaggg tgtgaaaaat tcctcgctgt ttatattgat gatattctgg tattttctaa caatgaggaa gatcatgcaa aacacctgac tatcatgcta caactgtgta aagaacatgg tcttgttctt tcacccacca agatgaatat tgcagtcaaa gaagttaatt ttctcggagc tactattggc agcagaaaag taaagctcca ggaaaatatt attaagaaga tccttgactt caatgaagaa aatcttcaat caaagaaggg tcttcggtca ttcttgggaa ttctcaacta tgcccgaaat catattccta atctcgggaa aatagctggt cctctttatt ctaagacttc cgtctatggt gatatcaggt tttcagcatc tgattggaag cttattaaag agatcaaggc tattgtggag aagctcccac cgcttgatta tccaccagag caagcataca tcattattga atctgatggc tgtatggat
>NC_007002
tggtgctgaa aagaaaggca aagaacgtct tgtcttcaat tataaaaggc ttaatgacaa tactgaaaag gatcagtatt ccttacctgg gataaacaca atcatagcta gaatcagcca ttcaaaaata tattctaaat ttgacttgaa gagcggtttt catcaagtag ctatggagga ggaatctatc ccatggacgg ccttttgggc tattaacggg ttatacgaat ggctcgtaat gccgtttggt ctgaagaacg cacctgccat atttcaacga aagatggaca actgcttccg aggtacagaa aaatttatag ctgtttacat agatgatatt ctaatctttt cagatagcaa ggaagcccat cgaacccatc tcagacaatt catcaccata tgtgaagaaa atgggctggt actaagccca acgaagatga agataggagt ccaacaagtg gatttcttgg gtgcaaccat tggcgattct aaagtaaggc ttcagcctca catagtcaaa aaagtgctag aaacaaagga agaaagcctg tctgaaacga aggccttaag aagatggtta ggcatactca attatgccag agcatatatt cctgatcttg gaaaaatcct aggtccctta tactcaaaaa cctcaggaaa aggggagcga aaactcaatc accaagacat gaagataatt caccagatca aggaaaaggt aaaaaatctc cctgaattag aggttcctcc accagagtcc atcatactaa ttgaaacaga cggatgtatg gatggttggg gtggcatttg caaatggaag ttaaacaaag gggaaccccg atccgctgaa aagatctgtg cttatgcaag tggacgtttc aaccccatca aaggagctat tgacgctgaa atacaggctg ttatctacag tctagaaaaa tttaagatct actatcttga caaaagggag cttattttaa gaactgacag caaggcaatt gtcaggttct acgaaaaatg (…)
ttcagaacac aaaccctctc gtgtccgatg gatgactcta actgactaca tctcgggatg cggagtcaag gtatattttg aacacatcga tggaaaagat aatacacttg cagacgaact atcacgactt gttcaagcaa ttctcatcaa caaagaagaa tctcctataa tactatctct aatcaaagca acaacggagg tattacaaaa ggaaaatcct atttccagga gtagattagc tctatgcatt tccagagcac tgggtaacaa atatcaagtc aatttcatga cttgggaaca accccagctg aagtgtgcct gtggagaaaa tgccgtactc cttacttcac ataccagccg aaatccagga cggagattct atagatgtgg taccaacact tgtcatgtat ggtactgggc tgatctaatc gaagattata ttgcgcaact tagcaatctt cagaatcttg actcaggaca
(…)
agcagatgat gaaggatggg cctatcaaac agaagatctg atcaacccag aagatctggc caactccgac atagacgacc ctccagaaga ctcaggacta ttccaccgac atgatgacta aggcggacgt ggtggaccca gcaataatta aggaatccaa ttccttactt caccaggttc attattaaag agcctttaca gctcataccc ttattaataa tgttggtgct tgtactattg
(…)
Từ các thông số hiển thị trong bản kết quả của ClustalW ta có thể xác định vị trí của gene thông qua các vị trí đƣợc biết này ta viết chƣơng trình Perl script để tách lấy trình tự gene mong muốn. Sau đó các trình tự này đƣợc đƣa vào CSDL
Khi thu nhận mẫu tin trình tự gene thì chúng đồng thời chứa luôn trình tự protein của gene đó. Nên chúng tôi tiến hành thu nhận trình tự protein với các bƣớc đã đƣợc thực hiện để thu nhận đƣợc một trình tự gene.
(…) NC_007002 GCCGTTTGGTCTGAAGAACGCACCTGCCATATTTCAACGAAAGATGGACAACTGCTTCCG AY186615 ---AGCCATATTTCAAAGAAAAATGGACTCGGTATTCAA ************ **** ****** *** NC_007002 AGGTACAGAAAAATTTATAGCTGTTTACATAGATGATATTCTAATCTTTTCAGATAGCAA AY186615 AGGGTGTGAAAAATTCCTCGCTGTTTATATTGATGATATTCTGGTATTTTCTAACAATGA *** ******** * ******** ** *********** * ***** * * * NC_007002 GGAAGCCCATCGAACCCATCTCAG-ACAATTCATCACCATATGTGAAGAAAATGGGCTGG AY186615 GGAAGATCATGCAAAACACCTGACTATCATGCTACAAC-TGTGTAAAGAACATGGTCTTG ***** *** ** ** ** * * ** * ** * * *** ***** **** ** * NC_007002 TACTAAGCCCAACGAAGATGAAGATAGGAGTCCAACAAGTGGATTTCTTGGGTGCAACCA AY186615 TTCTTTCACCCACCAAGATGAATATTGCAGTCAAAGAAGTTAATTTTCTCGGAGCTACTA * ** ** ** ******** ** * **** ** **** **** * ** ** ** * NC_007002 TTGGCGATTCTAAAGTAAGGCTTCAGCCTCACATAGTCAAAAAAGTGCTAGAAACAAAGG AY186615 TTGGCAGCAGAAAAGTAAAGCTCCAGGAAAATATTATTAAGAAGATCCTTGACTTCAATG ***** ******* *** *** * ** * ** ** * ** ** ** * NC_007002 AAGAAAGCCTGTCTGAAACGAAGGCCTTAAGAAGATGGTTAGGCATACTCAATTATGCCA AY186615 AAGAAAATCTTCAATCAAAGAAGGGTCTTCGGTCATTCTTGGGAATTCTCAACTATGCCC ****** ** ** ***** * * ** ** ** ** ***** ****** NC_007002 GAGCATATATTCCTGATCTTGGAAAAATCCTAGGTCCCTTATACTCAAAAACCTCAGGAA AY186615 GAAATCATATTCCTAATCTCGGGAAAATAGCTGGTCCTCTTTATTCTAAGACTTCCGTCT ** ******** **** ** ***** ***** * ** ** ** ** ** * NC_007002 AAGGGGA-GCGAAAACTCAATCACCAAGACATGAAGATAATTCACCAGATCAAGGAAAAG AY186615 ATGGTGATATCAGGTTTTCAGCATCT-GATTGGAAGCTTATTAAAGAGATCAAGGCTATT * ** ** * * * ** * ** **** * *** * ********* * NC_007002 GTAAAAAATCTCCCTGAATTAGAGGTTCCTCCACCAGAGTCCATCATACTAATTGAAACA AY186615 GTGGAGAAGCTCCCACCGCTTGATTATCCACCAGAGCAAGCATACATCATTATTGAATCT ** * ** ***** * ** *** *** * * *** * ****** * NC_007002 GACGGATGTATGGATGGTTGGGGTGGCATTTGCAAATGGAAGTTAAACAAAGGGGAACCC AY186615 GATGGCTGTATGGAT--- ** ** ********* (…)
Hình 3.4 Kết quả sắp gióng cột cặp trình tự gene RT-RNaseH (đã biết vị trí) với RT- RNaseH trong ORF hay genome của virus
3.2.3. Thiết kế CSDL trình tự gene và protein hsp-70 và RT-RNaseH 3.2.3.1. phân tích dữ liệu 3.2.3.1. phân tích dữ liệu
Các yêu cầu của dữ liệu
Dữ liệu về trình tự nucleotide của gene hsp-70 và RT-RNaseH gồm có hai thực thể chính cần quan tâm: là Trình tự (Sequence) và Sinh vật (Organism). Nhƣ vậy, ta có thể xác định đƣợc sơ đồ đối tƣợng nhƣ sau:
Đối tƣợng sinh vật cung cấp các thông tin về: