Microsoft Windows XP Server Pack 2. Xây dựng CSDL trình tự SSRs của cây dứa Ananas comosus trên hệ điều hành này.
3.1.2. Các chƣơng trình phân tích trình tự
3.1.2.1. Chƣơng trình so sánh trình tự ClustalW
ClustalW là một phần mềm (chạy trên nền Dos) dùng để so sánh sự tương đồng của hai hay nhiều trình tự sinh học (pairswise or mutiple alignment). ClustalW mô tả kết quả bằng hệ thống các kí hiệu làm nổi bậc những nét đặc trưng trong những đoạn tương đồng. ClustalW ngày càng trở nên hữu ích cho các nhà nghiên cứu trong việc tìm kiếm những vùng bảo tồn trên những trình tự DNA hoặc protein. Sự hiểu biết về mutiple alignment giúp ích rất nhiều cho các nhà khoa học trong việc dự đoán cấu trúc bậc hai, bậc ba của protein, đồng thời phát hiện sự tương đồng giữa những đoạn gene (hoặc protein) vừa được giải trình tự với những gene (hoặc protein) đã tồn tại.
ClustalW tiến hành so sánh tương đồng nhiều trình tự sinh học qua ba giai đoạn:
Đầu tiên chương trình sử dụng thuật toán alignment xấp xỉ của Wilbur và Lipman năm 1983 để tính hệ số tương đồng giữa mỗi cặp trình tự.
Những hệ số tương đồng tính được sẽ được sử dụng để thành lập cây phả hệ (“Guide tree” hay dendrogram) bằng phương pháp UPGMA (Unwieghted Pair – Group Method) của Sneath và Sokal năm 1973.
Cuối cùng các trình tự được so sánh với những nhóm trình tự lớn hơn và cứ thế tiếp tục. Ở mỗi giai đoạn so sánh này, ClustalW sẽ sử dụng thuật toán của Myers và Miller (1998) nhằm tối ưu kết quả. ClustalW được tải về từ trang web:
(http://www.es.embnet.org/Services/ftp/software/ebi/dos/clustalw/)
3.1.2.2. Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST
BLAST là một chương trình tìm kiếm và so sánh trình tự tương đồng được nhiều người dùng nhất hiện nay. Thuật giải của BLAST xuất phát từ ý tưởng “liệu trong ngân hàng dữ liệu (bao gồm cả CSDL cục bộ và những CSDL lớn trên thế giới như GenBank, EMBL,…) có trình tự nào giống hoặc gần giống với trình tự đang quan tâm”. BLAST thực hiện so sánh trình tự nhập vào (có thể DNA hay protein) với những trình tự trong CSDL. Kết quả của BLAST là những số liệu thống kê chính xác về tỉ lệ tương đồng và nguồn gốc các trình tự.
Chiến lược tìm kiếm trình tự tương đồng trong BLAST được thực hiện qua ba bước chính:
Đầu tiên BLAST tìm kiếm những đoạn tương đồng HSPs (High Scoring Pair) giữa một trình tự đưa vào và mỗi trình tự trong CSDL.
Công việc tiếp theo là thực hiện đánh giá ý nghĩa thống kê dựa trên bất cứ sự tương đồng nào được tìm thấy.
Sau cùng BLAST đưa ra một báo cáo kết quả giống nhau thỏa mãn ngưỡng giá trị mà người dùng mong muốn.
Stand-alone BLAST sử dụng trong khóa luận này có thể tải về từ địa chỉ của trang CSDL NCBI:
(ftp://ftp.ncbi.nih.gov.blast/executables/).
3.1.2.3. Hệ quả trị CSDL quan hệ MySQL
MySQL là một hệ quản trị CSDL quan hệ nguồn mở phổ biến nhất, dưới sự phát triển, phân phối và bảo vệ bởi MySQL AB (MySQL AB là một công ty thương mại). Phần SQL của MySQL được viết tắt từ chữ “Structured Query Language”. SQL là một ngôn ngữ chuẩn được dùng phổ biến để xây dựng CSDL và được công nhận bởi cơ quan tiêu chuẩn SQL là
đến nay thì có rất nhiều phiên bản đã tồn tại, “SQL:2003” là phiên bản chuẩn ra đời vào giữa năm 2003, phiên bản này có nhiều ưu điểm so với các phiên bản trước đó).
Ưu điểm.
Dể sử dụng. Mã nguồn mở.
Thích hợp cho việc xây dựng CSDL vừa và nhỏ. Nhược điểm:
Không thích hợp cho việc xây dựng CSDL lớn.
3.1.2.4. Apache web Server
Trên thế giới hiện nay có rất nhiều trình chủ web hỗ trợ CGI và một trong số đó là Apache web Server. Apache web Server là một trình chủ web được nhiều người dùng nhất hiện nay trên Internet. Apache có được một vị trí đáng nể như thế là nhờ vào việc nó là một chương trình mã nguồn mở và hoàn toàn miễn phí. Hai ưu điểm này đã giúp Apache được yêu thích đối với những công việc vừa và lớn của nhiều công ty trên thế giới.
Một trong những điểm mạnh của Apache là khả năng nâng cấp trình chủ web thông qua các module. Có 2 loại module trong Apache đó là external module và internal module. Cả hai loại module này điều có thể được sửa chữa, thay thế hoặc nâng cấp vì chúng có kèm theo mã nguồn mở. Khi một yêu cầu từ trình tự khách được gởi đến Apache phải trải qua một loạt nhiều giai đoạn sử lý để cuối cùng trả về kết quả cho người dùng.
Apache có một chế độ bảo mật đáng tin cậy. Quy trình làm việc của Apache cho phép người dùng thêm mới những module cần thiết vào bất kỳ giai đoạn nào của quá trình xử lý.
Apache có thể được tải về từ địa chỉ : (http://http.apache.org/download.cgi).
PHƢƠNG PHÁP
3.2. Thu nhận trình tự SSRs [22]
Công cụ được tìm kiếm trình tự SSR được tham khảo và tải về từ địa chỉ http://www.maizemap.org/bioinformatics/SSRFINDER/SSR_Finder_Download của tác giả Steven Schroeder viết với mục đích là: tìm kiếm, tách các trình tự SSR và những vùng kế bên trong một trình tự chính để phục vụ cho những nghiên cứu về sau.
Hình 3. 1. Sơ đồ tóm tắt quá trình thu nhận trình tự SSR của Steven Schroeder
Nội dung được nhập vào Nội dung được xuất ra Các bước thực hiện của tác giả:
Bước 1: Tìm kiếm SSRs trong trình tự chính sau đó phân biệt đoạn SSR và các vùng phụ cận.
Bước 2: Thiết kế mồi khuếch đại vùng có chứa trình tự SSR.
labdbouttxt new_ids.txt ssrout.txt 1_ssr_repeat_finder 3_ssr_primer_rep_check 2_ssr_primer_designer 4_ssr_primer_blast 5_ssr_order_filter 6_ssr_order_formatter Sequence.txt primer_results.txt filter.txt fullblastoutput.txt blastout.txt rescreened.txt order.txt AllPrimer.nt
Bước 3: Thực hiện chọn lọc lại, loại bỏ những mồi có độ phức tạp thấp và các đoạn mồi có chứa trình tự lặp lại nhiều lần.
Bước 4: BLAST những đoạn SSR đã được thiết kế mồi với CSDL chính. Tập tin chứa CSDL là “AllPrimer.nt”.
Bước 5: Chọn lọc lại những trình tự SSR mà chỉ có một mồi duy nhất. Bước 6: Sắp xếp lại các primer được tạo ra.
Hình 3. 2. Kết quả thiết kế mồi cuối cùng của Steven Schroeder
Trong đề tài này chúng tôi chỉ thiết kế CSDL của cây dứa Ananas comosus, các bước còn lại sẽ được tích hợp vào trang web, tùy vào mục đích của người dùng để có thể sử dụng hợp lý nhất.
3.2.1. Thu thập và chọn lọc dữ liệu [25]
Quá trình thu nhận trình tự nucleotide được tóm tắt thành sơ đồ sau
Hình 3. 3. Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI
Từ khóa sử dụng là: Ananas comosus
Định dạng FASTA: là định dạng theo quy định của NCBI, FASTA là một giải thuật bắt cặp trình tự được David J. Lipman và William R. Pearson miêu tả lần đầu tiên vào năm 1985 (Rapid and sensitive protein similarity searches), nó có một hàng chú thích bắt đầu bằng ký tự “>” ở cột đầu tiên. Ví dụ một định dạng FASTA:
>gi|77390573|gb|DV190744.1|DV190744 JBC034F11 Pineapple week TTCTTTCGTGGAACTGTTTGTTTGCATGGTGGTAGTGGTTGGTGGAAATATGAAGTTTGTT ACGGAAAAACGGTAATGCAATACCACTCTGAACTGAGCAAAAAGCGCGAAAATATTTTGTT GGGAGTTTTTGATAAGGCTGTACATATGGCATGGACCATAGAGCATCCAGAGAAGGTTATT GAGCGCAACGAAGATGGAAGAGTTATGAGTGCAACAAATCTTTACACACAAGGCGATATCT GTAAGGAGAATGGTGCTCACAGGTCTTGTGAAGTGCGGATTCGCTGTAGAGATGATATTGT TTCTCAGAAG
Truy cập trang web NCBI
Nhập từ khóa
Chọn lọc theo giống Chọn cơ sở dữ liệu EST
Chọn dạng FASTA
Thu nhận tất cả trình tự nucleotide theo từng giống
Chọn dạng Summary
Thu nhận các thông tin liên quan
Trong đó:
gi là mã số do NCBI quy định.
gb là mã số của cơ sở dữ liệu gen (Genbank) của từng loài. Hiện nay trên cơ sở dữ liệu của trang NCBI chỉ mới có một giống là Smooth Cayenne (4102 trình tự, từ khóa của giống là “txid4615[orgn] AND strain Smooth Cayenne[tw]”) của Ananas comosus.
3.2.2. Thu nhận trình tự SSR [22]
Các bước thực hiện:
Hình 3. 4. Sơ đồ tóm tắt quá trình thu nhận trình tự microsatellite
Trình tự nucleotide thu nhận từ NCBI về được lưu thành tập tin với tên là “sequence31052006.txt”.
Trình tự chính được tải về từ NCBI
Lưu lại với tên “sequence31052006.txt”
ssrout31052006.txt labdbout31052006.txt new_ids31052006.txt Chạy tập tin “SSRRepeatFinder.pl”
Chép vào cùng địa chỉ “31052006”
Hình 3. 5. Nội dung tập tin “sequence31052006.txt” để thu nhận SSR
Thực thi đoạn mã Perl “SSRRepeatFinder.pl”, khi đó chương trình sẽ tạo ra 3 tập tin khác với tên lần lượt là “ssrout31052006.txt”, “labdbout31052006.txt”, “new_ids31052006.txt”.
Hình 3. 6. Nội dung tập tin “ssrout31052006.txt”
DT339790.1a CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCT CTCTCTCT ATGAAAAAAAGAAAAAGAAAAAGAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATC GAACAACGTCTCCCCCAAAAATCTCTCCTTTACC[CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTC T]CTCCCCCAATAAGACACCCTTCGTCCCCAAATCTAAACCTAGAGCTAGAGAGAGAGAGAGAGAG AGAGAGAGAGAGAGGAGGGAGAGATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGC AGAGCGAGACGGCGTTGTCG DT339790.1b AGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG AGAGAGAG GAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATCGAACAACGTCTCCCCCAAAAAT CTCTCCTTTACCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCCCCCAATAAGACACCCTTC GTCCCCAAATCTAAACCTAGAGCT[AGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG]GAGGGAGA GATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGCAGAGCGAGACGGCGTTGTCGGC GCTGTTGTCGCTATTGCCCCACCATTCCGCCGATCTCCTCTCCCAAGTCGACCAACCCCTCCAGGT TTGTATGGAT
>gi|73689682|gb|DT339790.1|DT339790 JBW102H10.b_066.abi Pineapple root tip cDNA library Ananas comosus cDNA clone JBW102H10 similar to actin capping protein beta-2 -related, mRNA sequence
ATGAAAAAAAGAAAAAGAAAAAGAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATCGAACAA CGTCTCCCCCAAAAATCTCTCCTTTACCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCCCC CAATAAGACACCCTTCGTCCCCAAATCTAAACCTAGAGCTAGAGAGAGAGAGAGAGAGAGAGAGAG AGAGAGGAGGGAGAGATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGCAGAGCGAG ACGGCGTTGTCGGCGCTGTTGTCGCTATTGCCCCACCATTCCGCCGATCTCCTCTCCCAAGTCGAC CAACCCCTCCAGGTTTGTATGGATGAGGAGTCGATGAAGGAGTTCATACTTTGTGAATACAATAGG GATGCTGATTCCTATAGATCGCCATGGACGAACAAATATTACCCGCCTTTAGAGGATGGGCCACTC CCTTCTATTGAGTTGAGGAAACTCGAAGTTGAAGCAAATGAAGTTTTTGCTGTTTATCTTGACCAG TATTATGAAGGAGGTGTCTCGTCGGTGTACTTGTGGGAAGATGTTAACCAGGGCTTTGTGGCATGC TTCTTAATAAAGAAAGATGGGTCGAAGACGGGGGCATGGCAGAAGAGGATACTTGCAAGAGGGTTC GTGGGATGCTATTCATGTAATTGAGGTTGGACCAGAGGAAGAAGGAACAGCTCGTTACTGCTTAAC CAGTACCATCATGCTATCATTGACAACGGAAAACAAGCCATCGGGAACTTTTAATCTCTCGGGATC GATCAGGAGACAGATGAATCTTAATCTTTCAGTGGCAGAGGGTCATCTGTGTA
>gi|73689681|gb|DT339789.1|DT339789 JBW102H08.b_050.abi Pineapple root tip cDNA library Ananas comosus cDNA clone JBW102H08 similar to thioredoxin -like protein, mRNA sequence
ATCAGGGAGAGAGGAAGGGTTTGGAAGGGACGAGGGAGCTCTCCCTCCCCGCAAATCGCCATTGCC ACATCCGCAGCGCCTCTAGCGATCAACAACTCAAGGAGATCCTCGACGAGGTCAAAACATCCAAAA CCCCCGTGGTTATCAACTATGGCGCCTCATGGTGCCGTGTTTGTAGCCAGATCCTTCCTTCCTTCT GCGAGCTGAGCAATAAATTCAAAAAGCTTTCTTTCGTCTATGCGGACATTGACGAATGCCCTGAAA CAACTCAGCATATACGATACACCCCGACTTTCCAATTCTTTCGGGATGGAGAAAAGGTCGATGAGA TGTTTGGCGGCGGGGAGCAGAGGCTGCACGATCGCTTATGGTTGCATTCGTAGTAAAAACTCGACT GTCATTATATATAAGGAAATTCCTCTCATGCATCTGATGCGCAACCATCTTATAGGTCTCCCAATG AAATTTTGTTTGGGTTTTCATTACTTGGGTAAATGGCACATCAGTTGGTAATTGCTTGTTTGCACC CAAGGTTGGTATTGCTGCAGATTACTAACTGAGGGTATCTTTCTTGCGTTTTCCATATGGATTGGC ATACCATCATGTAGCAAATTGAGAAGCTATTTTCTTG
Trong tập tin này nó sẽ gồm các nội dung theo thứ tự là:
Mã của đoạn SSR (SSR Version) (DT339790.1a) dựa vào mã số genbank (DT339790.1) để tạo ra mã quy định cho mỗi đoạn SSR, khi một trình tự có 2 hay nhiều đoạn SSR thì nó sẽ quy định là “a”, “b”, “c”,… (DT339790.1a và DT339790.1b)
Trình tự đoạn SSR:
CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCT
Đoạn SSR (Motif):
CTCTCTCT
Đoạn SSR trong trình tự chính được rút gọn, nó được phân biệt trong dấu “[]” ATGAAAAAAAGAAAAAGAAAAAGAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATCGA ACAACGTCTCCCCCAAAAATCTCTCCTTTACC[CTCTCTCTCTCTCTCTCTCTCTCTCTCTC TCT]CTCCCCCAATAAGACACCCTTCGTCCCCAAATCTAAACCTAGAGCTAGAGAGAGAGAG AGAGAGAGAGAGAGAGAGAGGAGGGAGAGATGGATGCGGCGATGGATCTGATGCGGCGAATC TCGCCGAAGCAGAGCGAGACGGCGTTGTCG
Hình 3. 7. Nội dung tập tin “labdbout31052006.txt”
Nội dung tập tin này gần giống với tập tin “ssrout31052006.txt”, nó chỉ bổ sung thêm phần mã genbank (DT339790.1) và vị trí bắt đầu (94) và chiều dài đoạn SSR (32). DT339790.1 DT339790.1a CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCT CTCTCTCT 94,32 ATGAAAAAAAGAAAAAGAAAAAGAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATC GAACAACGTCTCCCCCAAAAATCTCTCCTTTACC[CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTC T]CTCCCCCAATAAGACACCCTTCGTCCCCAAATCTAAACCTAGAGCTAGAGAGAGAGAGAGAGAG AGAGAGAGAGAGAGGAGGGAGAGATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGC AGAGCGAGACGGCGTTGTCG DT339790.1 DT339790.1b AGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG AGAGAGAG 172,32 GAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATCGAACAACGTCTCCCCCAAAAAT CTCTCCTTTACCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCCCCCAATAAGACACCCTTC GTCCCCAAATCTAAACCTAGAGCT[AGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG]GAGGGAGA GATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGCAGAGCGAGACGGCGTTGTCGGC GCTGTTGTCGCTATTGCCCCACCATTCCGCCGATCTCCTCTCCCAAGTCGACCAACCCCTCCAGGT TTGTATGGAT
Hình 3. 8. Nội dung tập tin “new_ids31052006.txt”
Tập tin “new_ids31052006.txt” bổ sung thêm phần định nghĩa (definition).
3.3. Xây dựng CSDL và công cụ để giúp ngƣời dùng có thể khai thác tốt dữ liệu. 3.3.1. Xây dựng cơ sở dữ liệu
3.3.1.1. Tạo bảng chứa dữ liệu
Theo các mô tả trong mô hình đối tượng, ta chuyển từ mô hình đối tượng sang mô hình quan hệ như sau:
Mỗi đối tượng trong mô hình đối tượng là một quan hệ trong mô hình quan hệ.
Mỗi thuộc tính trong mô hình đối tượng là thuộc tính trên quan hệ tương ứng.
Khóa của đối tượng là khóa của quan hệ tương ứng. Tạo các quan hệ 1: , được trình bày hình 4.2
tblStrain: chứa thông tin về các giống Ananas comosus, được trình bày ở bảng 3.1.
Bảng 3. 1. Nội dung tblStrain Tên trƣờng Kiểu dữ
liệu
Chú thích
StrainID Text Mã số quy định giống. StrainName Text Tên của giống.
DT339790.1 DT339790 JBW102H10.b_066.abi Pineapple root tip cDNA library Ananas comosus cDNA clone JBW102H10 similar to actin capping protein beta-2 -related, mRNA sequence
DT339789.1 DT339789 JBW102H08.b_050.abi Pineapple root tip cDNA library Ananas comosus cDNA clone JBW102H08 similar to thioredoxin -like protein, mRNA sequence
tblMotifLengthGroup: chứa nội dung quy định mã các đoạn SSR
Bảng 3. 2. Nội dung tblMotifLengthGroup Tên trƣờng Kiểu dữ
liệu Chú thích
MotifLengthGroupID Text Mã số quy định chiều dài đoạn SSR MotifLengthGroup Text Chiều dài đoạn SSR.
MotifDescription Text Chú thích.
tblEST, tblGenBank: nội dung chính của trình tự do NCBI quy định.
Bảng 3. 3. Nội dung tblEST Tên trƣờng Kiểu dữ
liệu Chú thích
dbESTID Text Mã số EST do NCBI quy định. ESTName Text Tên của EST.
GenbankAcc Text Chứa số truy cập trên NCBI. Genbank_gi Number Mã số gi do NCBI quy định. StrainID Text Mã số quy định giống.
Address Hyperlink Liên kết đến NCBI cho người dùng biết thêm thông tin.
SequenceLength Text Chiều dài của đoạn nucleotide. Sequence Text Trình tự.
Bảng 3. 4. Nội dung tblGenBank Tên trƣờng Kiểu dữ
liệu Chú thích
GenbankAcc Text Chứa số truy cập trên NCBI. Version Text Phiên bản của đoạn trình tự Date Text Ngày cập nhật mới nhất Definition Number Thông tin về đoạn trình tự.
tblSSR: chứa thông tin về đoạn Microsatellite
Bảng 3. 5. Nội dung tblSSR Tên trƣờng Kiểu dữ
liệu Chú thích
SSRID Text Mã số của đoạn SSR.
GenbankACC Text Chứa số truy cập trên NCBI. SSRVersion Text Phiên bản của đoạn SSR dựa vào. MotifLengthGroupID Text Mã số quy định chiều dài đoạn SSR Motif Text Đoạn SSR.
NoOfRepeat Number Số lần lập lại. SSRSequence Text Trình tự đoạn SSR SSRStart Number Vị trí bắt đầu. SSREnd Number Vị trí kết thúc.
ShortSequence Text Đoạn trình tự ngắn dựa vào đoạn trình tự chính để người xem có thể dễ nhận ra vị trí đoạn SSR.
3.3.1.2. Xây dựng mối quan hệ (khóa chính và khóa ngoại)
tblStrain Khóa chính: StrainID tblMotifLengthGroup Khóa chính: MotifLengthGroupID tblGenBank Khóa chính: GenbankAcc tblEST Khóa chính: dbESTID
Khóa ngoại: StrainID, GenbankAcc
Vì để giảm dung lượng của bảng tblEST nên đã tách ra thêm bảng tblGenBank do đó ngoài quan hệ khóa ngoại, thuộc tính GenbankAcc còn có thêm một đặc điểm là duy nhất (Unique).
tblSSR
Khóa chính: SSRID
3.3.1.3. Nhập dữ liệu vào bảng
Do các quan hệ ràng buộc giữa khóa chính và khóa ngoại nên việc nhập cơ sở dữ liệu vào các bảng phải được thực hiện một cách tuần tự, nếu không sẽ phát sinh lỗi và không thể nhập được.
Nhập dữ liệu vào các bảng chỉ có khóa chính (không có khóa ngoại) để nó có thể quản lý các thông tin một cách chính xác và không trùng lắp. Các bảng đó là:
tblStrain
tblMotifLengthGroup tblGenBank
Nhập dữ liệu vào các bảng còn lại tblEST
tblSSR
Hình 3. 9. Sơ đồ trình tự nhập dữ liệu vào bảng 3.4. Thiết kế giao diện web để truy xuất thông tin tại cơ sở dữ liệu [26]
Nhằm tạo giao diện thân mật, dễ sử dụng cho người dùng cuối, trang web đã được tạo ra để đưa cơ sở dữ liệu đến người dùng. Sau đó dựa vào cơ sở dữ liệu Microsatelite, người dùng có thể phục vụ cho việc nghiên cứu riêng của mình. Việc thiết kế trang web CSDL microsatellites của cây dứa Ananas comosus được tham khảo với trang web mẫu về phương pháp micorsatellite khác đã phổ biến trên intermet trước đó như ở hình 4.6.
Nhập liệu vào bảng tblGenBank tblMotifLengthGroup tblStrain 1. Nhập bảng chỉ chứa khóa chính tblSSR tblEST
Hình 3. 10. Trang web mẫu về trình tự microsatellite
(Nguồn: http://www.ncl-india.org/ssr/ssr.htm) Các bước thực hiện:
Xác định những nội dung cần thực hiện: ngoài phần chính là cơ sở dữ liệu Microsatelite, còn có những phần thông tin thêm vào để người sử dụng có thể hiểu rõ hơn về cây dứa Ananas comosus và phương pháp Microsatelite.
Thiết kế giao diện để người dùng có thể sử dụng một cách dễ dàng nhất. Tích hợp cơ sở dữ liệu vào trang web.
3.5. Tích hợp các công cụ sinh học vào trang web
Công cụ để dò tìm trình tự SSR: đây là công cụ cần thiết để người dùng có thể dò tìm các trình microsatellite trong một đoạn gen bất kỳ, các đoạn SSR được tạo ra đã có phân biệt trong dấu [] nên khi thiết kế primer sẽ loại bỏ những vùng trong dấu [].
Phần 4
KẾT QUẢ VÀ THẢO LUẬN
4.1. Kết quả thu nhận trình tự microsatellite
4.1.1. Kết quả thu nhận trình tự của Ananas comosus
Khi sử dụng các từ khóa (Ananas comosus - chưa chọn lọc theo giống) và phương pháp như ở phần 3 (phần phương pháp và chương trình sử dụng) có 5656 trình tự, được phân loại như ở bảng 4.1.
Bảng 4. 1. Phân loại giống Ananas comosus tại NCBI
Strain Smooth Cayenne [4102] Cultivar Cayenne [1 1]
N67-10 [4 4]
Smooth cayenne [1555 8] Isolate 136 [1 1]
H136 [2 2 1]
Specimen-voucher R. Horres & K. Schulte 220601-1 (FR) [1 1 1]
Khi tiến hành khảo sát thu nhận trình tự bằng các từ khóa và như phương pháp phần 3.1.1, các giống dứa Ananas comosus chúng tôi chỉ nhận được 1 giống Smooth cayenne từ ESTs được đăng tải trên CSDL NCBI. Còn các trường hợp còn lại là riêng biệt, không thuộc các giống dứa chung nên không dùng để thu thập trình tự microsatellite.
Hình 4. 1. Nội dung mẫu tin về Ananas comosus trên NCBI
Ngoài ra để có thể thu nhận được trình tự SSRs cần phải tải trình tự có định dạng FASTA, cách thức tiến hành như trên. Kết quả chúng tôi thu được 4102 trình tự theo định dạng FASTA được lưu vào tập tin “sequence01012006.txt” (hình 3.2).
4.1.2. Kết quả thu nhận trình tự SSRs
Sau khi thực thi tập tin “SSRRepeatFinder.pl”, chúng tôi thu được 986 trình tự microsatellite trong đó có:
dimer ... 127 trình tự trimer ... 461 trình tự tetramer ... 151 trình tự pentamer ... 19 trình tự
LOCUS DV190760 168 bp mRNA linear EST 07-OCT-2005 DEFINITION JBC034H12 Pineapple week 1-4 nematode-infected gall cDNA library Ananas comosus cDNA clone JBC034H12 similar to undiscovered sequence, mRNA sequence.
ACCESSION DV190760
VERSION DV190760.1 GI:77390589 KEYWORDS EST.
SOURCE Ananas comosus (pineapple) ORGANISM Ananas comosus
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; Liliopsida; Poales; Bromeliaceae; Ananas.
REFERENCE 1 (bases 1 to 168)
AUTHORS Moyle,R.L., Crowe,M.L., Ripi-Koia,J., Fairbairn,D.J. and Botella,J.R.
TITLE PineappleDB: An online pineapple bioinformatics resource JOURNAL BMC Plant Biol. 5 (1), 21 (2005)
PUBMED 16202174
COMMENT Contact: Botella J.R.
School of Integrative Biology The University of Queensland
Brisbane, Queensland 4072, Australia