Javascript có thể làm gì?

Một phần của tài liệu Xây dựng cư sở dữ liệu SSRs từ ESTs cuả cây dứa (Trang 43)

Các hiệu ứng rollover (thay đổi hình ảnh khi di chuyển chuột lên phía trên hình ảnh) và các thủ thuật HTML đều có gắn liền với Javascript.

Kiểm tra tính hợp lệ về dữ liệu người dùng, kiểm tra xem dữ liệu được nhập vào có phù hợp không trước khi chúng được gửi lên máy chủ.

Khi Javascript được phát triển theo đúng chức năng của mình, các nhà phát triển và các nhà thiết kế có thể tạo ra nhiều hiệu ứng và tương tác trực quan có ấn tượng hơn cho người dùng.

2.7.2.3. Ƣu và nhƣợc điểm của Javascript

 Ưu điểm:

Khả năng chạy trên nhiều trình duyệt.

Kiểm tra tính hợp lệ của dữ liệu trên máy khách.

Khả năng tạo ra các giao diện người dùng tinh tế và phức tạp. Các hiệu ứng tạo ra bởi Javascript còn có thể được tải xuống nhanh hơn rất nhiều so với một số công nghệ khác như Flash và Java applets.

Các ưu điểm khác bao gồm: không cần phải có các công cụ riêng biệt để viết Javascript, có thể sử dụng bất kỳ trình soạn thảo văn bản

hoặc HTML nào để thực hiện việc đó, không phải tốn chi phí để mua các sản phẩm phần mềm vốn thường là không rẻ. Javascript cũng là một ngôn ngữ dễ học, trên Internet có rất nhiều nguồn thông tin và nhiều cộng đồng các nhà phát triển có tính hỗ trợ nhau trong việc phát triển ứng dụng Javascript để tham khảo.

 Nhược điểm:

Phụ thuộc vào tính tương thích của trình duyệt

2.8. Cơ sở dữ liệu sinh học

Dữ liệu sinh học ngày càng tăng theo cấp số mũ qua các dự án giải trình tự bộ gene, do sự phát triển của kỹ thuật và thiết bị thí nghiệm như kỹ thuật DNA micro array, kỹ thuật giải trình tự tự động cho phép tạo ra hàng ngàn dữ liệu sinh học trong chốc lát. Như vậy vấn đề đặt ra là cần phải có biện pháp lưu trữ, quản lý, sử dụng và chia sẽ nguồn dữ liệu này. Do đó cần xây dựng các dữ liệu này thành một cơ sở dữ liệu hoàn chỉnh để có thể thực hiện được mục đích trên. Hơn thế nữa, với việc hệ thống hóa toàn bộ dữ liệu trên, chúng ta dễ dàng thực hiện việc chia sẽ những thông tin ấy qua mạng Internet hay kết nối thêm vào những tập dữ liệu ở nơi khác.

Một số cơ sở dữ liệu lớn, trực tuyến đã được xây dựng để cung cấp thông tin cho các nhà nghiên cứu sinh học như NCBI, EBI, SIB, DDBJ,…

2.8.1. NCBI

2.8.1.1. Vài nét về NCBI

Hình 2. 5. Tƣơng quan giữa NCBI, NLM (National Library of Medicine và NIH)

NCBI là chữ viết tắt của “Center for Bioinformatic Information”. Đây là trung tâm quốc gia về Công nghệ sinh học, thuộc viện sức khỏe quốc gia của Hoa kỳ (NIH – National Insitute of Health). NCBI chính thức được

NLM

NCBI NIH

thành lập vào ngày 4/10/1988. Đến năm 1991, NCBI đảm nhiệm việc quản lý cơ sở dữ liệu trình tự DNA và từ đó NCBI còn được gọi là GenBank.

NCBI là nơi cung cấp, trao đổi thông tin về sinh học phân tử của Mỹ, thông qua những cơ sở dữ liệu trực tuyến. Ngoài ra, NCBI còn tham gia những nghiên cứu về “sinh học tính toán” (computation biology), phát triển những công cụ phân tích dữ liệu bộ gene, protein,…

2.8.1.2. Một số cơ sở dữ liệu trong NCBI

 Nucleotide (GenBank): là cơ sở dữ liệu về trình tự nucleotide.

 Protein: là cơ sở dữ liệu về trình tự amino acid.

 Genome: trình tự toàn bộ genome của một số sinh vật.

 Structure: hay còn có tên gọi là MMDB (Molecular Modeling Database) chứa cấu trúc ba chiều của những đại phân tử bao gồm cả protein lẫn những chuỗi nucleotide.

 Ngoài ra, NCBI còn một số cơ sở dữ liệu khác. Chúng là các cơ sở dữ liệu trung gian, được tạo thành từ sự kết hợp của hai hay nhiều cơ sở dữ liệu trên, hay do liên kết đến các cơ sở dữ liệu khác.

2.8.1.3. Một số công cụ trong NCBI

 Công cụ khai thác dữ liệu: (adsbygoogle = window.adsbygoogle || []).push({});

Tìm kiếm thông tin sinh học dựa trên từ khóa có dạng văn bản: Entrez: chứa các phương thức tìm kiếm như tìm kiếm dựa trên accession number, hay dựa theo tên sinh vật, tên gene, tên protein,… trên tất cả các cơ sở dữ liệu.

Tìm kiếm trình tự tương đồng: có phần mềm điển hình như:

BLAST (Basic Local Alignment Search Tool): có BLAST Homepage là nơi cung cấp thông tin hướng dẫn về BLAST, chương trình BLAST,…

Blink: nơi hiển thị kết quả bằng BLAST trên mọi protein có trong mọi cơ sở dữ liệu protein Entrez.

Network-client BLAST: client BLAST (blastcl3) có thể thâm nhập vào bộ máy BLAST của NCBI. Blastcl3 này có thể tìm kiếm tất cả các trình tự dưới dạng file FASTA và tạo sự gióng cột một-

nhiều trình tự, sau đó lưu dưới dạng file text hay HTML. Ngoài ra, blastcl3 còn có thể thực hiện việc tìm kiếm trên nhiều cơ sở dữ liệu.

Stand-alone BLAST: là phần mềm có thể tải về từ NCBI. Phần mềm này thực hiện việc tìm kiếm các trình tự tương tự trên cơ sở dữ liệu trình tự cục bộ.

 Phân loại sinh vật:

Taxonomy Browser: công cụ thực hiện việc tìm kiếm trên cơ sở dữ liệu Taxonomy.

Taxonomy BLAST: nhóm lại những kết quả có tỉ lệ tương đồng khi thực hiện BLAST, tùy thuộc vào sự phân loại của chúng trong cơ sở dữ liệu Taxonomy.

TaxTable: tóm tắt kết quả sau khi thực hiện BLAST với cơ sở dữ liệu Taxonomy và hiển thị mối quan hệ giữa sinh vật này với sinh vật khác bằng các biểu đồ màu.

 Công cụ phục vụ cho việc góp trình tự protein, DNA, EST, STS,… lên NCBI

Sequin: phần mềm này có thể tải về từ NCBI, hổ trợ cho việc tạo ra những file văn bản (chứa trình tự, tên tác giả, bài báo,…) có cấu trúc theo khuôn mẫu. Trong phần mềm này còn kèm theo một số công cụ nhỏ như công cụ tìm khung đọc mở, công cụ gióng cột trình tự,… phần mềm này thích hợp cho việc góp nhiều trình tự cùng một lúc.

 NCBI còn tích hợp khá nhiều những công cụ, phần mềm phân tích trình tự DNA, protein như: BanklIt, ORF Finder, Electronic-PCR (e-PCR), VecScreen, Homologene, COGs, COGnitor, GEO, MGC, Clone Registry, CDD, LocusLink,…

Phần 3

PHƢƠNG PHÁP VÀ CHƢƠNG TRÌNH SỬ DỤNG

CÁC PHẦN MỀM ĐƢỢC SỬ DỤNG

3.1. Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng [7]

3.1.1. Hệ điều hành

Microsoft Windows XP Server Pack 2. Xây dựng CSDL trình tự SSRs của cây dứa Ananas comosus trên hệ điều hành này.

3.1.2. Các chƣơng trình phân tích trình tự

3.1.2.1. Chƣơng trình so sánh trình tự ClustalW

ClustalW là một phần mềm (chạy trên nền Dos) dùng để so sánh sự tương đồng của hai hay nhiều trình tự sinh học (pairswise or mutiple alignment). ClustalW mô tả kết quả bằng hệ thống các kí hiệu làm nổi bậc những nét đặc trưng trong những đoạn tương đồng. ClustalW ngày càng trở nên hữu ích cho các nhà nghiên cứu trong việc tìm kiếm những vùng bảo tồn trên những trình tự DNA hoặc protein. Sự hiểu biết về mutiple alignment giúp ích rất nhiều cho các nhà khoa học trong việc dự đoán cấu trúc bậc hai, bậc ba của protein, đồng thời phát hiện sự tương đồng giữa những đoạn gene (hoặc protein) vừa được giải trình tự với những gene (hoặc protein) đã tồn tại.

ClustalW tiến hành so sánh tương đồng nhiều trình tự sinh học qua ba giai đoạn:

Đầu tiên chương trình sử dụng thuật toán alignment xấp xỉ của Wilbur và Lipman năm 1983 để tính hệ số tương đồng giữa mỗi cặp trình tự.

Những hệ số tương đồng tính được sẽ được sử dụng để thành lập cây phả hệ (“Guide tree” hay dendrogram) bằng phương pháp UPGMA (Unwieghted Pair – Group Method) của Sneath và Sokal năm 1973.

Cuối cùng các trình tự được so sánh với những nhóm trình tự lớn hơn và cứ thế tiếp tục. Ở mỗi giai đoạn so sánh này, ClustalW sẽ sử dụng thuật toán của Myers và Miller (1998) nhằm tối ưu kết quả. ClustalW được tải về từ trang web:

(http://www.es.embnet.org/Services/ftp/software/ebi/dos/clustalw/)

3.1.2.2. Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST

BLAST là một chương trình tìm kiếm và so sánh trình tự tương đồng được nhiều người dùng nhất hiện nay. Thuật giải của BLAST xuất phát từ ý tưởng “liệu trong ngân hàng dữ liệu (bao gồm cả CSDL cục bộ và những CSDL lớn trên thế giới như GenBank, EMBL,…) có trình tự nào giống hoặc gần giống với trình tự đang quan tâm”. BLAST thực hiện so sánh trình tự nhập vào (có thể DNA hay protein) với những trình tự trong CSDL. Kết quả của BLAST là những số liệu thống kê chính xác về tỉ lệ tương đồng và nguồn gốc các trình tự. (adsbygoogle = window.adsbygoogle || []).push({});

Chiến lược tìm kiếm trình tự tương đồng trong BLAST được thực hiện qua ba bước chính:

Đầu tiên BLAST tìm kiếm những đoạn tương đồng HSPs (High Scoring Pair) giữa một trình tự đưa vào và mỗi trình tự trong CSDL.

Công việc tiếp theo là thực hiện đánh giá ý nghĩa thống kê dựa trên bất cứ sự tương đồng nào được tìm thấy.

Sau cùng BLAST đưa ra một báo cáo kết quả giống nhau thỏa mãn ngưỡng giá trị mà người dùng mong muốn.

Stand-alone BLAST sử dụng trong khóa luận này có thể tải về từ địa chỉ của trang CSDL NCBI:

(ftp://ftp.ncbi.nih.gov.blast/executables/).

3.1.2.3. Hệ quả trị CSDL quan hệ MySQL

MySQL là một hệ quản trị CSDL quan hệ nguồn mở phổ biến nhất, dưới sự phát triển, phân phối và bảo vệ bởi MySQL AB (MySQL AB là một công ty thương mại). Phần SQL của MySQL được viết tắt từ chữ “Structured Query Language”. SQL là một ngôn ngữ chuẩn được dùng phổ biến để xây dựng CSDL và được công nhận bởi cơ quan tiêu chuẩn SQL là

đến nay thì có rất nhiều phiên bản đã tồn tại, “SQL:2003” là phiên bản chuẩn ra đời vào giữa năm 2003, phiên bản này có nhiều ưu điểm so với các phiên bản trước đó).

Ưu điểm.

Dể sử dụng. Mã nguồn mở.

Thích hợp cho việc xây dựng CSDL vừa và nhỏ. Nhược điểm:

Không thích hợp cho việc xây dựng CSDL lớn.

3.1.2.4. Apache web Server

Trên thế giới hiện nay có rất nhiều trình chủ web hỗ trợ CGI và một trong số đó là Apache web Server. Apache web Server là một trình chủ web được nhiều người dùng nhất hiện nay trên Internet. Apache có được một vị trí đáng nể như thế là nhờ vào việc nó là một chương trình mã nguồn mở và hoàn toàn miễn phí. Hai ưu điểm này đã giúp Apache được yêu thích đối với những công việc vừa và lớn của nhiều công ty trên thế giới.

Một trong những điểm mạnh của Apache là khả năng nâng cấp trình chủ web thông qua các module. Có 2 loại module trong Apache đó là external module và internal module. Cả hai loại module này điều có thể được sửa chữa, thay thế hoặc nâng cấp vì chúng có kèm theo mã nguồn mở. Khi một yêu cầu từ trình tự khách được gởi đến Apache phải trải qua một loạt nhiều giai đoạn sử lý để cuối cùng trả về kết quả cho người dùng.

Apache có một chế độ bảo mật đáng tin cậy. Quy trình làm việc của Apache cho phép người dùng thêm mới những module cần thiết vào bất kỳ giai đoạn nào của quá trình xử lý.

Apache có thể được tải về từ địa chỉ : (http://http.apache.org/download.cgi).

PHƢƠNG PHÁP

3.2. Thu nhận trình tự SSRs [22]

Công cụ được tìm kiếm trình tự SSR được tham khảo và tải về từ địa chỉ http://www.maizemap.org/bioinformatics/SSRFINDER/SSR_Finder_Download của tác giả Steven Schroeder viết với mục đích là: tìm kiếm, tách các trình tự SSR và những vùng kế bên trong một trình tự chính để phục vụ cho những nghiên cứu về sau.

Hình 3. 1. Sơ đồ tóm tắt quá trình thu nhận trình tự SSR của Steven Schroeder

Nội dung được nhập vào Nội dung được xuất ra Các bước thực hiện của tác giả:

Bước 1: Tìm kiếm SSRs trong trình tự chính sau đó phân biệt đoạn SSR và các vùng phụ cận.

Bước 2: Thiết kế mồi khuếch đại vùng có chứa trình tự SSR.

labdbouttxt new_ids.txt ssrout.txt 1_ssr_repeat_finder 3_ssr_primer_rep_check 2_ssr_primer_designer 4_ssr_primer_blast 5_ssr_order_filter 6_ssr_order_formatter Sequence.txt primer_results.txt filter.txt fullblastoutput.txt blastout.txt rescreened.txt order.txt AllPrimer.nt

Bước 3: Thực hiện chọn lọc lại, loại bỏ những mồi có độ phức tạp thấp và các đoạn mồi có chứa trình tự lặp lại nhiều lần.

Bước 4: BLAST những đoạn SSR đã được thiết kế mồi với CSDL chính. Tập tin chứa CSDL là “AllPrimer.nt”.

Bước 5: Chọn lọc lại những trình tự SSR mà chỉ có một mồi duy nhất. Bước 6: Sắp xếp lại các primer được tạo ra.

Hình 3. 2. Kết quả thiết kế mồi cuối cùng của Steven Schroeder (adsbygoogle = window.adsbygoogle || []).push({});

Trong đề tài này chúng tôi chỉ thiết kế CSDL của cây dứa Ananas comosus, các bước còn lại sẽ được tích hợp vào trang web, tùy vào mục đích của người dùng để có thể sử dụng hợp lý nhất.

3.2.1. Thu thập và chọn lọc dữ liệu [25]

Quá trình thu nhận trình tự nucleotide được tóm tắt thành sơ đồ sau

Hình 3. 3. Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI

Từ khóa sử dụng là: Ananas comosus

Định dạng FASTA: là định dạng theo quy định của NCBI, FASTA là một giải thuật bắt cặp trình tự được David J. Lipman và William R. Pearson miêu tả lần đầu tiên vào năm 1985 (Rapid and sensitive protein similarity searches), nó có một hàng chú thích bắt đầu bằng ký tự “>” ở cột đầu tiên. Ví dụ một định dạng FASTA:

>gi|77390573|gb|DV190744.1|DV190744 JBC034F11 Pineapple week TTCTTTCGTGGAACTGTTTGTTTGCATGGTGGTAGTGGTTGGTGGAAATATGAAGTTTGTT ACGGAAAAACGGTAATGCAATACCACTCTGAACTGAGCAAAAAGCGCGAAAATATTTTGTT GGGAGTTTTTGATAAGGCTGTACATATGGCATGGACCATAGAGCATCCAGAGAAGGTTATT GAGCGCAACGAAGATGGAAGAGTTATGAGTGCAACAAATCTTTACACACAAGGCGATATCT GTAAGGAGAATGGTGCTCACAGGTCTTGTGAAGTGCGGATTCGCTGTAGAGATGATATTGT TTCTCAGAAG

Truy cập trang web NCBI

Nhập từ khóa

Chọn lọc theo giống Chọn cơ sở dữ liệu EST

Chọn dạng FASTA

Thu nhận tất cả trình tự nucleotide theo từng giống

Chọn dạng Summary

Thu nhận các thông tin liên quan

Trong đó:

gi là mã số do NCBI quy định.

gb là mã số của cơ sở dữ liệu gen (Genbank) của từng loài. Hiện nay trên cơ sở dữ liệu của trang NCBI chỉ mới có một giống là Smooth Cayenne (4102 trình tự, từ khóa của giống là “txid4615[orgn] AND strain Smooth Cayenne[tw]”) của Ananas comosus.

3.2.2. Thu nhận trình tự SSR [22]

 Các bước thực hiện:

Hình 3. 4. Sơ đồ tóm tắt quá trình thu nhận trình tự microsatellite

Trình tự nucleotide thu nhận từ NCBI về được lưu thành tập tin với tên là “sequence31052006.txt”.

Trình tự chính được tải về từ NCBI

Lưu lại với tên “sequence31052006.txt”

ssrout31052006.txt labdbout31052006.txt new_ids31052006.txt Chạy tập tin “SSRRepeatFinder.pl”

Chép vào cùng địa chỉ “31052006”

Hình 3. 5. Nội dung tập tin “sequence31052006.txt” để thu nhận SSR

Thực thi đoạn mã Perl “SSRRepeatFinder.pl”, khi đó chương trình sẽ tạo ra 3 tập tin khác với tên lần lượt là “ssrout31052006.txt”, “labdbout31052006.txt”, “new_ids31052006.txt”.

Hình 3. 6. Nội dung tập tin “ssrout31052006.txt”

DT339790.1a CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCT CTCTCTCT ATGAAAAAAAGAAAAAGAAAAAGAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATC GAACAACGTCTCCCCCAAAAATCTCTCCTTTACC[CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTC T]CTCCCCCAATAAGACACCCTTCGTCCCCAAATCTAAACCTAGAGCTAGAGAGAGAGAGAGAGAG AGAGAGAGAGAGAGGAGGGAGAGATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGC AGAGCGAGACGGCGTTGTCG DT339790.1b AGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG AGAGAGAG GAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATCGAACAACGTCTCCCCCAAAAAT CTCTCCTTTACCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCCCCCAATAAGACACCCTTC GTCCCCAAATCTAAACCTAGAGCT[AGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG]GAGGGAGA GATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGCAGAGCGAGACGGCGTTGTCGGC GCTGTTGTCGCTATTGCCCCACCATTCCGCCGATCTCCTCTCCCAAGTCGACCAACCCCTCCAGGT TTGTATGGAT

>gi|73689682|gb|DT339790.1|DT339790 JBW102H10.b_066.abi Pineapple root tip cDNA library Ananas comosus cDNA clone JBW102H10 similar to actin capping protein beta-2 -related, mRNA sequence (adsbygoogle = window.adsbygoogle || []).push({});

ATGAAAAAAAGAAAAAGAAAAAGAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATCGAACAA CGTCTCCCCCAAAAATCTCTCCTTTACCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCCCC CAATAAGACACCCTTCGTCCCCAAATCTAAACCTAGAGCTAGAGAGAGAGAGAGAGAGAGAGAGAG AGAGAGGAGGGAGAGATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGCAGAGCGAG ACGGCGTTGTCGGCGCTGTTGTCGCTATTGCCCCACCATTCCGCCGATCTCCTCTCCCAAGTCGAC CAACCCCTCCAGGTTTGTATGGATGAGGAGTCGATGAAGGAGTTCATACTTTGTGAATACAATAGG GATGCTGATTCCTATAGATCGCCATGGACGAACAAATATTACCCGCCTTTAGAGGATGGGCCACTC CCTTCTATTGAGTTGAGGAAACTCGAAGTTGAAGCAAATGAAGTTTTTGCTGTTTATCTTGACCAG TATTATGAAGGAGGTGTCTCGTCGGTGTACTTGTGGGAAGATGTTAACCAGGGCTTTGTGGCATGC TTCTTAATAAAGAAAGATGGGTCGAAGACGGGGGCATGGCAGAAGAGGATACTTGCAAGAGGGTTC GTGGGATGCTATTCATGTAATTGAGGTTGGACCAGAGGAAGAAGGAACAGCTCGTTACTGCTTAAC CAGTACCATCATGCTATCATTGACAACGGAAAACAAGCCATCGGGAACTTTTAATCTCTCGGGATC GATCAGGAGACAGATGAATCTTAATCTTTCAGTGGCAGAGGGTCATCTGTGTA

>gi|73689681|gb|DT339789.1|DT339789 JBW102H08.b_050.abi Pineapple root tip cDNA library Ananas comosus cDNA clone JBW102H08 similar to thioredoxin -like protein, mRNA sequence

ATCAGGGAGAGAGGAAGGGTTTGGAAGGGACGAGGGAGCTCTCCCTCCCCGCAAATCGCCATTGCC ACATCCGCAGCGCCTCTAGCGATCAACAACTCAAGGAGATCCTCGACGAGGTCAAAACATCCAAAA CCCCCGTGGTTATCAACTATGGCGCCTCATGGTGCCGTGTTTGTAGCCAGATCCTTCCTTCCTTCT GCGAGCTGAGCAATAAATTCAAAAAGCTTTCTTTCGTCTATGCGGACATTGACGAATGCCCTGAAA CAACTCAGCATATACGATACACCCCGACTTTCCAATTCTTTCGGGATGGAGAAAAGGTCGATGAGA TGTTTGGCGGCGGGGAGCAGAGGCTGCACGATCGCTTATGGTTGCATTCGTAGTAAAAACTCGACT GTCATTATATATAAGGAAATTCCTCTCATGCATCTGATGCGCAACCATCTTATAGGTCTCCCAATG AAATTTTGTTTGGGTTTTCATTACTTGGGTAAATGGCACATCAGTTGGTAATTGCTTGTTTGCACC CAAGGTTGGTATTGCTGCAGATTACTAACTGAGGGTATCTTTCTTGCGTTTTCCATATGGATTGGC ATACCATCATGTAGCAAATTGAGAAGCTATTTTCTTG

Trong tập tin này nó sẽ gồm các nội dung theo thứ tự là:

Mã của đoạn SSR (SSR Version) (DT339790.1a) dựa vào mã số genbank (DT339790.1) để tạo ra mã quy định cho mỗi đoạn SSR, khi một trình tự có 2 hay nhiều đoạn SSR thì nó sẽ quy định là “a”, “b”, “c”,… (DT339790.1a và DT339790.1b)

Trình tự đoạn SSR:

CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCT

Đoạn SSR (Motif):

CTCTCTCT

Đoạn SSR trong trình tự chính được rút gọn, nó được phân biệt trong dấu “[]” ATGAAAAAAAGAAAAAGAAAAAGAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATCGA ACAACGTCTCCCCCAAAAATCTCTCCTTTACC[CTCTCTCTCTCTCTCTCTCTCTCTCTCTC TCT]CTCCCCCAATAAGACACCCTTCGTCCCCAAATCTAAACCTAGAGCTAGAGAGAGAGAG AGAGAGAGAGAGAGAGAGAGGAGGGAGAGATGGATGCGGCGATGGATCTGATGCGGCGAATC TCGCCGAAGCAGAGCGAGACGGCGTTGTCG

Hình 3. 7. Nội dung tập tin “labdbout31052006.txt”

Nội dung tập tin này gần giống với tập tin “ssrout31052006.txt”, nó chỉ bổ sung thêm phần mã genbank (DT339790.1) và vị trí bắt đầu (94) và chiều dài đoạn SSR (32). DT339790.1 DT339790.1a CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCT CTCTCTCT 94,32 ATGAAAAAAAGAAAAAGAAAAAGAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATC GAACAACGTCTCCCCCAAAAATCTCTCCTTTACC[CTCTCTCTCTCTCTCTCTCTCTCTCTCTCTC T]CTCCCCCAATAAGACACCCTTCGTCCCCAAATCTAAACCTAGAGCTAGAGAGAGAGAGAGAGAG AGAGAGAGAGAGAGGAGGGAGAGATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGC AGAGCGAGACGGCGTTGTCG DT339790.1 DT339790.1b AGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG AGAGAGAG 172,32 GAAAAAAAAGAGCGGCTCCCGCGAGTGAAGCTCCGATCGAACAACGTCTCCCCCAAAAAT CTCTCCTTTACCCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCTCCCCCAATAAGACACCCTTC GTCCCCAAATCTAAACCTAGAGCT[AGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAG]GAGGGAGA GATGGATGCGGCGATGGATCTGATGCGGCGAATCTCGCCGAAGCAGAGCGAGACGGCGTTGTCGGC GCTGTTGTCGCTATTGCCCCACCATTCCGCCGATCTCCTCTCCCAAGTCGACCAACCCCTCCAGGT TTGTATGGAT

Hình 3. 8. Nội dung tập tin “new_ids31052006.txt”

Tập tin “new_ids31052006.txt” bổ sung thêm phần định nghĩa (definition).

3.3. Xây dựng CSDL và công cụ để giúp ngƣời dùng có thể khai thác tốt dữ liệu. 3.3.1. Xây dựng cơ sở dữ liệu

3.3.1.1. Tạo bảng chứa dữ liệu

 Theo các mô tả trong mô hình đối tượng, ta chuyển từ mô hình đối tượng sang mô hình quan hệ như sau:

Mỗi đối tượng trong mô hình đối tượng là một quan hệ trong mô hình quan hệ.

Mỗi thuộc tính trong mô hình đối tượng là thuộc tính trên quan hệ tương ứng.

Khóa của đối tượng là khóa của quan hệ tương ứng. Tạo các quan hệ 1: , được trình bày hình 4.2

Một phần của tài liệu Xây dựng cư sở dữ liệu SSRs từ ESTs cuả cây dứa (Trang 43)