Thiết kế chức năng hệ thống

Một phần của tài liệu Phân tích trình tự trong tin sinh học và ứng dụng trên cơ sở dữ liệu genome tôm sú (Trang 53 - 69)

3.3.1. Mô hình phân cấp chức năng

Quản trị hệ thống Xử lý dữ liệu Tích hợp công cụ

phân tích Quản lý cơ sở dữ liệu

hệ gien tôm Sú (Penaeus mododon)

Đăng ký NSD

Hiển thị thông tin

Tìm kiếm, tra cứu thông tin

Kết xuất báo cáo

Nhập dữ liệu Cập nhật dữ liệu Nạp dữ liệu từ tệp XML Tìm kiếm chuỗi tương đồng BLAST

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

1) Chức năng “Hệ thống”

Bao gồm các chức năng:

Quản trị hệ thống: Thực hiện các chức năng về đăng ký ngƣời sử dụng, đăng nhập hệ thống và các chức năng quản trị khác.

Hiển thị thông tin: Giao diện Web hiển thị các thông tin chung về CSDL hệ gien tôm Sú, bao gồm các phần giới thiệu (Introduction), mục tiêu (Objective) và các thông tin khác.

Tìm kiếm thông tin: Giao diện Web bao gồm chức năng tra cứu và tìm kiếm thông tin. Phần tra cứu bao gồm tìm kiếm cơ bản (Search) và tìm kiếm nâng cao (Advanced Search). Cho phép hiển thị kết quả tìm kiếm theo hai khuôn dạng GENBANK và FASTA.

Kết xuất báo cáo: Hiển thị các thông tin chung về CSDL, chi tiết nhƣ sau:

Chuỗi Tổng số bản ghi (Total of records)

Số bản ghi nhập vào (Input data)

EST Hiển thị tổng số bản ghi EST trong Database

Nucleotide Hiển thị tổng số bản ghi Nucleotide trong Database

Protein Nucleotide

2) Chức năng “Xử lý dữ liệu”

Bao gồm các chức năng nhập dữ liệu các chuỗi gien từ các nguồn dữ liệu chuỗi gien tôm Sú hiện có của Viện công nghệ sinh học và nạp dữ liệu vào CSDL từ các nguồn dữ liệu lấy từ Internet.

1. Nhập dữ liệu (Add data): Nhập dữ liệu các chuỗi gien của Viện công nghệ sinh học vào CSDL.

2. Cập nhật dữ liệu (Update data): Cập nhật dữ liệu trong CSDL.

3. Nạp dữ liệu (Load XML): Chuyển dữ liệu vào CSDL từ các tệp XML chứa các chuỗi Nucleotide, Protein và EST lấy từ ngân hàng gien thế giới.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Tích hợp công cụ tìm kiếm BLAST: Thực hiện tìm kiếm chuỗi tƣơng đồng BLAST trên cơ sở dữ liệu đƣợc xây dựng.

3.3.2. Mô hình luồng dữ liệu

1) Mô hình luồng dữ liệu mức khung cảnh

Người quản trị

Quản lý cơ sở dữ liệu hệ gien tôm Sú

Người sử dụng

Tài khoản NSD Cơ sở dữ liệu hệ gien tôm Sú

Thông tin người sử dụng Dữ liệu về các chuỗi gien cần tra cứu

Kết quả tra cứu

Dữ liệu về các chuỗi gien cần nhập dữ liệu Tệp XML

Thông tin BLAST

Kết quả BLAST

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Người quản trị

Quản trị hệ thống

Người sử dụng

Tài khoản NSD Cơ sở dữ liệu hệ gien tôm Sú

Thông tin người sử dụng

Dữ liệu về các chuỗi gien cần tra cứu

Kết quả tra cứu

Dữ liệu về các chuỗi gien cần nhập

Tệp XML

Thông tin BLAST Kết quả BLAST

Xử lý dữ liệu

Phân tích trình tự

Yêu cầu hiển thị

Thông tin hiển thị

3) Mô hình luồng dữ liệu mức dưới đỉnh

1. Mô hình luồng dữ liệu mô tả chức năng quản trị hệ thống

Người quản trị

Đăng ký NSD

Người sử dụng

Tài khoản NSD Cơ sở dữ liệu hệ gien tôm Sú

Thông tin người sử dụng

Thông tin, báo cáo về CSDL

Kết quả tra cứu Dữ liệu chuỗi gien cần tra cứu

Yêu cầu hiển thị

Thông tin hiển thị

Hiển thị thông tin

Tìm kiếm, tra cứu thông tin Kết xuất báo cáo

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Người sử dụng

Cơ sở dữ liệu hệ gien tôm Sú

Dữ liệu về các chuỗi gien Dữ kiệu về các chuỗi gien

Nhập dữ liệu

Cập nhật dữ liệu Nạp dữ liệu từ tệp XML

Tệp dữ liệu XML của các chuỗi gien từ Internet

Tìm kiếm chuỗi tương đồng BLAST

Chuỗi gien cần BLAST Kết quả BLAST

3.3.3. Đặc tả chi tiết một số chức năng cơ bản

1) Chức năng tìm kiếm thông tin (Database)

Chức năng tìm kiếm thông tin bao gồm hai chức năng chính là Tìm kiếm cơ bản (Search) và Tìm kiếm nâng cao (Advanced search).

 Tìm kiếm cơ bản bao gồm:

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

- TextBox để nhập từ khóa cần tìm.

Thuật toán tìm kiếm sẽ tìm trên tất cả các trƣờng, ví dụ nhập vào từ khóa “12345” thì thực chất là sử dụng câu lệnh SQL sau :

(fields1 like’%12345%’ ) and ( field2 like ‘%12345%’) and……

 Tìm kiếm nâng cao bao gồm:

- ComBox để chọn trƣờng cần tìm kiếm - TextBox để gõ từ khóa cần tìm kiếm

- ComBox để chọn từ khóa quan hệ (and, or, not).

Mỗi lần nhấn thêm vào ô tìm kiếm (Add to Search Box) thì một điều kiện mới sẽ đƣợc thêm vào.

 Hiển thị thông tin:

- Phân trang: Mỗi lần ấn Tìm kiếm (Search) thì kết quả sẽ hiện thị theo các trang kết quả, kết quả tìm đƣợc hiện thị trên một trang, tất cả số trang đƣợc lƣu trong ComboBox, cho phép chọn đến một trang bất kì, chọn số lƣợng kết quả trên một trang.

- Hiển thị kết quả tìm kiếm theo chuẩn FASTA và GENBANK

2) Chức năng nhập dữ liệu (Add data)

Mô tả chức năng

Chức năng nhập dữ liệu cho phép ngƣời sử dụng thêm mới những bản ghi về các trình tự EST, Nucleotide của tôm sú đƣợc lƣu trữ tại Viện công nghệ sinh học vào CSDL.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Đặc tả chi tiết chức năng

 Giao diện nhập các thông tin chung khi ngƣời sử dụng vào chức năng

- Type (Loại chuỗi gien): Cho phép chọn các chuỗi Nucleotide, Protein và EST cần nhập

- Accession (Mã hiệu của chuỗi gien), Name (Tên của chuỗi gien), Definition (Định nghĩa), Origin (Nguồn gốc): Do ngƣời sử dụng nhập vào.

 Sau khi nhập các thông tin trên, nhấn nút Confirm (Chấp nhận) xuất hiện Form nhập thông tin chi tiết cho chuỗi cần nhập:

- Change (Thay đổi): Cho phép ngƣời sử dụng thay đổi lại thông tin đã nhập trong CSDL.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

- Add new (Thêm mới): Cho phép ngƣời sử dụng thêm mới bản ghi vào CSDL

 Giao diện nhập chi tiết cho từng chuỗi:

- Save (Ghi dữ liệu): Thực hiện ghi dữ liệu chuỗi gien tôm Sú. Sau khi thực hiện chức năng này, hai chức năng ghi thông tin về tham chiếu gien và đặc trƣng gien xuất hiện, cho phép NSD lƣu thêm thông tin về tham chiếu và đặc trƣng của chuỗi gien. Chú ý rằng, chức năng ghi dữ liệu chuỗi gien chỉ đƣợc thực hiện một lần, hai chức năng ghi thông tin về tham chiếu gien và ghi thông tin về đặc trƣng gien có thể thực hiện nhiều lần vì các thông tin này có thể có nhiều bản ghi có cùng mã chuỗi gien.

Nếu thông tin đã đƣợc lƣu sẽ có thông báo cho ngƣời sử dụng biết.Nếu thông tin về Accession đã tồn tại trong cơ sở dữ liệu, khi lƣu thông tin, sẽ có thông báo cho ngƣời sử dụng biết để thay đổi.

- Update (Cập nhật): Giúp ngƣời quản trị cập nhật lại những thông tin cần thay đổi đã đƣợc lƣu lại trƣớc đó. Nếu thông tin đã đƣợc cập nhật sẽ có thông báo cho ngƣời quản trị biết.

- Delete (Xóa dữ liệu): có 3 chức năng xóa trong form này:

Xóa thông tin tham chiếu: giúp xóa các thông tin tham chiếu vừa đƣợc lƣu trữ Xóa thông tin đặc trƣng: giúp xóa các thông tin đặc trƣng vừa đƣợc lƣu trữ Xóa tất cả: giúp xóa tất cả các thông tin về chuỗi gien, tham chiếu và đặc trƣng vừa đƣợc lƣu trữ.

Khi ngƣời sử dụng chọn chức năng xóa dữ liệu sẽ có thông báo hỏi trƣớc khi thực hiện việc xóa thông tin.Nếu thông tin đã đƣợc xóa sẽ có thông báo cho ngƣời sử dụng biết.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

3) Chức năng cập nhật dữ liệu (Update data)

Mô tả chức năng

Chức năng cập nhật dữ liệu cho phép ngƣời sử dụng cập nhật những bản ghi đã có trong CSDL về các chuỗi EST, Nucleotide, Protêin của tôm Sú.

Đặc tả chi tiết chức năng

 Giao diện khi ngƣời sử dụng vào chức năng:

- Khi ngƣời sử dụng nhập thông tin về mã chuỗi gien (Accession), chức năng hiển thị (Show) sẽ hiển thị các bản ghi có mã chuỗi gien đã nhập ra màn hình. Trái lại, sẽ có thông báo yêu cầu nhập thông tin này.

- Gợi ý (Suggestion): Hiển thị các thông tin mã chuỗi gien (Accession) gần giống với mã chuỗi gien ngƣời sử dụng nhập vào nhằm mục đích giúp đƣa ra các gợi ý khi ngƣời sử dụng không nhớ chính xác thông tin mã chuỗi gien mà mình cần.

- Cập nhật (Edit): Chức năng này bao gồm hai chức năng con là cập nhật (Update) và hủy (Cancel). Khi ngƣời sử dụng muốn thay đổi một bản ghi nào đó, chọn chức năng cập nhật, hai chức năng cập nhật và hủy sẽ hiển thị. Sau khi thay đổi các thông tin trong bản ghi nhƣ mong muốn, chức năng cập nhật giúp ngƣời sử dụng cập nhật lại các thông tin vào cơ sở dữ liệu. Nếu không muốn thay đổi các thông tin trong bản ghi đó ngƣởi sử dụng có thể chọn chức năng hủy. Nếu bản ghi đã đƣợc cập nhật sẽ có thông báo cho ngƣời sử dụng biết.

- Xóa dữ liệu (Delete): Chức năng xóa bản ghi của chuỗi gien tôm Sú giúp ngƣời sử dụng xóa bản ghi thông tin trong bảng lƣu trữ chuỗi gien tôm Sú (TrinhTu), đồng thời các bản ghi trong hai bảng tham chiếu (ThamChieu) và đặc trƣng (DacTrung) có mã chuỗi gien đã nhập cũng bị xóa. Chức năng xóa bản ghi tham chiếu và xóa bản ghi đặc trƣng giúp ngƣời sử dụng xóa các bản ghi thông tin trong hai bảng tham chiếu và đặc trƣng, hai chức năng xóa này là tách biệt, sẽ không làm ảnh hƣởng gì đến các bản ghi thông tin trong các bảng còn lại. Nếu các bản ghi đã đƣợc xóa sẽ có thông báo cho ngƣời sử dụng biết.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

- Thêm dữ liệu (Add): Chức năng thêm dữ liệu tham chiếu và thêm dữ liệu đặc trƣng giúp ngƣời sử dụng thêm mới các bản ghi vào hai bảng lƣu thông tin tham chiếu (ThamChieu) và đặc trƣng (DacTrung)

4) Chức năng nạp dữ liệu từ tệp XML (Load XML)

Mô tả chức năng

Chức năng này cho phép nạp dữ liệu vào CSDL từ các tệp XML chứa thông tin về các chuỗi Nucleotide, Protein và EST của tôm Sú theo định dạng INSDSeq XML. Các tệp XML này đƣợc lấy từ ngân hàng Gen thế giới (GenBank) trên Internet.

Mô hình chức năng

Đặc tả chức năng

Cho phép chọn nạp dữ liệu vào hệ thống CSDL theo các chuỗi sau:

 Nạp dữ liệu chuỗi EST

 Nạp dữ liệu chuỗi Nucleotide

 Nạp dữ liệu chuỗi Protein

Ghi dữ liệu vào bảng lƣu trữ dữ liệu các chuỗi Nucleotide, Protein và EST (TrinhTu), bảng lƣu trữ thông tin tham chiếu (ThamChieu) và bảng lƣu trữ thông tin đặc trƣng (DacTrung) từ tệp XML (INSDSeq) lấy từ Internet.

Các trƣờng sau đây ghi dữ liệu ngầm định vào bảng TrinhTu.

 Mã loại gien (LoaiGien): Ghi giá trị mã loại gien (LoaiGien) trong bảng danh mục các chuỗi Nucleotide, Protein và EST (LoaiGien) đƣợc chọn.

NhapLieu: Ngầm định ghi giá trị là „0‟ (Dữ liệu đƣợc nạp vào CSDL từ Internet), nếu dữ liệu đƣợc nhập vào CSDL, trƣờng này nhận giá trị „1‟

5) Chức năng BLAST

CSDL ngân hàng Gen thế

giới

Tệp XML CSDL chuỗi gien tôm Sú (Database)

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Tạo CSDL BLAST: Với mỗi bản ghi trong CSDL chung ta xuất ra tệp Text theo chuẩn Fasta, CSDL Blast là tập hợp những tệp Text chuẩn Fasta.

Thực hiện BLAST: Với trình tự nhập vào (Nucleotide hoặc Protein) chƣơng trình sẽ thực hiện BLAST (BLAST P hoặc BLAST N) và hiển thị kết quả theo khuôn dạng FASTA hoặc GENBANK.

CSDL chung

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

3.4. Một số giao diện chƣơng trình 3.4.1. Giao diện trang chủ 3.4.1. Giao diện trang chủ

3.4.2. Nạp dữ liệu từ tệp XML

Cho phép nạp thông tin từ các tệp XML chứa các chuỗi Protein, Nucleotide, EST của con Tôm sú lấy từ ngân hàng Gen vào hệ thống CSDL.

Giao diện nạp dữ liệu từ XML

3.4.3. Nhập dữ liệu các trình tự Protein, Nucleotide, EST

Ngoài chức năng nạp thông tin vào hệ thống CSDL từ các tệp XML tải về từ ngân hàng Gene thì hệ thống còn hỗ trợ chức năng cập nhật thông tin, cho phép NSD cập nhật thông tin về các chuỗi Protein, Nucleotide, EST hiện có của Viện công nghệ sinh học vào hệ thống CSDL.

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Chức năng cho phép nhập thông tin về các chuỗi gien, nhập thông tin tham chiếu và nhập thông tin đặc trƣng.

Giao diện nhập thông tin các chuỗi gien tôm Sú (Locus Informations)

Giao diện nhập thông tin tham chiếu (Reference Informations)

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

3.4.4. Tra cứu thông tin

Giao diện tra cứu thông tin

Kết quả tra cứu hiển thị theo chuẩn GENBANK

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

3.4.5. Tìm kiếm chuỗi tƣơng đồng bằng BLAST

Nút tạo Private Database

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

KẾT LUẬN Những kết quả chính của luận văn

Luận văn đạt đƣợc hai kết quả chính:

1) Nắm bắt đƣợc các khái niệm cơ bản trong tin sinh học, bao gồm: các khái niệm về sinh học phân tử, các bài toán cơ bản trong tin sinh học và các cơ sở dữ liệu sinh học lớn trên thế giới; Nắm bắt đƣợc các thuật toán giải quyết bài toán phân tích mối quan hệ giữa các trình tự (bài toán sắp hàng trình tự), một trong những bài toán cơ bản và cốt yếu trong tin sinh học.

2) Xây dựng ứng dụng thử nghiệm làm sáng tỏ các vấn đề nghiên cứu lý thuyết, bao gồm cơ sở dữ liệu lƣu trữ các trình tự gien tôm Sú và tích hợp công cụ BLAST tìm kiếm các trình tự tƣơng đồng trong cơ sở dữ liệu đƣợc xây dựng.

Hƣớng phát triển tiếp theo

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Tài liệu tham khảo Tài liệu tiếng Việt

[1] Nguyễn Văn Cách, Tin sinh học, Đại học Bách Khoa Hà Nội, 2005.

[2] Ngô Công Thắng, Bài giảng tin sinh học, Trƣờng Đại học Nông nghiệp Hà Nội.

[3] Võ Hồng Bảo, Cải tiến ClustalW cho bài toán sắp hàng đa trình tự, Luận văn Thạc sĩ, Đại học Quốc gia thành phố Hồ Chí Minh.

Tài liệu tiếng Anh

[4] A. Lesk, Introduction to Bioinformatics, Oxford University Press, 2008 [5] Jo McEntyre, Jim Ostell (eds), The NCBI Handbook, Bethesda: National

Center for Biotechnology Information, 2002.

[6] Richard Durbin, Sean R. Eddy, Anders Krogh, Graeme Mitchison, Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids, Cambridge: Cambridge University Press, 1998

[7] Salemi and Vandamme (eds), The Phylogenetics Handbook A Practical Approach to DNA and Protein Phylogeny, Cambridge: Cambridge University Press, Cambridge, 2003

[8] EMBL database: http://www.embl.org/ [9] NCBI database: http://www.ncbi.nlm.nih.gov/ [10] DDBJ database: http://www.ddbj.nig.ac.jp/

Một phần của tài liệu Phân tích trình tự trong tin sinh học và ứng dụng trên cơ sở dữ liệu genome tôm sú (Trang 53 - 69)