Phân tích trình tự trong tin sinh học và ứng dụng trên cơ sở dữ liệu genome tôm sú Phân tích trình tự trong tin sinh học và ứng dụng trên cơ sở dữ liệu genome tôm sú Phân tích trình tự trong tin sinh học và ứng dụng trên cơ sở dữ liệu genome tôm sú Phân tích trình tự trong tin sinh học và ứng dụng trên cơ sở dữ liệu genome tôm sú
1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG VŨ ĐÌNH GIANG PHÂN TÍCH TRÌNH TỰ TRONG TIN SINH HỌC VÀ ỨNG DỤNG TRÊN CƠ SỞ DỮ LIỆU GENOME TÔM SÚ CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ : 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC TS Nguyễn Long Giang Thái Nguyên - 2014 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ MỤC LỤC MỤC LỤC Danh mục thuật ngữ Danh sách bảng Danh sách hình vẽ MỞ ĐẦU MỞ ĐẦU Chƣơng CÁC KHÁI NIỆM CƠ BẢN 1.1 Các khái niệm sinh học phân tử 1.2 Các toán tin sinh học 12 1.3 Các ứng dụng tin sinh học 13 1.4 Một số sở liệu sinh học lớn giới 14 Chƣơng BÀI TỐN PHÂN TÍCH MỐI QUAN HỆ GIỮA CÁC TRÌNH TỰ 19 2.1 Bài tốn phân tích mối quan hệ hai trình tự 19 2.1.1 Giới thiệu toán 19 2.1.2 Phƣơng pháp giải toán .20 2.1.3 Thuật toán Needleman-Wunsch .23 2.2 Bài tốn phân tích mối quan hệ cục hai trình tự 26 2.1.4 Giới thiệu toán 26 2.1.5 Thuật tốn phân tích mối quan hệ cục hai trình tự .27 2.3 Tìm kiếm trình tự tƣơng đồng BLAST 31 2.3.1 Giới thiệu toán 31 2.3.2 Thuật toán BLAST 31 2.4 Bài tốn phân tích mối quan hệ đa trình tự 34 2.4.1 Giới thiệu toán 34 2.4.2 Thuật toán quy hoạch động 36 2.4.3 Thuật tốn ngơi 39 2.4.4 Thuật toán hàng lũy tiến 42 Chƣơng XÂY DỰNG CSDL HỆ GIEN TƠM SÚ VÀ TÍCH HỢP CƠNG CỤ BLAST 48 3.1 Kiến trúc hệ thống 48 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 3.2 Thiết kế sở liệu 49 3.2.1 Nguồn số liệu đầu vào .49 3.2.2 Thiết kế sở liệu 49 3.3 Thiết kế chức hệ thống 53 3.3.1 Mơ hình phân cấp chức 53 3.3.2 Mơ hình luồng liệu .55 3.3.3 Đặc tả chi tiết số chức 57 3.4 Một số giao diện chƣơng trình 64 3.4.1 Giao diện trang chủ 64 3.4.2 Nạp liệu từ tệp XML 64 3.4.3 Nhập liệu trình tự Protein, Nucleotide, EST 64 3.4.4 Tra cứu thông tin 66 3.4.5 Tìm kiếm chuỗi tƣơng đồng BLAST 67 KẾT LUẬN 68 Tài liệu tham khảo 69 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Danh mục thuật ngữ Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Bioinformatics Tin sinh học Molecular biology Sinh học phân tử Nucleic acid Axít nuclêic DNA AND RNA ARN Nucleotide Nuclêơtít Protein Prơtêin Amino Acid Axít amin Gene Gien Genome Hệ gien Cromosome Nhiễm sắc thể Sequence Trình tự Pairwise alignment Sắp hàng trình tự Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Danh sách bảng Bảng 1.1 Tên đầy đủ, tên viết tắt loại nuclêơtít: Bảng 1.2 Tên đầy đủ, tên viết tắt loại nuclêơtít 11 Bảng 2.1 Hai trình tự AND X Y 19 Bảng 2.2 Hai trình tự sau hàng 20 Bảng 2.3 Các cách hàng khác hai trình tự X Y 21 Bảng 2.4 Ma trận điểm nuclêơtít 22 Bảng 2.5 Các cách hàng khác với tổng điểm khác 23 Bảng 2.6 Bảng F thuật toán quy hoạch động hai trình tự ADN 25 Bảng 2.7 Sắp hàng hai trình tự X Y với tổng điểm lớn 26 Bảng 2.8 Ma trận quy hoạch động F tốn hàng cục hai trình tự AND X Y 30 Bảng 2.9 Sắp hàng cục hai trình tự X Y 30 Bảng 2.10 Minh họa ý tưởng thuật toán BLAST 32 Bảng 2.11 Ba bắt cặp XY, XZ, YZ tương thích với kết hợp thành hàng trình tự 36 Bảng 2.12 Ba bắt cặp XY, XZ, YZ không tương thích với để kết hợp thành hàng trình tự 36 Bảng 2.13 Sắp hàng tối ứu ba trình tự X, Y, Z 39 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Danh sách hình vẽ Hình 1.1 Minh họa cấu trúc Axit amin 10 Hình 1.2 Trung tâm thơng tin cơng nghệ sinh học Hoa Kỳ 15 Hình 1.3 Cấu trúc NCBI 16 Hình 2.1 Sắp hàng lũy tiến với trình tự 43 Hình 3.1 Kiến trúc hệ thống CSDL hệ gien tôm Sú 49 Hình 3.2 Mơ hình CSDL hệ gien tơm Sú 50 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ MỞ ĐẦU Tin sinh học (bioinformatics) lĩnh vực khoa học sử dụng công nghệ ngành tin học, toán học ứng dụng, thống kê khoa học máy tính để giải tốn sinh học Tin sinh học bao gồm việc xây dựng, quản lý lƣu trữ nguồn liệu quy mô tồn cầu liên quan đến sinh học, xây dựng hồn thiện chƣơng trình máy tính xử lý liệu, công cụ hỗ trợ hiệu cho việc nghiên cứu, khám phá chất sinh học giới tự nhiên sản xuất sản phẩm sinh học mong muốn phục vụ đời sống ngƣời Tin sinh học có tính ứng dụng cao sống, đặc biệt lĩnh vực công nghệ sinh học, nơng nghiệp y dƣợc Các tốn tin sinh học bao gồm: quản lý lưu trữ liệu, phân tích mối quan hệ trình tự, dự đốn cấu trúc trình tự, mơ hình hóa, nghiên cứu tiến hóa [4] Một toán quan trọng tin sinh học phân tích mối quan hệ trình tự, gọi tắt phân tích trình tự Các tốn phân tích trình tự là: tìm kiếm trình tự tƣơng đồng sở liệu; hàng trình tự; chuyển đổi trình tự Mục tiêu phân tích trình tự là: Xác định gien chức gien Xác định lặp lại trình tự Xác định protêin dựa quy tắc đặt biểu thức gien Xác định vùng chức khác ADN Mục tiêu luận văn là: 1) Nắm bắt đƣợc khái niệm tin sinh học sở liệu sinh học lớn giới, phƣơng pháp giải tốn hàng trình tự, toán phân tích trình tự 2) Xây dựng sở liệu cục lƣu trữ chuỗi gien tôm sú (bao gồm chuỗi nuclêơtít, protêin EST) tích hợp cơng cụ phân tích trình tự nhằm mục đích làm sáng tỏ vấn đề nghiên cứu lý thuyết Dữ liệu đƣợc thu thập từ Phịng cơng nghệ AND ứng dụng - Viện Công nghệ sinh học (nay Viện Genome học) từ sở liệu sinh học Internet Đối tượng nghiên cứu luận văn chuỗi gene tôm Sú đƣợc thu thập từ Viện Công nghệ sinh học chuỗi gene tôm Sú từ ngân hàng gene giới (genbank), bao gồm chuỗi EST, Nucleotide Protein Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Phạm vi nghiên cứu lý thuyết tốn phân tích trình tự tin sinh học, phạm vi nghiên cứu thực nghiệm xây dựng sở liệu tích hợp cơng cụ BLAST tìm kiếm trình tự tƣơng đồng sở liệu trình tự gien tơm Sú (bao gồm trình tự nucltít, protêin EST) Phương pháp nghiên cứu luận văn nghiên cứu lý thuyết nghiên cứu thực nghiệm Về nghiên cứu lý thuyết: luận văn thực tổng hợp khái niệm kết nghiên cứu hàng trình tự Về nghiên cứu thực nghiệm: luận văn thực xây dựng sở liệu tích hợp cơng cụ tìm kiếm trình tự tƣơng đồng BLAST sở liệu đƣợc xây dựng nhằm sáng tỏ vấn đề lý thuyết Bố cục luận văn gồm phần mở đầu hai chƣơng nội dung, phần kết luận danh mục tài liệu tham khảo Chƣơng trình bày khái niệm tin sinh học, toán tin sinh học, sở liệu sinh học lớn giới số ứng dụng tin sinh học Chƣơng trình bày tốn phân tích mối quan hệ trình tự thuật tốn so sánh trình tự Chƣơng trình bày nội dung ứng dụng thử nghiệm làm sáng tỏ vấn đề nghiên cứu lý thuyết, bao gồm thiết kế xây dựng sở liệu lƣu trữ trình tự gien tơm Sú, tích hợp cơng cụ tìm kiếm trình tự tƣơng đồng BLAST sở liệu cục đƣợc xây dựng Cuối cùng, phần kết luận nêu đóng góp luận văn, hƣớng phát triển Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Chƣơng CÁC KHÁI NIỆM CƠ BẢN 1.1 Các khái niệm sinh học phân tử Tin sinh học (Bioinformatics) lĩnh vực khoa học có tính ứng dụng cao sống, đặc biệt lĩnh vực công nghệ sinh học, nông nghiệp ydƣợc Tin sinh học lĩnh vực khoa học liên ngành, sinh học tin học đóng vai trị chủ đạo Về bản, tin sinh học tập trung vào nghiên cứu, phát triển áp dụng phƣơng pháp công cụ tin học để giải toán sinh học Tiếp theo, luận văn giới thiệu số khái niệm sinh học phân tử Sinh học phân tử (molecular biology) nhánh sinh học (biology), tập trung nghiên cứu sinh vật mức độ phân tử Cụ thể là, sinh học phân tử tập trung giải trình tự (sequencing) phân tích trình tự nuclêơtít (trình tự ADN), trình tự axít amin (trình tự prôtêin) Trong phần này, luận văn tập trung giới thiệu kiến thức sinh học phân tử để sử dụng chƣơng sau 1) Axít nuclêic nuclêơtít Axít nuclêic (nucleic acid) đại phân tử sinh học (large biological molecule) mang thông tin di truyền mã hóa chức năng, đặc điểm sinh vật sống Axít nuclêic gồm hai loại: ADN ( Axít Deoxyribo Nuclêic) ARN (Axít Ribo Nuclêic) Thành phần cấu tạo trình tự axít nuclêic phân tử hóa học nuclêotít (nucleotide) Trình tự ADN chứa bốn loại nuclêơtít khác là: Adenine, Cytosine, Guanine, Thymine Trình tự ARN có thành phần tƣơng tự nhƣ trình tự ADN, ngoại trừ nuclêơtít Thymine đƣợc thay nuclêơtít Uracil Tức là, ARN chứa loại nuclêơtít: Adenine, Cytosine, Guanine, Uracil Tên đầy đủ, tên viết tắt năm loại nuclêơtít đƣợc mơ tả Bảng 1.1 Bảng 1.1 Tên đầy đủ, tên viết tắt loại nuclêơtít: STT Tên đầy đủ Adenine Cytosine Guanine Thymine Uracil Số hóa Trung tâm Học liệu Tên viết tắt A C G T U http://www.lrc-tnu.edu.vn/ 10 Do đó, thơng tin trình tự ADN đƣợc biểu diễn trình tự nuclêơtít nằm sợi (các nuclêơtít nằm sợi cịn lại suy luận dựa theo quy tắc trên) Để đơn giản, trình tự ADN đƣợc biểu diễn xâu kí tự chứa loại kí tự: A, C, G T (tên viết tắt loại nuclêơtít) Ví dụ, "CAGTTGACGGCGAACCGTGCGAGCAGACGGTCGTT" trình tự ADN Với cách biểu diễn này, thơng tin trình tự DN đƣợc lƣu giữ, tìm kiếm, trao đổi cách hiệu 2) Protein axit amin Prơtêin/trình tự prơtêin (protein) loại liệu phổ biến quan trọng sinh học phân tử Nó định đến chức năng, trình phát triển, nhƣ bệnh tật sinh vật sống Prôtêin đƣợc cấu tạo trình tự axít amin (amino acid), axít amin hợp chất hữu đƣợc tạo ba thành phần là: nhóm amin (NH2), nhóm cacboxyl (COOH) nhóm R định tính chất axít amin (xem Hình 1.1) Hình 1.1 Minh họa cấu trúc Axit amin Trong tự nhiên có 20 loại axít amin khác nhƣ mơ tả Bảng 1.2 Mỗi axít amin có tên đầy đủ, tên viết tắt kí tự tên viết tắt kí tự Thông thƣờng, sử dụng tên viết tắt kí tự để biểu diễn axít amin Trình tự axít amin đƣợc biểu diễn xâu kí tự chứa 20 loại kí tự khác nhau, tên viết tắt 20 loại axít amin khác Ví dụ: „ESPQIRRDMGRLCATWPSKDSEDGAGTALRAATPLTANGATTTGLSVTLA PKQTNWDECWSSPCQNGGTCVDGVAYYNCTCPEGFSGSNCEENVDE‟ trình tự axít amin Với cách biểu diễn này, dễ dàng lƣu giữ Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 55 Tích hợp cơng cụ tìm kiếm BLAST: Thực tìm kiếm chuỗi tƣơng đồng BLAST sở liệu đƣợc xây dựng 3.3.2 Mơ hình luồng liệu 1) Mơ hình luồng liệu mức khung cảnh Dữ liệu chuỗi gien cần tra cứu Thông tin người sử dụng Thông tin BLAST Quản lý sở liệu hệ gien tôm Sú Kết tra cứu Kết BLAST Người quản trị Người sử dụng Tệp XML Dữ liệu chuỗi gien cần nhập liệu Tài khoản NSD Cơ sở liệu hệ gien tơm Sú 2) Mơ hình luồng liệu mức đỉnh Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 56 Dữ liệu chuỗi gien cần tra cứu Thông tin người sử dụng Yêu cầu hiển thị Quản trị hệ thống Kết tra cứu Người sử dụng Thông tin hiển thị Người quản trị Tài khoản NSD Cơ sở liệu hệ gien tôm Sú Dữ liệu chuỗi gien cần nhập Tệp XML Xử lý liệu Phân tích trình tự Thơng tin BLAST Kết BLAST 3) Mơ hình luồng liệu mức đỉnh Mơ hình luồng liệu mơ tả chức quản trị hệ thống Thông tin người sử dụng Đăng ký NSD Hiển thị thông tin Yêu cầu hiển thị Người sử dụng Thông tin hiển thị Người quản trị Tài khoản NSD Cơ sở liệu hệ gien tôm Sú Dữ liệu chuỗi gien cần tra cứu Thông tin, báo cáo CSDL Kết xuất báo cáo Tìm kiếm, tra cứu thơng tin Kết tra cứu Mơ hình luồng liệu mơ tả chức xử lý liệu BLAST Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 57 Kết BLAST Chuỗi gien cần BLAST Dữ kiệu chuỗi gien Nhập liệu Tìm kiếm chuỗi tương đồng BLAST Người sử dụng Cơ sở liệu hệ gien tôm Sú Nạp liệu từ tệp XML Dữ liệu chuỗi gien Cập nhật liệu Tệp liệu XML chuỗi gien từ Internet 3.3.3 Đặc tả chi tiết số chức 1) Chức tìm kiếm thơng tin (Database) Chức tìm kiếm thơng tin bao gồm hai chức Tìm kiếm (Search) Tìm kiếm nâng cao (Advanced search) Tìm kiếm bao gồm: - ComboBox để chọn loại chuỗi gien cần tìm (EST, Protein hay Nucleotide) Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 58 - TextBox để nhập từ khóa cần tìm Thuật tốn tìm kiếm tìm tất trƣờng, ví dụ nhập vào từ khóa “12345” thực chất sử dụng câu lệnh SQL sau : (fields1 like’%12345%’ ) and ( field2 like ‘%12345%’) and…… Tìm kiếm nâng cao bao gồm: - ComBox để chọn trƣờng cần tìm kiếm - TextBox để gõ từ khóa cần tìm kiếm - ComBox để chọn từ khóa quan hệ (and, or, not) Mỗi lần nhấn thêm vào tìm kiếm (Add to Search Box) điều kiện đƣợc thêm vào Hiển thị thông tin: - Phân trang: Mỗi lần ấn Tìm kiếm (Search) kết thị theo trang kết quả, kết tìm đƣợc thị trang, tất số trang đƣợc lƣu ComboBox, cho phép chọn đến trang bất kì, chọn số lƣợng kết trang - Hiển thị kết tìm kiếm theo chuẩn FASTA GENBANK 2) Chức nhập liệu (Add data) Mô tả chức Chức nhập liệu cho phép ngƣời sử dụng thêm ghi trình tự EST, Nucleotide tôm sú đƣợc lƣu trữ Viện cơng nghệ sinh học vào CSDL Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 59 Đặc tả chi tiết chức Giao diện nhập thông tin chung ngƣời sử dụng vào chức - Type (Loại chuỗi gien): Cho phép chọn chuỗi Nucleotide, Protein EST cần nhập - Accession (Mã hiệu chuỗi gien), Name (Tên chuỗi gien), Definition (Định nghĩa), Origin (Nguồn gốc): Do ngƣời sử dụng nhập vào Sau nhập thông tin trên, nhấn nút Confirm (Chấp nhận) xuất Form nhập thông tin chi tiết cho chuỗi cần nhập: - Change (Thay đổi): Cho phép ngƣời sử dụng thay đổi lại thông tin nhập CSDL Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 60 - Add new (Thêm mới): Cho phép ngƣời sử dụng thêm ghi vào CSDL Giao diện nhập chi tiết cho chuỗi: - Save (Ghi liệu): Thực ghi liệu chuỗi gien tôm Sú Sau thực chức này, hai chức ghi thông tin tham chiếu gien đặc trƣng gien xuất hiện, cho phép NSD lƣu thêm thông tin tham chiếu đặc trƣng chuỗi gien Chú ý rằng, chức ghi liệu chuỗi gien đƣợc thực lần, hai chức ghi thông tin tham chiếu gien ghi thông tin đặc trƣng gien thực nhiều lần thơng tin có nhiều ghi có mã chuỗi gien Nếu thơng tin đƣợc lƣu có thông báo cho ngƣời sử dụng biết.Nếu thông tin Accession tồn sở liệu, lƣu thơng tin, có thơng báo cho ngƣời sử dụng biết để thay đổi - Update (Cập nhật): Giúp ngƣời quản trị cập nhật lại thông tin cần thay đổi đƣợc lƣu lại trƣớc Nếu thơng tin đƣợc cập nhật có thơng báo cho ngƣời quản trị biết - Delete (Xóa liệu): có chức xóa form này: Xóa thơng tin tham chiếu: giúp xóa thơng tin tham chiếu vừa đƣợc lƣu trữ Xóa thơng tin đặc trƣng: giúp xóa thơng tin đặc trƣng vừa đƣợc lƣu trữ Xóa tất cả: giúp xóa tất thơng tin chuỗi gien, tham chiếu đặc trƣng vừa đƣợc lƣu trữ Khi ngƣời sử dụng chọn chức xóa liệu có thơng báo hỏi trƣớc thực việc xóa thơng tin.Nếu thơng tin đƣợc xóa có thơng báo cho ngƣời sử dụng biết Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 61 3) Chức cập nhật liệu (Update data) Mô tả chức Chức cập nhật liệu cho phép ngƣời sử dụng cập nhật ghi có CSDL chuỗi EST, Nucleotide, Protêin tôm Sú Đặc tả chi tiết chức Giao diện ngƣời sử dụng vào chức năng: - Khi ngƣời sử dụng nhập thông tin mã chuỗi gien (Accession), chức hiển thị (Show) hiển thị ghi có mã chuỗi gien nhập hình Trái lại, có thơng báo u cầu nhập thơng tin - Gợi ý (Suggestion): Hiển thị thông tin mã chuỗi gien (Accession) gần giống với mã chuỗi gien ngƣời sử dụng nhập vào nhằm mục đích giúp đƣa gợi ý ngƣời sử dụng khơng nhớ xác thơng tin mã chuỗi gien mà cần - Cập nhật (Edit): Chức bao gồm hai chức cập nhật (Update) hủy (Cancel) Khi ngƣời sử dụng muốn thay đổi ghi đó, chọn chức cập nhật, hai chức cập nhật hủy hiển thị Sau thay đổi thông tin ghi nhƣ mong muốn, chức cập nhật giúp ngƣời sử dụng cập nhật lại thông tin vào sở liệu Nếu không muốn thay đổi thơng tin ghi ngƣởi sử dụng chọn chức hủy Nếu ghi đƣợc cập nhật có thơng báo cho ngƣời sử dụng biết - Xóa liệu (Delete): Chức xóa ghi chuỗi gien tơm Sú giúp ngƣời sử dụng xóa ghi thơng tin bảng lƣu trữ chuỗi gien tôm Sú (TrinhTu), đồng thời ghi hai bảng tham chiếu (ThamChieu) đặc trƣng (DacTrung) có mã chuỗi gien nhập bị xóa Chức xóa ghi tham chiếu xóa ghi đặc trƣng giúp ngƣời sử dụng xóa ghi thông tin hai bảng tham chiếu đặc trƣng, hai chức xóa tách biệt, khơng làm ảnh hƣởng đến ghi thơng tin bảng cịn lại Nếu ghi đƣợc xóa có thơng báo cho ngƣời sử dụng biết Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 62 - Thêm liệu (Add): Chức thêm liệu tham chiếu thêm liệu đặc trƣng giúp ngƣời sử dụng thêm ghi vào hai bảng lƣu thông tin tham chiếu (ThamChieu) đặc trƣng (DacTrung) 4) Chức nạp liệu từ tệp XML (Load XML) Mô tả chức Chức cho phép nạp liệu vào CSDL từ tệp XML chứa thông tin chuỗi Nucleotide, Protein EST tôm Sú theo định dạng INSDSeq XML Các tệp XML đƣợc lấy từ ngân hàng Gen giới (GenBank) Internet Mơ hình chức CSDL ngân hàng Gen giới Tệp XML CSDL chuỗi gien tôm Sú (Database) Đặc tả chức Cho phép chọn nạp liệu vào hệ thống CSDL theo chuỗi sau: Nạp liệu chuỗi EST Nạp liệu chuỗi Nucleotide Nạp liệu chuỗi Protein Ghi liệu vào bảng lƣu trữ liệu chuỗi Nucleotide, Protein EST (TrinhTu), bảng lƣu trữ thông tin tham chiếu (ThamChieu) bảng lƣu trữ thông tin đặc trƣng (DacTrung) từ tệp XML (INSDSeq) lấy từ Internet Các trƣờng sau ghi liệu ngầm định vào bảng TrinhTu Mã loại gien (LoaiGien): Ghi giá trị mã loại gien (LoaiGien) bảng danh mục chuỗi Nucleotide, Protein EST (LoaiGien) đƣợc chọn NhapLieu: Ngầm định ghi giá trị „0‟ (Dữ liệu đƣợc nạp vào CSDL từ Internet), liệu đƣợc nhập vào CSDL, trƣờng nhận giá trị „1‟ 5) Chức BLAST Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 63 Tạo CSDL BLAST: Với ghi CSDL chung ta xuất tệp Text theo chuẩn Fasta, CSDL Blast tập hợp tệp Text chuẩn Fasta CSDL chung (Database) Tệp Fasta CSDL Blast Thực BLAST: Với trình tự nhập vào (Nucleotide Protein) chƣơng trình thực BLAST (BLAST P BLAST N) hiển thị kết theo khn dạng FASTA GENBANK Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 64 3.4 Một số giao diện chƣơng trình 3.4.1 Giao diện trang chủ 3.4.2 Nạp liệu từ tệp XML Cho phép nạp thông tin từ tệp XML chứa chuỗi Protein, Nucleotide, EST Tôm sú lấy từ ngân hàng Gen vào hệ thống CSDL Giao diện nạp liệu từ XML 3.4.3 Nhập liệu trình tự Protein, Nucleotide, EST Ngồi chức nạp thơng tin vào hệ thống CSDL từ tệp XML tải từ ngân hàng Gene hệ thống cịn hỗ trợ chức cập nhật thông tin, cho phép NSD cập nhật thông tin chuỗi Protein, Nucleotide, EST có Viện cơng nghệ sinh học vào hệ thống CSDL Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 65 Chức cho phép nhập thông tin chuỗi gien, nhập thông tin tham chiếu nhập thông tin đặc trƣng Giao diện nhập thông tin chuỗi gien tôm Sú (Locus Informations) Giao diện nhập thông tin tham chiếu (Reference Informations) Giao diện nhập thơng tin đặc trƣng (Features Informations) Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 66 3.4.4 Tra cứu thông tin Giao diện tra cứu thông tin Kết tra cứu hiển thị theo chuẩn GENBANK Kết tra cứu hiển thị theo chuẩn FASTA Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 67 3.4.5 Tìm kiếm chuỗi tƣơng đồng BLAST Nút tạo Private Database Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 68 KẾT LUẬN Những kết luận văn Luận văn đạt đƣợc hai kết chính: 1) Nắm bắt đƣợc khái niệm tin sinh học, bao gồm: khái niệm sinh học phân tử, toán tin sinh học sở liệu sinh học lớn giới; Nắm bắt đƣợc thuật tốn giải tốn phân tích mối quan hệ trình tự (bài tốn hàng trình tự), tốn cốt yếu tin sinh học 2) Xây dựng ứng dụng thử nghiệm làm sáng tỏ vấn đề nghiên cứu lý thuyết, bao gồm sở liệu lƣu trữ trình tự gien tơm Sú tích hợp cơng cụ BLAST tìm kiếm trình tự tƣơng đồng sở liệu đƣợc xây dựng Hƣớng phát triển Tiếp tục nghiên cứu thử nghiệm tốn khác tin sinh học Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 69 Tài liệu tham khảo Tài liệu tiếng Việt [1] Nguyễn Văn Cách, Tin sinh học, Đại học Bách Khoa Hà Nội, 2005 [2] Ngô Công Thắng, Bài giảng tin sinh học, Trƣờng Đại học Nông nghiệp Hà Nội [3] Võ Hồng Bảo, Cải tiến ClustalW cho tốn hàng đa trình tự, Luận văn Thạc sĩ, Đại học Quốc gia thành phố Hồ Chí Minh Tài liệu tiếng Anh [4] A Lesk, Introduction to Bioinformatics, Oxford University Press, 2008 [5] [8] Jo McEntyre, Jim Ostell (eds), The NCBI Handbook, Bethesda: National Center for Biotechnology Information, 2002 Richard Durbin, Sean R Eddy, Anders Krogh, Graeme Mitchison, Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids, Cambridge: Cambridge University Press, 1998 Salemi and Vandamme (eds), The Phylogenetics Handbook A Practical Approach to DNA and Protein Phylogeny, Cambridge: Cambridge University Press, Cambridge, 2003 EMBL database: http://www.embl.org/ [9] NCBI database: http://www.ncbi.nlm.nih.gov/ [10] DDBJ database: http://www.ddbj.nig.ac.jp/ [6] [7] Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ... mục tài liệu tham khảo Chƣơng trình bày khái niệm tin sinh học, toán tin sinh học, sở liệu sinh học lớn giới số ứng dụng tin sinh học Chƣơng trình bày tốn phân tích mối quan hệ trình tự thuật... mối quan hệ trình tự, gọi tắt phân tích trình tự Các tốn phân tích trình tự là: tìm kiếm trình tự tƣơng đồng sở liệu; hàng trình tự; chuyển đổi trình tự Mục tiêu phân tích trình tự là: Xác định... toán phân tích trình tự tin sinh học, phạm vi nghiên cứu thực nghiệm xây dựng sở liệu tích hợp cơng cụ BLAST tìm kiếm trình tự tƣơng đồng sở liệu trình tự gien tơm Sú (bao gồm trình tự nucltít,