Thu thập nguồn gene và tổ chức dữ liệu gene
PHẦN D: KẾT QUẢ VÀ THẢO LUẬN 97 Hình 4.4: Kết cuối sau chƣơng trình phân Division chạy xong Dữ liệu ta đƣợc phân loại theo trƣờng riêng biệt, cấu tạo tầng liệu ta Thống kê kết cuối cùng, tất trình tự đƣợc phân loại vào trƣờng nhƣ sau: PLN: 3129 trình tự BCT: 476 trình tự VRL: 662 trình tự PAT: 228 trình tự SYN: 210 trình tự EST: 874 trình tự INV: 36 trình tự STS: trình tự GSS: 10 trình tự ENV: trình tự VRT: trình tự Qua khảo sát tài liệu record Genbank, có nhận xét sau: Các gene dùng thực vật biến đổi di truyền đa số từ thực vật, vi khuẩn, virus, ngồi cịn số trình tự đƣợc tổng hợp nhân tạo nhƣ CryIAb, cp4epsps… Các trình tự chủ yếu nằm khu vực PLN, BCT, VRL, PAT, SYN, EST, trƣờng cịn lại chứa trình tự dƣ thừa, ta cho tìm kiếm khu vực chứa trình tự quan tâm NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG PHẦN D: KẾT QUẢ VÀ THẢO LUẬN 98 V Java tiến hành xử lý liệu Xây dựng ứng dụng tra cứu liệu trình tự thông qua keyword ngƣời dùng chọn lựa nhập vào V.1 Các yêu cầu đặt Với keyword nhập vào, cần tìm đƣợc file chứa từ nội dung Để thơng tin tìm đƣợc mong muốn, ta tạo thêm giới hạn tìm kiếm Có hai mức giới hạn đƣợc đặt ra: Mức liệu: ta cho ngƣời dùng giới hạn tìm kiếm liệu: o Thực vật (Plant) o Vi khuẩn (bacterial) o Virus (viral) o EST (EST) o SYN (SYN) o PAT (PAT) Mức trƣờng record GenBank: o LOCUSID o Length o Molecular type o DEFINITION o ACCESSION NUMBER o VERSION o GI o ORGANISM o AUTHOR o TITLE o JOURNAL o Gene name o Product name Ngƣời dùng kết hợp yêu cầu qua toán tử AND, OR, NOT để tìm kiếm xác thơng tin cần tìm NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG PHẦN D: KẾT QUẢ VÀ THẢO LUẬN 99 V.2 Xử lý yêu cầu Java Biojava Phân tích nội dung liệu genbank Có thể phân nội dung thành hai phần: Phần tìm kiếm thơng tin liên quan đến trình tự: Bắt đầu từ trƣờng LOCUS đến phần bắt đầu trƣờng ORIGIN Phần tìm kiếm thơng tin trình tự: Tìm kiếm nội dung trƣờng ORIGIN Xử lý liệu tìm kiếm theo trƣờng Đầu tiên ta thực việc tách trƣờng mà u cầu nội dung tìm kiếm phải xác Các trƣờng đƣợc hình sau: Hình 5.1: Các trƣờng tìm kiếm xác Trƣớc hết tách trƣờng lớn nhƣ LOCUS, VERSION: Việc tách trƣờng đƣợc thực phƣơng thức cụ thể lớp GetFieldOfGenBank.java Phƣơng thức quan trọng lớp get(File file, String fieldRequest) Phƣơng thức nhận hai tham số nội dung file nội dung trƣờng cần tìm Tiếp theo tiến hành tách trƣờng nhỏ hai trƣờng LOCUS VERSION nhƣ hình Thực việc đƣợc đảm nhận phƣơng thức lớp Get FieldInLocVerAcc Các phƣơng thức đảm nhận việc tách GetFieldOfLocus(File file, String fieldRequest) GetFieldOfVersion(File file, String fieldRequest) Trƣờng ACCESSION tiến hành tƣơng tự Tiếp theo tiến hành tách trƣờng khác cung cấp thơng tin chức trình tự: NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG PHẦN D: KẾT QUẢ VÀ THẢO LUẬN 100 Hình 5.2: Các trƣờng cung cấp thơng tin trình tự cần tách Cách tách trƣờng (các trƣờng đƣợc khoanh đỏ) đƣợc thực phƣơng thức lớp GetFieldOfGenBank giống nhƣ lớp Trong trƣờng trƣờng FEATURES chứa thơng tin quan trọng trình tự Ở ta quan tâm thông tin vùng mã hóa CDS (đƣợc đóng khung) Các thơng tin trƣờng CDS thƣờng tên gene, tên sản phẩm trình tự, trình tự amino acid tƣơng ứng Đây nội dung quan trọng cần cho tìm kiếm hiển thị kết Mỗi nội dung trƣờng CDS đƣợc bắt đầu biểu tƣợng “/” sau tên tiêu mục nội dung dấu “=” cuối nội dung tiêu NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG PHẦN D: KẾT QUẢ VÀ THẢO LUẬN 101 mục, ví dụ /gene= : bắt đầu nội dung tên gene Dựa vào điều ta tạo phƣơng thức lớp GetFieldInSmallFieldOfFeature để tách phần nội dung Thực tìm kiếm trình tự trƣờng ORIGIN Phần ta ứng dụng mã biojava để xử lý Lớp CheckOriginRequest làm nhiệm vụ tìm kiếm cho trƣờng Đến ta hồn thành tìm kiếm trƣờng cụ thể, việc tìm kiếm tất trƣờng đƣợc thực cách xét trƣờng, tìm thấy nội dung trƣờng việc tìm kiếm đƣợc dừng lại V.3.Thiết kế giao diện Qua tham khảo giao diện trang web giới theo yêu cầu thực tế đề tài, trang giao diện đƣợc thiết kế nhƣ sau: NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG PHẦN D: KẾT QUẢ VÀ THẢO LUẬN Hình 5.3: Trang giao diện tìm kiếm GM Databases NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 102 PHẦN D: KẾT QUẢ VÀ THẢO LUẬN 103 Thiết kế trang giao diện chúng tơi dựa theo tiêu chí sau: Khung tìm kiếm tạo thuận lợi, dễ chọn lựa, không phức tạp rắc rối ngƣời dùng Hình 5.4: Nội dung trang tìm kiếm Phần hƣớng dẫn, giúp ngƣời sử dụng hiệu với chọn lựa tìm kiếm Chữ viết tắt đầu trang: NLBI chữ viết tắt tên nhóm nghiên cứu Tin – Sinh học Đại Học Nông Lâm Tp.HCM (Nông Lâm BioInformatics) Trên mục ngang đầu trang web có liên kết đến trang cung cấp thông tin chung nhƣ: NLBI Home: liên kết đến trang chủ, cung cấp đầy đủ thơng tin có nhóm bioinformatics Đại Học Nơng Lâm About NLBI: cung cấp thơng tin nhóm bioinformatics Đại Học Nông Lâm Contact Us: cung cấp cách tiếp cận sở liệu có nhóm Help: cung cấp thông tin hỗ trợ cho tất nội dung có NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG PHẦN D: KẾT QUẢ VÀ THẢO LUẬN 104 Trong khung mục phía trái trang web có mục: Index, Tools, Documentation, News Những mục liên kết tới trang thông tin hỗ trợ trang NLBI Search nhƣ: Index: liệt kê tất kiểu tìm kiếm có Tools: cung cấp cơng cụ phân tích trình tự hoạt động web server hay software download Documentation: cung cấp tài liệu trang NLBI search nhƣ cách hoạt động trang, dẫn tìm kiếm thơng tin hiệu quả… News: thông tin cập nhật trang NLBI search Ngồi ra, trang web cịn đƣợc trang trí với màu sắc dễ nhìn mang tính đặc trƣng riêng nhóm làm việc Các mục trang web sau mở rộng, nâng cao, tăng tính tìm kiếm, tăng hỗ trợ cho ngƣời sử dụng, … Một tiện lợi nhỏ trang web tìm kiếm ngồi khả tìm kiếm liệu GM Database NLBI, ngƣời sử dụng cần thiết chọn lựa tìm kiếm liệu trang tìm kiếm lớn giới GenBank, EMBL, DDBJ, thời gian để mở cửa sổ tìm kiếm khác máy tính V.4 Lập trình hiển thị giao diện sử dụng a) Lập trình web Kết sau xử lý đƣợc hiển thị giao diện web Nội dung hiển thị tạo thuận lợi cho ngƣời dùng việc nắm bắt thơng tin trình tự tìm đƣợc Cụ thể: Trang tìm kiếm với giao diện hƣớng dẫn tạo thuận lợi cho tìm kiếm Kết tìm kiếm đƣợc hiển thị mặc định dạng thông tin tóm tắt tiện cho ngƣời dùng có khái niệm khái qt trình tự Có thể hiển thị linh động sang kiểu hiển thị nội dung khác nhƣ: Thể đầy đủ thông tin dƣới dạng GenBank Thể trình tự dạng FASTA Thể vùng trình tự mã hóa (CDS) dƣới dạng FASTA Thể trình tự amino acid dƣới dạng FASTA Nội dung hiển thị đƣợc xem dƣới dạng web (HTML) hay dạng văn (text) NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG PHẦN D: KẾT QUẢ VÀ THẢO LUẬN 105 Giao diện web đƣợc thiết kế với hai công cụ thiết kế thơng dụng Frontpage Dreamweaver, sau đƣợc chuyển mã vào Java Servlet Công nghệ Java Servlet cho phép kết nối ứng dụng web với sở liệu b) Ứng dụng Java Servlet lập trình web Ứng dụng tìm kiếm: Hình 5.5: Một trƣờng hợp tìm kiếm web Đây trang web tìm kiếm keyword, để trang web hoạt động ta chuyển mã trang thành mã Java Servlet (sau cải tiến cách dùng JSP công cụ khác) Ở ta lấy ví dụ cụ thể cách tìm kiếm để minh họa cụ thể cách hoạt động trang web: Chúng ta nhập nội dung tìm kiếm vào khung Search for, ta nhập keyword PAT Trong khung Limited Field ta chọn trƣờng tìm kiếm cụ thể, ta chọn Anyfields NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG PHẦN D: KẾT QUẢ VÀ THẢO LUẬN 106 Trong khung Choose Database, chọn nhóm liệu tìm kiếm ta chọn Patent Database Sau ngƣời dùng nhấn Submit yêu cầu đƣợc gởi lên máy chủ, máy chủ gởi yêu cầu đến Servlet Controller kèm theo tham số mà ngƣời dùng chọn lựa submit Tại lớp Controller nhận vào sở liệu cần tìm, đọc nội dung folder liệu lần lƣợt lấy hết tham số cần thiết cho việc tìm kiếm nhƣ: nội dung trƣờng cần tìm Tiếp theo tiến hành tìm kiếm lần lƣợt file folder, kết trả file lƣu giữ biến session (là danh sách file thỏa việc tìm kiếm) Việc thực tìm kiếm theo tham số nhận vào đƣợc thực lớp Check Sau có đƣợc tham số chƣơng trình gọi hàm check(String fileName, String fieldName, String value) ba tham số nhận vào lần lƣợt tên file liệu cần tìm, trƣờng cụ thể muốn tìm kiếm nội dung tìm kiếm Trƣớc việc tìm kiếm đƣợc thực chƣơng trình kiểm tra xem trƣờng tìm kiếm Anyfield hay LimitedField Nếu AnyField thực tìm kiếm trƣờng phƣơng thức checkAllField(File file, String value) Nếu LimitedField tìm kiếm trƣờng cụ thể phƣơng thức checkLimitedField(File file, String fieldName, String value) Việc kiểm tra trƣờng cụ thể đƣợc truyền cho lớp khác thực Cụ thể: Tìm kiếm trƣờng LOCUS, VERSION, ACCESSION đƣợc thực lớp CheckFieldOfVerAcc Phƣơng thức quan trọng thực nhiệm vụ check(File file, String fieldRequest, String valueRequest) Việc thực tìm kiếm cho trƣờng khác đƣợc thực lớp CheckOtherRequest Các phƣơng thức lớp lấy nội dung trƣờng cần tìm thực phƣơng thức Contain kiểm tra xem nội dung có chứa nội dung mà ngƣời dùng nhập vào hay không, kết tra boolean (true hay false) Tiếp theo tìm kiếm nội dung CDS, việc đƣợc đảm nhận phƣơng thức lớp CheckFieldInSmallFieldOfFeature Các NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG PHẦN D: KẾT QUẢ VÀ THẢO LUẬN 107 phƣơng thức lớp lấy nội dung từ khố cần tìm kiếm thực so sánh với nội dung mà ngƣời dùng nhập vào Cuối tìm kiếm cho trình tự Cách tìm kiếm đƣợc mô tả bên trên, đƣợc thực phƣơng thức CheckOriginRequest Sau tìm kiếm file thỏa yêu cầu, công việc định dạng kết để xuất Danh sách file thỏa đƣợc chuyển sang lớp Servlet Result Phƣơng thức doGet lớp tự động gọi chuyển yêu cầu xuất kết mặc định summary sang lớp Servlet printSummaryHTML, gọi phƣơng thức lấy liệu xuất kết kèm theo mã HTML Kết đƣợc xuất nhƣ sau: Hình 5.6: Thể kết tìm kiếm với nội dung tóm tắt NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG PHẦN D: KẾT QUẢ VÀ THẢO LUẬN 108 Tại lớp Servlet lƣu trữ biến session, lƣu lại tham số mà ngƣời dùng chọn lựa định dạng kết danh sách file Khi ngƣời dùng chọn lựa nhấn view phƣơng thức doPost lớp đƣợc gọi thực hành động gọi tiếp phƣơng thức doPost lớp Result, xử lý chọn định dạng mà ngƣời dùng muốn xuất, cuối gọi trang xuất thích hợp cụ thể nhƣ: dạng GenBank, dạng FASTA… Dạng GenBank: phƣơng thức doPost lớp Result lấy yêu cầu gọi trang xuất lớp Servlet PrintGenbankHTML Dạng CDS FASTA: tƣơng tự, lớp printCdsNuclotideSeqHTML đƣợc gọi Phần ta lấy đoạn trình tự CDS phần ORIGIN, ban đầu lấy vị trí giới hạn CDS, sau gọi phƣơng thức writeSequence(PrintStream out, int origin, int destination) lớp PrintOrigin Dạng Nucleotide sequences FASTA: lớp PrintNucleotideSeqFastaHTML đƣợc gọi Trong lớp gọi phƣơng thức writeSequence, phƣơng thức writeSequence thuộc lớp PrintOrigin thực in hết Origin Dạng CDS amino acid Seq FASTA: lớp PrintCdsAAcidSeqFastaHTML đƣợc gọi Lớp lấy nội dung “/translation=” CDS thực in hàng 60 ký tự VI Kết giao diện tìm kiếm với liệu tập hợp đƣợc Sau xử lý liệu với Java Servlet thiết kế giao diện cho ngƣời dùng Ta đƣợc kết nhƣ sau: Giao diện trang tìm kiếm NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG PHẦN D: KẾT QUẢ VÀ THẢO LUẬN Hình 6.1: Trang chủ tìm kiếm trình tự GM Plants keyword NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 109 PHẦN D: KẾT QUẢ VÀ THẢO LUẬN 110 Trang cho phép ta nhập keywords cần tìm, chọn trƣờng giới hạn, chọn sở liệu cần tìm sau nhấn nút submit để tìm kiếm Keywords đƣợc kết hợp với theo toán tử AND, OR, NOT Theo mặc định keywords đƣợc tìm kiếm sở liệu NLBI (Nông Lâm Bioinformatics Group) Các sở liệu Genbank, EMBL, DDBJ chƣa tích hợp đƣợc Ta thực ví dụ hoạt động trang web: Ta tìm kiếm trình tự tổng hợp 5-enolpyruvylshikimate-3-phosphate (enzyme kháng thuốc diệt cỏ) sở liệu vi khuẩn Ta thực nhƣ sau: Hình 6.2: Nhập keyword cần tìm vào khung tìm kiếm NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG PHẦN D: KẾT QUẢ VÀ THẢO LUẬN 111 Sau đánh keywords, chọn trƣờng sở liệu thích hợp ta nhận nút submit thực tìm kiếm Ta thu đƣợc kết sau: Hình 6.3: Trang kết tìm kiếm mặc định dạng Summary NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG PHẦN D: KẾT QUẢ VÀ THẢO LUẬN 112 Theo mặc định kết xuất dạng tóm tắt (Summary) Tại trang ta thị kết khác thể khung displays, chọn kiểu format, kết xuất tối đa trang Sau vài hiển thị: Biểu diễn dạng Genbank NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG PHẦN D: KẾT QUẢ VÀ THẢO LUẬN Hình 6.4: Trang biểu diễn kết dạng GenBank NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 113 PHẦN D: KẾT QUẢ VÀ THẢO LUẬN Biểu diễn trình tự dƣới dạng FASTA Hình 6.5: Trang biểu diễn kết dạng FASTA Biểu diễn vùng trình tự mã hóa (CDS) dạng FASTA Hình 6.6: Trang biểu diễn vùng trình tự mã hóa (CDS) dạng FASTA NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 114 PHẦN D: KẾT QUẢ VÀ THẢO LUẬN Biểu diễn trình tự aminoacid CDS mã hóa, dạng FASTA Hình 6.7: Trang Biểu diễn trình tự aminoacid CDS mã hóa, dạng FASTA NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG 115 PHẦN D: KẾT QUẢ VÀ THẢO LUẬN 116 Bất kỳ kết biểu diễn chọn lựa định dạng HTML text Sau biểu diễn genbank thể dạng text Hình 6.8: Trang biểu diễn kết dạng text kiểu GenBank NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG ... D: KẾT QUẢ VÀ THẢO LUẬN 98 V Java tiến hành xử lý liệu Xây dựng ứng dụng tra cứu liệu trình tự thơng qua keyword ngƣời dùng chọn lựa nhập vào V.1 Các yêu cầu đặt Với keyword nhập vào, cần tìm... nội dung tiêu NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG PHẦN D: KẾT QUẢ VÀ THẢO LUẬN 101 mục, ví dụ /gene= : bắt đầu nội dung tên gene Dựa vào điều ta tạo phƣơng thức lớp GetFieldInSmallFieldOfFeature... 5-enolpyruvylshikimate-3-phosphate (enzyme kháng thu? ??c diệt cỏ) sở liệu vi khuẩn Ta thực nhƣ sau: Hình 6.2: Nhập keyword cần tìm vào khung tìm kiếm NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG PHẦN D: KẾT QUẢ VÀ THẢO LUẬN 111 Sau đánh