Bảng kết quả các lần thử phƣơng pháp tìm kiếm chuỗi tƣơng tự nhanh áp

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu thuật toán tìm kiếm chuỗi DNA sử dụng phương pháp tìm kiếm tương tự nhanh nguyễn, hoàng anh luận văn ths máy tính 60 48 01 (Trang 48 - 51)

tự nhanh áp dụng N-Gram

2.3.1. Định dạng chuỗi cơ sở dữ liệu

Trong bài viết, các tệp cơ sở dữ liệu được sử dụng để tìm kiếm chuỗi con trong đó đều được định dạng theo chuẩn FASTA. Định dạng này ban đầu được sử dụng làm đầu vào cho chương trình phần mềm FASTA của NCBI (Trung tâm quốc gia công nghệ tin sinh - Mỹ). Do cấu trúc định dạng tệp đơn giản và tiện dụng nên hiện nay FASTA đã trở thành một chuẩn trong lĩnh vực tin - sinh học.

Định dạng FASTA là một định dạng tệp văn bản, thể hiện cho một trong hai loại chuỗi dưới dạng số hóa: chuỗi nucleotide hoặc amino axit. Một tệp ở định dạng FASTA gồm nhiều dòng. Dòng đầu tiên (còn gọi là dòng tiêu đề) dùng để mô tả thông tin chuỗi trong ngân hàng CSDL. Ký tự đầu tiên của dòng này là ký tự ">" (dấu lớn hơn) hoặc ";" (dấu chấm phẩy - ít gặp). Ký tự này nhằm giúp chương trình

biết được đây là ký tự đầu tiên bắt đầu của tệp. Các thông tin tiếp theo của dòng đầu tiên cho biết các nội dung lần lượt như sau: tên chuỗi, chú thích, ký hiệu chuỗi trong ngân hàng CSDL (với mỗi trung tâm dữ liệu khác nhau, mã chuỗi là khác nhau), vị trí bắt đầu, vị trí kết thúc trong chuỗi DNA gốc, tên loài (trong định dạng FASTA, chỉ dòng đầu tiên được sử dụng để mô tả chuỗi). Bất cứ ký tự nào không thuộc mã hợp lệ (vd: khoảng trống, dấu hoa thị, v.v ...), khi chương trình đọc dòng đầu tiên này sẽ được bỏ qua.

Ngoại trừ dòng đầu tiên, tất cả các dòng tiếp theo là các dòng mô tả trình tự chuỗi nucleotide hoặc amino axiet dưới dạng số hóa: mỗi dòng thường có ít hơn 80 ký tự. Chuỗi Nucleotide gồm một loạt các ký tự A, T, G, C nằm liên tiếp, xem kẽ với nhau, cũng có thể nhiều ký tự giống nhau nằm gần nhau. Chuỗi Amino axit gồm nhiều ký tự hơn: A, B, C, D… (có thể bao gồm cả dấu gạch ngang “-“, dấu “*”). Do sự đơn giản của FASTA nên nhiều công cụ như Python, Ruby, PERL, C++… có thể dễ dàng truy xuất và thao tác trên định dạng này. [17]

>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken

ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA DIDGDGQVNYEEFVQMMTAK*

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]

LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY Hình 2.10. Ví dụ định dạng tệp FASTA

2.3.2. Bảng kết quả các lần thử phƣơng pháp tìm kiếm chuỗi tƣơng tự nhanh áp dụng N-Gram

Tất cả các dữ liệu được thử nghiệm trên các bộ dữ liệu chuẩn. Dữ liệu đầu vào là các tệp định dạng FASTA trích xuất từ chuỗi gen gốc của ngân hàng dữ liệu gen NCBI, gen được tải về miễn phí phục vụ cho mục đích nghiên cứu. Chuỗi cần tìm kiếm được nhập từ bàn phím. Chuỗi cần tìm kiếm sẽ được so sánh với dữ liệu từ điển trong tệp FASTA để biết được chuỗi nhập từ bàn phím cần tìm kiếm có trong dữ liệu từ điển đó không, có bao nhiêu chuỗi có mặt trong dữ liệu từ điển đó. Kết quả quá trình tìm kiếm sẽ được hiển thị lên màn hình. Chương trình được thực hiện qua hai bước. Bước một: tiền xử lý và bước hai: tìm kiếm và hiển thị kết quả. Chi tiết các bước đã được người viết đề cập ở mục 2.2.

Chương trình được thực hiện với 11 lần thử. Với các cơ sở dữ liệu mẫu được trích xuất từ bộ gen gốc trong cơ sở dữ liệu gen của NCBI. Chi tiết các lần thử được thể hiện ở bảng 2.1.

STT Tên loại gen

Dung lượng tệp đầu vào (byte)

Bộ nhớ RAM sử dụng (byte)

Thời gian (giây) Tiền xử lý Tìm kiếm Hiển thị kết quả 1 Chr-1 1 000 ~ 1 000 000 1 2 1 2 Chr-2 5 000 ~ 2 000 000 4 2 1 3 Chr-3 8 000 ~ 3 000 000 7 2 1 4 Chr-4 10 000 ~ 4 000 000 8 3 1 5 Chr-5 12 000 ~ 5 000 000 10 3 1 6 Chr-6 100 000 ~ 10 000 000 30 4 1 7 Chr-7 1 008 000 ~ 15 000 000 58 5 1 8 Chr-8 2 107 000 ~ 20 000 000 71 7 1 9 Chr-9 12 000 000 ~ 400 000 000 308 11 1 10 Ec-1 4 584 860 ~ 30 000 000 100 8 1 11 Ec-2 5 100 000 ~ 40 000 000 120 8 1

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu thuật toán tìm kiếm chuỗi DNA sử dụng phương pháp tìm kiếm tương tự nhanh nguyễn, hoàng anh luận văn ths máy tính 60 48 01 (Trang 48 - 51)