Dữ liệu với số lượng chuỗi lớn ( > 200 chuỗi)

Một phần của tài liệu Các phương pháp sắp hàng đa chuỗi nhanh (Trang 26 - 27)

Trong trường hợp này, tốc độ đóng một vai trò vô cùng quan trọng. Trong trường hợp này ta có các phương pháp có thể chạy được là: MUSCLE, FFT-NS-1, FFT-NS-2. Những phương pháp này cho kết quả tương đối thấp, nhưng có tốc độ chạy khá cao. Do đó ta sẽ kiểm tra giới hạn của 3 phương pháp này, các test được trích từ bộ dữ liệu Pfam-A ( là bộ dữ liệu chỉ là một tập hợp các chuỗi protein). Với các test có số lượng chuỗi từ 200 đến 500 chuỗi.

Bảng 3: Kiểm tra các MUSCLE, FFT-NS2, FFT-NS1 với các test có số lượng chuỗi từ 200 đến 500 chuỗi.

Số lượng chuỗi MUSCLE FFT-NS-2 FFT-NS-1

300 – 350 47 / 183 / 136.8 8 / 19 / 13.2 7 / 20 / 12.4 350 – 400 74 / 339 / 167.6 12 / 31 / 18 8 / 21 / 12.8 400 – 450 102 / 604 / 257.4 15 / 56 / 26.2 13 / 48 / 22.8 450 – 500 145 / 738 / 372.2 18 / 60 / 34 16 / 49 / 27.6

Kết quả chỉ ra thời gian chạy nhanh nhất, lâu nhất của một test, và thời gian trung bình của các test đó. Từ những số liệu trên ta có thể thấy. MUSCLE chỉ nên chạy với các test dưới 400 chuỗi. Tiếp tục với các phương pháp FFT-NS2 và FFT-NS1, ta có:

Bảng 4: Kiểm tra FFT-NS2 với các dữ liệu có số lượng chuỗi lớn hơn 400

Số lượng chuỗi FFT-NS-2 500 – 1000 20 / 306 / 90.4167 1000 – 2000 97 / 454 / 219.455 2000 – 3000 250 / 535 / 397.727 3000 – 4000 350 / 631 / 486 4000 – 5000 497 / 824 / 651.4

Dựa vào các số liệu trên, ta có thể thấy FFT-NS-2 chỉ nên giới hạn chạy với các dữ liệu dưới 4000 chuỗi. Trong 2 phương pháp FFT-NS-2 và FFT-NS-1 thì FFT-NS-2 có bước xử lý thô là FFT-NS-1. Do đó FFT-NS-2 có tốc độ chậm hơn nhưng cho kết quả cao hơn FFT-NS-1. Trong các phương pháp được xét, FFT-NS-1 là phương pháp có tốc độ cao nhất, nhưng cho kết quả tồi nhất. Đây là phương pháp chỉ nên sử dụng khi các phương pháp khác đã không thể chạy được.

Một phần của tài liệu Các phương pháp sắp hàng đa chuỗi nhanh (Trang 26 - 27)