CHƯƠNG 3 : THỰC NGHIỆM VÀ KẾT QUẢ
3.1. Xây dựng công cụ phân tích tập hợp hệ gen vi khuẩn
3.1.3. Kết quả đánh giá quy trình thêm mẫu
Nghiên cứu của chúng tơi đã tạo ra một quy trình phân tích mới là quy trình thêm mẫu. Quy trình thêm mẫu được tạo ra nhằm thay thế cho việc chạy lại cả bộ dữ liệu từ đầu khi có thêm mẫu mới. Vì vậy, quy trình thêm mẫu được so sánh với việc sử dụng quy trình phân tích thơng thường để phân tích cả bộ dữ liệu. Bộ dữ liệu được chia ra làm 2 phần. Quy trình thêm mẫu được sử dụng để thêm các mẫu của phần 2 vào kết quả phân tích phần 1. Số mẫu được thêm vào sẽ thay đổi nhằm đánh giá ảnh hưởng của số lượng mẫu tới quy trình phân tích mới.
0.9 0.92 0.94 0.96 0.98 1 R an d In d ex h iệ u ch ỉn h
28
3.1.3.1. Kết quả đánh giá hiệu năng của quy trình thêm mẫu
Thời gian thêm mẫu được so sánh với thời gian phân tích cả bộ dữ liệu. Kết quả so sánh trên 3 bộ dữ liệu Sp100, Pa100 và Kp100 được thể hiện ở Hình 3.6 và Phụ lục
2 – Hình S7, S8.
Hình 3.6. Đánh giá thời gian thêm mẫu trên bộ dữ liệu Kp100
Nhận xét:
- Nếu số mẫu được thêm vào nhỏ, thời gian thêm mẫu sẽ ngắn. Với bộ dữ liệu Kp100, thêm một mẫu sẽ mất 48 giây, trong khi chạy lại cả 100 mẫu sẽ mất 43 phút.
- Thời gian thêm mẫu luôn nhỏ hơn thời gian chạy lại cả bộ dữ liệu. Thời gian để thêm 98 mẫu cũng chỉ bằng 40% đến 55% thời gian phân tích lại cả 100 mẫu.
- Việc chia nhỏ bộ dữ liệu để phân tích sử dụng quy trình thêm mẫu sẽ rút ngắn được thời gian so với phân tích cả bộ dữ liệu trong một lần. Ví dụ, khi chia bộ dữ liệu theo tỉ lệ 25 mẫu phân tích trước, 75 mẫu thêm vào sau, tổng thời gian của 2 bước phân tích cũng chỉ bằng 55% tới 65% thời gian phân tích cả 100 mẫu trong một lần.
Bộ nhớ sử dụng khi thêm mẫu cũng được so sánh với bộ nhớ sử dụng khi phân tích lại cả bộ dữ liệu. Kết quả so sánh trên bộ dữ liệu Kp100 được thể hiện ở Hình 3.7.
0 500 1000 1500 2000 2500 2/98 25/75 50/50 75/25 99/1 Th ờ i g ia n (s)
Số mẫu ban đầu / số mẫu thêm
Thêm mẫu Phân tích ban đầu
29
Hình 3.7. Đánh giá bộ nhớ sử dụng khi thêm mẫu trên bộ dữ liệu Kp100
Nhận xét:
- Với phân tích ban đầu sử dụng quy trình phân tích thơng thường, bộ nhớ sử dụng của Panta tăng tuyến tính theo số mẫu được phân tích.
- Lượng bộ nhớ sử dụng khi thêm mẫu tỉ lệ thuận với số mẫu được thêm vào. Số mẫu được thêm vào càng nhỏ, lượng bộ nhớ sử dụng để thêm mẫu càng thấp.
- Khi thêm một lượng mẫu nhỏ vào phân tích, lượng bộ nhớ sử dụng để thêm mẫu sẽ nhỏ hơn đáng kể so với phân tích lại cả bộ dữ liệu. Ví dụ, với bộ dữ liệu Kp100, thêm một mẫu cần dùng 273 MegaByte (MB) bộ nhớ, trong khi để chạy lại 100 mẫu cần tới 616 MB bộ nhớ.
3.1.3.2. Kết quả đánh giá kết quả phân tích của quy trình thêm mẫu
Kết quả phân tích sử dụng quy trình thêm mẫu của Panta được so sánh với kết quả phân tích cả bộ dữ liệu sử dụng quy trình thơng thường của Panta, Roary, Panaroo, PIRATE và PanX. Mức độ tương đồng về mặt kết quả của các phương pháp được đánh giá bằng chỉ số Rand Index hiệu chỉnh. Kết quả đánh giá trên 3 bộ dữ liệu Sp100, Pa100 và Kp100 được thể hiện ở Hình 3.8 và Phụ lục 2 – Hình S9, S10. 0 100 200 300 400 500 600 700 2/98 25/75 50/50 75/25 99/1 Bộ n h ớ (M B)
Số mẫu ban đầu / số mẫu thêm
Phân tích ban đầu Thêm mẫu
30
Hình 3.8. So sánh kết quả phân cụm trình tự giữa quy trình thêm mẫu của Panta với các quy trình thơng thường đánh giá trên bộ dữ liệu Sp100
Nhận xét:
- Quy trình thêm mẫu của Panta cho kết quả tương đồng với quy trình phân tích
thơng thường của các công cụ Panta, Roary, PIRATE, Panaroo và PanX. Chỉ số Rand Index hiệu chỉnh ở tất cả các trường hợp đều cao hơn mức 0,9. Với bộ dữ liệu Sp100 và Pa100, mức độ tương đồng giữa 2 phương pháp là rất cao, khi chỉ số Rand Index hiệu chỉnh đều trên mức 0,97.
- Quy trình thêm mẫu có kết quả giống nhất với quy trình phân tích thơng thường của chính cơng cụ Panta. Và đặc biệt, khi số mẫu được thêm vào càng nhỏ, mức độ tương đồng kết quả càng tăng lên.