3.5 Kết quả thực nghiệm
3.5.2 Khả năng tìm được cây có điểm MP tốt nhất
Do tốc độ của MPBoot có thể phải đánh đổi với khả năng tìm ra điểm MP tốt nhất trên các sắp hàng gốc, luận án so sánh các điểm MP tốt nhất tìm được theo các
phương pháp khác nhau cho sắp hàng gốc (cả dữ liệu mô phỏng và dữ liệu thực). Để làm điều này, chúng tơi tính tần suất mà mỗi phương pháp thu được điểm số tốt nhất
Hình 3.3. Hiệu năng của các phương pháp khảo sát trong việc xây dựng cây MP cho sắp hàng gốc. Các biểu đồ cột cho thấy tần suất mà mỗi trong số năm phương pháp khảo sát
thu được điểm MP tốt nhất cho sắp hàng gốc trong (A) bộ dữ liệu mô phỏng PANDIT và
(B) bộ dữ liệu TreeBASE.
Cần lưu ý rằng, trong so sánh này, các điểm MP của cây xây dựng bởi MPBoot
và TNT đã được tính lại bằng PAUP*. Lưu ý thêm rằng điểm MP tốt nhất cho một
sắp hàng nhất định có thể được tìm thấy bởi hơn một phương pháp; do đó tổng các tần suất cho một bộ dữ liệu có thể lớn hơn 1. Dữ liệu của PAUP* với ma trận chi phí
khơng đều khơng được trình bày do thời gian thực hiện q nhiều.
Trên dữ liệu mơ phỏng (Hình 3.3; các biểu đồ phía trên), fast-TNT và PAUP* cho thấy các tần suất tương tự nhau trong việc tìm ra điểm số tốt nhất (75% đến 82%).
Điều này không gây ngạc nhiên vì chúng cài đặt các chiến lược tìm kiếm tương tự
nhau. MPBoot SPR3, MPBoot SPR6 và intensive-TNT đạt được tần suất cao hơn
trong việc tìm ra điểm số tốt nhất (95% đến 99.5%).
Phân tích thêm 114 sắp hàng TreeBASE cho thấy tần suất giảm đối với tất cả
các phương pháp (Hình 3.3; các biểu đồ phía dưới). Đáng chú ý, tần suất đạt được điểm số tốt nhất của fast-TNT và PAUP* giảm xuống 10% -13%, trong khi MPBoot
và intensive-TNT có tần suất trung bình (70% -85%) và cao (90%). Chúng tơi cũng nhận thấy rằng khơng có khác biệt kết quả khi sử dụng ma trận chi phí đều và khơng
đều.
Hình 3.3 chỉ cho thấy các tần suất đạt được điểm cao nhất, để thu được nhiều
thông tin hơn chúng tôi đánh giá cho từng phương pháp mức độ chênh lệch của điểm
số tìm được so với điểm số tốt nhất. Để làm được điều này, chúng tôi so sánh MPBoot SPR3 và fast-TNT theo hiệu số giữa các điểm MP trên mỗi sắp hàng TreeBASE (Hình 3.1; mỗi dấu chấm ứng với một sắp hàng). Khi sử dụng ma trận chi phí đều MPBoot
SPR3 có điểm số thấp hơn fast-TNT cho 92.9% sắp hàng DNA (Hình 3.1a) và 80%
sắp hàng protein (Hình 3.1b). Chúng tôi quan sát được các kết quả tương tự khi sử dụng ma trận chi phí khơng đều (Hình 3.1c và Hình 3.1d). Tuy nhiên, intensive-TNT cho thấy điểm số tốt hơn MPBoot SPR6 trên các sắp hàng DNA (Hình 3.2a và Hình 3.2c) và kết quả tương tự trên các sắp hàng protein (Hình 3.2b và Hình 3.2d).
3.5.3 Độ chuẩn xác của ước lượng bootstrap
Luận án đã so sánh độ chuẩn xác của các giá trị ước lượng bootstrap gán bởi MPBoot và bootstrap chuẩn cài đặt trong fast-TNT, intensive-TNT và PAUP*. Hình 3.4a và Hình 3.4b thể hiện các hàm tính độ chuẩn xác cho năm phương pháp khảo sát khi sử dụng ma trận đều trên dữ liệu mô phỏng. Nó cho thấy rằng loại dữ liệu
(nucleotides hoặc axít amin) của các sắp hàng khơng ảnh hưởng đến tính chuẩn xác của ước lượng bootstrap. Các phương pháp TNT và PAUP* cho ước lượng thấp hơn xác suất đúng của cạnh (Hình 3.4a và Hình 3.4b; các đường cong nằm phía trên đường chéo). Ví dụ: một cạnh có giá trị hỗ trợ PAUP* tối thiểu 80% có xác suất đúng của cạnh là 95%. Điều này khẳng định các nghiên cứu trước đó (ví dụ: [39]) rằng
bootstrap chuẩn bảo thủ trong ước lượng xác suất đúng của cạnh. MPBoot SPR6 thu
được các giá trị hỗ trợ bootstrap gần như khơng chệch, ít nhất là cho các cạnh có giá
trị hỗ trợ bootstrap > 70% (Hình 3.4a và Hình 3.4b; các đường cong nằm gần đường
bootstrap. Cụ thể, để đạt được xác suất đúng của cạnh là 95%, các giá trị hỗ trợ bootstrap MPBoot SPR6 cần phải là 95%.
Hình 3.4. Độ chuẩn xác của các giá trị hỗ trợ bootstrap trên các sắp hàng DNA và protein mô phỏng PANDIT gán bởi MPBoot SPR3 (đường cong xanh lá), MPBoot SPR6 (đường cong màu xanh da trời), fast-TNT (đường cong màu đỏ), intensive-TNT (đường cong màu vàng) và PAUP* (đường cong màu đen) khi sử dụng ma trận chi phí đều (a, b) và ma trận
Tương tự, chúng tôi nhận thấy rằng khi sử dụng ma trận chi phí khơng đều,
MPBoot SPR6 ít bảo thủ hơn fast-TNT cho các giá trị hỗ trợ bootstrap> 70% (Hình 3.4c và Hình 3.4d; Luận án khơng khảo sát PAUP* do thời gian tính tốn q nhiều). Chúng tôi kiểm tra tác động của bước tinh chỉnh tới độ chuẩn xác bằng thực nghiệm tắt bước tinh chỉnh khi dùng MPBoot phân tích dữ liệu mô phỏng PANDIT. Kết quả cho thấy trên cả 2 loại dữ liệu dù dùng sử dụng ma trận chi phí nào, giá trị hỗ trợ bootstrap tính được đều cao hơn xác suất đúng của cạnh (Hình 3.5; các đường cong võng xuống phía dưới đường chéo).
Để tiếp tục tìm hiểu sự khác biệt giữa ước lượng bootstrap của MPBoot và
bootstrap chuẩn, luận án so sánh điểm MP của các cây bootstrap mà MPBoot và TNT
thu được, trong trường hợp sử dụng ma trận chi phí đều. Hàm mean_score() (Hình
3.6) kí hiệu cho trung bình cộng điểm MP của các cây bootstrap thu được bởi phương pháp tương ứng. Điểm MP cho bootstrap của MPBoot SPR3 cao hơn 2.7 (trung vị; miền của hiệu điểm số: -60.8 đến 100.5) so với fast-TNT. Trong khi đó, MPBoot
SPR6 đạt được điểm MP cho bootstrap thấp hơn 1 (trung vị; miền của hiệu điểm số:
-63.4 đến 28.9) so với fast-TNT (Hình 3.6). Nói chung, chúng tơi đã khơng quan sát
được khác biệt đáng kể nào giữa các điểm MP cho cây bootstrap của MPBoot và
TNT.