Khả năng tìm được cây có điểm MP tốt nhất- 123docz.net

3.5 Kết quả thực nghiệm

3.5.2 Khả năng tìm được cây có điểm MP tốt nhất

Do tốc độ của MPBoot có thể phải đánh đổi với khả năng tìm ra điểm MP tốt nhất trên các sắp hàng gốc, luận án so sánh các điểm MP tốt nhất tìm được theo các

phương pháp khác nhau cho sắp hàng gốc (cả dữ liệu mô phỏng và dữ liệu thực). Để làm điều này, chúng tơi tính tần suất mà mỗi phương pháp thu được điểm số tốt nhất

Hình 3.3. Hiệu năng của các phương pháp khảo sát trong việc xây dựng cây MP cho sắp hàng gốc. Các biểu đồ cột cho thấy tần suất mà mỗi trong số năm phương pháp khảo sát

thu được điểm MP tốt nhất cho sắp hàng gốc trong (A) bộ dữ liệu mô phỏng PANDIT và

(B) bộ dữ liệu TreeBASE.

Cần lưu ý rằng, trong so sánh này, các điểm MP của cây xây dựng bởi MPBoot

và TNT đã được tính lại bằng PAUP*. Lưu ý thêm rằng điểm MP tốt nhất cho một

sắp hàng nhất định có thể được tìm thấy bởi hơn một phương pháp; do đó tổng các tần suất cho một bộ dữ liệu có thể lớn hơn 1. Dữ liệu của PAUP* với ma trận chi phí

khơng đều khơng được trình bày do thời gian thực hiện q nhiều.

Trên dữ liệu mơ phỏng (Hình 3.3; các biểu đồ phía trên), fast-TNT và PAUP* cho thấy các tần suất tương tự nhau trong việc tìm ra điểm số tốt nhất (75% đến 82%).

Điều này không gây ngạc nhiên vì chúng cài đặt các chiến lược tìm kiếm tương tự

nhau. MPBoot SPR3, MPBoot SPR6 và intensive-TNT đạt được tần suất cao hơn

trong việc tìm ra điểm số tốt nhất (95% đến 99.5%).

Phân tích thêm 114 sắp hàng TreeBASE cho thấy tần suất giảm đối với tất cả

các phương pháp (Hình 3.3; các biểu đồ phía dưới). Đáng chú ý, tần suất đạt được điểm số tốt nhất của fast-TNT và PAUP* giảm xuống 10% -13%, trong khi MPBoot

và intensive-TNT có tần suất trung bình (70% -85%) và cao (90%). Chúng tơi cũng nhận thấy rằng khơng có khác biệt kết quả khi sử dụng ma trận chi phí đều và khơng

đều.

Hình 3.3 chỉ cho thấy các tần suất đạt được điểm cao nhất, để thu được nhiều

thông tin hơn chúng tôi đánh giá cho từng phương pháp mức độ chênh lệch của điểm

số tìm được so với điểm số tốt nhất. Để làm được điều này, chúng tôi so sánh MPBoot SPR3 và fast-TNT theo hiệu số giữa các điểm MP trên mỗi sắp hàng TreeBASE (Hình 3.1; mỗi dấu chấm ứng với một sắp hàng). Khi sử dụng ma trận chi phí đều MPBoot

SPR3 có điểm số thấp hơn fast-TNT cho 92.9% sắp hàng DNA (Hình 3.1a) và 80%

sắp hàng protein (Hình 3.1b). Chúng tôi quan sát được các kết quả tương tự khi sử dụng ma trận chi phí khơng đều (Hình 3.1c và Hình 3.1d). Tuy nhiên, intensive-TNT cho thấy điểm số tốt hơn MPBoot SPR6 trên các sắp hàng DNA (Hình 3.2a và Hình 3.2c) và kết quả tương tự trên các sắp hàng protein (Hình 3.2b và Hình 3.2d).

3.5.3 Độ chuẩn xác của ước lượng bootstrap

Luận án đã so sánh độ chuẩn xác của các giá trị ước lượng bootstrap gán bởi MPBoot và bootstrap chuẩn cài đặt trong fast-TNT, intensive-TNT và PAUP*. Hình 3.4a và Hình 3.4b thể hiện các hàm tính độ chuẩn xác cho năm phương pháp khảo sát khi sử dụng ma trận đều trên dữ liệu mô phỏng. Nó cho thấy rằng loại dữ liệu

(nucleotides hoặc axít amin) của các sắp hàng khơng ảnh hưởng đến tính chuẩn xác của ước lượng bootstrap. Các phương pháp TNT và PAUP* cho ước lượng thấp hơn xác suất đúng của cạnh (Hình 3.4a và Hình 3.4b; các đường cong nằm phía trên đường chéo). Ví dụ: một cạnh có giá trị hỗ trợ PAUP* tối thiểu 80% có xác suất đúng của cạnh là 95%. Điều này khẳng định các nghiên cứu trước đó (ví dụ: [39]) rằng

bootstrap chuẩn bảo thủ trong ước lượng xác suất đúng của cạnh. MPBoot SPR6 thu

được các giá trị hỗ trợ bootstrap gần như khơng chệch, ít nhất là cho các cạnh có giá

trị hỗ trợ bootstrap > 70% (Hình 3.4a và Hình 3.4b; các đường cong nằm gần đường

bootstrap. Cụ thể, để đạt được xác suất đúng của cạnh là 95%, các giá trị hỗ trợ bootstrap MPBoot SPR6 cần phải là 95%.

Hình 3.4. Độ chuẩn xác của các giá trị hỗ trợ bootstrap trên các sắp hàng DNA và protein mô phỏng PANDIT gán bởi MPBoot SPR3 (đường cong xanh lá), MPBoot SPR6 (đường cong màu xanh da trời), fast-TNT (đường cong màu đỏ), intensive-TNT (đường cong màu vàng) và PAUP* (đường cong màu đen) khi sử dụng ma trận chi phí đều (a, b) và ma trận

Tương tự, chúng tôi nhận thấy rằng khi sử dụng ma trận chi phí khơng đều,

MPBoot SPR6 ít bảo thủ hơn fast-TNT cho các giá trị hỗ trợ bootstrap> 70% (Hình 3.4c và Hình 3.4d; Luận án khơng khảo sát PAUP* do thời gian tính tốn q nhiều). Chúng tôi kiểm tra tác động của bước tinh chỉnh tới độ chuẩn xác bằng thực nghiệm tắt bước tinh chỉnh khi dùng MPBoot phân tích dữ liệu mô phỏng PANDIT. Kết quả cho thấy trên cả 2 loại dữ liệu dù dùng sử dụng ma trận chi phí nào, giá trị hỗ trợ bootstrap tính được đều cao hơn xác suất đúng của cạnh (Hình 3.5; các đường cong võng xuống phía dưới đường chéo).

Để tiếp tục tìm hiểu sự khác biệt giữa ước lượng bootstrap của MPBoot và

bootstrap chuẩn, luận án so sánh điểm MP của các cây bootstrap mà MPBoot và TNT

thu được, trong trường hợp sử dụng ma trận chi phí đều. Hàm mean_score() (Hình

3.6) kí hiệu cho trung bình cộng điểm MP của các cây bootstrap thu được bởi phương pháp tương ứng. Điểm MP cho bootstrap của MPBoot SPR3 cao hơn 2.7 (trung vị; miền của hiệu điểm số: -60.8 đến 100.5) so với fast-TNT. Trong khi đó, MPBoot

SPR6 đạt được điểm MP cho bootstrap thấp hơn 1 (trung vị; miền của hiệu điểm số:

-63.4 đến 28.9) so với fast-TNT (Hình 3.6). Nói chung, chúng tơi đã khơng quan sát

được khác biệt đáng kể nào giữa các điểm MP cho cây bootstrap của MPBoot và

TNT.

Khả năng tìm được cây có điểm MP tốt nhất

Mơ hình hóa q trình biến đổi nucleotide

Tiêu chuẩn hợp lý nhất (maximum likelihood – ML)