Thiết kế thực nghiệm

Luận án so sánh hiệu năng của MPBoot SPR3 và SPR6 (được biên dịch cho SSE4) với bootstrap chuẩn (1000 bản sao bootstrap), cài đặt trong TNT phiên bản 1.1

(tháng 10 năm 2014) và PAUP* phiên bản 4.0a152 (tháng 1 năm 2017). Tất cả các phương pháp lưu một và chỉ một cây tốt nhất cho mỗi sắp hàng bootstrap. Luận án so

liệu DNA, ma trận chi phí khơng đều có chi phí biến đổi cùng nhóm là 1 và chi phí biến đổi chéo nhóm là 2. Với dữ liệu protein, chi phí biến đổi giữa hai axít amin được

định nghĩa là số lượng biến đổi nucleotide tối thiểu cần thiết để biến axít amin này

thành axít amin kia. Ma trận chi phí này được sửa đổi để không vi phạm bất đẳng

thức tam giác [92].

Chúng tơi sử dụng hai thủ tục tìm cây trong TNT, ký hiệu là tìm kiếm nhanh

fast (thủ tục này được gợi ý bởi Pablo Goloboff - tác giả của TNT qua liên lạc cá

nhân) và tìm kiếm kĩ intensive. fast-TNT sử dụng lệnh "mult=rep 1 hold 1" (nghĩa là, TNT thực hiện chiến lược xây dựng cây từng bước ngẫu nhiên, sau đó leo đồi bằng kỹ thuật TBR) để tìm kiếm cây trên sắp hàng gốc và các sắp hàng bootstrap. intensive- TNT sử dụng lệnh " xmult = notarget hits 3 level 0 chklevel +1 1" cho sắp hàng gốc và " mult=rep 1 hold 1" cho các sắp hàng bootstrap. Lệnh xmult kết hợp các chiến

lược tìm kiếm khác nhau như ratchet, sectorial searches, tree fusing và tree drifting

[31]. Vì vậy, intensive-TNT tìm kiếm khơng gian cây triệt để hơn fast-TNT trên sắp hàng gốc, nhưng sử dụng chiến lược tìm kiếm giống fast-TNT trên các sắp hàng bootstrap.

Chúng tôi cũng khảo sát bootstrap chuẩn cài đặt trong PAUP* bằng cách áp

dụng chiến lược xây dựng cây từng bước ngẫu nhiên, sau đó leo đồi bằng TBR độc lập trên sắp hàng gốc và các sắp hàng bootstrap. Do thời gian thực hiện của PAUP* q nhiều, chúng tơi chỉ có thể chạy PAUP* cho ma trận chi phí đều. Các lệnh TNT và PAUP* chi tiết được trình bày trong Phụ lục 2.

3.4.1 Dữ liệu mô phỏng

Để đánh giá thời gian tính tốn, khả năng tìm ra cây MP và độ chuẩn xác của ước lượng bootstrap, luận án làm lại dữ liệu mô phỏng các sắp hàng DNA và protein được mô tả trong [56]. Chúng tôi đã tải xuống các sắp hàng từ cơ sở dữ liệu PANDIT

[93], chọn mơ hình ML phù hợp nhất và xây dựng cây ML cho mỗi sắp hàng. Những cây ML này sau đó được coi là cây đúng để sinh sắp hàng mô phỏng theo các tham

số mơ hình phù hợp nhất, cùng chiều dài và khoảng trống tương tự như các sắp hàng PANDIT gốc. Cần lưu ý rằng phân tích theo tiêu chuẩn MP vi phạm các giả thiết của các mơ hình phù hợp nhất được lựa chọn. Chúng tôi đã loại trừ 15 sắp hàng DNA và 17 sắp hàng protein có phân tích TNT hoặc PAUP* khơng hồn thành. Do đó, bộ dữ liệu mô phỏng bao gồm 6207 sắp hàng DNA (ký hiệu DNA-PANDIT) và 6165 sắp hàng protein (ký hiệu AA-PANDIT) với thơng số tóm tắt trong Bảng 3.1.

Bảng 3.1. Thông tin bộ dữ liệu mô phỏng PANDIT (loại trừ các sắp hàng có phân tích TNT hoặc PAUP* khơng hồn thành).

Thông số Loại dữ liệu

DNA protein

Số sắp hàng 6207 6165

Số taxa 4-403 (trung vị: 10) 4-374 (trung vị: 10) Số vị trí sắp hàng 24-6891 (trung vị: 567) 12-2297 (trung vị: 193)

3.4.2 Dữ liệu thực

Để đánh giá MPBoot, luận án phân tích lại 115 sắp hàng TreeBASE - bộ dữ liệu dùng để đánh giá thời gian tính tốn của UFBoot2 trong phần 2.5.1, bao gồm 70 sắp

hàng DNA và 45 sắp hàng protein (thơng số tóm tắt trong Bảng 2.1). Tuy nhiên,

chúng tôi đã phải loại trừ M9915 vì intensive-TNT đã khơng hội tụ. Tất cả các số liệu

thống kê tổng hợp do đó dựa trên 114 sắp hàng còn lại.

Mơ hình hóa q trình biến đổi nucleotide

Tiêu chuẩn hợp lý nhất (maximum likelihood – ML)