Tỉ lệ dương tính giả

Một phần của tài liệu (LUẬN án TIẾN sĩ) các phương pháp nhanh xây dựng cây bootstrap tiến hóa002 (Trang 73 - 75)

2.5 Thực nghiệm và kết quả

2.5.2 Tỉ lệ dương tính giả

Để đánh giá hiệu quả xử lý đỉnh đa phân của ý tưởng đề xuất trong 2.4.2, luận

án khảo sát tỉ lệ dương tính giả (false positive) khi phân tích dữ liệu mơ phỏng tiến

Hình 2.6. Phân bố của tỉ lệ thời gian chạy giữa RBS và UFBoot2 (trái) và giữa RBS và UFBoot2 + NNI (phải) trên 115 sắp hàng TreeBASE.

trong đó, ta chọn cây đúng là cây hình sao. Do tất cả các cạnh trong của cây xây dựng được đều không tồn tại trên cây đúng, một phương pháp bootstrap tốt sẽ khơng tính

ra giá trị hỗ trợ bootstrap cao (≥95%) trên dữ liệu này, nghĩa là khơng tạo kết quả

dương tính giả.

Cụ thể, chúng tôi tạo dữ liệu mô phỏng với cùng thiết kế như đề xuất trong [76]. Chúng tôi sử dụng Seq-Gen 1.3.2x [69] để sinh 100 sắp hàng DNA, mỗi sắp hàng chứa 15000 vị trí sắp hàng, tiến hóa từ cây đúng hình sao có 4 lá và 4 cạnh nối với lá có chiều dài 0.05, theo mơ hình JC. Đối với mỗi sắp hàng gốc, chúng tơi đã cho

UFBoot2 phân tích bằng mơ hình JC và GTR+Γ, mỗi phân tích làm bootstrap 1000 bản sao và tới 1000 vịng lặp tìm kiếm (cài đặt trong IQ-TREE thông qua tùy chọn "- bcor 1"). Với mỗi phân tích này, chúng tơi khảo sát 2 chế độ: (i) bật tính năng cải tiến

để xử lý đỉnh đa phân với 𝜀𝜀𝑏𝑏𝑏𝑏𝑏𝑏𝑡𝑡 = 50 (do sắp hàng có nhiều vị trí) và (ii) tắt cải tiến

này, nghĩa là chọn cây có điểm số RELL cao nhất làm cây bootstrap. Mỗi chế độ được thực thi 2 lượt sử dụng 2 hạt giống ngẫu nhiên khác nhau (thông qua tùy chọn

"- seed 123456" và "- seed 654321").

Simmons và Norton [76] đã chỉ ra rằng SBS và RBS đơi khi dẫn đến dương tính giả , trong khi UFBoot khơng bao giờ hỗ trợ cạnh như vậy (giá trị hỗ trợ bootstrap

≤88%). Cần lưu ý rằng, phiên bản UFBoot khảo sát trong [76] là bản đã có cải tiến để xử lý đỉnh đa phân và là bản mới hơn UFBoot nguyên thủy trong [56].

Sử dụng UFBoot2 phân tích dữ liệu mơ phỏng từ cây đúng hình sao, chúng tơi

thu được kết quả tóm tắt trong Bảng 2.2. Trong đó, cột max lưu trung bình cộng 2 giá

trị hỗ trợ bootstrap cực đại trên từng hạt giống ngẫu nhiên. Cột min lưu trung bình cộng 2 giá trị cực tiểu tính tương tự. Kết quả đã khẳng định hiệu quả của ý tưởng chọn cây bootstrap là cây ngẫu nhiên trong số cây có điểm số RELL khác biệt không quá 𝜀𝜀𝑏𝑏𝑏𝑏𝑏𝑏𝑡𝑡 so với RELL cao nhất so với việc chọn cây có RELL cao nhất. Khi bật cải tiến này, UFBoot2 gán giá trị hỗ trợ bootstrap rất thấp cho cạnh không tồn tại. Miền giá trị thu được (30%-38.5%) sát với xác suất chọn ngẫu nhiên 1 trong 3 cấu trúc nhị

phân để phân giải cây hình sao 4 lá (xác suất bằng 1/3). Khi tắt cải tiến này, nó có thể

cho giá trị hỗ trợ bootstrap lớn hơn xác suất này, tuy nhiên vẫn nhỏ hơn ngưỡng 95%.

Bảng 2.2. Tóm tắt giá trị hỗ trợ bootstrap cho cạnh đúng không tồn tại của UFBoot2 khi bật và tắt cải tiến xử lý đỉnh đa phân trên dữ liệu mô phỏng từ cây đúng hình sao.

Loi phân tích Giá tr h tr bootstrap cho cnh trong

min max

UFBoot2 bật cải tiến với JC 30 38.5

UFBoot2 bật cải tiến với GTR+Γ 30 38.5

UFBoot2 tắt cải tiến với JC 35 89.5

UFBoot2 tắt cải tiến với GTR+Γ 29 87

Một phần của tài liệu (LUẬN án TIẾN sĩ) các phương pháp nhanh xây dựng cây bootstrap tiến hóa002 (Trang 73 - 75)

Tải bản đầy đủ (PDF)

(122 trang)