Các tiêu chí đánh giá

Một phần của tài liệu (LUẬN án TIẾN sĩ) các phương pháp nhanh xây dựng cây bootstrap tiến hóa002 (Trang 46 - 48)

1.5 Xây dựng cây bootstrap tiến hóa

1.5.3 Các tiêu chí đánh giá

Phần này trình bày hai tiêu chí quan trọng nhất khi đánh giá một phương pháp xây dựng cây bootstrap tiến hóa.

1.5.3.1 Đánh giá thời gian chy

Đây là đánh giá đơn giản nhất. Ta đo thời gian chạy của từng phương pháp xây

dựng cây bootstrap tiến hóa trên cùng dữ liệu vào trên các máy tính có cùng cấu hình. Do việc làm phân tích bootstrap thường đi kèm với việc xây dựng cây (duyệt tìm cây tốt nhất) cho sắp hàng gốc nên trong luận án này, thời gian khảo sát là tổng của thời gian xây dựng cây cho sắp hàng gốc và thời gian làm phân tích bootstrap.

1.5.3.2 Đánh giá độ chun xác của ước lượng bootstrap

Việc khảo sát độ chuẩn xác của phương pháp bootstrap Z có thể được thực hiện thông qua thực nghiệm mô phỏng. Từ một cây đúng 𝑇𝑇đú𝑛𝑛𝑛𝑛 ban đầu và một mơ hình

tiến hóa 𝑀𝑀, ta sinh ra 𝐻𝐻 sắp hàng mơ phỏng bằng cơng cụ mơ phỏng tiến hóa nào đó. Luận án sử dụng công cụ Seq-Gen [69] - là công cụ mơ phỏng tiến hóa tin cậy nhất hiện nay. Với mỗi sắp hàng mô phỏng 𝐴𝐴𝑘𝑘 , ta xây dựng cây tiến hóa 𝑇𝑇𝑘𝑘𝑡𝑡ố𝑡𝑡 𝑛𝑛ℎấ𝑡𝑡, rồi dùng phương pháp Z để làm phân tích bootstrap (với 𝐵𝐵 bản sao bootstrap) nhằm tính giá trị hỗ trợ bootstrap cho từng cạnh trên 𝑇𝑇𝑘𝑘𝑡𝑡ố𝑡𝑡 𝑛𝑛ℎấ𝑡𝑡. Từ các cạnh của tập K cây 𝑇𝑇𝑘𝑘𝑡𝑡ố𝑡𝑡 𝑛𝑛ℎấ𝑡𝑡, ta tính tỉ lệ các cạnh thuộc cây đúng 𝑇𝑇đú𝑛𝑛𝑛𝑛 trong số tất cả các cạnh có giá trị hỗ trợ bootstrap 𝑥𝑥% với 𝑥𝑥 = 0, … ,100.

Độ chuẩn xác của một phương pháp, Z, được định nghĩa bởi 𝑓𝑓Z(𝑥𝑥), là tỷ lệ của

số cạnh có mặt trong cây đúng trong số tất cả các cạnh có giá trị hỗ trợ bootstrap 𝑥𝑥% (đếm trên tất cả các cây 𝑇𝑇𝑘𝑘𝑡𝑡ố𝑡𝑡 𝑛𝑛ℎấ𝑡𝑡) [39]. 𝑓𝑓Z(𝑥𝑥) phản ánh xác suất một cạnh với giá trị hỗ trợ bootstrap 𝑥𝑥% là một cạnh đúng. Phương pháp Z được gọi là không chệch nếu 𝑓𝑓Z(𝑥𝑥) = 𝑥𝑥% cho tất cả các giá trị của 𝑥𝑥. Khi vẽ đồ thị thể hiện mối liên hệ giữa 𝑓𝑓Z và giá trị hỗ trợ bootstrap 𝑥𝑥%, đồ thị của một phương pháp không chệch sẽ trùng đường

𝑓𝑓Z(𝑥𝑥) nằm phía trên đường chéo có nghĩa phương pháp bootstrap cho ước lượng thấp

hơn xác suất đúng của cạnh (tức là phương pháp này bảo thủ) (Hình 1.11, đường màu

xanh). Ngược lại đường cong cho 𝑓𝑓Z(𝑥𝑥) nằm bên dưới đường chéo có nghĩa phương

pháp cho ước lượng cao hơn xác suất đúng của cạnh (tức là phương pháp này lạc

quan) (Hình 1.11, đường màu đỏ). Lưu ý là trong thực hành, ta chỉ quan tâm đến

những cạnh có giá trị hỗ trợ bootstrap ≥70%, do đó, chỉ phân tích một phương pháp

dựa trên nửa bên phải của đồ thị.

Hình 1.11. Ví dụ đồ thị thể hiện độ chuẩn xác của phương pháp bootstrap lạc quan (màu

đỏ), phương pháp bảo thủ (màu xanh), phương pháp không chệch (màu đen). Ta chỉ phân

tích phần bên phải của đồ thị (x >= 70).

Để sinh sắp hàng gốc mô phỏng cho đánh giá độ chuẩn xác của các phương

pháp bootstrap, luận án sử dụng công cụ Seq-Gen [69]. Với dữ liệu vào là cây đúng giả định 𝑇𝑇đú𝑛𝑛𝑛𝑛, một mơ hình tiến hóa 𝑀𝑀đú𝑛𝑛𝑛𝑛 và các tham số kích thước cho sắp hàng mong muốn, Seq-Gen sẽ mơ phỏng q trình tiến hóa theo 𝑇𝑇đú𝑛𝑛𝑛𝑛 và 𝑀𝑀đú𝑛𝑛𝑛𝑛 và tạo ra một sắp hàng gốc. Seq-Gen có thể sinh sắp hàng mô phỏng cho cả DNA và protein với nhiều lựa chọn mơ hình tiến hóa - bao gồm cả mơ hình cho tính khơng đồng nhất của tốc độ biến đổi giữa các vị trí trên chuỗi.

Một phần của tài liệu (LUẬN án TIẾN sĩ) các phương pháp nhanh xây dựng cây bootstrap tiến hóa002 (Trang 46 - 48)

Tải bản đầy đủ (PDF)

(122 trang)