Dữ liệu DNA mô phỏng

Một phần của tài liệu Phát triển mô hình thay thế axit amin cho dữ liệu hệ gen (Trang 95 - 98)

Chương 3: Phương pháp phân hoạch sắp hàng sử dụng mô hình tiến hóa

3.4.1 Dữ liệu DNA mô phỏng

Trung bình khoảng cách nRF giữa cây thật và các cây được xây dựng từ bốn loại lược

đồ phân vùng: lược đồ gốc (TruePartition), lược đồ phân vùng tạo bởi RatePartition

và lược đồ phân vùng tạo bởi mPartition được tổng kết trong Bảng 3. 3. Cụ thể, khoảng cách nRF giữa các cây thật với các cây được xây dựng bằng lược đồ phân vùng TruePartition, RatePartition và mPartition lần lượt là 0.095, 0.141 và 0.115. Lưu

ý rằng khoảng cách nRF đến cây đúng nhỏ hơn tức là cây đó có ít phân nhánh không thuộc cây đúng hơn và là cây tốt hơn, tương ứng với lược đồ phân vùng tốt hơn. Dựa trên kết quả thu được, có thể kết luận lược đồ phân vùng của mPartition giúp xây dựng cây tốt hơn so với lược đồ phân vùng của RatePartition. Đối với RatePartition, kết quả đồng đều khi dùng hệ số phân chia 𝑑 khác nhau trên bộ dữ liệu mô phỏng (nRF xấp xỉ 0,14 cho tất cả RP2, RP3, RP4 và RP5).

Bảng 3. 3. Trung bình khoảng cách nRF giữa cây đúng với cây ML thu được khi sử dụng các lược đồ phân vùng khác nhau trên dữ liệu mô phỏng

TruePartition mPartition RP2 RP3 RP4 RP5

Khoảng cách nRF

trung bình 0.095 0.115 0.141 0.140 0.141 0.142 Trung bình số tập

con trong lược đồ 4 9.6 6.8 9.8 13.2 16.1

94

Hình 3. 2. Khoảng cách nRF trung bình giữa cây đúng và cây ML được xây dựng trên các bộ sắp hàng cùng tham số mô phỏng.

AS là các bộ dữ liệu mô phỏng sử dụng cấu trúc cây bất đối xứng; SS là có bộ dữ liệu mô phỏng sử dụng cấu trúc cây đối xứng; miss: các bộ có dữ liệu mất mát. RP2: kết quả khi sử dụng lược đồ tạo bởi RatePartition với 𝑑 = 2

95

Bảng 3. 4. Giá trị AICc và BIC của tám sắp hàng DNA thực khi sử dụng các lược đồ phân vùng khác nhau. Giá trị AICc (BIC) nhỏ hơn tương ứng với lược đồ phân vùng tốt hơn; giá trị tốt nhất được in đậm. Ký hiệu: NP: Không phân vùng; RP4 (RP5): RatePartition với hệ số phân chia 𝑑 = 4 (𝑑 = 5); mPar: mPartition

Dữ liệu

AICc BIC

NP RP4 RP5 mPar NP RP4 RP5 mPar

Arctiina 102857 101410 101225 99680 104417 103641 103533 101376 Calisto 86492 85122 85162 83037 87733 86869 87060 84394 Choreutidae 121888 115505 115381 113260 122486 117065 117211 114351 Coenonymphina 128991 125154 125319 121272 129946 126699 126999 122507 Geometridae 384948 377148 377117 375178 387217 380356 380482 377589 Morpho 58872 55862 55756 52633 59351 57095 57122 53539 Noctuidae 206920 203296 203031 192260 208080 205614 205719 193705 Pieridae 277253 271196 271271 268750 278805 274178 274553 270421

96

Khi xét số lượng phân vùng trong các lược đồ, mPartition có trung bình 9,6 phân vùng trên mỗi sắp hàng; nhiều hơn so với thuật toán RatePartition với 𝑑 = 2 và ít hơn trong các trường hợp khác của RatePartition.

Khoảng cách nRF trung bình của 10 sắp hàng ứng với cùng một bộ tham số mô phỏng được biểu diễn trong Hình 3. 2. Hình vẽ chỉ thể hiện kết quả của các lược đồ RP2 vì thuật toán RatePartition cho kết quả tương đương với hệ số phân chia khác nhau.

Khoảng cách nRF trong Hình 3. 2 cho thấy các nhánh trong có độ dài quá ngắn trong cây đúng có ảnh hưởng lớn đến độ chính xác của cây xây dựng được trên dữ liệu mô phỏng. Cụ thể, tất cả các cách phân hoạch đều giúp xây dựng cây phân loài gần giống cây đúng đối với các bộ dữ liệu được mô phỏng trên cây có các nhánh trong độ dài vừa phải (≥ 0.01 − các bộ dữ liệu AS1-AS4, AS13, AS14, SS1-SS4, SS13 và SS14). Ngược lại, khi chiều dài nhánh nhỏ, độ chính xác của các cây cực đại khả năng xây dựng được giảm đáng kể, như trong trường hợp các bộ AS6 và SS6 – là các sắp hàng được mô phỏng trên các cây có chiều dài nhánh trong chỉ 0,001 (tức là trung bình giữa hai đỉnh đầu mút chỉ có 0.001 biến đổi). Với các bộ dữ liệu không đầy đủ (AS1- miss, AS2-miss, SS1-miss, SS2-miss) được mô phỏng trên cây có độ dài nhánh 0.01, thông tin trên sắp hàng còn lại là đủ để kết quả thu được tương tự các bộ dữ liệu đầy

đủ.

Ngoài ra, cấu trúc của các cây đúng cũng có một số tác động đến các kết quả của các thuật toán như ta thấy trên Hình 3. 2 - khoảng cách của các cây đúng có cấu trúc đối xứng cao hơn một chút so với cấu trúc bất đối xứng trong hầu hết các trường hợp và thậm chí là cao hơn nhiều với các bộ AS6 và SS6.

Một phần của tài liệu Phát triển mô hình thay thế axit amin cho dữ liệu hệ gen (Trang 95 - 98)

Tải bản đầy đủ (PDF)

(137 trang)