1.3 Xây dựng cây tiến hóa
1.3.1 Phát biểu bài toán
Dữ liệu vào: Dữ liệu đầu vào là một sắp hàng của 𝑛𝑛 chuỗi phân tử sinh học
(nucleotide/axít amin/codon) của 𝑛𝑛 lồi, mỗi chuỗi có 𝑚𝑚 vị trí (ký tự). Với phân tích
ML, dữ liệu vào có thêm mơ hình tiến hóa.
Bài tốn: Xây dựng cây tiến hóa biểu diễn mối quan hệ giữa 𝑛𝑛 loài dựa vào phân tích sự giống nhau và khác nhau giữa các chuỗi nucleotide/axít amin của chúng.
Dữ liệu ra: Một cây nhị phân không gốc biểu diễn mối quan hệ giữa 𝑛𝑛 loài và làm tối ưu hàm chấm điểm 𝑓𝑓() theo tiêu chuẩn tối ưu được chỉ định. Cụ thể, cây tốt nhất sẽ làm cực tiểu điểm MP nếu sử dụng tiêu chuẩn MP, làm cực đại điểm likelihood
nếu sử dụng tiêu chuẩn ML. Mỗi loài được biểu diễn ở một đỉnh lá của cây. Độ dài các cạnh của cây biểu diễn số lượng biến đổi ký tự trạng thái giữa các đỉnh của cây.
Theo đó, xây dựng cây tiến hóa có thể được xem là một bài toán tối ưu tổ hợp. Độ phức tạp về mặt thuật toán của bài toán này thể hiện ở số lượng lời giải ứng viên
𝑆𝑆(𝑛𝑛) - hay số lượng tất cả cấu trúc phân nhánh khơng gốc có thể có cho 𝑛𝑛 ≥ 3 lồi cho bởi cơng thức:
𝑆𝑆(𝑛𝑛) = �(2𝑖𝑖 −5)
𝑛𝑛 𝑖𝑖=3
Chú ý: với các cấu trúc phân nhánh đếm ở công thức trên, các cạnh của cây không chứa trọng số độ dài mà chỉ thể hiện mối quan hệ liền kề giữa các đỉnh trong cây và khơng có thơng tin về các lồi tổ tiên được biểu diễn bởi các đỉnh trong của cây.
Vì vậy, việc phát triển các chiến lược tìm kiếm heuristic cho bài toán này là cần thiết. Một việc quan trọng khác là tối ưu tính tốn trong hàm chấm điểm 𝑓𝑓() vì hàm
này được gọi hàng triệu lần trong mỗi hàm tìm kiếm heuristic.