Cho T là cây có gốc với n lá. Đặt V(T) là tập các nút của T. Với mỗi một
V E V(T), chúng ta kí hiệu biến Xv, mồi biến này mang 1 trong k giá trị. Trong sinh
hầu như có các giá trị 2, 4 và 20. Kí hiệu P(XV = i) cho xác suất Xv mang trạng thái /.
Mối quan hệ giữa các biến ngẫu nhiên Xy được xác định bởi cấu trúc của cây. Đặt 71 là phân bố của biến xrtại nút gốc r.Với mỗi một nút veV (T) \ {r}, đặt a(v) là nút cha duy nhất của V. Sự chuyển trạng thái từ a(v) đến V được cho bởi ma trận xác
suất chuyển đổi A(v) có kích cỡ k X k. Và xác suất phân bố ở mỗi một nút được tính toán đệ quy như sau:
P{XV= 7 ) = ấ 4V) ~p(x«(v)=0
i= 1
Công thức này được suy ra từ phân bố trên tất cả biến ngẫu nhiên Xv. Chúng ta gán nhãn các nút lá cho rbởi 1, 2, ..., n và ta có xác suất phân bố các biến tại các lá:
ph h. . i , = P ( X ị = h,x2
Trong các ứng dụng sinh học, người ta ước lượng có kn khả năng từ n chuỗi bằng nhau trên Ả: kí tự. Mục đích chúng ta là dựa vào n chuỗi bằng nhau đó, xác định hình dáng cây sinh loài ở quá khứ mà khả năng xảy ra lớn nhất, nói cách khác là tái cấu trúc cây sinh loài. Vậy đầu vào bài toán chúng ta chỉ có n mẫu dữ liệu, tức là n
chuỗi DNA tương ứng, các phân bố gốc 71 và ma trận chuyển trạng thái A(v) là chưa biết. Tuy nhiên để đơn giản cho các bài toán, người ta đưa ra các mô hình đơn giản
av av 1 ồ K cv cv K K cv cv K -cv av <*v > >
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
gần với thực tế thường sử dụng là: Phân phối n là phân phối đều và ma trận chuyển trạng thái A(v) được sử dụng là mô hình Jukes - Cantor hay Kimura 2 và 3 trạng thái.
Với các giả thiết trên, các bất biến của cây sinh loài của mô hình là một đa thức dựa trên các khả năng ở lá làp.ị ị và triệt tiêu với mọi sự chọn lựa tham số của mô hình. Tập các đa thức là iđêan nguyên tố trên vành đa thức với các biến chưa
biết Pụ ị . Mục tiêu chúng ta là tìm các iđêan này.