Những tính chất của thành phần bất biến

Một phần của tài liệu Phương pháp đại số cho hài toán ước lượng hợp lý cực đại áp dụng trên cây sinh loài nhỏ (Trang 44)

Cũng theo các tác giả [Evans and Speed, 1993] thì với phép biến đổi Fourier trên, chúng ta sẽ tìm được tất cả các thành phần bất biến trên cây sinh loài. Và một điều quan trọng nữa là các thành phần bất biến trên là những đa thức thuần nhất. Thành phần bất biến tầm thường nhất là ^Pị = 1 mà ta đã biết. Những thành phần bất

biến tìm được ở đây là dữ liệu đầu vào để giải trình họp lý ở chương sau.

1 1 1 dg\ỊdP\ ■■■ Sgjõpn J = õgi/ôPo ••• Õgl/ÕPn .Sgr/Spo ••• Õgr/Õp» «7 Y và ma trận chuyên vị của JJ : dgi/ôpo ■■■ Ôgr/ÔPo dgỉ/õPi ■■■ Õgr/ÔPl } dgjôp„ ôgĩ/dp„■■■ Sgr/dp„ Po P\ Pn p p 0 a OP p,f ÔPl ■■ p Ôg' õpn J = j.diag(p0,pì,...,pn) = dg2 Po 7 ÕPo dg2 P\7 ■ dPi dg2 " p»7 põgr dPo ÕPo ■■ p Õgr Sp„

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Chương 6. GIẢI PHƯƠNG TRÌNH HỢP LÝ

Chương này đưa ra phương pháp giải phương trình họp lý dựa vào tính bất biến của cây sinh loài và mẫu dữ liệu quan sát.

6.1. Quỹ tích hợp lý trên một đa tạp

Chúng ta mô tả một mô hình thống kê là một tập con của:

= {(Po,Pi,-,Pn) e M"+1: Po,Pi,.-,Pn > 0 và p0 + px + = 1} giả sử rằng, mô hình được mô tả như là một tập nghiệm chứa trong AtJ bởi một hệ các

phương trình các đa thức thuần nhất với các biến chưa biết p0,pị,...,pn. Các đa thức được biết như là thành phần bất biến ở chương 5. Gọi V là tập của tất cả nghiệm phức được cho bởi hệ các phương trình đa thức thuần nhất, vấn đề cực đại họp lý là tìm những điểm p = (p0,pỉ,...,pn)ở mô hình

Ko = rrìA„

mà giải thích họp lý nhất cho bởi véc tơ dữ liệu (uữ,uỊ,...,un ) <E N”+1. Nghĩa là giải quyết vấn đề tối ưu với ràng buộc sau:

Cực đại hàm hợp lý L = plQ°p“'...p“n hay bài toán log tương đương

l = u0 logpữ +.... + un logpn với giả thuyết là p e v>ữ .

Tiếp cận của chúng ta là tìm tất cả các điểm tới hạn của hàm họp lý cực đại L

và sau đó chọn những nghiệm thực dương, những điểm đó là cực trị địa phương. Trong quá trình giải tìm cực đại hàm trên, chúng ta sẽ tìm tất cả điểm tới hạn trẽn đa tạp phức V. Cho Vsịng ký hiệu những điểm kỳ dị của đa tạp V và tập V :=v\ Vsịng.

là iđêan trên vành đa thức R[/?0,/?!,...,/?„] được sinh bởi các đa thức được xác định bởi V, hay:

R[K] = R[/?o,jp1,...,jpJ/P

Đinh nghĩa: Cho ulà môt tân mở \íờ(Vn.Vì...v„ (Z Pị)) của V. Quỹ tích họp lý Zu là tập các điểm p EƯdL = 0. Iđêan họp lý Iu d M[C]là iđêan của tập đóng của zu trong V.

6.2. Ma trận Jacobi của các đa thức bất biến

6.2.1. Gradient- Vector vận tốc

Cho /: R” —» R khả vi. Khi đó gradient của/tại X, được ký hiệu gradf (x) và định nghĩa là vector:

Bùi Văn Đồng Trang 47

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

grad/ (x) = (i7-(x),...,77(x))

Õ X ị Õ XtJ

Với c E R, tập Mc ={JÍỄ M”: / (x) =c} = f~\c) gọi là mặt mức. về mặt hình học vector grad f(x) vuông góc với mặt mức của Mctại X .

Vậy phương trình mặt phẳng tiếp xúc với Mc tại a = (aỉ,...,an)

¥~(a)(xl ~aỉ ) + - + - ^ - (a) (Xn ~an ) =0

Ô X ị õ xn

6.2.2. Ma trận Jacobi của các đa thức bất biến

Đặt {go >ểi >—>£,.} là tập các đa thức thuần nhất được sinh ra bởi iđêan p.

Chúng ta mô tả ma trận Jacobi như sau:

Chúng ta nhân J bởi ma trận đường chéo các phần tử trên đường chéo là các biến như sau:

Bùi Văn Đồng Trang 48

6.2.3. Không gian tiếp xúc

V là một đa tạp khả vi và p E V, tập vector tiếp xúc với M tại p được gọi là không gian tiếp xúc với Vtạip và ký hiệu TpV thì:

TpV = {v e P" : V _L grad^oy = 1

Viết một các khác TpVcho bởi hệ phương trình V e P" : J.v = 0, hay TpV

Ker của ma trận J trên R[K] = R[p0,pn]/p.

6.3. Bài toán cực trị điều kiện

Ta có bài toán tìm cực trị của hàm họp lý chính là tìm cực trị hàm /: V —» R. Nói cách khác là tìm cực trị của hàm / với điều kiện ràng buộc g0 = gị =... = g = 0. Ta có:

gràdl(p) = Po

Điều kiên cần : Nếu / đặt cực trị với ràng buộc g0 = gị =... = gr = 0 tại p, thì gradf (p) -LTpV suy ra

— v0 +... + — vn = 0 với VET V Po

Pn

n Pị ^0,i = 0,...,n nên tập các p thuộc tập: 'Yjdị(Ị)l — 0 với các vector {ộQ,...,ộn)

i=0 chạy trên tập Ker của ma trận J trên R[K] = M[pữ,pỉì...,pn]/p

Phương pháp nhân tử hoá Lagrange : Từ trên, để tìm điểm nghi ngờ cực trị của / với điều kiện g0 = gl =... = gr = 0, ta lập hàm Lagrange

r(p,Ã) = t(p)~ Á0g0 - Ả r g r , p e F,(Ã0,...,Ầr)e cr+1

Neu plà điếm cực trị có điều kiện thi tồn tại ... )ỄC'*' sao cho (p,Ằ) là nghiệm của hệ:

7p(/a)=0

ôp 'go(p) = 0

yÁP)=0

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Điều kiện đủ: Đặt Hp£(p*,ýl*)là Hessian của hàm Lagrange £ theo biến p. Khi đó: Nếu Hp£(p*,Ă*) xác định âm, thì / đạt cực đại tại p*.

( Xem [Tạ Lê Lợi, 2002])

6.4. Bậc của hợp lý cực đại

Bậc họp lý cực đại của mô hình thống kê đại số là số điểm tới hạn phức của logarit phưong trình họp lý / đối với vector dữ liệu u e N”+1 và nó hữu hạn và bị chặn

trên theo định lý sau:

Đinh Iv : Cho p = (g0,...,gr) là một iđêan trong pn] với gị là đa thức thuần

nhất có bậc là dị với ỉ = 0,...,r. Thì bậc họp lý cực đại của p là hữu hạn và bị chặn trên bởi D= ỵ 4*4'.,j; ĨQ+iị+... +ir<n-r iQ>Ỗ,....,ir> 0 [Hoạten et al., 2005]. 6.5. Các thuật toán

Từ các phân tích trên ta xây dựng một số thuật toán sau giải phuong trình họp lý.

Tính toán phưong trình họp lỷ)

: Một iđêan thuần nhất p c R[/?0,...,/?J và một vector uG N"+1. : Iđêan họp lý Iu của mô hình V = U(P) cho dữ liệu u.

: Tính c = (n +1) - dim(F). Đặt Q là iđẽan những quỹ tích điểm kỳ dị của V.

Bước 2: Tính Ker Mcủa ma trận J trên R[K] = pỊ 9...,pn]/p. n

: Đặt Iu là iđêan trong R[F] sinh bởi đa thức ^ Uịậị = 0, với vector

1=0

n) chạy trên tập M.

: Iđêan ỉu bằng Iu loại bỏ đi những điểm kỳ dị.

(Chứng minh tỉnh đủng thuật toán trên: Buớc 1, tìm quỹ tích những điểm kỳ dị đuợc chứng minh ở [J.s. Milne, 2005]. Các buớc còn lại có đuợc bởi sự phân tích ở phần đầu chuơng).

Tính toán cực đại địa phưong của hàm hợp lỷ)

: Iđêan hợp lý Iu của mô hình V và dữ liệu u.

: Danh sách của tất cả các cực đại địa phương cho phương trình hợp lý. : Nếu dim(/w) = 0 đối với dữ liệu u, tính ra tập Zu.

Với mỗi một nghiệm dương p* e Zun v>0 thực hiện các bước sau: : Giải phương trình tuyến tính jT(p*).Ả = u để thu các nhân tử Lagrange Ã*.

: Tính toán Hessian H p/2(p*,Ả*) của hàm /2(p,Ầ).

: Nếu H p£(p*, Ả*) ở bước 3 là xác định âm thì xuất p* với giá trị hàm

l(p*) tương ứng.

6.6. Ảp dụng giải phương trình hợp lý

Xét ví dụ cây sinh loài ở chương 5, thành phần bất biến chúng ta tìm được là:

8 2 16 2 4 2 8(3 3 8 2 4 2 4 3 A

Sí =ịPỐP2 -~ịjPf>P\ +ịPoPỈ+^ý)Pt -fịP< P2-ỲỊPIPÍ +Ỷjp2=ữ

và bất biến tầm thường là:

g0 = Po + P\+P2-ì = ()

ĩ _ / 1 8 2 16 2 4 2 80 3 8 2 4 2 ^3 .

(Po +P\+Pl~ l^PoPl - Yl PoP> +9 P0P2 + PÍ^ - ^7 Pí Pl - — P'P2 > Giả sử bộ dữ liệu quan sát đếm được cho từng xác suấtp0,Pị,p2 tương ứng là

u = (700,45,49).

Ket quả sau khi chạy thuật toán 1: Xem phụ lục 2.

Ket quả sau khi chạy thuật toán 2 tìm được số nghiệm của phương trình họp lý là 5 nghiệm như sau:

(0.2474737682, 2.5624447362, -1.8099185045)

(0.8289181084, 0.1641242871, 0.0069576045)

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

(0.8289181084, 0.1641242871, 0.006957604546)

(0.1469015638, 0.7993903746, 0.05370806152)

Hàm Lagrange tương ứng:

£ ( p , X ) = 700 ln(/?o) + 45 ]n(pị) + 49 ln (p2) + Ă0g0 + Ảịgị

Với nghiệm thứ nhất nhân tử Lagrange tìm được tương ứng là:

Ma trận Hessian trên cho xác định âm, cho nên hàm hợp lý trên đạt giá trị cực đại cục bộ tại điểm trên và giá trị hàm hợp lý tương ứng là:

/ = -456.0927286

Với nghiệm thứ hai nhân tử Lagrange tìm được tương ứng là:

Ầ* =4765.0976562500, ^=64.9804763793 Ma trận Hessian tương ứng r~6.999e+02 H JC(P\/l*) = — ---3.883e-01 PoPxPi3407e_01 -3.883e-01 3.407e-01 -4.486e+01 -7.124e-02 -7.124e-02 -4.904e+01

Ma trận Hessian trên cũng cho xác định âm, cho nên hàm họp lý trên đạt giá trị cực đại cục bộ tại điểm trên và giá trị hàm họp lý tương ứng là:

/ = -1495.955966

Với 2 kết quả trên ta có thể kết luận, hàm họp lý đạt giá trị cực đại toàn cục tại

p = (0.8289181084, 0.1641242871, 0.0069576045) và giá trị hàm họp lý tương ứng là / = -456.0927286.

Ket quả chương trình với số cây khác xem phụ lục 4.

Vì chúng ta xử lý bài toán trên những xác suất nên độ chính xác là cần thiết, vì thế độ dài phần lẻ được lấy ở chương trình là 10 con số. Và chương 7 sẽ cho chúng ta một cái nhìn tổng quan hơn về chương trình thực hiện giải phương trình họp lý - áp dụng trên cây sinh loài.

Chương 7. CHƯƠNG TRÌNH THỰC HIỆN

7.1. Sơ đồ khối chương trình

X Output: Cây sinh loài có hàm hợp X

/X lý lớn nhất x^

T

(^End^)

Các mẫu Số Các mẫu Số Các mẫu Số

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

7.2. Sơ lược về chương trình

Bài toán trên được chia thành nhiều bài toán nhỏ tách rời nhau. Vì thế để chọn một ngôn ngữ lập trình phù hợp của từng công đoạn cũng cần được tính đến. Trong luận văn này, hai ngôn ngữ được chọn để viết và kiểm nghiệm đó là ngôn ngữ C++ và Singular. Gói phần mềm viết bằng C++ giải quyết phần đầu bài toán là xác định các xác suất xảy ra trên cây và đếm số lượng các vector dữ liệu u.

Phần quan trọng nhất của chương trình là tìm các thành phần bất biến và giải phương trình hợp lý được viết trên ngôn ngữ Singular (Xem phụ lục 3). Singular là một hệ thống các phương pháp tính toán đa thức, đại số giao hoán và hình học đại số. Nó là một gói phần mềm rất hữu hiệu cho đại số thống kê.

7.3. Kết quả chương trình

Xét cây sinh loài có gốc với 3 taxa, dữ liệu tương ứng với mỗi lá ở đây là những gen có tên là HIVenvSweden (dữ liệu lấy ở [Yang, z. 19977) có chiều dài 273 ký tự như sau:

U68496:=GT AGT AATT AGATCTG AAAACTTC ACGAAC AAT GCT AAAACC AT

AAT AGT AC AGCT AAAT AAAT CT GT AG AAATT AATT GT GT AAG ACCCGGC A

AC AAT AC AAGAAG AAGT AT AC AT AT AGG ACC AGGG AG AGC AT ATT AT AC A

GG AG AAGT AAT AGG AG AT AT AAG AC AAGC AC ATT GT AACCTT AGT AG AAC

AG ACT GG AAT AA AACTTT A AAAC AGGT AGCT G A A AAATT AAG AG AAC AAT

TT AAT AC AAC AAT AGTCTTT AAT c AAT cc

7:=GT AGT A ATT AG AT CT G A A A ACTTCT CG A ACAAT GC T AAAACC AT A AT AGTAC AGCT AAAT AAAT CTGT AG A AATT AATT GT AC AAG ACCC AAC AA

c AAT AC AAG A AG AAGT AT AC ATTTT GG ACC AGGG AAAGC ATTTT AT GC AG

G AG AAAT AAT AGG AG AT AT AAG AC AAGC AT ATT GT ACCCTT AATGG AAC A

G AAT GG AAT AAC ACTTT AAAAC AGGT AGCT G AAAAATT AAG AG AAC

Bùi Văn Đồng Trang 54

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Với 3 gen này mục đích chúng ta là tìm mối liên hệ tổ tiên giữa chúng. Có 2 dạng cây 3 taxa có gốc như hình 10.

/X

Cây 3 taxa hình móng Cây3 taxa hình lược

Hình 10: Hai hình dạng cây 3 taxa có gốc

Ta chọn mô hình Jukes - Cantor cho bài toán này.

Với Cây hình móng: Chỉ có một trường hợp duy nhất, dữ liệu quan sát khi so dóng trên từng cột như Bảng 2.

Cây này có 3 lóp tương đương, số lượng từng lóp trẽn dữ liệu là «=(247, 25, 1), khi chạy chương trình cho kết quả:

p= (0.903285626594, 0.094557322708, 0.00215705069738) và giá trị hàm họp lý tương ứng l ( p ) = -90.22670674

Với Cây hình lược: Có 4 lóp xác suất tương đương và 3 trường họp xảy ra:

Trưòns hov ỉ : Các nút cây tương ứng (V68496ẬJJ68496, Ư68496)) và số lượng các mẫu dữ liệu quan sát khi so dóng trên từng cột đối với trường họp này ở

hảng 3.

Bùi Văn Đồng Trang 55

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Vector dữ liệu tương ứng là: u = (247, 8, 17, 1) và kết quả khi chạy chương =(0.9027837320165, 0.03154973251390, 0.0640321523858, 0.001634383083735)

và giá trị hàm ỉ(p) = -106.0495469

Trường hoy 2 : Các nút cây tương ứng (Ư68497ẠJJ68496, U68498)) và số lượng các mẫu dữ liệu quan sát khi so dóng trên từng cột đối với truờng họp này giống như bảng 2, vì thế tương tự như trường họp 1.

Trường hov 3 : Các nút cây tương ứng (U68498,(U68496, U6849T)) và số lượng các mẫu dữ liệu quan sát khi so dóng trên từng cột đối với truờng họp này trên

Vector dữ liệu tương ứng u = (247, 19, 6, 1), kết quả khi chạy chương trình:

p =(0.9032484236332, 0.07179349581611, 0.0228400591792, 0.0021180213714) và giá trị hàm ỉ ( p ) = -104.0121158

Với kết quả trên thì ta thấy với trường họp cây sinh loài thứ 2 thì các dữ liệu trên đựợc gán cho cây với thứ tự ((Ư68498,(U68496, U68497)) là “họp lý” nhất. Xét về cây thì cây sinh loài giải thích tốt nhất cho dữ liệu trên là cây sinh loài hình lược, vì nó có hàm họp lý cho kết quả lớn nhất.

Bùi Văn Đồng Trang 56

Chương 8. TỔNG KẾT - ĐÁNH GIÁ

Chương này tổng kết lại những công việc đã làm được, sau đó nêu ra những đóng góp và hướng phát triển của luận văn.

8.1. Tổng kết

Luận văn đã nghiên cứu đến một lãnh vực đang được rất nhiều người quan tâm trong giai đoạn hiện nay. Luận văn cho ta một cái nhìn tổng thể về cây sinh loài và phương pháp để giải phương trình hợp lý, cũng như cách mô hình hóa bài toán và chọn phương pháp và giải quyết bài toán. Trong đó phương pháp được chọn là phương pháp đại số nói chung và đại số máy tính nói riêng. Ngoài ra, luận văn cũng cung cấp một gói phần mềm được sử dụng như là kiểm nghiệm những lý thuyết đưa ra.

Vì kiến thức cũng như thời gian có hạn nên luận văn có nhiều khiếm khuyết như nội dung luận văn chưa được cô đọng, phần chương trình kiểm nghiệm các mô đun chưa tích họp được các phần lại với nhau. Hạn chế lớn nhất phải kể đến là chương trình chỉ chạy được trên cây sinh loài 3 taxa, còn trường hợp 4 và 5 taxa chỉ chạy được ở những mô hình đơn giản.

8.2. Những đóng góp của luận văn

-Đối với bản thân qua luận văn này đã thu thập kiến thức cơ bản về sinh học nói chung và việc nghiên cứu tiến hoá hiện nay nói riêng. Cũng qua luận văn này đã bổ sung cho tôi kiến thức về toán học, xác suất thống kê và nhất là đại số máy tính.

- Luận văn này như là một tài liệu tham khảo ban đầu cho những ai quan tâm đến lãnh vực tính toán thống kê về sinh học phân tử, về cây tiến hóa. Ngoài ra cũng là tài liệu bổ ích cho một cái nhìn tổng quan về phương pháp ước lượng họp lý cực đại và cách giải chúng bằng phương pháp đại số. Những lãnh vục được đề cập trong luận văn

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

8.3. Hướng phát triển

Với những hạn chế đã nẽu ở trên, hướng phát triển luận văn đưa ra chủ yếu là khắc phục những nhược điểm là làm sao để giải bài toán trên những cây sinh loài lớn hơn:

- Cải tiến các thuật toán để có thể chạy tốt hơn.

- Song song hóa để giải bài toán ước lượng họp lý cực đại.

- Một hướng khác cũng nên quan tâm là nghiên cứu đặc tính của từng cây cụ thể và tập trung giải quyết bài toán trên những cây riêng biệt đó.

[Hoàng Xuân Sính, 2003] [Đào Hữu Hồ, 2002] [Tạ Lê Lợi, 2002] [Benny Chor, 2005] [B. Chor, M. Hendy, B.

Một phần của tài liệu Phương pháp đại số cho hài toán ước lượng hợp lý cực đại áp dụng trên cây sinh loài nhỏ (Trang 44)

Tải bản đầy đủ (DOC)

(64 trang)
w