Sử dụng công thức chuyển đổi Fourier
‘hh-i, =pr
ta được:
ATC 6 18 18 6 2 2 6 1
Bùi Văn Đồng Trang 44
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
1 1 1 1 3 1 2 1 2 1 - 3
q A T r — Po---P\3 P2— c0 CQ CÌ H C0 C, - — C t
1 1 1 1 3 1 2 _ ^ _ _2 1 3
QA T T =~ ^ P ỡ ^ ị P ỉ ~ ^ j P2 ~ ~C0+~C0Cl - ~C0Cl +~cì
Tất cả q còn lại đều mang giá trị 0.
Các q trên được chia thành 3 lóp tương đương: Lóp l(có một tọa độ): qAAA = P\ + Pi + P3 = 4 + 94C1 + 22c o4 + 224 Lóp 2 (có 9 tọa độ): qAAG — q AAC — QA A T — QA G A — QA G G — QA C A — QA C C — QA T A — QA T T 1 1 1 1 3 1 2 5 2 1 3 = - p + — p - — p =- CQ + -C Í CX ~ -C0C, + -C[ Lóp 3 (có 6 tọa độ): QA G C ~ QA G T = QA C G ~ QA C T ~ QA T G ~ QA T C 1 1 1 1 3 1 2 1 2 1 3 = - P\ - — p2+ — Pì = ~CC ) - ~cắcì +~coc\ - ~c\ 611821836020120161
Đặt q0,ql,q2là tổng giá trị của từng lóp tương đương trên, thì
9o = Po + Pi+Pi = cỏ + 9cfo + 27c0c2 + 27c,3 ? 1 = Po + ịP\- 1Pi = 4+4cr 5cocỉ + 3c? 92 = P o - ị p t + ị p ì = 4-3cfo + 3c0C|2 -4 5.5.5. Kết quả tìm được 90^2 " 9) — 6 Hay bất biến cần tìm:
(Po + Pỉ+ P2XP0 - -P\ + ịP2)2 - (Po + g Pi - ịPiỶ = 0
8 2 16 2 4 2 3 8 2 4 2 4 3
<^ịPoPl-^jPoPl + ịPoPỈ+-^Pl -ỊịPlP2- — PlP2+ — P2=0
5.6. Những tính chất của thành phần bất biến
Cũng theo các tác giả [Evans and Speed, 1993] thì với phép biến đổi Fourier trên, chúng ta sẽ tìm được tất cả các thành phần bất biến trên cây sinh loàị Và một điều quan trọng nữa là các thành phần bất biến trên là những đa thức thuần nhất. Thành phần bất biến tầm thường nhất là ^Pị = 1 mà ta đã biết. Những thành phần bất
ỉ
biến tìm được ở đây là dữ liệu đầu vào để giải trình họp lý ở chương saụ
1 1 1 dg\ỊdP\ ■■■ Sgjõpn J = õgi/ôPo ••• Õgl/ÕPn .Sgr/Spo ••• Õgr/Õp» «7 Y và ma trận chuyên vị của J là J : dgi/ôpo ■■■ Ôgr/ÔPo dgỉ/õPi ■■■ Õgr/ÔPl } dgjôp„ ôgĩ/dp„■■■ Sgr/dp„ Po P\ Pn p p 0 a OP ữ p,f ■ ÔPl ■■ p Ôg' õpn J = j.diag(p0,pì,...,pn) = dg2 Po 7 ÕPo dg2 P\7 ■ dPi dg2 " p»7 põgr dPo ÕPo■ ■■ p Õgr Sp„
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Chương 6. GIẢI PHƯƠNG TRÌNH HỢP LÝ
Chương này đưa ra phương pháp giải phương trình họp lý dựa vào tính bất biến của cây sinh loài và mẫu dữ liệu quan sát.
6.1. Quỹ tích hợp lý trên một đa tạp
Chúng ta mô tả một mô hình thống kê là một tập con của:
= {(Po,Pi,-,Pn) e M"+1: Po,Pi,.-,Pn > 0 và p0 + px + = 1} giả sử rằng, mô hình được mô tả như là một tập nghiệm chứa trong AtJ bởi một hệ các
phương trình các đa thức thuần nhất với các biến chưa biết p0,pị,...,pn. Các đa thức được biết như là thành phần bất biến ở chương 5. Gọi V là tập của tất cả nghiệm phức được cho bởi hệ các phương trình đa thức thuần nhất, vấn đề cực đại họp lý là tìm những điểm p = (p0,pỉ,...,pn)ở mô hình
Ko = rrìA„
mà giải thích họp lý nhất cho bởi véc tơ dữ liệu (uữ,uỊ,...,un ) <E N”+1. Nghĩa là giải quyết vấn đề tối ưu với ràng buộc sau:
Cực đại hàm hợp lý L = plQ°p“'...p“n hay bài toán log tương đương
l = u0 logpữ +.... + un logpn với giả thuyết là p e v>ữ .
Tiếp cận của chúng ta là tìm tất cả các điểm tới hạn của hàm họp lý cực đại L
và sau đó chọn những nghiệm thực dương, những điểm đó là cực trị địa phương. Trong quá trình giải tìm cực đại hàm trên, chúng ta sẽ tìm tất cả điểm tới hạn trẽn đa tạp phức V. Cho Vsịng ký hiệu những điểm kỳ dị của đa tạp V và tập V :=v\ Vsịng.
là iđêan trên vành đa thức R[/?0,/?!,...,/?„] được sinh bởi các đa thức được xác định bởi V, hay:
R[K] = R[/?o,jp1,...,jpJ/P
Đinh nghĩa: Cho ulà môt tân mở \íờ(Vn.Vì...v„ (Z Pị)) của V. Quỹ tích họp lý Zu là tập các điểm p EƯ mà dL = 0. Iđêan họp lý Iu d M[C]là iđêan của tập đóng của zu trong V.
6.2. Ma trận Jacobi của các đa thức bất biến
6.2.1. Gradient- Vector vận tốc
Cho /: R” —» R khả vị Khi đó gradient của/tại X, được ký hiệu gradf (x) và định nghĩa là vector:
Bùi Văn Đồng Trang 47
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
grad/ (x) = (i7-(x),...,77(x))
Õ X ị Õ XtJ
Với c E R, tập Mc ={JÍỄ M”: / (x) =c} = f~\c) gọi là mặt mức. về mặt hình học vector grad f(x) vuông góc với mặt mức của Mctại X .
Vậy phương trình mặt phẳng tiếp xúc với Mc tại a = (aỉ,...,an) là
¥~(a)(xl ~aỉ ) + - + - ^ - (a) (Xn ~an ) =0
Ô X ị õ xn
6.2.2. Ma trận Jacobi của các đa thức bất biến
Đặt {go >ểi >—>£,.} là tập các đa thức thuần nhất được sinh ra bởi iđêan p.
Chúng ta mô tả ma trận Jacobi như sau:
Chúng ta nhân J bởi ma trận đường chéo các phần tử trên đường chéo là các biến như sau:
Bùi Văn Đồng Trang 48
6.2.3. Không gian tiếp xúc
Vì V là một đa tạp khả vi và p E V, tập vector tiếp xúc với M tại p được gọi là không gian tiếp xúc với Vtạip và ký hiệu TpV thì:
TpV = {v e P" : V _L grad^oy = 1
Viết một các khác TpVcho bởi hệ phương trình V e P" : J.v = 0, hay TpV là
Ker của ma trận J trên R[K] = R[p0,pn]/p.
6.3. Bài toán cực trị điều kiện
Ta có bài toán tìm cực trị của hàm họp lý chính là tìm cực trị hàm /: V —» R. Nói cách khác là tìm cực trị của hàm / với điều kiện ràng buộc g0 = gị =... = g = 0. Ta có:
gràdl(p) = Po
Điều kiên cần : Nếu / đặt cực trị với ràng buộc g0 = gị =... = gr = 0 tại p, thì gradf (p) -LTpV suy ra
— v0 +... + — vn = 0 với VET V Po
Pn
n Pị ^0,i = 0,...,n nên tập các p thuộc tập: 'Yjdị(Ị)l — 0 với các vector {ộQ,...,ộn)
i=0 chạy trên tập Ker của ma trận J trên R[K] = M[pữ,pỉì...,pn]/p
Phương pháp nhân tử hoá Lagrange : Từ trên, để tìm điểm nghi ngờ cực trị của / với điều kiện g0 = gl =... = gr = 0, ta lập hàm Lagrange
r(p,Ã) = t(p)~ Á0g0 - Ả r g r , p e F,(Ã0,...,Ầr)e cr+1
Neu plà điếm cực trị có điều kiện thi tồn tại ...Ẳ )ỄC'*' sao cho (p,Ằ) là nghiệm của hệ:
7p(/a)=0
ôp 'go(p) = 0
yÁP)=0
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Điều kiện đủ: Đặt Hp£(p*,ýl*)là Hessian của hàm Lagrange £ theo biến p. Khi đó: Nếu Hp£(p*,Ă*) xác định âm, thì / đạt cực đại tại p*.
( Xem [Tạ Lê Lợi, 2002])
6.4. Bậc của hợp lý cực đại
Bậc họp lý cực đại của mô hình thống kê đại số là số điểm tới hạn phức của logarit phưong trình họp lý / đối với vector dữ liệu u e N”+1 và nó hữu hạn và bị chặn
trên theo định lý sau:
Đinh Iv : Cho p = (g0,...,gr) là một iđêan trong pn] với gị là đa thức thuần
nhất có bậc là dị với ỉ = 0,...,r. Thì bậc họp lý cực đại của p là hữu hạn và bị chặn trên bởi D= ỵ 4*4'.,j; ĨQ+iị+... +ir<n-r iQ>Ỗ,....,ir> 0 [Hoạten et al., 2005]. 6.5. Các thuật toán
Từ các phân tích trên ta xây dựng một số thuật toán sau giải phuong trình họp lý.
Tính toán phưong trình họp lỷ)
: Một iđêan thuần nhất p c R[/?0,...,/?J và một vector uG N"+1. : Iđêan họp lý Iu của mô hình V = U(P) cho dữ liệu ụ
: Tính c = (n +1) - dim(F). Đặt Q là iđẽan những quỹ tích điểm kỳ dị của V.
Bước 2: Tính Ker Mcủa ma trận J trên R[K] = pỊ 9...,pn]/p. n
: Đặt Iu là iđêan trong R[F] sinh bởi đa thức ^ Uịậị = 0, với vector
1=0
n) chạy trên tập M.
: Iđêan ỉu bằng Iu loại bỏ đi những điểm kỳ dị.
(Chứng minh tỉnh đủng thuật toán trên: Buớc 1, tìm quỹ tích những điểm kỳ dị đuợc chứng minh ở [J.s. Milne, 2005]. Các buớc còn lại có đuợc bởi sự phân tích ở phần đầu chuơng).
Tính toán cực đại địa phưong của hàm hợp lỷ)
: Iđêan hợp lý Iu của mô hình V và dữ liệu ụ
: Danh sách của tất cả các cực đại địa phương cho phương trình hợp lý. : Nếu dim(/w) = 0 đối với dữ liệu u, tính ra tập Zụ
Với mỗi một nghiệm dương p* e Zun v>0 thực hiện các bước sau: : Giải phương trình tuyến tính jT(p*).Ả = u để thu các nhân tử Lagrange Ã*.
: Tính toán Hessian H p/2(p*,Ả*) của hàm /2(p,Ầ).
: Nếu H p£(p*, Ả*) ở bước 3 là xác định âm thì xuất p* với giá trị hàm
l(p*) tương ứng.
6.6. Ảp dụng giải phương trình hợp lý
Xét ví dụ cây sinh loài ở chương 5, thành phần bất biến chúng ta tìm được là:
8 2 16 2 4 2 8(3 3 8 2 4 2 4 3 A
Sí =ịPỐP2 -~ịjPf>P\ +ịPoPỈ+^ý)Pt -fịP< P2-ỲỊPIPÍ +Ỷjp2=ữ
và bất biến tầm thường là:
g0 = Po + P\+P2-ì = ()
ĩ _ / 1 8 2 16 2 4 2 80 3 8 2 4 2 ^3 .
(Po +P\+Pl~ l^PoPl - Yl PoP> +9 P0P2 + PÍ^ - ^7 Pí Pl - — P'P2 > Giả sử bộ dữ liệu quan sát đếm được cho từng xác suấtp0,Pị,p2 tương ứng là
u = (700,45,49).
Ket quả sau khi chạy thuật toán 1: Xem phụ lục 2.
Ket quả sau khi chạy thuật toán 2 tìm được số nghiệm của phương trình họp lý là 5 nghiệm như sau:
(0.2474737682, 2.5624447362, -1.8099185045)
(0.8289181084, 0.1641242871, 0.0069576045)
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
(0.8289181084, 0.1641242871, 0.006957604546)
(0.1469015638, 0.7993903746, 0.05370806152)
Hàm Lagrange tương ứng:
£ ( p , X ) = 700 ln(/?o) + 45 ]n(pị) + 49 ln (p2) + Ă0g0 + Ảịgị
Với nghiệm thứ nhất nhân tử Lagrange tìm được tương ứng là:
Ma trận Hessian trên cho xác định âm, cho nên hàm hợp lý trên đạt giá trị cực đại cục bộ tại điểm trên và giá trị hàm hợp lý tương ứng là:
/ = -456.0927286
Với nghiệm thứ hai nhân tử Lagrange tìm được tương ứng là:
Ầ* =4765.0976562500, ^=64.9804763793 Ma trận Hessian tương ứng r~6.999e+02 H JC(P\/l*) = — ---3.883e-01 PoPxPi3407e_01 -3.883e-01 3.407e-01 -4.486e+01 -7.124e-02 -7.124e-02 -4.904e+01
Ma trận Hessian trên cũng cho xác định âm, cho nên hàm họp lý trên đạt giá trị cực đại cục bộ tại điểm trên và giá trị hàm họp lý tương ứng là:
/ = -1495.955966
Với 2 kết quả trên ta có thể kết luận, hàm họp lý đạt giá trị cực đại toàn cục tại
p = (0.8289181084, 0.1641242871, 0.0069576045) và giá trị hàm họp lý tương ứng là / = -456.0927286.
Ket quả chương trình với số cây khác xem phụ lục 4.
Vì chúng ta xử lý bài toán trên những xác suất nên độ chính xác là cần thiết, vì thế độ dài phần lẻ được lấy ở chương trình là 10 con số. Và chương 7 sẽ cho chúng ta một cái nhìn tổng quan hơn về chương trình thực hiện giải phương trình họp lý - áp dụng trên cây sinh loàị
Chương 7. CHƯƠNG TRÌNH THỰC HIỆN
7.1. Sơ đồ khối chương trình
X Output: Cây sinh loài có hàm hợp X
/X lý lớn nhất x^
T
(^End^)
Các mẫu Số Các mẫu Số Các mẫu Số
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
7.2. Sơ lược về chương trình
Bài toán trên được chia thành nhiều bài toán nhỏ tách rời nhaụ Vì thế để chọn một ngôn ngữ lập trình phù hợp của từng công đoạn cũng cần được tính đến. Trong luận văn này, hai ngôn ngữ được chọn để viết và kiểm nghiệm đó là ngôn ngữ C++ và Singular. Gói phần mềm viết bằng C++ giải quyết phần đầu bài toán là xác định các xác suất xảy ra trên cây và đếm số lượng các vector dữ liệu ụ
Phần quan trọng nhất của chương trình là tìm các thành phần bất biến và giải phương trình hợp lý được viết trên ngôn ngữ Singular (Xem phụ lục 3). Singular là một hệ thống các phương pháp tính toán đa thức, đại số giao hoán và hình học đại số. Nó là một gói phần mềm rất hữu hiệu cho đại số thống kê.
7.3. Kết quả chương trình
Xét cây sinh loài có gốc với 3 taxa, dữ liệu tương ứng với mỗi lá ở đây là những gen có tên là HIVenvSweden (dữ liệu lấy ở [Yang, z. 19977) có chiều dài 273 ký tự như sau:
U68496:=GT AGT AATT AGATCTG AAAACTTC ACGAAC AAT GCT AAAACC AT
AAT AGT AC AGCT AAAT AAAT CT GT AG AAATT AATT GT GT AAG ACCCGGC A
AC AAT AC AAGAAG AAGT AT AC AT AT AGG ACC AGGG AG AGC AT ATT AT AC A
GG AG AAGT AAT AGG AG AT AT AAG AC AAGC AC ATT GT AACCTT AGT AG AAC
AG ACT GG AAT AA AACTTT A AAAC AGGT AGCT G A A AAATT AAG AG AAC AAT
TT AAT AC AAC AAT AGTCTTT AAT c AAT cc
7:=GT AGT A ATT AG AT CT G A A A ACTTCT CG A ACAAT GC T AAAACC AT A AT AGTAC AGCT AAAT AAAT CTGT AG A AATT AATT GT AC AAG ACCC AAC AA
c AAT AC AAG A AG AAGT AT AC ATTTT GG ACC AGGG AAAGC ATTTT AT GC AG
G AG AAAT AAT AGG AG AT AT AAG AC AAGC AT ATT GT ACCCTT AATGG AAC A
G AAT GG AAT AAC ACTTT AAAAC AGGT AGCT G AAAAATT AAG AG AAC
Bùi Văn Đồng Trang 54
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Với 3 gen này mục đích chúng ta là tìm mối liên hệ tổ tiên giữa chúng. Có 2 dạng cây 3 taxa có gốc như hình 10.
/X
Cây 3 taxa hình móng Cây3 taxa hình lược
Hình 10: Hai hình dạng cây 3 taxa có gốc
Ta chọn mô hình Jukes - Cantor cho bài toán nàỵ
Với Cây hình móng: Chỉ có một trường hợp duy nhất, dữ liệu quan sát khi so dóng trên từng cột như Bảng 2.
Cây này có 3 lóp tương đương, số lượng từng lóp trẽn dữ liệu là «=(247, 25, 1), khi chạy chương trình cho kết quả:
p= (0.903285626594, 0.094557322708, 0.00215705069738) và giá trị hàm họp lý tương ứng l ( p ) = -90.22670674
Với Cây hình lược: Có 4 lóp xác suất tương đương và 3 trường họp xảy ra:
Trưòns hov ỉ : Các nút cây tương ứng (V68496ẬJJ68496, Ư68496)) và số lượng các mẫu dữ liệu quan sát khi so dóng trên từng cột đối với trường họp này ở
hảng 3.
Bùi Văn Đồng Trang 55
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Vector dữ liệu tương ứng là: u = (247, 8, 17, 1) và kết quả khi chạy chương =(0.9027837320165, 0.03154973251390, 0.0640321523858, 0.001634383083735)
và giá trị hàm ỉ(p) = -106.0495469
Trường hoy 2 : Các nút cây tương ứng (Ư68497ẠJJ68496, U68498)) và số lượng các mẫu dữ liệu quan sát khi so dóng trên từng cột đối với truờng họp này giống như bảng 2, vì thế tương tự như trường họp 1.
Trường hov 3 : Các nút cây tương ứng (U68498,(U68496, U6849T)) và số lượng các mẫu dữ liệu quan sát khi so dóng trên từng cột đối với truờng họp này trên
Vector dữ liệu tương ứng u = (247, 19, 6, 1), kết quả khi chạy chương trình:
p =(0.9032484236332, 0.07179349581611, 0.0228400591792, 0.0021180213714) và giá trị hàm ỉ ( p ) = -104.0121158
Với kết quả trên thì ta thấy với trường họp cây sinh loài thứ 2 thì các dữ liệu trên đựợc gán cho cây với thứ tự ((Ư68498,(U68496, U68497)) là “họp lý” nhất. Xét về cây thì cây sinh loài giải thích tốt nhất cho dữ liệu trên là cây sinh loài hình lược, vì nó có hàm họp lý cho kết quả lớn nhất.
Bùi Văn Đồng Trang 56
Chương 8. TỔNG KẾT - ĐÁNH GIÁ
Chương này tổng kết lại những công việc đã làm được, sau đó nêu ra những đóng góp và hướng phát triển của luận văn.
8.1. Tổng kết
Luận văn đã nghiên cứu đến một lãnh vực đang được rất nhiều người quan tâm trong giai đoạn hiện naỵ Luận văn cho ta một cái nhìn tổng thể về cây sinh loài và phương pháp để giải phương trình hợp lý, cũng như cách mô hình hóa bài toán và chọn phương pháp và giải quyết bài toán. Trong đó phương pháp được chọn là phương pháp đại số nói chung và đại số máy tính nói riêng. Ngoài ra, luận văn cũng cung cấp một gói phần mềm được sử dụng như là kiểm nghiệm những lý thuyết đưa rạ
Vì kiến thức cũng như thời gian có hạn nên luận văn có nhiều khiếm khuyết