BÙI VĂN ĐỒNG PHƯƠNG PHÁP ĐẠI SỐ CHO BÀI TOÁN ƯỚC LƯỢNG HỢP LÝ CỰC ĐẠI – ÁP DỤNG TRÊN CÂY SINH LOÀI NHỎ Chuyên ngành: Khoa học Máy tính LUẬN VĂN THẠC SĨ TP... TÓM TẮT LUẬN VĂN Cây sin
Trang 1BÙI VĂN ĐỒNG
PHƯƠNG PHÁP ĐẠI SỐ CHO BÀI TOÁN ƯỚC LƯỢNG HỢP
LÝ CỰC ĐẠI – ÁP DỤNG TRÊN CÂY
SINH LOÀI NHỎ
Chuyên ngành: Khoa học Máy tính
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 11 năm 2007
Trang 2Tp HCM, ngày 05 tháng 11 năm 2007
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên : Bùi Văn Đồng Giới tính : Nam ;/ Nữ
Ngày, tháng, năm sinh : 10/10/1969 Nơi sinh : Quảng Ngãi
Chuyên ngành : Khoa học Máy tính
Khoá : 2005
1- TÊN ĐỀ TÀI :
PHƯƠNG PHÁP ĐẠI SỐ CHO BÀI TOÁN ƯỚC LƯỢNG HỢP LÝ CỰC
ĐẠI – ÁP DỤNG TRÊN CÂY SINH LOÀI NHỎ
2- NHIỆM VỤ LUẬN VĂN :
3- NGÀY GIAO NHIỆM VỤ:
4- NGÀY HOÀN THÀNH NHIỆM VỤ:
5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : TS Nguyễn Văn Minh Mẫn
Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua
CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN
Họ tên và chữ ký)
TS Nguyễn Văn Minh Mẫn TS Đinh Đức Anh Vũ
Trang 3TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học : TS Nguyễn Văn Minh Mẫn
Cán bộ chấm nhận xét 1 :
Cán bộ chấm nhận xét 2 :
Luận văn thạc sĩ được bảo vệ tại
HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm 2007
Trang 4LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như
đã ghi rõ trong luận văn, các công việc trình bày trong luận văn này là do chính tôi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở trường này hoặc trường khác
Ngày 05 tháng 11 năm 2007
Bùi Văn Đồng
Trang 5LỜI CẢM ƠN
Xin gởi lời cảm ơn chân thành và sâu sắc đến TS Nguyễn Văn Minh Mẫn, người Thầy đã tận tình hướng dẫn và tạo mọi điều kiện để tôi có thể hoàn thành luận văn này
Xin gởi lời cảm ơn đến các Thầy Cô đã dạy cho tôi trong thời gian qua Tôi xin cảm ơn các bạn đồng môn và đồng nghiệp đã quan tâm, chia sẻ trong suốt quá trình học và làm luận văn
Luận văn này như một món quà nhỏ đáp lại tình cảm của gia đình và bạn bè thân thích
Trang 6TÓM TẮT LUẬN VĂN
Cây sinh loài mô tả lịch sử tiến hóa của một nhóm các loài với những đặc tính khác nhau nhưng cùng có mối quan hệ họ hàng với nhau và cùng hình thành từ một tổ tiên chung trong quá khứ Đặc tính của mỗi loài được chúng ta quan tâm ở đây tương ứng với các bộ gen Gen là các chuỗi DNA được bao gồm từ các kí tự A, G, C và T hợp thành Cây sinh loài là một cây mà các nút lá (taxa) của nó có thể là các vật sống hiện tại ngày nay, các nút trong của cây đó là các tổ tiên của các nút lá Tái cấu trúc cây sinh loài chính là tìm những gen phù hợp nhất để đưa vào các nút tổ tiên hoặc là đưa ra một cây sinh loài phù hợp nhất để giải thích quá trình tiến hoá
Tuy nhiên, việc nghiên cứu cây sinh loài cho nhiều hướng tiếp cận Mỗi phương pháp có những ưu điểm và khuyết điểm của nó Phương pháp ước lượng hợp lý cực đại được chọn ở đây là phương pháp phức tạp nhất nhưng lại là phương pháp cho kết quả tin cậy nhất Công cụ chính sử dụng trong phương pháp này là Đại số thống kê và Đại số máy tính Đó là những lãnh vực phát triển mạnh mẽ trong những năm gần đây
Thống kê là ngành khoa học phân tích dữ liệu Đối với các chuỗi DNA thì thống kê sẽ xây dựng những mô hình quá trình phát sinh dữ liệu Đưa ra những kết luận chung về quá trình phát sinh đó Mô hình thống kê là nguyên tắc cơ bản đối với các gen Đại số thống kê làm sáng tỏ cho những ý tưởng trọng tâm về phân tích dữ liệu rời rạc nói riêng và phân tích chuỗi sinh học nói riêng
Ước lượng hợp lý cực đại (Maximum Likelihood Estimation – MLE) được công thức hoá trong Xác suất cổ điển, nó có tính chất của một ước lượng tốt Phương pháp MLE đánh giá những tham số của một mô hình thối lui MLE dẫn đến việc giải quyết là làm cực đại tích của những đa thức
Đại số máy tính là một lãnh vực mới, nó cung cấp những nền tảng để giải bài toán MLE trên máy tính
Đề tài này tập trung vào việc nghiên cứu mô hình xác suất thống kê trên cây sinh loài từ những dữ liệu là các gen của sinh vật sống Sau đó sử dụng những nền tảng toán học, đại số máy tính để giải quyết bài toán hợp lý cực đại của mô hình xác suất trên Mục tiêu cuối cùng là tìm một cây sinh loài thích hợp nhất để giải thích sự tiến hoá Những kết quả của luận văn đã làm như sau:
- Về phương pháp: Chọn phương pháp đáng tin cậy nhất là phương pháp ước
lượng hợp lý cực đại cho mô hình hóa bài toán Giải phương trình hợp lý bằng phương pháp tính toán đại số để tìm kết quả chính xác
- Về tính toán: Viết một chương trình để mô hình hóa ước lượng hợp lý cực đại
trên cây sinh loài và chạy tìm nghiệm phương trình hợp lý trên một số cây sinh loài nhỏ 3 và 4 taxa ở một số mô hình
Trang 7DANH MỤC BẢNG
Bảng 1: Bảng biến thiên của hàm hợp lý 27Bảng 2: Các mẫu và số lượng từng mẫu trên 3 chuỗi gen HIVenvSweden với cây hình
móng (U68496, U68497, U68498) 55
Bảng 3: Các mẫu và số lượng từng mẫu trên 3 chuỗi gen HIVenvSweden với cây hình
lược với trường hợp ((U68496,(U68497, U68498)) 55
Bảng 4: Các mẫu và số lượng từng mẫu trên 3 chuỗi gen HIVenvSweden với cây hình
lược với trường hợp ((U68498,(U68496, U68497)) 56
Trang 8DANH MỤC HÌNH
Hình 1: Hai trường hợp xảy ra khi tung đinh bấm 26
Hình 2: Đồ thị của hàm hợp lý 27
Hình 3: Cây sinh loài của sự sống 30
Hình 4: Mô tả xác suất chuyển đổi trạng thái của chuỗi “DNA” 32
Hình 5: Cây sinh loài với các nút trong và xác suất chuyển đổi 32
Hình 6: Một trong những cây sinh loài 4 taxa 35
Hình 7: Cây sinh loài với dữ liệu trên nút lá và các khả năng xảy ra ở các nút tổ tiên.36 Hình 8: Cây sinh loài có gốc với 3 nút lá 42
Hình 9: Sơ đồ khối chương trình tìm cấu trúc cây sinh loài 53
Hình 10: Hai hình dạng cây 3 taxa có gốc 55
Hình 11: Cây sinh loài 4 taxa hình móng 68
Hình 12: Cây sinh loài 4 taxa hình cần trục 68
Hình 13: Một số cây sinh loài 4 taxa 68
Trang 9MỤC LỤC
LỜI CAM ĐOAN 1
LỜI CẢM ƠN 2
TÓM TẮT LUẬN VĂN 3
DANH MỤC BẢNG 4
DANH MỤC HÌNH 5
MỤC LỤC 6
Chương 1 GIỚI THIỆU ĐỀ TÀI 9
1.1 Giới thiệu 9
1.2 Cấu trúc luận văn 10
Chương 2 CƠ SỞ LÝ THUYẾT VỀ CÁC CẤU TRÚC ĐẠI SỐ VÀ XÁC SUẤT THỐNG KÊ 12
2.1 Một số cấu trúc đại số cơ bàn 12
2.1.1 Lý thuyết nhóm 12
2.1.2 Lý thuyết vành 13
2.1.3 Trường 14
2.1.4 Vành đa thức 14
2.1.5 Ma trận 15
2.1.6 Định thức 15
2.1.7 Không gian vector 16
2.1.8 Đa tạp đại số 18
2.2 Các khái niệm về xác suất thống kê 18
2.2.1 Định nghĩa về xác suất 18
2.2.2 Xác suất có điều kiện 19
2.2.3 Đại lượng ngẫu nhiên và hàm phân phối 20
2.2.4 Các đặc trưng của đại lượng ngẫu nhiên 20
2.2.5 Lý thuyết mẫu 21
2.2.6 Ước lượng tham số 22
2.2.7 Sơ lược về ước lượng hợp lý cực đại 22
Chương 3 ƯỚC LƯỢNG HỢP LÝ CỰC ĐẠI TRÊN MẪU QUAN SÁT 25
3.1 Ước lượng hợp lý cực đại là gì? 25
3.1.1 Đặt vấn đề 25
3.1.2 Khái quát về ước lượng hợp lý cực đại 25
3.1.3 Ví dụ về ước lượng hợp lý cực đại 26
3.2 Giải bài toán ước lượng hợp lý cực đại 26
3.2.1 Nguyên lý ước lượng hợp lý cực đại 26
3.2.2 Logarit hàm hợp lý 26
3.3 Tổng quát hóa bài toán ước lượng hợp lý cực đại 27
3.3.1 Ước lượng hợp lý cực đại trên mẫu quan sát 27
Trang 103.3.2 Một số phương pháp giải phương trình hợp lý 28
Chương 4 CÂY SINH LOÀI - MÔ HÌNH XÁC SUẤT THỐNG KÊ TRÊN CÂY SINH LOÀI 30
4.1 Giới thiệu sơ lược về cây sinh loài 30
4.2 Các nghiên cứu phát sinh sinh loài 31
4.3 Mô hình ước lượng hợp lý cực đại trên cây sinh loài 32
4.4 Mô hình tiến hóa 33
Chương 5 BẤT BIẾN TRÊN CÂY SINH LOÀI 37
5.1 Dẫn nhập 37
5.2 Mô hình xác suất trên cây sinh loài 38
5.2.1 Mô hình bài toán cây sinh loài 38
5.2.2 Nhóm Abel và sự liên hệ với các ma trận chuyển đổi 39
5.3 Biến đổi Fourier 40
5.4 Toạ độ Fourier 42
5.5 Áp dụng tìm bất biến trên một cây sinh loài 42
5.5.1 Mô hình bài toán 42
5.5.2 Các khả năng xảy ra trên các nút lá 43
5.5.3 Các lớp xác suất tương đương 43
5.5.4 Chuyển đổi Fourier 44
5.5.5 Kết quả tìm được 45
5.6 Những tính chất của thành phần bất biến 46
Chương 6 GIẢI PHƯƠNG TRÌNH HỢP LÝ 47
6.1 Quỹ tích hợp lý trên một đa tạp 47
6.2 Ma trận Jacobi của các đa thức bất biến 47
6.2.1 Gradient- Vector vận tốc 47
6.2.2 Ma trận Jacobi của các đa thức bất biến 48
6.2.3 Không gian tiếp xúc 49
6.3 Bài toán cực trị điều kiện 49
6.4 Bậc của hợp lý cực đại 50
6.5 Các thuật toán 50
6.6 Áp dụng giải phương trình hợp lý 51
Chương 7 CHƯƠNG TRÌNH THỰC HIỆN 53
7.1 Sơ đồ khối chương trình 53
7.2 Sơ lược về chương trình 54
7.3 Kết quả chương trình 54
Chương 8 TỔNG KẾT – ĐÁNH GIÁ 57
8.1 Tổng kết 57
8.2 Những đóng góp của luận văn 57
8.3 Hướng phát triển 58
TÀI LIỆU THAM KHẢO 59
Trang 11Phụ lục 1 Tập các xác suất trình bày ở chương 5 60
Phụ lục 2 Tập các dữ liệu kết quả thực hiện trình bày ở chương 6 62
Phụ lục 3 Trích một số SourceCodes chương trình viết trên Singular 64
Phụ lục 4 Một số kết quả chương trình trên cây sinh loài 4 taxa 68
Phụ lục 5 Bảng đối chiếu Thuật ngữ Anh - Việt 69
Danh mục các tên 70
Trang 12Chương 1 GIỚI THIỆU ĐỀ TÀI
Chương này giới thiệu chung về bối cảnh, mục tiêu và kết quả thu được của đề tài Cấu trúc nội dung của quyển thuyết minh được trình bày ở cuối chương
1.1 Giới thiệu
Phát sinh sinh loài đó là tái tạo lịch sử tiến hóa dựa trên các phương pháp toán học nhằm suy luận lịch sử tiến hóa sự sống trên hành tinh chúng ta Việc tái cấu trúc này liên quan đến việc nhận diện chỉ định những đặc tính đồng dạng (homologous characters) được chia sẻ giữa các loài sinh vật khác nhau và suy luận cây phát sinh sinh loài từ việc so sánh các đặc tính thông qua việc sử dụng các phương pháp tái cấu trúc có độ tin cậy cao Độ chính xác của quá trình suy luận vì thế phụ thuộc rất lớn vào
độ tin cậy của các mô hình dùng để đánh giá sự tiến hóa của các đặc tính này
Trước đây việc tái tạo cây tiến hóa chủ yếu dựa trên phân tích hình thái và các đặc tính siêu cấu trúc Trong nửa cuối thập niên 1980 nguồn dữ liệu trình tự DNA gia tăng cộng với sự phát triển ngành công nghệ thông tin, từ đó giúp nhà nghiên cứu có được những công cụ mạnh mẽ và nhằm giải quyết vài bài toán phát sinh sinh loài đang chưa có lời giải
Trong việc suy luận phát sinh sinh loài có 2 bước cơ bản đó là:
- Chỉ định những đặc tính đồng dạng là những đặc tính chung truyền từ một tổ tiên chung cho đến các thế hệ hiện tại
- Tái cấu trúc cây tiến hóa bằng việc sử dụng các phương pháp thích hợp
Các dạng đặc tính có thể sử dụng là cấu trúc hình thái, siêu cấu trúc của tế bào, gene, trình tự DNA và protein miễn rằng chúng thỏa điều kiện là Đồng dạng
Có 3 nhóm phương pháp thường được dùng để tái cấu trúc cây phát sinh sinh loài từ một ma trận đặc tính:
- Nhóm các phương pháp khoảng cách (Distance methods): Khoảng cách chính
là khoảng cách tiến hóa giữa các cặp đối tượng đang được so sánh
- Nhóm phương pháp hà tiện đến mức tối đa (Maximum parsimony - MP): phương pháp này sẽ chọn lựa cây tiến hóa thỏa điều kiện là số lượng đặc tính bị biến đổi phải thấp nhất để giải thích những dữ liệu đã quan sát được
- Nhóm phương pháp hợp lý cực đại (Maximum Likelihood methods): nhóm phương pháp này dựa trên một hàm toán học tính toán xác suất khả năng một cây tiến hóa được tạo thành từ dữ liệu đã quan sát Hàm này cho phép việc tích hợp các quá trình tiến hóa của đặc tính thành mô hình xác suất Phương pháp hợp lý cực đại chọn lựa cây tiến hóa tối đa mà khi quan sát các dữ liệu dưới một mô hình nào đó có xác xuất tối đa
Trong các phương pháp giới thiệu ở trên thì phương pháp hợp lý cực đại là phương pháp là phức tạp nhất và cho kết quả đáng tin cậy nhất Vì những lý do trên,
Trang 13trong dự án nghiên cứu này chúng tôi hướng vào kỹ thuật đại số tính toán cho vấn đề ước lượng khả năng cực đại và áp dụng để tái cấu trúc cây sinh loài
Xuất phát từ những thực tế trên, đề tài này đặt ra một số mục tiêu sau:
¾ Tìm hiểu mô hình xác suất thống kê trên cây sinh loài Tìm hiểu phương pháp
hợp lý cực đại và áp dụng trên cây sinh loài
¾ Tìm những phương pháp toán học thích hợp để giải bài toán ước lượng hợp lý cực đại
¾ Giải quyết cho trường hợp cây sinh loài 3 và 4 taxa
¾ Tìm kiếm kết quả tương tự cho trường hợp 5 taxa
¾ Hoàn thành một chương trình để kiểm nghiệm
Sau đây là một số kết quả thu được của đề tài:
¾ Xây dựng được mô hình xác suất thống kê tổng quát trên cây sinh loài
¾ Chỉ ra sự tương đồng của mô hình bài toán với một số cấu trúc đại số cơ bản, từ
đó tìm được thành phần bất biến trên cây sinh loài và giải bài toán
¾ Xây dựng được một chương trình kiểm nghiệm
¾ Chương trình đã giải quyết được bài toán MLE để tái cấu trúc cây sinh loài trên một số cây sinh loài nhỏ 3 taxa và trường hợp đặc biệt với cây 4 và 5 taxa
1.2 Cấu trúc luận văn
Nội dung luận văn được trình bày trong các chương sau:
CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI
Chương này giới thiệu chung về bối cảnh, mục tiêu và kết quả thu được của đề tài Cấu trúc nội dung của quyển thuyết minh được trình bày ở cuối chương
CHƯƠNG 2: CÁC CẤU TRÚC ĐẠI SỐ CƠ BẢN - CƠ SỞ LÝ THUYẾT VỀ XÁC SUẤT THỐNG KÊ
Chương này giới thiệu các khái niệm cơ bản của toán học đại số và xác suất thống kê được sử dụng vào các chương sau của đề tài Các khái niệm về các cấu trúc đại số như: nhóm, vành, trường, vành đa thức, ma trận, vectơ, … Các khái niệm về xác suất thống kê như: xác suất, đại lượng ngẫu nhiên và hàm phân phối, các đặc trưng của các đại lượng ngẫu nhiên, lý thuyết mẫu,…và ước lượng hợp lý cực đại
CHƯƠNG 3: ƯỚC LƯỢNG HỢP LÝ CỰC ĐẠI
Chương này chúng ta tìm hiểu kỹ hơn về MLE trên mô hình thống kê Dẫn ra một vài ví dụ về ước lượng hợp lý cực đại trên một số mẫu dữ liệu quan sát và giải bài toán
CHƯƠNG 4: CÂY SINH LOÀI – MÔ HÌNH XÁC SUẤT THỐNG KÊ TRÊN CÂY SINH LOÀI
Chương này giới thiệu cây sinh loài, mô hình xác suất thống kê trên cây sinh loài Ngoài ra cũng giới thiệu một số mô hình thường sử dụng hiện nay trên cây sinh loài như mô hình Neyman 2 trạng thái, Jukes – Cantor, Kimura với 2 và 3 tham số
Trang 14CHƯƠNG 5: BẤT BIẾN TRÊN CÂY SINH LOÀI
Trong chương này, giới thiệu tổng quát hóa mô hình xác suất thống kê trên sinh loài Chỉ ra cấu trúc nhóm Aben đối với các mô hình sử dụng để từ đó tìm thành phần bất biến trên cây sinh loài
CHƯƠNG 6: GIẢI PHƯƠNG TRÌNH HỢP LÝ
Chương này đưa ra phương pháp giải phương trình hợp lý dựa vào tính bất biến của cây sinh loài và mẫu dữ liệu quan sát
CHƯƠNG 7: CHƯƠNG TRÌNH THỰC HIỆN
Chương này trình bày chi tiết hiện thực của chương trình
CHƯƠNG 8: TỔNG KẾT – ĐÁNH GIÁ
Chương này tổng kết lại những công việc đã làm được, sau đó nêu ra những đóng góp và hướng phát triển của luận văn
Trang 15Chương 2 CƠ SỞ LÝ THUYẾT VỀ CÁC CẤU TRÚC ĐẠI
SỐ VÀ XÁC SUẤT THỐNG KÊ
Các khái niệm cơ bản của đại số được trình bày ở phần đầu của chương này Tiếp theo đó là phần giới thiệu về những khái niệm về xác suất thống kê trong đó có phần khái quát về ước lượng hợp lý cực đại
2.1 Một số cấu trúc đại số cơ bàn
với mọi x G∈ Phần tử e còn được gọi là phần tử đơn vị của G
(iii) Với mọi x G∈ , có một phần tử x,∈G , được gọi là nghịch đảo của x sao
Trang 16, 1
Kerϕ = ∈x G ϕ x =e =ϕ− e
Im : { ( ) :ϕ = ϕ x x G∈ }=ϕ( )G
trong đó là đơn vị trong e, G'
Định nghĩa 6: Giả sử là một nhóm Một tập con không rỗng được
gọi là một nhóm con của G nếu S khép kín đối với luật hợp thành trong G (tức là
R R R
x y xy
thỏa mãn ba điều kiện sau đây:
(i) R là một nhóm Abel đối với phép cộng
(ii) Phép nhân có tính kết hợp
(iii) Phép nhân phân phối về hai phía đối với phép cộng:
(x + y)z = xz + yz, z(x + y) = zx + zy
với mọi x y z R, , ∈
Khi hai phép toán đều đã rõ, ta sẽ nói đơn giản: R là một vành
Định nghĩa 8: Vành R được gọi là vành giao hoán nếu phép nhân của nó giao
hoán
Định nghĩa 9: Giả sử R là một vành Tập con S được gọi là một vành con
của R nếu S là một nhóm con của nhóm cộng R và khép kín đối với phép nhân, tức là
R
⊂,
x y R∈ kéo theo xy S∈
Định nghĩa 10:
(i) Một iđêan trái của vành R là một vành con A ⊂ R có tính hấp thụ đối với
phép nhân từ bên trái, tức là
ra A r R a A ∈ ∀ ∈ ∀ ∈(ii) Một iđêan phải của vành R là một vành con A ⊂ R có tính hấp thụ đối với
phép nhân từ bên phải, tức là
ar A r R a A ∈ ∀ ∈ ∀ ∈(iii) Nếu vành con A ⊂ R vừa là một iđêan trái, vừa là một iđêan phải thì nó
được gọi là một iđêan (hai phía) của R
Trang 17Định lí : Giả sử A là một iđêan của vành R, thì:
(i) Lớp xy + A chỉ phụ thuộc vào các lớp x + A và y + A mà không phụ thuộc
vào sự lựa chọn của các phần tử x, y từ các lớp đó
(ii) X/A cùng với 2 phép toán
là một vành gọi là vành thương của R trên A
Định nghĩa 11: Giả sử R là một vành (giao hoán và có đơn vị) Iđêan A của R được gọi là nguyên tố nếu A R ≠ và với mọi x y R, ∈ , từ chỗ xy A∈ suy ra hoặc
x A∈ hoặc y A∈
2.1.3 Trường
Định nghĩa 12:
(i) Vành có đơn vị R được gọi là một thể nếu 1 0≠ và mọi phần tử khác 0 trong
R đều khả nghịch, nói cách khác, nếu R\ {0} là một nhóm đối với phép nhân
(ii) Mỗi thể giao hoán được gọi là một trường
Chúng ta đã biết một số trường số quen thuộc như: Q R C , ,
các gọi là các hệ tử của đa thức Các được gọi là các hạng tử
của đa thức Đa thức có tất cả hệ tử bằng 0 gọi là đa thức 0
Trang 18với các c i ≠0, i=1, ,m và ( , ,ai1 ain) (≠ a j1, ,a jn) khi i Ta gọi bậc của
Bậc của đa thức (đối với toàn thể các ẩn) là số lớn nhất trong các bậc của các
hạng tử của nó Đa thức 0 là đa thức không có bậc
Nếu các hạng tử của f x x( , , , )1 2 x n có cùng bậc k thì f x x( , , , )1 2 x n gọi là
một đa thức thuần nhất cấp bậc k hay một dạng bậc k Đặc biệt một dạng bậc nhất gọi
là dạng tuyến tính, một dạng bậc 2 gọi là dạng toàn phương, một dạng bậc 3 gọi là
Định thức của ma trận A là gọi là det(A) hay | | A được định nghĩa như sau theo
cách triển khai theo dòng i:
Trang 192.1.7 Không gian vector
K là một trường, chủ yếu là Q R C , , , mà các phần tử kí hiệu là: λ μ ν , , , ,
thỏa mãn các tính chất sau với mọi x y E, ∈ và mọi λ μ , ∈ K:
(i) E cùng với phép cộng là một nhóm Abel
(ii) Phép nhân phân phối đối với phép cộng của trường K:
(λ μ+ )x=λx+μx (iii) Phép nhân phân phối đối với phép cộng của E:
(v) 1x x= , 1 là đơn vị của trường K
Lúc đó ta bảo E cùng với hai phép toán: Cộng trong E và nhân đối với một phần
tử trong trường K, thỏa tính chất (i), (ii), (iii), (iv) và (v) là một không gian vector trên trường K hay K – không gian vector (cũng gọi tắt là không gian vector khi không cần
chỉ rõ K) Các phần tử của E gọi là các vector; các phần tử của K gọi là vô hướng Phép toán + gọi là phép cộng vector, phép toán nhân với một phần tử của trường K
được gọi là phép nhân vector với vô hướng
Độc lập tuyến tính và phụ thuộc tuyến tính
Giả sử x x1, 2, , x n (n≥1) là n vectơ của K – không gian vector E và
1, 2, , n
λ λ λ là n phần tử của trường K Vectơ
1 1 2 2 n n
x=λ x +λ x + +λ x
Trang 20còn được viết là:
1
n
i i i
λ sẽ gọi là hệ số thay cho hệ tử
Hệ n vectơ trong K không gian vectơ E gọi là độc lập tuyến tính khi vectơ 0 chỉ có một biểu thị tuyến tính, đó là biểu thị tuyến tính tầm
thường, qua hệ vectơ đó Vậy hệ độc lập tuyến tính khi và chỉ
Hạng của một hệ hữu hạn vectơ
Giả sử I là một tập hữu hạn và ∅ ≠ ⊂J I Giả sử cho hệ vectơ trong K- không gian vector E Hệ con
( )x i i I∈
( )x j j J∈ gọi là một hệ con độc lập tuyến tính tối đại của
hệ đã cho nếu nó là một hệ độc lập tuyến tính và nếu thêm bất cứ vector x i I i( ∈ −J)
nào vào hệ con đó thì ta đều được một hệ phụ thuộc tuyến tính
Cho hệ hữu hạn vector ( )x i i I∈ trong K- không gian vector E Người ta chứng
minh được rằng số phần tử của mọi hệ con độc lập tuyến tính tối đại của nó bằng nhau
và gọi là hạng của hệ vector đã cho Hạng của vectơ (0) được coi bằng 0
Hạng của ma trận
Ma trận A có m dòng và n cột với a ij∈K Hạng của A là hạng của hệ vector cột và người ta chứng minh nó cũng bằng hạng của vectơ dòng và bằng cấp cao nhất
của các định thức con khác 0 của nó
Nếu A chứa một ma trận vuông cấp p có định thức khác 0, sao cho mọi ma trận vuông cấp p+1 chứa nó có định thức bằng 0, thì ma trận có hạng là p
Cơ sở và số chiều của một K – không gian vector
Ở đây chúng ta chỉ đề cập tới các không gian vector có hữu hạn chiều
Giả sử E là một K – không gian vector Giả sử tồn tại trong E một hệ vector độc
lập tuyến tính sao cho mọi vector của E đều biểu thị tuyến tính qua hệ
đó Lúc đó ta có thể nói hệ là độc lập tuyến tính tối đại trong E
1 2
( , , , )e e e n
1 2
( , , , )e e e n
Và ta nói là một cơ sở của K – không gian vector E và số chiều
(hay vắn tắt là chiều) của E, kí hiệu là dim E, là số vectơ của cơ sở Ta viết dim E = n;
và gọi E là K - không gian vector n chiều
1 2
( , , , )e e e n
Trang 21F
1, , ) (
- Phép thử mà ta khơng khẳng định được một cách chắc chắn kết quả của nĩ
trước khi thực hiện phép thử gọi là phép thử ngẫu nhiên
- Các phép thử cĩ thể xảy ra của phép thử gọi là các biến cố
- Các biến cố khơng thể phân tích được nữa gọi là biến cố sơ cấp
- Biến cố chắc chắn là biến cố nhất định xảy ra khi phép thử được thực hiện Ta
kí hiệu biến cố chắc chắn là Ω
- Biến cố khơng thể là biến cố khơng thể xảy ra khi phép thử được thực hiện Ta
kí hiệu là Φ
- Biến cố ngẫu nhiên là biến cố mà nĩ cĩ thể xảy ra và cũng cĩ thể khơng xảy ra
khi phép thử được thực hiện ta thường kí hiệu biến cố ngẫu nhiên bởi các chữ
cái in hoa: A, B, C, …
2) Quan hệ giữa các biến cố
- Tổng của 2 biến cố: Tổng của 2 biến cố A và B là một biến cố được kí hiệu là
A B ∪ , sao cho biến cố tổng A B ∪ xảy ra khi và chỉ khi hoặc A xảy ra hoặc B
xảy ra
- Tích của 2 biến cố: Tích của 2 biến cố A và B là một biến cố được kí hiệu là
A B ∩ hoặc AB, sao cho biến cố tích AB xảy ra khi và chỉ khi A xảy ra và B
xảy ra
Định nghĩa xác suất dạng cổ điển
Xác suất của biến cố A là một số khơng âm, kí hiệu P(A) Biểu thị khả năng xảy
ra biến cố A và nĩ được xác định như sau:
( ) Số trường hợp thuận lợi cho
Số trường hợp có thể xảy ra phép thử được thực hiện
A
P A =
Định nghĩa xác suất dạng thống kê
Làm đi làm lại một phép thử nào đĩ n lần, thấy cĩ m lần biến cố A xuất hiện thì
tỷ số m
n gọi là tần suất của biến cố A
Trang 22Khi n thay đổi, tần suất m
n cũng thay đổi nhưng nó luôn dao động quanh một số
2.2.2 Xác suất có điều kiện
1) Định nghĩa: Xác suất có điều kiện của biến cố A với điều kiện biến cố B đã xảy
ra là một con số không âm, được kí hiệu p A B( / ), nó biểu thị khả năng xảy ra biến cố
A trong tình huống biến cố B đã xảy ra
2) Tính độc lập của các biến cố
Hai biến cố A và B gọi là độc lập với nhau nếu:
p A B =P A hoặc p B A( / )=P B( ) hoặc p AB( )=P A P B( ) ( )
3) Công thức nhân xác suất:
Từ định nghĩa xác suất có điều kiện, với n biến cố A A1, 2, ,A n ta có:
P A A A =P A P A A P A A A P A A A A n−
4) Công thức xác suất đầy đủ và công thức Bayes
Giả sử là một nhóm đầy đủ các biến cố Xét biến cố A sao cho A
xảy ra chỉ khi một trong các biến cố xảy ra Khi đó
Trang 232.2.3 Đại lượng ngẫu nhiên và hàm phân phối
1) Định nghĩa: Một đại lượng (hay một biến) nhận các giá trị của nó với xác suất
tương ứng nào đấy gọi là đại lượng ngẫu nhiên hay biến ngẫu nhiên
Phân loại các đại lượng ngẫu nhiên: Căn cứ vào giá trị mà biến ngẫu nhiên nhận
ta phân các đại lượng ngẫu nhiên ra làm 2 loại chính: biến ngẫu nhiên rời rạc và biến ngẫu nhiên liên tục Tuy nhiên, với vấn đề quan tâm của đề tài, chúng ta chỉ xét đến
các biến ngẫu nhiên rời rạc
2) Biến ngẫu nhiên rời rạc, bảng phân phối xác suất
Nếu tập các giá trị mà biến ngẫu nhiên nhận là một tập gồm một số hữu hạn hoặc vô hạn nhưng đếm được, khi đó biến ngẫu nhiên gọi là biến ngẫu nhiên rời rạc
Giả sử biến ngẫu nhiên ξ nhận các giá trị x x1, , , , 2 x n và
2.2.4 Các đặc trưng của đại lượng ngẫu nhiên
1) Kỳ vọng: Kỳ vọng của đại lượng ngẫu nhiên ξ là một con số, được kí hiệu
là E ξ và được xác định như sau:
i i i
Eξ =∑x p
trong đó P(ξ = x i)= p i,∀ =i 1,2,
Ý nghĩa: Kỳ vọng của biến ngẫu nhiên là giá trị trung bình mà biến ngẫu nhiên
nhận hay là trọng tâm của phân phối xác suất
2) Phương sai: Phương sai của đại lượng ngẫu nhiên ξ là một con số không
âm, được kí hiệu là D ξ và được xác định như sau:
2
Dξ = E ξ − Eξ
Ý nghĩa: Phương sai của biến ngẫu nhiên là một số không âm dùng để đo mức
độ phân tán (mức độ tản mát) của các giá trị của biến ngẫu nhiên ξ xung quanh tâm
E ξ của nó D ξ nhỏ thì độ phân tán nhỏ, độ tập trung lớn D ξ càng lớn thì độ phân tán càng cao
Trang 242.2.5 Lý thuyết mẫu
1) Mẫu ngẫu nhiên
Tiến hành n quan sát độc lập về biến ngẫu nhiên X nào đó Ta gọi X ilà việc
quan sát lần thứ i về biến ngẫu nhiên X Khi đó (X X1, 2, ,X n) được gọi là mẫu ngẫu
nhiên, n gọi là cỡ mẫu (số lần quan sát) Như vậy mẫu ngẫu nhiên cỡ n thực chất là n biến ngẫu nhiên độc lập, cùng phân phối như biến ngẫu nhiên X
Ta gọi x i là kết quả quan sát được ở lần thứ i Khi đó ( , , , )x x1 2 x n là n giá trị
cụ thể ta quan sát được Đó là giá trị cụ thể mà mẫu ngẫu nhiên (X X1, 2, ,X n)nhận
2) Các đặc trưng mẫu
Giả sử ta cần nghiên cứu biến ngẫu nhiên X với EX, DX mà ta chưa biết và đang
phải đi tìm chúng Ký hiệu μ = EX , σ2 = DX
Giả sử (X X1, 2, ,X n)là mẫu ngẫu nhiên được rút ra từ X Ta xây dựng biến
ngẫu nhiên rời rạcX' nhận n giá trị mẫu với xác suất đều 1
n =
Do (X X1, 2, ,X n)là các biến ngẫu nhiên độc lập cùng phân phối như X nên
kỳ vọng mẫu là một biến ngẫu nhiên Do đó ta lại tìm kỳ vọng và phương sai của X
1
i i
Trang 252.2.6 Ước lượng tham số
Giả sử ta nghiên cứu biến ngẫu nhiên X và biết được phân phối X thuộc một họ phân phối nào đó Khi đó để xác định hoàn toàn phân phối của X ta phải xác định được
các giá trị tham ẩn mà phân phối đó nhận
Trong trường hợp ta chưa biết được gì về phân phối của X, khi đó việc biết được các số đặc trưng của X cũng cho ta nhiều thông tin giá trị
Do đó bài toán đi tìm các ước lượng cho các tham ẩn của phân phối hoặc ước lượng cho các số đặc trưng của biến ngẫu nhiên là bài toán rất cần thiết
1) Ước lượng điểm
Giả sử θ là tham ẩn cần ước lượng Với mẫu ngẫu nhiên (X X1, 2, ,X n), ta không thể ước lượng cho θ dựa vào mẫu ngẫu nhiên trên
Ta sẽ dùng một hàm nào đó của mẫu, tức là một hàm nào đó của n biến
2) Ước lượng không chệch
Vì θ*( , , , )x x1 2 x n là một biến ngẫu nhiên nên ta không thể đòi hỏi
Ta dùng X là ước lượng điểm cho EX , s2là ước lượng điểm cho DX
2.2.7 Sơ lược về ước lượng hợp lý cực đại
Phần trên chúng ta đã đưa ra các ước lượng điểm cho kỳ vọng, phương sai Cách đưa ra như vậy có vẻ không được tự nhiên Bây giờ chúng ta tìm hiểu một trong các phương pháp tìm được kết quả đã đưa ra Đó là phương pháp hợp lý cực đại Nội dung phương pháp như sau:
Ta xét biến ngẫu nhiên ξ và đối với nó ta xác định:
f xθ =P ξ =x θ
θ là tham ẩn của phân phối của biến ngẫu nhiên ξ Trước hết ta xét trường hợp θ là tham ẩn một chiều
Trang 26Giả sử (X X1, 2, ,X n) là mẫu ngẫu nhiên cỡ n được rút ra từ ξ Để cho gọn ta
kí hiệu mẫu ngẫu nhiên là vectơ X Đối với mẫu X đã cho ta xác định hàm L x( )θ (hàm của tham ẩn θ ) như sau:
∂
=
∂
Nghiệm của phương trình trên phụ thuộc vào mẫu ngẫu nhiên X, và ta cũng chỉ
xét những nghiệm như thế, được kí hiệu là θ*( )X θ*( )X được gọi là ước lượng hợp
lý cực đại Ước lượng hợp lý cực đại có các tính chất của một ước lượng tốt
Nếu θ là tham số ẩn vectơ, chẳng hạn θ =( , , , )θ θ1 2 θr khi đó phương trình hợp lý sẽ trở trở thành hệ phương trình:
( )
01,2, ,
x i
L
θ θ
x i
L
θ θ
Trang 27=
=∑X chính là tổng số lần X inhận giá trị 1 hay
tổng số lần biến cố A, với p P A= ( ), xuất hiện
Ví dụ 2: Giả sử X =(X X1, 2, ,X n)là mẫu ngẫu nhiên rút ra từ phân phối chuẩn N( ,μ σ2) Hãy chỉ ra ước lượng hợp lý cực đại cho μ và σ2, ở đây
2
θ = μ σ tham số ẩn hai chiều
2 2
1 ( ) 2
2 2
1
01
n i
n i i
X L
Nhận xét: Qua 2 ví dụ trên chúng ta nhận lại được các ước lượng điểm đã nêu
Chúng ta sẽ phân tích kỹ về ước lượng hợp lý cực đại với mẫu quan sát ở chương sau
Trang 28Chương 3 ƯỚC LƯỢNG HỢP LÝ CỰC ĐẠI TRÊN MẪU
QUAN SÁT
Chương này chúng ta tìm hiểu kỹ hơn về MLE trên mô hình thống kê Dẫn ra một vài ví dụ về ước lượng hợp lý cực đại trên một số mẫu dữ liệu quan sát và giải bài toán
3.1 Ước lượng hợp lý cực đại là gì?
MLE có thể được công thức hóa trong xác suất cổ điển với tên là Lý thuyết của
ước lượng Khả năng cực đại là một phương pháp đánh giá những tham số một mô
hình thoái lui, từ đó giải quyết tốt cho những mẫu lớn Từ chương trước cho thấy, MLE dẫn đến việc giải quyết làm cực đại tích của những đa thức
MLE được ứng dụng rộng rãi trong cuộc sống hiện nay, không chỉ trong ngành sinh học nói riêng mà còn nhiều ngành khác như: xử lý ngôn ngữ tự nhiên, điện tử viễn thông, tài chính ngân hàng, …
Vậy MLE là gì? Chúng ta lần lượt tìm hiểu những khái niệm và những mô hình cho bài toán
Mục tiêu của chúng ta là với các mẫu x[1],…, x[N], ước lượng những tham số
xác suất θ từ quá trình phát sinh quan sát dữ liệu trên
3.1.2 Khái quát về ước lượng hợp lý cực đại
Hàm khả năng (Likelihood Function) tương ứng với các mẫu x[1],…, x[N]
được cho bởi mô hình những tham số θ với mô hình xác xuất có điều kiện M, được
định nghĩa như sau:
( ) ( [1], , [ ]| , )
L θ =P x x N θ M Điều kiện đặt ra cho những mô hình chúng ta sẽ xem xét cho những mẫu x[1],
x[2], …, x[N] là:
- Tập giá trị x[i] (i =1, …, N) được xác định
- Sự phân bố của mỗi mẫu có khả năng xảy ra là như nhau
- Mỗi mẫu được lấy độc lập với những mẫu trước đó
Trong MLE chúng ta tìm kiếm tham số mẫu θ làm cho hàm trên đạt giá trị cực đại Hay là phải tìm một vectơ của những tham số θ mà được phát sinh từ bộ dữ liệu
đã cho
Trang 293.1.3 Ví dụ về ước lượng hợp lý cực đại
Chúng ta sẽ bắt đầu với từ một ví dụ đơn giản nhất là đánh giá sự thiên lệch khi tung một cây đinh bấm, sau đó đến những mô hình phức tạp hơn từ đó áp dụng MLE tới phỏng đoán cây sinh loài
Hình 1: Hai trường hợp xảy ra khi tung đinh bấm
Đối với cây đinh, khi được tung lên khi rơi xuống nó có thể ở một trong hai
trường hợp sau (hình 1): Đầu (H) hoặc Đuôi (T), Chúng ta biểu thị bởi θ (chưa biết) là
xác suất P(H)
Cho một sự nối tiếp những mẫu quan sát D: x[1], x[2], …, x[N] mà chúng ta
muốn ước lượng P H( )=θ và P T( ) 1= −θ
Từ bộ mẫu dữ liệu quan sát trên ta có hàm khả năng là:
3.2 Giải bài toán ước lượng hợp lý cực đại
3.2.1 Nguyên lý ước lượng hợp lý cực đại
Chọn những tham số mà làm cực đại hàm khả năng
Nguyên lý này được sử dụng rộng rãi trong việc ước lượng trong thống kê, cả trong việc nhìn nhận của trực giác
3.2.2 Logarit hàm hợp lý
Kỹ thuật khác để làm cho việc tính toán dễ hơn khi làm việc trên logarit hàm
likelihood hơn chính hàm likelihood Lý do chính cho điều này bởi tính toán hơn là lý
thuyết Nếu chúng ta nhân lên nhiều số rất nhỏ cùng nhau (ví dụ nhỏ hơn 0.0001) thì chúng ta sẽ khó có thể biểu hiện số trên với một máy tính thông thường nào đó hiện nay vì nó quá gần với 0 Tình trạng này thường xuất hiện trong việc tính toán xác suất, khi chúng ta đang nhân những xác suất nhiều sự kiện hiếm có nhưng độc lập để tính
toán xác suất chung Log của hàm likelihood thường đơn giản nhiều cho tính toán, và chúng ta thấy nghiệm thỏa giá trị lớn nhất của hàm log likelihood cũng là nghiệm giá trị lớn nhất của chính hàm likelihood Với ví dụ ở 3.1.3, log likelihood là:
l θ = L θ hayl D( )θ = N H lnθ + N T ln(1−θ)
Trang 30Công thức này thoạt nhìn không có vẻ đơn giản, nhưng thật ra nó rất dễ dàng khi tính đạo hàm cho log likelihood trong trường hợp này cũng như nhiều trường hợp khác
Lấy đạo hàm và cho chúng bằng 0, chúng ta được:
H
N N
N
+
=
⇔θ
Bảng 1: Bảng biến thiên của hàm hợp lý
với θ là nghiệm chúng ta cần tìm, phù hợp với những gì chúng ta mong muốn Theo
ví dụ trên nếu (N H , N T ) = (3, 2) và MLE tính được là 3
0.6
5 = Đồ thị của hàm hợp lý
cho ta thấy ở hình 2
Hình 2: Đồ thị của hàm hợp lý
3.3 Tổng quát hóa bài toán ước lượng hợp lý cực đại
3.3.1 Ước lượng hợp lý cực đại trên mẫu quan sát
Nếu x là biến ngẫu nhiên với hàm phân bố:
[ ]( , , ,1 2 )
f θ θ θvới θ θ1, , ,2 θK là K tham số cần phải ước lượng, với dãy N mẫu độc lập là x[1],
x[2], , x[N] Thì hàm likelihood được cho bởi tích sau:
L θ θ θ = ∏ f θ θ θK
Trang 31và hàm ln likelihood như sau:
[ ] 1 1 1
Ví dụ: Tung một con xúc sắc có K = 6 mặt, chúng ta muốn xác định những tham
số θ θ1, , ,2 θK là xác suất của mặt có nút tương ứng 1, 2,…, K nhận được khi tung xúc
sắc Từ quan sát ta có N N1, 2, ,N K là số lượng tương ứng của từng mặt khi quan sát
Theo công thức hàm khả năng sẽ:
1
K N
N N
θ
=
=
∑ với k =1, …, K
3.3.2 Một số phương pháp giải phương trình hợp lý
Theo trên, giải phương trình hợp lý làm cực đại phương trình:
Phương pháp gần đúng : Giải phương trình hợp lý bằng phương pháp tìm kiếm
cục bộ, heuristics, …Ưu điểm của phương pháp này là nhanh chóng, có thể giải quyết
Trang 32trên những bài toán lớn Nhược điểm lớn nhất của phương pháp này là tính tin cậy
không cao
Phương pháp tính toán đại số : Ngược lại với phương pháp gần đúng trên,
phương pháp tính toán đại số hiện nay chỉ giải quyết được với những bài toán nhỏ, nhưng cho kết quả chính xác Với sự tiến bộ của khoa học kỹ thuật nói chung và ngành máy tính cũng như lãnh vực đại số máy tính nói riêng, đã mở ra con đường cho hướng tiếp cận này Vì lý do trên phương pháp này được chọn sử dụng để giải quyết bài toán
ước lượng hợp lý cực đại - áp dụng trên cây sinh loài nhỏ
Để hiểu rõ cây sinh loài, ước lượng hợp lý cực đại trên cây sinh loài chúng ta tìm hiểu sơ qua cây sinh loài và mô hình xác suất thống kê trên cây sinh loài ở chương
sau
Trang 33Chương 4 CÂY SINH LOÀI - MÔ HÌNH XÁC SUẤT
THỐNG KÊ TRÊN CÂY SINH LOÀI
Chương này giới thiệu cây sinh loài cũng mô hình xác suất thống kê trên cây sinh loài Ngoài ra cũng giới thiệu một số mô hình thường sử dụng hiện nay trên cây sinh loài như mô hình Neyman 2 trạng thái, Jukes – Cantor, Kimura với 2 và 3 tham
số
4.1 Giới thiệu sơ lược về cây sinh loài
Cây sinh loài (còn gọi là cây tiến hóa hay là cây chủng loài) mô tả lịch sử tiến hóa của một nhóm các loài (species) với những đặc tính khác nhau nhưng cùng có mối quan hệ họ hàng với nhau và cùng hình thành từ một tổ tiên chung trong quá khứ Có nhiều hướng nghiên cứu khác nhau để chứng minh đặc điểm phát sinh sinh loài này
Trước hết, người ta có thể so sánh trình tự các đoạn DNA (thuộc sinh học phân
tử hay hệ gene học (genomics); hoặc so sánh các hóa thạch (fossil) hoặc các di chỉ (record) của sinh vật cổ (thuộc khảo cổ học - paleontology)
Các nhà sinh học tổ chức và phân tích các mối quan hệ tiến hóa thông qua các phương pháp khác nhau, bao gồm phân loại học (phylogenetics), ngoại hình học (phenetics) và cladistics Các sự kiện chính xảy ra trong quá trình tiến hóa của sự sống được xây dựng thành biểu đồ thời gian của tiến hóa (evolutionary timeline) dựa trên
các hiểu biết hiện nay của khoa học Hình 3 cho ta thấy hình dạng của cây sinh loài sự
sống trên hành tinh chúng ta
Hình 3: Cây sinh loài của sự sống
Trang 344.2 Các nghiên cứu phát sinh sinh loài
Trong ngành sinh học, người ta nghiên cứu mối quan hệ giữa các loài sinh vật thông qua các bằng chứng phân tử, cụ thể là trình tự DNA và protein Như vậy sự khác biệt giữa các trình tự (DNA) chỉ định sự phân kỳ di truyền như là kết quả của tiến hóa phân tử theo tiến trình thời gian
Các phương pháp dùng để nghiên cứu phát sinh sinh loài chủ yếu dựa trên một
sự giả định về các tiến trình tiến hóa ở mức phân tử thông qua việc quan sát phân tích trình tự DNA hoặc protein Bằng cách sử dụng công cụ máy tính, các chuỗi dữ liệu sẽ được mô phỏng tiến trình tiến hóa và phân tích tiến trình phát sinh sinh loài Giả sử là chúng ta có một “cây tiến hóa đúng”, chúng ta có thể dùng nó để kiểm tra lại độ chính xác, tính nhất quán khả năng tin cậy của những mô hình tiến hóa Tuy nhiên khi sử dụng các dữ liệu sinh học, cái gọi là cây tiến hóa có thể không bao giờ có, hoặc ít ra cũng có thể nói là KHÔNG BIẾT Do vậy người ta chấp nhận một cây tiến hóa được dựng nên mà người ta tin là nó GIỐNG NHẤT với cây tiến hóa đúng
Trong các bước trình tự cơ bản để cho một nghiên cứu phát sinh sinh loài thì đánh giá sự phát sinh sinh loài cũng là một bước không thể bỏ qua Sau đây là một số phương pháp được sử dụng hiện nay:
Phương pháp Hà tiện tối đa (Maximum parsimony), một sự giả định cho rằng
cây tiến hóa tốt nhất mổ tả tiến trình tiến hóa tốt nhất chính là cây mô tả được các loài
ít thay đổi nhất tức là có ít đột biến nhất, cây vì thế có điểm thấp nhất (hà tiện) theo một tiêu chuẩn định sẵn
Phương pháp Khoảng cách (Distance method): Khác với phương pháp
parsimony có mô hình tiến hóa là một hàm ẩn, thì phương pháp khoảng cách lại có mô hình tiến hóa là một hàm hiện Trong phương pháp này từng cặp trình tự một sẽ được
so sánh thẳng hàng cặp đôi và ứng với từng cặp, khoảng cách di truyền sẽ được tính toán Do mô hình tiến hóa là một hàm hiện nên một trong số mô hình tiến hóa có thể được chọn để tính toán khoảng cách di truyền giữa từng cặp taxa từ đó cho ra một ma trận khoảng cách giữa tất cả các taxa Và để có được cây tiến hóa, phương pháp phân
rã hình ngôi sao thường được sử dụng ví dụ phương pháp neighbor-joining(liên kết
cận kề) Do phương pháp neighbor-joining mà một trong những phương pháp nhanh
nhất để dò tìm cây tiến hóa nên nó thường được sử dụng để phân tích khối dữ liệu lớn với nhiều taxa
Phương pháp Hợp lý cực đại (Maximum Likelihood) là phương pháp tiêu tốn
nhiều thời gian nhất nhưng lại cho kết quả đáng tin cậy nhất Mô hình tiến hóa dùng trong phương pháp này cũng là một hàm hiện Ứng với mỗi mô hình tiến hóa được chọn, phương pháp này sẽ tính toán khả năng xác suất mà một cây tiến hóa có thể có
từ chuỗi trình tự phân tích Cây tiến hóa có xác suất cao nhất là cây cuối cùng được chọn
Chúng ta tập trung vào phương pháp ML, để hiểu được điều này chúng ta bắt đầu với những ví dụ cụ thể để mô hình hóa bài toán trên cây sinh loài
Trang 354.3 Mô hình ước lượng hợp lý cực đại trên cây sinh loài
Cho S 1 , S 2 , …, S N là một dãy mẫu DNA mà chúng ta có Để đơn giản, giả thiết rằng mọi chuỗi trên có cùng chiều dài Chúng ta muốn xác định những tham số của một cây sinh loài thông qua dãy mẫu trên và làm cực đại khả năng có thể xảy ra
Để giải bài toán này ta cần chỉ rõ một mô hình xác suất Cho đơn giản, giả thiết
“DNA” của chúng ta chỉ có hai trạng thái X và Y Cạnh e được gán xác suất , có
nghĩa là xác suất những thay thế (X ÙY) ngang qua e là (Hình 4)
e
p
e
p
Hình 4: Mô tả xác suất chuyển đổi trạng thái của chuỗi “DNA”
Phải chăng cạnh e được gán xác suất , có nghĩa xác suất của những mẫu liên
quan thay thế ngang qua e, ví dụ XXYXYÙYXYXX được xác định rõ, và dễ dàng tính
toán hàm Likelihood cho mẫu này:
Qua bài toán trên có câu hỏi đặt ra như sau: Cái gì “hợp lý” mẫu trên? Có nghĩa
là tìm kiếm p e mà nó làm cực đại xác suất của các mẫu trên
Mở rộng mô hình bài toán trên, mô hình mới của chúng ta sẽ gồm có một cây thông thường, nhưng ngoài ra các cạnh được gán những xác suất thay thế
Ví dụ ở đây, cây có 4 taxa Những taxa này là sinh vật hoặc là gen, mỗi một taxa được mô tả bởi chuỗi DNA:
Trang 36Bây giờ chúng ta không biết trạng thái ở tại nút trong, đồng thời cũng không
1 Cực đại qua những trạng thái của những nút bên trong
2 Trung bình qua những trạng thái của những nút bên trong
Trong cả hai trường hợp, chúng ta đều làm cực đại những tham số qua cạnh
Trong hướng đầu tiên (trung bình, hoặc tổng những trạng thái những nút trong) chúng ta đang tìm kiếm “thích hợp nhất” đặt trên những cạnh của cây Hướng này được gọi là cực đại khả năng cây sinh loài
Trong hướng này ML có lẽ là phương pháp suy diễn rộng rãi nhất được sử dụng hiện nay
Trong hướng thứ hai (làm cực đại qua những trạng thái của những nút trong) Chúng ta đang tìm kiếm “thích hợp nhất” những trạng thái tổ tiên Hướng này được cực đại khả năng xảy ra ở tổ tiên (ancestral maximum likelihood -AML)
Hướng thứ hai cũng phải sử dụng phương pháp ML bởi vì mục tiêu cuối cùng cũng phải là cực đại khả năng
4.4 Mô hình tiến hóa
Trong sinh vật học, quá trính tiến hóa là một quá trình phức tạp Trong quá trình đó, các chuỗi gen phân kỳ từ cùng một tổ tiên Nhưng vì sự đột biến và chia rẽ của sự đột biến đó làm tiến hóa cộng đồng bởi sự chọn lọc Kết quả là sự thay đổi trạng thái của một nucleotide này thành một nucleotide khác ở những vị trí khác nhau Trong việc tái cấu trúc cây sinh loài, chúng ta cần phải chấp nhận mô hình với một số giả định về quá trình cũng như trạng thái thay thế sau:
- Mô hình đơn giản nhất là mô hình mà trong đó khả năng của bất kỳ nucleotide nào thay đổi thành bất kỳ nucleotide khác là bằng nhau
- Dự đoán khả năng rằng một nucleotide cụ thể ở một vị trí cụ thể sẽ thay đổi thành một nucleotide xác định khác trong một khoảng thời gian, cái chúng ta cần biết
ở đây là tỷ lệ tức thời của sự thay đổi
Ma trận tỷ lệ (hoặc ma trận Q) là ma trận vuông Q=(q ) ij , với chỉ mục hàng và cột cho bởi ∑ ={ , , , }A C G T Chúng ta cũng có thể sử dụng ký tự nhị phân hoặc 20 kí
tự của amino axit cho tập Ma trận tỷ lệ phải thỏa những yêu cầu sau: ∑
Trang 37Ma trận tỷ lệ có được từ ý nghĩa từ tỷ lệ tức thời của đột biến Từ ma trận tỷ lệ
Q, chúng ta có thể tính được ma trận thay thế θ( )t bởi hàm mũ theo công thức sau:
0
1( )
Phần tử của θ( )t ở dòng i và cột j chính là xác suất mà sự thay đổi
xảy ra trong một khoảng thời gian là t
i → → j
Mô hình đơn giản có một tham số và được biết là mô hình Jukes-Cantor với tỷ
lệ chuyển đổi từ một nucleotide này đến một nucleotide khác là bằng nhau như sau:
G Q C T
t t t
α α α
Ma trận θ( )t thỏa: các phần tử của ma trận đều lớn hơn hoặc bằng 0 và nhỏ hơn hoặc bằng 1, tổng các phần tử trên một hàng bằng 1
Chúng ta cần xác định tính hợp lý mô hình trên Giả sử chúng ta có G ở vị trí nào đó ở thời điểm t = 0, chúng ta hỏi rằng khả năng bao nhiêu ở đó vẫn là G vào thời
điểm t (kí hiệu ), và tương tự như vậy khả năng là bao nhiêu nếu như A thay thế vào vị trí đó (kí hiệu ) Nếu tỉ lệ thay đổi là α trên đơn vị thời gian như mô hình Jukes - Cantor trên, thì:
( )
t GG
P t = + e α và ( ) 1 1 -4
( )
4 4
t GA
P t = − e α
Cũng theo mô hình Jukes-Cantor thì tất cả thay thế là như nhau, nên phát biểu chung là:
-4 ( )
( )
t ii
P t = + e α và ( ) 1 1 -4
( )
4 4
t ij
P t = − e α
Ta thấy:
Khi t→0 thì P( )ii ( )t →1 và P( )ij ( )t →0,
Trang 38Hiện nay, ngoài mô hình Jukes-Cantor còn có một số mô hình khác thường sử dụng như: Kimura-2, Kimura-3,… Trong các mô hình này có sự khác nhau về tỉ lệ thay đổi trạng thái giữa các cơ sở Khi sử dụng mô hình tiến hóa để tái cấu trúc cây, một là gán giá trị cụ thể cho tỉ lệ hoặc là ước lượng giá trị từ dữ liệu Những mô hình này hoàn toàn giả định rằng các tốc độ là như nhau ở tất cả các vị trí
ML cố gắng suy ra một cây sinh loài bằng cách tìm ra cây mà cực đại khả năng đối với dữ liệu mẫu
Ví dụ: Dữ liệu mẫu ở đây là những chuỗi bằng nhau của nucleotides hoặc amino
acids (chiều dài mỗi chuỗi N=32):
Có 15 khả năng cho các dạng cây có gốc với 4 taxa, một trong những cây đó là
hình 6, trong đó các đỉnh ở lá tương ứng với các dữ liệu dóng theo cột được đánh dấu
đánh đậm trên 4 chuỗi trên
Hình 6: Một trong những cây sinh loài 4 taxa
Chúng ta không biết các nucleotide ở nút X và Y, nhưng có 4 khả năng xảy ra cho mỗi nút X và Y, vậy có có 16 trường hợp có thể xảy ra ở cây trên, một trong những trường hợp đó là hình 7