Chương 4 HỆ THỐNG ƯỚC LƯỢNG MƠ HÌNH TỰ ĐỘNG
4.4. Hệ thống ước lượng mơ hình tự động
Chúng tôi kết hợp với Viện nghiên cứu LIRMM, Cộng hoà Pháp để xây dựng hệ thống ước lượng mơ hình tự động ứng dụng phương pháp ước lượng nhanh đã trình bày ở trên. Người dùng có thể tải lên một tập các sắp hàng prôtêin mà họ quan tâm và sẽ nhận qua thư điện tử mơ hình và một số thống kê, so sánh với các mơ hình thơng dụng khác. Hệ thống cịn có tuỳ chọn bootstrap không tham số để đánh giá độ tin cậy và ổn định của kết quả. Cây phân loài được ước lượng bằng ma trận kết quả cũng được cung cấp như một tùy chọn. Hệ thống là sự kết hợp và tinh chỉnh của các phần phần mềm ML mới nhất như PhyML 3.0 [33] và XRATE 2.0 [41] và được chạy trên một hệ thống cluster. Minh họa giao diện chính của hệ thống ước lượng mơ hình tự động như trong Hình 4.1.
Sau khi mơ hình được ước lượng, hệ thống gửi mơ hình kết quả qua email cho người dùng cùng với một số kết quả thống kê và so sánh. Hai lựa chọn bổ sung có sẵn là:
1. Thực hiện một nghiên cứu bootstrap để đánh giá độ ổn định của ma trận Q. 2. Chạy PhyML 3.0 với Q và với ma trận kết quả cùng các tùy chọn tiêu chuẩn
để xây dựng các cây phân loài của tất cả các sắp hàng đầu vào. Các cây này được dự đốn là sẽ có sự khác biệt đáng kể so với các cây xây dựng bởi ma trận Qstart hay LG. Để tiết kiệm thời gian tính tốn, cây được xây dựng từ kết quả của bước 3.
Hình 4.1: Hệ thống trực tuyến ước lượng ma trận biến đổi axít amin.
4.5. Kết luận chương
Chương này của luận án đã trình bày một cải tiến khác của phương pháp ước lượng ma trận giúp giảm đáng kể thời gian thực hiện (trung bình cịn 1/2 so với phương pháp cũ). Phương pháp cải tiến đã được kiểm thử với hai bộ dữ liệu Pfam [9] và FLU [18]. Mơ hình ước lượng bằng phương pháp cải tiến gần như giống hệt với mơ hình được ước lượng bằng phương pháp cũ (độ tương quan Pearson > 0,999). Giá trị log-likelihood chênh lệch giữa hai mơ hình là khơng đáng kể. Các cấu trúc cây cũng khơng có nhiều khác biệt giữa mơ hình ước lượng lại và mơ hình đã cơng bố.
Chương này cũng trình bày hệ thống trực tuyến tự động ước lượng ma trận biến đổi từ dữ liệu của người dùng. Kết quả nghiên cứu của chương này đã được cơng bố trên tạp chí quốc tế Bioinformatics năm 2011 (cơng trình khoa học số 2).