Chương 1 BÀI TOÁN ƯỚC LƯỢNG SỰ BIẾN ĐỔI CỦA AXÍT AMIN
2.4. Kết quả thực nghiệm
2.4.3. Kết quả với bộ dữ liệu Pfam
Ở thí nghiệm này, chúng tơi sử dụng 200 sắp hàng lớn nhất từ bộ dữ liệu Pfam để ước lượng mơ hình và chọn ngẫu nhiên 500 sắp hàng từ phần còn lại để làm dữ liệu kiểm tra. Các mơ hình kết quả sau đó được dùng để xây dựng cây bằng phương pháp ML cho 500 sắp hàng kiểm tra. Chúng tôi so sánh các phương pháp trên cả hai tiêu chuẩn là thời gian ước lượng và hiệu quả của mơ hình.
Bảng 2.6: Thời gian ước lượng mơ hình của phương pháp chia tách ngẫu nhiên với bộ
dữ liệu Pfam. LGkR là mơ hình ước lượng từ các sắp hàng được chia nhỏ bằng phương pháp chia tách ngẫu nhiên với ngưỡng k.
Mơ hình Bước xây dựng cây bằng ML
Bước ước lượng
tham số mơ hình Tổng thời gian
R 4 LG 1,5 8,7 10,2 R 8 LG 2,2 8,6 10,9 R 16 LG 4,8 7,7 12,4 R 32 LG 18,7 5,2 23,9 LG 35,1 4,4 39,5
Bảng 2.7: Thời gian ước lượng mơ hình của phương pháp chia tách tách dựa theo cấu trúc cây với bộ dữ liệu Pfam. LGk là mơ hình ước lượng từ các sắp hàng được chia nhỏ bằng phương pháp chia tách dựa theo cấu trúc cây với ngưỡng k.
Mơ hình Bước xây dựng cây bằng ML
Bước ước lượng
tham số mơ hình Tổng thời gian
LG4 3,4 5,2 8,7
LG8 7,7 4,9 12,6
LG16 13,9 4,9 18,8
LG32 21,9 4,8 26,7
LG 35,1 4,4 39,5
Bảng 2.6 và Bảng 2.7 cho thấy tổng thời gian ước lượng tăng khi k tăng. Với
k=8, thời gian ước lượng của R 8
ước lượng LG. Chúng ta cũng có thể thấy rằng thời gian chạy của Bước xây dựng cây tăng khi giá trị k tăng.
Bảng 2.8: So sánh kết quả của phương pháp chia tách ngẫu nhiên với bộ dữ liệu Pfam. M1: mơ hình thứ nhất; M2: mơ hình thứ hai; M1-M2: Khác biệt về giá trị trung bình log-likelihood trên một vị trí giữa hai mơ hình M1 và M2; M1>M2: M1 tốt hơn M2; M1<M2: M2 tốt hơn M1; T1≠T2: cây ước lượng bởi M1 và M2 có cấu trúc khác
nhau. M1 M2 M1-M2 M1>M2 M1<M2 T1 ≠ T2 LG R 4 LG 0,009 293 207 170 LG R 8 LG 0,006 279 221 164 LG R 16 LG -0,001 256 244 159 LG R 32 LG -0,004 192 308 100
Bảng 2.9: So sánh kết quả của phương pháp chia dựa theo cấu trúc cây với bộ dữ liệu Pfam. M1: mơ hình thứ nhất; M2: mơ hình thứ hai; M1-M2: Khác biệt về giá trị trung bình log-likelihood trên một vị trí giữa hai mơ hình M1 và M2; M1>M2: M1 tốt hơn M2;
M1<M2: M2 tốt hơn M1; T1≠T2: cây ước lượng bởi M1 và M2 có cấu trúc khác nhau.
M1 M2 M1-M2 M1>M2 M1<M2 T1 ≠ T2
LG LG4 0,008 288 212 158
LG LG8 -0,004 179 321 121
LG LG16 -0,003 160 340 103 LG LG32 -0,001 193 307 79
Bảng 2.8 và Bảng 2.9 thể hiện các kết quả so sánh mơ hình LG với các mơ hình ước lượng nhanh trong việc xây dựng lại cây ML cho 500 sắp hàng kiểm tra. Bảng 2.8 cho thấy các mô hình LG và 16R LG của phương pháp chia tách ngẫu nhiên R32 tốt hơn so với LG. Bảng 2.9 cho thấy các mơ hình LG8, LG16 và LG32 của phương pháp chia tách dựa trên cây cũng tốt hơn so với LG. Thời gian ước lượng mơ hình với hai phương pháp chia ngẫu nhiên và chia theo cây là tương đương nhau. Về mặt hiệu quả của mơ hình thì với ngưỡng k ≥ 8, phương pháp chia theo cây cho kết quả tốt hơn các phương pháp khác.
2.5. Kết luận chương
Ước lượng mơ hình biến đổi axít amin là một bài toán rất quan trọng trong nghiên cứu về các chuỗi prơtêin. Nhiều phương pháp ước lượng mơ hình khác nhau đã được đề xuất. Phương pháp ML cho kết quả tốt hơn so với các phương pháp khác. Tuy nhiên, phương pháp này rất chậm và khó áp dụng được với các bộ dữ liệu lớn.
Chúng tôi giới thiệu hai phương pháp giúp giảm thời gian ước lượng mơ hình. Ý tưởng cốt lõi là phân chia các sắp hàng lớn thành các sắp hàng nhỏ hơn để giảm thời gian xây dựng cây.
Các thực nghiệm với hai bộ dữ liệu P am và vi rút cúm cho thấy phương pháp chia tách dựa trên cấu trúc cây cho kết quả tốt. Mơ hình LG8 có hiệu quả tương đương LG trong khi thời gian ước lượng nhanh hơn ba lần. Mơ hình FLU8 có hiệu quả tương đương FLU trong khi thời gian ước lượng nhanh hơn sáu lần. Do đó, phương pháp chia tách dựa trên cây với ngưỡng k=8 được chúng tôi khuyên dùng.
Các kết quả nghiên cứu của chương này đã được công bố tại hội nghị quốc tế KSE năm 2011 (cơng trình khoa học số 3).