Giới thiệu về chương trình PhyML
PhyML là một chương trinh rất chính xác sử dụng khoảng cách tối đa (maximum likelihood), một chương trình được nhiều chuyên gia trong lĩnh vực Tin Sinh thường xuyên sử dụng vì nó cho kết quả chính xác nhất [23].Đầu vào của chương trình là chuỗi sắp hàng có định dạng PHILIP.
Định dạng PHILIP
File định dạnh PHILIP như sau:
100 342 ABB87822 DKICLGHHAVANGTKVNTLTERGIEVVNATETVETANIEKICTQGKRPTDL GQCGLLGTLI………… ACF47475 DKICLGHHAVANGTKVNTLTERGIEVVNATETVETANIKKICTQGKRPTDLGQC……… ………. Ý nghĩa của các phần:
100: alignment gồm có 100 chuỗi (ABB87822, ACF47475….) 342: Mỗi chuỗi có 342 ký tự (site)
Các ký tự (DKICLGHHAVANGTK……) là ký hiệu của các amino acid trong chuỗi
Các tham số sử dụng để chạy PhyML
Một dòng lệnh để chạy chương trình PhyML như sau:
phyml -i aln.1.Influenza.TypeA.txt_muscle-gb.phylip -d aa -q -c 4 -a e -- print_site_lnl -v e -m I09_it1_new_03_04_PAML.txt
-i input (giá trị vào tên alignment định dạng PHILIP).
-d aa chuyển đổi chương trình sang dạng xử lý với amino acid, dạng mặc định của chương trình là xử lỳ với nucleotide.
-q:Thay đổi định dạng interleaved (mặc định) để định dạng sequential. -c 4: tỷ lệ thay đổi là 4.
-a e : đặt giá trị gama shape parameter là ước lượng cực đại.
--print site lnl: in các giá trị likelihood của các vị trí (site) ra file * phyml lk.txt. -v e :tỷ lệ các của vị trí không thay đổi đặt với ước lượng cực đại.
-m tên mô hình amino acids cần chạy.
Với tất cả các mô hình amino acids và tất cả alignments của virút cúm ta đều chạy với cùng các tham số như trên để cho tiện với việc so sánh. Các tham số trên đều được lựa chọn phù hợp với những mục tiêu đã đề ra ngay từ ban đầu.
Các mô hình amino acid: theo chương trình PhyML [23] có tất cả 14 mô hình Amino-acids: LG (default) WAG | JTT | MtREV | Dayhoff | DCMut
| RtREV | CpREV | VT | Blosum62 | MtMam | MtArt | HIVw | HIVb | và thêm 1 mô hình mới nghiên cứu là I09 [31].
Vậy sẽ kiểm định và so sánh 15 mô hình amino acid trên với virút cúm.
Giới thiệu bộ dữ liệu dùng để chạy PhyML
Bộ dữ liệu được xây dựng bởi thạc sỹ Đặng Cao Cường với sự tỷ mỷ nghiên cứu và tìm kiếm trong nhiều tháng. Bộ dữ liệu được thu thập từ ngân hàn Gen lớn NCBI
(ngân hàng gen lớn nhất của thế giới NCBI (ngân hàng gen lớn nhất của thế giới) nên mức độ chuẩn xác là rất tin cậy.
Thông tin chi tiết từ bộ dữ liệu:
Nguồn được lấy từngày 03/04/2009 (rất cập nhập và chính xác)
- Số lượng: 101,707 chuỗi
- Type A: 92866 - Type B: 7396 - Type C: 932
- Không định nghĩa: 513
Sau khi sử dụng các chương trình MUSCLE, GBLOCKS để làm mịn dữ liệu ta thu được 978 alignment số alignment này được chia làm đôi (mỗi phần gồm 489 alignment) 1 phần dùng để huấn luyện tạo ra mô hình mới I09 một phần còn lại sử dụng để kiểm tra với 15 mô hình amino acid đã nêu ở trên.
Số site của bộ dữ liệu kiểm tra là: 205337