Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 41 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
41
Dung lượng
1,27 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Duy Tùng KIỂM ĐỊNH VÀ SO SÁNH CÁC MƠ HÌNH BIẾN ĐỔI AMINO ACID CHO VIRÚT CÚM KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: khoa học máy tính HÀ NỘI - 2009 -1- ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Duy Tùng KIỂM ĐỊNH VÀ SO SÁNH CÁC MƠ HÌNH BIẾN ĐỔI AMINO ACID CHO VIRÚT CÚM KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: khoa học máy tính Cán hướng dẫn: TS Lê Sỹ Vinh HÀ NỘI - 2009 -2- Tóm tắt khóa luận Khóa luận với đề tài “kiểm định so sánh mô hình biến đổi amino acid cho virút cúm” Đề tài thực công việc sau: Nghiên cứu tổng quan sinh học phân tử tin sinh học Nghiên cứu mơ hình biến đổi amino acid Kiểm thứ mơ hình I09 cho virút cúm so sánh với mơ hình khác như: LG, WAG, HIVw, HIVb, JTT …… Kết cho thấy I09 [31] tốt mơ hình khác áp dụng cho liệu virút cúm -3- Lời cảm ơn Tôi xin chân thành cảm ơn Tiến sỹ Lê Sỹ Vinh người trực tiếp, nhiệt tình hướng dẫn tơi làm khóa luận tốt nghiệp thời gian qua Tôi xin gửi lời cảm ơn tới thạc sỹ Đặng Cao Cường người giúp đỡ nhiều q trình làm khốn luận tốt nghiệp Tơi xin gửi lời cảm ơn tới tồn thể thầy giáo, giáo Trường Đại Học Công Nghệ người hết lịng dạy cho tơi kiến thức bổ ích năm học trường Xin cảm ơn gia đình người bạn dành cho tơi tình thương u hỗ trợ tốt -4- Mục lục Lời nói đầu Chương 1: Tổng quan sinh học phân tử Một số khái niệm khái niệm tin sinh 1.1 Sinh học phân tử 1.2 Sắp hàng đa chuỗi 1.3 Cây phân loài Chương 2: Mơ hình thay nucleotide Mơ hình thay amino acids 2.1 Mơ hình chuỗi tiến hóa .7 2.2 Mô hình thay nucleotide 2.3 Mơ hình thay amino acid 13 Chương 3: Virút 17 3.1 Khái niệm virút .17 3.2 Phân loại Virút 17 3.3 Virút cúm 18 Chương 4: Quá trình thực kết 21 4.1 Sơ lược chương trình 22 4.2 Những điểm cần ý chương trình 22 4.3 Quá trình thực 24 Kết luận 31 Chương 5: Tổng kết – Đánh giá 32 5.1 Tổng kết 32 5.2 Những đóng góp 32 5.3 Hướng phát triển 32 Tài liệu tham khảo 33 Hình tham khảo 36 -5- Lời nói đầu Tin sinh (Bioinformatics), Bio:sinh học phân tử (Molecular Biology), Informatics (Khoa học máy tính) Bioinformatics: giải toán sinh học việc sử dụng phương pháp khoa học máy tính Với phát triển mạnh mẽ công nghệ sinh học, khối lượng lớn liệu sinh học phân tử (gene, protein, genome) thu thập, lưu trữ chia sẻ ngân hàng liệu giới NCBI (National center for biotechnology information) Tin sinh học ứng dụng phổ biến sinh học phân tử, nông nghiệp, công nghệ thực phẩm, môi trường, y - dược học, kiểm soát bệnh Trong năm gần toàn cầu bùng nổ đại dịch cúm đại dịch H5N1 gần phát đại dịch chủng H1N1 (đã đột biến) gây ra, lây từ người sang người Các nhà khoa học toàn giới sức nghiên cứu, tìm hiểu loại virút cúm Vì việc tìm mơ hình thay amino acid tốt để giúp nhà khoa học nghiên cứu tốt loại virút cúm cần thiết Với đề tài khóa luận tốt nghiệp “Kiểm định so sánh mơ hình biến đổi Amino Acid cho virút cúm” hi vọng có đóng góp vào việc sản xuất điều chế vacxin điều trị cúm Sau trình nghiên cứu kiểm tra thu số kết sau Chúng tơi tìm mơ hình I09 [31] tốt để nghiên cứu loại liệu virút cúm Mặc dù mơ hình giai đoạn đầu phát triển có thuộc tính trội cao so với mơ hình khác Kiểm tra giá trị log likelihood 489 aligment độc lập cho kết sau: I09 tốt HIVb 455 489 aligmenent, tồi 34 bộ, I09 tốt HIVw 476 489 aligmenent tồi 13 bộ, I09 tốt JTT 464 489 aligmenent tồi 25 bộ, I09 tốt LG 468 489 aligmenent tồi 21 -1- Chương 1: Tổng quan sinh học phân tử Một số khái niệm khái niệm tin sinh 1.1 Sinh học phân tử Mọi thể sống cấu tạo từ tế bào Tế bào có cấu tạo gồm: vỏ, nhân Nhân tế bào chứa acid nucleic Đó phân tử lớn gồm nhiều nucleotide Có hai loại nucleic: DNA RNA Để dễ hình dung xem hình thể mơ hình tế bào phóng to Hình 1: Cấu tạo tế bào ADN (Acid deoxyribonucleic): chuỗi xốn kép, mang thơng tin di truyền, cấu tạo từ thành phần sau: Adenine (A), Cytosine (C), Guanine (G), Thymine (T) Những đặc điểm thể hình 2, hình mơ tả chuỗi xoán kép DNA liên kết A-T C-G Hình 2: Cấu trúc xoắn kép DNA -2- Trật tự base dọc theo chiều dài chuỗi DNA gọi trình tự, trình tự quan trọng mật mã nói lên đặc điểm hình thái sinh vật Tuy nhiên, loại base có khả kết hợp với loại base sợi kia, cần trình tự base chuỗi đại diện cho phân tử DNA Đột biến hiểu đơn giản hậu sai sót hố học q trình nhân đơi Bằng cách đó, base bị bỏ qua, chèn thêm, bị chép nhầm hay chuỗi DNA bị đứt gẫy gắn với chuỗi DNA khác Về mặt bản, xuất đột biến ngẫu nhiên xác suất thấp - Sự thay thế: thay nucleotide khác chuỗi - Sự bỏ đi: xóa nhiều nucleotide từ chuỗi - Thêm vào: thêm nhiều nucleotide chuỗi - Transitions: thay purine purine khác (A G) pyrimidine pyrimidine (C T) - Transversion: thay purine pyrimidine A C, A T, G C, G T RNA tương tự DNA thành phần T thay U (Uracil) Mối quan hệ DNA, RNA, Protein thể qua sơ đồ sau: Translation Transcription DNA tmRNA Protein Protein thành phần quan trọng tế bào virút Protein cấu tạo từ 20 loại amino axit Sự khác lượng trình tự xếp amino axit tạo thành protein khác -3- 20 loại amino axit: ba A, C, G, T tương ứng với amino acid gọi ba mã hóa (codon) Các ba ứng với amino acid thể hình 3, với loại amino acid sau: Phe, Leu, Ser, Tyr, Cys, Trp, Pro, His, Gln, Arg, lle, Thr, Asn, Lys, Arg, Val, Ala, Asp, Glu, Gly Hình 3: 20 amino acid Trong q trình tiến hóa biến đổi chuỗi DNA, RNA, có xảy những đột biến (thêm vào, chèn, xóa – định nghĩa phần 1.1) Chính tạo khác cuỗi DNA, RNA lồi Vì để nghiên cứu chuỗi điều cần làm hàng chuỗi 1.2 Sắp hàng đa chuỗi Sắp hàng đa chuỗi (gióng hàng đa chuỗi) cách hàng chuỗi DNA, RNA hay protein cho chúng giống Các chuỗi sau hàng có chiều dài Một số chương trình dùng để hàng đa chuỗi như: CLUSTALW [28], TCOFFEE [17], MUSCLE [5] Sắp hàng chuỗi: trường hợp riêng hàng đa chuỗi.Ví dụ có hai chuỗi DNA người tinh tinh: -4- 10 11 12 Người A A C C T T T C C C T T Tinh Tinh A C C T T T C C C T T Sau hàng ta có kết quả: 10 11 12 Người A A C C T T T C C C T T Tinh Tinh A C C - T T T C C C T T Sắp hàng đa chuỗi thay so sánh cặp việc tìm giống đồng thời nhiều chuỗi Ví dụ: có hàng đa chuỗi chuỗi sau: 10 11 12 Người A A C C T T T C C C T T Tinh Tinh G A C - T T T C C C T T Khỉ đột C A C C T T T C C C T T Bò T C C - T T T C C C T T Chó T C C - T T T C C C T T Chuột T G C - T T T C C C T T Chim T G T - T T T C C C T T Sau chuỗi hàng xong chúng sử dụng với nhiều mục đích khác Một mục đích quan trọng xây dựng phân lồi -5- chạy alignment tree cung cấp hình dạng phân loài alignment dạng chuỗi 4.1 Sơ lược chương trình Bài tốn kiểm định so sánh mơ hình biến đổi amino acid cho virút cúm sử dụng ngôn ngữ Perl kết hợp với MySQL để tiến hàng Ngồi cịn sử dụng tới chương trình tiếng trình xử lý mơ hình amino acid chương trình PhyML phiên 3.0 [23] 4.2 Những điểm cần ý chương trình Giới thiệu chương trình PhyML PhyML chương trinh xác sử dụng khoảng cách tối đa (maximum likelihood), chương trình nhiều chuyên gia lĩnh vực Tin Sinh thường xun sử dụng cho kết xác [23].Đầu vào chương trình chuỗi hàng có định dạng PHILIP Định dạng PHILIP File định dạnh PHILIP sau: 100 342 ABB87822 DKICLGHHAVANGTKVNTLTERGIEVVNATETVETANIEKICTQGKRPTDL GQCGLLGTLI………… ACF47475 DKICLGHHAVANGTKVNTLTERGIEVVNATETVETANIKKICTQGKRPTDLGQC………………… …………… Ý nghĩa phần: 100: alignment gồm có 100 chuỗi (ABB87822, ACF47475….) 342: Mỗi chuỗi có 342 ký tự (site) ABB87822, ACF47475: tên chuỗi alignment - 22 - Các ký tự (DKICLGHHAVANGTK……) ký hiệu amino acid chuỗi Các tham số sử dụng để chạy PhyML Một dịng lệnh để chạy chương trình PhyML sau: phyml -i aln.1.Influenza.TypeA.txt_muscle-gb.phylip -d aa -q -c -a e -print_site_lnl -v e -m I09_it1_new_03_04_PAML.txt -i input (giá trị vào tên alignment định dạng PHILIP) -d aa chuyển đổi chương trình sang dạng xử lý với amino acid, dạng mặc định chương trình xử lỳ với nucleotide -q: Thay đổi định dạng interleaved (mặc định) để định dạng sequential -c 4: tỷ lệ thay đổi -a e : đặt giá trị gama shape parameter ước lượng cực đại print site lnl: in giá trị likelihood vị trí (site) file * phyml lk.txt -v e :tỷ lệ vị trí khơng thay đổi đặt với ước lượng cực đại -m tên mơ hình amino acids cần chạy Với tất mơ hình amino acids tất alignments virút cúm ta chạy với tham số tiện với việc so sánh Các tham số lựa chọn phù hợp với mục tiêu đề từ ban đầu Các mơ hình amino acid: theo chương trình PhyML [23] có tất 14 mơ hình Amino-acids: LG (default) WAG | JTT | MtREV | Dayhoff | DCMut | RtREV | CpREV | VT | Blosum62 | MtMam | MtArt | HIVw | HIVb | thêm mơ hình nghiên cứu I09 [31] Vậy kiểm định so sánh 15 mơ hình amino acid với virút cúm Giới thiệu liệu dùng để chạy PhyML Bộ liệu xây dựng thạc sỹ Đặng Cao Cường với tỷ mỷ nghiên cứu tìm kiếm nhiều tháng Bộ liệu thu thập từ ngân hàn Gen lớn NCBI - 23 - (ngân hàng gen lớn giới NCBI (ngân hàng gen lớn giới) nên mức độ chuẩn xác tin cậy Thông tin chi tiết từ liệu: Nguồn lấy từngày 03/04/2009 (rất cập nhập xác) - Số lượng: 101,707 chuỗi - Type A: 92866 - Type B: 7396 - Type C: 932 - Không định nghĩa: 513 Sau sử dụng chương trình MUSCLE, GBLOCKS để làm mịn liệu ta thu 978 alignment số alignment chia làm đôi (mỗi phần gồm 489 alignment) phần dùng để huấn luyện tạo mô hình I09 phần cịn lại sử dụng để kiểm tra với 15 mơ hình amino acid nêu Số site liệu kiểm tra là: 205337 4.3 Q trình thực Sau có 489 alignment virút cúm dạng PHILIP (phần 4.2 nói rõ định dạnh PHILIP), ta sử dụng PhyML để chạy với 15 mơ hình amino acid nói với tham số phần 4.2 nói Q trình chạy lâu mơ hình chạy hết khoảng 24 tiếng máy tính: cpu intel core duo 4400 (2.0 GHz), RAM 1G chạy may ao linux ubuntu 8.04 256 ram Kết thu sau chạy PhyML, ứng với mơ hình ta có thư mục tương ứng lk, stats, tree Thư mục lk cung cấp cho ta giá trị likelihood vị trí (site) alignment Thư mục stats cung cấp cho ta nhiều thông tin : tên file, Tên mô hình, số taxa, giá trị log-likelihood alignment, tree size, gama shape parameter , tỷ lệ thay đổi, thời gian chạy alignment Thư mục tree cung cấp hình dạng tree alignment dạng chuỗi Chạy 15 mơ hình amino acid, mơ hình cho thư mục, thư mục có 489 file ghi kết tương ứng 489 alignment - 24 - Sử dụng chương trình viết Perl kết hợp với MySQL để xử lý So sánh giá trị trung bình loglikelihood (205337 site) 15 mơ hình thể bảng Cách tính giá trị trung bình loglikelihood site: tổng tất loglikelihood 489 alignment 205337 site Các giá trị xếp theo thứ tự giảm dần Ta so sánh giá trị trung bình loglikelihood, giá trị trung bình loglikelihood mơ hình lớn mơ hình tốt Qua bảng ta thấy giá trị trung bình loglikelihood I09 tốt lớn HIVb đứng thứ 0.0623 Hibw đứng thứ 0.06615 Bảng 3: Giá trị trung bình log likelihood/site 15 mơ hình amino acid Average log_likelihood/site Model (205337site) I09 -5.73055 HIVb -5.79285 HIVw -5.7967 JTT -5.83168 CpREV -5.88387 WAG -5.91403 LG -5.91724 VT -5.96466 Dayhoff -5.97079 DCMut -5.9708 RtREV -5.9814 Blosum62 -5.98325 MtREV -6.14294 MtMam -6.16878 MtArt -6.24941 - 25 - Tiếp tục thực so sánh nữa, ứng với aligment ta so sánh kết loglikelihood alignement ứng với 15 mơ hình Sau so sánh 489 alignment xem xem mội mơ hình đứng đầu bao nhiều lần, đứng thứ 2, ….15 lần.Và ta có kết sau: Bảng 4: Bảng kết so sánh thứ hạng 15 mô hình amino acid với giá trị loglikelihood Rank Model 10 11 12 13 14 15 I09 434 31 0 0 HIVb 23 191 213 34 14 2 0 0 HIVw 13 196 79 75 25 23 17 26 16 0 LG 11 21 14 34 69 95 138 86 0 JTT 45 155 273 0 0 0 0 CpREV 2 14 48 293 78 21 23 2 0 Blosum62 1 20 25 37 70 88 78 152 1 MtArt 0 0 0 0 1 20 53 413 MtMam 0 1 2 45 358 70 VT 0 20 24 30 121 59 111 78 29 WAG 45 214 148 52 12 4 0 DCMut 0 0 19 90 91 50 87 142 Dayhoff 0 0 81 87 59 80 142 21 4 MtREV 0 1 0 3 398 64 RtREV 1 14 51 86 115 88 108 với cột tên mơ hình amino acid, cột nghĩa số lần mơ hình đứng đầu so sánh giá trị loglikelihood 489 alignment, cột 2,…, cột 15 có ý nghĩa tương tự, hàng ngang ứng với mơ hình thay amino acid giao điểm cột hàng số lần đứng vị trí 1,2,…., 15 Bảng thể cách đầy đủ thứ tự mơ hình so sánh giá trị loglikelihood 489 alignement Ta thấy mơ hình I09 [31] có 434 - 26 - lần đứng đầu 489 alignement so sánh, 31 lần đứng thứ 2, lần đứng thứ Mơ hình có nhiều số lần đứng đầu sau I09 HIVb HIVw [2] có số lần đứng đầu 23 13 tổng số 489 alignment so sánh mơ hình xây dựng để nghiên cứu virút HIV người nghiên cứu virút nên có độ tương đồng cao Vì chúng đứng vị trí thứ thứ hoàn toàn hợp lý Những kết cho thấy I09 chiếm 89% số lần đứng đầu lần chạy chuỗi alignement Sign Test Để cho kết đáng tin cậy sử dụng kỹ thuật thống kê thú vị Sign Test Phương pháp so sánh mơ hình lớn mơ hình với giá trị p-value cho trước trường hợp.Trong chương trình chọn p-value=0.05 ứng với 5% Điều có nghĩa so sánh mơ hình xem kết mơ hình có độ chênh lệnh 5% (chênh lệch đáng kể) lần so với mơ hình cịn lại Phương pháp Sign test sử dụng để so sánh mơ hình đứng đầu với số mơ hình đứng sau để khẳng định điều mơ hình đứng đầu thực tốt so với mơ hình đứng thứ thứ … Sau thực sign test (so sánh I09 với mơ hình HIVb, HIVw, JTT, LG) ta có kết sau: với 489 alignments I09 lớn JTT 464 alignement có 448 alignement thực lớn (độ chênh lệch 5% ) có có giá trị JTT thực lớn I09 (độ chệnh lệch lớn 5%) Tương tự với cặp lại I09 với LG, I09 với HIVw, I09 với HIVb, kết thống kê bảng với #M1> M2: số lần mơ hình M1 > M2 489 alignment, #M1>M2 (pM2 có chênh lệch 5%, #M1