Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 41 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
41
Dung lượng
1,27 MB
Nội dung
- 1 - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Duy Tùng KIỂM ĐỊNHVÀSOSÁNHCÁCMÔHÌNHBIẾNĐỔIAMINOACIDCHOVIRÚTCÚM KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: khoa học máy tính HÀ NỘI - 2009 - 2 - ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Duy Tùng KIỂM ĐỊNHVÀSOSÁNHCÁCMÔHÌNHBIẾNĐỔIAMINOACIDCHOVIRÚTCÚM KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: khoa học máy tính Cán bộ hướng dẫn: TS. Lê Sỹ Vinh HÀ NỘI - 2009 - 3 - Tóm tắt khóa luận Khóa luận với đề tài “kiểm địnhvàsosánhcácmôhìnhbiếnđổiaminoacidchovirút cúm”. Đề tài này chúng tôi đã thực hiện những công việc sau: 1. Nghiên cứu tổng quan về sinh học phân tử và tin sinh học. 2. Nghiên cứu môhìnhbiếnđổiamino acid. 3. Kiểm thứ môhình I09 chovirútcúmvàsosánh với cácmôhình khác như: LG, WAG, HIVw, HIVb, JTT …… Kết quả cho thấy I09 [31] tốt hơn cácmôhình khác khi áp dụng cho dữ liệu virút cúm. - 4 - Lời cảm ơn Tôi xin chân thành cảm ơn Tiến sỹ Lê Sỹ Vinh là người trực tiếp, nhiệt tình hướng dẫn tôi làm khóa luận tốt nghiệp trong thời gian qua. Tôi xin gửi lời cảm ơn tới thạc sỹ Đặng Cao Cường người đã giúp đỡ tôi rất nhiều trong quá trình làm khoán luận tốt nghiệp. Tôi xin gửi lời cảm ơn tới toàn thể các thầy giáo, cô giáo tại Trường Đại Học Công Nghệ những người đã hết lòng dạy cho tôi những kiến thức hết sức bổ ích trong 4 năm học tại trường. Xin cảm ơn gia đìnhvà những người bạn đã dành cho tôi tình thương yêu và sự hỗ trợ tốt nhất. - 5 - Mục lục Lời nói đầu 1 Chương 1: Tổng quan về sinh học phân tử và 2 Một số khái niệm khái niệm tin sinh 2 1.1 Sinh học phân tử 2 1.2 Sắp hàng đa chuỗi 4 1.3 Cây phân loài 6 Chương 2: Môhình thay thế nucleotide và 7 Môhình thay thế amino acids 7 2.1 Môhình của chuỗi tiến hóa 7 2.2 Môhình thay thế của nucleotide 9 2.3 Môhình thay thế của aminoacid 13 Chương 3: Virút 17 3.1 Khái niệm cơ bản về virút 17 3.2 Phân loại Virút 17 3.3 Virútcúm 18 Chương 4: Quá trình thực hiện kết quả 21 4.1 Sơ lược về chương trình 22 4.2 Những điểm cần chú ý trong chương trình 22 4.3 Quá trình thực hiện 24 Kết luận 31 Chương 5: Tổng kết – Đánh giá 32 5.1 Tổng kết 32 5.2 Những đóng góp 32 5.3 Hướng phát triển 32 Tài liệu tham khảo 33 Hình tham khảo 36 - 1 - Lời nói đầu Tin sinh (Bioinformatics), Bio:sinh học phân tử (Molecular Biology), Informatics (Khoa học máy tính). Bioinformatics: giải quyết các bài toán sinh học bằng việc sử dụng các phương pháp của khoa học máy tính. Với sự phát triển mạnh mẽ của công nghệ sinh học, một khối lượng lớn dữ liệu sinh học phân tử (gene, protein, genome) đã được thu thập, lưu trữ và chia sẻ tại các ngân hàng dữ liệu thế giới như NCBI (National center for biotechnology information). Tin sinh học hiện đang được ứng dụng phổ biến trong sinh học phân tử, nông nghiệp, công nghệ thực phẩm, môi trường, y - dược học, và kiểm soát bệnh. Trong những năm gần đây trên toàn cầu đã bùng nổ những đại dịch cúm như đại dịch H5N1 và gần đây nhất mới phát hiện ra đại dịch mới do chủng H1N1 (đã đột biến) gây ra, có thể lây từ người sang người. Các nhà khoa học trên toàn thế giới đang ra sức nghiên cứu, tìm hiểu về loại virútcúm mới này. Vì vậy việc tìm ra một môhình thay thế aminoacid tốt nhất để giúp các nhà khoa học nghiên cứu tốt hơn các loại virútcúm là rất cần thiết. Với đề tài khóa luận tốt nghiệp “Kiểm địnhvàsosánhcácmôhìnhbiếnđổiAminoAcidchovirút cúm” chúng tôi hi vọng sẽ có những đóng góp vào việc sản xuất và điều chế ra vacxin điều trị cúm. Sau quá trình nghiên cứu và kiểm tra chúng tôi đã thu được một số kết quả sau. Chúng tôi đã tìm ra môhình I09 [31] là tốt nhất để nghiên cứu các loại dữ liệu virút cúm. Mặc dù môhình này mới ở giai đoạn đầu phát triển nhưng nó đã có những thuộc tính nổi trội cao so với cácmôhình khác. Kiểm tra giá trị log likelihood trên 489 aligment độc lập đã cho chúng ta những kết quả như sau: I09 tốt hơn HIVb 455 bộ trên 489 aligmenent, tồi hơn 34 bộ, và I09 tốt hơn HIVw 476 bộ trên 489 aligmenent và tồi hơn 13 bộ, I09 tốt hơn JTT 464 bộ trên 489 aligmenent và tồi hơn 25 bộ, I09 tốt hơn LG 468 bộ trên 489 aligmenent và tồi hơn 21 bộ. - 2 - Chương 1: Tổng quan về sinh học phân tử và Một số khái niệm khái niệm tin sinh 1.1 Sinh học phân tử Mọi cơ thể sống đều cấu tạo từ các tế bào. Tế bào có cấu tạo gồm: vỏ, nhân. Nhân tế bào đều chứa acid nucleic. Đó là những phân tử lớn gồm nhiều các nucleotide. Có hai loại nucleic: DNA và RNA. Để dễ hình dung hơn chúng ta có thể xem hình 1 thể hiện môhình của một tế bào được phóng to ra. Hình 1: Cấu tạo tế bào. ADN (Acid deoxyribonucleic): là chuỗi xoán kép, mang thông tin di truyền, được cấu tạo từ 4 thành phần cơ bản sau: Adenine (A), Cytosine (C), Guanine (G), Thymine (T). Những đặc điểm này được thể hiện ở hình 2, hình này mô tả chuỗi xoán kép DNA vàcác liên kết A-T và C-G. Hình 2: Cấu trúc xoắn kép của DNA. - 3 - Trật tự các base dọc theo chiều dài của chuỗi DNA gọi là trình tự, trình tự này rất quan trọng vì nó chính là mật mã nói lên đặc điểm hình thái của sinh vật. Tuy nhiên, vì mỗi loại base chỉ có khả năng kết hợp với 1 loại base trên sợi kia, cho nên chỉ cần trình tự base của 1 chuỗi là đã đại diện cho cả phân tử DNA. Đột biến hiểu đơn giản là hậu quả của những sai sót hoá học trong quá trình nhân đôi. Bằng cách nào đó, một base đã bị bỏ qua, chèn thêm, bị sao chép nhầm hay có thể chuỗi DNA bị đứt gẫy hoặc gắn với chuỗi DNA khác. Về mặt cơ bản, sự xuất hiện những đột biến này là ngẫu nhiên và xác suất rất thấp. - Sự thay thế: thay thế một nucleotide bởi cái khác trong chuỗi. - Sự bỏ đi: xóa một hoặc nhiều hơn nucleotide từ chuỗi. - Thêm vào: thêm một hoặc nhiều nucleotide trong chuỗi. - Transitions: thay thế một purine trong purine khác (A G) hoặc một pyrimidine trong pyrimidine (C T). - Transversion: thay thế một purine trong một pyrimidine A C, A T, G C, G T. RNA cũng tương tự như DNA nhưng trong thành phần cơ bản của nó thì T được thay bằng U (Uracil). Mối quan hệ của DNA, RNA, Protein được thể hiện qua sơ đồ sau: DNA tmRNA Protein Protein là thành phần quan trọng trong tế bào của virút. Protein được cấu tạo từ 20 loại amino axit. Sự khác nhau về lượng và trình tự sắp xếp cácamino axit tạo thành các protein khác nhau. Transcription Translatio n - 4 - 20 loại amino axit: một bộ ba các A, C, G, T tương ứng với một aminoacid gọi là bộ ba mã hóa (codon). Các bộ ba này ứng với cácaminoacid thể hiện trong hình 3, với các loại aminoacid như sau: Phe, Leu, Ser, Tyr, Cys, Trp, Pro, His, Gln, Arg, lle, Thr, Asn, Lys, Arg, Val, Ala, Asp, Glu, Gly. Hình 3: 20 amino acid. Trong quá trình tiến hóa vàbiếnđổi của các chuỗi DNA, RNA, có xảy ra những những đột biến (thêm vào, chèn, xóa – đã được định nghĩa trong phần 1.1). Chính vì vậy đã tạo ra sự khác nhau của các cuỗi DNA, RNA của cùng một loài. Vì vậy để nghiên cứu được về các chuỗi này điều đầu tiên chúng ta cần làm là sắp hàng các chuỗi này. 1.2 Sắp hàng đa chuỗi Sắp hàng đa chuỗi (gióng hàng đa chuỗi) là cách sắp hàng các chuỗi DNA, RNA hay protein sao cho chúng giống nhau nhất. Các chuỗi này sau khi sắp hàng sẽ có cùng chiều dài. Một số chương trình dùng để sắp hàng đa chuỗi như: CLUSTALW [28], T- COFFEE [17], hoặc MUSCLE [5]. Sắp hàng 2 chuỗi: là trường hợp riêng của sắp hàng đa chuỗi.Ví dụ chúng ta có hai chuỗi DNA của người và tinh tinh: - 5 - 1 2 3 4 5 6 7 8 9 10 11 12 Người A A C C T T T C C C T T Tinh Tinh A C C T T T C C C T T Sau khi sắp hàng ta có kết quả: 1 2 3 4 5 6 7 8 9 10 11 12 Người A A C C T T T C C C T T Tinh Tinh A C C - T T T C C C T T Sắp hàng đa chuỗi thay vì sosánh 2 cặp thì là việc tìm sự giống nhau của đồng thời nhiều chuỗi. Ví dụ: có sắp hàng đa chuỗi của 7 chuỗi sau: Sau khi các chuỗi được sắp hàng xong chúng sẽ được sử dụng với nhiều mục đích khác nhau. Một trong những mục đích quan trọng là xây dựng cây phân loài. 1 2 3 4 5 6 7 8 9 10 11 12 Người A A C C T T T C C C T T Tinh Tinh G A C - T T T C C C T T Khỉ đột C A C C T T T C C C T T Bò T C C - T T T C C C T T Chó T C C - T T T C C C T T Chuột T G C - T T T C C C T T Chim T G T - T T T C C C T T [...]... aligmenent và tồi hơn 21 bộ Những kết quả này sẽ được trình bày rõ hơn ở chương 4 của khóa luận này Chương 4 là chương nói lên toàn bộ quá trình thực hiện việc kiểm địnhvà so sánhcácmôhình biến đổiaminoacidchovirútcúm - 20 - Chương 4: Quá trình thực hiện kết quả Hình 11: Sơ lược quá trình kiểm địnhvà so sánhcácmôhình biến đổiAminoAcidchovirútcúm PhyML chương trình xử lý các chuỗi amino acid. .. thế aminoacid để giúp các nhà khoa học nghiên cứu tốt hơn về các chủng virútcúm là rất quan trong Sau đây sẽ là những giới thiệu về một môhình mới như vậy, môhình này ra đời nhằm phục vụ cho việc nghiên cứu virútcúm Giới thiệu về môhình nghiên cứu với virútcúmMôhình I09 [31] đang trong giai đoạn dầu phát triển (2009) Môhình này xây dựng để phục vu cho việc nghiên cứu các chủng virútcúm Phương... và chuẩn xác thì cần phải có những kiến thức cơ bản về những môhình thay thế nucleotide hoặc môhình thay thế aminoacid Những môhình này là nền tảng của việc xây dựng nên cây phân loài Lựa chọn được môhình tốt sẽ dẫn tới việc có cây phân loài tốt Phần tiếp theo sẽ nói chi tiết hơn về cácmôhình thay thế nucleotide vàmôhình thay thế aminoacid -6- Chương 2: Môhình thay thế nucleotide vàMô hình. .. với cột đầu tiên là tên môhìnhamino acid, cột 1 nghĩa là số lần cácmôhình đứng đầu trong khi sosánh giá trị loglikelihood của 489 alignment, cột 2,…, cột 15 có ý nghĩa tương tự, mỗi hàng ngang ứng với cácmôhình thay thế aminoacid giao điểm của cột và hàng là số lần đứng các vị trí 1,2,…., 15 Bảng 4 đã thể hiện một cách đầy đủ nhất thứ tự của cácmôhình trong khi sosánh giá trị loglikelihood... đầu tiên là tên môhìnhamino acid, cột 1 nghĩa là số lần các môhình đứng đầu trong khi sosánh giá trị treesize của 489 alignment, cột 2,…, cột 15 có ý nghĩa tương tự, mỗi hàng ngang ứng với các môhình thay thế aminoacid giao điểm của cột và hàng là số lần đứng các vị trí 1,2, … ,15 - 28 - Theo bảng sosánh giá tri treesize thì ta thu được những kết quả sau Môhình thay thế aminoacid MtArt là đứng... và thứ 3 là cácmôhình MtMan và MtREV với số lần đứng đầu lần lượt là 148 và 8 Thực hiện một sosánh nữa, ứng với mỗi aligment ta sẽ sosánh kết quả gamma shape parameter của từng alignement ứng với 15 môhình Sau khi sosánh 489 alignment ra xem xem mội môhình đứng đầu bao nhiều lần, đứng thứ 2, 3 ….15 bao nhiêu lần .Và ta có kết quả như sau: Bảng 7: Bảng kết quả sosánh thứ hạng của 15 môhình amino. .. tác giả còn khẳng định rằng môhình của họ còn có thể áp dụng với virút viêm gan C, vàvirútcúm A Môhình HIVw sử dụng sắp hàng chuỗi của 48 cặp tương ứng với tổng số 6,328 cặp aminoacid khác nhau Môhình HIVb sử dụng 8 bộ dữ liệu với tổng cộng 7,189 aminoacid khác nhau Số bộ dữ liệu này khá là tuyệt vời lớn hơn 1,700 aminoacidso với Dayhoff sử dụng và gấp 2 lần so với rtREV và C.Nickle cũng sử... môhình xem kết quả của 2 môhình có độ chênh lệnh quá 5% (chênh lệch đáng kể) là bao nhiêu lần so với môhình còn lại Phương pháp Sign test này được sử dụng để so sánhmôhình đứng đầu với một sốmôhình đứng ngay sau đó để khẳng định một điều là môhình đứng đầu thực sự tốt hơn so với môhình đứng thứ 2 và thứ 3 … Sau khi thực hiện sign test (so sánh I09 với từng môhình HIVb, HIVw, JTT, LG) ta có... virútcúm là nguy hiểm Điều này cũng dễ hiểu khi chúng ta nhìn vào hình 10, nó thể hiện sự lây lan của virútcúm vào các năm 1918, 1957, 1968, 1977, 2003, 2004 Các thống kê sự lây lan của virútHình 10: Sự lây lan của virútcúm - 19 - Như chúng ta thấy với sự lây lan của virútcúm như ở hình 10, cho chúng ta thấy đượng sự nguy hiểm của virútcúmđối với sức khỏe con người Vì vậy việc tìm ra một mô hình. .. đổiđịnh dạng interleaved (mặc định) để định dạng sequential -c 4: tỷ lệ thay đổi là 4 -a e : đặt giá trị gama shape parameter là ước lượng cực đại print site lnl: in các giá trị likelihood của các vị trí (site) ra file * phyml lk.txt -v e :tỷ lệ các của vị trí không thay đổi đặt với ước lượng cực đại -m tên môhìnhamino acids cần chạy Với tất cả cácmôhìnhamino acids và tất cả alignments của virút . phân tử và tin sinh học. 2. Nghiên cứu mô hình biến đổi amino acid. 3. Kiểm thứ mô hình I09 cho virút cúm và so sánh với các mô hình khác như: LG, WAG, HIVw, HIVb, JTT …… Kết quả cho thấy. nhất để giúp các nhà khoa học nghiên cứu tốt hơn các loại virút cúm là rất cần thiết. Với đề tài khóa luận tốt nghiệp “Kiểm định và so sánh các mô hình biến đổi Amino Acid cho virút cúm chúng. 2: Mô hình thay thế nucleotide và 7 Mô hình thay thế amino acids 7 2.1 Mô hình của chuỗi tiến hóa 7 2.2 Mô hình thay thế của nucleotide 9 2.3 Mô hình thay thế của amino acid 13 Chương 3: Virút