1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Protein type specific amino acid substitution models for influenza viruses

5 76 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY  NGUYEN VAN SAU PROTEIN TYPE SPECIFIC AMINO ACID SUBSTITUTION MODELS FOR INFLUENZA VIRUSES MASTER THESIS Hanoi - 2012 VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY  NGUYEN VAN SAU PROTEIN TYPE SPECIFIC AMINO ACID SUBSTITUTION MODELS FOR INFLUENZA VIRUSES Major: Computer Science Code: 60 48 01 MASTER THESIS Supervised by: Dr Le Sy Vinh Hanoi - 2012 Contents ACKNOWLEDGMENTS I LIST OF FIGURES LIST OF TABLES NOTATIONS/ABBREVIATIONS ORIGINALITY STATEMENT ABSTRACT CHAPTER OVERVIEW 1.1 Motivation 1.2 Organization of this thesis CHAPTER AMINO ACID SUBSTITUTION MODELS 2.1Amino acid sequences 2.2 Amino-acid substitution models 10 CHAPTER METHODS TO ESTIMATE MODELS 13 4.1 Methods 13 4.1.1 Counting methods 13 4.1.2 Maximum likelihood methods 14 4.2 Protein type specific amino acid substitution models estimation 17 CHAPTER DATA PREPARATION 21 3.1 Collecting data 21 3.2 Categorizing data 23 3.3 Splitting data 27 3.4 Aligning data 28 CHAPTER RESULTS 29 CHAPTER SUMMARY AND CONCLUSION 34 APPENDIX 35 BIBLIOGRAPHY 36 iii CÁC MƠ HÌNH BIẾN ĐỔI AMINO ACID KIỂU ĐẶC BIỆT CHO VIRUT CÚM Nguyễn Văn Sáu, Khoa học máy tính, Cơng nghệ thơng tin, saunv@wru.edu.vn Lê Sỹ Vinh Cơng nghệ thơng tin, ĐH Cơng nghệ, vinhls@vnu.vn Từ khóa – virut cúm, mơ hình biến đổi amino acid, tiến hóa I GIớI THIệU Mơ hình biến đổi amino acid phần chủ yếu hệ thống phân tích chuỗi protein Các mơ hình tổng qt biến đổi amino acid ước lượng từ sở liệu lớn, nhiên, chúng không đặc biệt dành cho virut cúm Mơ hình biến đổi amino acid tổng quát tốt FLU Mặc dù ma trận FLU đặc biệt virut cúm, khơng đặc biệt kiểu protein Khi virut cúm gây nên nhiều vấn đề nguy hiểm cho sức khỏe người kinh tế xã hội nghiên cứu trường hợp đặc biệt đáng quan tâm Trong luận văn này, sử dụng 27 triệu amino acid để ước lượng 11 protein mơ hình đặc biệt dành cho virut cúm II CÁC NGHIÊN CứU LIÊN QUAN Các hệ thống phân tích protein ln u cầu mơ hình biến đổi amino acid phân tích mối quan hệ chuỗi protein Do đó, ước lượng mơ hình biến đổi amino acid nhiệm vụ trọng tâm Tin-sinh 40 năm Có hai cách để ước lượng mơ hình biến đổi amino acid từ hàng đa chuỗi protein Cách ước lượng tốc độ biến đổi amino acid dựa giả thiết xác suất thay đổi từ amino acid đến amino acid khác thời gian tuyến tính Cách tiếp cận đơn giản ứng dụng sở liệu lớn Tuy nhiên, giả thiết chấp nhận thời gian nhỏ, thế, chuỗi amino acid phải giống Cách tiếp cận thứ hai lấy ưu điểm hàng chuỗi cách sử dụng phương pháp maximum likelihood Ý tưởng ước lượng phát sinh lồi mơ hình biến đổi để cực đại likelihood hàng đa chuỗi Các thí nghiệm cách tiếp cận sinh mơ hình tốt Các mơ hình chung ước lượng từ sở liệu lớn, nhiên, nghiên cứu chúng khơng thể thích hợp cho tập chuỗi đặc biệt có khác biệt q trình tiến hóa chuỗi III GIẢI PHÁP ĐỀ XUẤT Quá trình biến đổi vị trí amino acid giả sử độc lập, ổn định giữ theo thời gian Chúng sử dụng thời gian đồng nhất, thời gian liên tục, q trình Markov thời gian nghịch đảo để mơ hình q trình biến đổi amino acid Chúng tơi áp dụng cách tiếp cận maximum likelihood bước để ước lượng mơ hình đặc biệt protein IV KẾT LUẬN Thông qua nghiên cứu sâu virut cúm với lượng lớn chuỗi protein, ước lượng 11 mơ hình biến đổi amino acid dành cho 11 kiểu protein virut cúm A Các mơ hình đặc biệt đặc trưng protein cho kết tốt mơ hình tốt virut cúm FLU Các mơ hình protein đặc biệt cho phép nhà nghiên cứu virut cúm có kết xác Chúng tơi khuyến cáo nhà nghiên cứu nên sử dụng mơ hình protein đặc biệt để phân tích chuỗi protein tương ứng CÁC BÀI BÁO [1] Nguyen Van Sau, Dang Cao Cuong, Le Si Quang, Le Sy Vinh, "Protein Type Specific Amino Acid Substitution Models for Influenza Viruses," kse, pp.98-103, 2011 Third International Conference on Knowledge and Systems Engineering, 2011 PROTEIN TYPE SPECIFIC AMINO ACID SUBSTITUTION MODELS FOR INFLUENZA VIRUSES Nguyen Van Sau, Computer science, Information Techonology, saunv@wru.edu.vn Le Sy Vinh, University of Engineering and Technology, Vietnam National University, vinhls@vnu.vn Keywords – influenza virus, amino acid substitution model, phylogeny tree I INTRODUCTION The amino acid substitution model (matrix) is a crucial part of protein sequence analysis systems General amino acid substitution models have been estimated from large protein databases, however, they are not specific for influenza viruses The best current general amino acid substitution model is called FLU Although FLU matrix is specific for influenza viruses, it is still not specific for influenza protein types Since influenza viruses cause serious problems for both human health and social economics, it is worth to study them as specific as possible In this thesis, we used more than 27 million amino acids to estimate 11 protein type specific models for influenza viruses II BACKGROUND Protein sequence analysis systems usually require an amino acid substitution model for analyzing the relationships between protein sequences Therefore, estimating amino acid substitution models is a crucial task in Bioinformatics for more than decades There are two main approaches to estimate amino acid substitution models from proteins alignments The first one estimates substitution rates between amino acids based on an assumption that the probability of exchanging from an amino acid to another one in a period of time is linear to the substitution rates between the two amino acids This approach is simple and applicable to large databases However, the assumption is only acceptable if the time period is short, thus, the amino acid sequences must be very closely related The second approach takes alignments by using the method The main idea phylogenies as well as the advantages of multiple maximum likelihood is to estimate both substitution models to maximize the likelihood of alignments Experiences show that this approach will generate better models General models have been estimated from large databases, however, current studies have showed that they might be not appropriate for particular set of species due to differences in the evolutionary processes of these species III OUR METHOD The substitution process among each amino acid sites is assumed to be independent, stationary and remain constant over the time We can use a timehomogeneous, time-continuous, and time-reversible Markov process to model the substitution process between amino acids We will apply four-steps maximum likelihood approach to estimate protein type specific models IV CONCLUSION Through our intensive studies of influenza viruses with a huge amount of protein sequences, we were able to estimate 11 amino acid substitution models for 11 protein types of influenza A viruses Our protein type specific models gave better results than the best model, FLU, for influenza viruses The protein type specific models enable researchers to study influenza protein sequences more precisely We strongly recommend researchers to use protein type specific models to analyze corresponding protein sequences PUBLICATION [1] Nguyen Van Sau, Dang Cao Cuong, Le Si Quang, Le Sy Vinh, "Protein Type Specific Amino Acid Substitution Models for Influenza Viruses," kse, pp.98-103, 2011 Third International Conference on Knowledge and Systems Engineering, 2011 ... influenza viruses with a huge amount of protein sequences, we were able to estimate 11 amino acid substitution models for 11 protein types of influenza A viruses Our protein type specific models. .. FLU, for influenza viruses The protein type specific models enable researchers to study influenza protein sequences more precisely We strongly recommend researchers to use protein type specific models. .. called FLU Although FLU matrix is specific for influenza viruses, it is still not specific for influenza protein types Since influenza viruses cause serious problems for both human health and social

Ngày đăng: 07/03/2020, 18:29

Xem thêm:

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN