DSpace at VNU: An improving method for estimating amino acid replacement models

6 120 0
DSpace at VNU: An improving method for estimating amino acid replacement models

Đang tải... (xem toàn văn)

Thông tin tài liệu

An improving method for estimating amino acid replacement models Lê Văn Đạt Trường Đại học Công nghệ Chuyên ngành: Khoa học máy tính; Mã số: 60 48 01 Người hướng dẫn: TS Lê Sỹ Vinh Năm bảo vệ: 2012 Abstract: Amino acid replacement models (amino acid substitution models or matrices) play important roles in protein phylogenetics analysis and protein sequence alignment Dayhoff was the fi rst person who proposed a method to build amino acid models in 1972 Currently, maximum likelihood (ML) methods are widely used to estimate popular models such as WAG, LG, FLU, etc However, ML methods are slow and not applicable to large datasets The most time consuming step in estimating matrices is build-ingphylogenetics trees from protein alignments In this thesis, we propose new methods to overcome the obstacle by splitting large alignments into small ones which still contain enough evolutionary information for esti-mating matrices Experiments with both Pfam and FLU data sets show that proposed meth-ods are about three to nine times faster than the best current method while the quality of estimated matrices are nearly the same Thus, our methods will enable researchers to estimate matrices from very large datasets Keywords: Khoa học máy tính; Mơ hình thay thế; Cơng nghệ thơng tin ĨỊØ ỊØ× Ä ×Ø Ĩ ÙƯ × Ú Ä ×Ø Ĩ Ì é ì éểìì ệí ẵ ầ ệ ½ ½º½ ÅĨØ Ú Ø ĨỊ º º º º º º º º º º º º º º º º º º º º º º º º ẵắ ầỉé ề ắ ẹ ềể ắẵ ¾º¾ ¾º¿ ¾º Đ ỊĨ Ĩ Ø × ÕÙ Ị × Å Ư ĨÚ ĐĨ Đ ỊĨ Å Ø ¾º ẵ ắ ắ ể ì ì º º º º º º º º º º º º º º º º º º º º ×Ù ×Ø ØÙØ ĨỊ ĐĨ Ð ×Ù × ØĨ ¿ Ị Ð× Đ ỊĨ ×Ù ×Ø ØÙØ ĨỊ× º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ×Ø ØÙØ ĨỊ ĐĨ ×Ø Đ Ø ĨÙỊØ Ị Đ ỊĨ Đ Ø Å Ü ĐÙĐ Ð Ĩ Ð × º º º º º º º º º º ẵẳ ĨĨ Ð ỊĐ ỊØ ×ƠÐ ØØ Ị ĐĨ Ð× Ð× Ù Ø ĨỊ º º º º º º º º ẵắ é ể ìỉ ỉỉ ểề ẹể ẵắ ậỉ ễì ØĨ Đ Ø ×Ù × º º º º º º º º º º º º º ¾º º¾º¾ × Ù×× ĨỊ º º º º º º º ẵẳ ềỉệể é éì ắ ắẵ ẹể ắ º¿ ½ Ị Đ ỊĨ Ý Đ Ü ĐÙĐ Ð Ð ĨĨ ×Ù ×Ø ØÙØ ĨỊ Đ Ø Ĩ º º º º º º º º º º º º º º º º º º º º º º º º º º Đ Ø Ĩ × ĨƯ ìỉ ẹ ỉ ề ẹ ềể ẵ ẵ ẵ ầặè ặèậ ẵ è ẹéỉ ễé ắ ậỉ ễì ỉể é Ù Ð Ị Đ ỊØ ×ƠÐ ØØ Ị ¿º¿ Ê ề ểẹ èệ é ì ềẹ ềỉ º º º º º º º º º º º º º º º º º º º Ñ ỊĨ Đ Ø Ĩ ×Ù ×Ø ØÙØ ĨỊ ĐĨ Ý Ð Ị¹ º º º º º º º º º º º º º º º º º º º º º ỊĐ ỊØ ×ƠÐ ØØ Ị Ð é ắ ấ ẵ º º º º º º º º º º ắẳ ắẳ ềẹ ềỉ ìễé ỉỉ ề ấ ìéỉì ẵ ẵ ắ ểẹễ Ư Đ Ø Ĩ × ĨỊ È Đ Ø × Ø º º º º º º º º º ắ ẵẵ ỉ ễệ ễ ệ Ø ĨỊ º º º º º º º º º º º º º º º º º º ắ ẵắ è ẹ ểẹễ ệ ìểề º º º º º º º º º º ắ ẵ ẩ ệ ểệẹ ề ẵ ấể ìỉề ìì ể ẹể ểẹễ Ư ĨĐƠ Ư ×ĨỊ Đ Ø Ĩ × ĨỊ º º º º º º º º º º º º º º º ¾ Ð º º º º º º º º º º º º º º ắ ỉ ì ỉ º º º º º º º º º º ẳ ắẵ ỉ ễệ ễ ệ ỉ ểề º º º º º º º º º º º º º º º º º º º ¿¼ ắắ è ẹ ểẹễ ệ ìểề º º º º º º º º º º ẵ ắ ẩ ệ ểệẹ ề ắ ấể ìỉề ìì ể ẹể ểẹễ ệ ìểề º º º º º º º º º º º º º º º ¿½ Ð º º º º º º º º º º º º º º º º º º ¿¿ ĨỊ ÐÙ× ĨỊ× ¿ Ư ề ì ấ ệ ề ì ẵ ậ ĐĨỊ Ï Ð Ị Ư Ú Ị ÅĨÐ ÙÐ Ư ĨÐĨ Ý Ị ¾℄ Ë Éº Ä Å ØƯ ܺ ¿℄ ÊĨ Ị ÇÐ Ú Ừ º Ị ´ ¿ Ì ℄ Ë Ð Đ ƠƯĨØ Ị Ø Ị Ị ệ é ệ ệ ìỉể ỉ ẹ ề è ìì ề ểể ểéỉ ểề ễễệể ẹ ềể ấ ễé ẹ ềỉ ẵẳ ẵắẳá éí ắẳẳ ẵá ẵắá ẵ ắ ìỉệíá ẩ ềềí ểệ ề ì é í ắẳẳẵ ẵá ẵắ ề ẹễệể ề é ể ẩệểỉ ĩ ẹẹạ ắ ẵ ẩ ể ệ ééá ậỉ ễ ề ể ề ậ ẹạ ểệìéề ậ ẹ ễệểỉ ề ẹ é ì ề ấ ỉ íá ì ắ ề ệí ắẳẳ ẵá ẵắá ắ ắ ẹễểệỉ ề ể ểéể é ặạ ỉ ì ì ề ểéể é ì ể ệí ể ề ắẳẵắ éạ ệ ẵ é ĩ ỉ ẹễ ệ é ể ì ì ề ểéỉ ểềá ắ ề ệ × º Ü Ú Ị ׺ Ì Ï Ð Ý ậểềìá ề á ắẳẵẵ ắ ấ ểỉịá ẹẹ ệá ẹ é ì é ệ ềềá ể Ị Ì Ø ¸  ĺ ËĨỊỊ Ị Ư Ð Ị ÅĨÐ ÙÐ Ư ĨÐĨ Ý Ị Ð × ệ ì ệ ẩệểỉ ểéỉ ểềá ẵ ẹỉá ềìạấ ểé ệ ểé ẹ ề ặ ệểẹ éỉ ễé è ắẳ ẹ ềể ì ề è ệ ấểé ề ẩệểỉ ề ậỉệ ỉệ ìá ắẳẵắ è ệểề ềểẹ ì ệìá ắẳẳắ ệ ể ềì ể éìá é ểệ ỉ ẹì ề ễễé ỉ ĨỊ× ´ÁỊØ ƯỊ Ø ĨỊ Ð Ë Ư × Ị ÇƠ Ư Ø ĨỊ× Ê × Ư ² Å Ị ẹ ềỉ ậ ề ậễệ ề ệá ẵ ỉ ểềá ẽ ẹ ề ề ỉỉ ẵẳ ểì ễ ỉỉì éì ềìỉ ề ẵá ẵ é ặ ệ ắẳẳ ẵẵ ểì ậ ềỉ ẩ é ì ệí ềỉá ặ ÐØ Ị ÊĨ º ÊÙ×× Ðк Ừ ÁỊ ƯƯ Ị ẩ íéể ề ì ậ ề ệá ề ễ íéể ề ỉ ì ề ầ ì ầĩ ểệ ề ệì ỉí ẩệ ììá ắẳẳ éá ệ ẩểệì ỉ ỉểệá ììể ỉ ìá ắ é ểể ỉ ểềá ậ ễỉ ẹ é é ỉ ểềì ề ĐĨÐ ÙÐ Ư Å Ø Đ Ø × Ĩ ÚĨÐÙØ ểề ề ễ íéể ềíá ễ ệ ắẳẳ ì ắ ấ ẵắ ểẹễỉ ỉ ểề é ểé é ệ ểéỉ ểề ầĩ ểệ ậ ệ ì ề ầĩ ểệ ề ệì ỉí ẩệ ììá ậ ẹ ệ ắẳẳ ẵ ề ẵ ẵ ệéểì ậ ỉ é ề ầ í ể ấ ẻ ỉé ì ể ẩệểỉ ề ậ ế ề ẵ ẵ ẵ ắẳ ầ ắắ é ể ểéỉ ểề ệí ặ ỉ ĨỊ Ð Ị Ờ Ư ¾¾ ʺ ź Ë Û ệỉị ề ỉé ì ể ẩệểỉ ề ậ ế ề ắ ắ ắá ề ẵ ểẹ ề ẩẽậ ề ễệểỉ ềì ề é ấ ì ệ ểề ỉ ểềá ề ểềề ỉá ễệểỉ ề ì ế ề ể ỉ ềá ì ỉệ ềìẹ ẹ Ư Ị ƠƯĨØ Ị׺ Ị ź À × Ý Đ ØĨ ĨỊ Ư Ð ËØ Ơ Ị Ị ×ØĨƠƠ Ị Ư Ơ º Ị Ư Ø ĨỊ Ĩ ĐÙØ Ø ểề ầậá ểì ề ì ề ể ềề ệ Ü Ù×Ø Ú Đ Ø Ị Ĩ Ø ỊØ Ư ắ ẳ ắà ẵ ẵ ề ẵ ắ ẵẵ ểệ ặ àá ẹỉ ỉ ểề è ểệềỉểề ắ éể ắ ẹ ỊĨ Ị Ø Đ ØƯ Ü ĨƯ º ½½ Ứ ệí ẵ ì ìỉ ỉỉ ểề ề ễệểỉ ềì ề ể ắ ễệ é ẵ ẵắ ểệề é ể ẹểé é ệ ểéỉ ểềá ậ ẹễé ìỉá Ị È ÝÐĨ Ị × Ý Å Ü ĐÙĐ Ä é ểể ậíìỉ ẹ ầé ệ ỉ ì к Ư Ị º ÚĨỊ À ỊØĐ º × Ð Ưº ÅĨÐ ÙÐ Ư ĨÐĨ Ý Ị Ù Ị ĨỊ ìỉ ẹ ỉ ệ ề ầé ệ ẫẩặặ ẹể ề ề ểéỉ ểềá ắẵ ẵ ì é È ÝÐĨ Ị × Ý Å Ü ĐÙĐ Ä Ø é ểệ ỉ ẹ ỉể íá ắ ẳ ểéể ìỉ ỉ ệể ẵ ẵá ậ ẹễé ìỉá Ị Ð ĨĨ º ËÝ×Ø Đ ØƯ ×Ơ Ị Ù ìỉ ắẳẳ ẵắ ệ ỉ ỉ ểéể íá é ểệ ỉ ẹ ỉể ắ ẳ ệ ắẳẳ ẵá ẵ ẩ ỉ ệ ậ éểìỉ ệẹ ềá ệểề ểá ề ệ ẻ ị éểá ệểé ề ểì ểéá ặ ề ậ ẽ ỉ ệẹ ề ấ ề Ị ¸ ÊĨ Ừ ú Ư Рݸ Ê Ø Á Ị ÀĨÐĐ ×º ỊỊĨØ Ø ĨỊ ØĨĨÐ ĨƯ Ơ íéểạ ệ ẹẹ ệì ềỉệể ỉ ểề ỉể ểẹễỉ ỉ ĨỊ Ð Ø Ư × ƠÐ Ị ƯÝ ËØ Ø ìỉ ì è íéểệ ệ ề ìá ẵ ậ é ẹ ệ ểé ẹ ềá ìỉ ể ề ểệẹ ỉ ìá ệ ắẳẳ ẵá ẵ ắ ãá ầ ỉể ề ề ệ ắẳẳ ẵắ ậ ẻ ề ậỉ ễ ậ ậ é ỉỉ ệìá ặ º Ù Ị ĨỊ ×Ø Đ Ø Ä Ư ÚĨÐÙØ ểề ệí ẵẳá ẵẵ áẵ è éể ểẹễỉ ệ ễễé ỉ ểềì ề ỉ ậ ề ặ è ểề ìá ẽ ấ è íéểệá ậỉệ ỉệ è ểệềỉểề ề ẹể ắ ẵẵ ễệểỉểỉíễ ề ØƯ Ị Ị ¾ ℄ ĨÐĨ ݺ ĨĐỚØ Ø ĨỊ Ð ÅĨÐ ÙÐ Ư ĐĨ ËØỨ ØÙƯ º¸ Ø Đ ØƯ × ƯĨĐ ƠƯĨØ Ị × ÕÙ Ị ׺ Ë ¾ ề ẩ ệ è ểề ìá ẽ ấ è íéểệá ầ ỉể ắ í ể ề ễệểỉ ềì ề ầ ỉể ắẵ ề ềỉệể ỉ ểề ỉể ểéỉ ểềà ề ắ ẵẳ ẵ ẵ ề ì ÂĨ Ĩ Å º ½ ĨÐĨ Ý Ị ÈÙ Ð ì ề ề ệí ẵ ấ ặ ậ Ị ÈƯĨØ Ị È ÝÐĨ Ị ỊĨĐ ×º ¿ ềạ ẵ áẵ ẹẹ è ẩ íéể ề Ø × À Ị ĨĨ ÈƯ Ø Ð ƠƠƯĨ ØĨ Ờ Ư ÅÙÐØ ƠÐ Ð ỊĐ Ịغ Đ Ư ÍỊ ệì ỉí ẩệ ììá ắẳẳ ẵ ẻ ề ềíá ểéể í ễìá ậ ế ề ì ặ Ê ¾ ℄ ¾ ℄ ÄÍËÌ Ä Ï ĐƠƯĨÚ Ị Ø × Ị× Ø Ú ØÝ Ĩ ƠƯĨ Ư ×× Ú ĐÙÐØ ƠÐ × ÕÙ Ị Ð ỊĐ ỊØ Ø ệể ì ế ề ỉạ ề ễểì ỉ ểềạìễ ễ ễ ề éỉ ì ề ỉ ẹ ỉệ ĩ ể ặ é ì ệ ì ệ ắắắắà ẳá ặể ẹ ệ ẵ ẵ è ểẹễìểềá ặểỉệ ề ắ ẳ ấể ẹ ềìá ềìá ệ ỉ ẹéỉ ễé ì ế ề ậ ễỉ ẹ ắ ề ắ ìểề è À Ư Ị º ̹ Ĩ ỊĨÚ Ð Đ Ø Ĩ ĨƯ Ð ỊĐ Ịغ ÂĨÙƯỊ Ð Ĩ ĐĨÐ ÙÐ ệ ểéể íá ẳắẵà ắẳ ề ệ ắẳẳẳ ẵ ậ Ä ĐÙÐØ ƠÐ × ÕÙ Ị Ð ỊĐ ỊØ Û ỉ ỉ ệể ễỉ ặ é ì ệ ì ệ ắ ẵ ắ ẵ ệ ắẳẳ ệỉ ỉể ề ặ è ề ểệạ ể Ị Ị Đ Ø Ĩ Ị Ơ ÝÐĨ Ị Ø ỉệ ì ểé é ệ ểéể í ề ểéỉ ểềá ặ ậ ểề ề ẫ ề ầé ệ ì éá ìỉ ỉỉ ểề ẹể é ểệ ề ềị ễệểỉ ềì ề ẻ ề ẵ ề ẹ ỉ ể ẳ ểéỉ ểề ệí ìỉ ắẵ ệ í ề ệ ắ ẳ ẵ ấ ặ ậ ểệ ệ ểềìỉệ ỉạ ắ éí ẵ ắắ ề ẹ ềể ì ểéể íá ẵẳẵà ãá ễệ é ắẳẵẳ ỊĨ Ị ź À × Û º Ú ÐÙ Ø ĨỊ Ĩ Ø Đ Ü ĐÙĐ Ð Ð ĨĨ ×Ø Đ Ø Ĩ Ø ÚĨÐÙØ ĨỊ ƯÝ ØƯ ØĨƠĨÐĨ × ệểẹ ặ ì ế ề ỉ ề ỉ ệ Ị Ị ĨƯ Ư Ị ĨĐ ỊĨ º ÂĨÙƯỊ Ð ể ểé é ệ ểéỉ ểềá ắ ắà ẵ ẳ ẵ ìỉ ẵ ắ ì ấể ềìểề ề ấ ểì ề ìá ẵạắà ẵẵ ẵ ểé ì ểẹễ ệ ìểề ể Ơ ÝÐĨ Ị Ø ØƯ ׺ Å Ø Đ Ø é ệ ệí ẵ ẵ ắ

Ngày đăng: 15/12/2017, 11:14

Tài liệu cùng người dùng

Tài liệu liên quan