MỤC LỤC PHầN Mở ĐầU 1 1. Lý do chọn đề tài 1 2. Lịch sử nghiên cứu 2 3.Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu 3 3.1 Mục đích nghiên cứu 3 3.2 Đối tượng nghiên cứu 3 3.3 Phạm vi nghiên cứu 3 4. Tóm tắt 3 5. Phương pháp nghiên cứu 4 CHƯƠNG I. TỔNG QUAN 5 1.1 Protein 5 1.1.1 Thế nào là protein 5 1.1.2. Cấu trúc – chức năng của Protein 5 1.1.3. Vai trò Protein trong sinh học 8 1.2. Sự tương tác giữa các protein 10 1.3 Các bài toán nghiên cứu về sự tương tác giữa các protein 12 1.4Hidden Markov Model (HMM) 16 1.4.1Chuỗi Markov là gì? 16 1.4.2 Observable Markov Model 16 1.4.3 Mô hình Markov ẩn 17 CHƯƠNG II. ĐỀ XUẤT PHƯƠNG ÁN CẢI TIẾN KẾT QUẢ DỰ ĐOÁN LIÊN KẾT RESIDUE 31 2.1 Đặt vấn đề 31 2.2 Đề xuất phương án cải tiến 33 CHƯƠNG III. CÀI ĐẶT VÀ THỬ NGHIỆM 38 3.1 Dữ liệu 38 3.3Kết quả thực nghiệm 40 KếT LUậN VÀ HƯớNG PHÁT TRIểN 44 TÀI LIệU THAM KHẢO 45
LỜI CẢM ƠN Trước tiên, em xin bày tỏ lòng biết ơn chân thành sâu sắc tới Cô giáo, TS Lê Thị Tú Kiên tận tình hướng dẫn, động viên, giúp đỡ em suốt trình thực luận văn Em xin gửi lời cảm ơn sâu sắc tới quý Thầy Cô Khoa Công nghệ thông tin truyền đạt kiến thức quý báu cho em năm học vừa qua Con xin nói lên lòng biết ơn Ông Bà, Cha Mẹ nguồn chăm sóc, động viên bước đường học vấn Xin chân thành cảm ơn Anh Chị Bạn bè, đặc biệt thành viên lớp K23 ủng hộ, giúp đỡ động viên suốt thời gian học tập giảng đường thực luận văn Mặc dù cố gắng hoàn thành luận văn phạm vi khả cho phép chắn không tránh khỏi thiếu sót Em kính mong nhận cảm thông tận tình bảo quý Thầy Cô Bạn Em xin chân thành cảm ơn! Hà Nội, ngày 30 tháng 09 năm 2015 Học viên Nguyễn Thị Hằng MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC BẢNG PHẦN MỞ ĐẦU Lý chọn đề tài Trong tế bào động vật, protein có vai trò quan trọng Chúng tham gia cấu trúc tế bào, enzym xúc tác cho trình sinh lí sinh hóa xảy tế bào, protein tham gia trình vận chuyển, bảo vệ, điều khiển, nơi dự trữ chất dinh dưỡng, nhận biết loại phân tử khác nhau, chịu trách nhiệm vận động động vật ở mức tế bào thể Các chức nhiều phân tử protein đặc hiệu đảm nhiệm Chính thế,sự tương tác protein quan trọng hoạt động sống tế bào Protein Sự hiểu biết chi tiết tương tác protein không hữu ích việc giải thích chức cho protein, mà quan trọng việc chế tạo thuốc điều trị bệnh Trên giới có số phương pháp thực nghiệm nghiên cứu xem liệu hai (hay nhiều) protein có liên kết với hay không Nhưng phương pháp thực nghiệm thường tốn nhiều chi phí thời gian, lại khó giải toán sâu tương tác hai protein, nghĩa nghiên cứu xem residure liên kết với nào vùng tương tác hai protein, nên nhà nghiên cứu thường dựa phương pháp Sinh–Vật lý Nuclear Magnetic Resonance (NMR), X-ray crystallography hay phương pháp tính toán PPI binding sites, docking, covariance-based để giải toán Trong năm gần đây, cómột số nghiên cứu dự đoán liên kết residue protein tương tác [10, 27]đã đạt kết dự đoán tốt, số điểm hạn chế, tồn số trường hợp dự đoán chưa xác Tức có xuất số trường hợp dự đoán khác so với kết thực tế, xuất số trường hợp False Positive (FP) (những residue thực tế không tương tác với nhau, lại dự đoán chúng tương tác với nhau) Vì lí trên, lựa chọn đề tài “Dự đoán liên kết residue protein tương tác” để tiếp tục tìm hiểu mở rộng hướng nghiên cứu trước nhằm loại bỏ số trường hợp dự đoán chưa xác để tăng độ xác dự đoán Lịch sử nghiên cứu Nghiên cứu tương tác protein thường chia ở hai mức Ở mức một, nhà nghiên cứu quan tâm đến việc trả lời câu hỏi: “Hai (hay nhiều) protein cho có tương tác với hay không?” Các phương pháp thực nghiệm sinh học Sắc kí lực (Affinity chromatography), Kết tủa miễn dịch (Immunopricipitate), Cross-linking, hệ thống lai kép (Two hybride system) trả lời câu hỏi Tuy nhiên, phương pháp thực nghiệm thường tốn nhiều chi phí thời gian nên số phương pháp tính toán Dựa hệ gien (Genomic based methods), Gien láng riềng (Gene neighborhood), Phânloại (Classification methods) đời nhằm trợ giúp giải vấn đề Trong đó, ở mức hai, nhà nghiên cứu quan tâm đến việc trả lời câu hỏi: “Hai (hay nhiều) protein tương tác với nào?” Nghĩa residue bề mặt tiếp xúc hai protein liên kết với Với câu hỏi phương pháp thực nghiệm sinh học khó trả lời mà nhà nghiên cứu thường dựa vào phân tích phức hợp cấu trúc protein (Structural protein complex-based methods), hay phân tích chuỗi dựa phương pháp Hiệp phương sai (Covariance-based methods of sequences analysis) Trong năm gần đây, số nghiên cứu nhóm tác giả González [10], Tu Kien T Le [27] kết hợp thông tin Structural protein complex Sequence covariance nhằm nâng cao kết dự đoán liên kết residure bề mặt tiếp xúc protein Trong luận văn này,chúng tiếp tục tìm hiểu mở rộng hướng nghiên cứu trước nhằm loại bỏ số trường hợp “dị biệt” tăng độ xác dự đoán 3.Mục đích nghiên cứu luận văn, đối tượng, phạm vi nghiên cứu 3.1 Mục đích nghiên cứu Cải tiến kết dự đoán liên kết residue protein tương tác từ kết dự đoán báo nhóm tác giả Tu Kien T Le [27] 3.2 Đối tượng nghiên cứu Nghiên cứu phương pháp dự đoán liên kết residue từ nghiên cứu trước nhóm tác giả González [10] Tu Kien T Le [27] Công cụ xây dựng phương pháp dự đoán liên kết residue protein tương tác: Ngôn ngữ lập trình Matlab 3.3 Phạm vi nghiên cứu Đề tài tập trung nghiên cứu lý thuyết tổng quan protein, tương tác protein, phương pháp dự đoán liên kết residue protein Tóm tắt Luận văn trình bày tổng quan protein, bao gồm khái niệm protein, tương tác protein, toán nghiên cứu tương tác protein, đề xuất phương án cải tiến kết dự đoán liên kết residue protein tương tác Để cải tiến, bước đầu luận văn mô tả tổng quan protein, tương tác protein, mô tả thuật toán loại bỏ trường hợp dị biệt để tăng độ xác cho việc dự đoán liên kết residue protein tương tác Cuối luận văn trình bày phần cài đặt thử nghiệm dự đoán liên kết residue protein tương tác đưa đánh giá hiệu cải tiến Phương pháp nghiên cứu Nghiên cứu lý thuyết Nghiên cứu phương pháp trước dự đoán liên kết residue protein tương tác Cài đặt thử nghiệm Tham khảo ý kiến đánh giá CHƯƠNG I TỔNG QUAN 1.1 Protein 1.1.1 Thế protein Protein đại phân tử cấu tạo theo nguyên tắc đa phân mà đơn phân axít amin Chúng kết hợp với thành mạch dài nhờ liên kết peptide (gọi chuỗi polypeptide) Các chuỗi xoắn cuộn gấp theo nhiều cách để tạo thành bậc cấu trúc không gian khác protein 1.1.2 Cấu trúc – chức Protein Theo công trình nghiên cứu “What is protein” Georgia C Lauritzen thuộc đại học Utah State: “Protein cấu tạo từ đơn vị nhỏ gọi axit amin Hiên phát 20 loại axit amin khác Mỗi phân tử protein bao gồm nhiều axitamin, xếp theo trình tự ngẫu nhiên, từ tạo hàng trăm, hàng nghìn phân tử protein có cấu trúc khác Hầu hết proteinlà phân tử lớn chứa hàng trăm axit aminđược xếptrong ngànhvà chuỗi” Trình tựaxit amin xác định cấu trúc không gian chiều protein chức chuyên biệt chúng Có loại cấu trúc không gian, ứng với chức Protein sau: - Kháng thể (antibody) Đây protein có khả bám vào phân tử ngoại lai vi khuẩn, vi rút, sau vô hiệu hóa chúng để bảo vệ thể Trong (Hình 1.1) cấu trúc không gian protein kháng thể Immunoglobulin G (lg G) Hình 1.1 Cấu trúc không gian protein kháng thể - Enzyme Enzyme xúc tác cho hầu hết phản ứng hóa học xảy tế bào Chúng giúp đỡ hình thành phân tử cách đọc thông tin di truyền lưu trữ DNA (Hình 1.2) Hình 1.2 Phenylalanine hydroxylase 10 Hình 2.3 Sơ đồ khối mô tả bước thực Các bước thực hiện: Bước 1: Đầu tiên, duyệt toàn danh sách dự đoán, chọn dự đoán có kết nhãn 1; 40 Bước 2: Xét xét cặp residue tương tác, khoảng cách residue > 10 chuyển sang bước 3; Ngược lại, khoảng cách residue ≤ 10 kiểm tra hết dự đoán la chưa? Nếu hết dự đoán chuyển sang bước 4; Nếu chưa hết dự đoán quay lại bước 1; Bước 3: Loại bỏ residue; Bước 4: Kết thúc vòng lặp 41 CHƯƠNG III CÀI ĐẶT VÀ THỬ NGHIỆM 3.1 Dữ liệu Trong luận văn này, kế thừa kết liệu xử lý báo số [27], mô tả lại trình xử lý liệu sau: Tập liệu thu thập cách thống kê cặp Amino acid tương tác tiềm năng, chúng tổ chức sở liệu Aaindex [41] sau chọn 12 tương tác tiềm đặc trưng, tương tác tiềm ma trận 20x20, mục thể mối quan hệ cặp acid amin.Các chuỗi tập DDI liên kết tương ứng pHMM tổ chức thành sở liệu Pfam sau liên kết với Với cặp họ Pfam, chúng chứa thông tin tương tác DDIs từ sở 3D Interacting Domain (3did) 3did sử dụng cấu trúc protein phức hợp ngân hàng liệu Protein (Protein Data Bank – PDB) để trích xuất bề mặt tương tác protein-protein miền mức residue Có hai miền liệu M N tương tác với Trong hai domain có 10 cặp họ tương tác với Có residue tương tác không tương tác với Từ đó, ta residue tương tác với Mỗi residue tập cấu trúc (struct), struct thông tin hai chuỗi ( chúng tương tác với nào, thuộc loài nào, tên domain, số thứ tự domain, số thứ tự sequence tương tác ), chuỗi thuộc vào họ Dựa phân tích [40] giữ lại họ có 100 DDIs trở lên chọn 25 họvà số DDIs bảng 4-1 sau đây: ID DomainM C1-set C1-set C1-set GST_C DomainN C1-set MHC_I V-set GST_N 42 #D DIs 482 124 125 113 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Proteasome V-set adh_short Avidin CLP_protea se ECH Fib_alpha GFP Globin Histone Hormone_r ecep Insulin Lectin_leg B MR_MLE_ N Pkinase Pkinase_Ty rPNP_UDP_ 1Rhv RVP Thrombin_l ight Trypsin Proteasom eV-set adh_short Avidin CLP_prote ase ECH Fib_alpha GFP Globin Histone Hormone_r ecep Insulin Lectin_leg B MR_MLE _N Pkinase Pkinase_T yr PNP_UDP _1 Rhv RVP Trypsin 207 840 187 120 107 111 101 145 223 108 139 103 111 101 270 129 253 101 118 142 Trypsin 146 Bảng 3-1 Danh sách liệu 3.2 Độ đo đánh giá Người ta thường dung độ đo để đánh giá hiệu phân lớp, công thức tính độ đo dựa bốn yếu tố sau tạo thành ma trận độ đo Trong ma trận độ đo, TP TN biểu thị số lượng mẫu positive negative phân lớp đúng, đó, FN FP biểu thị số lượng mẫu positive negative phân lớp sai Hay: TP = True Positive TN = True Negative FP = False Positive 43 FN = False Negative Trong luận văn này, việc thực dự đoán đánh giá cách sử dụng hai độ đo: Precisionvà the Matthew correlation coefficient (MCC) Chúng định nghĩa bảng sau: Positive Predictive Value = PPvalue = Precision = Matthew correlation coefficient (MCC) = ( ) ( ) Bảng 3-2 Công thức tính độ đo Trong đó, Precision cao (hoặc MCC) tốt Ngoài ra, MCC độ đomất cân mà tất TP, TN, FP, FN vớiphép tính độ đo tốt liệu cân Ở đây, vìbộ liệu cân bằng, đưa yếu tố MCC để so sánh hiệu suất phương pháp 3.3Kết thực nghiệm Với phạm vi luận văn tiến hành thử nghiệm sau: Chương trình cài đặt Matlab 2014 với đầu vào tập liệu, với giá trị ngưỡng t=0.1,0.2,0.3,0.5,0.7, 0.9cho liệu Dữ liệu cụ thể đưa vào để huấn luyệnvới thuật toán SVM sau: Ví dụ với Domain M: C1-set, Domain N: C1-set với 482 DDIs với trường 482 dòng (Hình 3.1 Hình 3.2) 44 Hình 3.1 Struct A C1-set Hình 3.2 Struct B C1-set So sánh phân tích kết quả: Tính trung bình chung kết thu sau sử dụng thuật toán cải tiến liệu Sau so sánh với trung bình chung kết báo số [27] Cuối cùng, ta thu kết quả: độ đo Precision MCC phương pháp sau tăng so với phương pháp trước Như vậy, kết thu sau cải tiến tốt kết trước Điều chứng tỏ thuật toán sử dụng loại bỏ trường hợp dự đoán chưa xác Trong hình 3.3 mô tả kết phương pháp sử dụng báo số [27] kết phương pháp chúng Cụ thể dựa độ đo để dánh giá kết quả, dựa độ đo MCC trước sau loại bỏ Đường màu 45 xanh thể độ đo MCC trước loại bỏ, đường màu đỏ thể độ đo MCC sau loại bỏ Hình 3.3 So sánh độ đo MCC trước sau loại bỏ Trong hình 4.4 dựa độ đo Precision trước sau loại bỏđể dánh giá kết dự đoán Đường màu xanh thể độ đo Precision trước loại bỏ, đường màu đỏ thể độ đo Precision sau loại bỏ Hình 3.4 So sánh độ đo Precision trước sau loại bỏ Như dựa vào độ đo Precision MCC để đánh giá kết dự đoán trước sau loại bỏ trường hợp dự đoán chưa xác Kết phương pháp chúng tăng so với kết phương 46 pháp sử dụng báo số [27] Với việc kết hợp thuật toán SVM thuật toán loại bỏvào trình dự đoán tương tác protein cho kết tốt hơn, thuật toán loại bỏ hầu hết trường hợp dị biệt giúp tăng độ xác cho trình dự đoán 47 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Những công việc làm luận văn Luận vănđã đưa phương pháp cải tiến để kết dự đoán liên kết residue protein tương tác Các phương pháp trước đem lại kết tốt, nhiên tồn số điểm hạn chế, xuất số trường hợp “dị biệt” kết dự đoán Vì vậy, thuật toán cải tiến đề xuất để loại bỏ trường hợp “dị biệt” Hướng nghiên cứu thời gian tới Như trình bày ở trên, hạn chế thời gian kiến thức nên luận văn chưa thể tìm hiểu sâu, đặc biệt tiến hành thực cài đặt khảo sát Vì thời gian tới tìm hiểu kỹ trường hợp hai để chủ động nắm vững việc thực cài đặt thuật toán Chúng tiếp tục xây dựng thuật toán giải trường hợp thứ hai là: loại liên kết không xác mà liên quan đến hai vị trí hai vùng tương tác Chúng mong sau xử lý trường hợp thứ hai này, kết dự đoán tốt 48 TÀI LIỆU THAM KHẢO Tiếng Việt 1.Trần Thị Bích Phương, Nguyễn Văn Huấn, Trần Đăng Hưng, Một phương pháp phân tích mạng tương tác protein để dự đoán gen gây bệnh ung thư Nguyễn Thị Thảo, Nguyễn Thị Huyền, Đoàn Thị Thu Hà Trần Thị Thu Huyền, Nguyễn Thị Thủy (2011), “ Phương pháp phân lớp sử dụng máy vecto hỗ trợ ứng dụng tin sinh học, Tạp chí Khoa học Phát triển 2011, (6), tr.1021 – 1031 Tiếng Anh Bleakley K, Biau G, Vert J-P: Supervised reconstruction of biological networks with local models Bioinformatics (Oxford, England) 2007, 23:i57– 65 Bowers PM, Pellegrini M, Thompson MJ, Fierro J, Yeates TO, Eisenberg D: Prolinks : a database of protein functional linkages derived from coevolution 2004 Dandekar T, Snel B, Huynen M, Bork P: Conservation of gene order : a fingerprint of proteins that physically interact Thomas Dandekar , Berend Snel , TIBS, Elsevier Science Ltd 1998, 0004:324–328 Enright AJ, Iliopoulos I, Kyrpides NC, Ouzounis CA: Protein interaction maps for complete genomes based on gene fusion events Nature,Macmillan Magazines Ltd 1999, 402 Ermolaeva MD, White O, Salzberg SL: Prediction of operons in microbial genomes Nucleic acids research 2001, 29:1216–1221 Galperin MY, Koonin E V: Who’s your neighbor? New computational approaches for functional genomics Nature Biotechnology 2000, 18:609– 613 49 González, A.J., Liao, L and Wu, C.H (2013) Prediction of contact matrix for protein-protein interaction Bioinformatics, 29, 1018-1025 10.González, A.J and Liao, L (2009) Constrained fisher scores derived from interaction profile hidden Markov models improve protein to protein interaction Proceedings of the First International Conference BICoB 2009, New Orleans, 8-10 April 2009, 236-247 11.González, A.J and Liao, L (2010) Predicting domain-domain interaction based on domain profiles with feature selection and support vector machines BMC Bioinformatics, 11, 537 12 Marcotte EM: Detecting Protein Function and Protein-Protein Interactions from Genome Sequences Science 1999, 285:751–753 13.Jansen R, Gerstein M: Analyzing protein function on a genomic scale: the importance of gold-standard positives and negatives for network prediction Current Opinion in Microbiology 2004, 7:535–45 14 Lin N, Wu B, Jansen R, Gerstein M, Zhao H: Information assessment on predicting protein-protein interactions BMC Bioinformatics 2004, 5:154 15 Marcotte CJV, Marcotte EM: Predicting functional linkages from gene fusions with confidence Applied Bioinformatics,Open Mind Journals Limited 2002, 1:1–8 16 Moreno-hagelsieb G, Collado-vides J: prediction of operons in prokaryotes Bioinformatics 2002, 18:329–336 17 Overbeek R, Fonstein M, D’Souza M, Pusch GD, Maltsev N: The use of gene clusters to infer functional coupling Proceedings of the National Academy of Sciences of the United States of America 1999, 96:2896–901 18 Pellegrini M, Marcotte EM, Thompson MJ, Eisenberg D, Yeates TO: Assigning protein functions by comparative genome analysis: protein 50 phylogenetic profiles Proceedings of the National Academy of Sciences of the United States of America 1999, 96:4285–8 19 Yip KY, Gerstein M: Training set expansion: an approach to improving the reconstruction of biological networks from limited and uneven reliable interactions Bioinformatics (Oxford, England) 2009, 25:243–50 20 Ben-Hur A, Noble WS: Kernel methods for predicting proteinprotein interactions Bioinformatics (Oxford, England) 2005, 21 Suppl 1:i38– i46 21 Yamanishi Y, Vert J-P, Kanehisa M: Protein network inference from multiple genomic data: a supervised approach Bioinformatics (Oxford, England) 2004, 20 Suppl 1:i363–i370 22 Scott MS, Barton GJ: Probabilistic prediction and ranking of human protein-protein interactions BMC Bioinformatics 2007, 8:1–12 23 Rhodes DR, Tomlins S a, Varambally S, Mahavisno V, Barrette T, Kalyana-Sundaram S, Ghosh D, Pandey A, Chinnaiyan AM: Probabilistic model of the human protein-protein interaction network Nature Biotechnology 2005, 23:951–9 24 Shoemaker B a, Panchenko AR: Deciphering protein-protein interactions Part II Computational methods to predict protein and domain interaction partners PLoS computational biology 2007, 3:e43 25 Punta, M., Coggill, P.C., Eberhardt, R.Y., Mistry, J., Tate, J., Boursnell, C., Pang, N., Forslund, K., Ceric, G., Clements, J, Heger, A., Holm, L., Sonnhammer, E.L.L., Eddy, S.R., Bateman, A and Finn, R.D (2012) The Pfam protein families database Nucleic Acids Research, 40, D290-D301 51 26 Rogozin IB, Makarova KS, Murvai J, Czabarka E, Wolf YI, Tatusov RL, Szekely L a, Koonin E V: Connected gene neighborhoods in prokaryotic genomes Nucleic Acids Research 2002, 30:2212–23 27 Tu Kien T Le1, Osamu Hirose, Vu Anh Tran, Thammakorn Saethang, Lan Anh T Nguyen,Xuan Tho Dang, Duc Luu Ngo, Mamoru Kubo, Yoichi Yamada, Kenji Satou (2014) Predicting residue contacts for protein-protein interactions by integration of multiple information 28 Von Mering C, Jensen LJ, Snel B, Hooper SD, Krupp M, Foglierini M, Jouffre N, Huynen M a, Bork P: STRING: known and predicted proteinprotein associations, integrated and transferred across organisms Nucleic Acids Research 2005, 33:D433–D437 29 Yanai I, Derti A, Delisi C: Genes linked by fusion events are generally of the same functional category : A systematic analysis of 30 microbial genomes PNAS 2001 30 Y Qi J, Klein-Seetharaman, Bar-Joseph Z: Sources In Random Forest Similarity for Protein-Protein Interaction Prediction from Multiple Sources Proceedings of Pacific Symposium on Biocomputing 2005, 542:531–542 31 Zhang L V, Wong SL, King OD, Roth FP: Predicting cocomplexed protein pairs using genomic and proteomic data integration BMC Bioinformatics 2004, 5:38 32 Qi Y, Bar-joseph Z, Klein-seetharaman J: Evaluation of Different Biological Data and Computational Classification Methods for Use in Protein Interaction 2006, 500:490–500 33 Thattai, M., Burak, Y and Shraiman, B.I (2007) The origins of specificity in polyketide synthase protein inte-ractions PLoS Computational Biology, 3, 1827-1835 52 http://dx.doi.org/10.1371/journal.pcbi.0030186 34 Burger, L and Van Nimwegen, E (2008) Accurate pre-diction of proteinprotein interactions methodMolecular from sequence alignments Systems using Biology, a 4, Bayesian 1-14 http://dx.doi.org/10.1038/msb4100203 35 White, R.A., Szurmant, H., Hoch, J.A and Hwa, T (2007) Features of protein-protein interactions in two-component signaling deduced from genomic libraries Methods in Enzymology, 422, 75-101 http://dx.doi.org/10.1016/S0076-6879(06)22004-4 36 Weigt, M., White, R.A., Szurmant, H., Hoch, J.A and Hwa, T (2009) Identification of direct residue contacts in protein-protein interaction by message passing PNAS, 106, 67-72 http://dx.doi.org/10.1073/pnas.0805923106 37 Aloy, P., Ceulemans, H., Stark, A and Russell, R.B (2003) The relationship between sequence and interaction divergence in proteins Journal of Molecular Biology, 332, 989-998 http://dx.doi.org/10.1016/j.jmb.2003.07.006 38 Ghoorah, A.W., Devignes, M.-D., Smaïl-Tabbone, M and Ritchie, D.W (2011) Spatial clustering of protein binding sites for template based protein docking Bioin-formatics, 27, 2820-2827 http://dx.doi.org/10.1093/bioinformatics/btr493 39 Keskin, O and Nussinov, R (2007) Similar binding sites and different partners: Implications to shared proteins in cellular pathways Structure, 15, 341-354 http://dx.doi.org/10.1016/j.str.2007.01.007 53 40 Morcos, F., Pagnani, A., Lunt, B., Bertolino, A., Marks,D.S., Sander, C., Zecchina, R., Onuchic, J.N., Hwa, T and Weigt, M (2011) Directcoupling analysis of residue coevolution captures native contacts across many protein families Proceedings of the National Academy of Sciences of the United States of America, 108, E1293- E1301 http://dx.doi.org/10.1073/pnas.1111471108 41 Kawashima, S., Pokarowski, P., Pokarowska, Katayama, T and Kanehisa, M (2008) AAindex: M., Kolinski, A., Amino acid index database, progress report 2008 Nucleic Acids Research, 36, D202-D205 http://dx.doi.org/10.1093/nar/gkm998 42 Zhou, H.-X and Qin, S (2007) Interaction-site prediction for protein complexes: A critical assessment Bioinformatics, 23, 2203-2209 http://dx.doi.org/10.1093/bioinformatics/btm323 43 Ritchie, D.W (2008) Recent progress and future directions in proteinprotein docking Current Protein and Peptide Science, 9, 1-15 http://dx.doi.org/10.2174/138920308783565741 44 Li, B and Kihara, D (2012) Protein docking prediction using predicted protein-protein interface BMC Bioinformatics, 13, http://dx.doi.org/10.1186/1471-2105-13-7 45 Schelhorn S-E, Lengauer T, Albrecht M: An integrative approach for predicting interactions of protein regions Bioinformatics (Oxford, England) 2008, 24:i35–41 46.Chen, C.-T., Peng, H.-P., Jian, J.-W., Tsai, K.-C., Chang, J.-Y., Yang, E.W., Chen, J.-B., Ho, S.-Y., Hsu, W.-L and Yang, A.-S (2012) Proteinprotein interaction site predictions with three-dimensional probability distributions of interacting atoms on protein surfaces PloS ONE, 7, e37706 http://dx.doi.org/10.1371/journal.pone.0037706 54