Microsoft Word ban thao so 09 2009 doc Science & Technology Development, Vol 12, No 09 2009 Trang 38 XÁC ĐỊNH VÙNG BẢO TỒN CHỨC NĂNG VÀ DỰ ĐOÁN EPITOPE TẾ BÀO T TRÊN CÁC PROTEIN VIRUS CÚM A Văn Hải Vâ[.]
Science & Technology Development, Vol 12, No.09 - 2009 XÁC ĐỊNH VÙNG BẢO TỒN CHỨC NĂNG VÀ DỰ ĐOÁN EPITOPE TẾ BÀO T TRÊN CÁC PROTEIN VIRUS CÚM A Văn Hải Vân, Lê Thị Thanh Thủy, Cao Thị Ngọc Phượng, Vũ Thị Bích Trần Linh Thước Trường Đại học Khoa học Tự nhiên, ĐHQG –HCM (Bài nhận ngày 06 tháng 01 năm 2009, hoàn chỉnh sửa chữa ngày 26 tháng 01 năm 2009) TÓM TẮT: Virus cúm A mối quan tâm toàn cầu biến đổi nhanh chóng khơng ngừng cấu trúc di truyền Dựa sở liệu thực nghiệm virus cúm A, chúng tơi tiến hành phân tích vùng bảo tồn chức protein virus nhằm hổ trợ cho trình thiết kế vắcxin đa trị dự đoán xu hướng biến đổi chủng virus Nghiên cứu thực 11 protein chức HA, NA, PA, NS1, NS2, M1, M2, NP, PB1, PB1_F2 PB2 Từ nhóm chức năng, trình tự protein phân nhóm theo subtype, vật chủ, quốc gia năm phân lập, sau thực gióng cột nhiều trình tự hai cơng cụ ClustalW MAFFT Các trình tự bảo tồn dài amino acid chọn để dự đoán epitope tế bào T hệ thống dự đoán SEP (System for Epitope Prediction) Ngồi ra, chúng tơi thực việc dự đoán chức vùng bảo tồn dựa thông tin chức protein virus cúm A từ sở liệu Swissprot Từ khóa: epitope bảo tồn, virus cúm A, vắcxin đa trị, vắcxin in silico, khai khoáng liệu 1.GIỚI THIỆU Virus cúm A thuộc họ Orthomyxoviridae có hình thái đa dạng với đường kính 80 – 120nm chiều dài lên đến 2µm Bộ gen virus cúm A bao gồm mảnh RNA sợi đơn, mạch âm mã hóa cho protein với chức thể bảng [1],[3] Bảng Các mảnh RNA protein mã hóa virus cúm A Mảnh RNA Tên protein Chức Hemagglutinin (HA) Gắn thụ thể, dung hợp màng tế bào chủ virus khởi đầu trình xâm nhiễm Tránh kết tụ virus hổ trợ giải phóng phần tử virus Neuraminidase (NA) Matrix protein (MP) M1 M2 Nucleoprotein (NP) Basic polymerase protein (PB2) Basic polymerase protein (PB1) PB1_F2 Acidic polymerase protein (PA) Non-structural protein (NS1) Non-structural protein (NS2) Trang 38 Tương tác với gen nhân tố ngoại nhân, hổ trợ đóng gói virus Kênh ion, kiểm sốt pH Golgi q trình tổng hợp HA cởi bỏ lớp vỏ virion Tổng hợp virus Phức hợp phiên mã Tiểu đơn vị gắn mũ chụp, polymerase, định độc lực Tiểu đơn vị xúc tác RNA polymerase Tiểu đơn vị, RNA polymerase Kiểm soát RNA sau phiên mã, trung hòa interferon Hỗ trợ di chuyển ngồi nhân RNA virus, đóng gói virus TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 12, SỐ 09 - 2009 Phần vỏ virus cúm A có chất lipid, bề mặt có glycoprotein HA NA Đây không nhân tố quan trọng khởi đầu xâm nhiễm giải phóng phân tử virus mà cịn kháng ngun cho đáp ứng miễn dịch vật chủ Dựa đa dạng kháng nguyên HA NA, virus cúm A phân thành nhiều subtype Trong số có subtype H1N1, H2N3, H3N2, H5N1, H7N7 H9N2 phân lập người Từ xuất đến nay, bệnh cúm virus cúm A gây nên nhiều trận dịch bệnh [4,6] Những trận dịch cúm A lớn kỷ qua biến đổi thành phần gen ban đầu (quá trình ‘antigenic drift’) tái xếp gen subtype (quá trình antigenic shift) Năm 1918, biến đổi gen virus cúm A subtype H1N1 tạo khả lây nhiễm người gây nên dịch cúm Tây Ban Nha với 50 triệu người thiệt mạng Subtype H1N1 gây nên trận dịch khác vào năm 1950, năm 1977 lưu hành quần thể người Năm 1957, H1N1 người tái xếp mảnh gen với H2N2 chim (PB1, HA NA) tạo thành subtype H2N2 người gây nên trận đại dịch cúm Châu Á Năm 1968, xảy tái xếp gen mã hóa PB1 HA từ virus cúm H3 chim mảnh lại H2N2 người tạo thành subtype H3N2 gây nên đại dịch cúm Hồng Kông năm 1997 Dịch cúm H5N1 bắt đầu Hồng Kông năm 1997, bùng phát trở lại Nga vào năm 2003, lan sang Đông Nam Á năm 2004, sau trải rộng sang Nga, Châu Âu, Châu Phi, lục địa Ấn Độ Trung Đơng suốt cuối năm 2005 đến Do đó, để bảo vệ người khỏi trận đại dịch cúm tiếp theo, phát triển vắcxin phòng bệnh virus cúm A quan tâm nghiên cứu giới Hiện nay, nghiên cứu tập trung chủ yếu vắcxin bất hoạt vắcxin nhược độc, vắcxin có khả phịng bệnh virus trận dịch bệnh xảy đặc hiệu cho vài chủng virus Ngoài ra, hạn chế khác việc nghiên cứu vắcxin tiêu tốn nhiều thời gian, khó nuôi cấy in vitro số chủng virus độc lực cao, vắcxin bất hoạt hồi tính tạo độc lực… Vì vậy, yêu cầu quy trình sản xuất vắcxin nhanh chóng, linh hoạt, đặc biệt với biến đổi liên tục virus cúm A, vấn đề phát triển vắcxin phổ rộng xu hướng tất yếu Số lượng trình tự protein virus cúm A tăng bùng nổ sở liệu sinh học công cộng Bên cạnh đó, Tin sinh học đời từ cuối kỉ 20 với hạt nhân so sánh trình tự sinh học cung cấp nhiều phương pháp công cụ giúp khai thác nguồn liệu khổng lồ sinh học thực nghiệm Sắp gióng cột nhiều trình tự biết đến cơng cụ tiên phân tích gen protein cung cấp thông tin cần thiết để nghiên cứu mối quan hệ chức tiến hóa trình tự [2,7,8] Từ sở trên, nghiên cứu này, cơng cụ gióng cột nhiều trình tự tin sinh học sử dụng nhằm khai thác nguồn liệu trình tự virus cúm A Bằng kết gióng cột, chúng tơi xác định phân tích vùng bảo tồn chức cho nhóm protein virus cúm A Các vùng bảo tồn dài amino acid sử dụng để dự đoán epitope tế bào T bảo tồn góp phần vào việc phát triển vắcxin phịng bệnh cúm A có phổ rộng Ngồi ra, sở khoa học định hướng cho nghiên cứu xu hướng tiến hóa virus cúm A để từ dự đốn biến đổi virus cúm A tương lai 2.VẬT LIỆU VÀ PHƯƠNG PHÁP 2.1.Vật liệu Dữ liệu trình tự protein virus cúm A thu nhận trực tiếp từ sở liệu “Influenza Virus Resource” NCBI từ địa http://www.ncbi.nlm.nih.gov/genomes/FLU/FLU.html Các trình tự protein mẫu thơng tin chức protein virus cúm A thu Trang 39 Science & Technology Development, Vol 12, No.09 - 2009 nhận từ sở liệu RefSeq SwissProt cơng cụ tìm kiếm NCBI Quy trình nghiên cứu thực Linux RedHat Enterprise 5.0 viết ngôn ngữ lập trình Perl Các protein gióng cột hai trình tự cơng cụ Needle 5.0.0 tích hợp gói chương trình EMBOSS gióng cột đa trình tự sử dụng chương trình Clustalw-mpi 0.13 Mafft 6.240 Clustalw chương trình sử dụng phổ biến dựa thuật tốn gióng cột lũy tiến Freg Doolittle đưa năm 1987 Clustalw-mpi phiên Clustalw hổ trợ chạy song song nhiều máy tính Mafft [5] chương trình gióng cột nhiều trình tự tích hợp nhiều phương pháp nên linh động phù hợp cho nhiều tập hợp gióng cột khác Mafft có ba chiến lược gióng cột chính: a) phương pháp lũy tiến sử dụng ma trận điểm (FFT-NS-2), b) phương pháp cải tiến có lặp sử dụng hàm tính điểm Weigh Sum of Pair-WSP (FFT_NS-i), c) phương pháp cải tiến có lặp sử dụng hàm tính điểm WSP hàm điểm dựa độ quán (L-INS-i) Phương pháp lũy tiến Mafft sử dụng hai kỹ thuật quan trọng nhằm giảm thời gian tính tốn vi xử lý thuật giải gióng cột nhóm-nhóm FFT (Fast Fourier Transform) phương pháp 6mer để so sánh cặp trình tự Các vùng trình tự bảo tồn dài amino acid dự đoán epitope tế bào T hệ thống dự đoán SEP (System for Epitope Prediction) SEP xây dựng Phịng thí nghiệm TinSinh học, Trường Đại học Khoa học Tự nhiên tích hợp mơ hình dự đoán epitope tế bào T HMMs (Hidden Markov Models), SVMs (Support Vector Machines) ANNs (Artificial Neural Networks) 2.2.Phương pháp Quy trình thực xác định vùng bảo tồn chức dự đoán epitope tế bào T protein virus cúm A tóm tắt chi tiết sơ đồ hình Thu nhận liệu trình tự protein Tất trình tự protein virus cúm A thu nhận trực tiếp từ sở liệu Influenza Virus Resource, loại bỏ trình tự giống Các trình tự protein mẫu đại diện cho protein virus cúm A thu nhận từ sở liệu protein RefSeq Các trình tự protein mẫu dùng để loại bỏ trình tự khơng có độ tin cậy cao sở liệu Influenza Virus Resource Các thông tin chức protein thu nhận từ mẫu tin trình tự protein thuộc sở liệu SwissProt Tinh lọc phân loại trình tự Tất trình tự protein thơ xử lý loại bỏ trình tự trình tự lớn trình tự chứa ký tự không thuộc bảng mã 20 amino acid Sau đó, trình tự thực gióng cột trình tự chương trình Needle với trình tự mẫu để phân vào nhóm protein chức tương ứng Bước nhằm đảm bảo loại bỏ trình tự rác (ngắn), hay trình tự giải mã chưa hồn chỉnh Từ nhóm protein chức năng, dựa vào thơng tin đặc tả, trình tự tiếp tục phân vào nhóm subtype, vật chủ, quốc gia năm phân lập Sắp gióng cột nhóm trình tự Các trình tự protein sau phân thành nhóm mục tiêu gióng cột nhằm xác định vị trí bảo tồn đặc trưng cho nhóm Clustalw chương trình gióng cột phát triển từ lâu, đồng thời có độ tin cậy cao người sử dụng Thông số cho chương trình Clustalw-mpi mặc định Tuy nhiên, chương trình Mafft với thuật toán cải tiến chứng minh có độ xác cao thời gian thực nhanh so với Clustalw thực gióng cột số lượng trình tự lớn Thơng số khảo sát Mafft thơng số Trang 40 TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 12, SỐ 09 - 2009 mặc định sử dụng chiến lược gióng cột FFT-NS-2, thông số tự động thay đổi theo số lượng trình tự Xác định vùng bảo tồn nhóm trình tự Các vùng trình tự bảo tồn có chiều dài tối thiểu amino acid gióng cột xác định dựa vào tỉ lệ bảo tồn 25% (bảo tồn 25% tổng số trình tự gióng cột nhóm) Dự đốn chức vùng bảo tồn Dữ liệu chức protein virus cúm A thu nhận từ NCBI với giới hạn nguồn sở liệu gốc Swissprot Vị trí vùng bảo tồn gióng cột vị trí vùng chức trình tự thuộc gióng cột so sánh với để dự đoán chức cho vùng bảo tồn (nếu có) Vị trí vùng bảo tồn vị trí vùng chức đạt phù hợp vùng bảo tồn nằm gần với vùng chức Dự đoán epitope tế bào T Các trình tự bảo tồn dài amino acid thu nhận để thực dự đoán epitope tế bào T hệ thống SEP RefSeq Thu nhận trình tự protein mẫu virus cúm A Influenza Virus Resource Thu nhận trình tự protein virus cúm A SwissProt Thu nhận liệu chức protein virus cúm A Tinh lọc phân loại protein virus cúm A Sắp gióng cột nhóm liệu protein virus cúm A Dự đoán epitope tế bào T Xác định vùng bảo tồn liệu protein virus cúm A Xác định vùng chức trình tự protein Dự đốn chức vùng bảo tồn Hình Quy trình xác định vùng bảo tồn, dự đoán chức epitope tế bào T protein virus cúm A Trang 41 Science & Technology Development, Vol 12, No.09 - 2009 3.KẾT QUẢ VÀ THẢO LUẬN 3.1.Trình tự protein virus cúm A Sau tinh lọc, thu nhận 23.141 trình tự protein virus cúm A Trong đó, số lượng loại protein chức thể hình với protein HA NA có số lượng trình tự lớn quan tâm nghiên cứu nhiều Kết phân nhóm trình tự protein virus cúm A theo subtype, vật chủ, quốc gia năm phân lập mơ tả biểu đồ hình Hình Biểu đồ số lượng trình tự protein virus cúm A Hình Phần trăm số lượng trình tự protein virus cúm A phân loại theo subtype, vật chủ, quốc gia năm Số liệu phân nhóm trình tự theo subtype cho thấy số lượng trình tự thuộc subtype H3N2, H5N1, H1N1, H9N2 H3N8 chiếm gần 75% tổng số trình tự Đây subtype chứng minh có độc lực cao, có khả gây nhiễm người gây trận đại dịch lớn Vật chủ có số lượng trình tự nhiều chim (53%) tiếp đến người (36%) lợn (7%) Quốc gia phân lập virus cúm A nhiều Mỹ (35%), Trung Quốc (16%) Hồng Kông (6%), quốc gia bùng phát đại dịch cúm A (Trung Quốc, Hồng Kông) quốc gia đầu kế hoạch phòng chống dịch cúm (Mỹ) Thống kê số lượng trình tự theo năm cho thấy virus cúm A phân lập chủ yếu năm gần với thời điểm bùng phát dịch cúm H5N1, 3% năm 1997 tăng dần qua năm cao điểm năm 2005 với 12% tổng số trình tự 3.2.Các vùng bảo tồn chức nhóm protein Số lượng vùng bảo tồn protein virus cúm A thể bảng Sắp gióng cột chương trình Mafft với thơng số tự động (Mafft_auto) thơng số mặc định Trang 42 TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 12, SỐ 09 - 2009 (Mafft_default) cho số lượng vùng bảo tồn tất protein So sánh hai chương trình Mafft Clustalw-mpi, số lượng vùng bảo tồn có khác biệt không đáng kể protein HA, NA, PB2, PB1 NP Như vậy, với thời gian thực gióng cột Clustalw_mpi 48 máy tính, Mafft_auto 20 Mafft_default 12 máy đơn, đề nghị sử dụng chương trình Mafft_default với thời gian thực nhanh Bảng Số lượng vùng bảo tồn protein virus cúm A HA NA PB2 NS1 PA PB1 NP M2 NS2 M1 PB1_F2 Clustalw_mpi 2008 2722 29122 2761 32986 44277 10730 1110 2150 7903 725 Mafft_auto 2001 2695 29101 2761 32986 43919 10572 1110 2150 7903 725 Mafft_default 2001 2695 29101 2761 32986 43919 10572 1110 2150 7903 725 Số lượng vùng bảo tồn tỉ lệ bảo tồn khác protein virus cúm A hình cho thấy độ bảo tồn giảm dần theo thứ tự PB1, M1, PA, M2, PB2, NP, NS1, NS2, PB1_F2, HA NA Như vậy, HA NA hai protein có độ biến động cao virus cúm A với đa số vùng bảo tồn tỉ lệ bảo tồn 30-50% Các protein protein phức hợp phiên mã có độ bảo tồn cao Tham khảo chức protein sở liệu SwissProt, vùng bảo tồn chức đặc trưng protein virus cúm A thể bảng Protein HA có vùng bảo tồn chức quan trọng ‘cleavage’, ‘lipid-binding’, ‘signal’ ‘transmembrane region’ Tương tự, protein NA có vùng ‘sialidase’, ‘active’, ‘transmembrane region’ ‘binding’ Đặc biệt, chức sialidase bảo tồn NA vị trí khác kết gióng cột (vị trí 447 vị trí 474, cách khoảng 26 amino acid) Điều cho thấy chức NA tiến hóa theo hướng khác Bảng Vùng bảo tồn chức đặc trưng protein virus cúm A Tên protein HA Tên vùng chức Chiều dài (tối thiểu – tối đa) Số trình tự (tối thiểu – tối đa) Tên vùng chức Chiều dài (tối thiểu – tối đa) Số trình tự (tối thiểu – tối đa) Signal 1-2 1301-2868 Transmembrane region 1-6 1299-2890 Cleavage 1-2 4159-4333 lipid-binding 1-1 3428-3649 1-7 1229-3337 Sialidase 1-5 1503-1747 Transmembrane region Active 1-1 3979-2049 binding 1-1 4027-4030 Flu_M2 4-26 329-944 Transmembrane region 1-20 335-1097 NA M2 Trang 43 Science & Technology Development, Vol 12, No.09 - 2009 Hình Số lượng vùng bảo tồn protein cúm A tỉ lệ bảo tồn khác 3.3.Các epitope tế bào T bảo tồn Bảng Các epitope tế bào T bảo tồn dự đoán tốt HA STT Trình tự peptide Số lượng trình tự chứa peptide HMMSVM HMM-ANN SVM-ANN HMMSVM-ANN GRIQDLEKY 1322 hla_b_2705 hla_b_2705 hla_b_2705 hla_b_2705 KIDLWSYNA 1324 hla_a_0201, hla_a_0202, hla_a_0206 hla_a_0201 hla_a_0201, hla_a_0203 hla_a_0201 GLFGAIAGF 3187 hla_a_0201 hla_a_0201, hla_b_1501 hla_a_0201, hla_a_0202, hla_a_0203 hla_a_0201 Bảng Các epitope tế bào T bảo tồn dự đoán tốt NA STT Trình tự peptide Số lượng trình tự chứa peptide HMM-SVM HMM-ANN SVM-ANN WSWPDGAEL 1248 hla_b_3501 hla_b_3501 hla_a_0206, hla_b_3501, hla_b_5101 hla_b_3501 DVFVIREPF 1356 hla_b_3501 hla_b_3501 hla_a_6801, hla_a_6802, hla_b_3501 hla_b_3501 YICSGVFGD 1420 hla_a_0201 hla_a_0201 hla_a_0201, hla_a_0202, hla_a_6801 hla_a_0201 Trang 44 HMMSVM-ANN TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 12, SOÁ 09 - 2009 HLECRTFFL 1461 hla_a_0201, hla_a_0202 hla_a_0201, hla_a_0202 hla_a_0201, hla_a_0202, hla_a_0206, hla_a_6801 hla_a_0201, hla_a_0202 APFSKDNSI 1857 hla_b_0702, hla_b_5401 hla_b_5401, hla_b_5401 hla_b_5401 NPNQKIITI 2868 hla_b_5301 hla_b_5101, hla_b_5301, hla_b_5401 hla_b_5301 hla_b_5301 Các peptide bảo tồn dài amino acid 11 protein chức thực dự đoán khả gắn với 20 alen HLA lớp I phương pháp HMM, ANN SVM Các epitope tế bào T bảo tồn dự đoán tốt phương pháp phương pháp alen HA NA trình bày bảng bảng Trong đó, peptide GLFGAIAGF NPNQKIITI bảo tồn cao trình tự HA NA 4.KẾT LUẬN Chúng xác định thành công vùng bảo tồn chức cho protein virus cúm A Các vùng bảo tồn sở cho nghiên cứu biến đổi tiến hóa virus cúm A Bên cạnh đó, từ vùng bảo tồn dài amino acid, epitope tế bào T bảo tồn dự đoán tốt đề xuất nhằm phục vụ cho mục tiêu thiết kế vắcxin cúm A có phổ rộng INDENTIFYING FUNCTIONALLY CONSERVED REGIONS AND PREDICTING T-CELL EPITOPES ON PROTEINS OF INFLUENZA A VIRUS Van Hai Van, Le Thi Thanh Thuy, Cao Thi Ngoc Phuong, Vu Thi Bich Tran Linh Thuoc University of Science, VNU-HCM ABSTRACT: Influenza A viruses are of worldwide concerns because of their rapidly and endlessly genetic changes Based on the experimental influenza A virus databases, we analyzed conserved regions on the protein sequences of influenza A virus to facilitate the design of universal vaccine and the prediction of changing tendency of influenza A viral strains Our study was carried out on eleven viral functional proteins: HA, NA, PA, NS1, NS2, M1, M2, NP, PB1, PB1_F2 and PB2 From these groups, the clusters were formed on subtypes, hosts, countries and years of collection, followed by multiple sequence alignments by two tools ClustalW and MAFFT Conserved sequences of amino acid residues were selected and used for T-cell epitope prediction by SEP (System for Epitope Prediction) In addition, we also predicted the function of these conserved regions using information on function of influenza A viral proteins from the Swissprot database Key words: conserved epitope, influenza A virus, universal vaccine, vaccine in silico, data mining Trang 45 Science & Technology Development, Vol 12, No.09 - 2009 TÀI LIỆU THAM KHẢO [1] Cheung KWH, Poon LLM Biology of Influenza A Virus, Ann NY Acad Sci 1102: 125 (2007) [2] Edgar RC, Batzoglou S.Multiple sequence alignment, Curr Opin Struct Biol 16: 368 – 373 (2006) [3] Engelhardt OG, Fodor E Functional association between viral and cellular transcription during influenza virus infection, Rev Med Virol 16: 329 – 345 (2006) [4] Horimoto T, Kawaoka Y Influenza: lessons from past pandemics, warnings from current incidents, Nat Rev Microbiol 3: 591 – 600 (2005) [5] Katoh K, Toh H Recent developments in Mafft multiple sequence aligment program, Brief Bioinform 9: 286 – 298 (2008) [6] Monto AS, Gravenstein SG, Elliot M, Colopy M, Schweinle Clinical Signs and Symptoms Predicting Influenza Infection, Archives of Internal Medicine 160: 3243-47 J (2002) [7] Nuin PA, Wang Z, Tillier ER The accuracy of several multiple sequence alignment programs for proteins, BMC Bioinformatics 7: 471 (2006) [8] Pirovan W, Heringa J Multiple Sequence Alignment, Methods Mol Biol 452: 143 – 161 (2008) Trang 46 ... 1-2 130 1-2 868 Transmembrane region 1-6 129 9-2 890 Cleavage 1-2 415 9-4 333 lipid-binding 1-1 342 8-3 649 1-7 122 9-3 337 Sialidase 1-5 150 3-1 747 Transmembrane region Active 1-1 397 9-2 049 binding 1-1 ... điểm (FFT-NS-2), b) phương pháp cải tiến có lặp sử dụng hàm tính điểm Weigh Sum of Pair-WSP (FFT_NS-i), c) phương pháp cải tiến có lặp sử dụng hàm tính điểm WSP hàm điểm dựa độ quán (L-INS-i) Phương... Active 1-1 397 9-2 049 binding 1-1 402 7-4 030 Flu_M2 4-2 6 32 9-9 44 Transmembrane region 1-2 0 33 5-1 097 NA M2 Trang 43 Science & Technology Development, Vol 12, No.09 - 2009 Hình Số lượng vùng bảo tồn