1. Trang chủ
  2. » Luận Văn - Báo Cáo

NGUYỄN TIẾN ANH PHÁT TRIỂN CÔNG cụ TIN SINH học để PHÂN TÍCH tập hợp hệ GEN của VI KHUẨN KHÓA LUẬN tốt NGHIỆP dược sĩ

60 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

BỘ Y TẾ TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI NGUYỄN TIẾN ANH MÃ SINH VIÊN: 1701024 PHÁT TRIỂN CÔNG CỤ TIN SINH HỌC ĐỂ PHÂN TÍCH TẬP HỢP HỆ GEN CỦA VI KHUẨN KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ Người hướng dẫn: PGS TS Phùng Thanh Hương TS Cao Minh Đức Nơi thực hiện: Bộ mơn Hóa sinh trường Đại học Dược Hà Nội HÀ NỘI – 2022 LỜI CẢM ƠN Trước hết, xin chân thành cảm ơn giúp đỡ PGS TS Phùng Thanh Hương, Bộ mơn Hóa sinh, Đại học Dược Hà Nội, người cô giáo nhiệt huyết, bên hỗ trợ định hướng cho nhiều cách xây dựng nội dung trình bày đề tài Tơi xin chân thành cảm ơn TS Cao Minh Đức, giám đốc cao cấp khoa học liệu trí tuệ nhân tạo, công ty Tandem AI tạo điều kiện cho thực nghiên cứu Tiếp theo, muốn gửi lời cảm ơn chân thành tới TS Võ Sỹ Nam, Ths Lê Đức Quang thành viên khác nhóm nghiên cứu Tin sinh học, dự án AMRomics giúp nhiều cho nhiều lời khuyên quý báu suốt trình nghiên cứu dự án Trân trọng cảm ơn thầy cô Bộ mơn Hóa sinh, phịng Đào tạo trường Đại học Dược Hà Nội tạo điều kiện thuận lợi giúp đỡ tơi q trình học tập hồn thành khóa luận Cuối cùng, tơi muốn gửi lời cảm ơn tới gia đình bạn bè ln bên động viên bên cạnh ủng hộ Hà Nội, ngày 24 tháng năm 2022 Nguyễn Tiến Anh MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ĐẶT VẤN ĐỀ .1 CHƯƠNG 1: TỔNG QUAN 1.1 Hệ gen vi khuẩn 1.1.1 Định nghĩa hệ gen vi khuẩn .2 1.1.2 Đặc điểm hệ gen vi khuẩn 1.1.3 Sự đa dạng hệ gen vi khuẩn 1.2 Tập hợp hệ gen vi khuẩn .3 1.2.1 Các khái niệm 1.2.2 Phân loại tập hợp hệ gen vi khuẩn 1.2.3 Phân tích tập hợp hệ gen vi khuẩn 1.3 Ứng dụng phân tích tập hợp hệ gen vi khuẩn 1.3.1 Xác định đường lây truyền đặc điểm dòng vi khuẩn gây bệnh 1.3.2 Nghiên cứu kháng kháng sinh 1.3.3 Nghiên cứu vaccin 1.3.4 Các ứng dụng khác 1.4 Cơ sở liệu trình tự gen lồi 1.5 Ứng dụng sở liệu trình tự gen loài 1.5.1 Sử dụng làm hệ gen tham chiếu vi khuẩn 1.5.2 Sử dụng thích trình tự gen 1.6 Tổng quan công cụ phân tích tập hợp hệ gen vi khuẩn 1.6.1 Các cơng cụ phân tích tập hợp hệ gen vi khuẩn .9 1.6.2 Các tiêu chí đánh giá cơng cụ phân tích tập hợp hệ gen 11 1.6.3 Những vấn đề cịn tồn cơng cụ 13 CHƯƠNG 2: ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU .16 2.1 Đối tượng phương tiện nghiên cứu 16 2.2 Nội dung nghiên cứu 17 2.3 Phương pháp nghiên cứu 17 2.3.1 Phương pháp xây dựng công cụ 17 2.3.2 Phương pháp so sánh với công cụ khác 18 2.3.3 Phương pháp đánh giá quy trình thêm mẫu 19 2.3.4 Phương pháp thu thập, đánh giá chất lượng chọn lọc liệu 20 2.3.5 Phương pháp xây dựng sở liệu trình tự gen cho loài 20 CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT QUẢ .22 3.1 Xây dựng cơng cụ phân tích tập hợp hệ gen vi khuẩn 22 3.1.1 Kết xây dựng công cụ 22 3.1.2 Kết so sánh Panta với công cụ khác 23 3.1.3 Kết đánh giá quy trình thêm mẫu 27 3.2 Xây dựng sở liệu trình tự gen số loài vi khuẩn .30 3.2.1 Kết thu thập, đánh giá chất lượng chọn lọc liệu 30 3.2.2 Kết xây dựng sở liệu trình tự gen 31 CHƯƠNG 4: BÀN LUẬN 34 4.1 Bàn luận cơng cụ phân tích tập hợp hệ gen .34 4.1.1 Tính thêm mẫu 34 4.1.2 Khả phân tích liệu lớn 35 4.1.3 Những hạn chế công cụ Panta 36 4.2 Bàn luận sở liệu trình tự gen loài .37 4.2.1 Bàn luận sở liệu trình tự gen 37 4.2.2 Bàn luận tập hợp hệ gen loài 38 KẾT LUẬN 40 KIẾN NGHỊ 40 TÀI LIỆU THAM KHẢO DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Từ viết đầy đủ Kí hiệu Chú giải tiếng Việt ADN Deoxyribonucleic acid ARN Ribonucleic acid bp base pair cặp base CPU Central processing unit Đơn vị xử lý trung tâm Cơ sở liệu CSDL GB GigaByte GC Guanine-Cytosine MB Megabyte Mbp Million base pair triệu cặp base National Center for Biotechnology Trung tâm Thông tin Công Information nghệ sinh học Quốc gia Mỹ RAM Random-access memory Bộ nhớ truy xuất ngẫu nhiên SNP Single-nucleotide polymorphism Đa hình đơn nucleotid NCBI DANH MỤC CÁC BẢNG Bảng 1.1 Các cơng cụ phân tích tập hợp hệ gen vi khuẩn 10 Bảng 2.1 Các công cụ sử dụng nghiên cứu 16 Bảng 2.2 Đặc điểm liệu dùng thử nghiệm 17 Bảng 3.1 Đặc điểm liệu loài .31 Bảng 3.2 Kết phân tích tập hợp hệ gen loài sử dụng Panta 32 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 3.1 Sơ đồ hoạt động cơng cụ Panta .22 Hình 3.2 Thời gian nhớ phân tích liệu Sp100 Panta, Roary, PIRATE Panaroo 24 Hình 3.3 Thời gian nhớ sử dụng phân tích liệu Sp100 (có thực gióng hàng nhiều trình tự) Panta, Roary, PIRATE, Panaroo PanX 25 Hình 3.4 So sánh kích thước hệ gen cốt lõi tập hợp hệ gen cơng cụ phân tích liệu Sp100 26 Hình 3.5 So sánh kết phân cụm trình tự cơng cụ liệu Sp100.27 Hình 3.6 Đánh giá thời gian thêm mẫu liệu Kp100 28 Hình 3.7 Đánh giá nhớ sử dụng thêm mẫu liệu Kp100 29 Hình 3.8 So sánh kết phân cụm trình tự quy trình thêm mẫu Panta với quy trình thơng thường đánh giá liệu Sp100 30 Hình 3.9 Sự thay đổi kích thước tập hợp hệ gen thêm mẫu vào phân tích .33 ĐẶT VẤN ĐỀ Tập hợp hệ gen (pan-genome) định nghĩa tập hợp tất gen thuộc nhóm sinh vật có mối quan hệ gần gũi với nhau, ví dụ: nhiều chủng, lồi, nhóm lồi…[45] Hiện nay, phân tích tập hợp hệ gen vi khuẩn ứng dụng nhiều nghiên cứu quan trọng dịch tễ học phân tử [43], [48]; chế kháng kháng sinh [21]; hay phát triển vaccin [18], [60], [68] Để đáp ứng nhu cầu phân tích liệu ngày lớn, nhiều cơng cụ phân tích tập hợp hệ gen vi khuẩn Roary, PanX, PIRATE Panaroo đời với cải tiến hiệu năng, tính riêng biệt Tuy nhiên, cơng cụ gặp khó khăn mở rộng phân tích liệu lớn hàng chục ngàn mẫu, đặc biệt máy tính có cấu hình thơng thường Bên cạnh đó, cơng cụ chưa có tính thêm mẫu vào kết phân tích trước Tính hữu ích phân tích liệu thường xun có thêm mẫu mới, giúp tiết kiệm thời gian so với phân tích lại liệu Hiện nay, có nhiều sở liệu trình tự gen chưa có sở liệu trình tự gen riêng cho loài vi khuẩn cụ thể Cơ sở liệu xây dựng cách tiến hành phân tích tập hợp hệ gen, cần thực số lượng lớn mẫu lồi Tình trạng kháng kháng sinh vi khuẩn Klebsiella pneumoniae, Staphylococcus aureus Escherichia coli đặt mối nguy hại to lớn tới sức khoẻ cộng đồng [8], [35] Cơ sở liệu trình tự gen lồi này, xây dựng, giúp ích nghiên cứu hệ gen, chế kháng kháng sinh hay đường lây truyền chúng Xuất phát từ thực tế trên, thực đề tài với mục tiêu sau: Xây dựng cơng cụ phân tích tập hợp hệ gen vi khuẩn với khả thêm mẫu phân tích liệu kích thước lớn sử dụng máy tính có cấu hình thơng thường Xây dựng sở liệu trình tự gen lồi vi khuẩn K pneumoniae, S aureus E coli thông qua phân tích tập hợp hệ gen CHƯƠNG 1: TỔNG QUAN 1.1 Hệ gen vi khuẩn 1.1.1 Định nghĩa hệ gen vi khuẩn Hệ gen (genome) định nghĩa toàn vật liệu di truyền của sinh vật, bao gồm tất gen với trình tự ADN (Acid deoxyribonucleic) khơng mã hố [71] Mỗi hệ gen chứa tất thông tin cần thiết để tạo nên, trì sống sinh vật di truyền sang hệ sau Vi khuẩn sinh vật nhân sơ với cấu tạo nhân đơn giản chưa có màng nhân Vi khuẩn thường có nhiễm sắc thể, cấu tạo phân tử ADN xoắn kép dạng vịng Ngồi ra, vi khuẩn cịn có ADN ngồi nhiễm sắc thể plasmid transposon Nhiễm sắc thể ADN nhiễm sắc thể tạo nên hệ gen vi khuẩn [71] 1.1.2 Đặc điểm hệ gen vi khuẩn Kích thước hệ gen vi khuẩn thường nằm khoảng 1-8 Mbp (triệu cặp base) [55] Các gen chuỗi ADN vi khuẩn xếp chặt chẽ, mật độ gen cao, nên có mối tương quan kích thước hệ gen số lượng gen [25] Vi khuẩn thường có 1500 – 7500 gen hệ gen [71] Hệ gen vi khuẩn chứa gen mã hoá protein, gen mã hóa ARN (Acid ribonucleic) số trình tự điều hồ khơng phiên mã promoter [71] Các gen mã hố protein chiếm tới 80-90% trình tự ADN vi khuẩn [25] Các gen có độ dài trung bình khoảng 1000 bp (cặp base) khơng bị gián đoạn đoạn intron [71] 1.1.3 Sự đa dạng hệ gen vi khuẩn Các chủng vi khuẩn thuộc lồi khác thành phần gen hệ gen [45] Rasko cộng (2008) tiến hành phân tích hệ gen 17 chủng E coli [61] Kết cho thấy, trung bình chủng có 5020 gen, có khoảng 2200 gen có mặt tất chủng Tổng cộng có tới 13000 gen xuất 17 chủng E coli, phần lớn gen chưa xác định Số gen xuất lồi lớn nhiều lần số gen hệ gen đơn độc [11], từ giúp vi khuẩn tăng khả trao đổi chất thích nghi với môi trường sinh thái [59] Nguyên nhân dẫn tới đa dạng hệ gen vi khuẩn trình chuyển gen ngang (horizontal gene transfer) trình lặp gen (gene duplication) [37] Một gen lặp lại vị trí khác nhiễm sắc thể Gen lặp lại thường giống hệt gốc Nếu việc có nhiều gen khơng đem lại lợi ích chọn lọc, dư thừa nhanh chóng Trong trường hợp giữ lại, chúng tích luỹ đột biến hình thành chức [1], [37], [64] Chuyển gen ngang q trình truyền thơng tin di truyền từ cá thể sang cá thể khác thuộc loài, từ loài sang loài khác Chuyển gen ngang khác với chuyển gen theo chiều dọc từ bố mẹ cho Quá trình chuyển gen ngang bao gồm chế: biến nạp, tải nạp tiếp hợp Biến nạp trình tế bào tiếp nhận vật chất di truyền từ môi trường xung quanh Tải nạp trình ADN chuyển từ tế bào sang tế bào khác thông qua virus Tiếp hợp trình hai tế bào liên kết với tạm thời ADN chuyển trực tiếp từ tế bào sang tế bào khác [12] Chuyển gen ngang xảy phổ biến vi khuẩn, trình làm thay đổi hệ gen chúng [24] Mặc dù lặp gen chuyển gen ngang có vai trị quan trọng, chuyển gen ngang chứng minh nguyên nhân dẫn tới đa dạng hệ gen vi khuẩn [37] 1.2 Tập hợp hệ gen vi khuẩn 1.2.1 Các khái niệm Trình tự tồn hệ gen chủng không phản ánh hết đa dạng thành phần hệ gen loài [45] Một gen xuất chủng vi khuẩn không xuất chủng vi khuẩn khác Từ đó, người ta đặt khái niệm tập hợp hệ gen Tập hợp hệ gen (pan-genome) định nghĩa tập hợp tất gen thuộc nhóm sinh vật có mối quan hệ gần gũi với nhau, ví dụ: nhiều chủng, lồi, nhóm lồi… [45] Khái niệm tập hợp hệ gen lần đầu sử dụng Tettelin (2005) để mô tả tập hợp gen số chủng Streptococcus agalactiae [63] Hiện nay, khái niệm sử dụng rộng rãi nghiên cứu di truyền phân tử, phân loại vi khuẩn, chế kháng kháng sinh, dịch tễ học phân tử, phát triển vaccin, … [54] Tập hợp hệ gen bao gồm hệ gen cốt lõi (core genome), hệ gen phụ (accessory genome) gen đặc trưng cho chủng (strain-specific genes) Hệ gen cốt lõi bao gồm gen có mặt tất chủng phân tích Phần lớn gen có vai trị quan Kết phân tích chúng tơi 8968 mẫu S aureus cho thấy, S aureus có tỉ lệ hệ gen cốt lõi đạt mức 72%, kích thước tập hợp hệ gen nhỏ loài Kết tương đồng với phân tích Park cộng (2019) 6282 mẫu S aureus [27] Trong nghiên cứu này, S aureus có kích thước tập hợp hệ gen nhỏ tỉ lệ hệ gen cốt lõi chiếm tới 76% Kết nghiên cứu ủng hộ giả thuyết tác giả cho S aureus khó tiếp nhận trì gen Trong nghiên cứu 10197 hệ gen cho thấy, K pneumoniae có 3843 gen thuộc hệ gen cốt lõi Trong nghiên cứu trước đây, kích thước hệ gen cốt lõi dao động khoảng từ 3500 tới 4000 gen [39], [43], [46], [57] Tuy nhiên, tập hợp hệ gen từ nghiên cứu xây dựng lên từ số lượng mẫu tương đối nhỏ, 100 mẫu Trong nghiên cứu chúng tơi, kích thước tập hợp hệ gen K pneumoniae lớn, lên tới 156878 gen Nghiên cứu Wyres cộng (2019) K pneumoniae có hệ gen phong phú lồi có mức độ tái tổ hợp nhiễm sắc thể cao thường xuyên thu nhận plasmid phage [67] Kết nghiên cứu loài E coli, K pneumoniae S aureus có tập hợp hệ gen mở Kết đồng thuận với nhiều nghiên cứu trước [27], [45], [5], [67], [69] Các nghiên cứu áp dụng định luật Heaps, Tettelin cộng (2008) đề xuất, để dự đoán tập hợp hệ gen đóng hay mở [64] Khi số lượng hệ gen nhỏ, việc ước lượng khơng xác làm kết luận tính đóng mở tập hợp hệ gen không thống [27] Kết nghiên cứu chúng tơi có mức độ tin cậy cao nghiên cứu trước dựa kết phân tích với số lượng mẫu lớn từ trước tới 39 KẾT LUẬN - Nghiên cứu xây dựng Panta – cơng cụ để phân tích tập hợp hệ gen vi khuẩn Từ kết nghiên cứu, ta kết luận quy trình thêm mẫu thay việc phân tích lại liệu có thêm mẫu mới, Panta phân tích liệu lớn hàng chục ngàn mẫu sử dụng máy tính có cấu hình thơng thường - Chúng sử dụng công cụ Panta để xây dựng sở liệu trình tự gen loài vi khuẩn Klebsiella pneumoniae, Staphylococcus aureus Escherichia coli Những CSDL trình tự gen tạo từ phân tích tập hợp hệ gen sử dụng số lượng mẫu lớn từ trước tới KIẾN NGHỊ Trên sở kết thu được, xin đề xuất sau: - Tích hợp cơng cụ Panta liệu trình tự gen vào tảng phân tích liệu vi khuẩn trực tuyến AMRomics, để người dùng tiến hành phân tích tập hợp hệ gen hay khai thác sở liệu trình tự gen cách dễ dàng 40 TÀI LIỆU THAM KHẢO Tiếng Anh Altenhoff Adrian M., Glover Natasha M., et al (2019), "Inferring Orthology and Paralogy", Evolutionary Genomics: Statistical and Computational Methods, Anisimova Maria, Springer New York, New York, NY, pp 149-175 Aziz Ramy K., Bartels Daniela, et al (2008), "The RAST Server: Rapid Annotations using Subsystems Technology", BMC Genomics, 9(1), pp 75 Bayliss Sion C, Thorpe Harry A, et al (2019), "PIRATE: A fast and scalable pangenomics toolbox for clustering diverged orthologues in bacteria", GigaScience, 8(10), pp Bonnici Vincenzo, Giugno Rosalba, et al (2018), "PanDelos: a dictionary-based method for pan-genome content discovery", BMC Bioinformatics, 19(15), pp 437 Bosi E., Monk J M., et al (2016), "Comparative genome-scale modelling of Staphylococcus aureus strains identifies strain-specific metabolic capabilities linked to pathogenicity", Proc Natl Acad Sci U S A, 113(26), pp E3801-9 Buchfink Benjamin, Reuter Klaus, et al (2021), "Sensitive protein alignments at tree-of-life scale using DIAMOND", Nature Methods, 18(4), pp 366-368 Camacho Christiam, Coulouris George, et al (2009), "BLAST+: architecture and applications", BMC Bioinformatics, 10(1), pp 421 CDC (2019), "Antibiotic resistance threats in the United States, 2019", U.S Department of Health and Human Services, CDC, pp Chacón José E., Rastrojo Ana I (2022), "Minimum adjusted Rand index for two clusterings of a given size", Advances in Data Analysis and Classification, pp 10 Chen N C., Solomon B., et al (2021), "Reference flow: reducing reference bias using multiple population genomes", Genome Biol, 22(1), pp 11 Colquhoun Rachel M., Hall Michael B., et al (2021), "Pandora: nucleotideresolution bacterial pan-genomics with reference graphs", Genome Biology, 22(1), pp 267 12 Dale J.W., Park S.F (2010), Molecular Genetics of Bacteria, Wiley, pp 13 Delannoy S., Mariani-Kurkdjian P., et al (2017), "The Mobilome; A Major Contributor to Escherichia coli stx2-Positive O26:H11 Strains Intra-Serotype Diversity", Front Microbiol, 8, pp 1625 14 Fouts Derrick E., Brinkac Lauren, et al (2012), "PanOCT: automated clustering of orthologs using conserved gene neighborhood for pan-genomic analysis of bacterial strains and closely related species", Nucleic Acids Research, 40(22), pp e172-e172 15 Gabrielaite Migle, Marvig Rasmus L (2020), "GenAPI: a tool for gene absencepresence identification in fragmented bacterial genome sequences", BMC Bioinformatics, 21(1), pp 320 16 Gao Yan, Liu Yongzhuang, et al (2020), "abPOA: an SIMD-based C library for fast partial order alignment using adaptive band", Bioinformatics, 37(15), pp 2209-2211 17 Gurevich Alexey, Saveliev Vladislav, et al (2013), "QUAST: quality assessment tool for genome assemblies", Bioinformatics, 29(8), pp 1072-1075 18 Hisham Yasmin, Ashhab Yaqoub (2018), "Identification of Cross-Protective Potential Antigens against Pathogenic Brucella spp through Combining Pan- 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 Genome Analysis with Reverse Vaccinology", Journal of Immunology Research, 2018, pp 1474517 Hurgobin B., Edwards D (2017), "SNP Discovery Using a Pangenome: Has the Single Reference Approach Become Obsolete?", Biology (Basel), 6(1), pp Hyatt Doug, Chen Gwo-Liang, et al (2010), "Prodigal: prokaryotic gene recognition and translation initiation site identification", BMC Bioinformatics, 11(1), pp 119 Kavvas Erol S., Catoiu Edward, et al (2018), "Machine learning and structural analysis of Mycobacterium tuberculosis pan-genome identifies genetic signatures of antibiotic resistance", Nature Communications, 9(1), pp 4306 Lee Christopher, Grasso Catherine, et al (2002), "Multiple sequence alignment using partial order graphs", Bioinformatics, 18(3), pp 452-464 Mbelle N M., Feldman C., et al (2019), "The Resistome, Mobilome, Virulome and Phylogenomics of Multidrug-Resistant Escherichia coli Clinical Isolates from Pretoria, South Africa", Sci Rep, 9(1), pp 16457 McInerney James O., McNally Alan, et al (2017), "Why prokaryotes have pangenomes", Nature Microbiology, 2(4), pp 17040 Ochman H., Caro-Quintero A (2016), "Genome Size and Structure, Bacterial", Encyclopedia of Evolutionary Biology, pp 179-185 Page Andrew J., Cummins Carla A., et al (2015), "Roary: rapid large-scale prokaryote pan genome analysis", Bioinformatics, 31(22), pp 3691-3693 Park S C., Lee K., et al (2019), "Large-Scale Genomics Reveals the Genetic Characteristics of Seven Species and Importance of Phylogenetic Distance for Estimating Pan-Genome Size", Front Microbiol, 10, pp 834 Pruitt Kim D., Brown Garth R., et al (2013), Chapter 18 : The Reference Sequence ( RefSeq ) Database,pp Pruitt Kim D., Tatusova Tatiana, et al (2005), "NCBI Reference Sequence (RefSeq): a curated non-redundant sequence database of genomes, transcripts and proteins", Nucleic Acids Research, 33(suppl_1), pp D501-D504 Quinlan Aaron R., Hall Ira M (2010), "BEDTools: a flexible suite of utilities for comparing genomic features", Bioinformatics, 26(6), pp 841-842 Rand William M (1971), "Objective criteria for the evaluation of clustering methods", Journal of the American Statistical association, 66(336), pp 846-850 Schneeberger K., Hagmann J., et al (2009), "Simultaneous alignment of short reads against multiple genomes", Genome Biol, 10(9), pp R98 Seemann Torsten (2014), "Prokka: rapid prokaryotic genome annotation", Bioinformatics, 30(14), pp 2068-2069 Seif Yara, Kavvas Erol, et al (2018), "Genome-scale metabolic reconstructions of multiple Salmonella strains reveal serovar-specific metabolic traits", Nature Communications, 9(1), pp 3771 Tacconelli Evelina, Carrara Elena, et al (2018), "Discovery, research, and development of new antibiotics: the WHO priority list of antibiotic-resistant bacteria and tuberculosis", The Lancet Infectious Diseases, 18(3), pp 318-327 Tonkin-Hill Gerry, MacAlasdair Neil, et al (2020), "Producing polished prokaryotic pangenomes with the Panaroo pipeline", Genome Biology, 21(1), pp 180 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 Treangen Todd J., Rocha Eduardo P C (2011), "Horizontal Transfer, Not Duplication, Drives the Expansion of Protein Families in Prokaryotes", PLOS Genetics, 7(1), pp e1001284 Vernikos G S (2020), "A Review of Pangenome Tools and Recent Studies", The Pangenome: Diversity, Dynamics and Evolution of Genomes, Tettelin Hervé,Medini Duccio, Springer International Publishing, Cham, pp 89-112 Arabaghian H., Salloum T., et al (2019), "Molecular Characterization of Carbapenem Resistant Klebsiella pneumoniae and Klebsiella quasipneumoniae Isolated from Lebanon", Sci Rep, 9(1), pp 531 Caputo A., Fournier P E., et al (2019), "Genome and pan-genome analysis to classify emerging bacteria", Biol Direct, 14(1), pp Chambers H F., Deleo F R (2009), "Waves of resistance: Staphylococcus aureus in the antibiotic era", Nat Rev Microbiol, 7(9), pp 629-41 Chen S L., Hung C S., et al (2006), "Identification of genes subject to positive selection in uropathogenic strains of Escherichia coli: a comparative genomics approach", Proc Natl Acad Sci U S A, 103(15), pp 5977-82 Chung The Hao, Karkey Abhilasha, et al (2015), "A high-resolution genomic analysis of multidrug-resistant hospital outbreaks of Klebsiella pneumoniae", EMBO molecular medicine, 7(3), pp 227-239 Contreras-Moreira B., Vinuesa P (2013), "GET_HOMOLOGUES, a versatile software package for scalable and robust microbial pangenome analysis", Appl Environ Microbiol, 79(24), pp 7696-701 Costa S S., Guimarães L C., et al (2020), "First Steps in the Analysis of Prokaryotic Pan-Genomes", Bioinform Biol Insights, 14, pp 1177932220938064 Decano A G., Pettigrew K., et al (2021), "Pan-Resistome Characterization of Uropathogenic Escherichia coli and Klebsiella pneumoniae Strains Circulating in Uganda and Kenya, Isolated from 2017-2018", Antibiotics (Basel), 10(12), pp Ding Wei, Baumdicker Franz, et al (2018), "panX: pan-genome analysis and exploration", Nucleic acids research, 46(1), pp e5-e5 Domman D., Quilici M L., et al (2017), "Integrated view of Vibrio cholerae in the Americas", Science, 358(6364), pp 789-793 Doron S., Melamed S., et al (2018), "Systematic discovery of antiphage defense systems in the microbial pangenome", Science, 359(6379), pp Enright A J., Van Dongen S., et al (2002), "An efficient algorithm for largescale detection of protein families", Nucleic Acids Res, 30(7), pp 1575-84 Fu L., Niu B., et al (2012), "CD-HIT: accelerated for clustering the nextgeneration sequencing data", Bioinformatics, 28(23), pp 3150-2 Harris S R., Feil E J., et al (2010), "Evolution of MRSA during hospital transmission and intercontinental spread", Science, 327(5964), pp 469-74 Holt K E., Baker S., et al (2012), "Shigella sonnei genome sequencing and phylogenetic analysis indicate recent global dissemination from Europe", Nat Genet, 44(9), pp 1056-9 Kim Y., Gu C., et al (2020), "Current status of pan-genome analysis for pathogenic bacteria", Curr Opin Biotechnol, 63, pp 54-62 Konstantinidis K T., Tiedje J M (2004), "Trends between gene content and genome size in prokaryotic species with larger genomes", Proc Natl Acad Sci U S A, 101(9), pp 3160-5 56 Laing Chad, Pegg Crystal, et al (2008), "Rapid determination of Escherichia coli O157:H7 lineage types and molecular subtypes by using comparative genomic fingerprinting", Applied and environmental microbiology, 74(21), pp 66066615 57 Lee A H Y., Porto W F., et al (2021), "Genomic insights into the diversity, virulence and resistance of Klebsiella pneumoniae extensively drug resistant clinical isolates", Microb Genom, 7(8), pp 58 Lee C (2003), "Generating consensus sequences from partial order multiple sequence alignment graphs", Bioinformatics, 19(8), pp 999-1008 59 Mira A., Martín-Cuadrado A B., et al (2010), "The bacterial pan-genome:a new paradigm in microbiology", Int Microbiol, 13(2), pp 45-57 60 Pizza M., Scarlato V., et al (2000), "Identification of vaccine candidates against serogroup B meningococcus by whole-genome sequencing", Science, 287(5459), pp 1816-20 61 Rasko D A., Rosovitz M J., et al (2008), "The pangenome structure of Escherichia coli: comparative genomic analysis of E coli commensal and pathogenic isolates", J Bacteriol, 190(20), pp 6881-93 62 Tatusova T., DiCuccio M., et al (2016), "NCBI prokaryotic genome annotation pipeline", Nucleic Acids Res, 44(14), pp 6614-24 63 Tettelin H., Masignani V., et al (2005), "Genome analysis of multiple pathogenic isolates of Streptococcus agalactiae: implications for the microbial "pangenome"", Proc Natl Acad Sci U S A, 102(39), pp 13950-5 64 Tettelin H., Riley D., et al (2008), "Comparative genomics: the bacterial pangenome", Curr Opin Microbiol, 11(5), pp 472-7 65 Trachana K., Larsson T A., et al (2011), "Orthology prediction methods: a quality assessment using curated protein families", Bioessays, 33(10), pp 76980 66 Valiente-Mullor Carlos, Beamud Beatriz, et al (2021), "One is not enough: On the effects of reference genome for the mapping and subsequent analyses of short-reads", PLoS computational biology, 17(1), pp e1008678-e1008678 67 Wyres K L., Wick R R., et al (2019), "Distinct evolutionary dynamics of horizontal gene transfer in drug resistant and virulent clones of Klebsiella pneumoniae", PLoS Genet, 15(4), pp e1008114 68 Zeng L., Wang D., et al (2017), "A Novel Pan-Genome Reverse Vaccinology Approach Employing a Negative-Selection Strategy for Screening SurfaceExposed Antigens against leptospirosis", Front Microbiol, 8, pp 396 69 Zhao J., Liu C., et al (2020), "Genomic characteristics of clinically important ST11 Klebsiella pneumoniae strains worldwide", J Glob Antimicrob Resist, 22, pp 519-526 70 Zhao Y., Wu J., et al (2012), "PGAP: pan-genomes analysis pipeline", Bioinformatics, 28(3), pp 416-8 71 Urry Lisa A Cain Michael L Wasserman Steven Alexander Minorsky Peter V Reece Jane B Campbell Neil A (2017), Campbell biology, pp Trang web 72 Ensembl Bacteria (24/6/2022), https://bacteria.ensembl.org/ 73 GNU operating system (24/6/2022), http://www.gnu.org 74 Microbial Genomes (24/6/2022), https://www.ncbi.nlm.nih.gov/genome/microbes/ 75 Python (24/6/2022), http://www.python.org PHỤ LỤC PHỤ LỤC 1: MÔ TẢ CÁCH HOẠT ĐỘNG CỦA CÔNG CỤ PANTA Xử lý liệu đầu vào Dữ liệu đầu vào Panta thích hệ gen (dưới định dạng GFF) sản phẩm lắp ráp hệ gen (dưới định dạng FASTA) a Trích xuất trình tự gen Nếu liệu đầu vào thích hệ gen, đầu tiên, trình tự nucleotid gen trích xuất sử dụng cơng cụ Bedtools Sau đó, trình tự mã hố dịch mã sang trình tự protein Các thơng tin thích cho gen tên gen sản phẩm trích xuất Sản phẩm lắp ráp hệ gen không chứa thông tin gen, nên bước quy trình phân tích dự đốn trình tự mã hố protein mẫu Việc dự đoán thực cơng cụ Prodigal b Lọc trình tự Các trình tự lọc để loại bỏ gen chất lượng Cụ thể, trình tự có chiều dài nhỏ 120 nucleotid, thiếu ba mở đầu ba kết thúc bị loại Những trình tự có nhiều 5% số lượng acid amin không xác định bị loại bỏ Quy trình thơng thường a Phân cụm lần Trong gen thu được, có nhiều gen trùng lặp (giống chiều dài trình tự acid amin) Vì vậy, để tiết kiệm thời gian, trình tự trùng lặp gom lại thành cụm Mỗi cụm sau chọn trình tự dài làm đại diện trình tự đại diện tham gia vào bước phân cụm Bước phân cụm lần thực công cụ CD-HIT Các cụm tạo từ CDHIT có đặc điểm: trình tự cụm có chiều dài khơng nhỏ 98% chiều dài trình tự đại diện, trình tự cụm phải giống trình tự đại diện khơng 98% b Phân cụm lần Do có gen khơng hồn chỉnh, nên trình tự gen có chiều dài khác Vì vậy, phân cụm lần chưa đủ Những trình tự đại diện so sánh với sử dụng cơng cụ BLASTP để tìm kiếm cặp trình tự tương đồng Về mặt sinh học tiến hố, hai trình tự gọi tương đồng chúng có nguồn gốc từ gen cổ xưa, hay nói cách khác gen Cịn mặt tin sinh học, hai trình tự coi tương đồng chúng giống mặt trình tự Sau có cặp trình tự tương đồng, để đưa trình tự tương đồng với cụm, ta sử dụng công cụ MCL Các cụm tạo từ MCL bao gồm trình tự đại diện cụm lần Vì vậy, bước tiếp theo, trình tự loại lần phân cụm thứ mang quay trở lại vào cụm tương ứng để thu cụm gen đầy đủ cuối Để cho đơn giản, thuật ngữ “gen” dùng để “cụm trình tự” Gióng hàng nhiều trình tự cụm gen Gióng hàng nhiều trình tự cho cụm gen tiến hành sử dụng công cụ abPOA Một trình tự thống (consensus sequence) tạo từ gióng hàng nhiều trình tự cụm gen Trình tự thống trình tự đại diện cho cụm gen Quy trình thêm mẫu Nguyên tắc: Các trình tự so sánh với trình tự đại diện cum gen trước để xác định cụm gen chúng thuộc Nếu khơng thuộc cụm gen nào, trình tự cịn lại phân cụm theo quy trình thơng thường a Ghép cặp lần Có nhiều trình tự giống trình tự đại diện chiều dài trình tự acid amin Trình tự ghép cặp với trình tự đại diện giống với sử dụng cơng cụ CD-HIT-2D Các trình tự ghép cặp thêm vào cụm gen trình tự đại diện tương ứng Sẽ có lượng trình tự khơng ghép với trình tự đại diện Chúng gen khơng hoàn chỉnh, nên khác biệt chiều dài, gen hoàn toàn b Ghép cặp lần Trong trình tự cịn lại sau ghép cặp lần 1, có nhiều trình tự trùng lặp Nên để tiết kiệm thời gian, trình tự đại diện chọn từ trình tự trùng lặp cơng cụ CD-HIT Các trình tự đại diện so sánh với trình tự đại diện cụm gen cũ công cụ BLASTP Chúng bắt cặp với trình tự tương đồng số trình tự đại diện cũ b Phân cụm Sau bước ghép cặp, trình tự cịn lại trình tự hồn tồn mới, khơng thuộc cụm gen có sẵn Các trình tự phân thành cụm sử dụng BLASTP MCL quy trình thơng thường Các cụm gen gộp với cụm gen cũ để thu kết cuối Chú thích cụm gen Cách thích cụm gen khác phù thuộc vào loại liệu đầu vào Khi liệu đầu vào thích hệ gen, tên sản phẩm cụm gen lấy theo tên sản phẩm phổ biến gen cụm Khi liệu đầu vào sản phẩm lắp ráp hệ gen, bước quy trình phân tích dự đốn gen Tuy nhiên, q trình dự đốn gen cho ta thơng tin vị trí, trình tự khơng cung cấp thơng tin tên gen hay sản phẩm tương ứng Vì vậy, ta cần tự thích cụm gen Nguyên tắc thích cụm gen là: thơng tin cụm gen thích theo trình tự đại diện cụm gen Trình tự đại diện tìm kiếm qua sở liệu chứa trình tự biết Thơng tin thích gán theo trình tự tương đồng tìm thấy CSDL Cách thức tìm kiếm CSDL lấy từ Prokka 2000 2000 1600 1600 1200 800 Bộ nhớ (MB) Thời gian (s) PHỤ LỤC 2: CÁC BIỂU ĐỒ BỔ SUNG 1200 800 400 400 0 Hình S1 Thời gian nhớ sử dụng phân tích liệu Pa100 Panta, Roary, PIRATE Panaroo 4000 1600 2400 1600 800 1200 Bộ nhớ (MB) Thời gian (s) 3200 800 400 Hình S2: Thời gian nhớ sử dụng phân tích liệu Kp100 Panta, Roary, PIRATE Panaroo 20000 Số lượng gen (gen) Hệ gen cốt lõi 17248 17125 Tập hợp hệ gen 16000 14821 14323 12649 12000 8000 5347 5324 5253 5242 5299 4000 Panta Roary PIRATE Panaroo PanX Hình S3: So sánh kích thước hệ gen cốt lõi tập hợp hệ gen công cụ phân tích liệu Pa100 25000 Hệ gen cốt lõi 21667 21309 Số lượng gen (gen) Tập hợp hệ gen 20000 18322 15106 15000 10000 5000 3962 3945 4049 4155 Panta Roary PIRATE Panaroo Hình S4: So sánh kích thước hệ gen cốt lõi tập hợp hệ gen cơng cụ phân tích liệu Kp100 0.98 0.96 0.94 0.92 0.9 Hình S5: So sánh kết phân cụm trình tự công cụ liệu Pa100 Rand Index hiệu chỉnh Rand Index hiệu chỉnh 0.98 0.96 0.94 0.92 0.9 Panta Roary Panta - Panta - Roary - Roary - Panaroo Panaroo PIRATE Panaroo PIRATE PIRATE Hình S6: So sánh kết phân cụm trình tự công cụ liệu Kp100 200 Thời gian phân tích liệu 160 Thêm mẫu Thời gian (s) Phân tích ban đầu 120 80 40 2/98 25/75 50/50 75/25 99/1 Số mẫu ban đầu / số mẫu thêm Hình S7: Đánh giá thời gian thêm mẫu liệu Sp100 1000 Thời gian phân tích liệu 800 Thêm mẫu Thời gian (s) Phân tích ban đầu 600 400 200 2/98 25/75 50/50 75/25 99/1 Số mẫu ban đầu / số mẫu thêm Hình S8: Đánh giá thời gian thêm mẫu liệu Pa100 2/98 25/75 50/50 75/25 99/1 Rand Index hiệu chỉnh 0.99 0.98 0.97 0.96 0.95 Panta Roary Panaroo PIRATE PanX Hình S9: So sánh kết phân cụm trình tự quy trình thêm mẫu Panta với quy trình thơng thường đánh giá liệu Pa100 2/98 25/75 50/50 75/25 99/1 Rand Index hiệu chỉnh 0.98 0.96 0.94 0.92 0.9 Panta Roary Panaroo PIRATE Hình S10: So sánh kết phân cụm trình tự quy trình thêm mẫu Panta với quy trình thơng thường đánh giá liệu Kp100 BỘ Y TẾ TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI NGUYỄN TIẾN ANH PHÁT TRIỂN CÔNG CỤ TIN SINH HỌC ĐỂ PHÂN TÍCH TẬP HỢP HỆ GEN CỦA VI KHUẨN KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ HÀ NỘI – 2022 ... 1.2.2 Phân loại tập hợp hệ gen vi khuẩn Tập hợp hệ gen phân loại thành tập hợp hệ gen đóng tập hợp hệ gen mở dựa vào khả xuất gen chủng thêm vào phân tích Với tập hợp hệ gen mở, số lượng gen tiếp... 1.6 Tổng quan cơng cụ phân tích tập hợp hệ gen vi khuẩn 1.6.1 Các cơng cụ phân tích tập hợp hệ gen vi khuẩn Với phát triển công nghệ giải trình tự gen hệ mới, số lượng mẫu vi khuẩn giải trình tự... ráp hệ gen [17] Prokka 1.14.6 Chú thích hệ gen vi khuẩn [33] Roary 3.13.0 Công cụ phân tích tập hợp hệ gen [26] PIRATE 1.0.4 Cơng cụ phân tích tập hợp hệ gen [3] PanX 1.6.0 Cơng cụ phân tích tập

Ngày đăng: 19/08/2022, 00:29

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w