1. Trang chủ
  2. » Tất cả

Phân loại trình tự metagenomics trên nền tảng điện toán đám mây

80 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 80
Dung lượng 5,5 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ PHẠM THANH TÙNG PHÂN LOẠI TRÌNH TỰ METAGENOMICS TRÊN NỀN TẢNG ĐIỆNTOÁN ĐÁM MÂY NGÀNH: KHOA HỌC MÁY TÍNH Tp Hồ Chí Minh, tháng 11/2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ PHẠM THANH TÙNG PHÂN LOẠI TRÌNH TỰ METAGENOMICS TRÊN NỀN TẢNG ĐIỆN TỐN ĐÁM MÂY NGÀNH: KHOA HỌC MÁY TÍNH - 8480101 Hướng dẫn khoa học: TS LÊ VĂN VINH Tp Hồ Chí Minh, tháng 10/2022 LÝ LỊCH KHOA HỌC I LÝ LỊCH SƠ LƯỢC: Họ & tên: PHẠM THANH TÙNG Giới tính: Nam Ngày, tháng, năm sinh: 10/08/1996 Nơi sinh: Bến Tre Quê quán: Phước Ngãi, Ba Tri, Bến Tre Dân tộc: Kinh Chỗ riêng địa liên lạc: 03, Hồng Đức, Bình Thọ, Tp Thủ Đức, Tp Hồ Chí Minh Điện thoại quan: Điện thoại nhà riêng: 0358606425 Fax: E-mail: 2081310@student.hcmute.edu.vn II QUÁ TRÌNH ĐÀO TẠO: Đại học: Hệ đào tạo: Chính quy Thời gian đào tạo từ 09/2014 đến 01/2020 Nơi học (trường, thành phố): Đại học Sư phạm Kỹ thuật Tp Hồ Chí Minh, Tp Thủ Đức, Tp Hồ Chí Minh Ngành học: Cơng nghệ Kỹ thuật Máy tính Tên đồ án, luận án môn thi tốt nghiệp: Thiết bị theo dõi thông số sức khỏe bệnh nhân Ngày & nơi bảo vệ đồ án, luận án thi tốt nghiệp: ngày 12/01/2019, mơn Kỹ thuật Máy tính - Viễn thông, khoa Điện - Điện tử, trường Đại học Sư phạm Kỹ thuật Tp Hồ Chí Minh Người hướng dẫn: ThS Trương Quang Phúc III Q TRÌNH CƠNG TÁC CHUYÊN MÔN KỂ TỪ KHI TỐT NGHIỆP ĐẠI HỌC: Thời gian Nơi công tác Công việc đảm nhiệm i TÀI LIỆU THAM KHẢO [1] J.A Garrido-Cardenas and F Manzano-Agugliaro, "The metagenomics worldwide research," Current Genetics, vol 63, no 5, p 819–829, 2017 [2] I Laudadio, V Fulci, L Stronati and C Carissimi, "Next-Generation Metagenomics: Methodological Challenges and Opportunities," OMICS: A Journal of Integrative Biology, vol 23, no 7, 2019 [3] A Bodor, N Bounedjoum, G.E Vincze, G Rákhely, "Challenges of unculturable bacteria: environmental perspectives," Reviews in Environmental Science and Bio/Technology, vol 19, no 1, pp 1-22, 2020 [4] T Thomas, J Gilbert and F Meyer, "Metagenomics - a guide from sampling to data analysis," Microbial Informatics and Experimentation, vol 2, no 1, 2012 [5] L Shi, X Meng, E Tseng, M Mascagni and Z Wang, "SpaRC: scalable sequence clustering using Apache Spark," Bioinformatics, vol 35, no 5, p 760–768, 2018 [6] L.V Vinh, T.V Lang, L.T Binh and T.V Hoai, "A two-phase binning algorithm using l-mer frequency on groups of non-overlapping reads," Algorithms for Molecular Biology, vol 10, no 1, 2015 [7] B Alberts, A Johnson, J Lewis, P Walter, Molecular Biology of the Cell, 6th ed., New York: Garland Science, 2014 [8] M.A Ruggiero, D.P Gordon, T.M Orrell, P.M Kirk, "A Higher Level Classification of All Living Organisms," PLOS ONE, vol 10, no 4, 2015 [9] I Brigandt, "Homology in comparative, molecular, and evolutionary developmental biology: The radiation of a concept," Journal of Experimental Zoology, vol 299B, no 1, pp 9-17, 2003 45 [10] F Yu, Y Sun, L Liu and W Farmerie, "GSTaxClassifier: a genomic signature based taxonomic classifier for metagenomic data analysis," Bioinformation, vol 4, no 1, pp 46-49, 2009 [11] Y.W Wu and Y Ye, "A Novel Abundance-Based Algorithm for Binning Metagenomic Sequences Using l-tuples," Journal of Computational Biology, vol 18, no 3, 2011 [12] Y Fofanov, Y Luo, C Katili, B.M Pettitt, "How independent are the appearances of n-mers in different genomes?," Bioinformatics, vol 20, no 15, p 2421–2428, 2004 [13] B Yang, Y Peng, H.C.M Leung, F.Y.L Chin, "MetaCluster: unsupervised binning of environmental genomic fragments and taxonomic annotation," in Proceedings of the First ACM International Conference on Bioinformatics and Computational Biology - BCB'10, 2010 [14] S Kurgalin and S Borzunov, A Practical Approach to High-Performance Computing, 1st ed., Cham: Springer Nature Switzerland AG, 2019 [15] R Guo, Y Zhao, Q Zou, X Fang and S Peng, "Bioinformatics applications on Apache Spark," GigaScience, vol 7, no 8, 2018 [16] H Karau and R Warren, High Performance Spark: Best Practices for Scaling and Optimizing Apache Spark, 1st ed., Sebastopol: O'Reilly Media, 2017 [17] "Cluster Mode Overview," [Online] Available: https://spark.apache.org/docs/3.2.1/cluster-overview.html [Accessed 10 June 2021] [18] D.L Eager, J Zahorjan and E.D Lazowska, "Speedup versus efficiency in parallel systems," IEEE Transactions on Computers, vol 38, no 3, pp 408423, 1989 46 [19] L Bragg and G.W Tyson, "Metagenomics Using Next-Generation Sequencing," in Environmental Microbiology: Methods in Molecular Biology, vol 1096, Humana Press, Totowa, NJ, 2014, pp 183-201 [20] D.H Huson, S Beier, I Flade, R Tappu, "MEGAN Community Edition Interactive Exploration and Analysis of Large-Scale Microbiome Sequencing Data," PLoS Computational Biology, vol 12, no 6, 2016 [21] D.H Huson, B Albrecht, C Bağcı, R.B.H Williams, "MEGAN-LR: new algorithms allow accurate binning and easy interactive exploration of metagenomic long reads and contigs," Biology Direct, vol 13, no 1, 2018 [22] D.E Wood, J Lu and B Langmead, "Improved metagenomic analysis with Kraken 2," Genome Biology, vol 20, no 1, 2019 [23] R Ounit, S Wanamaker, T.J Close and S Lonardi, "CLARK: fast and accurate classification of metagenomic and genomic sequences using discriminative kmers," BMC Genomics, vol 16, no 1, 2015 [24] B Buchfink, C Xie and D.H Huson, "Fast and sensitive protein alignment using DIAMOND," Nature Methods, vol 12, no 1, pp 59-60, 2015 [25] S.M Kiełbasa, R Wan, K Sato, P Horton and M.C Frith, "Adaptive seeds tame genomic sequence comparison," Genome Research, vol 21, no 3, pp 487-493, 2011 [26] N.N Diaz, L Krause, A Goesmann, K Niehaus and T.W Nattkemper, "TACOA – Taxonomic classification of environmental genomic fragments using a kernelized nearest neighbor approach," BMC Bioinformatics, vol 10, no 1, p 56, 2009 [27] Q Liang, P.W Bible, Y Liu, B Zou and L Wei, "DeepMicrobes: taxonomic classification for metagenomics with deep learning," NAR Genomics and Bioinformatics, vol 2, no 1, 2020 47 [28] Y Wang, H.C.M Leung, S.M Yiu and F.Y.L Chin, "MetaCluster 5.0: a tworound binning approach for metagenomic data for low-abundance species in a noisy sample," Bioinformatics, vol 28, no 18, p i356–i362, 2012 [29] S Girotto, C Pizzi and M Comin, "MetaProb: accurate metagenomic reads binning based on probabilistic sequence signatures," Bioinformatics, vol 32, no 17, p i567–i575, 2016 [30] B Schmidt and A Hildebrandt, "Next-generation sequencing: big data meets high performance computing," Drug Discovery Today, vol 22, no 4, pp 712717, 2017 [31] H Hussain, S.U.R Malik, A Hameed, A Rayes, "A survey on resource allocation in high performance distributed," Parallel Computing, vol 39, no 11, pp 709-736, 2013 [32] W Zhou, R Li, S Yuan, B Niu, "MetaSpark: a spark-based distributed processing tool to recruit metagenomic reads to reference genomes," Bioinformatics, vol 33, no 7, p 1090–1092, 2017 [33] M Klein, R Sharma, C Bohrer, C Avelis and E Roberts, "Biospark: scalable analysis of large numerical datasets from biological simulations and experiments using Hadoop and Spark," Bioinformatics, vol 33, no 2, p 303– 305, 2016 [34] H Vu, L.V Vinh, T.V Hoai, T.V Lang and H.Q Bao, "Parallel algorithm for the unsupervised binning of metagenomic sequences," in ICMLSC'21: 2021 The 5th International Conference on Machine Learning and Soft Computing, 2021 [35] "Tuning Spark," [Online] Available: https://spark.apache.org/docs/3.2.1/tuning.html [Accessed 15 June 2021] [36] "Spark Configuration," [Online] Available: https://spark.apache.org/docs/3.2.1/configuration.html [Accessed 15 June 2021] 48 [37] Z Wang, A Xu, Z Zhang, C Wang, A Liu and X Hu, "The Parallelization and Optimization of K-means Algorithm Based on Spark," in 2020 15th International Conference on Computer Science & Education (ICCSE), 2020 49 THUẬT TOÁN SONG SONG CHO PHÂN LOẠI TRÌNH TỰ METAGENOMIC SỬ DỤNG APACHE SPARK PARALLEL ALGORITHM FOR CLASSIFICATION OF METAGENOMIC SEQUENCES USING APACHE SPARK Pham Thanh Tung1, Le Van Vinh2 Trường đại học Sư phạm Kỹ thuật TP.HCM Trường đại học Sư phạm Kỹ thuật TP.HCM TÓM TẮT Hiện nay, nhiều thuật toán đề xuất cho toán phân loại trình tự metagenomic (có giám sát khơng có giám sát), hiệu không đạt hiệu liệu lớn Do vậy, việc ứng dụng tính toán hiệu cao metagenomics việc cấp thiết để nâng cao hiệu suất xử lý liệu phát triển công nghệ sau Nghiên cứu mơ tả ứng dụng tính tốn phân tán với cơng cụ Apache Spark cho thuật tốn có sẵn – BiMeta, thuật tốn phân loại trình tự sử dụng tần số k-mer nhóm trình tự khơng gối đầu Kết thực nghiệm cho thấy ứng dụng dựa Apache Spark đạt hiệu tốc độ xử lý tăng đáng kể so với BiMeta Đặc biệt, trường hợp phân loại trình tự ngắn cho thấy tăng số lượng trình tự tốc độ xử lý (hệ số tăng tốc) tăng theo Từ khóa: metagenomics; phân loại trình tự; tính tốn hiệu cao; tính tốn phân tán; Apache Spark ABSTRACT Currently, many algorithms have been proposed for metagenomic sequence classification (supervised or unsupervised), but their performance is not good for big data Therefore, the application of high-performance computing in metagenomics is urgent to improve data processing efficiency as well as develop future technologies This study describes a distributed computing application with Apache Spark tool for the available algorithm – BiMeta, which is a sequence classification algorithm using k-mer frequency on groups of non-overlapping sequences Experimental results show that the program based on Apache Spark achieves high efficiency when the processing speed increases significantly compared to BiMeta In particular, the case of short read classification shows that as the number of sequences increases, the processing speed (speedup) increases accordingly Keywords: metagenomics; sequence classification; high-performance computing; distributed computing; Apache Spark GIỚI THIỆU Vi sinh vật (microorganism hay microbe) chiếm vị trí quan trọng sinh giới Ba nhóm sinh giới gồm vi khuẩn (Bacteria), sinh vật nhân thực nhân chuẩn (Eukaryota) cổ khuẩn (Archaea); chiếm số lượng lớn đa dạng di truyền vi khuẩn, chúng có mặt biển sâu, sa mạc mơi trường có độ cao vi sinh vật khác [1] Mặc dù đa dạng vi sinh vật phong phú, 99% số loài chưa tìm thấy phần nhỏ nuôi cấy [2] Do mà metagenomics đời, ngành nghiên cứu cộng đồng vi sinh vật không dùng phương pháp nuôi cấy truyền thống – ni cấy trong phịng thí nghiệm Trong metagenomics, phân loại trình tự tốn quan trọng, phân chia phát sinh chủng loài phân loại sinh học theo nhóm vi sinh vật có liên quan chặt chẽ [3] Kết toán loài vi sinh vật biết có mẫu thực nghiệm phát loài vi sinh vật chưa biết tới Bài tốn phân loại trình tự metagenomic chia theo hai hướng tiếp cận: hướng theo phương pháp có giám sát hướng theo phương pháp không giám sát Với hướng tiếp cận theo phương pháp có giám sát, phương pháp sử dụng sở liệu tham chiếu để phân loại trình tự theo giống nhau, tương đồng theo đặc trưng hợp thành [4] Các nghiên cứu dựa tương đồng có MEGAN CE [5], MEGANLR [6], Kraken [7] CLARK [8] MEGAN CE thực tìm kiếm tương đồng với công cụ DIAMOND [9] MEGAN-LR với công cụ LAST [10] Còn Kraken CLARK sử dụng phương pháp trích xuất k-mer từ trình tự để so sánh tương đồng Đối với hướng dựa tính hợp thành, hướng tiếp cận sử dụng phương thức rút trích dấu hiệu hệ gen từ sở liệu tham khảo cho việc phân loại, hướng có nghiên cứu TACOA [11] DeepMicrobes [12] TACOA đưa đề xuất sử dụng KNN (kNearest Neighbour), cịn DeepMicrobes sử dụng khung tính tốn dựa học sâu cho phân loại đơn vị phân loại Khác với phương pháp có giám sát, hướng tiếp cận theo phương pháp khơng giám sát khơng có sở liệu tham khảo mà sử dụng tập liệu phân tích (tập chứa trình tự) qua việc rút trích đặc trưng trình tự gen hàm lượng GC, độ phủ, khả mã, tần số xuất oligonucleotid, dấu hiệu trình tự theo chu kỳ [4], hướng tiếp cận quy tốn gom cụm Tùy vào loại thơng tin rút trích từ tập liệu phân tích phương pháp xử lý thông tin thu mà hình thành hướng nghiên cứu cụ thể Như dựa độ phong phú khác loài mơi trường có AbundanceBin [13], phân loại trình tự ngắn (khoảng 75 bp) MetaCluster 5.0 [14] đề xuất phương pháp phân loại hai vòng, để xác định lồi có độ phong phú cao thấp điều kiện mơi trường có độ nhiễu cực lớn (các lồi có độ phong phú cực thấp) Sử dụng thơng tin gối đầu trình tự tần số xuất k-mer rút trích từ trình tự gom nhóm q trình gom cụm, có MetaProb [15] BiMeta [16] tương tự Nhưng pha gom cụm, BiMeta sử dụng khoảng cách Euclid để tính khoảng cách điểm (ở trình tự gen), cịn MetaProb cải tiến từ BiMeta với việc sử dụng dấu hiệu trình tự xác suất Trong thực tế, việc giải trình tự metagenomic tạo lượng lớn liệu, gây khó khăn việc phân tích liệu lớn Để khắc phục hạn chế cần phải ứng dụng tính tốn hiệu cao vào toán metagenomics Các hệ thống tính tốn hiệu cao dựa tảng tài nguyên hoạt động (đám mây, cụm CPU, GPU FPGA) [17] dựa mơ hình kiến trúc (cụm, lưới đám mây) [18] Một số nguyên cứu áp dụng tính tốn hiệu cao SpaRC [19], MetaSpark [20], Biospark [21] BiMetaPL [22] BiMetaPL sử dụng mơ hình kiến trúc cụm hệ thống đa xử lý nhớ dùng chung với kỹ thuật MPI (Message Passing Interface) OpenMP [23] Còn SpaRC, MetaSpark Biospark sử dụng cơng cụ tính tốn phân tán Apache Spark Trong nghiên cứu này, ứng dụng sử dụng tính tốn phân tán cơng cụ Apache Spark cho thuật tốn có sẵn – thuật tốn phân loại trình tự khơng có giám sát (hay cịn gọi gom cụm trình tự) BiMeta, gọi SpaBiMeta Trong phần báo, tác giả trình bày nội dung nghiên cứu, kết nghiên cứu kết luận nghiên cứu PHƯƠNG PHÁP 2.1 Tổng quan BiMeta thuật toán phân loại khơng giám sát, thực gom cụm trình tự metagenomic dựa dấu hiệu gen rút trích từ nhóm trình tự khơng gối đầu Thuật tốn sử dụng tập trình tự đại diện (được gọi seed) tập trình tự hệ gen để làm tăng chất lượng phân loại giảm chi phí tính tốn BiMeta gồm hai pha: Gom nhóm Gom cụm Đầu tiên, pha Gom nhóm, dựa thơng tin gối đầu trình tự để gom chúng thành nhóm Với nhóm, chọn tập trình tự đại diện tính vectơ tần số đặc trưng tập trình tự đại diện Ở pha Gom cụm, thuật toán phân cụm K-means sử dụng để gộp nhóm thành cụm dựa vectơ tần số đặc trưng nhóm pha Gom nhóm, cụm có hệ gen từ sinh vật có chủng lồi gần Hình 22 Quy trình thuật tốn song song SpaBiMeta Giai đoạn 1: Trích xuất trình tự Giai đoạn 2: Xử lý đồ thị gối đầu Giai đoạn 3: Gom nhóm trình tự Giai đoạn 4: Gom cụm nhóm Ứng dụng SpaBiMeta đề xuất nghiên cứu song song hoá thuật toán BiMeta sử dụng Apache Spark để tăng cao tốc độ xử lý so với thuật toán ban đầu Thuật toán ứng dụng chia thành bốn giai đoạn xử lý (Hình 1) Trong giai đoạn Trích xuất trình tự, phép tốn Spark sử dụng để trích xuất liệu thơ – liệu đọc từ tệp chứa tập trình tự Quy trình thực thi giai đoạn có bốn bước, liệu tạo sau bước có khung liệu (Hình 2) 2.2 Giai đoạn 1: Trích xuất trình tự Bước 1: Phân tích trình tự Dữ liệu thô phân giải theo khung liệu Hình (A), gọi SEQUENCE Hình 23 Các khung liệu giai đoạn Trích xuất trình tự SpaBiMeta Gồm SEQUENCE (A), Complete-READ (B), READ (C) KMER (D) Bước 2: Mã hố chuỗi trình tự gộp trình tự kép Mỗi chuỗi trình tự mã hố nhằm giảm độ lớn kích thước liệu truyền tải trình xử lý Trong nghiên cứu này, ứng dụng xử lý hai loại tập trình tự gen trình tự đơn trình tự kép Với trình tự đơn có chuỗi trình tự với loại trình tự “1”, cịn với trình tự kép gồm hai chuỗi trình tự ứng với hai loại trình tự “1” “2” Để thuận tiện cho thao tác xử lý kế tiếp, hai chuỗi trình tự trình tự kép cần gộp lại làm Sau cùng, trình tự gộp đánh số mục trình tự – làm đại diện cho trình tự Kết bước trình tự trích xuất hồn thiện với khung liệu Hình (B), gọi Complete-READ Bước 3: Trích xuất liệu cần thiết trình tự Trong giai đoạn xử lý tiếp theo, trình tự cần ba thành phần số mục, nhãn chuỗi trình tự mã hố ứng với khung liệu Hình (C), gọi READ Bước 4: Tạo k-mer từ chuỗi trình tự Chuỗi trình tự mã hố giải mã thành chuỗi kí tự ban đầu Các k-mer bước tạo tương tự với tạo k-mer tính vectơ tần số đặc trưng Thuật tốn – Thuật tốn tính vectơ tần số đặc trưng giai đoạn Gom nhóm trình tự Ứng với kmer tạo kèm với số mục trình tự Các số mục có kmer gom lại tạo thành danh sách số mục trình tự, tức danh sách trình tự gối đầu với Dữ liệu biểu diễn ứng với khung liệu Hình (D), gọi KMER 2.3 Giai đoạn 2: Xử lý đồ thị gối đầu Giai đoạn Xử lý đồ thị gối đầu gồm hai bước: Tạo dánh sách cạnh Xây dựng đồ thị gối đầu Quy trình xử lý liệu đồ thị gối đầu trình tự biểu diễn Hình Hình 24 Quy trình xử lý liệu đồ thị gối đầu trình tự phần liên thơng để khung liệu COMPONENT (Hình 4) Mỗi thành phần liên thơng chứa tên đại diện (phần Representative Name) thông tin đỉnh thành phần liên thơng (phần Information) Thông tin đỉnh lưu trữ số mục trình tự – số mục nhỏ (tên đại diện thành phần liên thơng), chuỗi trình tự mã hoá, danh sách đỉnh kề biến visited Với biến visited dùng để kiểm tra xem duyệt qua đỉnh hay chưa xử lý giai đoạn Gom nhóm trình tự 2.4 Giai đoạn 3: Gom nhóm trình tự Bước 1: Tạo danh sách cạnh Tạo danh sách cạnh cho đồ thị từ khung liệu KMER giai đoạn Trích xuất trình tự Lưu danh sách cạnh thành tệp chứa cặp cạnh Bước 2: Xây dựng đồ thị gối đầu Đồ thị gối đầu G = (V, E) có V danh sách đỉnh (cũng số mục trình tự từ khung liệu READ giai đoạn Trích xuất trình tự) E danh sách cạnh nạp từ tệp chứa danh sách cạnh Bước – Tạo danh sách cạnh Đầu tiên, tìm thành phần liên thơng đồ thị vơ hướng, thành phần tập hợp đỉnh liên thơng với nhau, tức tạo nhóm lớn trước đến giai đoạn Gom nhóm trình tự Sau tìm thành phần liên thơng, ứng với đỉnh gắn kèm tên đại diện thành phần liên thơng – đỉnh có số mục nhỏ Kế tiếp, tìm danh sách đỉnh kề đỉnh Cùng với Chuỗi trình tự mã hố trích xuất từ khung liệu READ giai đoạn Trích xuất trình tự, gộp với danh sách đỉnh kề tên đại diện thành Hình 25 Khung liệu COMPONENT Trong giai đoạn Xử lý đồ thị, kết đầu thành phần liên thông, thành phần tương đương đồ thị Áp dụng thuật toán pha toán BiMeta cho đồ thị Đầu tiên gom nhóm trình tự, với nhóm gồm hai tập tập đại diện (seed) tập trình tự cịn lại (non-seed) Mỗi nhóm định danh, sau lọc bỏ nhóm có tổng số lượng phần tử (trình tự) thấp (nhỏ 5) [22] Tiếp theo, tính vectơ tần số đặc trưng cho tập đại diện nhóm dựa mã giả Thuật tốn – Thuật tốn tính vectơ tần số đặc trưng Kết cuối giai đoạn danh sách tên định danh nhóm với vectơ tần số phân bố k-mers ứng với nhóm Thuật tốn Thuật tốn tính vectơ tận số đậc trưng Input: Tập đậi diện S(Gi) nhóm Gi , i ∈ {1, , p} Output: Vectơ tận số đậc trưng f S(Gi) 1: l  2: contigSize  3: Tậo vectơ – không freqVector 4: seed  S(Gi) 5: repeat 6: Chốn ngậu nhiên trình tư r ∈ seed 7: seed  seed \ {r} 8: for each chuối trình tư s in r 9: kmers  Hàm_Tậo_Kmers(s, l) // Tậo tập l-mer tư chuối trình tư s 10: revKmers  Hàm_Đậo_Kmers(kmers) // Đậo l-mer kmers 11: freqVector  Tăng đơn vị cho mối phận tư vectơ freqVector mối xuật lmer tập kmers revKmers trùng vơi phận tư vectơ freqVector 12: contigSize  contigSize + | kmers | 13: end for 14: until seed = ∅ 15: f S(Gi)  freqVector / contigSize 2.5 Giai đoạn 4: Gom cụm nhóm Trong giai đoạn Gom cụm nhóm, thuật tốn phân cụm K–means áp dụng thơng qua tính tốn song song cung cấp Spark Danh sách vectơ tần số đặc trưng trích xuất từ kết giai đoạn Gom nhóm trình tự, vectơ tương ứng với điểm thuật toán, với số cụm k phần khai báo tham số đầu vào số lần lập tối đa sử dụng thuật toán 100 Kết giai đoạn ứng với nhóm dán nhãn dự đốn có tên định danh cụm từ đến k - 1, nhóm bị lọc bỏ giai đoạn Gom nhóm trình tự dán nhãn với tên định danh -1 KẾT QUẢ 3.1 Đánh giá hiệu Trong nghiên cứu này, tác giả sử dụng hệ số tăng tốc (speedup) để đánh giá kết thời gian hệ thống song song Hệ số tăng tốc S(n) định nghĩa cho n xử lý tỷ số thời gian thực thi chương trình xử lý 𝑇1 (thời gian thực thi xử lý đơn thời gian thực thi tuần tự) so với thời gian thực thi n xử lý 𝑇𝑛 (thời gian thực thi song song) Hệ số biển diễn công thức (1) 𝑆(𝑛) = 𝑇1 𝑇𝑛 (1) Các số đánh giá hiệu suất sử dụng nghiên cứu gồm có độ xác (precision), độ nhạy (recall sensitivity) độ đo F–measure (hoặc F1 Score) Gọi m số loài tập liệu phân tích, k số cụm trả sau thuật toán gom cụm 𝐴𝑖𝑗 số lượng trình tự từ lồi j gán cho cụm i [16] Độ xác precision cho thấy tỉ lệ trình tự dự đốn cụm thuộc lồi, biểu diễn theo cơng thức (2) Độ nhạy recall cho thấy tỉ lệ trình tự loài gán cụm, biểu diễn theo cơng thức (3), với |𝐷| tổng số trình tự chưa gán (không phân loại) 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑟𝑒𝑐𝑎𝑙𝑙 = ∑𝑘𝑖=1 𝑚𝑎𝑥𝑗 𝐴𝑖𝑗 ∑𝑘𝑖=1 ∑𝑚 𝑗=1 𝐴𝑖𝑗 ∑𝑚 𝑗=1 𝑚𝑎𝑥𝑖 𝐴𝑖𝑗 ∑𝑘𝑖=1 ∑𝑚 𝑗=1 𝐴𝑖𝑗 + |𝐷| (2) (3) Hai số đánh giá độ xác độ nhạy cần xem xét với số không phản ánh hiệu suất thuật toán, nên số độ đo F–measure sử dụng để đánh giá toàn diện Chỉ số tính cơng thức (4), F–measure cao hiệu suất tốt 𝐹 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 = 1 + 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑟𝑒𝑐𝑎𝑙𝑙 (4) 3.2 Môi trường thực nghiệm Cả BiMeta SpaBiMeta thực thi máy chủ với cấu hình sau: vi xử lý Intel(R) Xeon(R) Silver 4216 CPU @ 2.10GHz, có 64 CPU; nhớ RAM khoảng 503 GB Ứng dụng SpaBiMeta nghiên cứu sử dụng khung làm việc Apache Spark dùng ngôn ngữ Scala để viết mã ứng với phiên tương thích sau: Apache Spark phiên 3.2.1, Apache Hadoop phiên 2.7, Java phiên 1.8.0 Scala phiên 2.12.10 SpaBiMeta sử dụng thư viện GraphFrames phiên 0.8.2, tương thích với phiên Apache Spark Scala SpaBiMeta triển khai chế độ cục Apache Spark 3.3 Tập liệu Nghiên cứu sử dụng tập liệu mô sử dụng BiMeta để thực nghiệm, so sánh đánh giá kết Các tập liệu tạo dựa gen vi khuẩn tải từ sở liệu Trung tâm Thông tin Công nghệ sinh học Quốc gia Mỹ (NCBI) [16] Có 18 tập liệu mơ sử dụng thực nghiệm, gồm: 12 tập liệu trình tự ngắn, trình tự kép có độ dài xấp xỉ khoảng 80 bp (từ mẫu S1 đến S6 L1 đến L6 Bảng 1) tập liệu trình tự dài, trình tự đơn có độ dài khoảng 700 – 800 bp (từ mẫu R1 đến R6 Bảng 2) Bảng Các tập liệu mơ trình tự ngắn 2 S4 S5 15 S6 30 L1 L2 L3 L4 L5 L6 2 2 2 Lớp Lớp Lớp Lớp Lớp Lớp Tỉ lệ Số loài R1 R2 R3 R4 R5 R6 2 3 195339 375302 713388 1:1:1:4:4 1653550 1:1:1:1:1: 2:2:2:2:2: 3:3:3:3:3 4:4:4:4:4: 6:6:6:6:6: 7:7:7:7:7: 8:8:8:8:8: 9:9:9:9:9: 10:10:10:10:10 1:1 1:2 1:3 1:4 1:5 1:6 2234168 Tỉ lệ Số trình tự 1:1 1:1 1:1 1:1:8 1:1:8 1:1:1:1:2:14 34457 70550 93267 290473 374830 588258 Với thiết lập cấu hình, tập liệu trình tự dài, hệ số tăng tốc trung bình có xu hướng giảm số lượng trình tự tăng biểu đồ Hình Và ngược lại, tập liệu trình tự ngắn, hệ số tăng tốc trung bình có xu hướng tăng số lượng trình tự tăng Hình Hình Số trình tự 1:1 1:1 3:2:1 Khoảng cách phát sinh chủng loại Họ Bộ Chi Họ Bộ ngành Loài, bộ, họ, ngành giới 3.5 Thời gian thực thi Hệ số tăng tốc S1 S2 S3 Khoảng cách phát sinh chủng loại Loài Ngành Ngành giới Bộ, bộ, chi, Các khoảng cách khác Các khoảng cách khác Mẫu 4,17 3,51 3,3 2,26 2,56 1,85 R1 R2 R3 R4 Mẫu R5 R6 4990632 Hình 10 Biểu đồ biểu diễn hệ số tăng tốc trung bình SpaBiMeta mẫu từ R1 đến R6 176688 259568 342448 425328 508209 591089 3.4 Thiết lập tham số Ứng dụng SpaBiMeta sử dụng tham số tương tự BiMeta với độ lớn k k-mer 30, kích thước tối đa tập đại diện nhóm trình tự 20 số lượng kmer chung nhỏ hai trình tự tuỳ thuộc vào mẫu thực nghiệm (nếu mẫu đầu vào tập trình tự ngắn giá trị tham số 5, cịn tập trình tự dài giá trị tham số 45) Các thơng số cấu hình cho SparkContext Apache Spark tuỳ thuộc vào cấu hình phần cứng thực nghiệm 12 Hệ số tăng tốc Mẫu Số loài Bảng 10 Các tập liệu mơ trình tự dài 9,8 10 5,84 1,79 2,36 S1 S2 2,98 3,28 S3 S4 Mẫu S5 S6 Hình 11 Biểu đồ biểu diễn hệ số tăng tốc trung bình SpaBiMeta mẫu từ S1 đến S6 Hệ số tăng tốc 2,5 2,18 1,99 2,24 2,54 2,64 2,65 1,5 KẾT LUẬN VÀ THẢO LUẬN 0,5 L1 L2 L3 L4 Mẫu L5 L6 Hình 12 Biểu đồ biểu diễn hệ số tăng tốc trung bình SpaBiMeta mẫu từ L1 đến L6 3.6 Độ xác SpaBiMeta dưa thuật tốn BiMeta song song hố, khơng thay đối vệ phương pháp phân tích, nên khơng thay đối đố xác so vơi BiMeta F-measure (%) BiMeta SpaBiMeta 100 80 60 40 20 R1 R2 R3 R4 Mẫu R5 R6 Hình 13 Biểu đồ biểu diễn độ đo F-measure trung bình BiMeta SpaBiMeta mẫu từ S1 đến S6 BiMeta F-measure (%) dài từ R1 đến R6 (Hình 5) mẫu trừ tự ngắn từ S1 đến S6 (Hình 6) SpaBiMeta 100 80 60 40 20 S1 S2 S3 S4 Mẫu S5 S6 Hình 14 Biểu đồ biểu diễn độ đo F-measure trung bình BiMeta SpaBiMeta mẫu từ S1 đến S6 Tuy nhiên, BiMeta SpaBiMeta thực bước gom cụm dựa thuật toán K–means, vốn thuật toán khởi đầu ngẫu nhiên cho cụm ban đầu, nên kết gom cụm cho lần chạy khơng hồn tồn giống Điều thể kết trung bình độ đo F-measure BiMeta SpaBiMeta mẫu trình tự Từ kết thực nghiệm, chương trình SpaBiMeta cho thấy khả xử lý nhanh không thay đổi độ xác đáng kể so với thuật tốn ban đầu BiMeta Từ hệ số tăng tốc cho thấy khác biệt rõ rệt xử lý tập trình tự ngắn dài Trong trường hợp xử lý trình tự ngắn, số lượng trình tự nhiều hệ số tăng tốc lớn Nguyên nhân dẫn đến điều tính tính song song thuật tốn, chi phí cho lớn (ở tập trình tự dài) dẫn đến chi phí hệ thống tính tốn song song gia tăng, làm giảm hiệu suất hệ thống chương trình Cịn mẫu tập trình tự ngắn, chi phí xử lý đoạn mã nhỏ, làm nâng cao hiệu suất xử lý song song hệ thống, nên hệ số tăng tốc tăng cao Trong giai đoạn Gom cụm dựa thuật toán K-means, thuật toán cần số cụm k xác định chọn ngẫu nhiên điểm trung tâm cho cụm ban đầu, nên kết gom cụm cho lần chạy khơng hồn tồn giống Để cải thiện chất lượng kết thuật toán phân cụm, giá trị k cần xác định trước với thuật toán phân cụm tán không giám sát, điểm trung tâm cần chọn theo khoảng cách tối đa tối thiểu dựa khoảng cách Euclid [24] Ngồi ra, thuật tốn ứng dụng SpaBiMeta áp dụng tảng tài nguyên hoạt động từ Kiến trúc thiết bị tính tốn hợp CUDA NVIDIA Đây kiến trúc tính tốn song song thơng qua ngơn ngữ lập trình hỗ trợ (C, Java Python) Kiến trúc áp dụng để lập trình song song cho thuật toán xử lý liệu lớn metagenomics sau LỜI CẢM ƠN Tác giả xin gửi lời cảm ơn với thầy TS Lê Văn Vinh tận tình hướng dẫn trình thực nghiên cứu Tác giả xin cảm ơn đến với Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí cung cấp sở vật chất cho trình thực nghiệm nghiên cứu TÀI LIỆU THAM KHẢO [1] J.A Garrido-Cardenas and F Manzano-Agugliaro, "The metagenomics worldwide research," Current Genetics, vol 63, no 5, p 819–829, 2017 [2] A Bodor, N Bounedjoum, G.E Vincze, G Rákhely, "Challenges of unculturable bacteria: environmental perspectives," Reviews in Environmental Science and Bio/Technology, vol 19, no 1, pp 1-22, 2020 [3] T Thomas, J Gilbert and F Meyer, "Metagenomics - a guide from sampling to data analysis," Microbial Informatics and Experimentation, vol 2, no 1, 2012 [4] L Bragg and G.W Tyson, "Metagenomics Using Next-Generation Sequencing," in Environmental Microbiology: Methods in Molecular Biology, vol 1096, Humana Press, Totowa, NJ, 2014, pp 183-201 [5] D.H Huson, S Beier, I Flade, R Tappu, "MEGAN Community Edition - Interactive Exploration and Analysis of Large-Scale Microbiome Sequencing Data," PLoS Computational Biology, vol 12, no 6, 2016 [6] D.H Huson, B Albrecht, C Bağcı, R.B.H Williams, "MEGAN-LR: new algorithms allow accurate binning and easy interactive exploration of metagenomic long reads and contigs," Biology Direct, vol 13, no 1, 2018 [7] D.E Wood, J Lu and B Langmead, "Improved metagenomic analysis with Kraken 2," Genome Biology, vol 20, no 1, 2019 [8] R Ounit, S Wanamaker, T.J Close and S Lonardi, "CLARK: fast and accurate classification of metagenomic and genomic sequences using discriminative k-mers," BMC Genomics, vol 16, no 1, 2015 [9] B Buchfink, C Xie and D.H Huson, "Fast and sensitive protein alignment using DIAMOND," Nature Methods, vol 12, no 1, pp 59-60, 2015 [10] S.M Kiełbasa, R Wan, K Sato, P Horton and M.C Frith, "Adaptive seeds tame genomic sequence comparison," Genome Research, vol 21, no 3, pp 487-493, 2011 [11] N.N Diaz, L Krause, A Goesmann, K Niehaus and T.W Nattkemper, "TACOA – Taxonomic classification of environmental genomic fragments using a kernelized nearest neighbor approach," BMC Bioinformatics, vol 10, no 1, p 56, 2009 [12] Q Liang, P.W Bible, Y Liu, B Zou and L Wei, "DeepMicrobes: taxonomic classification for metagenomics with deep learning," NAR Genomics and Bioinformatics, vol 2, no 1, 2020 [13] Y.W Wu and Y Ye, "A Novel Abundance-Based Algorithm for Binning Metagenomic Sequences Using l-tuples," Journal of Computational Biology, vol 18, no 3, 2011 [14] Y Wang, H.C.M Leung, S.M Yiu and F.Y.L Chin, "MetaCluster 5.0: a two-round binning approach for metagenomic data for low-abundance species in a noisy sample," Bioinformatics, vol 28, no 18, p i356–i362, 2012 [15] S Girotto, C Pizzi and M Comin, "MetaProb: accurate metagenomic reads binning based on probabilistic sequence signatures," Bioinformatics, vol 32, no 17, p i567–i575, 2016 [16] L.V Vinh, T.V Lang, L.T Binh and T.V Hoai, "A two-phase binning algorithm using l-mer frequency on groups of non-overlapping reads," Algorithms for Molecular Biology, vol 10, no 1, 2015 [17] B Schmidt and A Hildebrandt, "Next-generation sequencing: big data meets high performance computing," Drug Discovery Today, vol 22, no 4, pp 712-717, 2017 [18] H Hussain, S.U.R Malik, A Hameed, A Rayes, "A survey on resource allocation in high performance distributed," Parallel Computing, vol 39, no 11, pp 709-736, 2013 [19] L Shi, X Meng, E Tseng, M Mascagni and Z Wang, "SpaRC: scalable sequence clustering using Apache Spark," Bioinformatics, vol 35, no 5, p 760–768, 2018 [20] W Zhou, R Li, S Yuan, B Niu, "MetaSpark: a spark-based distributed processing tool to recruit metagenomic reads to reference genomes," Bioinformatics, vol 33, no 7, p 1090– 1092, 2017 [21] M Klein, R Sharma, C Bohrer, C Avelis and E Roberts, "Biospark: scalable analysis of large numerical datasets from biological simulations and experiments using Hadoop and Spark," Bioinformatics, vol 33, no 2, p 303–305, 2016 [22] H Vu, L.V Vinh, T.V Hoai, T.V Lang and H.Q Bao, "Parallel algorithm for the unsupervised binning of metagenomic sequences," in ICMLSC'21: 2021 The 5th International Conference on Machine Learning and Soft Computing, 2021 [23] S Kurgalin and S Borzunov, A Practical Approach to High-Performance Computing, 1st ed., Cham: Springer Nature Switzerland AG, 2019 [24] Z Wang, A Xu, Z Zhang, C Wang, A Liu and X Hu, "The Parallelization and Optimization of K-means Algorithm Based on Spark," in 2020 15th International Conference on Computer Science & Education (ICCSE), 2020 Tác giả chịu trách nhiệm viết: Họ tên: Phạm Thanh Tùng Đơn vị: Trường đại học Sư phạm Kỹ thuật TP.HCM Điện thoại: 0358606425 Email: tungpt96august@gmail.com S K L 0 ... nhị phân Kí tự A C G T Thập phân Nhị phân 00 01 10 11 Trong tập trình tự gen có hai loại trình tự trình tự đơn (single-end read) trình tự kép (paired-end read) Với trình tự đơn có chuỗi trình tự. .. thơng tin trình tự ▪ Loại trình tự (Flag): Cho biết trình tự “1” hay “2” trình tự kép (paired-end read) ▪ Nhãn (Label): Nhãn phân loại đầu vào dùng để đánh giá kết thu ▪ Chuỗi trình tự (Sequence... PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ PHẠM THANH TÙNG PHÂN LOẠI TRÌNH TỰ METAGENOMICS TRÊN NỀN TẢNG ĐIỆN TOÁN ĐÁM MÂY NGÀNH: KHOA HỌC MÁY TÍNH - 8480101 Hướng dẫn khoa học: TS LÊ VĂN

Ngày đăng: 07/03/2023, 16:33

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w