Áp dụng phương pháp học sâu cho vấn đề phân loại trình tự metagenomic

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ HOÀNG MẠNH HÙNG ÁP DỤNG PHƯƠNG PHÁP HỌC SÂU CHO VẤN ĐỀ PHÂN LOẠI TRÌNH TỰ METAGENOMIC NGÀNH: KHOA HỌC MÁY TÍNH Tp Hồ Chí Minh, tháng 11/2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ HOÀNG MẠNH HÙNG ÁP DỤNG PHƯƠNG PHÁP HỌC SÂU CHO VẤN ĐỀ PHÂN LOẠI TRÌNH TỰ METAGENOMIC NGÀNH: KHOA HỌC MÁY TÍNH - 8480101 Hướng dẫn khoa học: TS LÊ VĂN VINH Tp Hồ Chí Minh, tháng 11/2022 QUYẾT ĐỊNH GIAO ĐỀ TÀI i BIÊN BẢN CHẤM LUẬN VĂN ii NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN iii iv v vi LÝ LỊCH KHOA HỌC I LÝ LỊCH SƠ LƯỢC Họ & tên: HỒNG MẠNH HÙNG Giới tính: Nam Ngày, tháng, năm sinh: 26/08/1982 Nơi sinh: TP.HCM Quê quán: Thanh Hóa Dân tộc: Kinh Chỗ riêng địa liên lạc: 119 Tăng Nhơn Phú, Phường Phước Long B, TP Thủ Đức, TP.HCM Điện thoại quan: Điện thoại nhà riêng: 0979089155 Fax: E-mail: manhhung@hitu.edu.vn II QUÁ TRÌNH ĐÀO TẠO: Đại học 1: Hệ đào tạo: Chính quy Thời gian đào tạo từ 9/2003 đến 2/2008 Nơi học (trường, thành phố): Đại học Công nghệ TP.HCM Ngành học: Cơ khí tự động - Robot Tên đồ án, luận án môn thi tốt nghiệp: Thiết kế, chế tạo hệ thống điện điều khiển tối ưu diện tích cắt cho máy cắt plasma CNC Ngày & nơi bảo vệ đồ án, luận án thi tốt nghiệp: 2/2008 – ĐH Công nghệ TP.HCM Người hướng dẫn: TS Nguyễn Thành Luân Đại học 2: Hệ đào tạo: Từ xa Thời gian đào tạo từ 11/2009 đến 12/2012 Nơi học (trường, thành phố): Đại học Công nghệ thông tin Ngành học: Công nghệ thông tin vii Tên đồ án, luận án môn thi tốt nghiệp: Cấu trúc liệu, Lập trình hướng đối tượng, Mạng máy tính, Trí tuệ nhân tạo, Cơ sở liệu, Java Ngày & nơi bảo vệ đồ án, luận án thi tốt nghiệp: 12/2012 – ĐH Công nghệ thông tin Người hướng dẫn: Thạc sĩ: Hệ đào tạo: Chính quy Thời gian đào tạo từ 8/2020 đến 10/2022 Nơi học (trường, thành phố): Đại học Sư phạm kỹ thuật TP.HCM Ngành học: Khoa học máy tính Tên đồ án, luận án môn thi tốt nghiệp: Áp dụng phương pháp học sâu cho vấn đề phân loại trình tự metagenomic Ngày & nơi bảo vệ đồ án, luận án thi tốt nghiệp: 20/10/2022 – ĐH Sư phạm kỹ thuật TP.HCM Người hướng dẫn: TS Lê Văn Vinh III Q TRÌNH CƠNG TÁC CHUYÊN MÔN KỂ TỪ KHI TỐT NGHIỆP ĐẠI HỌC: Thời gian 05/2008 – 10/2022 Nơi công tác Công việc đảm nhiệm Trường Cao đẳng Công Thương TP.HCM viii Quản trị Cơ sở liệu, quản trị mạng Chương 6: KẾT LUẬN 6.1 Kết luận Sự tiến không ngừng kỹ thuật học máy máy chủ tính toán hiệu cao giúp toán phân loại metagenomic bước giải thông qua nhiều giải pháp mới, có giải pháp học sâu Học sâu giúp cho việc phân loại đơn giản hóa thơng qua việc huấn luyện mơ hình, bên cạnh cịn tái sử dụng mơ hình cho toán phân loại mới, giúp tiết kiệm nhiều thời gian cho việc thiết kế, cài đặt Luận văn tìm hiểu, nghiên cứu phương pháp học sâu, đề xuất giải pháp học sâu cho tốn phân loại trình tự metagenomic thực phát triển, cài đặt mơ hình huấn luyện cho tốn dựa thống kê phương pháp công bố Kết huấn luyện sử dụng liệu thực nghiệm để kiểm tra, đánh giá hiệu Mặc dù có nhiều thơng số chưa nghiên cứu sâu để mang đến hiệu tốt hơn, kết thực nghiệm việc dùng giá trị k-mer lớp (layer) thích hợp với liệu cho kết thực thi tốt hơn, bên cạnh việc tận dụng hệ thống máy chủ xử lý hiệu cao có 6.2 Hướng phát triển Trên sở kết đạt được, đề tài phát triển theo hướng cải thiện giá trị tham số việc kết hợp lớp (layer), giúp cải thiện hiệu mở rộng quy mô phân loại trình tự nhiều tập liệu khác thực tế Phương pháp đề xuất tiến hành thực tập liệu 10 triệu trình tự, việc xây dựng hồn thiện tập liệu huấn luyện đóng vai trị quan trọng việc thiết kế mơ hình Dữ liệu nhiều giúp bao quát 42 nhiều trường hợp phân loại trình tự đồng thời cho kết xử lý, phân tích, phân loại tốt Việc tìm hiểu thêm nhiều biến thể khác mơ hình học sâu tiến hành thực nghiệm tập liệu khác hướng phát triển tương lai, đặc biệt việc tăng giá trị k-mer chứng minh tăng đáng kể hiệu mơ hình, nhiên việc tăng k-mer địi hỏi khả xử lý hệ thống máy chủ Mong phát triển tương lai hệ thống máy chủ giúp cải thiện hiệu cho mơ hình 43 TÀI LIỆU THAM KHẢO [1] Thomas T, Gilbert J and Meyer F, "Metagenomics-A guide from sampling to data analysis," Microbial informatics and experimentation, vol 2, no 1, p 3, 2012 [2] Metzker ML, "Sequencing technologies - the next generation," Nature reviews genetics, vol 11, no 1, pp 31-46, 2010 [3] Rondon MR, August PR, Bettermann AD, Brady SF and Grossman TH, "Cloning the soil metagenome: a strategy for accessing the genetic and functional diversity of uncultured microorganisms," Applied and environmental microbiology, vol 66, no 6, pp 2541-2547, 2000 [4] Carola Simon and Rolf Daniel, "Metagenomic Analyses: Past and Future Trends," American Society for Microbiology, vol 77, no 4, p 1153–1161, 2011 [5] Yu-Wei Wu and Yuzhen Ye, "A novel abundance-based algorithm for binning metagenomic sequences using l-tuples," Journal of Computational Biology, vol 18, no 3, pp 523-534, 2011 [6] Olexiy Kyrgyzov, Vincent Prost, Stephane Gazut, Bruno Farcy and Thomas Bruls, "Binning unassembled short reads based on k-mer abundance covariance using sparse coding," GigaScience, vol 9, pp 1-13, 2020 [7] Dongwan D Kang, Jeff Froula, Rob Egan and Zhong Wang, "MetaBAT, an efficient tool for accurately reconstructing single genomes from complex microbial communities," PeerJ, 2015 [8] Bin Yang, Yu Peng, Henry C.M Leung, S.M Yiu, Junjie Qin, Ruiqiang Li and Francis Y.L Chin, "Metacluster: unsupervised binning of environmental genomic fragments and taxonomic annotation," In Proceedings of the first ACM international conference on bioinformatics and computational biology, pp 170-179, 2010 [9] Zhongjun Jiang, Xiaobo Li and Lijun Guo, "MetaCRS: unsupervised clustering of contigs with the recursive strategy of reducing metagenomic dataset’s complexity," 44 BMC Bioinformatics, vol 22, no 12, pp 1-17, 2021 [10] Olga T., James B and Tao J., "A probabilistic approach to accurate abundance-based binning of metagenomic reads," Algorithms in Bioinformatics, pp 404-416, 2012 [11] Le Van Vinh, Tran Van Lang, Le Thanh Binh and Tran Van Hoai , "A two-phase binning algorithm using l-mer frequency on groups of non-overlapping reads," Algorithms for Molecular Biology, 2015 [12] Samuele Girotto, Cinzia Pizzi and Matteo Comin, "MetaProb: accurate metagenomic reads binning based on probabilistic sequence signatures," Bioinformatics, 2016 [13] Samuele Girotto, Cinzia Pizzi and Matteo Comin, "MetaProb: Accurate metagenomic reads binning based on probabilistic sequence signatures," Bioinformatics, vol 32, no 17, pp i567-i575, 2016 [14] Arthur Brady and Steven L Salzberg, "Phymm and PhymmBl: metagenomic phylogenetic classification with interpolated markov models," Nature Methods, vol 6, no 9, p 673–676, 2009 [15] Monzoorul Haque M, Tarini Shankar Ghosh, Nitin Kumar Singh and Sharmila S Mande, "SPHINX - An algorithm for taxonomic binning of metagenomic sequences," Bioinformatics, 2010 [16] Jiemeng Liu, Haifeng Wang, Hongxing Yang, Yizhe Zhang, Jinfeng Wang, Fangqing Zhao and Ji Qi, "Composition-based classification of short metagenomic sequences elucidates the landscapes of taxonomic and functional enrichment of microorganisms," Nucleic Acids Research, vol 41, no 1, 2013 [17] Vinh Van Le, Lang Van Tran and Hoai Van Tran, "A novel semi-supervised algorithm for the taxonomic assignment of metagenomic reads," BMC Bioinformatics, 2016 [18] Isis Bonet, Alejandro Pena, Christian Lochmuller, Alejandro Patino and Mario Gongora, "Deep Clustering for Metagenomics," Proc CIBB, pp 335-347, 2019 [19] Jakob Nybo Nissen, Joachim Johansen, Rosa Lundbye Allesøe, Casper Kaae 45 Sønderby, Jose Juan Almagro Armenteros, Christopher Heje Grønbech, Lars Juhl Jensen, Henrik Bjørn Nielsen, Thomas Nordahl Petersen, Ole Winther and Simon Rasmussen, "Improved metagenome binning and assembly using deep variational autoencoders," Nature Biotechnol, vol 39, no 5, pp 555-560, 2021 [20] Junyuan Xie, Ross Girshick and Ali Farhadi, "Unsupervised Deep Embedding for Clustering Analysis," Proc 34th Int Conf Mach Learn (ICML), vol 37, pp 478487, 2017 [21] Nairouz Mrabah, Mohamed Bouguessa and Riadh Ksantini, "Adversarial deep embedded clustering: On a better trade-off between feature randomness and feature drift," IEEE Trans Knowl Data Eng., vol 34, no 4, pp 1603-1617, 2022 [22] Daniel H Huson, Alexander F Auch, Ji Qi and Stephan C Schuster, "MEGAN analysis of metagenomic data," Genome Research, 2007 [23] Lutz Krause, Alexander Goesmann, Nelcy Diaz and Tim W Nattkemper, "Phylogenetic classification of short environmental DNA fragments," Nucleic Acids Research, 2008 [24] Wolfgang Gerlach and Jens Stoye, "Taxonomic classification of metagenomic shotgun sequences with CARMA3," Nucleic Acids Research, vol 39, no 14, 2011 [25] Daniel H Huson, Anna Górska and Sina Beier, "MEGAN Community Edition Interactive Exploration and Analysis of LargeScale Microbiome Sequencing Data," PLoS computational biology, vol 12, no 6, 2016 [26] Daniel H Huson, Benjamin Albrecht, CanerBa ˘ gcı, Irina Bessarab, Anna Górska, Dino Jolic and Rohan B H Williams, "MEGAN-LR: New algorithms allow accurate binning and easy interactive exploration of metagenomic long reads and contigs," Biol Direct, vol 13, no 1, pp 1-17, 2018 [27] Benjamin Buchfink, Chao Xie and Daniel H Huson, "Fast and sensitive protein alignment using diamond," Nature methods, vol 12, no 1, 2015 [28] Vitor C Piro, Martin S Lindner and Bernhard Y Renard, "DUDes: a top-down 46 taxonomic profiler for metagenomics," Bioinformatics, vol 32, no 15, p 2272{2280, 2016 [29] Ben Langmead and Steven L Salzberg, "Fast gapped-read alignment with Bowtie 2," Nature methods, vol 9, no 4, p 357, 2012 [30] Rachid Ounit, Steve Wanamaker, Timothy J Close and Stefano Lonardi, "CLARK: fast and accurate classification of metagenomic and genomic sequences using discriminative k-mers," BMC genomics, vol 16, no 1, pp 1-13, 2015 [31] Derrick E Wood, Jennifer Lu and Ben Langmead, "Improved metagenomic analysis with Kraken 2," Genome biology, vol 20, no 1, pp 1-13, 2019 [32] Mateo Rojas-Carulla, Ilya Tolstikhin, Guillermo Luque, Nicholas Youngblut, Ruth Ley and Bernhard Scholkopf, "Genet: Deep representations for metagenomics," arXiv preprint arXiv:1901.11015, 2019 [33] Qiaoxing Liang, Paul W Bible, Yu Liu, Bin Zou and Lai Wei, "Deepmicrobes: taxonomic classification for metagenomics with deep learning," bioRxiv, 2019 [34] Kilian Weinberger, Anirban Dasgupta, John Langford, Alex Smola and Josh Attenberg, "Feature hashing for large scale multitask learning," In Proceedings of the 26th annual international conference on machine learning, pp 1113-1120, 2009 [35] Dan Tito Svenstrup, Jonas Hansen and Ole Winther, "Hash embeddings for efficient word representations," In Advances in Neural Information Processing Systems, pp 4928-4936, 2017 [36] Alberts B, Johnson A and Lewis J, "The Structure and Function of DNA," Molecular Biology of the Cell, pp 120-121, 2002 [37] J Peter Gogarten and Lorraine Olendzenski, "Orthologs, paralogs and genome comparisons," Molecular and Cell Biology, p 630–636, 1999 [38] Wooley, John C, Adam Godzik and Iddo Friedberg, "A primer on metagenomics," PLoS Comput Biol, vol 6, no 2, 2010 47 [39] Black JG, "Microbiology," US: Wiley, vol 8th ed., January 2012 [40] Bohlin J, "Genomic signatures in microbes - properties and applications," The Scientific World Journal, pp 715-725, 2011 [41] Mesbah M.K., Premachandran U and Whitman W.B., "Precise Measurement of the G+C Content of Chromatography," Deoxyribonucleic International Acid Journal of by High-Performance Systematic and Liquid Evolutionary Microbiology, pp 159-167, April 2011 [42] C Burge, A M Campbell and S Karlin, "Over- and under-representation of short oligonucleotides in DNA sequences," Proceedings of the National Academy of Sciences, vol 89, no 4, pp 1358-1362, 1992 [43] Gori F., Mavroedis D., Jetten MS and Marchiori E, "Genomic signatures for metagenomic data analysis: Exploiting the reverse complementarity of tetranucleotides," IEEE International Conference on Systems Biology (ISB), pp 149154, Sep 2011 [44] Jeffrey HJ, "Chaos game representation of gene structure," 18 Nucleic acids research, no 2163-70, 1990 [45] Wang Y, Hill K, Singh S and Kari L, "The spectrum of genomic signatures: from dinucleotides to chaos games representation," Gene, p 346, 2005 [46] Saeed I and Halgamuge SK, "The oligonucleotide frequency derived error gradient and its application to the binning of metagenome fragments," BMC genomics, vol 10, no S3, 2009 [47] Geum Hee Jeong, "Artificial intelligence, machine learning, and deep learning in women’s health nursing," KJWHN, vol 26, no 1, pp 5-9, 2020 [48] Alex Krizhevsky, Ilya Sutskever and Geoffrey E Hinton, "ImageNet Classification with Deep Convolutional Neural Networks," Advances in Neural Information Processing Systems 25, 2012 48 [49] David G Kleinbaum and Mitchel Klein, "Introduction to Logistic Regression," pp 139, 24 March 2010 [50] Tarun Kumar Gupta and Khalid Raza, "Optimization of ANN Architecture: A Review on Nature-Inspired Techniques," Academic press, pp 159-182, 2019 [51] A.D.Dongare, R.R.Kharde and A D , "Introduction to Artificial Neural Network," International Journal of Engineering and Innovative Technology (IJEIT), vol 2, no 1, 2012 [52] Keiron O'Shea and Ryan Nash, "An Introduction to Convolutional Neural Networks," 2015 [53] Saed Khawaldeh, Usama Pervaiz, Mohammed Elsharnoby, Alaa Eddin Alchalabi and Nayel Al-Zubi, "Taxonomic Classiﬁcation for Living Organisms Using Convolutional Neural Networks," PubMed Central, vol 8, no 11, p 326, 2017 [54] LeCun Y and Bengio Y, "Convolutional networks for images, speech, and time series," The handbook of brain theory and neural networks, vol 3361, no 10, 1995 [55] Kelley DR, Snoek J and Rinn JL, "Basset: learning the regulatory code of the accessible genome with deep convolutional neural networks," Genome research, vol 26, no 7, p 990–999, 2016 [56] Zhou J and Troyanskaya OG, "Predicting effects of noncoding variants with deep learning–based sequence model," Nature methods, vol 12, no 10, p 931, 2015 [57] Angermueller C, Parnamaa T, Parts L and Stegle O, "Deep learning for computational biology," Molecular systems biology, vol 12, no 7, p 878, 2016 [58] Zachary Chase Lipton, "A Critical Review of Recurrent Neural Networks for Sequence Learning," May 2015 [59] Ajay Shrestha and A Mahmood, "Review of Deep Learning Algorithms and Architectures," IEEE Access, vol 7, pp 53040-53065, 2019 [60] Sepp Hochreiter and Jurgen Schmidhuber, "Long Short-Term Memory," Neural 49 Computation, vol 9, p 1735–1780, 1997 [61] Hemalatha Gunasekaran, K Ramalakshmi, A Rex Macedo Arokiaraj, S Deepa Kanmani, Chandran Venkatesan and C Suresh Gnana Dhas, "Analysis of DNA Sequence Classification Using CNN and Hybrid Models," Computational and Mathematical Methods in Medicine, vol 2021, p 12, 2021 [62] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever and Ruslan Salakhutdinov, "Dropout: A Simple Way to Prevent Neural Networks from Overfitting," Journal of Machine Learning Research, vol 15, no 1, p 1929–1958, 2014 [63] Daniel C Richter, Felix Ott, Alexander F Auch, Ramona Schmid and Daniel H Huson, "MetaSim - A Sequencing Simulator for Genomics and Metagenomics," PubMed Central, vol 3, no 10, p 3373, 2008 [64] P Ongsulee, "Artificial intelligence, machine learning and deep learning," Fifteenth International Conference on ICT and Knowledge Engineering, Nov 2017 50 ÁP DỤNG PHƯƠNG PHÁP HỌC SÂU CHO VẤN ĐỀ PHÂN LOẠI TRÌNH TỰ METAGENOMIC APPLYING DEEP LEARNING TO THE PROBLEM OF METAGENOMIC SEQUENCE CLASSIFICATION 1,2 Lê Văn Vinh1, Hoàng Mạnh Hùng2 Trường Đại học Sư phạm Kỹ thuật TP.HCM TÓM TẮT Metagenomics lĩnh vực nghiên cứu, phân tích vật chất di truyền cộng đồng sinh vật Những nhiệm vụ phân tích metagenomics bao gồm gom cụm, phân loại phân tích cấu trúc chức cho tất hệ gien mẫu metagenomic Mẫu metagenomic thường chứa trình tự DNA nhiều lồi khác nhau, để xác định vi sinh vật có mẫu metagenomic cần phải thực việc phân loại trình tự Một thách thức tốn phân loại trình tự cần tăng cường độ xác phân loại cho trình tự mẫu Nghiên cứu đề xuất giải pháp học sâu cho tốn phân loại trình tự metagenomic nhằm đáp ứng nhu cầu phân tích hiệu việc phân tích liệu metagenomic mà cụ thể tốn phân loại trình tự Kết nghiên cứu tập liệu thực nghiệm giải pháp học sâu giúp nâng cao tính xác cho việc phân loại trình tự Từ khóa: Metagenomics; trình tự DNA; phân loại trình tự; học sâu ABSTRACT Metagenomics is the study and analysis of genetic material in biological communities The main tasks of metagenomics analysis include clustering, classification and structural functional analysis for all genomes in a metagenomic sample Metagenomic samples often contain DNA sequences of many different species, so determining which microorganisms are included in the metagenomic sample requires sequencing One of the challenges for the sequence classification problem is to increase the classification accuracy for the sequences in the sample This study proposes a deep learning solution to the metagenomic sequence classification problem in order to meet the demand for effective analysis for the analysis of metagenomic data, specifically the sequence classification problem Research results for experimental data sets indicate that the deep learning solution has improved the accuracy of sequence classification Keywords: Metagenomics; DNA sequences; sequence classification; deep learning GIỚI THIỆU vi sinh vật thuộc hệ gien thành nhóm riêng lẻ đại diện cho quần thể Một vấn đề việc phân loại trình tự nằm việc phân loại xác trình tự mẫu Nhiệm vụ thách thức khối lượng liệu trình tự lớn đặt yêu cầu cao công cụ hệ thống, phần cứng phần mềm, để xử lý liệu hiệu nhanh chóng Metagenomics lĩnh vực ln nhận nhiều quan tâm vài thập kỷ qua, thường áp dụng để nghiên cứu cộng đồng nhóm vi sinh vật cụ thể, chẳng hạn vi sinh vật cư trú da người, đất mẫu nước Phân loại trình tự metagenomic phần quy trình phân tích liệu metagenomics nhằm xác định xếp Trong báo này, đề xuất giải pháp áp dụng phương pháp học sâu giúp phân loại hiệu cho liệu trình tự metagenomic, hướng đến việc cải tiến tính xác việc phân loại trình tự vector đọng có chiều dài cố định, đặc biệt hữu ích với vector dạng one-hot Nghiên cứu sử dụng phương pháp nhúng k-mer phương pháp dựa kmer truyền thống đơn giản tính tốn vectơ tần số k-mer mà không sử dụng mối quan hệ đặc trưng k-mer Trong đó, ma trận đặc trưng k-mer chứa nhiều thông tin hơn, giúp hỗ trợ việc xây dựng biểu diễn đối tượng tốt PHƯƠNG PHÁP Phần mơ tả chi tiết q trình huấn luyện khía cạnh, bước xây dựng mơ hình đề xuất Hình 2.1 trình bày tổng quát quy trình huấn luyện trình tự metagenomic, bao gồm bốn bước Để thực hiện, trước tiên tách chuỗi DNA có độ dài L thành danh sách chuỗi có độ dài K với bước nhảy một, tạo L-K+1 chuỗi Cụ thể, với trình tự tập liệu ds1 sử dụng luận văn có chiều dài tối đa 80bp, k-mer 12, tạo thành 69 chuỗi có độ dài 12bp Hình 2.2 Phương pháp tính số chuỗi Lớp nhúng mạng sử dụng mục từ điển k-mer (để tra cứu nhanh trình triển khai) để ánh xạ k-mer thành vectơ nhúng k-mer Hình 2.1 Tổng quát quy trình huấn luyện trình tự metagenomic Bộ nhớ dài hạn hai chiều (Bidirectional LSTM) Quy trình huấn luyện bắt đầu bước (1), liệu đầu vào chuỗi DNA Mỗi chuỗi DNA tập liệu tách thành k-mer cách áp dụng phương pháp gọi cửa sổ trượt, thực trích xuất tất dãy có độ dài k với bước nhảy cửa số trượt Các k-mer mã hóa bước (2) thành ma trận đặc trưng Các DNA mã hóa liệu sử dụng làm đầu vào cho mơ hình huấn luyện học sâu bước (3) Khi việc huấn luyện hồn thành thu mơ hình giúp nhận diện phân loại trình tự metagenomic (4) Ở lớp tiếp theo, nghiên cứu sử dụng lớp Bidirectional LSTM Đây trình giúp cho mạng nơ-ron có thơng tin trình tự theo hai hướng ngược (tương lai đến khứ) chuyển tiếp (quá khứ đến tương lai) Hình 2.3 Cấu trúc Bidirectional LSTM Nhúng k-mer (Embedding) Loại kiến trúc có nhiều lợi tốn thực tế thành phần chuỗi đầu vào có thơng tin q khứ tương lai Do đó, BiLSTM giúp tạo đầu có ý nghĩa hơn, kết hợp lớp Đây xem lớp mạng, nơi chuỗi DNA ánh xạ tới vectơ số thực, biến số thành LSTM từ hai hướng Giai đoạn BiLSTM thực mạng LSTM hai chiều đầu vào để tìm hiểu phụ thuộc dài hạn cuối cho kết vectơ đặc trưng có độ dài cố định Nếu sử dụng LSTM LSTM thực nhiệm vụ qn thơng tin cũ, lọc thơng tin hay ẩn bớt kết thông qua cổng sàng lọc Tuy nhiên, cần biết nhiều ngữ cảnh dựa phân tích liệu biết khứ tương lai BiLSTM có kết tốt Hình 2.4 Mơ hình Dropout Dropout kỹ thuật mà nơ-ron lựa chọn ngẫu nhiên bị bỏ qua huấn luyện (bao gồm trình lan truyền tiến lan truyền ngược) Các nơ-ron bị bỏ qua cách ngẫu nhiên, nghĩa tham gia hỗ trợ nơ-ron việc kích hoạt nơ-ron khác bị loại bỏ tạm thời đường chuyển tiếp cập nhật hệ số trọng lượng không áp dụng cho nơ-ron Tự ý (Attention) Để giúp mơ hình tập trung đến nhiều thành phần chuỗi DNA, giúp tăng thêm độ xác phân loại, lớp sử dụng lớp Attention Lớp Attention tỏ hiệu xử lý liên kết dài, điều mà mô hình RNN khó thực phụ thuộc dài Khi áp dụng lớp Attention độ xác mơ hình cải thiện Lớp dùng regularization giúp cho lớp hạn chế overfitting Nếu nơ-ron ngẫu nhiên bị loại khỏi mạng lưới huấn luyện nơ-ron khác phải tham gia nhiều vào trình huấn luyện nhằm thay nơ-ron bị thiếu Điều giúp cho hệ thống mạng học thêm nhiều tính nơ-ron Khi mạng trở nên phụ thuộc vào nơ-ron, lý giúp cho mơ hình huấn luyện đạt tổng qt hóa tốt hạn chế việc bị overfitting Làm phẳng (Flatten) Vì mạng nơ-ron thực mạng nơ-ron truyền thẳng (Multi Layer Perceptron) nên cần phải có lớp mơ hình học sâu Lớp Flatten giúp làm phẳng tensor, chuyển tensor nhiều chiều thành vector chiều Thực nghiệm chứng minh việc bổ sung lớp dropout vào mơ hình giúp tăng phần hiệu việc phân loại trình tự metagenomic Kết nối đầy đủ (Dense) Sau chuyển thành vector chiều, lớp kết nối đầy đủ lớp sử dụng, giúp cho tất nơ-ron lớp liên kết đến nơ-ron lớp phía trước Lớp dense dùng với mục đích điều chỉnh kích thước vector KẾT QUẢ THỰC NGHIỆM Để thực đánh giá hiệu mơ hình (gọi Mơ hình đề xuất), trường hợp thực nghiệm, kết so sánh với kết SeMeta [2]và mơ hình dựa kiến trúc DeepMicrobes [3] (gọi Mơ hình DeepMicrobes) ba tập liệu ds1, ds2, ds3 Hiệu giải pháp đề xuất đánh giá theo độ đo precision, recall, F1 Bỏ học (Dropout) Cuối cùng, nghiên cứu bổ sung lớp Dropout vào mạng truyền thẳng Dropout kỹ thuật quy hóa cho mơ hình mạng nơ-ron Srivastava cộng [1] đề xuất: 3.1 Dữ liệu thực nghiệm Ba tập liệu giả lập sử dụng luận văn dùng để huấn luyện đánh giá tổng quát hiệu mơ hình đặt tên ds1, ds2, ds3 Những tập liệu tạo thành từ hệ gien vi khuẩn nhờ công cụ MetaSim [4] theo mơ hình giải mã trình tự Illumina, với độ dài 80bp (cho ds1, ds2) 100bp (cho ds3) Số hệ gien tập liệu tương ứng 5, 10, 25 Số trình tự tập liệu 1.112.554, 428.674, 9.184.284 Tổng trình tự ba liệu 10.725.512 trình tự dạng paired-end Độ xác trung bình 100 87.05 81.25 96.3596.99 98.4 99.35 kmer 11 kmer 12 92.19 94.1 90.87 87.49 80 60 40 3.2 Kết thực nghiệm 20 Ảnh hưởng k-mer đến hiệu kmer Do k-mer ảnh hưởng không nhỏ đến hiệu đến việc lựa chọn mơ hình, trước hết nghiên cứu thực việc huấn luyện liệu tập liệu ds1 kmer riêng rẽ để so sánh hiệu mơ hình qua giá trị k-mer, với giá trị kmer từ đến 12 Ở đây, nghiên cứu không thử nghiệm cho trường hợp k-mer thấp cao, k-mer với giá trị thấp không đủ tin cậy cho việc phân loại, ra, k-mer cao ảnh hưởng đến thời gian huấn luyện, mà số lượng từ vựng kmer tăng theo cấp số mũ 4k kmer kmer 10 5-fold 10-fold Hình 3.1 Độ xác trung bình Hiệu mơ hình Có thể thấy từ bảng sau kết thực nghiệm với liệu ds1, ds2, ds3 (hơn 10 triệu trình tự) tình khác độ xác Mơ hình đề xuất ln đạt kết tốt so sánh với SeMeta tốt so với Mơ hình DeepMicrobes Để giúp đánh giá mơ hình xác, nghiên cứu áp dụng giải pháp crossvalidation chia tập huấn luyện thành N phần nhỏ Trong lần huấn luyện dùng N-1 phần để huấn luyện, sử dụng phần lại để kiểm tra Điều giúp tìm tham số mơ hình tốt giúp hạn chế việc bị overfitting mơ hình Hiệu SeMeta Mơ hình đề xuất Mơ hình DeepMicrobes Precision 67,02% 99,0953% 99,0833% Recall 67,87% 99,1298% 98,9780% F1 67,44% 99,1122% 99,0296% Bảng 3.1 Hiệu mơ hình tập liệu ds1 Cụ thể, nghiên cứu thực chia hai lần k-fold với giá trị k=5 k=10 Với k=5, tập liệu chia nhỏ thành tập con, sau huấn luyện mơ hình lần, lần huấn luyện chọn phần làm liệu huấn luyện sử dụng phần lại làm liệu kiểm tra Cuối cùng, mơ hình đánh giá dựa giá trị trung bình cộng kết đánh giá lần huấn luyện Tương tự, với k=10, tập liệu chia nhỏ thành 10 tập con, sau huấn luyện mơ hình 10 lần, lần huấn luyện chọn phần làm liệu huấn luyện sử dụng phần lại làm liệu kiểm tra Cuối cùng, mơ hình đánh giá dựa giá trị trung bình cộng kết đánh giá lần huấn luyện Điều giúp mô hình đánh giá xác khách quan Hiệu SeMeta Mơ hình đề xuất Mơ hình DeepMicrobes Precision 76,24% 99,2444% 99,1936% Recall 77,10% 99,1651% 99,0241% F1 76,67% 99,2035% 99,1076% Bảng 3.2 Hiệu mơ hình tập liệu ds2 Hiệu SeMeta Mơ hình đề xuất Mơ hình DeepMicrobes Precision 61,03% 94,6328% 93,4851% Recall 70,45% 92,5403% 90,3010% F1 65,40% 89,0800% 87,6269% Bảng 3.3 Hiệu mơ hình tập liệu ds3 4 THẢO LUẬN tăng đáng kể hiệu mơ hình, nhiên việc tăng k-mer địi hỏi khả xử lý hệ thống máy chủ Mong phát triển tương lai hệ thống máy chủ giúp cải thiện hiệu cho mô hình Trên sở kết đạt được, nghiên cứu phát triển theo hướng cải thiện giá trị tham số việc kết hợp lớp (layer), giúp cải thiện hiệu mở rộng quy mơ phân loại trình tự nhiều tập liệu khác thực tế KẾT LUẬN Trong báo trình bày giải pháp học sâu cho tốn phân loại trình tự metagenomic thực phát triển, cài đặt mơ hình huấn luyện cho toán dựa thống kê phương pháp công bố Kết huấn luyện sử dụng liệu thực nghiệm để kiểm tra, đánh giá hiệu Mặc dù có nhiều thơng số chưa nghiên cứu sâu để mang đến hiệu tốt hơn, kết thực nghiệm việc dùng giá trị kmer lớp (layer) thích hợp với liệu cho kết thực thi tốt hơn, bên cạnh việc tận dụng hệ thống máy chủ xử lý hiệu cao có Phương pháp đề xuất tiến hành thực tập liệu 10 triệu trình tự, việc xây dựng hồn thiện tập liệu huấn luyện đóng vai trị quan trọng việc thiết kế mơ hình Dữ liệu nhiều giúp bao quát nhiều trường hợp phân loại trình tự đồng thời cho kết xử lý, phân tích, phân loại tốt Việc tìm hiểu thêm nhiều biến thể khác mơ hình học sâu tiến hành thực nghiệm tập liệu khác hướng phát triển tương lai, đặc biệt việc tăng giá trị k-mer chứng minh TÀI LIỆU THAM KHẢO [1] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever and Ruslan Salakhutdinov, "Dropout: A Simple Way to Prevent Neural Networks from Overfitting," Journal of Machine Learning Research, vol 15, no 1, p 1929–1958, 2014 [2] Vinh Van Le, Lang Van Tran and Hoai Van Tran, "A novel semi-supervised algorithm for the taxonomic assignment of metagenomic reads," BMC Bioinformatics, 2016 [3] Qiaoxing Liang, Paul W Bible, Yu Liu, Bin Zou and Lai Wei, "Deepmicrobes: taxonomic classification for metagenomics with deep learning," bioRxiv, 2019 [4] Daniel C Richter, Felix Ott, Alexander F Auch, Ramona Schmid and Daniel H Huson, "MetaSim - A Sequencing Simulator for Genomics and Metagenomics," PubMed Central, vol 3, no 10, p 3373, 2008 Tp.HCM, ngày 28 tháng 11 năm 2022 Xác nhận Giảng viên hướng dẫn Tác giả chịu trách nhiệm viết: Họ tên: Hoàng Mạnh Hùng Đơn vị: Trường CĐ Công Thương TP.HCM Điện thoại: 0979089155 Email: manhhung@hitu.edu.vn (đã ký) TS Lê Văn Vinh S K L 0 ... quan tốn phân loại trình tự metagenomic • Nghiên cứu phương pháp học sâu • Đề xuất giải pháp học sâu cho tốn phân loại trình tự metagenomic, có sử dụng sở liệu tham khảo 1.5 Ý nghĩa khoa học thực... xác phân loại cho trình tự mẫu Nghiên cứu đề xuất giải pháp học sâu cho tốn phân loại trình tự metagenomic nhằm ? ?áp ứng nhu cầu phân tích hiệu việc phân tích liệu metagenomic mà cụ thể toán phân. .. pháp tối ưu khác adam tiến nhanh tới mức tối thiểu hơn, luận văn dùng adam cho giải pháp phân loại đề xuất 24 Chương 4: ĐỀ XUẤT PHƯƠNG PHÁP HỌC SÂU CHO PHÂN LOẠI TRÌNH TỰ METAGENOMIC Chương trình

Định dạng
Số trang	76
Dung lượng	3,84 MB