Giải pháp song song cho vấn đề gom cụm trình tự metagenomic Giải pháp song song cho vấn đề gom cụm trình tự metagenomic Giải pháp song song cho vấn đề gom cụm trình tự metagenomic Giải pháp song song cho vấn đề gom cụm trình tự metagenomic
MỤC LỤC LÝ LỊCH KHOA HỌC i LỜI CAM ĐOAN iii LỜI CẢM ƠN iv ABSTRACT v TÓM TẮT vii MỤC LỤC viii DANH MỤC CÁC HÌNH xi DANH MỤC BẢNG BIỂU xii Chương TỔNG QUAN 1.1 Giới thiệu Metagenomic 1.2 Bài tốn gom cụm trình tự metagenomic 1.3 Vấn đề tồn 1.4 Mục tiêu đề tài 1.5 Phạm vi giới hạn đề tài Chương CƠ SỞ LÝ THUYẾT 2.1 Cấu trúc sinh học gien hệ gien 2.2 Phân loại sinh vật 2.3 Quy trình xử lý liệu metagenomic 2.3.1 Thu thập mẫu thực nghiệm 2.3.2 Giải mã trình tự 2.3.3 Phân tích liệu 2.4 Đặc trưng sử dụng cho toán phân loại trình tự 2.4.1 Tính tương đồng trình tự 10 2.4.2 Dấu hiệu hệ gien 10 2.4.3 Một số tính chất dựa quan sát trình tự DNA 12 2.5 Tính tốn song song 12 viii 2.5.1 Giới thiệu 12 2.5.2 Các mơ hình tính tốn song song 14 2.5.3 Các mô hình hiệu hệ thống tính tốn song song 18 2.5.4 Giới thiệu OpenMP MPICH 21 Chương 23 TÌNH HÌNH NGHIÊN CỨU 23 3.1 Bài tốn gom cụm trình tự 23 3.1.1 Nhóm phương pháp sử dụng mơ hình chuỗi Markov 23 3.1.2 Nhóm phương pháp sử dụng phân phối tần số l-mer 23 3.1.3 Nhóm phương pháp sử dụng mức độ phong phú hệ gien 25 3.1.4 Nhóm phương pháp sử dụng đặc trưng kết hợp 25 3.2 Các giải pháp tính toán hiệu cao 26 Chương 28 GIẢI PHÁP SONG SONG GOM CỤM TRÌNH TỰ METAGENOMIC 28 4.1 Các khái niệm liên quan 28 4.1.1 Gối đầu (overlap) 28 4.1.2 Tần số l-mer nhóm trình tự không gối đầu 28 4.1.3 Khoảng cách vector tần số l-mer 29 4.2 Tổ chức liệu 29 4.1.4 Các đối tượng 29 4.1.5 Bảng băm 30 4.1.6 Hàm băm 30 4.3 Giải pháp song song đề xuất 30 4.2.1 Song song trình tiền xử lý liệu 31 4.2.2 Gom nhóm trình tự xây dựng seed 34 4.2.3 Gom cụm nhóm 34 Chương 38 KẾT QUẢ THỰC NGHIỆM 38 5.1 Đánh giá kết 38 ix 5.2 Chuẩn bị thực nghiệm 39 5.2.1 Cơ sở liệu mô 39 5.2.2 Dữ liệu thực 40 5.3 Kết thực nghiệm 41 5.3.1 Thời gian xử lý BiMetaPL 41 5.3.2 Đánh giá độ tăng tốc (speedup) 42 5.3.3 Ảnh hưởng số xử lý tới hiệu 44 5.3.4 Ảnh hưởng số lượng máy ảo tới hiệu 46 5.3.5 Độ xác thuật tốn 48 Chương 50 KẾT LUẬN 50 6.1 Kết luận 50 6.2 Hướng phát triển 50 TÀI LIỆU THAM KHẢO 52 DANH MỤC CƠNG TRÌNH CƠNG BỐ 59 x DANH MỤC CÁC HÌNH Hình 2.1 Sự khác gien hệ gien Hình 2.2 Cấu trúc DNA Hình 2.3 Phân loại sinh vật Hình 2.4 Quy trình xử lý dự án metagenomics Hình 2.5 Các mơ hình tính tốn song song 14 Hình 2.6 Sơ đồ minh họa kiến trúc nhớ chia sẻ 15 Hình 2.7 Sơ đồ minh họa kiến trúc nhớ phân tán 15 Hình 2.8 Đường cong speedup 19 Hình 2.9 Speedup theo định luật Gustafson 20 Hình 4.1 Quy trình BiMetaPL 32 Hình 4.2 Mơ tả trình đọc file song song p tiến trình 33 xi DANH MỤC BẢNG BIỂU Giải thuật 4.1 Đọc liệu đầu vào xây dựng bảng băm 32 Giải thuật 4.2 Gom cụm nhóm 35 Giải thuật 4.3 Gom cụm song song 36 Bảng 5.1 Dữ liệu mơ trình tự dài 39 Bảng 5.2 Dữ liệu mơ trình tự ngắn 40 Bảng 5.3 Kết xử lý song song tăng dần số tiến trình 41 Bảng 5.4 Speedup thuật toán 42 Bảng 5.5 Kết thực thi BiMetaPL tăng dần số xử lý 45 Bảng 5.6 Kết thực thi BiMetaPL mơ hình cụm máy tính 47 Bảng 5.7 Hiệu giải pháp gom cụm 49 Biểu đồ 5.1 Thời gian thực thi BiMetaPL liệu 42 Biểu đồ 5.2 Speedup BiMetaPL tăng dần số tiến trình 43 Biểu đồ 5.3 Speedup BiMetaPL kích thước liệu thay đổi 44 Biểu đồ 5.4 Thời gian thực thi liệu số xử lý thay đổi 46 Biểu đồ 5.5 Thời gian thực thi liệu số máy ảo thay đổi 48 xii Chương TỔNG QUAN 1.1 Giới thiệu Metagenomic Vi sinh vật dạng sống đa dạng trái đất, thường khơng thể nhìn thấy chúng, vi sinh vật cần thiết cho phần sống người, rộng tất sống trái đất [1] Mọi trình sinh bị ảnh hưởng khả vô tận vi khuẩn để biến đổi giới xung quanh chúng Đó vi khuẩn chuyển đổi yếu tố sống (chẳng hạn vi khuẩn giúp tiêu hóa thức ăn, phân hủy độc tố, bảo vệ mơi trường …) Bên cạnh vi khuẩn sử dụng thương mại để sản xuất hầu hết loại thuốc kháng sinh, nhiều loại thuốc khác sử dụng lâm sàng, sản xuất nhiên liệu sinh học Do đó, để hiểu rõ vai trò vi khuẩn sinh quyển, cần phải thực nghiên cứu gien chúng Genomic ngành học nghiên cứu gien Hướng nghiên cứu áp dụng phương pháp tổng hợp, xâu chuỗi DNA thông tin sinh học để lắp ráp lại chuỗi phân tích cấu trúc chức hệ gien (toàn DNA thể đơn bào) Nghiên cứu gen vi sinh vật bắt đầu vào cuối năm 1970, với trình tự gen vi khuẩn MS2 [2] và-X174 [3] Năm 1995, vi sinh học có bước tiến lớn với trình tự gen vi khuẩn Haemophilus cúm [4] Trước đây, nghiên cứu vi sinh vật chủ yếu tập trung vào lồi đơn lẻ phịng thí nghiệm Vì hiểu biết cộng đồng vi sinh vật không đáng kể so với hiểu biết cá thể Các nghiên cứu phải phân tách cô lập loại vi sinh vật muốn nghiên cứu Sau tiến hành nuôi cấy loại vi sinh vật chọn mơi trường thí nghiệm nhân vơ tính trước mang xác định phân tích trình tự Tuy nhiên, có tỷ lệ nhỏ vi khuẩn tự nhiên ni cấy, điều có nghĩa sở liệu gien cịn hạn chế Thứ hai, vi khuẩn sống đơn lẻ tự nhiên, loài tương tác với với môi trường sống chúng Do đó, việc ni cấy nhân vơ tính trạng thái thực vấn đề tự nhiên tương tác sinh vật, kết biến đổi gen quần thể chức sinh học Sự phát triển nhanh chóng cơng nghệ giải trình tự với chi phí thời gian thấp giúp vượt qua hạn chế lĩnh vực nghiên cứu vi sinh vật Hiện có khả thu thông tin gen trực tiếp từ cộng đồng vi sinh vật môi trường sống tự nhiên chúng Thay nhìn vào vài lồi riêng lẻ, nghiên cứu hàng chục ngàn lồi Dữ liệu trình tự lấy trực tiếp từ môi trường gọi metagenome [5] nghiên cứu liệu trình tự trực tiếp từ mơi trường gọi metagenomics [6] Metagenomics kết hợp sức mạnh genomics, tin sinh học sinh học hệ thống việc nghiên cứu cộng đồng vi sinh vật Các trình tự thu từ nghiên cứu gen trực tiếp từ môi trường phân mảnh Mỗi mảnh giải trình tự từ lồi cụ thể, có nhiều lồi khác mẫu, mà hầu hết chưa xác định gen đầy đủ Trong nhiều trường hợp xác định nguồn gốc lồi Độ dài mảnh nằm khoảng từ 20 basepair (bp) đến 700 bp, tùy thuộc vào phương pháp giải trình tự sử dụng Các trình tự ngắn phân tách từ lồi ban đầu ráp nối lại với độ dài thường khơng q 5000 bp; đó, việc tái cấu trúc tồn bộ gen nói chung khơng dễ dàng Việc trích xuất thơng tin tối đa từ thư viện metagenomic tiếp tục thách thức, chủ yếu kích thước lớn độ phức tạp liệu Dữ liệu metagenomics thường lớn tương đối nhiễu, chứa mảnh liệu hàng chục ngàn lồi sinh vật quần thể (có 10.000 lồi mẫu [7]) Khi giải trình tự metagenome cỏ bò người ta đạt liệu chứa 279 gigabase (279 tỉ bp), hệ quần thể ruột người có chứa gen khoảng 3,3 triệu bp (sau ghép nối từ 567,7 gigabase liệu) [8] Chính việc thu thập xử lý liệu từ lâu trở thành thách thức không nhỏ cho nhà nghiên cứu 1.2 Bài tốn gom cụm trình tự metagenomic Bài tốn gom cụm trình tự metagenomic vấn đề quan trọng cần giải phân tích liệu metagenomic Mục tiêu toán phân chia trình tự (gọi sequences, reads, hay fragments) theo nhóm vi sinh vật (thuộc hệ gien hay thuộc hệ gien có quan hệ gần [9]) Đối với nhà sinh học, toán sở để xác định nhóm vi sinh vật tồn mẫu thực nghiệm phát nhóm vi sinh vật 1.3 Vấn đề tồn Từ vấn đề nêu đa dạng chủng loại vi sinh vật, số lượng liệu lớn sai sót liệu trình tự sinh từ máy giải mã trình tự, gây khó khăn cho việc phân tích liệu mà cụ thể toán gom cụm Bên cạnh với việc rút ngắn thời gian chi phí cho việc giải mã trình tự máy giải mã trình tự hệ (Next Generation Sequencing - NGS) làm cho độ dài trình tự bị rút ngắn, trình tự ngắn thiếu thông tin làm cho việc gom cụm gặp nhiều khó khăn Hơn nữa, việc thao tác với tập liệu trình tự lớn địi hỏi kỹ thuật tính tốn chun sâu, ảnh hưởng trực tiếp tới hiệu tính tốn Đa số ứng dụng phân tích liệu metagenomic thiết kế tảng máy tính đơn, khơng đáp ứng u cầu tính tốn dự án metagenomic lớn ngày tăng nhanh số lượng Cũng không tận dụng mạnh phần cứng ngày mạnh mẽ rẻ hay hệ thống cụm máy tính sẵn có 1.4 Mục tiêu đề tài Mục tiêu đề tài gồm: Nghiên cứu lý thuyết tổng quan toán gom cụm trình tự metagenomic Đề xuất giải pháp gom cụm song song nhằm giảm thời gian tính tốn dựa cơng nghệ tính tốn hiệu cao Cụ thể vận dụng công nghệ đa nhân (multiple core) cụm máy tính (cluster) nhằm tăng tốc độ xử lý liệu 1.5 Phạm vi giới hạn đề tài Đề tài tập trung cải tiến hiệu tính tốn tốn gom cụm trình tự metagenomic Trên sở áp dụng kỹ thuật song song nêu lên giải pháp gom cụm với độ xác cao chứng minh Đề tài không cố gắng cải tiến hiệu suất gom cụm mà bảo tồn độ xác tốn kế thừa Chương CƠ SỞ LÝ THUYẾT 2.1 Cấu trúc sinh học gien hệ gien Gien đoạn xác định phân tử axit nucleic (DNA - Deoxyribonucleic Acid RNA - Ribonucleic Acid) có chức di truyền định Hệ gene tập hợp đặc tính di truyền lồi (Hình 2.1) DNA phân tử có cấu trúc ba chiều, bao gồm hai chuỗi đơn xoắn ốc, cuộn xung quanh trục chung, tạo thành chuỗi xoắn kép (Hình 2.2) Chuỗi DNA hình thành loại phân tử nhỏ hơn, gọi nucleotide Có bốn loại nucleotide ký hiệu A (Adenine), C (Cytosine), G (Guanine), T (Thymine) Các nucleotide kết hợp với theo cặp cố định, A kết hợp với T DNA U RNA ngược lại, G kết hợp với C ngược lại Các cặp lại nối tiếp với thành chuỗi dài gọi nhiễm sắc thể Số lượng nhiễm sắc thể nhân tế bào đặc trưng cho lồi Chẳng hạn người có 23 cặp nhiễm sắc thể, gà có 39 cặp nhiễm sắc thể Hình 2.1 Sự khác gien hệ gien [10] tree) việc chọn trọng tâm cụm ban đầu Kd-tree nhị phân tìm kiếm sử dụng để phân vùng liệu không gian K chiều, dùng để biểu diễn lưu trữ đối tượng liệu Đồng thời áp dụng kỹ thuật ước tính mật độ hạt nhân để định vị khu vực dày đặc điểm liệu Các trọng tâm cụm ban đầu định từ khu vực dày đặc Một thuật toán khác, thuật toán GKA (genetic K-means algorithm) [67], kết hợp thuật toán di truyền vào thuật toán k-mean cách xây dựng hàm đột biến thiên vị dựa khoảng cách cho việc gom cụm Bài toán gom cụm thực gom nhóm trình tự thuộc lồi lồi có quan hệ gần Tuy nhiên chưa xác định nhóm thuộc lồi biết Do đó, mở rộng cho tốn gán nhãn trình tự Khi kết gom cụm so sánh với sở liệu tham khảo hệ gien loài biết để gán nhãn cho cụm Ngoài với kỹ thuật xử lý liệu lớn Spark hay MapReduce, hay kỹ thuật tính tốn hiệu cao dựa GPU áp dụng vào tốn nhằm tối ưu hóa hiệu 51 TÀI LIỆU THAM KHẢO [1] J Handelsman, et al The New Science of Metagenomics: Revealing the Secrets of Our Microbial Planet Washington (DC): National Academies Press (US); 2007: 12-32 [2] Fiers, Walter, et al Complete nucleotide sequence of bacteriophage MS2 RNA: primary and secondary structure of the replicase gene Nature 260.5551 (1976): 500-507 [3] Sanger, F., Coulson, A R., Friedmann, T., Air, G M., Barrell, B G., Brown, N L., & Smith, M (1978) The nucleotide sequence of bacteriophage φX174 Journal of molecular biology, 125(2), 225-246 [4] Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, et al Whole-genome random sequencing and assembly of Haemophilus influenzae Rd." Science 269.5223 (1995): 496-512 [5] Handelsman J, Rondon MR, Brady SF, Clardy J, Goodman RM Molecular biological access to the chemistry of unknown soil microbes: a new frontier for natural products Chemistry & biology 5.10 (1998): R245-R249 [6] Rondon MR, August PR, Bettermann AD, Brady SF, Grossman TH, et al Cloning the soil metagenome: a strategy for accessing the genetic and functional diversity of uncultured microorganisms Applied and environmental microbiology 66.6 (2000): 2541-2547 [7] Wooley, John C., Adam Godzik, and Iddo Friedberg A primer on metagenomics PLoS Comput Biol 6.2 (2010): e1000667 [8] Qin, J., Li, R., Raes, J et al A human gut microbial gene catalogue established by metagenomic sequencing Nature 464.7285 (2010): 59-65 [9] Thomas, T., Gilbert, J & Meyer, F Metagenomics-a guide from sampling to data analysis Microbial informatics and experimentation 2.1 (2012): 52 [10] L Panawala, "Difference Between Gene and Genome", Feb 2017 Internet: https://www.researchgate.net/publication/313839958_Difference_ Between_Gene_and_Genome, 02/2021 [11] Alberts, B., Johnson, A., Lewis, J., Raff, M., Roberts, K., & Walter, P The structure and function of DNA In Molecular Biology of the Cell 4th edition Garland Science, 2002 [12] Woese, C R., Kandler, O., & Wheelis, M L (1990) Towards a natural system of organisms: proposal for the domains Archaea, Bacteria, and Eucarya Proceedings of the National Academy of Sciences, 87(12), 45764579 [13] Sanger F, Nicklen S, Coulson AR DNA sequencing with chain-terminating inhibitors Proceedings of the national academy of sciences 74.12 (1977): 5463-5467 [14] Shendure, J., Ji, H Next-generation DNA sequencing Nature biotechnology 26.10 (2008): 1135-1145 [15] Metzker, M L Sequencing technologies—the next generation Nature reviews genetics 11.1 (2010): 31-46 [16] J G Black, Microbiology, 8th ed US: Wiley, January 2012 [17] Bohlin J Genomic signatures in microbes - properties and applications The Scientific World Journal 2011;11:715-725 [18] Mesbah, M.K., Premachandran, U., & Whitman, W.B (1989) Precise Measurement of the G+C Content of Deoxyribonucleic Acid by HighPerformance Liquid Chromatography International Journal of Systematic and Evolutionary Microbiology, 39, 159-167, April 2011 [19] Muto A, Osawa S The guanine and cytosine content of genomic DNA and bacterial evolution Proc Natl Acad Sci USA 1987;84(1):166-169 [20] Sueoka N On the genetic basis of variation and heterogeneity of DNA base composition Proc Natl Acad Sci USA 1962 Apr 15;48:582–592 53 [21] Gori, F., Mavroedis, D., Jetten, M S., & Marchiori, E Genomic signatures for metagenomic data analysis: Exploiting the reverse complementarity of tetranucleotides In 2011 IEEE International Conference on Systems Biology (ISB) Sep 2011: 149-154 [22] Jeffrey, H J Chaos game representation of gene structure Nucleic acids research vol 18,8 (1990): 2163-70 [23] Saeed, I., & Halgamuge, S K The oligonucleotide frequency derived error gradient and its application to the binning of metagenome fragments BMC genomics Vol 10 No S3, 1-13 BioMed Central, 2009 [24] Dalevi D, Dubhashi D, Hermansson M Bayesian classifiers for detecting HGT using fixed and variable order markov models of genomic signatures Bioinformatics 2006;22(5):517-522 [25] Bohlin, J., Skjerve, E & Ussery, D.W Reliability and applications of statistical methods based on oligonucleotide frequencies in bacterial and archaeal genomes BMC genomics 9.1 (2008): 104 [26] Kelley, D.R., Salzberg, S.L Clustering metagenomic sequences with interpolated Markov models BMC Bioinformatics 11.1 (2010): 544 [27] Pengyu N.,Yun X.,Wenhua C., and Weihua P - Metabinning: Hybrid metagenomic fragments binning using l-mers repeats and composition In The 6th International Conferenceon Bioinformatics and Biomedical Engineering (iCBBE2012), China, pp 375- 378 [28] Wu YW, Ye Y A novel abundance-based algorithm for binning metagenomic sequences using l-tuples J Comput Biol 2011;18(3):523-534 [29] Tanaseichuk O., Borneman J., and Jiang T - Separating metagenomic short reads into genomes via clustering Algorithms Mol Biol 7.1 (2012): 27 [30] Wang Y., Leung H C., Yiu S M., and Chin F Y - Metacluster 5.0: a tworound binning approach for metagenomic data for low-abundance species in a noisy sample, Bioinformatics, 28 (18) (2012) pp i356-i362 54 [31] Wang Y., Leung H C., Yiu S M., and Chin F Y - Metacluster 4.0: a novel binning Algorithm for ngs reads and huge number of species, Journal of Computational Biology, 19 (2) (2012) pp 241-249 [32] Olga T., James B., and Tao J - A probabilistic approach to accurate abundance-based binning of metagenomic reads, Algorithms in Bioinformatics, 7534 (2012) pp 404-416 [33] Patterson, David A John L Hennessy (1998) Computer Organization and Design, Second Edition, Morgan Kaufmann Publishers, p 715 ISBN 155860-428-6 [34] Czarnul, P., Proficz, J., & Drypczewski, K Survey of methodologies, approaches, and challenges in parallel programming using high-performance computing systems Scientific Programming, 2020 [35] Message Passing Interface Forum, MPI: A message-passing interface standard version 3.0, Sep 2012 [36] Flynn, Michael J (September 1972) Some Computer Organizations and Their Effectiveness IEEE Transactions on Computers C-21 (9): 948–960 [37] Singh, I Review Article Review on Parallel and Distributed Computing Scholars Journal of Engineering and Technology (SJET), 2013, 218-225 [38] Amdahl, G.M., Validity of the single processor approach to achieving large scale computer capability, in Proceedings of AFIPS Spring Joint Computer Conference, April 1967: 483-485 [39] Gustafson, J L Reevaluating Amdahl’s law Communications of ACM, Vol.31(5), pp 532-533, 1988 [40] Andrey K., Srijak B., Jonathan D., and JoshuaS W Unsupervised statistical clustering of environmental shotgun sequences, BMC Bioinformatics, 10.1 (2009): 316 [41] T C & Z D Nguyen, "Markovbin: An algorithm to cluster metagenomic reads using a mixture modeling of hierarchical distributions In Proceedings of 55 the International Conference on Bioinformatics, Computational Biology and Biomedical Informatics 2013 (pp 115-123)" [42] Wang, Y., Hu, H., & Li, X MBBC: an efficient approach for metagenomic binning based on clustering BMC bioinformatics, 16(1) (2015): 36 [43] Yang B, Peng Y, Qin J, Chin FYL Metacluster: unsupervised binning of environmental genomic fragments and taxonomic annotation In Proceedings of the first ACM international conference on bioinformatics and computational biology 2010: 170–179 [44] Liao R, Zhang R, Guan J, Zhou S A new unsupervised binning approach for metagenomic sequences based on n-grams and automatic feature weighting IEEE/ACM Trans Comput Biol Bioinform 2014;11(1):42–54 [45] Wu, Y W., Simmons, B A., & Singer, S W MaxBin 2.0: an automated binning algorithm to recover genomes from multiple metagenomic datasets Bioinformatics, 32(4) 2016: 605-607 [46] Vinh, L.V., Lang, T.V., Binh, L.T et al A two-phase binning algorithm using l-mer frequency on groups of non-overlapping reads Algorithms Mol Biol 10, (2015): [47] Fiannaca, A., La Paglia, L., La Rosa, M., Renda, G., Rizzo, R., Gaglio, S., & Urso, A Deep learning models for bacteria taxonomic classification of metagenomic data BMC bioinformatics, 19(7), 2018, 61-76 [48] Le, V V., Van Lang, T., & Van Hoai, T MetaAB-A Novel Abundance-Based Binning Approach for Metagenomic Sequences In International Conference on Nature of Computation and Communication Nov 2014: 132-141 [49] Kang, D D., Froula, J., Egan, R., & Wang, Z MetaBAT, an efficient tool for accurately reconstructing single genomes from complex microbial communities PeerJ, (2015): e1165 [50] Alneberg, J., Bjarnason, B S., de Bruijn, I., Schirmer, M., Quick, J., Ijaz, U Z., & Quince, C CONCOCT: clustering contigs on coverage and composition arXiv preprint arXiv (2013):1312.4038 56 [51] Herath, D., Tang, S L., Tandon, K., Ackland, D., & Halgamuge, S K CoMet: a workflow using contig coverage and composition for binning a metagenomic sample with high precision BMC bioinformatics, 18(16) (2017): 571 [52] Lu, Y Y., Chen, T., Fuhrman, J A., & Sun, F COCACOLA: binning metagenomic contigs using sequence COmposition, read CoverAge, COalignment and paired-end read LinkAge Bioinformatics, 33(6) (2017): 791798 [53] Wood, D E., Lu, J., & Langmead, B Improved metagenomic analysis with Kraken Genome biology, 20(1), 2019, 257 [54] Liang, Q., Bible, P W., Liu, Y., Zou, B., & Wei, L DeepMicrobes: taxonomic classification for metagenomics with deep learning NAR Genomics and Bioinformatics, 2(1), 2020, lqaa009 [55] Van Le, V., Van Tran, H., Duong, H N., Bui, G X., & Van Tran, L Taxonomic assignment for large-scale metagenomic data on high-perfomance systems Journal of Computer Science and Cybernetics, 33(2), (2017): 119130 [56] Rasheed, Z., & Rangwala, H A map-reduce framework for clustering metagenomes In 2013 IEEE International Symposium on Parallel & Distributed Processing, Workshops and Phd Forum (2013, May): 549-558 [57] Yang, X., Zola, J., & Aluru, S Large-scale metagenomic sequence clustering on map-reduce clusters Journal of bioinformatics and computational biology, 11(01) (2013): 1340001 [58] Su, X., Xu, J., & Ning, K Parallel-META: efficient metagenomic data analysis based on high-performance computation BMC systems biology, 6(S1) (2012): S16 [59] Su, X., Pan, W., Song, B., Xu, J., & Ning, K Parallel-META 2.0: enhanced metagenomic data analysis with functional annotation, high performance computing and advanced visualization PloS one, 9(3) (2014): e89323 [60] Zhou F, Olman V, Xu Y Barcodes for genomes and applications BMC Bioinformatics 9.1 (2008): 1-11 57 [61] Chor B, David Horn NG, Levy Y, Massingham T Genomic dna k-mer spectra: models and modalities Genomic Biol 2009;10(10):R108 [62] Pham, D T., Dimov, S S., & Nguyen, C D 2005 Selection of K in K-means clustering Proceedings of the Institution of Mechanical Engineers, Part C: Journal of Mechanical Engineering Science, 219(1), 103-119 [63] Richter DC, Ott F, Auch AF, Schmid R, Huson DH Metasim - a sequencing simulator for genomics and metagenomics PLoS ONE 2008;3(10):e3373 [64] Girotto, S., Pizzi, C., & Comin, M MetaProb: accurate metagenomic reads binning based on probabilistic sequence signatures Bioinformatics, 32(17) (2016): i567-i575 [65] Tyson GW, Chapman J, Hugenholtz P, Allen EE, Ram RJ, Richardson PM, et al Community structure and metabolism through reconstruction of microbial genomes from the environment Nature 2004;428(6978):37–43 [66] Masud, M A., Rahman, M M., Bhadra, S., & Saha, S Improved k-means Algorithm using Density Estimation In 2019 International Conference on Sustainable Technologies for Industry 4.0 (STI) (Dec 2019): 1-6 [67] Krishna, K., & Murty, M N Genetic K-means algorithm IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 29(3) (1999): 433439 58 DANH MỤC CƠNG TRÌNH CƠNG BỐ Vu Hoang, Vinh Le Van, Hoai Tran Van, Lang Tran Van and Bao Huynh Quang Parallel algorithm for the unsupervised binning of metagenomic sequences ICMLSC 2021, The 5th International Conference on Machine Learning and Soft Computing (ACM Conference Proceedings), Sanya, China, January, 2021 59 60 61 62 63 64 65 ... không nhỏ cho nhà nghiên cứu 1.2 Bài toán gom cụm trình tự metagenomic Bài tốn gom cụm trình tự metagenomic vấn đề quan trọng cần giải phân tích liệu metagenomic Mục tiêu tốn phân chia trình tự (gọi... cho tốn gom cụm trình tự Hay giải pháp Yang cộng [57] sử dụng mô hình map-reduce cho tốn gom cụm phân loại trình tự đồng thời xây dựng giải pháp metagenomic dựa mơ hình đám mây (cloud) Giải pháp. .. tự 2.3.2 Giải mã trình tự Giai đoạn mẫu DNA tiến hành giải mã trình tự Giải mã trình tự việc xác định dãy nucleotide tạo nên trình tự Phương pháp Sanger [13] cơng nghệ giải mã trình tự sử dụng