Ứng dụng tiếp cận unsupervised data augmentation và deep embedding trong phân cụm dữ liệu metagenomics

MỤC LỤC

C HƯƠNG 1 G IỚI THIỆU

  • G IỚI THIỆU CHUNG VỀ METAGENOMICS
    • V ẤN ĐỀ PHÂN CỤM TRONG BÀI TOÁN METAGENOMICS

      Gần đây, các nghiên cứu về hướng tiếp cận học sâu cho bài toán phân cụm đã đạt được những cải tiến đáng kể về hiệu suất phân cụm bằng việc tận dụng sức mạnh của mạng neuron trong việc biến đổi không gian dữ liệu đầu vào sang không gian ẩn (latent space) sử dụng các phép biến đổi phi tuyến nhằm biểu diễn dữ liệu ở dạng cô động hơn, thuận lợi cho việc phân cụm. Điểm đáng chú ý của phương pháp này là thay vì tách biệt quá trình học biến đổi không gian dữ liệu sang không gian ẩn và quá trình phân cụm, nghiên cứu này đề xuất phương pháp học đồng thời biểu diễn của dữ liệu sử dụng kiến trúc autoencoder và hướng biểu diễn học được tới mục tiêu phân cụm bằng cách tối ưu hóa các hàm mục tiêu hướng phân cụm (clustering-oriented) bằng phương pháp SGD (Stochastic Gradient Descent).

      Hình 1.1.1: Ví dụ về công nghệ phân đoạn tạo ra các trình tự có thông tin chồng lắp [5].
      Hình 1.1.1: Ví dụ về công nghệ phân đoạn tạo ra các trình tự có thông tin chồng lắp [5].

      K IẾN THỨC NỀN TẢNG

      K IẾN THỨC SƠ BỘ VỀ METAGENOMICS

        Với hai trình tự được so sánh, tỷ lệ tương đồng càng cao thì xác suất hai trình tự thuộc về cùng một loài càng lớn và ngược lại, tỷ lệ tương đồng càng thấp thì xác suất hai trình tự thuộc về hai loài khác nhau càng cao. Độ phong phú không cân đối cũng là một thách thức trong bài toán phân cụm dữ liệu metagenomics (trong ngữ cảnh các bài toán học máy trên dữ liệu thông thường còn gọi là dữ liệu imbalanced), vì một hay một số loài có số lượng trình tự áp đảo các loài còn lại.

        Hình 2.1.1: Mô tả các thành phần của đoạn DNA [11].
        Hình 2.1.1: Mô tả các thành phần của đoạn DNA [11].

        C ÁC CÔNG TRÌNH LIÊN QUAN

        C ÁC CÔNG TRÌNH LIÊN QUAN PHÂN CỤM METAGENOMICS

          MetaCluster [23], MetaCluster3.0 [24] phân tách các trình tự thành biểu diễn tần sốk-mer, sau đó phân cụm biểu diễn này sử dụng giải thuậtk-means với độ đo khoảng cách Spearman Footrule để tính độ tương đồng giữa các biểu diễn tần số k-mer của trình tự. Nhưng các nghiên cứu này không thể xử lý tốt các tập dữ liệu mà độ dài các chuỗi gen ngắn cũng như các tập dữ liệu có tỷ lệ các loài không cân đối [2]. Để xử lý vấn đề các chuỗi gen có độ dài ngắn, nhiều nghiên cứu đề xuất các giải thuật có thêm một bước để gom nhóm các trình tự ngắn có quan hệ sinh học gần nhau bằng cách tận dụng sự chồng lắp thông tin giữa các trình tự.

          MetaCluster4.0 [2], MetaCluster5.0 [25] sử dụng phương pháp dựa trên mô hình xác suất dể gom nhóm các trình tự mà có khả năng chúng cùng thuộc về 1 chuỗi gen (có nghĩa là các trình tự ngắn này có khả năng là các phần nhỏ của cùng 1 chuỗi gen hoàn chỉnh). BiMeta [26] và MetaProb [27] sử dụng một giải thuật dựa trên cấu trúc dữ liệu đồ thị để mô hình hóa quan hệ giữa các trình tự ngắn có sự chồng lấp về chuỗi conl-mer, các nhóm những trình tự cần được nhóm mà có khả năng biểu diễn chuỗi gen hoàn chỉnh cũng là tập độc lập (independent set) của đồ thị. GraphBin [28], thay vì có một bước dể gom nhóm các read có quan hệ sinh học gần gũi như các nghiên cứu trên, nghiên cứu này tận dụng đồ thị tổ hợp (assembly graph), là kết quả của các công cụ binning có sẵn (những công cụ này chỉ hoạt động tốt trên các tập dữ liệu mà chuỗi trình tự dài hơn 1000bp [28] như MaxBin2 [29]) để lọc lại kết quả phân cụm cho các trình tự ngắn bằng cách sử dụng giải thuật lan truyền nhãn (label propagation).

          Trong những nghiên cứu này (GraphBin, BiMeta, MetaProb), đồ thị có các đỉnh là các read và mỗi cạnh là kết nổi giữa 2 read nếu 2 read đó có quan hệ loài với nhau (hay có sự chồng lắp thông tin).

          C ÁC CÔNG TRÌNH LIÊN QUAN PHÂN CỤM ỨNG DỤNG MÔ HÌNH HỌC SÂU

            Một số phương pháp biến đổi dữ liệu thường gặp: tuyến tính như PCA [30], phi tuyến như nhóm phương pháp kernel [31] hay nhóm phương pháp phổ (như phân cụm phổ-spectral clustering [32]). Gần đây, các nghiên cứu về học sâu trong bài toán phân cụm đạt được những cải tiến đáng kể về hiệu suất phân cụm bằng cách tận dụng sức mạnh của mạng neuron trong việc biến đổi từ không gian dữ liệu sang không gian đặc tính biểu diễn dữ liệu (feature space) bằng các phép biến đổi phi tuyến, những nghiên cứu này mở ra cách tiếp cận hướng dữ liệu (data driven) trong việc học đặc tính ẩn (latent space) của dữ liệu và hướng những đặc tính học được này cho mục tiêu phân cụm mà không có bất cứ giả định nào về phân bố của dữ liệu hay đặc tính ẩn của dữ liệu. Trong giới hạn của luận văn, các công trình liên quan phân cụm ứng dụng học sâu được phân loại thành hai nhóm chính: áp dụng kiến trúc autoencoder (gọi tắt là AE-based), áp dụng kiến trúc variational autoencoder, gọi tắt là VAE-based.

            Một trong những nghiên cứu đột phá và đầu tiên nhất về áp dụng học sâu trong bài toán phân cụm là DEC [7] - phương pháp này học đồng thời biểu diễn của dữ liệu và gán cụm dựa trên biểu diễn học được áp dụng kiến trúc bộ mã hóa tự động. Cụ thể, DEC bao gồm 2 bước, đầu tiên, sử dụng mô hình autoencoder để học không gian ẩn của dữ liệu, pha tiếp theo là bước tối ưu hóa phân cụm, DEC chỉ dùng encoder để sinh không gian ẩn từ dữ liệu đầu vào, không gian ẩn này được dùng để khởi tạo tâm cụm. ADEC [35] cải tiến đáng kể hiệu suất phân cụm so với DEC và IDEC bằng cách cải thiện nhiều yếu tố, đáng kể nhất là hai yếu tố sau: thứ nhất, sử dụng ý tưởng đưa vào mô hình autoencoder yếu tố nội suy trên không gian ẩn (latent space), vốn được chỉ ra là có thể cải thiện chất lượng của không gian ẩn (đánh giá hiệu năng trên các bài toán như phân loại, học bán giám sát sử dụng không gian ẩn học được này) từ nghiên cứu ACAI [36], thứ hai, tác giả sử dụng cách huấn luận đối kháng của mô hình sinh GAN (Generative adversarial networks) [37] nhằm giảm sự xung đột của các hàm mất mát đa mục tiêu trong cùng một mạng neuron.

            Do đó, giải thuật chọn hỗn hợp Gaussian làm tiên nghiệm, và huấn luyện mô hình sinh ra các phân bố không gian ẩn tuân theo hỗn hợp Gaussian, mỗi một phân bố trong hỗn hộp là đại diện cho một cụm.

            Hình 3.2.1: Quá trình sinh dữ liệu của mô hình VaDE [38].
            Hình 3.2.1: Quá trình sinh dữ liệu của mô hình VaDE [38].

            K ẾT QUẢ THÍ NGHIỆM

            • K ẾT QUẢ

              Nghiên cứu so sánh phương pháp đề xuất với các nghiên cứu nổi bật về phân cụm metagenomics như BiMeta, MetaCluster 2.0, MetaCluster 5.0, AbundanceBin. Phương pháp ADEC đạt được hiệu suất tốt nhất trong bốn phương pháp đề xuất (DEC, IDEC, ADEC, và VaDE), chi tiết về tương quan hiệu suất của bốn phương pháp được trình bày trong mục5.4.3. Để đánh giá khả năng phân cụm của giải thuật với các tập dữ liệu có mức độ phong phú khác nhau, MetaDEC được so sánh với BiMeta và AbundanceBin trên các tập dữ liệu từ L1 đến L6.

              Cần chú ý là AbundanceBin là giải thuật phân cụm tập trung vào việc phân loại trình tự dựa trên thông tin về độ phong phú của loài trong tập dữ liệu. Từ đó, không thể kết luận phương pháp đề xuất thể hiện tốt hơn khi tăng hay giảm giá trị kích cỡ nhóm, cả trên dữ liệu trình tự ngắn hay dữ liệu trình tự dài. Vì vậy, khi kích cỡ nhóm lớn, một kết quả gán cụm sai hoặc đúng, sẽ ảnh hưởng rất lớn tới hiệu suất vì nó dẫn tới sự gán cụm sai hoặc đúng tới tất cả các trình tự thuộc về nhóm đó.

              Thí nghiệm được tiến hành trên bốn kiến trúc mạng với độ phức tạp tăng dần bao gồm Tiny,Small, Large, andXlarge(chi tiết cấu hình của từng mạng được trình bài trong mục phụ lụcA.1(Các loại kiến trúc). Từ kết quả trên, thí nghiệm chỉ ra rằng, nếu sử dụng kiến trúc quá nông, mô hình không đủ khả năng để học biểu diễn không gian ẩn có ý nghĩa diễn đạt không gian dữ liệu ban đầu. Ngược lại, không gian ẩn của kiến trúcSmallvàLargesinh ra có hình dạng lồi hơn, do đó, cho ra kết quả khởi tạo cụm tốt hơn vì giải thuật k-means hoạt động tốt hơn trên các phân bố dữ liệu có dạng lồi.

              Bảng 5.2.1: Mô tả các tập dữ liệu mô phỏng.
              Bảng 5.2.1: Mô tả các tập dữ liệu mô phỏng.

              K ẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

              K ẾT LUẬN

              Toàn bộ mã hiện thực và các tập dữ liệu được dùng trong thí nghiệm có thể được tải từ websitehttps://bioinfolab.fit.hcmute.edu.vn/MetaDEC.

              T ÀI LIỆU THAM KHẢO

              Goriet al., “Genomic signatures for metagenomic data analysis: Exploiting the re- verse complementarity of tetranucleotides,”International Conference on Systems Biology (ISB), pp. Husonet al., “Megan community edition-interactive exploration and analysis of large-scale microbiome sequencing data,”PLoS computational biology, vol. Diazet al., “Tacoa–taxonomic classification of environmental genomic fragments using a kernelized nearest neighbor approach,”BMC bioinformatics, vol.

              Leung et al., “A robust and accurate binning algorithm for metagenomic sequences with arbitrary species abundance ratio,”Bioinformatics, vol. Wanget al., “Metacluster 5.0: a two-round binning approach for metagenomic data for low-abundance species in a noisy sample,”BIOINFORMATICS, 2012. Vinhet al., “A two-phase binning algorithm using l-mer frequency on groups of non-overlapping reads,”Algorithms for Molecular Biology, 2015.

              Dizaji et al., “Deep clustering via joint convolutional autoencoder embed- ding and relative entropy minimization,” Internet:https://arxiv.org/abs/1704.06327, 2020/07/08.

              P HỤ LỤC A P HỤ LỤC

              C ÁC LOẠI KIẾN TRÚC

              Lớp cuối của critic có 10 chiều, sau đó được lấy trung bình về giá trị đơn.