Tuy nhiên, việc ứng dụngsức mạnh của các mô hình học sâu không giám sát để phân loại các trình tự metagenomicsvẫn còn là một vấn đề mở.Luận văn đề xuất giải thuật cho bài toán phân cụm d
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
HUỲNH QUANG BẢO
TIẾP CẬN UNSUPERVISED DATA AUGMENTATION
VÀ DEEP EMBEDDING TRONG PHÂN CỤM DỮ LIỆU
METAGENOMICS TOWARD UNSUPERVISED DATA AUGMENTATION AND
DEEP EMBEDDING IN METAGENOMIC DATA
CLUSTERING
Chuyên ngành: Khoa Học Máy Tính
Mã số: 8.48.01.01
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 08 năm 2021
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI:
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học 1: PGS.TS Trần Văn Hoài
Cán bộ hướng dẫn khoa học 2: TS Lê Văn Vinh
Cán bộ chấm nhận xét 1 : PGS.TS Nguyễn Tuấn Đăng
Cán bộ chấm nhận xét 2 : TS Lê Thanh Vân
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG
Tp HCM ngày 05 tháng 08 năm 2021 (trực tuyến).
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1 PGS.TS Thoại Nam - Chủ tịch
2 TS Lê Thành Sách - Thư ký
3 TS Lê Thanh Vân - Phản biện 1
4 PGS.TS Nguyễn Tuấn Đăng - Phản biện 2
5 TS Nguyễn Văn Sinh - Uỷ viên
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA
KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
PGS.TS Thoại Nam
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Huỳnh Quang Bảo MSHV: 1870340 Ngày, tháng, năm sinh: 01/05/1995 Nơi sinh: Cần Giuộc
Chuyên ngành: Khoa Học Máy Tính Mã số : 8.48.01.01
I TÊN ĐỀ TÀI: Tiếp cận unsupervised data augmentation và deep embedding trong phân cụm dữ liệu metagenomics
1 Tìm hiểu ngữ cảnh, các công trình liên quan đến bài toán phân cụm dữ liệu
metagenomics
2 Tìm hiểu các công trình về phân cụm ứng dụng mô hình học sâu không giám sát
3 Hiện thực giải thuật phân cụm ứng dụng mô hình học sâu không giám sát trên dữ liệu
III NGÀY GIAO NHIỆM VỤ : 24/02/2020
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 13/06/2021
V CÁN BỘ HƯỚNG DẪN : PGS.TS Trần Văn Hoài và TS Lê Văn Vinh
TS Lê Văn Vinh
CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
(Họ tên và chữ ký)
TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)
Trang 4LỜI CẢM ƠN
Để hoàn thành luận văn này, tôi xin chân thành cảm ơn PGS.TS Trần Văn Hoài (khoa KhoaHọc và Kỹ Thuật Máy Tính, trường Đại học Bách Khoa TPHCM) đã trực tiếp dẫn dắt, địnhhướng tôi trong suốt quá trình thực hiện luận văn Xin cảm ơn những hướng dẫn của thầy
về phương pháp nghiên cứu khoa học, cũng như các kiến thức chuyên môn đã áp dụngvào luận văn
Tôi cũng xin chân thành cảm ơn TS Lê Văn Vinh (khoa Công Nghệ Thông Tin, trườngđại học Sư Phạm Kỹ Thuật, TPHCM) đã tận tình chỉ dẫn những kiến thức chuyên ngành
về lĩnh vực metagenomics, cũng như dành nhiều thời gian giúp tôi hoàn thiện bài báokhoa học và luận văn Cảm ơn thầy đã luôn tạo điều kiện thuận lợi trong việc truy cập hệthống máy tính lớn trong quá trình thực nghiệm trên các tập dữ liệu phức tạp
Nghiên cứu trong luận văn được tài trợ bởi đề tài loại B của Đại Học Quốc Gia TPHCM(B2019-20-06)
Trang 5TÓM TẮTViệc nghiên cứu các trình tự metagenomics mang lại sự hiểu biết về môi trường vi sinhvật Một trong những bước quan trọng trong mọi dự án về metagenomics là phân loạicác trình tự về nhóm các loài khác nhau, được gọi là “phân cụm” hay “binning” trongngữ cảnh metagenomics Để giải quyết vấn đề thiếu hụt cơ sở dữ liệu tham khảo, một vàiphương pháp hiện có áp dụng các quy trình học không giám sát Tuy nhiên, việc ứng dụngsức mạnh của các mô hình học sâu không giám sát để phân loại các trình tự metagenomicsvẫn còn là một vấn đề mở.
Luận văn đề xuất giải thuật cho bài toán phân cụm dữ liệu metagenomics gọi làMetaDEC Phương pháp được đề xuất hướng tiếp cận áp dụng mô hình học sâu khônggiám sát, do đó nó không yêu cầu các cơ sở dữ liệu tham khảo Các kết quả thí nghiệm chothấy phương pháp được đề xuất trong luận văn đạt hiệu suất cạnh tranh so với các côngtrình hiện tại trong lĩnh vực trên cả dữ liệu mô phỏng và dữ liệu thật
Trang 6ABSTRACTThe study of metagenomic sequences brings a deep understanding of microbial com-munities One of the key steps in metagenomic projects is to classify sequences into groups
of different organisms, which is referred to as “binning” Due to the lack of a referencedatabase, some existing binning algorithms apply unsupervised learning processes How-ever, utilizing the strength of deep unsupervised learning for classifying metagenomicsequences is still an open problem
This work proposes a binning algorithm for metagenomic sequences called MetaDEC.The proposed method applies a deep unsupervised learning approach, and it thus doesnot require any reference database The experimental results show that MetaDEC achieves
a very competitive performance in comparison to available methods on both simulatedand real metagenomic data
Trang 7LỜI CAM ĐOANTôi xin cam đoạn kết quả, nội dung được trình bày trong luận văn này là do tôi nghiêncứu, dưới sự hướng dẫn của PGS.TS Trần Văn Hoài và TS Lê Văn Vinh Các kết quả, sốliệu trong luận văn là trung thực, và chưa từng được công bố Các tài liệu được sử dụngtrong luận văn được trích dẫn rõ ràng, đầy đủ.
Học viên
Huỳnh Quang Bảo
Trang 8M ỤC LỤC
1.1 Giới thiệu chung về metagenomics 1
1.1.1 Trích xuất DNA (DNA Extraction) 2
1.1.2 Phân đoạn (Sequencing) 2
1.1.3 Tái cấu trúc chuỗi/phân cụm (Assembly/Binning) 3
1.1.4 Gán nhãn gen (Genomic Annotation) 4
1.1.5 Tái tạo quá trình trao đổi chất trong hệ sinh thái (Metabolic Recon-struction) 5
1.2 Vấn đề phân cụm trong bài toán metagenomics 6
1.2.1 Tổng quan về phân cụm 6
1.2.2 Học sâu trong bài toán phân cụm 7
1.2.3 Vai trò bài toán phân cụm trong lĩnh vực metagenomics 7
1.3 Vấn đề tồn tại 8
1.4 Mục tiêu luận văn 8
2 Kiến thức nền tảng 10 2.1 Kiến thức sơ bộ về metagenomics 10
2.1.1 Tổng quan về DNA 10
2.1.2 Đặc trưng trình tự cho bài toán phân cụm 10
2.1.3 Độ phong phú 12
2.2 Sơ bộ về một số mô hình học sâu 12
2.2.1 Kiến trúc autoencoder (AE) 12
2.2.2 Kiến trúc variational autoencoder (VAE) 13
3 Các công trình liên quan 18 3.1 Các công trình liên quan phân cụm metagenomics 18
Trang 93.1.1 Phương pháp có giám sát 18
3.1.2 Phương pháp không giám sát 19
3.2 Các công trình liên quan phân cụm ứng dụng mô hình học sâu 19
3.2.1 AE-based 20
3.2.2 VAE-based 21
4 Phương pháp 24 4.1 Pha 1: Gom nhóm trình tự và xây dựng các seed 24
4.2 Pha 2: Phân cụm các nhóm trình tự sử dụng học sâu 26
4.2.1 DEC 28
4.2.2 IDEC 31
4.2.3 ADEC 34
4.2.4 VaDE 37
5 Kết quả thí nghiệm 39 5.1 Độ đo hiệu suất 39
5.2 Tập dữ liệu 40
5.3 Tham số huấn luyện 42
5.4 Kết quả 42
5.4.1 Kết quả trên các tập dữ liệu mô phỏng 42
5.4.2 Kết quả trên dữ liệu thật 46
5.4.3 So sánh các phương pháp đề xuất 46
5.4.4 Đánh giá ảnh hưởng của tham số kích cỡ nhóm trình tự 51
5.4.5 Đánh giá độ sâu của mô hình 53
6 Kết luận và hướng phát triển 56 6.1 Kết luận 56
6.2 Hướng phát triển 57
7 Công trình nghiên cứu 58 Tài liệu tham khảo 59 A Phụ lục 63 A.1 Các loại kiến trúc 63
A.2 Biểu diễn trực quan không gian ẩn 64
Trang 10Lý lịch trích ngang 69
Quá trình công tác 69
Trang 11D ANH SÁCH HÌNH VẼ
1.1.1 Ví dụ về công nghệ phân đoạn 4
1.1.2 Metagenomics là gì? 5
1.1.3 Các bước phân tích dữ liệu metagenomic 6
2.1.1 Mô tả các thành phần của đoạn DNA 11
2.2.1 Kiến trúc tổng quá của mô hình autoencoder 13
2.2.2 Kiến trúc tổng quá của mô hình VAE 15
2.2.3 Mô tả các thành phần của hàm mất mát trong mô hình VAE 16
2.2.4 Mô tả trực quan các thành phần của mô hình VAE 16
2.2.5 Mẹo chuyển tham số trong VAE 17
3.2.1 Quá trình sinh dữ liệu của mô hình VaDE 23
4.1.1 Tổng quan về giải pháp đề xuất 26
4.2.1 Tổng quan bước khởi tạo cụm của DEC 29
4.2.2 Tổng quan bước tối ưu phân cụm của DEC 31
4.2.3 Tổng quan bước tối ưu phân cụm của IDEC 33
4.2.4 Tổng quan bước khởi tạo cụm của ADEC 35
4.2.5 Tổng quan bước tối ưu phân cụm của ADEC 38
5.4.1 Precision và recall của MetaCluster 5.0, BiMeta, và MetaDEC trên các tập S 43 5.4.2 F-measure của MetaCluster 5.0, BiMeta, và MetaDEC trên các tập L 44
5.4.3 Precision và recall của MetaCluster 5.0, BiMeta, và MetaDEC trên các tập R 46 5.4.4 Precision và recall của DEC, IDEC, và ADEC trên các tập S 47
5.4.5 Precision và recall của DEC, IDEC, và ADEC trên các tập L 48
5.4.6 Precision và recall của DEC, IDEC, và ADEC trên các tập R 49
5.4.7 F-measure của MetaDEC với các giá trị kích cỡ nhóm khác nhau trên tập S 51
Trang 125.4.8 F-measure của MetaDEC với các giá trị kích cỡ nhóm khác nhau trên tập L 52
5.4.9 F-measure của MetaDEC với các giá trị kích cỡ nhóm khác nhau trên tập R 52
5.4.10F-measure của MetaDEC với các kiến trúc mạng khác nhau 54
5.4.11Thời gian tính toán của MetaDEC 55
A.2.1Biểu diễn trực quan của R3 và S5 trên kiến trúc Tiny 65
A.2.2Biểu diễn trực quan của R3 và S5 trên kiến trúc Small 66
A.2.3Biểu diễn trực quan của R3 và S5 trên kiến trúc Large 67
A.2.4Biểu diễn trực quan của R3 và S5 trên kiến trúc Xlarge 68
Trang 13D ANH SÁCH BẢNG
5.2.1 Mô tả các tập dữ liệu mô phỏng 41
5.4.1 Hiệu suất F-measure của MetaCluster 5.0, BiMeta, và MetaDEC trên các tập S 44 5.4.2 Hiệu suất F-measure của MetaCluster 5.0, BiMeta, và MetaDEC trên các tập R 45 5.4.3 Hiệu suất F-measure của DEC, IDEC, và ADEC trên các tập S 48
5.4.4 Hiệu suất F-measure của DEC, IDEC, và ADEC trên các tập L 49
5.4.5 Hiệu suất F-measure của DEC, IDEC, và ADEC trên các tập R 50
A.1.1Chi tiết kiến trúc encoder 63
A.1.2Chi tiết kiến trúc decoder 64
A.1.3Chi tiết kiến trúc critic 64
A.1.4Chi tiết kiến trúc discriminator 64
Trang 14DANH SÁCH TỪ VIẾT TẮT, THUẬT NGỮ
DANH SÁCH TỪ VIẾT TẮT
DNA: Deoxyribonucleic acid
bp: base pair - đơn vị độ dài của trình tự DNA
NGS: next-generation sequencing - công nghệ phân đoạn gen thế mới tiếp theo
SGD: Stochastic Gradient Descent - giải thuật tối ưu hóa mạng sâu
MSE: mean square error
ELBO: evidence lower bound
DANH SÁCH THUẬT NGỮ
Abundance ratio: độ phong phú - chỉ tỷ lệ giữa các loài trong một tập dữ liệu
k-mer : chuỗi con DNA có độ dài k Trong luận văn, k trong k-mer hoàn toàn không liên quan đến tham số k trong giải thuật k-means.
l-mer : chuỗi con DNA có độ dài l.
contig: hệ gen, tổng hợp các phân tử DNA tạo nên thông tin di truyền của loài
Trang 15C HƯƠNG 1
1.1 G IỚI THIỆU CHUNG VỀ METAGENOMICS
Vi sinh vật (ví dụ như vi-rút, nấm) đóng vai trò quan trọng với sự sống trên Trái Đất, vìchúng là nguồn trao đổi chất đầu tiên, nơi mà các phản ứng của các nguyên tố cơ bản(như carbon, nitrogen, oxigen) xảy ra để cung cấp nguồn dinh dưỡng cho các bật sinh vậtcao hơn như cây cối hay động vật Do đó, việc nghiên cứu về vi sinh vật sẽ mang lại rấtnhiều lợi ích cho nhiều lĩnh vực, như y học, nông nghiệp, môi trường, năng lượng sinhhọc Nghiên cứu về khảo sát các tiến bộ metagenomics [1] cho thấy:
• Các tiến bộ về sinh học phân tử và các học thuyết tiến hóa về gen vào cuối thế kỷ 20
đã mang lại tri thức toàn diện về các đặc tính vật lý, hóa học cũng như vén màn bí ẩnđằng sau chuỗi gen của các vi sinh vật Tuy nhiên, hầu hết các nghiên cứu về vi sinhvật thời điểm này được tiến hành trên vi sinh vật được nuôi cấy trong môi trườngphòng thí nghiệm Những tri thức từ phòng thí nghiệm, tuy giúp cung cấp kiến thứctoàn vẹn về một số loài vi sinh vật nhất định, nó lại thiếu ngữ cảnh về quần thể sinhhọc (ecologial context), do đó, các nghiên cứu không thể tìm ra sự tương tác loài giữacác vi sinh vật trong quá trình nghiên cứu Tương tác loài trong quần thể, vốn là yếu
tố quan trọng, vì trong môi trường thực tế, luôn có rất nhiều loài cùng tồn tại Tuynhiên việc tái tạo toàn bộ môi trường thực tế trong phòng thí nghiệm là hoàn toànkhông khả thi
Nghiên cứu [2] chỉ ra rằng, hầu hết (khoảng 99%) các loài nấm được lấy mẫu trong môitrường tự nhiên hiện không tồn tại trong các cơ sở dữ liệu sẵn có, và những loại nấm này
Trang 16Với các điểm yếu hiện có với phương pháp nghiên cứu dựa trên mẫu từ phòng thí
nghiệm, những năm gần đây (đầu thế kỷ 21), ngành khoa học gọi là metagenomics xuất
hiện và thu hút nhiều sự chú ý vì nó cung cấp khả năng nghiên cứu các chuỗi gen của
vi sinh vật trong môi trường tự nhiên, vốn không khả thi để nuôi cấy trong môi trườngphòng thí nghiệm [1] Hình1.1.2cho thấy các môi trường lấy mẫu cho các nghiên cứu vềmetagenomics, vốn bao trùm toàn bộ môi trường sống, cả trong và ngoài Trái Đất như:đất, nước, cơ thể người (ruột), và không gian Những chuỗi gen được lấy mẫu sau đó đượcphân tích để nghiên cứu sâu hơn về hệ sinh thái
Quá trình nghiên cứu dữ liệu metgenomics bao gồm nhiều bước (tham khảo hình
1.1.3): Trích xuất DNA (DNA Extraction), phân đoạn (Sequencing), tái cấu trúc chuỗi/phâncụm (Assembly/Binning), gán nhãn gen (Genomic Annotation), tái tạo quá trình trao đổichất trong hệ sinh thái (Metabolic Reconstruction)
1.1.1 TRÍCH XUẤT DNA (DNA EXTRACTION)
Vì các mẫu thường được lấy từ môi trường tự nhiên như đất, nước Bước này sẽ trích xuấtDNA từ các mẫu thu thập trong môi trường Đây là bước đầu tiên và cốt yếu nhất trongbất kỳ dự án về metagenomics nào DNA được trích xuất phải đủ thông tin đại diện chotất cả các tế bào xuất hiện trong mẫu thu thập và phải có số lượng đủ các axit nucleic chấtlượng cao nhằm phục vụ cho các bước kế tiếp Quy trình xử lý còn đòi hỏi các giao thứctương thích cho từng loại mẫu, tùy thuộc vào môi trường lấy mẫu là gì Ví dụ môi trườnglấy mẫu là môi trường vật chủ như ruột người, khi đó, các đoạn gen của vật chủ sẽ chiếmphần lớn các gen thu được Trong khi đó, với môi trường đất, hàm lượng các yếu tố vật lýnhư phân tử khoáng chiếm đa số, làm cho năng suất thu hoạch DNA (DNA yield) trongcác mẫu này rất thấp [3]
1.1.2 PHÂN ĐOẠN (SEQUENCING)
Phân đoạn là quá trình xác định chuỗi nucleotide trong mẫu DNA, có thể hiểu là quátrình số hóa mẫu DNA (ví dụ: ATGACTGATTA, AGTGATCG): một chuỗi gen gồm 4loại nucleotide: adenine (A), thymine (T), guanine (G), and cytosine (C) Trong bài toánmetagenomics, các công nghệ phân đoạn không ngừng được phát triển Trong vòng 10năm, các nghiên cứu về metagenomics dần chuyển từ công nghệ phân đoạn Sanger [4]sang các công nghệ phân đoạn thế hệ mới (next-generation sequencing - NGS) Mặc dù
Trang 17vậy, các trình tự nucleotide sinh ra bởi công nghệ Sanger vẫn được xem là tiêu chuẩn vàngcho các bước phân tích metagenomics, vì các trình tự sinh ra dài (chuỗi trình tự càng dài,càng chứa nhiều thông tin di truyền), ít lỗi Do đó, công nghệ này vẫn được sử dụng chonhững trường hợp cần tái tạo trình tự dài (gần đúng) trong các môi trường có độ phongphú loài thấp Một trong những điểm yếu của Sanger là chi phí cao, vào khoảng 400,000$cho việc số hóa một tỷ nucleotide [3].
Các công nghệ NGS, như 454 pyrosequencing hay Illumina Genome Analyzer (hay ngắngọn là Illumina) được sử dụng rộng rãi hơn So với Sanger, công nghệ 454 pyrosequencing
có khả năng sinh ra các trình tự dài, khoảng 600-800bp, với giá khoảng 20,000$ trên 1 tỷnucleotide [3] Công nghệ Illunima sinh ra các trình tự ngắn hơn nhiều so với công nghệ
454 pyrosequencing, khoảng 60-150bp, với giá thành rẻ hơn rất nhiều, khoảng 50$ trên 1 tỷnucleotide [3] Tuy nhiên, các công nghê NGS chứa nhiều lỗi hơn so với Sanger, cũng nhưcác trình tự sinh ra mang ít thông tin di truyền do độ dài hạn chế
Dù sử dụng công nghệ nào, các kỹ thuật đều nhân bản và cắt ngẫu nhiên các mẫuDNA Việc nhân bản và cắt ngẫu nhiên mẫu DNA sinh ra các trình tự có thông tin (chuỗicon) chồng lắp Trong ngữ cảnh của bài toán phân tích metagenomics, các thông tin chồnglắp này rất có lợi cho quá trình gom nhóm, ráp nối các trình tự ngắn thành các hệ gen hoànchỉnh Hình1.1.1minh họa các thông tin chồng lắp được sử dụng cho bài toán ráp nốichuỗi (assembly)
1.1.3 TÁI CẤU TRÚC CHUỖI/PHÂN CỤM (ASSEMBLY/BINNING)
Tái cấu trúc chuỗi (Assembly)là quá trình ráp nối các trình tự ngắn để đạt được các trình
tự dài hơn, chứa nhiều thông tin di truyền hơn, hay tốt nhất là có thể tái hiện lại hệ gen củamột loài nào đó Một trong những phương pháp thường được dùng là sử dụng các cơ sở
dữ liệu tham khảo và các thuật toán tìm kiếm cục bộ Tuy nhiên, các giải pháp trên không
có tính khả mở (scalability) khi đa số các loài được tìm thấy không nằm trong các cơ sở dữliệu hiện có Theo đánh giá từ nghiên cứu [3], bài toán này vẫn còn sơ khai, và rất khó đểđánh giá độ chính xác của các công trình nghiên cứu trên các bộ dữ liệu metagenomicsthật, vì thiếu dữ liệu tham khảo cho việc so sánh tính đúng đắn của các chuỗi gen được táicấu trúc Do đó, việc xây dựng một cơ sở dữ liệu tiêu chuẩn về dữ liệu metagenomics thật
là cấp thiết cho bài toán này
Phân cụm (Binning)là quá trình phân loại các trình tự có quan hệ loài gần gũi vào cácnhóm Nhiều giải thuật được đề xuất cho bài toán này, sử dụng chủ yếu hai loại thông
Trang 18Hình 1.1.1: Ví dụ về công nghệ phân đoạn tạo ra các trình tự có thông tin chồng lắp [5].
tin được trích xuất từ trình tự: thông tin hợp thành (compositional information) và giónghàng (alignment-based) Có hai hướng chính để phân loại dùng các thông tin trên Một là
sử dụng các cơ sở dữ liệu sẵn có để so sánh các trình tự với các loài đã biết Hai là dựa vàocác giải thuật không giám sát để phân cụm sử dụng thông tin hợp thành Tuy nhiên, hầuhết các phương pháp đều gặp khó khăn khi được áp dụng trên các tập dữ liệu có trình tựngắn
Đây cũng là bài toán mà luận văn tập trung nghiên cứu
1.1.4 GÁN NHÃN GEN (GENOMIC ANNOTATION)
Gán nhãn các gen vào các loài đã biết, đây được xem là bài toán có giám sát Hiện tại, việcgán nhãn cho dữ liệu metagenomics sử dụng các phương pháp phân loại trình tự về cácloài đã biết sử dụng các tập dữ liệu có nhãn Về lý thuyết, quá trình gán nhãn tương đốiđơn giản trên các tập dữ liệu nhỏ (dưới 10,000 trình tự) [3] Tuy nhiên, đối với các tập dữliệu lớn hơn, thời gian tính toán khá lớn vì phần lớn các phương pháp được áp dụng sửdụng phương pháp dựa trên tìm kiếm cục bộ, việc đánh đổi chi phí tính toán làm cho kết
Trang 19quả bài toán khó đạt nghiệm tối ưu Mặt khác, việc tạo nhãn cho dữ liệu metagenomicstương đối khó vì tính rộng lớn của lĩnh vực metagenomics.
1.1.5 TÁI TẠO QUÁ TRÌNH TRAO ĐỔI CHẤT TRONG HỆ SINH THÁI (METABOLIC
Trang 20Hình 1.1.3: Quá trình phân tích dữ liệu metagenomics gồm nhiều bước: trích xuất DNA,phân đoạn DNA, tái cấu trúc/phân cụm trình tự, Gán nhãn gen, tái cấu trúc hê sinh thái.
1.2 V ẤN ĐỀ PHÂN CỤM TRONG BÀI TOÁN METAGENOMICS
1.2.1 TỔNG QUAN VỀ PHÂN CỤM
Phân cụm (hay gọi là binning trong ngữ cảnh metagenomics) là bài toán căn bản trongcác ứng dụng hướng dữ liệu (data-driven application) như nhận diện mẫu, thị giác máytính, nén dữ liệu Mục tiêu nhằm phân loại các điểm dữ liệu tương đồng về cùng một cụmdựa trên một hàm đo độ tương đồng nào đó (ví dụ như khoảng cách Euclidian) Trong
đó, yếu tố ảnh hưởng lớn đến hiệu suất phân cụm là biểu diễn của dữ liệu Cụ thể, mộtbiểu diễn dữ liệu với số chiều lớn sẽ chứa nhiều thông tin hữu ích cho việc phân cụm,nhưng ngược lại, số chiều càng lớn thì chi phí tính toán càng cao (vấn đề này còn được gọi
là curse of dimensionality, được nhắc tới trong nghiên cứu [7]) Do đó, nhiều nghiên cứu
về bài toán phân cụm tập trung vào việc biến đổi không gian dữ liệu ban đầu về các biểudiễn cô đọng hơn, có ý nghĩa cho việc phân cụm, các phương pháp tập trung vào việc cảithiện các hàm ánh xạ hữu tuyến hoặc phi tuyến để biến đổi dữ liệu Gần đây, các nghiêncứu dần chuyển trọng tâm sang ứng dụng mạng học sâu vào quá trình biến đổi biểu diễn
dữ liệu và đạt được nhiều cải thiện đáng kể
Trang 211.2.2 HỌC SÂU TRONG BÀI TOÁN PHÂN CỤM
Mặc dù bài toán phân cụm được nghiên cứu rộng rãi, những giải thuật phân cụm truyềnthống (như k-means, Gaussian Mixture) giảm đáng kể hiệu suất về độ chính xác cũng nhưchi phí tính toán khi được áp dụng trên những tập dữ liệu phức tạp với số chiều lớn.Gần đây, các nghiên cứu về hướng tiếp cận học sâu cho bài toán phân cụm đã đạt đượcnhững cải tiến đáng kể về hiệu suất phân cụm bằng việc tận dụng sức mạnh của mạngneuron trong việc biến đổi không gian dữ liệu đầu vào sang không gian ẩn (latent space)
sử dụng các phép biến đổi phi tuyến nhằm biểu diễn dữ liệu ở dạng cô động hơn, thuậnlợi cho việc phân cụm Không gian ẩn học được phải giữ được các đặc trưng của dữ liệuban đầu, thể hiện qua việc có thể tái cấu trúc dữ liệu ban đầu từ không gian ẩn
Mốt số nghiên cứu mới nhất trong lĩnh vực phân cụm áp dụng các mô hình học sâu làviệc ứng dụng kiến trúc mạng autoencoder Một trong những nghiên cứu đầu tiên và nổibật là DEC [7] Điểm đáng chú ý của phương pháp này là thay vì tách biệt quá trình họcbiến đổi không gian dữ liệu sang không gian ẩn và quá trình phân cụm, nghiên cứu này
đề xuất phương pháp học đồng thời biểu diễn của dữ liệu sử dụng kiến trúc autoencoder
và hướng biểu diễn học được tới mục tiêu phân cụm bằng cách tối ưu hóa các hàm mụctiêu hướng phân cụm (clustering-oriented) bằng phương pháp SGD (Stochastic GradientDescent) Nghiên cứu này được kế thừa và cải thiện bởi các nghiên cứu khác, tạo ra hướngphát triển nổi bật cho bài toán phân cụm ứng dụng học sâu
Tuy đạt được những cải thiện đáng kể, các công trình nghiên cứu chỉ áp dụng trêncác tập dữ liệu chung như: hình ảnh MNIST [8], dữ liệu phân loại văn bản REUTERS [9].Trong khi đó, việc áp dụng các giải pháp phân cụm này vào dữ liệu metagenomics vẫnchưa được nghiên cứu rộng rãi
1.2.3 VAI TRÒ BÀI TOÁN PHÂN CỤM TRONG LĨNH VỰC METAGENOMICS
Trong các bước phân tích dữ liệu metagenomics, bước Tái cấu trúc chuỗi/phân cụm bly/Binning)là một trong những bước quan trọng nhất, vì nó tạo tiền đề cho độ chính xáccủa các bước tiếp theo, bước này gồm hai bài toán nhỏ hơn Thứ nhất là phân cụm (bin-ning), bước này phân loại các đoạn gen có độ tương đồng về đặc tính sinh học về cùng mộtnhóm Thứ hai là ráp chuỗi (assembly), bước này ráp nối các chuỗi ngắn (chưa hoàn thiện)thành một chuỗi dài chưa đầy đủ thông tin di truyền của một loài nào đó Luận văn tậptrung vào giải quyết vấn đề phân cụm cho dữ liệu metagenomics (metagenomics binning)
Trang 22(Assem-Bài toán phân cụm có ý nghĩa quan trọng cho quá trình phân tích dữ liệu metagenomics vì:
• Bước phân cụm giúp xác định các nhóm vi sinh vật có quan hệ gần gũi về mặt sinhhọc, cũng như tỷ lệ xuất hiện của từng nhóm trong các bộ dữ liệu được thu thập từmôi trường (như đất, đại dương, ruột người), vốn chứa hàng loạt các loài chưa được
phát hiện Kết quả phân cụm giúp cho các bước tiếp theo như ráp nối chuỗi (assembly), Gán nhãn gen (Genomic Annotation)chỉ tập trung phân tích trên những cụm nhất định,giúp giảm nhiễu và tăng độ chính xác cho các giải thuật.Do đó, bước phân cụm đóngvai trò như một bước tiền xử lý cho các bước phân tích tiếp theo
di truyền cho việc trích xuất thông tin có ý nghĩa cho việc phân cụm (binning)
• Cơ sở dữ liệu tham khảo: các phương pháp binning hiện có dựa trên phương phápgiống hàng (alignment) hoặc học có giám sát thường dựa vào cơ sở dữ liệu thamkhảo Tuy nhiên, hầu hết các loài nấm được tìm thấy ngoài tự nhiên (khoảng 99%,được chỉ ra trong nghiên cứu [2]) hiện không tồn tại trong các cơ sở dữ liệu sẵn có
• Không gian đặc tính của dữ liệu: trong bài toán phân cụm metagenomics, việc chọn
độ đo hợp lý để tính toán độ khác biệt giữa các điểm dữ liệu là yếu tố quan trọngnhất cho việc phân cụm Tuy nhiên, việc chọn độ đo trong các nghiên cứu dựa vàogiả thuyết về phân bố dữ liệu hoặc heuristic (độ đo dùng khoảng cách Euclid haydùng ngưỡng để xác định sự khác biệt giữa các điểm dữ liệu) Do đó, việc tạo ra mộtgiải thuật hướng dữ liệu là cần thiết
1.4 M ỤC TIÊU LUẬN VĂN
Gần đây, các nghiên cứu về bài toán phần cụm ứng dụng học sâu là một hướng nghiêncứu rất nổi bật và đạt được các cải thiện đáng kể về độ chính xác Tuy nhiên, việc ứng
Trang 23dụng các phương pháp phân cụm dựa trên học sâu vào các loại dữ liệu metagenomics vẫncòn hạn chế, đặc biệt là với dữ liệu có đoạn trình tự ngắn.
Mục tiêu của luận văn là đề xuất giải thuật áp dụng mô hình học sâu vào bài toán phâncụm metagenomics để tăng độ chính xác cho bài toán Giải thuật có thuộc lớp bài toánkhông giám sát, và có khả năng hoạt động tốt trên các tập dữ liệu chứa các đoạn trình tựngắn nhằm thõa mãn đặc điểm thiếu cơ sở dữ liệu tham khảo, và dữ liệu chứa trình tựngắn trong lĩnh vực metagenomics
Trang 24C HƯƠNG 2
2.1 K IẾN THỨC SƠ BỘ VỀ METAGENOMICS
2.1.1 TỔNG QUAN VỀ DNA
DNA là viết tắt của Deoxyribonucleic acid, là một chuỗi xoắn kép của hai chuỗi
poly-nucleotide (hình2.1.1) DNA là một phân tử phức tạp chứa các thông tin di truyền chomọi sinh vật sống
Mỗi chuỗi poly-nucleotide được cấu tạo từ các đơn vị đơn phân đơn giản hơn được gọi
là nucleotide Mỗi nucleotide bao gồm một trong bốn base chứa ni-tơ, một gốc đường đượcgọi là deoxyribose và một gốc phosphate Có bốn loại base khác nhau bao gồm adenine(A), thymine (T), guanine (G), and cytosine (C) Các nucleotide được liên kết với nhautrong một chuỗi bằng các liên kết cộng hóa trị (được gọi là liên kết phospho-diester) giữađường của một nucleotide và phosphate của nucleotide tiếp theo Các base của hai chuỗipoly-nucleotide riêng biệt liên kết với nhau theo cặp (A với T và C với G), bằng các liên kếthydro để tạo nên chuỗi kép DNA Do đó, hai chuỗi poly-nucleotide có tính đối xứng Độdài của một phân tử DNA được đo bằng số cặp nucleotide liên kết giữa hai chuỗi đơn haycòn gọi là cặp base (base-pair, viết tắt là bp)
2.1.2 ĐẶC TRƯNG TRÌNH TỰ CHO BÀI TOÁN PHÂN CỤM
Trong các nghiên cứu về metagenomics, có nhiều loại đặc trưng được sử dụng Có hai loạiđặc trưng chính: đặc trưng dựa trên tính tương đồng (alignment-based) và đặc trưng dựatrên tính hợp thành (composition-based)
Trang 25Hình 2.1.1: Mô tả các thành phần của đoạn DNA [11].
2.1.2.1 ĐẶC TRƯNG DỰA TRÊN TÍNH TƯƠNG ĐỒNG
Các phương pháp sử dụng đặc trưng dựa trên tính tương đồng sử dụng chính chuỗinucleotide để so sánh, tương tự như các bài toán so sánh chuỗi thông thường Với hai trình
tự được so sánh, tỷ lệ tương đồng càng cao thì xác suất hai trình tự thuộc về cùng một loàicàng lớn và ngược lại, tỷ lệ tương đồng càng thấp thì xác suất hai trình tự thuộc về hailoài khác nhau càng cao Công cụ BLAST [12], vốn được sử dụng rộng rải để gán nhãn cáctrình tự dựa trên hệ gen đã biết sử dụng đặc trưng này
2.1.2.2 ĐẶC TRƯNG DỰA TRÊN TÍNH HỢP THÀNH
Một trong những đặc trưng dựa trên tính hợp thành được sử dụng rộng rãi là tần số xuất
hiện k-mer, vốn cũng được sử dụng trong luận văn Trong phạm vi nghiên cứu của luận văn, phần này chỉ trình bày về đặc trưng tần số xuất hiện k-mer.
Cụ thể, tần số mer thể hiện số lần xuất hiện của mer đó trong một trình tự Mỗi mer là một chuỗi con thuộc trình tự có độ dài k, thường được gọi chung là oligonucleotide Tùy thuộc vào bài toán áp dụng, k có thể có nhiều giá trị khác nhau, thông thường giá trị
k-k =4 (k-mer với k=4 được gọi là tetranucleotide) được sử dụng nhiều hơn [13] Từ nghiêncứu của [13], có nhiều cách tính tần số k-mer cho một trình tự Tuy nhiên, trong phạm vi luận văn, chỉ sử dụng cách tính Symmetrized Signature từ nghiên cứu này.
Gọi fS = {f1S, f2S, , f4Sk} là tập hợp chứa biểu diễn tần số k-mer của trình S fS được
Trang 26bình thường hóa (normalized) bằng cách chia mỗi phần tử cho tổng số lượng k-mer củatrình tự, là|S| Khoảng cách giữa hai vector fS bất kì, biểu diễn khoảng cách di truyền củaloài chứa trình tự mà chúng biểu diễn.
2.1.3 ĐỘ PHONG PHÚ
Độ phong phú (abundance ratio) trong ngữ cảnh metagenomics chỉ tỷ lệ giữa các loàitrong một tập dữ liệu Độ phong phú không cân đối cũng là một thách thức trong bài toánphân cụm dữ liệu metagenomics (trong ngữ cảnh các bài toán học máy trên dữ liệu thôngthường còn gọi là dữ liệu imbalanced), vì một hay một số loài có số lượng trình tự áp đảocác loài còn lại
2.2 S Ơ BỘ VỀ MỘT SỐ MÔ HÌNH HỌC SÂU
2.2.1 KIẾN TRÚC AUTOENCODER (AE)
Kiến trúc autoencoder (bộ mã hóa tự động) là một kiến trúc có khả năng học cách tái cấutrúc dữ liệu đầu vào, và thuộc nhóm phương pháp học không giám sát Mục tiêu là đểsinh ra biểu diễn có ý nghĩa của dữ liệu đầu vào thông qua việc học tái cấu trúc Các biểudiễn học được sau đó được sử dụng cho các tác vụ khác như: phân loại, học bán giám sát,phân cụm
AE bao gồm encoder, decoder, và không gian ẩn như có thể thấy trong hình2.2.1.Encoder là một mạng neuron Đầu vào của nó là dữ liệu x,đầu ra là một biểu diễn z và
mạng neuron này có bộ tham số là θ.
• x có thể là mọi loại dữ liệu, tùy thuộc vào từng vấn đề cụ thể (ví dụ như hình ảnh,chuỗi) Ví dụ, nếu dữ liệu đầu vào là hình ảnh chữ viết tay MNIST [8] như trong hình
2.2.2, x là một ma trận 28x28 Encoder biến đổi một vector có số chiều 784 (28x28)thành một biểu diễn z (với số chiều nhỏ hơn x, ví dụ như 10)
• Biểu diễn z (còn gọi là biểu diễn không gian ẩn) thường được gọi là ‘bottleneck’ vì sốchiều của nó được nén lại so với số chiều của dữ liệu đầu vào
Decoder là một mạng neuron Đầu vào của nó là đầu ra của encoder, chính là biểu diễn
z, đầu ra của nó là một tái cấu trúc của dữ liệu đầu vào x Mạng neuron có bộ tham số là φ
Trang 27Tiếp tục với ví dụ chữ viết tay MNIST như trên, sau khi nhận biểu diễn z làm đầu vào,decoder tái cấu trúc biểu diễn z về không gian dữ liệu ban đầu, gọi là x0(với cùng số chiều784), với mỗi phần tử trong vector 784 chiều có giá trị ở giữa 0 và 1 (ảnh xám) Chú ý rằng
sự tái cấu trúc dữ liệu ban đầu x từ decoder sẽ không giống hoàn toàn với dữ liệu đầu vào
x, vì biểu diễn z chỉ là một phiên bản cô đọng của x
Mô hình AE được huấn luyện bằng cách tối thiểu hoá hàm mất mát tái cấu trúc(reconstruction loss) Cụ thể trong ví dụ về dữ liệu MNIST, hàm mất mát tái cấu trúc được
sử dụng như sau:
L = ||x− fθ(gφ(x))||22 (2.2.1)
Hàm mất mát L, còn gọi là hàm sai số bình phương trung bình (mean square error MSE), trong đó gφ(x) là công thức tính biểu diễn z, fθ(gφ(x))là công thức tính x0 Mụctiêu của hàm mất mát L là tối thiểu hoá sự khác biệt giữa dữ liệu đầu vào x và dữ liệu táicấu trúc x0
-Hình 2.2.1: Kiến trúc tổng quá của mô hình autoencoder [14]
2.2.2 KIẾN TRÚC VARIATIONAL AUTOENCODER (VAE)
Kiến trúc variational autoencoder (bộ mã hóa tự động biến đổi) được định nghĩa vào 2013bởi Kingma et al [15] VAE có thể được hiểu bởi ngôn ngữ của mạng neuron và mô hình
Trang 28xác suất.
2.2.2.1 ĐỊNH NGHĨA TRÊN PHƯƠNG DIỆN MẠNG NEURON
Trên phương diện mạng neuron, VAE bao gồm encoder, decoder và biểu diễn không gian
ẩn (z) như có thể thấy trong hình2.2.2 Chi tiết về hàm mất sẽ được đề cập ở phần tiếptheo
Encoder là một mạng neuron Đầu vào của nó là dữ liệu x, đầu ra là 1 biểu diễn z và
mạng neuron này có bộ tham số là θ.
• x có thể là mọi loại dữ liệu, tùy thuộc vào từng vấn đề cụ thể (ví dụ như hình ảnh,chuỗi) Ví dụ, nếu dữ liệu đầu vào là hình ảnh chữ viết tay MNIST [8] như trong hình
2.2.2, x là một ma trận 28x28 Encoder biến đổi một vector có số chiều 784 (28x28)thành một biểu diễn z (với số chiều nhỏ hơn x, ví dụ như 10)
• Biểu diễn z (còn gọi là biểu diễn không gian ẩn) thường được gọi là ‘bottleneck’ vì
số chiều của nó được nén lại so với số chiều của dữ liệu đầu vào Điều đó khuyếnkhích encoder phải học những biểu diễn của dữ liệu đầu vào một cách hiệu quả VớiVAE, z là ngẫu nhiên (stochastic), có nghĩa là encoder không sinh ra một giá trị chínhxác cho z, mà thay vào đó, nó sinh ra các tham số cho qθ(z|x)- hàm mật độ xác suấtGaussian Giá trị của z được lấy mẫu từ phân bố này
Decoder là một mạng neuron Đầu vào của nó là đầu ra của encoder, chính là biểu diễn
z, đầu ra của nó là một tái cấu trúc của dữ liệu đầu vào x Mạng neuron có bộ tham số là φ.Tiếp tục với ví dụ chữ viết tay MNIST như trên, sau khi nhận biểu diễn z làm đầu vào,decoder tái cấu trúc biểu diễn z về không gian dữ liệu ban đầu, gọi là x0(với cùng số chiều784), với mỗi phần tử trong vector 784 chiều có giá trị ở giữa 0 và 1 (ảnh xám) Chú ý rằng
sự tái cấu trúc dữ liệu ban đầu x từ decoder sẽ không giống hoàn toàn với dữ liệu đầu vào
x, vì biểu diễn z chỉ là một phiên bản cô động của x
2.2.2.2 ĐỊNH NGHĨA TRÊN PHƯƠNG DIỆN MÔ HÌNH XÁC SUẤT
Trên phương diện mô hình xác suất, VAE gồm mô hình xác suất của dữ liệu x và khônggian ẩn z VAE biểu diễn xác suất hợp của x và z như sau:
p(x, z) = p(x|z)p(z) (2.2.2)
Trang 29Hình 2.2.2: Kiến trúc tổng quá của mô hình VAE [14].
Quy trình sinh dữ liệu (từ decoder) được mô ta như sau:
• Với mỗi điểm dữ liệu i:
– Lấy lẫu zi ∼ p(z)
– Sinh xi ∼ p(x|z) Có nghĩa là sinh ra xitừ ziđã lấy mẫu trước đó dựa vào p(x|z),
là phần bố xác suất của x với sự xảy ra của z
Một câu hỏi được đưa ra là bằng cách nào lấy mẫu z từ prior p(z)mà nó có đủ ý nghĩa
để có thể sinh ra lại được x? Khi đó, dữ liệu huấn luyện (phương diện mạng neuron) hay
dữ liệu quan sát (phương diện mô hình xác suất) được dùng đến:
• p(z|x) được huấn luyện để cho ra giá trị xác suất cao cho những vector z được lấymẫu mà nó sinh ra được dữ liệu giống x
Vì vậy, việc ước tính p(z|x)rất tương tự với định lý Bayes, ta cần ước tính mô hình xácsuất hậu nghiệm:
p(z|x) = p(x|z)p(z)
Nhưng với dữ liệu thực tế, dữ liệu cho trước rất lớn trong bài toán dữ liệu lớn, việc ướctính được mô hình xác suất biểu diễn sự phân bố của x (p(x)) là không đơn giản (thường
Trang 30sang một phân bố khác, gọi là q(z|x), mục đích là để không phải tính p(x) Vấn đề giờđây trở thành việc làm cách nào để tối thiểu hóa sự khác biệt giữa hai phân bố p(z|x)và
q(z|x) Sự khác biệt giữa hai phân bố này gôi là hàm mất mát suy luận (inference loss) Mặt
khác, ở bước sinh dữ liệu như đã đề cập bên trên, mô hình cũng cần một hàm mất mátkhác để tối thiểu hóa sự khác biệt giữa dữ liệu tái cấu trúc x0và dữ liệu quan sát x, còn gọi
là hàm mất mát tái cấu trúc (reconstruction loss).
𝐿𝑖(𝜃, Ф) = −𝐸𝑧 ~ 𝑞ϕ 𝑧 𝑥𝑖) 𝑙𝑜𝑔𝑝𝜃 𝑥𝑖 𝑧 + 𝐾𝐿 𝑞𝜃 𝑧 𝑥𝑖 ||𝑝(𝑧))
Hình 2.2.3: Mô tả các thành phần của hàm mất mát trong mô hình VAE
Hình2.2.3biểu diễn hàm mất cuối cùng của VAE - còn được gọi là hàm mất mát ELBO
(Evidence Lower BOund), bao gồm hàm mất mát tái cấu trúc và hàm mất mát suy luận
(thường là hàm mất mát KL - Kullback-Leibler divergence)
p(z|x) p(x|z)
Input
Reconstruction
of input
Hình 2.2.4: Mô tả trực quan các thành phần của mô hình VAE
Hình2.2.4mô tả trực quan các khái niệm của mô hình VAE: đầu vào, đầu ra, hàm mấtmát, các phân bố cần được ước tính
2.2.2.3 THÁCH THỨC HUẤN LUYỆN MÔ HÌNH VAE (REPARAMETRIZATION TRICK)
Như đã đề cập, không gian ẩn z được lấy mẫu từ phân bố qθ(z|x), do đó, nó là một quytrình ngẫu nhiên (stochastic process), điều này tạo ra vấn đề khi tính đạo hàm liên quan
Trang 31tới tham số θ, giá trị biến ngẫu nhiên z không tồn tại đạo hàm.
Với các phân bố nhất định, mẹo chuyển tham số (reparametrization trick) có thể được
sử dụng sao cho quy trình ngẫu nhiên không phụ thuộc vào các tham số vì hàm số khả
vi, các giá trị z được lấy mẫu phải tất định Nghiên cứu [15] đề xuất như sau, với phân bố
chuẩn có trung bình µ và độ lệch chuẩn σ, z có thể được lấy mẫu bằng cách sử dụng mẹo
chuyển tham số như sau:
trong đó, e∼Normal(0, 1) Giá trị của z tất định trong công thức này, do đó, có thể lấy
đạo hàm với tham số là µ và σ Hình2.2.5biểu diễn trực quan ý tưởng của mẹo chuyểntham số
Hình 2.2.5: Mẹo chuyển tham số cho phép đẩy yếu tố ngẫu nhiên của biến z sang e (được
lấy mẫu từ phân bố chuẩn) Các hình kim cương biểu thị phụ thuộc tất định, hình trònbiểu thị biến ngẫu nhiên [16]
Trang 32C HƯƠNG 3
3.1 C ÁC CÔNG TRÌNH LIÊN QUAN PHÂN CỤM METAGENOMICS
Các nghiên cứu về bài toán phân cụm metagenomics có thể chia làm hai hướng chính:nhóm phương pháp có giám sát và nhóm phương pháp không giám sát
3.1.1 PHƯƠNG PHÁP CÓ GIÁM SÁT
Nhóm phương pháp có giám sát dựa vào so sánh độ tương đồng của hệ gen để phân cụm.Nói cách khác, nhóm phương pháp này đưa bài toán phân cụm dữ liệu metagenomics vềbài toán phân loại dùng cơ sở dữ liệu tham khảo
MEGAN CE [17], và DUDes [18] sử dụng những công cụ tìm kiếm chuỗi tương đồngnhư DIAMOND [19], hay Bowtie 2 [20] để xác định sự tương đồng giữa các trình tự đầuvào với các trình tự trong chuỗi tham khảo Các giải thuật này sau đó gán các trình tự vềcác nhóm của các loài đã biết Điểm yếu của các phương pháp này là chi phí cao về thờigian tính toán Mốt số công cụ tìm kiếm tương đồng khác, thay vì so sánh tương đồng trực
tiếp trên chuỗi, chúng dựa trên việc trích xuất những l-mer dài từ chuỗi và so sánh với các
cơ sở dữ liệu tham khảo Mặt khác, TACOA [21], và DeepMicrobes [22] là những phươngpháp dựa trên tín hiệu giám sát là đặc tính dựa trên tính hợp thành (biểu diễn l-mer) đượctrích xuất từ trình tự để phân loại Trong khi TACOA áp dụng phương pháp kernelizedk-nearest neighbour, DeepMircrobes áp dụng mô hình học sâu sử dụng để phân loại trìnhtự
Trang 333.1.2 PHƯƠNG PHÁP KHÔNG GIÁM SÁT
Vì giới hạn của các cơ sở dữ liệu tham khảo, một vài nghiên cứu tập trung vào các phươngpháp học không giám sát nhằm vượt qua điểm yếu này MetaCluster [23], MetaCluster3.0[24] phân tách các trình tự thành biểu diễn tần số k-mer, sau đó phân cụm biểu diễn này
sử dụng giải thuật k-means với độ đo khoảng cách Spearman Footrule để tính độ tươngđồng giữa các biểu diễn tần số k-mer của trình tự Nhưng các nghiên cứu này khôngthể xử lý tốt các tập dữ liệu mà độ dài các chuỗi gen ngắn cũng như các tập dữ liệu có
tỷ lệ các loài không cân đối [2] Để xử lý vấn đề các chuỗi gen có độ dài ngắn, nhiềunghiên cứu đề xuất các giải thuật có thêm một bước để gom nhóm các trình tự ngắn cóquan hệ sinh học gần nhau bằng cách tận dụng sự chồng lắp thông tin giữa các trình tự.MetaCluster4.0 [2], MetaCluster5.0 [25] sử dụng phương pháp dựa trên mô hình xác suất
dể gom nhóm các trình tự mà có khả năng chúng cùng thuộc về 1 chuỗi gen (có nghĩa
là các trình tự ngắn này có khả năng là các phần nhỏ của cùng 1 chuỗi gen hoàn chỉnh).BiMeta [26] và MetaProb [27] sử dụng một giải thuật dựa trên cấu trúc dữ liệu đồ thị để
mô hình hóa quan hệ giữa các trình tự ngắn có sự chồng lấp về chuỗi con l-mer, các nhómnhững trình tự cần được nhóm mà có khả năng biểu diễn chuỗi gen hoàn chỉnh cũng là tậpđộc lập (independent set) của đồ thị GraphBin [28], thay vì có một bước dể gom nhóm cácread có quan hệ sinh học gần gũi như các nghiên cứu trên, nghiên cứu này tận dụng đồ thị
tổ hợp (assembly graph), là kết quả của các công cụ binning có sẵn (những công cụ này chỉhoạt động tốt trên các tập dữ liệu mà chuỗi trình tự dài hơn 1000bp [28] như MaxBin2 [29])
để lọc lại kết quả phân cụm cho các trình tự ngắn bằng cách sử dụng giải thuật lan truyềnnhãn (label propagation) Trong những nghiên cứu này (GraphBin, BiMeta, MetaProb), đồthị có các đỉnh là các read và mỗi cạnh là kết nổi giữa 2 read nếu 2 read đó có quan hệ loàivới nhau (hay có sự chồng lắp thông tin)
3.2 C ÁC CÔNG TRÌNH LIÊN QUAN PHÂN CỤM ỨNG DỤNG
MÔ HÌNH HỌC SÂU
Các nghiên cứu về giải thuật phân cụm thông thường như k-means, mô hình hỗn hợpGaussian (mixture of Gaussian), các giải thuật dựa trên mật độ như DBSCAN có thể được
áp dụng trên mọi loại dữ liệu Tuy nhiên, các giải thuật này lại kém hiệu quả với các loại
dữ liệu có số chiều lớn như hình ảnh, chuỗi gen Vấn đề nằm ở hàm đo sự tương đồng
Trang 34trong các giải thuật, khi được áp dụng trực tiếp lên dữ liệu đầu vào không hiệu quả Ngoàivấn đề độ chính xác, tính toán trên dữ liệu có số chiều lớn cũng tăng thời gian tính toán.
Do đó, trọng tâm bài toán phân cụm trở thành bài toán thu giảm số chiều dữ liệu hay biếnđổi dữ liệu về không gian khác Việc biến đổi giúp các đặc tính của dữ liệu được biểu diễn
cô động hơn, hạn chế nhiễu Mặt khác, thu giảm số chiều còn giúp giảm chi phí tính toán.Các giải thuật phân cụm thông thường được áp dụng lên dữ liệu được biến đổi nhằm tănghiệu suất phân cụm Một số phương pháp biến đổi dữ liệu thường gặp: tuyến tính nhưPCA [30], phi tuyến như nhóm phương pháp kernel [31] hay nhóm phương pháp phổ(như phân cụm phổ-spectral clustering [32])
Gần đây, các nghiên cứu về học sâu trong bài toán phân cụm đạt được những cải tiếnđáng kể về hiệu suất phân cụm bằng cách tận dụng sức mạnh của mạng neuron trong việcbiến đổi từ không gian dữ liệu sang không gian đặc tính biểu diễn dữ liệu (feature space)bằng các phép biến đổi phi tuyến, những nghiên cứu này mở ra cách tiếp cận hướng dữliệu (data driven) trong việc học đặc tính ẩn (latent space) của dữ liệu và hướng những đặctính học được này cho mục tiêu phân cụm mà không có bất cứ giả định nào về phân bố của
dữ liệu hay đặc tính ẩn của dữ liệu Các phương pháp phân cụm áp dụng học sâu đượcgọi chung là phương pháp phân cụm sâu (deep clustering hay deep embedded clustering).Trong giới hạn của luận văn, các công trình liên quan phân cụm ứng dụng học sâu đượcphân loại thành hai nhóm chính: áp dụng kiến trúc autoencoder (gọi tắt là AE-based), ápdụng kiến trúc variational autoencoder, gọi tắt là VAE-based
3.2.1 AE-BASED
Ứng dụng mô hình autoencoder để học không gian ẩn của dữ liệu là một trong nhữnghướng nghiên cứu nổi bật của bài toán phân cụm dùng mạng học sâu Một trong nhữngnghiên cứu đột phá và đầu tiên nhất về áp dụng học sâu trong bài toán phân cụm làDEC [7] - phương pháp này học đồng thời biểu diễn của dữ liệu và gán cụm dựa trên biểudiễn học được áp dụng kiến trúc bộ mã hóa tự động Cụ thể, DEC bao gồm 2 bước, đầutiên, sử dụng mô hình autoencoder để học không gian ẩn của dữ liệu, pha tiếp theo làbước tối ưu hóa phân cụm, DEC chỉ dùng encoder để sinh không gian ẩn từ dữ liệu đầuvào, không gian ẩn này được dùng để khởi tạo tâm cụm Các tâm cụm và không gian ẩnbiểu diễn dữ liệu tiếp tục được cải thiện thông qua tối ưu hàm mục tiêu hướng phân cụm(clustering oriented loss)
IDEC [33] cải tiến DEC với đề xuất giữ lại bộ decoder ở bước tối ưu hóa phân cụm và
Trang 35huấn luyện mô hình ở bước này kết hợp hàm mục tiêu hướng phân cụm và hàm mục tiêutái cấu trúc dữ liệu.
DEPICT [34] là giải thuật thiên về bài toán phân cụm cho dữ liệu ảnh Mô hìnhautoencoder sử dụng các lớp tích chập để trích xuất đặc tính dữ liệu hình ảnh DEPICThuấn luyện bước phân cụm bằng cách tối ưu hàm mất mát entropy tương quan (relatedentropy) kết hợp với thành phần chính quy hoá để phù hợp với mục tiêu phân cụm Thànhphần chính quy hoá này giúp giải thuật hạn chế phân bổ cụm cho các điểm dữ liệu nhiễu.ADEC [35] cải tiến đáng kể hiệu suất phân cụm so với DEC và IDEC bằng cách cảithiện nhiều yếu tố, đáng kể nhất là hai yếu tố sau: thứ nhất, sử dụng ý tưởng đưa vào môhình autoencoder yếu tố nội suy trên không gian ẩn (latent space), vốn được chỉ ra là cóthể cải thiện chất lượng của không gian ẩn (đánh giá hiệu năng trên các bài toán như phânloại, học bán giám sát sử dụng không gian ẩn học được này) từ nghiên cứu ACAI [36],thứ hai, tác giả sử dụng cách huấn luận đối kháng của mô hình sinh GAN (Generativeadversarial networks) [37] nhằm giảm sự xung đột của các hàm mất mát đa mục tiêu trongcùng một mạng neuron [7,33,35] đều có hai bước chính là tiền huấn luyện và bước tối ưuphân cụm Bước tiền huấn luyện chủ yếu dùng để học biễu diễn không gian ẩn của dữliệu và dùng không gian ẩn học được này để khởi tạo tâm cụm Bước tối ưu phân cụm tiếptục tối ưu kết quả phân cụm dựa vào kết quả khởi tạo
3.2.2 VAE-BASED
VAE được xem là biến thể mô hình sinh (generative variant) của kiến trúc autoencoder.Nghiên cứu áp dụng mô hình VAE giả thuyết phân bố của không gian ẩn biểu diễn dữ liệutuân theo một hỗn hợp Gaussian (mixture of Gaussians) Do đó, giải thuật chọn hỗn hợpGaussian làm tiên nghiệm, và huấn luyện mô hình sinh ra các phân bố không gian ẩn tuântheo hỗn hợp Gaussian, mỗi một phân bố trong hỗn hộp là đại diện cho một cụm Cụ thể:Nghiên cứu VaDE [38] sử dụng mô hình sinh p(x, z, c) = p(x|z)p(z|c)p(c) Trong môhình này, dữ liệu quan sát được sinh ra như sau:
x ∼ N (µx(z), σx2I) (3.2.3)
Trang 36trong đó, Cat(.)là phân bố loại (categorial distribution), K là số lượng cụm cho trước.
µc and σc là trung bình và độ lệch chuẩn của phân bố Gaussian của cụm c.N (.) là một
phân bố Gaussian đa biến có tham số là µx(z), σx(z) Quá trình sinh dữ liệu của VaDEđược mô tả trong hình3.2.1, có sự khác biệt với VAE:
• Mô hình GMM (hỗn hợp tiên nghiệm Gaussian) chọn một cụm, có nghĩa là một phân
bố Gaussian trong hỗn hợp
• Từ phân bố đã chọn, không gian ẩn được lấy mẫu
• Decoder f(z; θ)ánh xạ không gian ẩn về không gian dữ liệu ban đầu để sinh ra dữliệu tái cấu trúc
• Encoder g(z; φ)được sử dụng để tối ưu hoá hàm mất mát ELBO (ELBO được đề cập
ở2.2.2)
Hàm mất mát ELBO của VaDE khá tương đồng với của VAE, điểm khác biệt chính nằm
ở thành phần hàm mất mát suy luận (inference loss), thay vì tối thiểu hoá sự khác biệtgiữa hai phân bố Gaussian như VAE, VaDE tối thiểu hoá sự khác biệt giữa hai hỗn hợp cácphân bố Gaussian:
LELBO(x) =Eq(z,c|x)[logp(x|z)] −DKL(q(z, c|x)||p(z, c)) (3.2.4)
Trang 37Hình 3.2.1: Quá trình sinh dữ liệu của mô hình VaDE [38].
Trang 38C HƯƠNG 4
Nhằm vượt qua vấn đề thiếu thông tin di truyền trong các trình tự ngắn và thiếu hụt
cơ sở dữ liệu tham khảo trong bài toán phân cụm metagenomics, luận văn đề xuất áp
dụng hướng tiếp cận hai-pha (two-phase paradigm) gọi là MetaDEC (i.e., a Metagenomic binning with Deep Embedding Clustering), dựa trên phương pháp học không giám sát để
phân cụm dữ liệu metagenomics, tổng quan quy trình phân cụm được mô tả trong hình
4.1.1 Pha 1 đóng vai trò là bước tiền xử lý để xây dựng các nhóm các trình tự sử dụngthông tin chồng lắp giữa các trình tự Các đặc tính phân cụm được trích xuất từ các nhómtrình tự Pha 2 sử dụng các đặc tính này để tiếp tục phân cụm các nhóm trình tự về cáccụm có quan hệ loài gần gũi
Trong pha 2, có bốn biến thể giải thuật phân cụm được áp dụng: Deep EmbeddingClustering (DEC) [7], Improved Deep Embedding Clustering (IDEC) [33], AdversarialDeep Embedded Clustering (ADEC) [35], và Variational Deep Embedding (VaDE) [38]
4.1 P HA 1: G OM NHÓM TRÌNH TỰ VÀ XÂY DỰNG CÁC SEED
Bắt nguồn từ nghiên cứu BiMeta [26], pha này phân các trình tự cùng có chung một chuỗicon l-mer đủ dài vào cùng nhóm và xây dựng các nhóm đại diện Dựa vào quan sát chorằng các chuỗi con l-mer là duy nhất trong các chuỗi gen [2,25] Đầu tiên, xây dựng đồ thị
có các đỉnh là các trình tự, và mỗi cạnh là kết nối giữa hai trình tự nếu chúng có sự chồnglặp chuỗi con l-mer đủ dài Sau đó, áp dụng giải thuật phân hoạch đa cấp (multilevelpartitioning [39]) để tìm các thành phần kết nối của đồ thị (connected components).Một quan sát từ nghiên cứu [26] chỉ ra rằng, các dấu hiệu gen biểu diễn bởi tần số k-mernucleotide của nhóm các trình tự không chồng lắp được bảo toàn, đúng với cả trình tự
Trang 39ngắn và trình tự dài Do đó, với mỗi nhóm được xây dựng, pha 1 chỉ chọn một nhóm conchứa những trình tự không chồng lắp, gọi là seed, làm đại diện cho nhóm Kỹ thuật nàykhông những giúp giảm nhiễu ở bước trích xuất đặc tính từ các nhóm trình tự mà có tỷ lệcác loài không cân xứng, mà còn tiết kiệm chi phí tính toán [26] Tiếp theo, phân bố tần sốk-mer của mỗi seed được tính toán như sau.
Gọi S = {r1, r2, rn} là một seed, trong đó n là số lượng trình tự trong seed S Gọi
|ri|, i∈ [0 n]là độ dài của trình tự ri Để tìm các k-mer của mỗi trình tự, pha 1 sử dụngphương pháp trượt cửa sổ (sliding window) với độ rộng cửa sổ là k Với giá trị k, mỗi trình
tự có|ri| −k+1 k-mer Tổng số lượng k-mer của mỗi seed S, gọi là|S|, là∑n
i = 0(|ri| −k+1).Mặt khác, có tối đa 4kloại k-mer khác nhau vì mỗi k-mer là tổ hợp của 4 loại nucleotide(A, T, G, C tương ứng với Adenine, Thymine, Cytosine, Guanine) Dựa vào tính đối xứngcủa DNA (được trình bày ở mục2.1.1), tần số của một k-mer và k-mer đối xứng với nó
là như nhau Do đó, số lượng tất cả các giá trị khác nhau của k-mer giảm một nửa, từ 4kcòn 4k/2 nếu k lẻ,(4k+4k/2)/2 nếu k chẵn Một số nghiên cứu [23,26,40] cho rằng giá trị
k=4 là sự lựa chọn tốt nhất cho việc trích xuất đặc tính hợp thành (compositional feature)
từ trình tự DNA hay hệ gen (contig) Do đó, pha 1 chọn k =4 Vì vậy nên có tất cả 136 giátrị k-mer khác nhau
Gọi fS = {f1S, f2S, , f136S }là tập hợp chứa biểu diễn tần số k-mer của seed S fS đượcbình thường hóa (normalized) bằng cách chia mỗi phần tử cho|S| Sau đó fS tiếp tục đượcchuẩn hóa theo phân bố chuẩn thành xS với trung bình µ=0 và phương sai σ=1 Biểudiễn cuối cùng của seed S là xS = {xS1, xS2, , xS136}, trong đó mỗi xSi có giá trị nằm trongkhoảng[−1, 1]
Trang 40Phase 1
Phase 2
Step 1
Cluster initialization
Hình 4.1.1: Quy trình phân cụm của giải pháp đề xuất Pha 1 gom nhóm các trình tự cóthông tin chồng lắp Pha 2 áp dụng giải thuật phân cụm sâu (ADEC)
4.2 P HA 2: P HÂN CỤM CÁC NHÓM TRÌNH TỰ SỬ DỤNG HỌC
SÂU
Cho trước n các nhóm trình tự được biểu diễn bằng một tập hợp n seed được chuẩn hóatần số ở pha 1 (mục4.1) X = {xS1, xS2, , xSn}, trong đó Si, i ∈ [1 n]là các seed đại diệncho các nhóm Trong pha này, phương pháp phân loại X về m cụm đại diện bởi m tâm cụm
C = {c1, c2, cm}
Luận văn thí nghiệm áp dụng bốn giải thuật phân cụm ứng dụng học sâu: DEC, IDEC,ADEC, và VaDE như đã đề cập Các giải thuật phân cụm này đều bao gồm hai bước: Khởitạo cụm (Cluster Initialization) và Tối ưu phân cụm (Cluster Optimization) Chi tiết hơn,bước khởi tạo cụm huấn luyện mô hình autoencoder sinh ra không gian ẩn có ý nghĩa choviệc mô tả dữ liệu ban đầu (là biểu diễn tần số k-mer của seed), không gian ẩn sau đó
được sử dụng để khởi tạo tâm cụm dùng giải thuật k-means Bước tối ưu phân cụm tiếp
tục tối ưu kết quả khởi tạo Đối với DEC, IDEC, và ADEC thì bằng cách luân phiên lặp lạihai bước tính toán: tính kết quả gán cụm mềm (soft cluster assignment) và học từ nhữngkết quả gán cụm có độ tự tin cao (high confidence assignment) Đối với VaDE, bước tối ưu