Phân loại trình tự metagenomics trên cơ sở phân lớp và gom cụm

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA LÊ VĂN VINH PHÂN LOẠI TRÌNH TỰ METAGENOMICS TRÊN CƠ SỞ PHÂN LỚP VÀ GOM CỤM LUẬN ÁN TIẾN SĨ KỸ THUẬT TP HỒ CHÍ MINH NĂM 2017 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA LÊ VĂN VINH PHÂN LOẠI TRÌNH TỰ METAGENOMICS TRÊN CƠ SỞ PHÂN LỚP VÀ GOM CỤM LUẬN ÁN TIẾN SĨ KỸ THUẬT Chuyên ngành: Khoa học Máy tính Mã số chuyên ngành: 62480101 Phản biện độc lập 1: PGS TS Vũ Thanh Nguyên Phản biện độc lập 2: PGS TS Huỳnh Thị Thanh Bình Phản biện 1: PGS TS Nguyễn Đức Nghĩa Phản biện 2: PGS TS Nguyễn Đình Thúc Phản biện 3: PGS TS Phạm Trần Vũ NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS Trần Văn Lăng PGS TS Trần Văn Hoài LỜI CAM ĐOAN Tác giả xin cam đoan công trình nghiên cứu thân tác giả Các kết nghiên cứu kết luận luận án trung thực, không chép từ nguồn hình thức Việc tham khảo nguồn tài liệu (nếu có) thực trích dẫn ghi nguồn tài liệu tham khảo quy định Tác giả luận án Lê Văn Vinh TĨM TẮT LUẬN ÁN Metagenomics (cịn gọi environmental genomics hay community genomics) lĩnh vực nghiên cứu cộng đồng vi sinh vật Khác với phương pháp nghiên cứu vi sinh vật truyền thống (được gọi microbial genomics), lĩnh vực cho phép phân tích trực tiếp mẫu thực nghiệm mà không cần trải qua giai đoạn nuôi cấy phân tách cá thể phịng thí nghiệm Những dự án nghiên cứu metagenomics mang đến lợi ích nhiều lĩnh vực như: nơng nghiệp, công nghệ sinh học, khoa học môi trường Một việc quan trọng dự án metagenomics, gọi phân loại trình tự (taxonomic binning), nhằm xếp trình tự vào nhóm có quan hệ sinh lồi gần Cơng việc giúp xác định nguồn gốc trình tự mẫu thực nghiệm, xác định chúng quan hệ với sinh vật biết Kết toán phân loại sử dụng đầu vào toán khác dự án metagenomics như: xác định vị trí xuất gien trình tự (annotation), ráp nối trình tự (assembly) Có ba yếu tố mang đến thách thức cho tốn phân loại trình tự metagenomics Thứ nhất, hầu hết cơng nghệ giải mã trình tự hệ (next-generation sequencing) cho phép xử lý cho trình tự ngắn ngắn (nhỏ 700bp) Tuy nhiên, độ dài trình tự ngắn làm giảm chất lượng phân loại thiếu thơng tin chứa đựng trình tự Thứ hai, hiệu giải pháp phân loại có giám sát phụ thuộc vào mức độ xác mức độ đầy đủ sở liệu tham khảo Điều dẫn đến giải pháp thường khó khăn việc phân loại phần lớn vi sinh vật trái đất chưa khám phá Cuối cùng, dự án metagenomics thường phải xử lý cho lượng liệu lớn Yếu tố khơng làm tăng thời gian thực thi, mà cịn làm giảm độ xác phân loại giải pháp Nghiên cứu nhằm mục tiêu đề xuất giải pháp phân loại cho liệu metagenomics, có khả xử lý tốt cho trình tự ngắn, giải hiệu cho trường hợp sở liệu ii tham khảo không đầy đủ Dựa việc vận dụng kỹ thuật phân lớp gom cụm, kết hợp khai thác tính chất liệu, luận án có đóng góp sau Một là, luận án đề xuất phương pháp nhằm nâng cao chất lượng vấn đề phân loại trình tự dựa phong phú hệ gien Ba đóng góp luận án vấn đề là: (1) Sử dụng mơ hình thu giảm vốn địi hỏi chi phí tính tốn để tìm ước lượng khả cực đại tham số cho mơ hình thống kê; (2) Vận dụng phương pháp lựa chọn mơ hình nhằm phát số cụm tập liệu, giúp làm tăng chất lượng phân loại (3) Đề xuất phương pháp đếm l-mer với độ dài thay đổi, giúp làm tăng chất lượng giải pháp phân loại dựa phong phú hệ gien liệu lỗi giải mã Hai là, luận án đề xuất ý tưởng xây dựng tập đại diện tập trình tự hệ gien dựa thơng tin gối đầu trình tự Tập đại diện cho thấy chứa đựng đặc trưng tương đồng hợp thành tập trình tự ban đầu Do đó, có khả bảo toàn đặc trưng tập liệu gốc vận dụng nhằm giúp giảm chi phí tính tốn mà giữ chất lượng giải pháp phân loại Ba là, giải pháp khơng giám sát đề xuất cho phân loại trình tự sử dụng đặc trưng tần số xuất l-mer, thơng tin gối đầu trình tự Giải pháp đề xuất này, gọi BiMeta, sử dụng ý tưởng tìm tập đại diện tập trình tự thuộc hệ gien nhằm mục đích vừa giảm chi phí tính tốn, vừa đạt chất lượng phân loại tốt BiMeta bao gồm hai pha Trong pha đầu, trình tự gom thành nhóm dựa thơng tin gối đầu chúng Pha hai trộn nhóm vào cụm dựa đặc trưng phân bố tần số xuất l-mer rút trích từ tập đại diện nhóm Bốn là, giải pháp phân lớp bán giám sát, gọi SeMeta, đề xuất nhằm phân loại gán nhãn cho trình tự SeMeta sử dụng ý tưởng tìm tập đại diện tập liệu, giải pháp vận dụng khả bảo tồn tính tương đồng chúng để phân loại trình tự Giải pháp bao gồm hai bước Sau bước gom cụm sử dụng phương pháp cải tiến BiMeta, thực gán nhãn cụm vào đơn vị phân loại phù hợp dựa tương đồng trình tự đại diện cụm với sở liệu tham khảo Bên cạnh đó, kỹ thuật lọc thơng tin nhiễu (BLAST hit khơng tin cậy) từ iii q trình so sánh tương đồng áp dụng giúp làm tăng chất lượng phân loại giải pháp Kết thực nghiệm liệu giả lập liệu thực tế cho thấy, giải pháp dựa phong phú hệ gien (MetaAB MetaAB-adv) BiMeta đạt độ xác cao tốn chi phí tính tốn so với giải pháp khơng sử dụng liệu tham khảo thường sử dụng Bên cạnh đó, SeMeta cho thấy đạt chất lượng phân loại tốt hơn, đồng thời chi phí tính tốn giảm đáng kể so với giải pháp có giám sát dựa tính tương đồng phổ biến Các giải pháp hứa hẹn công cụ hữu ích cho vấn đề phân tích mẫu thực nghiệm từ môi trường vi sinh vật Mặc dù giải pháp đề xuất luận án cho thấy có khả phân tích hiệu cho trình tự metagenomics, số khía cạnh cần nghiên cứu tương lai kể mặt lý thuyết thực nghiệm nhằm nâng cao chất lượng phân loại Để làm tăng độ xác giải pháp đề xuất, dấu hiệu hệ gien, hay độ đo khoảng cách vectơ tần số l-mer khác nghiên cứu áp dụng cho BiMeta SeMeta Ngoài ra, khả gán nhãn trình tự vào vị trí sinh lồi SeMeta cải tiến mức độ tương đồng khác BLAST hits tin cậy quan tâm, ngưỡng giá trị thể mức độ tương đồng trình tự theo bậc phân loại khảo sát Bên cạnh đó, vấn đề sửa lỗi trình tự hay việc áp dụng cơng nghệ tính tốn hiệu cao hướng nghiên cứu giúp làm tăng chất lượng phân loại, giảm chi phí tính tốn giải pháp đề xuất iv ABSTRACT Metagenomics (or environmental genomics, community genomics) is the study of microbial communities The discipline, different from traditional methods (microbial genomics), enables analyzing microbial samples directly, without the needs of isolating and culturing single organisms in laboratories Metagenomic projects have contributed in advances in many fields, e.g., agriculture, biotechnology, and environmental science One of the crucial tasks in a metagenomic project, referred to as binning problem, is to sort reads into groups of closely related organisms This task also helps in identifying the origin of the reads in an environmental sample, as well as determining how they are related to known taxa Results of binning approaches can be used in other tasks of metagenomic analysis, such as DNA annotation, sequence assembly There are three main factors posing current research challenges in this field Firstly, most of the next-generation sequencing techniques only produce short or very short reads However, the length of short reads reduces much classification quality due to the lack of the sequence information Secondly, the performance of supervised approaches depends on the accuracy and completeness of reference database As a result, those methods are difficult to classify reads correctly because the majority of microorganisms on Earth remain undiscovered Finally, metagenomic projects usually are performed on a huge amount of data This factor not only makes binning approaches suffer from computational expense, but also reduces the classification accuracy This dissertation aims to propose efficient binning approaches for metagenomic reads which are able to work well with sort reads, and deal with the lack or the incompleteness of reference database Basing on the usage of classification and clustering techniques as well as discovering characteristics of sequences, the dissertation has the following contributions Firstly, this dissertation proposes methods to enhance the quality of the genome abundance based binning of metagenomic There are three major contributions of this study to v the problems: (1) using a reduced statistical model which requires small costs to find maximum likelihood estimates of its parameters; (2) applying a method of model selection to detect the number of clusters in datasets automatically, which could improve the classification quality; (3) proposing a variable-length l-mer counting method in order to boost the quality of abundance-based binning approaches in case of error-free sequencing sequences Secondly, the dissertation proposes an idea of selecting a representative of a group of reads belonging to the same genomes using the sequence overlapping information between reads The representative shows that it still contains similarity-based and composition-based features Thus, it is able to preserve features of the original read group and can be applied to reduce computational costs while still keeping the quality of binning approaches Thirdly, a novel unsupervised method is proposed to classify metagenomic reads using the feature of l-mer frequency and the sequence overlapping information between reads The proposed approach, called BiMeta, uses the idea of the selection of group representative to reduce computational costs as well as achieve good classification quality BiMeta consists of two main phases In the first phase, reads are grouped by utilizing the information of sequence overlapping The second phase merges the groups basing on the feature of l-mer frequency extracted from their representative Fourthly, a semi-supervised classification method, called SeMeta, is proposed to classify and label reads SeMeta also applies the idea of selecting representative of a read group, but it utilizes the ability of preserving the similarity-based feature to separate reads The approach consists of two major steps After clustering reads using an improvement of BiMeta, it assigns each cluster to the best suitable taxon basing on the similarity between reads in a representative of the cluster and reference databases Besides, an efficient filtering technique is also proposed to reduce noises (ambitious hits) in results of the similarity search, which aims to produce better classification quality Experimental results on both simulated and real metagenomic datasets demonstrate that the abundance-based binning approaches (MetaAB and MetaAB-adv) and BiMeta are able to achieve high accuracy and require less computational costs comparing with commonlyused unsupervised binning methods Besides, SeMeta gets higher classification quality in vi different aspects, as well as need lower costs than other well-known similarity-based approaches Those methods can be used as promising tools to analyze samples from microbial communities Although the proposed approaches demonstrate to be able to analyze effectively for metagenomic sequences, some aspects should be investigated by future theoretical and empirical studies to improve the proposed approaches In order to improve the quality of the proposed methods, other genomic signatures, or distance matrices between l-mer frequency distributions can be studied and applied for BiMeta and SeMeta Besides, the classification quality of SeMeta on assigning sequences into an exact position in a phylogenetic tree could be improved if the differences of homologous degrees between trusted BLAST hits are considered, and the thresholds of the homologous degrees for each taxonomic levels are investigated The correction of sequencing errors or the applying of high-performance techniques are also potential research trends which could help to enhance the classification quality or reduce computational costs of the proposed approaches vii LỜI CẢM ƠN Tôi xin chân thành cảm ơn trường Đại học Bách Khoa Tp Hồ Chí Minh nói chung, khoa Khoa học Kỹ thuật máy tính nói riêng tạo điều kiện môi trường nghiên cứu thuận lợi cho thực luận án Em xin chân thành cảm ơn thầy Trần Văn Lăng thầy Trần Văn Hoài tận tình bảo hướng dẫn em suốt q trình nghiên cứu để hồn thành đề tài Em chân thành cảm ơn thầy Lê Thanh Bình (Viện Cơng nghệ Sinh học - Viện Hàn lâm Khoa học Công nghệ Việt Nam) hỗ trợ em trình nghiên cứu Em xin gửi lời cảm ơn đến Thầy Cô khoa Khoa học Kỹ thuật Máy tính nói chung, mơn Khoa học Máy tính, mơn Hệ thống Mạng máy tính nói riêng có đóng góp q báu để em hồn thành tốt cơng việc Con xin chân thành cảm ơn cha mẹ, cảm ơn gia đình nhỏ, người khác gia đình bên cạnh ủng hộ, động viên, giúp đỡ mặt để thực tốt đề tài nghiên cứu Tôi xin chân thành cảm ơn đồng nghiệp, bạn bè có lời khun, góp ý hữu ích q trình tơi thực đề tài nghiên cứu Tp Hồ Chí Minh, ngày 18 tháng năm 2016 Lê Văn Vinh viii ... tính chất này, phân loại l-mer thành cụm có độ phong phú khác Từ đó, trình tự chứa l-mer phân loại dựa kết việc phân loại l-mer 2.1.4 Phân lớp gom cụm liệu 2.1.4.1 Phân lớp liệu Phân lớp liệu (classification)... Số trình tự khơng phân loại (2.6) (2.7) Trong đó, độ nhạy thể tỉ lệ trình tự từ lồi mà gán vào cụm, độ xác thể tỉ lệ trình tự gán vào cụm mà thực tế thuộc lồi • Phân loại có giám sát (phân lớp) :... xác độ nhạy giải pháp phân loại có giám sát tính sau (theo [48, 49]): Độ xác = Độ nhạy = Số trình tự phân loại , Tổng số trình tự Số trình tự phân loại Tổng số trình tự phân loại (2.8) (2.9) Hai

Định dạng
Số trang	161
Dung lượng	3,72 MB