Sử dụng mô hình chủ đề cho bài toán phân loại metagenomic

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	72
Dung lượng	0,98 MB
File đính kèm	123.rar (11 MB)

Nội dung

Metagenomics, khoa học về gen ở một quy mô lớn, là một công cụ hữu hiệu có thể đuợc sử dụng để phân tích các cộng đồng vi sinh vật mà không cần phân lập riêng từng cá thể để nuôi cấy trong phòng thí nghiệm như cách làm truyền thống. Một mẫu dữ liệu metagenomic chứa các đoạn trình tự từ các vi sinh vật khác nhau. Vì vậy, một vấn đề quan trọng trong phân tích dữ liệu metagenomic là xác định và định luợng các loài hay bộhệ gen trong một mẫu. vấn đề này đuợc gọi là phân loại (binning). Giải quyết bài toán này cho phép các nhà nghiên cứu metagenomic đánh giá tiềm năng trao đổi chất của cộng đồng vi sinh vật, từ đó có thể trả lời những câu hỏi sâu sắc hơn sụ tiến hóa, sụ đa dạng, và chức năng của các vi sinh vật. Các mô hình chủ đề đuợc áp dụng rất thành công cho việc gom cụm và phân loại dữ liệu vãn bản. Vì vậy, nghiên cứu này tìm cách áp dụng mô hình chủ đề để giải quyết bài toán phân loại dữ liệu metagenomic. Đầu tiên, chúng tôi biểu diễn mỗi trình tụ nhu là một tài liệu gồm các từ là các 1mer đuợc sinh ra từ trình tụ. Tiếp theo, mô hình chủ đề LDA đuợc sử dụng để thu giảm số chiều. Mỗi tài liệu sẽ thành một vector đặc trung mà mỗi thành phần là một chủ đề đuợc tạo ra từ LDA. Kế đến, phase đầu của BiMeta đuợc thục hiện độc lập để nhóm các trình tụ vào các nhóm nhỏ. Sau đó, chúng tôi kết họp kết quả ở buớc thú hai và buớc thú ba để tạo ra vector đặc trung cho mỗi nhóm từ centroid của mỗi nhóm. Tiếp đến, chúng tôi gom cụm các vector đặc trung cho mỗi nhóm dùng thuật toán kmeans. Cuối cùng, chúng tôi kết hợp kết quả của buớc năm và buớc ba để gán cụm cho các trình tụ. Kết quả thục nghiệm cho thấy phuơng pháp đề xuất tốt hơn các phuơng pháp gần đây nhu BiMeta và MetaProb.

ĐẠI HỌC QC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA QCH ĐÌNH HỒNG SỬ DỤNG MƠ HÌNH CHỦ ĐỀ CHO BÀI TOÁN PHÂN LOẠI METAGENOMIC Ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ Hồ CHÍ MINH - năm 2017 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA -ĐHQG -HCM Cán huớng dẫn khoa học: PGS TS Trần Văn Hoài (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 1: TS Lê Thanh Vân (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xốt 2: TS Lê Văn Vinh (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 28 tháng 12 năm 2017 Thành phần Hội đông đánh giá luận văn thạc sĩ gôm: (Ghi rỗ họ, tên, học hàm, học vị Hội đông chấm bảo vệ luận văn thạc sĩ) PGS TS Phạm Trần Vu (chủ tịch) TS Nguyễn Ân Khương TS Le Thanh Vân (phản biện 1) TS Lê Văn Vinh (phản biện 2) TS Nguyễn Đức Thái (thư ký) Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau khỉ luận văn sửa chữa (nểu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH&KTMT ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Qch Đình Hồng MSHV: 1570208 Ngày, tháng, năm sinh: 10/05/1985 Nơi sinh: Phú Yên Ngành: Khoa học máy tính Mã số : 60.48.01.01 I TÊN ĐỀ TÀI: Sử dụng mơ hình chủ đề cho toán phân loại metagenomic II NHỆM VỤ VÀ NỘI DUNG (1) Sử dụng mơ hình chủ đề kỹ thuật thu giảm số chiều để biểu diễn trình tự metagenomic (2) Nghiên cứu hữu ích đặc trung mơ hình LDA tạo cho việc gom nhóm trình tự III NGÀY GIAO NHIỆM VỤ : 04/09/2017 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 03/12/2017 V CÁN BỘ HUỚNG DẪN: PGS TS Trần Văn Hoài Tp HCM, ngày 11 tháng 12 năm 2017 CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) TRƯỞNG KHOA KH & KTMT (Họ tên chữ ký) Lời cảm ơn Tôi xin chân thành cảm ơn quý thầy cô trường Đại học Bách Khoa tận tình dạy bảo cho tơi nhiều kiến thức bổ ích suốt thời gian học tập trường, tạo điều kiện cho thực đề tài Đặc biệt, xin bày tỏ lòng biết ơn chân thành đến Phó Giáo sư Tiến Sĩ Trần Văn Hồi Thầy tận tâm, nhiệt tình hướng dẫn bảo cho suốt trình thực đề tài Luận văn khó hồn thành khơng có bảo hướng dẫn nhiệt tình thầy Trong trình thực luận văn, nhận giúp đỡ đóng góp nhiều ý kiến q báu, giúp tơi hoàn thiện cho đề tài đồng nghiệp, đặc biệt anh Lê Văn Vinh anh Huỳnh Ngun Chính Cuối cùng, tơi xin gửi lời cảm ơn đến tác giả báo cáo khoa học mà tham khảo để thực đề tài Các báo cáo nguồn tri thức vô quan họng việc giúp hiểu rõ đề tài TP HCM, ngày 22 tháng 01 năm 2018 Người thực Qch Đình Hồng Tóm tắt Metagenomics, khoa học gen quy mô lớn, cơng cụ hữu hiệu đuợc sử dụng để phân tích cộng đồng vi sinh vật mà không cần phân lập riêng cá thể để ni cấy phòng thí nghiệm cách làm truyền thống Một mẫu liệu metagenomic chứa đoạn trình tự từ vi sinh vật khác Vì vậy, vấn đề quan trọng phân tích liệu metagenomic xác định định luợng loài hay bộ/hệ gen mẫu vấn đề đuợc gọi phân loại (binning) Giải toán cho phép nhà nghiên cứu metagenomic đánh giá tiềm trao đổi chất cộng đồng vi sinh vật, từ trả lời câu hỏi sâu sắc sụ tiến hóa, sụ đa dạng, chức vi sinh vật Các mơ hình chủ đề đuợc áp dụng thành công cho việc gom cụm phân loại liệu vãn Vì vậy, nghiên cứu tìm cách áp dụng mơ hình chủ đề để giải toán phân loại liệu metagenomic Đầu tiên, chúng tơi biểu diễn trình tụ nhu tài liệu gồm từ 1-mer đuợc sinh từ trình tụ Tiếp theo, mơ hình chủ đề LDA đuợc sử dụng để thu giảm số chiều Mỗi tài liệu thành vector đặc trung mà thành phần chủ đề đuợc tạo từ LDA Kế đến, phase đầu BiMeta đuợc thục độc lập để nhóm trình tụ vào nhóm nhỏ Sau đó, chúng tơi kết họp kết buớc thú hai buớc thú ba để tạo vector đặc trung cho nhóm từ centroid nhóm Tiếp đến, chúng tơi gom cụm vector đặc trung cho nhóm dùng thuật tốn k-means Cuối cùng, kết hợp kết buớc năm buớc ba để gán cụm cho trình tụ Kết thục nghiệm cho thấy phuơng pháp đề xuất tốt phuơng pháp gần nhu BiMeta MetaProb Abstract Metagenomics, genomics on a huge scale, is a powerful tool that can be used to analyze microbial communities without isolation individually for culture in the laboratory as tradition way A sample of metagenomic data contains reads from different microorganisms Thus, an important problem in the analysis of metagenomic data is the identification and quantification of species or genomes in a sample It is called binning Solving this problem allows the metagenomic researchers to assess the metabolic potential of the microbial community, which can then answer deeper questions about evolution, diversity, and function of the microorganisms Topic models are very successful model for text data clustering and classification So this study seeks to apply the topic model to solve the metagenomic binning problem First, we represent each read as a document of 1-mer words derived from that read Next, the LDA topic model is used for dimension reduction Each document will be a feature vector where each component is a topic generated from the LDA Next, the first phase of BiMeta was performed independently to group reads into small groups Then we combine the results in the second and third step to create the feature vectors for each group from the centroid of each group Next, we cluster the feature vectors of each group using the k-means algorithm Finally, we combine the results of step five and step three to assign clusters for the reads Empirical results show that the proposed method is better than recent methods as BiMeta and MetaProb Lời cam đoan Tôi xin cam đoan cơng trình nghiên cứu khoa học độc lập riêng Các tập liệu thư viên sử dụng để thực nghiệm phân tích luận vãn có nguồn gốc rõ ràng Các kết nghiên cứu luận vãn tự tìm hiểu, phân tích cách trung thực, khách quan Học viên Qch Đình Hồng Mục lục Mở đầu 1.1 Giới thiệu vấn đề 1.2 Mục tiêu 1.3 Giới hạn 1.4 Bố cục luận văn Kiến thức sở 2.1 DNA, gennome metagenome 2.1.1 DNA 2.1.2 Genome 2.1.3 Metagenome 2.2 Giải ttình tự DNA 2.3 Các bước dự án metagenome 12 2.4 Đặc trưng ttình tự DNA 13 2.5 Mơ hình chủ đề 14 2.6 2.5.1 Giới thiệu 14 2.5.2 Đầu vào, đầu 16 2.5.3 Đánh giá mơ hình 17 Bài toán suy diễn 18 2.6.1 Giới thiệu 18 ii 2.7 2.8 3.2 ước lượng dùng Maximum Likelihood (ML) 19 2.6.3 ước lưọng dùng Maximum a Posteriori (MAP) 20 2.6.4 ước lưọng dùng suy diễn Bayes 21 Mơ hình PLSA 22 2.7.1 Giới thiệu 22 2.7.2 Định nghĩa mô hình 23 2.7.3 ước lưọng tham số 24 Mô hình LDA 25 2.8.1 Giới thiệu 25 2.8.2 Định nghĩa mơ hình 26 2.8.3 ước lưọng tham số 28 Các nghiên cứu liên quan 3.1 2.6.2 31 Gom cụm liệu metagenomic 33 3.1.1 Gom cụm dựa thành phần trình tự 33 3.1.2 Gom cụm dựa độ phong phú taxon 35 3.1.3 Gom cụm dùng phưong pháp lai 37 Gom cụm liệu metagenomic dùng mơ hình chủ đề 40 Phân loại metagenomic dựa mơ hình chủ đề 42 4.1 Biểu diễn liệu metagenomic 42 4.2 Mơ hình 43 4.2.1 LDACluster 44 4.2.2 LDABiMetaCluster 44 Thực nghiệm đánh giá 48 5.1 Dữ liệu 5.2 Các độ đo 48 5.3 Các thử nghiệm 50 5.3.1 48 Thử nghiệm với LDACluster 50 iii 5.3.2 5.4 Thử nghiệm với LDABiMetaCluster 51 So sánh BiMetaCluster với phương pháp khác 53 Kết luận 56 6.1 Đóng góp luận văn 56 6.2 Giới hạn luận văn 57 6.3 Hướng phát triển 57 Tài liệu tham khảo 58 IV _ i=lje{l, m} precision = —-— km t E "ij i=lj=l recall = j=lie{l, ,k} km E i=l j=l F—measure = • precision ■ recall +—I, precision recall precision + recall Recall tỷ lệ số trình tự lồi gán cụm Precision tỷ lệ số ửình tự gán cụm thuộc loài F-measure độ đo cân precision recall thường đưọc sử dụng để so sánh thuật toán với Bảng 5.1: Các tập liệu trình tự ngắn Tập liệu Số lồi Số trình tự Mức phát sinh lồi SR1 Species 114177 + 81162 SR2 Species, Family 114250 + 81063 + 130087 SR3 Phylum, Kingdom 172675 + 317955 + 222758 SR4 Genus, Order 99577 + 82961 + 37492 + 73514+ 162680 47 Bảng 5.2: Các tập liệu trình tự dài Tập liệu Số lồi Mức phát sinh lồi Số trình tự LR1 Species 42189 + 40771 LR2 Genus, Family 38664 + 38629 LR3 Genus 47457 + 45810 LR4 Family, Order 19473 + 19291 +251709 5.3 Các thử nghiệm Môi trường thử nghiệm Intel Xeon tốc độ 2.3 GHz với 24GB RAM (12 CPU) Chúng sử dụng thư viện BioString R để tiền xử lý liệu metagenomic chuyển thành tài liệu gồm 1-mer Thư viện Mallet (có thực LDA) dùng để thu giảm số chiều tài liệu BiMeta [33] dùng để gom trình tự vào group 5.3.1 Thử nghiệm với LDACluster Chúng thử nghiệm biểu diễn ttình tự tài liệu gồm từ 1-mer với ỉ = 4,5,6 Khi áp dụng mô hình LDA ttên tài liệu sinh ừình tự, chúng tơi thử nghiệm với số chủ đề k = 20,50 Theo kết thử nghiệm Zhang cộng [8] lựa chọn tốt ỉ = k = 20 Thử nghiệm quán với kết Do vậy, phần bên minh họa kết với tham số l = k = 20 Kết LDACluster ttên tập liệu mô tả bảng 5.3 Bảng 5.3: Precision, Recall, F-measure LDACluster tập liệu ứng vói / = 4,fc = 20 https://bioconductor.org/packagcs/rclcasc/bioc/html/Biostrings.html 2http://mallet.cs.umass.edu/ 48 Dataset Precision Recall F-measure SR1 0.585 0.810 0.679 SR2 0.563 0.714 0.630 SR3 0.784 0.834 0.808 SR4 0.421 0.467 0.443 LR1 0.509 0.502 0.505 LR2 0.602 0.726 0.658 LR3 0.602 0.726 0.658 LR4 0.867 0.547 0.671 Để đánh giá mức độ hiệu vector đặc trưng LDA tạo ra, so sánh mức độ hiệu so với phương pháp đơn dựa vector tần số 1-mer Chúng gọi BaseCluster phương pháp phân loại liệu metagenomỉc dựa việc áp dụng kmeans vector tần số 1-mer trình tự Bảng 5.4 mơ tả kết BaseCluster ứng với tập liệu thử nghiệm với ỉ = Dựa vào kết bảng 5.3 5.4 ta có bảng 5.5 tổng hợp F-measure BaseCluster LDACluster Kết bảng cho thấy LDACluster hiệu BaseCluster Mặc dù khác biệt không lớn, thử nghiệm cho thấy vector chủ đề LDA tạo hiệu so vector tần số 1-mer trình tự 5.3.2 Thử nghiệm vối LDABiMetaCluster LDACluster cho kết khơng ấn tượng khơng tận dụng đặc trưng sinh học liệu metagenomỉc mà áp dụng cách máy móc mơ hình LDA vào liệu Để khắc phục tình trạng này, chúng tơi tìm cách tận dụng đặc 49 Bảng 5.4: Precision, Recall, F-measure BaseCluster tập liệu ứng vối l = Dataset Precision Recall F-measure SR1 0.585 0.593 0.589 SR2 0.425 0.773 0.549 SR3 0.546 0.820 0.655 SR4 0.369 0.320 0.343 LR1 0.509 0.502 0.505 LR2 0.632 0.666 0.649 LR3 0.613 0.703 0.655 LR4 0.867 0.499 0.633 trưng sinh học liệu metagenomỉc vào mơ hình Ờ thử nghiêm này, kết hợp kết BiMeta [33] LDA BiMeta phương pháp phân loại metagenomic dựa ttên hai phase với phase có nhiệm vụ gom trình tự vào nhóm nhỏ dựa trùng lắp thông tin chúng Phase BiMeta hiệu tận dụng đặc trưng sinh học liệu metagenomic Chúng sử dụng lại phase BiMeta kết hợp kết phase vối đặc trưng LDA tạo để phân loại liệu metagenomic Chỉ tiết bước xử lý trình bày ỏ mục 4.2.2 Mỗi trình tợ đươc biểu diễn thành tài liệu gồm từ 1-mer với z = Khi áp dụng mơ hình LDA tài liệu sinh ưình tự, chúng tơi thử nghiệm với số chủ đề k = 20 Bảng 5.6 mô tả kết LDABiMetaCluster tập liệu thử nghiệm với l = 4, k = 20 Bảng 5.5: F-measure BaseCluster LDACluster tập liêu ứng với / = 4,fc = 20 5.4 Dataset BaseCluster LDACluster SR1 0.589 0.679 SR2 0.549 0.630 SR3 0.655 0.808 SR4 0.343 0.443 LR1 0.505 0.505 LR2 0.649 0.658 LR3 0.655 0.658 LR4 0.633 0.671 So sánh BiMetaCluster với phương pháp khác Để đánh giá mức độ hiệu giải pháp đề xuất, so sánh kết LDABiMetaCluster với phương pháp AbundanceBin [12], BiMeta [33], MetaProb [34] Kết thử nghiệm mô tả bảng 5.7 5.8 Kết cho thấy LDABỈMetaCluster tốt tất phương pháp khác ưên tất tập liệu trình tự dài thử nghiệm LDABiMetaCluster cho kết ngang ngửa với MetaProb phương pháp khác ừên tất tập liệu ttình tự ngắn (tốt tập hai tập) 53 Bảng 5.6: Precision, Recall, F-measure LDABiMetaCluster frên tập liệu ứng với ỉ = 4, k = 20 Dataset Precision Recall F-measure SR1 0.964 0.964 0.964 SR2 0.773 0.780 0.776 SR3 0.757 0.947 0.841 SR4 0.765 0.932 0.841 LR1 0.986 0.986 0.986 LR2 0.993 0.993 0.993 LR3 0.960 0.960 0.960 LR4 0.992 0.992 0.992 Bảng 5.7: F-measure AbundanceBỉn, BiMeta, MetaProb LDABiMetaCluster ừên tập liệu trình tự ngắn Dataset AbundanceBin BiMeta MetaProb LDABiMetaCluster SRI 0.713 0.581 0.901 0.964 SR2 0.552 0.690 0.832 0.776 SR3 0.692 0.858 0.970 0.841 SR4 0.528 0.743 0.769 0.841 54 Bảng 5.8: F-measure AbundanceBin, BiMeta, MetaProb, vàLDABiMetaCluster ưên tập liệu trình tự dài Dataset AbundanceBin BiMeta MetaProb LDABiMetaCluster LR1 0.674 0.609 0.971 0.986 LR2 0.667 0.773 0.968 0.993 LR3 0.672 0.780 0.928 0.960 LR4 0.950 0.890 0.986 0.992 Chương Kết luận 6.1 Đóng góp luận văn Luận văn thử nghiệm việc sử dụng mô hình chủ đề LDA kỹ thuật thu giảm số chiều để biểu diễn trình tự metagenomic nghiên cứu hữu ích đặc trưng tạo cho việc cho 55 việc gom nhóm trình tự Thực nghiệm cho thấy vector chủ đề tạo từ mơ hình chủ đề LDA hữu ích vector tần số 1-mer cho việc phân loại trình tự Ngồi ra, luận văn đề xuất giải pháp phân loại liệu metagenomic dựa ttên kết hợp vector chủ đề từ mơ hình chủ đề LDA với thơng tin nhóm từ kết phase BiMeta [33] Giải pháp đề xuất cho kết tốt phương pháp gần BiMeta [33] MetaProb [34] ttên tập liệu thử nghiệm MetaProb giải pháp đề xuất năm 2016 đăng ttên tạp chí Bioinformatics, tạp chí số lĩnh vực Bioinformatics, với IF > Do vậy, kết tiền đề cho nghiên cứu sâu hướng sử dụng mô hình chủ đề cho liệu metagenomic 6.2 Giới hạn luận văn Luận văn thử nghiệm thuật tốn k-means để gom cụm vector đặc trưng cho nhóm (đưọc tạo kết họp vector chủ đề từ mơ hình LDA với thơng tin nhóm BiMeta) mà chưa thử nghiệm thuật toán gom cụm khác Điều chủ yếu tính hiệu mặt thời gian kmeans xử lý liệu lớn Các phưong pháp khác gom cụm có độ phức tạp cao (độ phức tạp ơ(n2) trở lên chẳng hạn) không hiệu áp dụng tập liệu lớn liệu metagenomic 6.3 Hướng phát triển Kết thực nghiệm giải pháp đề xuất cho thấy việc áp dụng mơ hình chủ đề (vốn thành công cho liệu văn bản) vào liệu metagenomic hứa hẹn nhiều thách thức thời gian xử lý LDAMetaCluster cho kết tốt hon phưong pháp gần BiMeta [33] MetaProb [34] thời gian thực thi chậm hon Bước xử lý tốn nhiều thời gian chủ yếu bước ước lưọng tham số cho mơ hình LDA Do đó, việc nghiên cứu giải pháp, thuật tốn suy diễn để ước lưọng tham số cho mơ hình nhanh hon bước cần nhiều nhóm nghiên cứu quan tâm Các nghiên cứu [50], [51], [52], [53] theo hướng Một hướng phát ừiển khác thử nghiệm mơ hình chủ đề khác (ngồi LDA) để nghiên cứu sâu hữu ích chúng cho việc phân loại liệu metagenomic 56 Tài liệu tham khảo [1] National Research Council The New Science of Metagenomics: Revealing the Secrets of Our Microbial Planet The National Academies Press, 2007 [2] John c Wooley, Adam Godzik, and Iddo Friedberg A primer on metagenomics PLOS Comput Biol, 6(2), 2010 [3] Torsten Thomas, Jack Gilbert, and Folker Meyer Metagenomics - a guide from sampling to data analysis Microb Inform Exp., 2(3), 2012 [4] D Blei Probabilistic topic models Communications of the ACM, 55(4):77-84, 2012 [5] ML Metzker Sequencing technologies - the next generation Nature Genetics Review, 11:31—46, 2010 [6] RI Amann, w Ludwig, and KH Schleifer Phylogenetic identification and in situ detection of individual microbial cells without cultivation Microb Inform Exp., 59:143-69, 1995 [7] Massimo La Rosa, Antonino Fiannaca, Riccardo Rizzo, and Alfonso Urso Probabilistic topic modeling for the analysis and classification of genomic sequences BMC Bioinformatics, 2015 [8] R Zhang, z Cheng, J Guan, and s Zhou Exploiting topic modeling to boost metagenomic reads binning BMC Bioinformatics, 16(5): 1-10, 2015 [9] B Alberts, A Johnson, J Lewis, M Raff, K Roberts, and p Walter Molecular Biology of the Cell (6th ed.) - Chapter 4: DNA, Chromosomes and Genomes Garland Science, 2014 [10] Eric E Allen and Jillian F Banfield Community genomics in microbial ecology and evolution Nature Reviews Microbiology, 3:489-498, 2005 57 [11] J Bohlin Genomic signatures in microbes - properties and applications The Scientific World Journal, 11, 2011 [12] YW Wu and Y Ye A novel abundance-based algorithm for binning metagenomic sequences using 1-tupless J Comput Biol, 18(3):523-34, 2011 [13] Fei-Fei Li and Pietro Perona A bayesian hierarchical model for learning natural scene categories, in Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Washington, DC, USA, 2005 [14] J Pritchard, M Stephens, and p Donnelly Inference of population structure using multilocus genotype data Genetics, 155:945-959, 2000 [15] T Hofmann Probabilistic latent semantic analysis, in Proceedings of the Fifteenth conference on Uncertainty in artificial intelligence, 1999 [16] DM Blei, AY Ng, and MI Jordan Latent dirichlet allocation, in Proceedings of the Fifteenth conference on Uncertainty in artificial intelligencJoumal of machine Learning researche, pages 993-1022, 2003 [17] Yue Lu, Qiaozhu Mei, and Chengxiang Zhai Investigating task performance of probabilistic topic models: an empữical study of plsa and Ida Information Retrieval, 14(2): 178-203, 2011 [18] T Griffiths and M Steyvers Finding scientific topics Proceedings of the National Academy of Sciences, 101:5228-5235, 2004 [19] Matthew D Hoffman, David M Blei, Chong Wang, and John Paisley Stochastic variational inference Journal of Machine Learning Research, 14:1303- 1347, 2013 [20] H Teeling and FO Glockner Current opportunities and challenges in microbial metagenome analysis - a bioinformatic perspective Brief Bioinform, 2012 58 [21] Sharmila s Mande, Monzoorul Haque Mohammed, and Tarini Shankar Ghosh Classification of metagenomic sequences: methods and challenges Briefings in Bioinformatic, 2012 [22] Hanno Teeling, Jost Waldmann, Thierry Lombardot, Margarete Bauer, and Frank Oliver Glockner Tetra: a web-service and a stand-alone program for the analysis and comparison of tetranucleotide usage patterns in dna sequences BMC Bioinformatics, 5(163), 2004 [23] CK Chan, AL, Hsu, and SK Halgamuge Binning sequences using very sparse labels within a metagenome BMC Bioinformatics, 9(215), 2008 [24] Sourav Chatterji, Ichitaro Yamazaki, Zhaojun Bai, and Jonathan Eisen Compostbin: A dna composition-based algorithm for binning envữonmental shotgun reads Lecture Notes in Computer Science, 4955:17-28, 2008 [25] Yi Wang, Henry C.M Leung, S.M Yiu, and Francis Y.L Chin Metacluster 5.0: a two-round binning approach for metagenomic data for low-abundance species in a noisy sample Bioinformatics, 28(18):356-362, 2012 [26] GJ Dick, AF Andersson, BJ Baker, SL Simmons, and BC Thomas Community wide analysis of microbial genome sequence signatures Genome Biol, 10(8), 2009 [27] A Kislyuk, s Bhatnagar, J Dushoff, and JS Weitz Unsupervised statistical clustering of envữonmental shotgun sequences BMC Bioinform, 10(1), 2009 [28] D Kelley and s Salzberg Clustering metagenomic sequences with interpolated markov models BMC Bioinformatics, 11(544), 2010 [29] CT Brown, I Sharon, BC Thomas, CJ Castelle, MJ Morowitz, and JF Banfield Genome resolved analysis of a premature infant gut microbial community reveals a varibaculum cambriense genome and a shift towards fermentationbased metabolism during the thữd week of life Microbiome, 1(1), 2013 59 [30] A Kikuchi, T Ikemura, and T Abe T Development of self-compressing blsom for comprehensive analysis of big sequence data Biomed Res Int, page 1-8, 2015 [31] cc Laczny, T Sternal, V Plugaru, p Gawron, A Atashpendar, and H Mar- gossian Vizbin - an application for reference-independent visualization and human-augmented binning of metagenomic data Microbiome, 3(1), 2015 [32] I Saeed, SL Tang, and SK Halgamuge Unsupervised discovery of microbial population structure within metagenomes using nucleotide base composition Nucleic Acids Res, 40(5), 2011 [33] LV Vinh, TV Lang, LT Binh, and TV Hoai A two -phase binning algorithm using 1-mer frequency on groups of non overlapping reads Algorithms for Molecular Biology, 10(2), 2015 [34] Samuele Ghotto, Cinzia Pizzi, and Matteo Comin Metaprob: accurate metagenomic reads binning based on probabilistic sequence signatures Bioinformatics, 32(17):567-575, 2016 [35] Y Wang, H Hu, and X Li Mbbc: an efficient approach for metagenomic binning based on clustering BMC Bioinform, 16(1), 2015 [36] HB Nielsen, M Almeida, AS Juncker, s Rasmussen, and J Li Identification and assembly of genomes and genetic elements in complex metagenomic samples without using reference genomes Nat Biotechnol, 32(8):822-8, 2014 [37] JR Kultima, s Sunagawa, J Li, w Chen, H Chen, and DR Mende Mocat: a metagenomics assembly and gene prediction toolkit PLoS One, 7(10), 2012 [38] J Alneberg, BS Bjarnason, I De Bruijn, M Schhmer, J Quick, and uz Ijaz Binning metagenomic contigs by coverage and composition Nat Methods, 11(11): 1144—6, 2014 [39] YY Lu, Chen, JA Fuhrman, and F Sun Cocacola: binning metagenomic contigs using sequence composition, read coverage, co-alignment and paired-end read linkage Bioinformatics, 2016 60 [40] H-H Lin and Y-C Liao Accurate binning of metagenomic contigs via automated clustering sequences using information of genomic signatures and marker genes Sci Rep, 2016 [41] DD Kang, J Froula, R Egan, and z Wang Metabat - an efficient tool for accurately reconstructing single genomes from complex microbial communities Peer J, 2015 [42] Y-W Wu, Y-H Tang, SG Tringe, BA Simmons, and sw Singer Maxbin: an automated binning method to recover individual genomes from metagenomes using an expectation-maximization algorithm Microbiome, 2(1), 2014 [43] Y-W Wu, BA Simmons, and sw Singer Maxbin 2.0: an automated binning algorithm to recover genomes from multiple metagenomic datasets Bioinformatics, 32(4):605-7, 2015 [44] Lin Liu, Lin Tang, Wen Dong, Shaowen YaoEmail, and Wei ZhouEmail An overview of topic modeling and its current applications in bioinformatics Springer Plus, 2016 [45] X Chen, X Hu, X Shen, and G Rosen Probabilistic topic modeling for genomic data interpretation, in IEEE international conference on bioinformatics and biomedicine (BIBM), 2011 [46] X Chen, T He, X Hu, Y Zhou, and Y An et al Estimating functional groups in human gut microbiome with probabilistic topic models IEEE Transactions on NanoBioscience, ll(3):203215, 2012 [47] X Chen, X Hu, TY Lim, and X Shen Exploiting the functional and taxonomic structure of genomic data by probabilistic topic modeling IEEE/ACM Transactions on Computational Biology and Bioinformatics, 9(4):980-991, 2012 [48] R Liao, R Zhang, J Guan, and s Zhou A new unsupervised binning approach for metagenomic sequences based on n-grams and automatic feature weighting IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB), ll(l):42-54, 2014 [49] DC Richter, F Ott, AF Auch, R Schmid, and DH Huson Metasim - a sequencing simulator 61 for genomics and metagenomics PLoS ON, 3(10), 2008 [50] David Newman, Arthur Asuncion, Padhraic Smyth, and Max Welling Distributed algorithms for topic models Journal of Machine Learning Research, 10:1801-1828,2009 [51] Alexander Smola and Shravan Narayanamurthy An architecture for parallel topic models Proceedings of the VLDB Endowment, 3(1): 1801—1828, 2010 [52] Ke Zhai, Jordan Boyd-Graber, and Nima Asadi Mr Ida: A flexible large scale topic modeling package using variational inference in mapreduce In WWW, Lyon, France, 2012 [53] Lele Yu, Ce Zhang, Yingxia Shao, and Bin Cui Lda*: A robust and large-scale topic modeling system Proceedings of the VLDB Endowment, 10(11), 2017 62 LÝ LỊCH KHOA HỌC I LÝ LỊCH TRÍCH NGANG Họ tên: Qch Đình Hồng Giới tính: Nam Ngày, tháng, năm sinh: 10-05-1985 Nơi sinh: Phú Yên Địa liên lạc: Khoa CNTT, ĐH ĐHSPKT TP.HCM II QUÁ TRÌNH ĐÀO TẠO Đại học Ngành học: Toán-Tin học Hệ đào tạo: Đại học Nơi đàơ tạơ: Trường ĐH Khoa học tự nhiên Năm tốt nghiệp: 2007 Ngoại ngữ Ngơn ngữ sử dụng: Tiếng Anh III Q TRÌNH CƠNG TÁC Thời gian Noi công tác Công việc đảm nhiệm 10/2007-10/2008 Cơng ty mạng máy tính Phú Sĩ (FUJINET) Lập trình viên 5/2009-nay ĐH SPKT TP.HCM Giảng viên Tp.HCM, ngày 11 tháng 12 năm 2017 Ngưòi khai kí tên Qch Đình Hồng ... 60.48.01.01 I TÊN ĐỀ TÀI: Sử dụng mơ hình chủ đề cho toán phân loại metagenomic II NHỆM VỤ VÀ NỘI DUNG (1) Sử dụng mơ hình chủ đề kỹ thuật thu giảm số chiều để biểu diễn trình tự metagenomic (2)... 12 Vì đề tài giải tốn phân loại trình tự dựa mơ hình chủ đề nên phần lại chưong đề cập đến vấn đề lý thuyết liên quan đến mơ hình chủ đề 2.5 Mơ hình chủ đề 2.5.1 Giới thiệu Mơ hình chủ đề lên... nghiệm gần [7, 8] cho phương pháp hứa hẹn cho phân tích liệu metagenomic Do đó, đề tài này, chúng tơi tập trung nghiên cứu toán phân loại liệu metagenomic sử dụng mơ hình chủ đề Cụ thể, chúng

Ngày đăng: 04/02/2020, 09:43

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[1] National Research Council. The New Science of Metagenomics: Revealing the Secrets of Our Microbial Planet. The National Academies Press, 2007

Sách, tạp chí

Tiêu đề:	The New Science of Metagenomics: Revealing the Secrets of Our Microbial Planet

[2] John c. Wooley, Adam Godzik, and Iddo Friedberg. A primer on metagenomics. PLOS Comput Biol, 6(2), 2010

Sách, tạp chí

Tiêu đề:	PLOS Comput Biol

[3] Torsten Thomas, Jack Gilbert, and Folker Meyer. Metagenomics - a guide from sampling to data analysis. Microb Inform Exp., 2(3), 2012

Sách, tạp chí

Tiêu đề:	Microb Inform Exp

[4] D. Blei. Probabilistic topic models. Communications of the ACM, 55(4):77-84, 2012

Sách, tạp chí

Tiêu đề:	Communications of the ACM

[5] ML Metzker. Sequencing technologies - the next generation. Nature Genetics Review, 11:31—46, 2010

Sách, tạp chí

Tiêu đề:	Nature Genetics Review

[6] RI Amann, w Ludwig, and KH Schleifer. Phylogenetic identification and in situ detection of individual microbial cells without cultivation. Microb Inform Exp., 59:143-69, 1995

Sách, tạp chí

Tiêu đề:	Microb Inform Exp

[7] Massimo La Rosa, Antonino Fiannaca, Riccardo Rizzo, and Alfonso Urso. Probabilistic topic modeling for the analysis and classification of genomic sequences. BMC Bioinformatics, 2015

Sách, tạp chí

Tiêu đề:	BMC Bioinformatics

[8] R Zhang, z Cheng, J Guan, and s Zhou. Exploiting topic modeling to boost metagenomic reads binning. BMC Bioinformatics, 16(5): 1-10, 2015

Sách, tạp chí

Tiêu đề:	BMC Bioinformatics

[9] B Alberts, A Johnson, J Lewis, M Raff, K Roberts, and p Walter. Molecular Biology of the Cell (6th ed.) - Chapter 4: DNA, Chromosomes and Genomes. Garland Science, 2014

Sách, tạp chí

Tiêu đề:	Molecular Biology of the Cell (6th ed.) - Chapter 4: DNA, Chromosomes and Genomes

[10] Eric E. Allen and Jillian F. Banfield. Community genomics in microbial ecology and evolution. Nature Reviews Microbiology, 3:489-498, 2005

Sách, tạp chí

Tiêu đề:	Nature Reviews Microbiology

[11] J. Bohlin. Genomic signatures in microbes - properties and applications. The Scientific World Journal, 11, 2011

Sách, tạp chí

Tiêu đề:	The Scientific World Journal

[12] YW Wu and Y Ye. A novel abundance-based algorithm for binning metagenomic sequences using 1-tupless. J Comput Biol, 18(3):523-34, 2011

Sách, tạp chí

Tiêu đề:	J Comput Biol

[13] Fei-Fei Li and Pietro Perona. A bayesian hierarchical model for learning natural scene categories, in Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Washington, DC, USA, 2005

Sách, tạp chí

Tiêu đề:	in Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Washington, DC, USA

[14] J. Pritchard, M. Stephens, and p. Donnelly. Inference of population structure using multilocus genotype data. Genetics, 155:945-959, 2000

Sách, tạp chí

Tiêu đề:	Genetics

[15] T. Hofmann. Probabilistic latent semantic analysis, in Proceedings of the Fifteenth conference on Uncertainty in artificial intelligence, 1999

Sách, tạp chí

Tiêu đề:	in Proceedings of the Fifteenth conference on Uncertainty in artificial intelligence

[16] DM Blei, AY Ng, and MI Jordan. Latent dirichlet allocation, in Proceedings of the Fifteenth conference on Uncertainty in artificial intelligencJoumal of machine Learning researche, pages 993-1022, 2003

Sách, tạp chí

Tiêu đề:	in Proceedings of the Fifteenth conference on Uncertainty in artificial intelligencJoumal of machine Learning researche

[17] Yue Lu, Qiaozhu Mei, and Chengxiang Zhai. Investigating task performance of probabilistic topic models: an empữical study of plsa and Ida. Information Retrieval, 14(2): 178-203, 2011

Sách, tạp chí

Tiêu đề:	Information Retrieval

[18] T. Griffiths and M. Steyvers. Finding scientific topics. Proceedings of the National Academy of Sciences, 101:5228-5235, 2004

Sách, tạp chí

Tiêu đề:	Proceedings of the National Academy of Sciences

[19] Matthew D. Hoffman, David M. Blei, Chong Wang, and John Paisley. Stochastic variational inference. Journal of Machine Learning Research, 14:1303- 1347, 2013

Sách, tạp chí

Tiêu đề:	Journal of Machine Learning Research

[20] H Teeling and FO Glockner. Current opportunities and challenges in microbial metagenome analysis - a bioinformatic perspective. Brief Bioinform, 2012

Sách, tạp chí

Tiêu đề:	Brief Bioinform