Áp dụng mô hình ẩn kết hợp thuật toán Bimeta trong việc gom nhóm trình tự Metagenomic

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	7
Dung lượng	885,79 KB

Nội dung

Bài báo trình bày giải pháp gom nhóm các trình tự trong metagenomic áp dụng mô hình ẩn (Latent Dirichlet Allocation) để tìm chủ đề ẩn có ý nghĩa, làm chủ đề đặc trưng cho trình tự. Từ chủ đề đặc trưng, tiến hành xác định nhóm của trình tự bằng phương pháp Kullback Leibler dựa trên sự phân bổ của chủ đề thay vì tính toán trực tiếp giữa các trình tự. Giải pháp kế thừa thuật toán BiMeta, tạo các nhóm trình tự gốc dựa vào thông tin trùng lắp trước khi áp dụng mô hình ẩn tìm chủ đề, khi đó, dữ liệu phân tích để tìm chủ đề ẩn được giảm đáng kể.

Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.0007 ÁP DỤNG MƠ HÌNH ẨN KẾT HỢP THUẬT TỐN BIMETA TRONG VIỆC GOM NHĨM TRÌNH TỰ METAGENOMIC Văn Đình Vỹ Phƣơng1,3, Trần Văn Lăng3, Trần Văn Hoài1, Lê Văn Vinh2 Khoa Khoa học Kỹ thuật máy tính, Trường Đại học Bách khoa TPHCM Khoa Công nghệ thông tin, Trường Đại học Sư phạm Kỹ thuật TPHCM Khoa Công nghệ thông tin, Trường Đại học Lạc Hồng phuongvdv@cse.hcmut.edu.vn, lang@lhu.edu.vn, hoai@cse.hcmut.edu.vn, vinhlv@fit.hcmute.edu.vn TĨM TẮT— Phân nhóm xác định lồi metagenomic tốn lớn lĩnh vực Sinh-Tin học Bài báo trình bày giải pháp gom nhóm trình tự metagenomic áp dụng mơ hình ẩn (Latent Dirichlet Allocation) để tìm chủ đề ẩn có ý nghĩa, làm chủ đề đặc trưng cho trình tự Từ chủ đề đặc trưng, tiến hành xác định nhóm trình tự phương pháp Kullback Leibler dựa phân bổ chủ đề thay tính tốn trực tiếp trình tự Giải pháp kế thừa thuật tốn BiMeta, tạo nhóm trình tự gốc dựa vào thơng tin trùng lắp trước áp dụng mơ hình ẩn tìm chủ đề, đó, liệu phân tích để tìm chủ đề ẩn giảm đáng kể Từ khóa— metagenomic, gom nhóm, trình tự, LDA I GIỚI THIỆU Sinh-Tin học (bioinformatics) khái niệm khơng cịn xa lạ lĩnh vực nghiên cứu Việc giải mã trình tự DNA ln vấn đề tối quan trọng để hiểu rõ chất sinh vật, vi sinh vật sống Cho đến thời điểm nay, giải mã trình tự có cách tiếp cận; theo phương pháp truyền thống (Chain-termination methods, gọi tắt Sanger) phương pháp giải trình tự hệ (Next Generation Sequencing, gọi tắt NGS [1]) Mỗi phương pháp có ưu nhược điểm riêng Môi trường sống tập thể nhiều vi sinh vật, có tác động qua lại lẫn cộng sinh việc tồn tại, việc tách độc lập gen để nuôi cấy tiến hành nghiên cứu vấn đề tốn nhiều chi phí đơi khơng thể tách riêng biệt Chính khó khăn mà sở liệu gen cho loài vi sinh vật biết giới hạn số lượng Từ thách thức trên, hướng vi sinh vật môi trường sau thu thập được, không qua giai đoạn nuôi cấy mà đưa trực tiếp vào thiết bị giải trình tự để đưa trình tự sinh học nhiều vi sinh vật cộng sinh với Vấn đề đặt xác định trình tự vi sinh vật cụ thể tập trình tự hỗn hợp Lĩnh vực metagenomic đời bối cảnh này; tập hợp, pha trộn lượng lớn trình tự nhiều lồi vi sinh vật khác Metagenomic lấy từ môi trường chứa đến hàng triệu trình tự với phong phú đa dạng khác Vì để tìm hiểu trình tự, việc nghiên cứu metagenomic tiến hành phân tích, gom cụm trình tự (read, fragment) có thành phần, tính chất giống theo nhóm Việc phân nhóm trình tự có độ xác cao dẫn đến dễ dàng việc nhận định trình tự thuộc lồi vi sinh vật có hay mới; số lồi mức độ phong phú chúng môi trường sống; từ bổ sung vào nguồn sở liệu cịn ỏi nay, làm tiền đề cho việc hiểu chức năng, vai trị lồi tác động cộng sinh chúng Bài báo trình bày thành phần: phần I giới thiệu metagenomic; phần II trình bày giải pháp gom nhóm trình tự metagenomic sử dụng; phần III trình bày phương pháp đề xuất để phân nhóm trình tự cuối phần thực nghiệm, kết luận phương pháp đề xuất II GIẢI PHÁP GOM NHĨM TRÌNH TỰ METAGENOMIC Hiện có nhiều phương pháp đưa việc phân tích trình tự metagenomic Tuy nhiên chưa có giải pháp coi tối ưu xác nhất, giải trọn vẹn cá thể Việc xác định, phân lồi trình tự đa phần dựa vào số phương pháp dựa đặc trưng như: tính tương đồng trình tự (homology-based), tính hợp thành (composition-based) Phương pháp phân lồi trình tự metagenomic theo hướng tiếp cận dựa tính tương đồng thực so sánh trình tự cần xác định với trình tự có sở liệu Thuật toán BLAST sử dụng phổ biến việc xây dựng ứng dụng phân lồi trình tự dựa theo tính tương đồng Một số ứng dụng theo hướng MEGAN, CARMA thực việc xếp trình tự DNA trực tiếp với gen cần so sánh Phương pháp phân lồi theo tính tương đồng có ưu điểm cho độ xác cao đoạn trình tự cần phân tích giống gần giống với đoạn trình tự có sở liệu Nhược điểm nguồn liệu (các mẫu trình tự biết) ít, nên việc so sánh, tìm kiếm tương đồng đạt tỷ lệ thấp Theo [2], có 99% trình tự gen vi sinh vật chưa nghiên cứu nhận diện Dẫn đến hạn chế việc thực so sánh với nguồn liệu mẫu phân tích trình tự Phương pháp tiếp cận theo tính hợp thành thực việc phân lồi trình tự dựa đặc trưng lấy trực tiếp từ thành phần trình tự metagenomic Hiện nay, phương pháp dựa tính hợp thành chia thành ba nhóm: nhóm học có giám sát (supervised learning approaches), nhóm học khơng giám sát (unsupervised approaches) 50 ÁP DỤNG MƠ HÌNH ẨN KẾT HỢP THUẬT TỐN BIMETA TRONG VIỆC GOM NHĨM… nhóm học bán giám sát (semi-supervised learning approaches) Phương pháp học có giám sát có ý nghĩa gần giống với phương pháp dựa tính tương đồng điểm cần sở liệu tham khảo Điều dẫn đến hạn chế phần lớn vi sinh vật môi trường chưa nhận diện Để giải hạn chế này, phương pháp khơng giám sát thực việc phân lồi cách rút trích thơng tin trực tiếp từ trình tự cần phân lồi, nghĩa khơng sử dụng sở liệu tham khảo Bài toán thực việc phân cụm (gom cụm) trình tự metagenomic có nhóm Việc gom cụm chưa yêu cầu phải đưa kết luận nhóm thuộc giống lồi Mặc dù đầu phương pháp chưa đưa kết mong muốn nhà nghiên cứu sinh học Tuy nhiên, bước có hiệu việc phân lồi trình tự có tính giống metagenomic mà khơng phải có nguồn liệu tập vi sinh vật biết để tham chiếu Tình hình nghiên cứu ngồi nước metagenomic theo phương pháp dựa tính hợp thành quan tâm đáng kể Một số nghiên cứu gần đánh giá cao như: MBBC Y Wang cộng [3] đề xuất giải pháp gom nhóm dựa tần suất k-mer sử dụng thuật toán Expectation Maximization Cơ sở phương pháp MBBC nhóm lồi với độ phủ gen khác có tần suất k-mer khác nhau; nhóm lồi có tần suất k-mer gần giống Tuy nhiên, cần xác định khả lồi có tần suất k-mer giống khơng nhóm lồi ngược lại MetaCluster-TA Yi Wang cộng [4] nhận định việc gán nhãn phân lồi trình tự vấn đề quan trọng qua trình phân tích metagenomic Trong nghiên cứu, tác giả đưa khái niệm virtual contig (có chiều dài lên đến 10kb) đại diện cho nhóm Mặc dù việc gán nhãn có kết khả quan so với số phương pháp khác, nhiên MetaCluster-TA khơng phù hợp để phân tích trình tự ngắn, đồng thời phương pháp sử dụng thuật giải BLASTN, có độ phức tạp phụ thuộc vào tổng độ dài trình tự, dẫn đến thời gian thực thi tăng cao số lượng liệu trình tự dài nhiều Ở nước, nghiên cứu metagenomic hướng áp dụng quan tâm thời gian gần Nghiên cứu [5, 6] Viện Công nghệ sinh học đặt vấn đề nội sinh học cần giải hướng việc áp dụng ứng dụng metagenomic lĩnh vực sinh học Nghiên cứu [7] áp dụng kỹ thuật metagenomic để giải toán di truyền học Lê Văn Vinh cộng đưa phương pháp đánh giá khả thi việc giải toán phân lồi trình tự metagenomic như: [8], đánh giá hiệu phương pháp phổ biến để gom cụm trình tự metagenomic; Nghiên cứu [9] đề xuất giải pháp gom nhóm MetaAB, cho phép nhận diện phân lồi trình tự thành nhóm dựa độ phong phú cách giảm kích thước mơ hình (reduced-dimension model), giúp tăng tốc độ xử lý kết hợp tiêu chuẩn Bayesion để phân loài Kết thực nghiệm giải pháp MetaAB cho thấy, độ xác việc xác định nhóm lồi 6/7 so với 4/7 phương pháp AbundanceBin Tuy nhiên thời gian xử lý chưa thể rõ khác biệt trình tự khơng bị lỗi (Error-Free Sequencing Reads); Nghiên cứu [10] đề xuất giải pháp BiMeta thực phân lồi dựa trình tự khơng trùng lặp Thuật toán BiMeta thực qua hai bước: Bước 1, tiến hành gom trình tự thành nhóm dựa thơng tin trùng lặp trình tự Điểm bật bước việc tạo nhóm (gọi nhóm gốc – seed) lúc với việc phân nhóm Một trình tự A phân vào nhóm gốc (gọi SG1) A không liền kề với SGi khác; Bước 2, tiến hành kết hợp nhóm dựa tần suất k-mer tập trình tự khơng trùng lặp sử dụng thuật giải K-Means Kết thực nghiệm so sánh BiMeta, MetaCluster (5.0) AbundanceBin thể cải tiến đáng kể BiMeta độ xác Trên liệu giả lập, BiMeta có độ xác 8/10 mẫu trình tự so với 2/10 mẫu trình tự sử dụng MetaCluster (5.0) toàn mẫu sử dụng phương pháp AbundanceBin Giải thuật sử dụng BiMeta tăng thời gian xử lý việc thực so sánh dựa nhóm gốc thay dựa tồn trình tự tập liệu cần phân nhóm Tính xác bước1 việc phân nhóm xây dựng nhóm gốc phụ thuộc nhiều vào việc dự đốn trùng lặp trình tự Đây vấn đề đặt toán cần phải giải chứng minh tính đắn; Trong nghiên cứu [11, 12] đưa phương pháp sử dụng Fuzzy K-medoids, phương pháp đếm k-mer cho việc phân nhóm trình tự metagenomic dựa độ phong phú nhằm nâng cao hiệu việc rút trích đặc trưng độ phong phú gen Phương pháp thực qua ba bước chính: Bước 1, thực việc rút trích k-mer; Bước 2, phân nhóm k-mer dựa mức độ thành viên; Bước 3, gán trình tự vào nhóm dựa kết việc phân nhóm k-mer Trình tự gán vào nhóm k-mer nhóm lớn Kết thực nghiệm nhóm tác giả so sánh với AbundanceBin Độ xác có nhỉnh so với AbundanceBin, nhiên thời gian xử lý cịn phải xem xét Có thể thấy rằng, việc phân lồi trình tự metagenomic nhà nghiên cứu quan tâm đưa nhiều giải pháp để thực Tuy nhiên, nhiều vấn đề việc gom cụm (bước tiền đề cho việc phân lồi) xác định thơng tin nhóm lồi biết, chưa biết, đặc trưng lồi, nhóm lồi cộng hưởng với loài metagenomic, liên quan, độc lập lồi III PHƢƠNG PHÁP ĐỀ XUẤT Mơ hình ẩn (Latent Dirichlet Allocation - LDA) [13, 14, 15] sử dụng phổ biến việc xem xét tương quan, thơng tin đặc trưng tìm chủ đề ẩn tài liệu văn cần phân tích Từ định hướng này, xem xét trình tự cần xác định nhóm metagenomic tài liệu, đó, áp dụng mơ hình ẩn để tìm chủ đề ẩn mà trình tự metagenomic có Bài báo đề xuất phương pháp gom cụm trình tự cách sử dụng mơ hình ẩn để tìm chủ đề ẩn trình tự, trình tự có chủ đề gom thành nhóm Và để giản lược liệu đầu vào xây dựng mơ hình tìm chủ đề ẩn, phương pháp áp dụng việc tạo nhóm gốc thuật tốn BiMeta, mơ hình ẩn phân tích liệu tập tài liệu nút gốc Sau có mơ hình, chủ đề, phương pháp sử dụng phép đo Kullback Leibler [16] để gom cụm tài liệu (cũng trình tự) theo chủ đề tương ứng Phép đo tài liệu Kullback Leibler phù hợp phương pháp SKWIC [17] Văn Đình Vỹ Phương, Trần Văn Lăng, Trần Văn Hồi, Lê Văn Vinh 51 Hình trình bày bước thực việc gom nhóm trình tự metagenomic phương pháp đề xuất Metagenomic =>Nhóm gốc (seed) (BiMeta) Trình tự => Tài liệu Mơ hình ẩn (Latent Dirichlet Allocation -LDA) Phân bổ từ-chủ đề; chủ đề-tài liệu Gom tài liệu (trình tự) nhóm Hình Các bước gom nhóm trình tự A Tạo nhóm gốc Thuật tốn BiMeta [10] chia thành bước Bước thứ (phase Hình 2) gom trình tự có trùng lặp thơng tin lại thành nhóm (gọi nhóm gốc - seed), bước thứ hai (phase Hình 2) thực gom nhóm có bước thành nhóm lớn dựa vào rút trích đặc trưng nhóm Thuật tốn đưa ý tưởng thay phải xét đặc trưng tất trình tự, lúc xét đặc trưng nhóm dựa vào để gom nhóm Theo [10], trùng lặp thơng tin hai trình tự trình tự thuộc gen có chung đoạn trình tự Ví dụ, cho hai gen gọi lại , với Giả sử với k-mer = có số trình tự sau: , , : trùng lặp thông tin) trùng TT , lại khơng trùng lắp thuộc gen khác Hình Ý tưởng thuật tốn BiMeta B Chuyển trình tự thành tài liệu Như đề cập, mơ hình ẩn thực việc phân tích tập tài liệu dạng văn để tìm chủ đề ẩn tài liệu Mỗi tài liệu có nội dung số lượng từ khác Vì vậy, để áp dụng mơ hình ẩn cho việc phân tích trình tự metagenomic, cần chuyển đổi trình tự (là dạng chuỗi ký tự hợp thành từ ký tự A, G, T, C) thành từ có độ dài k-mer, ứng với từ tài liệu Theo [14, 18], k=4 đánh giá phù hợp Các từ tài liệu tham chiếu để xây dựng từ điển (bộ từ điển tập hợp từ có xuất tài liệu), hỗ trợ việc tính tốn để xây dựng mơ hình Số lượng ký tự để xây dựng từ ( A, G, T, C), giả sử với k=5, vậy, từ điển có tổng cộng 45=1024 từ Số từ tài liệu từ Ví dụ: trình tự AGCTCTGAGA (với k=5),sẽ chuyển thành document là: AGCTC GCTCT CTCTG TCTGA CTGAG TGAGA ( C Mô hình ẩn Có nhiều mơ hình xác suất sử dụng để phân tích chủ đề ẩn ý nghĩa nội dung Blei, 2003; Griffiths and Steyvers, 2002, 2003, 2004; Hofmann, 1999, 2001 Trong đó, mơ hình ẩn (Latent Dirichlet Allocation LDA) Blei đề xuất vào năm 2003 [13, 19] dựa mơ hình xác suất để lựa chọn tập từ tài liệu có ý nghĩa đặc trưng thể ý nghĩa hay nội dung tồn tài liệu Một tài liệu ẩn chứa nhiều chủ đề khác Mơ hình xây dựng để tìm chủ đề bật tài liệu cần phân tích Các ký hiệu quy ước cho việc xác định giá trị biến quan sát, biến ẩn cần suy luận mơ sau: : chủ đề có tài liệu d (chứa tập từ tạo thành chủ đề) ÁP DỤNG MƠ HÌNH ẨN KẾT HỢP THUẬT TỐN BIMETA TRONG VIỆC GOM NHÓM… 52 : tập tài liệu cần phân tích để tìm chủ đề ẩn : số lượng từ có tài liệu d : tập từ tài liệu d : số lượng chủ đề : phân bổ từ ứng với chủ đề z phân bổ chủ đề ứng với tài liệu d 𝛼 𝜃 𝑑 𝑧𝑑 𝑤𝑑 tài liệu tập 𝑧 𝑁𝑑 𝐷 𝛽 𝑇 Hình Mơ hình ẩn Mơ hình xác định phân bổ từ tính sau: ∑ (1) Trong đó; Với thể xác suất từ chủ đề thể xác suất phân bổ chủ đề z tài liệu phân tích Biến mật độ xác suất phân bổ trực tiếp định nghĩa công thức (2) với thể tiền quan sát số lần xuất chủ đề tài liệu, trước quan sát cụ thể từ tài liệu Để đơn giản hóa vấn đề, giả thiết có giá trị nhau, để xét giá trị ∑ ∏ Ngoài ra, biến khác khác cụ thể Theo Blei, Griffiths Steyvers, ∏ (2) thể số lần xuất từ có chủ đề, trước từ quan sát giá trị phù hợp cho việc xác định mơ hình Mơ hình ẩn (Hình 3) thể biến quan sát ( biến ẩn ( ) ẩn số cần tìm kiếm giá trị Mũi tên phụ thuộc điều kiện biến Hình chữ nhật thể trình lặp để xác định mẫu ứng với số lần tương ứng Ví dụ, hình chữ nhật gạch dọc (chỉ chứa z w), thể Nd bước lặp tài liệu d, hình chữ nhật gạch ngang (chứa θ) xác định phân bổ chủ đề tài liệu d so với tổng số tài liệu D, Hình chữ nhật chấm nhỏ (chứa ) thể phân bổ từ chủ đề, T chủ đề tạo D Phân bổ từ-chủ đề, phân bổ chủ đề-tài liệu Hofmann sử dụng thuật tốn Expectation-Maximization để tính Tuy nhiên, thuật toán gặp vấn đề cực đại cục Vì phương pháp Gibb Sampling thực để tính tốn dựa vào chủ đề (khơng tính trực tiếp), với thể chủ đề với từ ( Thuật toán Gibbs Sampling Markov Chain Monte Carlo, phù hợp cho việc rút trích chủ đề từ tập liệu lớn Các tài liệu thể tập từ với số số tài liệu Gibbs Sampling xem xét từ tập liệu chọn tính tốn phân bổ từ-chủ đề so với tất từ cịn lại Khi đó, phân bổ từ thứ chủ để tính tốn theo công thức (3) (3) Và phân bổ từ-chủ đề ), phân bổ chủ đề-tài liệu ( tính theo cơng thức (4) (5) Trong ma trận số lượng từ gán chủ đề ma trận số lượng chủ đề tài liệu (4) ∑ ∑ (5) E Gom tài liệu nhóm Các chủ đề rút trích từ tập tài liệu suy dẫn để trả lời câu hỏi liên quan tài liệu, ý tài liệu Tương ứng với phân tích trình tự metagenomic trả lời cho câu hỏi tìm đặc trưng trình tự trình tự có liên quan với (hay nhóm với nhau) Hai tài liệu hay trình tự coi tương đồng (cùng nhóm) có chung chủ đề Để tính tốn tương đồng, thay xem xét nội dung chi tiết tài liệu, ta tính tốn tương đồng phân bổ tài liệu d1 ( ) d2 ( ), báo sử dụng phương pháp Kullback Leibler [16] xem phù hợp so với phép đo K-Mean Cơng thức tính sau: ∑ (6) Văn Đình Vỹ Phương, Trần Văn Lăng, Trần Văn Hoài, Lê Văn Vinh với tất giá trị , 53 số khơng âm, đó, khác biệt Do là: (7) IV THỰC NGHIỆM VÀ KẾT LUẬN A Thực nghiệm Dữ liệu sử dụng để thực nghiệm kế thừa từ liệu thực nghiệm nghiên cứu [10], liệu phát sinh giả lập ứng dụng MetaSim [20] Dữ liệu chia thành loại, loại trình tự ngắn loại trình tự dài ng ng thể thơng tin mẫu thực nghiệm Trong đó, tên mẫu để phân biệt mẫu thực nghiệm, với ký hiệu S thể cho metagenomic chứa trình tự ngắn (mỗi trình tự ngắn có chiều dài ~100bp), ký hiệu R thể cho metagenomic chứa trình tự dài (mỗi trình tự dài > 700bp) Số lồi, ứng với số nhóm lồi có mẫu (giả thiết biết trước số loài mẫu thực nghiệm) Tỉ lệ, cho biết tỉ lệ lồi có mẫu (ví dụ 1:1 nghĩa số trình tự lồi mẫu nhau) Số trình tự, cho biết số lượng trình tự có mẫu (cần nhận diện trình tự thuộc nhóm nào) ng Dữ liệu trình tự ngắn Tên mẫu S1 S2 S3 Số loài 2 Tỉ lệ :1 :1 :2 :1 Số trình tự 192734 390678 1426776 ng Dữ liệu trình tự dài Tên mẫu R1 R2 R7 R9 Loài 169206 Loài Loài 20659 62301 37352 Hình Phân nhóm trình tự ngắn S3 (tỉ lệ 3:2:1) S2 (BiMeta) Hình Phân nhóm trình tự ngắn S2 (tỉ lệ 1:1) 45608 385990 439208 601578 204702 244655 977419 Giải pháp 221472 S2 (Giải pháp đề xuất) Loài S3 (BiMeta) Loài 180750 209928 86028 106706 S1 (BiMeta) Loài S3 (Giải pháp đề xuất) Số trình tự 82960 77293 290473 285065 Lồi Hình Phân nhóm trình tự ngắn S1 (tỉ lệ 1:1) Loài Tỉ lệ 1:1 1:1 1:1 :8 1:1:1:1:2:14 Loài 93572 99162 S1 (Giải pháp đề xuất) Số loài 2 R1 (Giải pháp đề xuất) R1 (BiMeta) Giải pháp Hình Phân nhóm trình tự dài R1 (tỉ lệ 1:1) ÁP DỤNG MƠ HÌNH ẨN KẾT HỢP THUẬT TỐN BIMETA TRONG VIỆC GOM NHĨM… 54 Kết thực nghiệm gom nhóm trình tự mẫu liệu so sánh phương pháp đề xuất với phương pháp BiMeta cho thấy, trình tự phân nhóm sử dụng liệu mẫu phương pháp đề xuất có cải thiện so với phương pháp BiMeta Kết thực nghiệm mẫu S1, S2, R1, R2 thể Hình 4, Hình 5, Hình 7, Hình 8, Hình 10 cho thấy trình tự phân theo số nhóm cải thiện để đạt ngưỡng mong muốn cân theo tỉ lệ cho Kết thực nghiệm mẫu R6, R9 thể Hình 6, Hình cho kết chưa đạt mong đợi, nhiên xác định phương pháp phù hợp để gom cụm trình tự metagenomic Lồi Lồi Lồi Loài Loài 49932 R7 (Giải pháp đề xuất) Giải pháp 35773 24037 64516 17967 R2 (BiMeta) 230663 297990 27361 35561 41732 R2 (Giải pháp đề xuất) R7 (BiMeta) Giải pháp Hình Phân nhóm trình tự ngắn R2 (tỉ lệ 1:1) Lồi Hình Phân nhóm trình tự dài R7 (tỉ lệ 1:1:8) Loài Loài Loài Loài Loài 165817 106156 81221 42418 10445 20606 20934 24845 16806 30219 23518 28145 R9 (BiMeta) R9 (Giải pháp đề xuất) Giải pháp Hình 10 Phân nhóm trình tự dài R9 (tỉ lệ 1:1:1:1:2:14) B Kết luận Bài báo đề xuất việc sử dụng mơ hình ẩn để tìm kiếm tương quan trình tự metagenomic thơng qua chủ đề ẩn Các trình tự có chủ đề xem thuộc nhóm Phương pháp sử dụng phép đo Kullback Leibler để đo khoảng cách chủ đề (thay đo khoảng cách trực tiếp trình tự) Ngồi ra, để giản lược số lượng trình tự cần phân tích tìm mơ hình ẩn, tiền liệu xử lý thuật tốn BiMeta việc gom nhóm trình tự gốc Kết thực nghiệm cho thấy phương pháp đề xuất có tỉ lệ xác định trình tự gom nhóm có cải thiện so với thuật tốn BiMeta TÀI LIỆU THAM KHẢO [1] Michael L Metzker et al, "Sequencing technologies – the next generation," Nature Rev Genet, vol 11, pp 31-46, 2010 [2] Teeling H, Hanno Glöckner, Frank Oliver, "Curent opportunities and challenges in microbial metagenome analysis – A bioinformatic perpective," Briefings In Bioinformatics, vol 13, no 6, pp 728-742, 2012 Văn Đình Vỹ Phương, Trần Văn Lăng, Trần Văn Hoài, Lê Văn Vinh 55 [3] Y Wang, H Hu, X Li, "MBBC: An efficient approach for metagenomic binning based on clustering," BMC Bioinformatics, vol 16, no 1, pp 1-11, 2015 [4] Y Wang, H Chi Ming Leung, S Ming, Yiu et al, "MetaCluster-TA: Taxonomic annotation for metagenomic data based on assembly-assisted binning," BMC Genomics, vol 15, no 1, pp 1-9, 2014 [5] Thi Huyen Do et al, "Mining biomass-degrading genes through Illumina-based de novo sequencing and metagenomic analysis of free-living bacteria in the gut of the lower termite Coptotermes gestroi harvested in Vietnam," Journal of Bioscience and Bioengineering, vol 118, no 6, p 665–671, 2014 [6] Nguyễn Minh Giang, Đỗ Thị Huyền, Trương Nam Hải, "Sử dụng công cụ tin sinh nghiên cứu metagenomics-hướng nghiên cứu ứng dụng sinh học," Tạp chí Khoa học Trường Đại học Sư phạm TP.HCM, vol 2, no 67, pp 167177, 2015 [7] N T Thảo, "Nghiên cứu gene mã hoá Enzyme tham gia thuỷ phân Cellulose từ khu hệ vi khuẩn ruột mối kỹ thuật metagenomics," Đại học Quốc gia Hà Nội, Hà Nội, 2015 [8] Lê Văn Vinh, Trần Văn Lăng, Trần Văn Hồi, "Hiệu giải pháp gom cụm trình tự," Tạp chí Khoa học Cơng nghệ 52 (1B), vol 52, pp 28-36, 2014 [9] Van Vinh Le, Lang Van Tran, Hoai Van Tran, "MetaAB - A novel abundance-based binning approach for metagenomic sequences," in Nature of Computation and Communication, Springer International Publishing, 2015, pp 132-141 [10] Vinh LV, Lang TV, Binh LT, Hoai TV, "A two-phase binning algorithm using l-mer frequency on groups of non-overlapping reads," Algorithms for Molecular Biology: AMB, vol 10, no 2, 2015 [11] Le Van Vinh, Tran Van Lang, Tran Van Hoai, "An abundance-based binning of metagenomic reads using Fuzzy K-medoids method," Kỷ yếu Hội nghị Quốc gia lần thứ VII Nghiên cứu ứng dụng công nghệ thông tin (FAIR), pp 25-30, 2014 [12] Le Van Vinh, Tran Van Lang, Tran Van Hoai, "A novel l-mer counting method abundance-based binning of metagenomic reads," Journal of Computer Science and Cybernetics, vol 30, no 3, pp 267-277, 2014 [13] D Blei, "Latent Dirichlet Allocation," Journal of Machine Learning Research, vol 3, pp 993-1020, 2003 [14] Chor B, Horn D, Goldman N, Levy Y, Massingham T, "Genomic DNA k-mer spectra: models and modalities," Genome biology, vol 10, no (10):R108, 2009 [15] Thomas L Griffiths, Mark Steyvers, "Finding scientific topics," Proceedings of the National Academy of Sciences of the United States of America, vol 101, pp 5228-5235, 2004 [16] K S, Information Theory and Statistics, John Wiley & Sons, 1959 [17] Zhang R, Cheng Z, Guan J, Zhou S, "Exploiting topic modeling to boost metagenomic reads binning," BMC Bioinformatics, vol 16, no (Suppl 5):S2, 2015 [18] Zhou F, Olman V, Xu Y, "Barcodes for genomes and applications," BMC Bioinformatics, vol 9, no 546, 2008 [19] David M Blei, Andrew Y Ng, Michael I Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning Research, vol 3, no 4, pp 993-1022, 2012 [20] Richter DC, Ott F, Auch AF, Schmid R, Huson DH, "Metasim – a sequencing simulator for genomics and metagenomics," PloS ONE, vol 3, no (10):e3373, 2008 LATENT DIRICHLET ALLOCATION AS A PROBABILISTIC TOPIC MODEL IN COMBINATION WITH BIMETA ALGORITHM FOR METAGENOMIC BINNING Van Dinh Vy Phuong, Tran Van Lang, Tran Van Hoai, Le Van Vinh ABSTRACT—Binning and taxanomical classification are two challenging problems in bioinformatics The paper proposes a method using Laten Dirichlet Allocation to find hidden topics embedded as characteristic within genomic sequences From these topics, the method classifies the group of sequences by using Kullback Leibler to calculate the similarity based on the distribution of topics instead of calculating directly from sequences The proposed method is combined with BiMeta algorithm to create seed froup based on overlap information before using Latent Dirichlet Allocation to reduce the size of data to create model Keywords— Metagenomic; binning; reads; LDA ... pháp gom cụm trình tự cách sử dụng mơ hình ẩn để tìm chủ đề ẩn trình tự, trình tự có chủ đề gom thành nhóm Và để giản lược liệu đầu vào xây dựng mô hình tìm chủ đề ẩn, phương pháp áp dụng việc. .. (Giải pháp đề xuất) Số loài 2 R1 (Giải pháp đề xuất) R1 (BiMeta) Giải pháp Hình Phân nhóm trình tự dài R1 (tỉ lệ 1:1) ÁP DỤNG MƠ HÌNH ẨN KẾT HỢP THUẬT TỐN BIMETA TRONG VIỆC GOM NHĨM… 54 Kết thực... tìm mơ hình ẩn, tiền liệu xử lý thuật tốn BiMeta việc gom nhóm trình tự gốc Kết thực nghiệm cho thấy phương pháp đề xuất có tỉ lệ xác định trình tự gom nhóm có cải thiện so với thuật tốn BiMeta

Ngày đăng: 25/11/2020, 23:56