Luận văn thạc sĩ Khoa học máy tính: Sử dụng mô hình chủ đề cho bài toán phân loại Metagenomic

Metagenomics, khoa học về gen ở mot quy mô lớn, là một công cụ hữu hiệu có thé đượcsử dung dé phân tích các công đồng vi sinh vật mà không cần phân lập riêng từng cá théđể nuôi cây trong

Giới thiệu van dé

Metagenomics, khoa hoc về gen ở một quy mô lớn (genomics on a huge scale), là một công cụ hữu hiệu có thé được sử dung dé phân tích các cộng đồng vi sinh vật mà không cần phân lập riêng từng cá thể để nuôi cấy trong phòng thí nghiệm như cách làm truyền thống Thuật ngữ metagenome được đặt tên bởi Handelsman năm 1998 như là "các bộ gen của tất cả các vi sinh vật được tìm thấy trong tự nhiên" [1].

Mục tiêu cuối cùng của metagenomics là một sự hiểu biết toàn diện về hệ sinh thái của chúng ta Các công cụ của gen học và vi sinh học cổ điển chủ yêu dựa vào tách các loài vi sinh vật trong các môi trường nuôi cấy thuần chủng, môi trường chỉ chứa các vi sinh vật của một loài cụ thể Điều này có nghĩa rằng phần lớn của thế giới vi sinh vật không thể được tiếp cận bởi khoa học vi chỉ một phan nhỏ - hầu hết các nhà khoa học ước tính ít hơn 1% loài vi sinh vật trên Trái đất - có thể được nuôi cấy.

Bằng cách cho phép các nhà khoa học để truy cập vào hệ gen của một cộng đồng mà không dựa vào môi trường nuôi cây thuần chủng, metagenomics vượt qua những hạn chê của gen học và vi sinh vật học cổ điển [1].

Một mẫu đữ liệu metagenomic chứa các đoạn trình tự từ các vi sinh vật khác nhau Vì vậy, một van dé quan trọng trong phân tích dữ liệu metagenomic là xác định và định lượng các loài hay bộ/hệ gen (genomes) trong một mẫu Việc xác định các nhóm trình tự liên quan về mặt huyết thống trong một tập dữ liệu metagenomic thường được gọi là phân loại (binning) Bài toán này được phát biểu khá đơn giản như sau: "Cho một tập dữ liệu metagenomic, làm sao có thể gom các trình tự (read) theo hệ gen?"

Giải quyết bài toán này cho phép các nhà nghiên cứu metagenomic đánh giá tiểm năng trao đổi chất của cộng đồng vi sinh vật, từ đó có thể trả lời những câu hỏi sâu sắc hơn sự tiền hóa, sự đa dạng, và chức năng của các vi sinh vật Tuy nhiên, việc phân loại dữ liệu metagenomic có một số thách thức đặc thù Thứ nhát, số loài vi sinh vật có thể được phân lập để nuôi cấy trong phòng thí nghiệm chỉ chiếm khoảng 0.1% đến 1% trong tổng số vi khuẩn từ môi trường [6] Do vậy, hầu hết các trình tự của dữ liệu metagenomic không có trong cơ sở đữ liệu tham khảo Điều này làm cho việc phân loại gặp khó khăn hơn nhiều Thit hai, chiều dài khá ngắn của các read cũng là một trở ngại cho việc phân loại Các read ngắn có thể không chứa đủ thông tin về huyết thông (phylogenetic information) Cudi cùng, khác với các loại dữ liệu như văn bản hay ảnh, dữ liệu trình tự sinh học như metagenomic không có các đặc trưng rõ ràng, điều nay cũng là một van dé cần phải giải quyết cho bài toán phân loại metagenomic.

Muc tiêu

Phân loại (binning) là một bai toán can ban trong phân tích dữ liệu metagenomic bởi vì độ chính xác của quá trình phân loại có tác động trực tiếp vào các phân tích tiếp theo sau và các kết luận khác thường được rút ra từ chúng Các mô hình chủ dé (topic models) thường được sử dụng để khám phá ra câu trúc chủ dé của tập dữ liệu Các thử nghiệm gần đây [7, 8] cho rằng đây là một phương pháp hứa hẹn cho phân tích dữ liệu metagenomic Do đó, trong đề tài này, chúng tôi tập trung nghiên cứu bài toán phân loại dữ liệu metagenomic sử dụng các mô hình chủ dé Cụ thể, chúng tôi sẽ nghiên cứu các vân dé sau: e Sử dụng mô hình chủ dé như một kỹ thuật thu giảm số chiều để biểu diễn trình tự metagenomic và sử dụng nó cho việc gom nhóm trình tự, e Nghiên cứu sự hữu ích của các đặc trưng của mô hình LDA tạo ra cho việc cho việc gom nhóm trình tự.

Trong đề tài này, chúng tôi chủ yếu thực hiện việc phân các trình tự trong metagenomic vào các nhóm Việc phân nhóm này chưa yêu cau phải đưa ra được kết luận nhóm đó thuộc giống loài nào trên cây phân loại Tuy đầu ra của phương pháp chưa đưa ra được kết quả như mong muốn của các nhà nghiên cứu sinh học, đây là bước quan trọng trong việc phân loại trình tự metagenomic mà không sử dụng đến cơ sở dit liệu tham chiếu.

Bo cục cua luận văn

Cấu trúc của luận văn dự định được trình chia thành các chương như sau: e Chương 2: Kiến thức cơ sở: trình bày các kiến thức cơ sở về metagenomic và mô hình chủ dé. e Chương 3: Các nghiên cứu liên quan: trình bày các nghiên cứu liên quan đến bài toán phân loại trình tự metagenomic.

4 e Chương 4: Phân loại metagenomic dựa trên mô hình chủ dé: trình bay cách sử dụng mô hình chủ đề cho bài toán phân loại metagenomic. e Chương 5: Thực nghiệm và đánh giá: trình bày kết quả thực nghiệm của phương pháp dé xuất và so sánh với các phương pháp đã có. e Chương 6: Kết luận: trình bay phan tổng kết của dé tài, các ưu khuyết điểm và các hướng phát triển.

DNA, gennome va metagenome

DNA (deoxyribonucleic acid) là một phân tử mang các thông tin di truyền được sử dụng trong sự tăng trưởng, phát triển, hoạt động và sinh sản của tất cả các sinh vật sông DNA va RNA (ribonucleic acid) là axit nucleic, cùng với các protein, lipid và các carbohydrate phức tạp (polysaccharides), là một trong bốn loại đại phân tử chính cần thiết cho tất cả các hình thức của sự sống Hầu hết các phân tử DNA bao gồm hai chuỗi biopolymer cuộn quanh nhau tạo thành một chuỗi xoắn kép Hai chuỗi biopolymer được gọi là các polynucleotides vì chúng bao gồm các đơn vị monomer đơn giản gọi là nucleotide [9] Mỗi nucleotide bao gồm một trong bốn nucleobase chứa nitd - cytosine (C), guanine (G), adenine (A) hoặc thymine (T) - một loại đường được gọi là deoxyribose và một nhóm phosphate Câu trúc của một phân tử DNA được mô tả bởi hình 2.1.

Hình 2.1: Cau trúc của một phân tử DNA

Trong sinh hoc phân tử hiện dai va di truyền học, một bộ gen hay hệ gene (genome) là vật chất di truyền của một sinh vật, được mã hóa trong DNA (ở một số virus có thể là RNA) Bộ gen bao gồm cả những vùng chứa gen (các vùng mang mã di truyén - coding regions) lẫn những đoạn không phiên mã (noncoding regions), cũng như các vật liệu di truyền của ty thé (mitochondria) và các luc lap

(chloroplasts) Genomics (gen học) là một ngành học trong lĩnh vực sinh hoc phan tử (molecular biology) nghiên cứu về các bộ gen Genomics sử dụng các kỹ thuật giải trình tự DNA thông lượng cao (high throughput DNA sequencing) và tin sinh học (bioinformatics) để tập hợp (assemble) và phân tích chức năng cũng như cấu trúc của các bộ gen.

Metagenome là tất cả các vật chất di truyền có trong một mẫu môi trường (environmental sample), bao gồm các bộ gen của nhiều sinh vật riêng lẻ Metage- nomics là khoa học về metagenome Nó là ngành học nghiên cứu vật chất di truyền thu được trực tiếp từ các mẫu môi trường Lĩnh vực cũng có thể được gọi là environmental genomics, sinh thái học (ecogenomics) hoặc community genomics Khi giá thành của việc giải tự DNA ngày càng giảm nhờ những tiến bộ trong công nghệ giải trình tự, metagenomics cho phép nghiên cứu sinh thái vi sinh ở quy mô và chỉ tiết lớn hơn trước rất nhiều Metagenomics còn được gọi là khoa học về gen ở một quy mô lớn (genomics on a huge scale) Hình 2.2 mô ta sự khác nhau giữa genomics va metagenomics.

Dữ liệu metagenomic chứa các đoạn trình tự từ các vi sinh vật khác nhau Cac nghiên cứu về metagenomics có thể cho phép các nhà khoa học hiểu rõ hơn cách thức các loài (species) và chủng (strains) đóng góp vào hoạt động của cộng đồng vi sinh vật trong một môi trường cụ thể [10] Ngoài ra, các nghiên cứu này cũng có thể cho phép tái tạo lại bộ gen gần như day đủ của các thành viên chủ đạo của cộng đồng vi sinh vật từ DNA được trích xuất trực tiếp từ môi trường Trình tự bộ gen từ các mẫu môi trường (environmental samples) thể hiện các đặc điểm tổng hợp của quan thể So sánh các dữ liệu trình tự/chuỗi (sequence data) trong và giữa các quan thể tự nhiên có thể tiết lộ các quá trình tiễn hóa dẫn đến sư đa dạng và biệt hóa hệ gen (genome diversification and speciation) Từ đó, nó có thể tiết lộ cách thức các loài và chủng đóng góp vào hoạt động của cộng đồng [10].

——————————c- '=—————* er isolation > DNA of DNA ~ fromtheằ | Knowledge

Metagenomics can in principle access 100% of the genetic

[ 3s) — | resources of an environment. nowle isolation application | of ONA

Cine mere Sultivalable ‘ss : pace J~~ Traditional cultivation methods oe rs and traditional genomics can at

ea | genomics ki“ best access 1%.

Giải trình tự DNA

Giải (lập) trình tự DNA (DNA sequencing) là quá trình xác định thứ tự chính xác của các nucleotide trong một phân tử DNA Nó bao gồm bất kỳ phương pháp hay công nghệ được sử dung để xác định thứ tự của bốn bazơ (base): adenine (A), guanine (G), cytosine (C) và thymine (T) trong một trình tự DNA Việc phát minh ra những công nghệ lập trình tự thé hệ mdi (next-generation sequencing - NGS) trong khoảng một thập niên trở lại đây đã thay đổi các nghiên cứu về metagenomics.

Các công nghệ lập trình tự thé hệ mới (còn được gọi là các công nghệ lập trình tự thông lượng cao, high-throughput sequencing) thay vi lập trình tự một đoạn DNA đơn (a single DNA fragment), thực hiện quá trình này hàng triệu lần một cách song song với chi phí giảm đi đáng kể Quá trình giải trình tự shotgun từ môi trường(Environmental Shotgun Sequencing, ESS) được mô ta ở hình 2.3 Các bước của quá trình này gôm: (A) Thu mẫu từ môi trường: (B) sàng lọc mẫu theo kích cỡ; (C) phân tích va phân lập DNA; (D) nhân dong và lập thư viện; (E) giải trình tự các dòng (clones); (F) ghép nối trình tự (sequence assembly) để tạo thành các contig và scaffold.

Hình 2.3: Quá trình giải trình tu shotgun từ môi trường [2]

Trước khi có NGS, lập trình tự DNA chính là nút thắt cổ chai trong việc nghiên cứu về metagenomics Sau khi các công nghệ NGS được phát minh, nút thắt cổ chai trở thành việc phân tích và diễn giải các kết quả đã lập trình tự được Các công nghệ NGS tuy hứa hẹn nhưng cũng có hai mặt: các đoạn trình tự (còn được

10 gọi là các read, DNA sequence, hay DNA fragment) được sinh ra nhanh và nhiều hơn nhưng độ dài của chúng ngắn hơn và tỷ lệ lỗi trong quá trình lập trình tự cũng cao hơn Trước khi các công nghệ lập trình tự DNA thế hệ mới ra đời, công nghệ lập trình tự Sanger được xem là tiêu chuẩn vì sinh ra các trình tự có tỷ lệ lỗi thấp và có độ dai tương đối (> 700 base-pair) Tuy nhiên, một nhược điểm của công nghệ lập trình tự Sanger là việc lập trình tự có chi phí cao và thông lượng thấp Các công nghệ lập trình tự mới (NGS) tiêu biểu là 454/Roche và Illumina/Solexa Công nghệ Illumina/Solexa hiện là công nghệ được sử dụng nhiều nhất cho metagenomics [5].

Bang 2.1: Các công nghệ lập trình tự [5] Đặc điểm 454 GS FLX | HiSeg 2000 (H- | Sanger 3730xl

(454/Roche) lumina/Solexa) | (Sanger) D6 dai cua read | 700-bp SOSE, SOPE, | 400 - 900-bp sinh ra 101PE

Dữ liệu sinh | 0.7-Gb 600-Gb 1.9-84-Kb ra cho mỗi lần chạy

Thời gian cho | | ngày 3-10 ngày 20 phút - 3 giờ mỗi lần chạy

Chi phí / Giga- | 10,000 USD 70 USD 2,400,000 USD base pair

Uu diém Read sinh ra dài, | Thông lượng | Chất lượng cao, nhanh cao read sinh ra dài

Khuyết điểm Lỗi cao, chi|Read sinh ra|Chỉ phí cao, phí cao, thông | ngắn thông lượng lượng thấp thấp

Các bước của một dự án metagenome

Một dự án metagenome thường liên quan đến các bước sau: thiết kế thí nghiệm (experimental design), lay mẫu (sampling), phân đoạn mẫu (sample fractionation), tổ hợp (assembly), phan loại (binning), chú thích (annotation), phan tích thống kê (statistical analysis), lu trữ va chia sé dt liệu (data storage and sharing) [3] Hình 2.4 minh họa các bước này.

Hình 2.4: Cac bước cua một dự án metagenome [3]

Cac dự án metagenome thường có chi phí cao và khó nhân ban, do đó, những thiết kế thí nghiệm thích hợp ngay từ đầu cần được thực hiện để có thể thu giảm chi phí lập trình tự nhằm hướng đến một số vấn dé cơ ban trong sinh thái vi sinh vật Kế đến, láy mẫu và phân đoạn mẫu là bước quan trọng trong bất cứ dự án về metagenomic nao DNA được trích xuất nên là đại diện của tất cả các tế bào hiện diện trong mẫu và lượng axit nucleic chất lượng cao được thu giữ nên có đủ để tạo thư viện và lập trình tự ở các bước tiếp theo Quá trình lap ráp (assembly) các đoạn trình tự ngắn (short read) được thực hiện nhằm để thu được các trình tự dài hơn gọi là

12 các contig Các contig này có thể là một thể hiện của nhiễm sắc thể (chromosomes) chứa các thông tin di truyền quan trọng Mục đích cuối cùng của quá trình này là nhằm phục hồi hệ gen của các vi sinh vật chưa được nuôi cấy có trong môi trường.

Phân loại (binning) đề cập đến quá trình đặt các đoạn trình tự DNA vào các nhóm mà có thể đại diện cho một bộ gen cụ thể hoặc bộ gen của các sinh vật có liên quan gần nhau trên cây phân loại (taxonomic tree) Chú thich (anotation) là quá trình gắn các thông tin sinh học vào các trình tự Quá trình này thường gồm hai bước: đầu tiên, các đặc trưng được quan tâm (như các gen) được xác định (bước này được gọi là dự đoán đặc trưng), và thứ hai, chức năng của gen và các láng giéng trên cây phân loại được xác định (chú thích chức năng) Theo một cách đơn giản, dữ liệu từ nhiều dự án metagenomic biểu diễn thu gọn dưới dạng bảng, các cột biểu diễn các mẫu và các hàng mô tả hoặc là một nhóm phân loại hoặc một chức năng của gen (hoặc nhóm của chúng) và các ô chứa dit liệu hoặc không Cách biểu diễn này giống như ma trận mô tả các loài thuộc các mẫu Các công cụ thống kê có sẵn có thể được sử dụng để các xác định mối tương quan và ý nghĩa thông kê Chia sẽ dit liệu metagenomic sẽ đòi hỏi một cấp độ tổ chức và hợp tác lớn, mang tầm quốc tế, để cung cấp siêu dữ liệu, các dịch vụ tập trung (ví dụ, IMG/M - Integrated Microbial Genomes &

Microbiomes, CAMERA - Community Cyberinfrastructure for Advanced Microbial

Ecology Research & Analysis va MG-Rast - Metagenomics RAST Server) cũng như chia sé cả dữ liệu va kết qua tinh toán Khi đó, các nhà nghiên cứu sẽ có thé tải về các kết quả trung gian và xử lý các kết quả này để phân tích hoặc so sánh.

Đặc trưng của trình tự DNA

Mỗi trình tự thường được biểu diễn bởi một chuỗi gdm 4 ký tự A, C, G, T. Để phân loại các trình tự, các đặc trưng (được tính toán từ chuỗi ký tự ban đầu) được sử dụng để đánh giá sự tương đồng hay khoảng cách giữa các trình tự Có hai

13 đặc trưng thường được sử dụng nhất là sự hợp thành (composition) và sự phong phú (abundance) hay còn gọi là sự bao phú (coverage).

Các đặc trưng dựa trên sự hợp thành (composition based feature) hay còn gọi là các mẫu hợp thành (composition patterns), ví dụ như GC-content hay tần số của các đoạn DNA ngắn (còn được gọi là l-mers hay oligonucleotide, giá tri cho | thường là từ 3-7) Các phương pháp sử dụng đặc trưng này để phân loại dựa trên giả định là các hệ gen có các thành phan nucleotide được bảo tôn từ thé hệ này sang thế hệ khác và điều này sẽ được thể hiện trong các đoạn trình tự của các hệ gen Một số nghiên cứu cho thay các đặc trưng này của các trình tự cùng loài thì tương tự nhau trong khi của các trình tự càng khác loài thì càng khác nhau hon [11].

Các phương pháp sử dụng đặc trưng sự phong phú (abundance) hay sự bao phủ (coverage) để phân loại dựa trên giả định tần số xuất hiện của các l-mers hay oligonucleotide của các trình tự thuộc cùng một hệ gen ty lệ thuận với sự phong phú của hệ gen đó [12].

Vì dé tài giải quyết bài toán phân loại trình tự dựa trên mô hình chủ dé nên phan còn lại của chương nay sé dé cập đến những van dé lý thuyết liên quan đến mô hình chủ đề.

Mô hình chủ đề

Đánh giá mo hình

Một độ đo để đánh giá hiệu quả của kết quả được suy diễn từ các mô hình chủ dé là độ hỗn loan (perplexity) Độ đo này được lay từ lý thuyết thông tin và đo khả năng dự đoán của các phân bố xác suất đối với một mẫu quan sát được tốt như thé nào Để đánh giá mô hình chủ dé, một tài liệu được lẫy và chia thành hai phan.

Nửa đầu được đưa vào mô hình để tính toán thành phan chủ dé; từ các thành phan đó, phân bô của các từ (word distribution) được ước tính Phân bé này sau đó được so sánh với phân bố của các từ của nửa thứ hai của tài liệu Một độ đo được dùng dé tính ra một giá trị cụ thể Nhờ biện pháp này, trên thực tế, độ hỗn loạn (perplexity) thường được sử dụng để lựa chọn số lượng chủ đề tốt nhất cho mô hình.

Bài toán suy diễn

Ước lượng © dùng Maximum Likelihood (ML)

Phương pháp Maximum Likelihood (ML) tìm giá tri cho © sao cho nó cực dai hóa likelihood Nghĩa là tìm giá trị cho © sao cho nó làm cho likelihood = P(D|®) là lớn nhất Ta ký hiệu một giá trị cho © như vậy bởi Oyr.

Ta biết xác suất liên hop (joint probability) của một tập các biến ngẫu nhiên độc lập (independent random variables) là tích của các xác suat ứng với từng biến ngẫu nhiên Bởi vi dit liệu D gồm một tập các quan sát độc lập (independent obser- vations) {x,x¿, }, ta cần tim giá trị cho © sao cho nó cực đại tích

[]&¡9) xjED Để đơn giản hon, người ta hay dùng log (logarithm) của likelihood:

Lời giải cho Maximum Likelihood (ML) có thể được viết thành

Lời giải cho Maximum Likelihood (ML) thường đạt được bằng cách lấy đạo ham theo 6; € © và gan nó bằng 0. aL

Uớc lượng © dùng Maximum a Posteriori (MAP)

Phương pháp Maximum a Posteriori (MAP) tim giá tri cho © sao cho nó cực đại hóa posterior Nghia là tim giá tri cho © sao cho nó làm cho posterior = P(@|D) là lớn nhất Ta ký hiệu một giá trị cho © như vậy bởi Oyap.

Lời giải cho Maximum a Posteriori (MAP) có thể được viết thành

Ta bỏ mẫu số P(D) trong công thức ở bước ba vì nó không phụ thuộc hàm vào ©.

Cũng như phương pháp Maximum Likelihood (ML), để đơn giản hơn, người ta hay dùng log (logarithm) của posterior Ta có thể viết lại lời giải cho Maximum a

Oyap = arg max [eerie + ằ oes) © x¡;€D

Khác với phương pháp ước lượng dùng Maximum Likelihood (ML), phương pháp ước lượng dùng Maximum a Posteriori (MAP) cho phép ta đưa thêm niém tin có trước (prior beliefs) thể hiện qua phân bồ tiên nghiệm (prior) P(®) vào quá trình tính toán phân bố hậu nghiệm (posterior) P(©|D) Phương pháp ước lượng dùng

Maximum Likelihood (ML) xem © là một hằng số và tìm giá trị © sao cho nó cực đại hóa likelihood P(D|©), tức giá tri © khớp nhất di liệu quan sát được Phương pháp ước lượng dùng Maximum a Posteriori (MAP) xem © là một biến ngẫu nhiên có thể nhận giá trị từ một phân bồ tiên nghiệm (thể hiện niềm tin, tri thức của chúng ta trước khi thấy dữ liệu) và tìm giá trị © sao cho nó cực đại hóa xác xuất hậu nghiệmP(@|D).

Ước lượng © dùng suy diễn Bayes

Khác với MAP, phương pháp suy điển Bayes (Bayesian inference) tìm cách tính xác xuất hậu nghiệm posterior một cách day đủ mà không bỏ qua P(D) ở mẫu số trong công thức Bayes P(D) được gọi là xác xudt của dit liệu hay là xác xudt của chứng cứ (probability of data/evidence) Xác xuất này được tính trên tat cả các O theo luật Bayes

Trong công thức trên, ta lẫy tích phân theo © thay vì lấy tổng vì © là một đại lượng liên tục Công thức này có ý nghĩa là: Cho trước một ham likelihood P(D|©), nếu ta biểu diễn niém tin có trước (prior belief) của mình về © bằng P(®) thì ta phải dùng hai thông tin này dé tính P(D) theo tích phân trên Tích phân này chính là yếu tô làm cho ước lượng theo cách tiếp cận suy điển Bayes đầy du (fully Bayesian inference) trử nờn phức tạp. Để làm cho việc suy diễn theo cách tiếp cận suy diễn Bayes đầy đủ được đơn giản giản hơn, người ta thường tìm cách chọn P(©) sao cho có thể tính xác xuất hậu nghiệm P(@|D) được dễ dàng hơn Đây chính là lý do ra đời của các phân bồ tiên nghiệm liên hop (conjugate prior).

Cho trước một ham likelihood P(D|©), một phân bồ tiên nghiệm (prior) P(©) được gọi là một phân bó tiên nghiệm liên hop (conjugate prior) nêu phân bó hậu

21 nghiệm (posterior) P(Đ|D) cũng có cùng dạng hàm với P(©).

Dựa trên các kết quả Toán học đã biết, nếu likelihood là một phân bố Gaus- sian, người ta sẽ chọn phân bồ tiên nghiệm là một phân bó Gaussian vì khi đó phân bô hậu nghiệm cũng là một phân bó Gaussian Tương tự, néu likelihood là phân bô da thức (multinomial distribution), người ta sẽ chọn phân bó tiên nghiệm là một phân bô Dirichlet vì khi đó phân bố hậu nghiệm cũng là một phân bô Dirichlet.

Trong thống kê, tổn tại hai trường phái lớn là rường phái tan suất (frequentist) và frường phái Bayes (Bayesian) Uóc lượng ML là san phẩm của trường phái tan suất (frequentist) và ước lượng Bayes là sản phẩm của trường phái Bayes (Bayesian).

Phan kế tiếp sẽ dé cập đến hai cách tiếp cận khác nhau để ước lượng các tham số của hai mô hình chủ dé rất phổ biến là PLSA [15] và LDA [16] PLSA ước lượng các tham số dùng Maximum Likelihood (ML) trong khi LDA là phiên ban Bayesian day đủ của PLSA và ước lượng các tham số dùng suy diễn Bayes đầy đủ Khi mới được dé xuất, cả PLSA và LDA đều áp dụng trên dif liệu văn bản Giới hạn chính của hai mô hình PLSA và LDA là nó không xét đến vị trí (thứ tự) của các từ trong tài liệu.

Nếu tài liệu đủ dài, khuyết điểm này sẽ giảm bớt đi vì khi đó các chủ dé sẽ càng rõ hơn Một đặc điểm nữa của hai mô hình này là một từ có thể thuộc nhiều chủ đề.

Do vậy, các chủ đề được tạo ra không trực giao với nhau (nghĩa là, chúng có thể có tương quan với nhau).

Mô hình PLSA

Ước lượng tham sé

PLSA/PLSI ước lượng các tham số cho mô hình dùng thuật toán EM Thuật toán EM ước lượng các tham số dựa trên nguyên lý Maximum Likelihood mà ta đã dé cập ở mục 2.6.2 Thuật toán này có hai bước chính là E-Step và M-Step Hai bước này trong mô hình PLSA/PLST được mô tả bởi công thức sau:

E-Step: Tính xác suất từ w trong tài liệu d được sinh ra bởi chủ đề 7.

M-Step: Cập nhật lại các tham số dựa trên kết quả ở bước E-Step.

,d)p(Zaw = J) pe (8) = TF cpelw',d)p(Zaw =D)

Mô hình LDA

Định nghĩa mô hình

Mụ hỡnh LDA thường được mụ tả bởi ký hiệu plate (plate notation) ử hỡnh

2.8 Ký hiệu plate là một phương pháp mô tả các bién trong một zmô hình do thị (graphical model) Thay vì vẽ từng bién lặp lại một cách riêng lẻ, một plate (một hình chữ nhật) được sử dụng để nhóm các biến vào một dé thi con (subgraph) lặp lại với nhau, và một con số được vẽ trên plate để mô tả số lần lặp lại của các đồ thị con (subgraph) trong plate Các node trong plate mô tả các biến và được đánh chi số bởi số lần lặp lại Các đường liên kết có hướng giữa các bién mô tả sự phụ thuộc lẫn

Hình 2.8: Biểu diễn mô hình LDA dùng ký hiệu plate nhau giữa các biên.

Các tham số của mô hình LDA được mô tả như sau: e Trong hình chữ nhật (plate):

— K là số chủ đề (topic)

— N là số từ (word) trong một tài liệu (document)

— M là số tài liệu (document) trong tập dữ liệu (dataset) e là tham số của phân bồ tiên nghiệm (tuân theo phân bố Dirichlet - Dirichlet- prior) mô tả phân bố của các chủ dé trên mỗi tài liệu (per-document topic distribution) e 8 là tham số của phân bồ tiên nghiệm (tuân theo phân bố Dirichlet - Dirichlet- prior) mô tả phân bố của các từ trên mỗi chủ dé (per-topic word distribution) ở; là phân bố của các từ (word distribution) ứng với chủ đề i 6; là phân bé của các chủ dé (topic distribution) ứng với tài liệu j zjz là phép gan chủ dé (topic assignment) cho từ / trong tài liệu j wj là tut trong tài liệu 7

LDA biểu diễn mỗi tài liệu như là một phân bố xác suất đối với các chủ đề tiém ẩn và mỗi chủ dé tiềm ẩn là một phân bố xác suất đối với các từ LDA giả định rằng su phân bồ chủ dé trong tat cả các tài liệu cũng như sự phân bố của các từ trên các chủ dé đều tuân theo phân bố Dirichlet Cho trước tập dữ liệu có M tài liệu, mỗi tài liệu j € {1, - ,M} có |đ,| từ, và K là số chủ dé Quá trình sinh của LDA được mô tả như sau: e Với mỗi chủ để ¡ € {I, -,K}

- Chon một phân bố đa thức ở; trên các từ cho chủ dé 7 từ một phân bố Dirichlet với tham số , ó; ~ Dirichlet(B) e Với mỗi tài liệu j € {1, -,M}

1 Chọn một phõn bộ đa thức ỉ; của cỏc chủ dộ cho tài liệu ÿ từ một phõn bố Dirichlet với tham số a, 0; ~ Dirichlef(œ)

— Chọn phộp gan chủ dộ z;; từ ỉ;, z;;¿ ~ Multinomial(@;)

Trong quỏ trỡnh sinh trờn, cỏc từ w;; là những gi ta quan sỏt được, @ và ỉ là những biến ẩn (latent variables), œ và B là các siêu tham sô (hyper parameters).

Ước lượng tham số

Việc tính xác suất hậu nghiệm trong mô hình LDA là không thể theo vết (computationally intractable) Do đó, các phương pháp suy diễn đều dùng các thuật toán suy dién xdp xi (approximate inference) Có nhiều thuật toán suy diễn xấp xỉ đã được dé xuất Mỗi thuật toán đều có những ưu điểm và khuyết điểm riêng Phổ biến nhất là suy điển biến phân (variational inference) mà một đại điện là variational expectation maximization (VEM) được đề xuất bởi Blei và các cộng sự trong bài báo gốc về LDA năm 2003 [16] Kế đến là phương pháp lấy mẫu (sampling) mà phổ biến nhất là Gibb sampling (GS) được đề xuất bởi Griffiths và Steyvers năm 2004 [18] Gần đây, Hoffman và các cộng sự (nhóm nghiên cứu của Blei) dé xuất phương pháp suy diễn biến phân ngẫu nhiên (stochastic variational inference) [19].

Phần sau đây dé cập đến thuật toán Gibbs sampling vì đây là thuật toán đơn giản, trực quan, và thực thi khá nhanh Trước khi dé cập đến thuật toán này, chúng tôi sẽ giới thiệu một sô khái niệm cơ sở liên quan.

Phép gan chủ đề (topic assignment) Mỗi từ trong tài liệu được giả định là được sinh từ một chu dé (topic) Do vậy, việc gan chủ dé cho một từ (topic assignment) được xem như một biến Ví dụ: từ star (ngôi sao) có thể thuộc chủ dé khoa học (science) và chủ dé thể thao (sport) Bởi vì mỗi từ được gán chủ dé độc lập nên các từ giống nhau trong cùng một tài liệu có thể được gan cho các chủ dé khác nhau.

Các thống kê về việc gan chủ dé cho các từ được dùng để ước lượng tính chất toàn cục của mô hình chủ đề.

Phân bổ chủ đề cho tài liệu (document allocation) Document allocation là một phân bố trên các chủ dé cho mỗi tài liệu Nó nói về độ bao phủ (ty lệ) của mỗi chủ dé trong tài liệu Giả sử tài liệu d dùng Nz; từ có chủ dé i (Ny; là số lần các từ trong tài liệu đ được gan chủ dé i) Khi đó, tỷ lệ của chủ dé i trong tài liệu đ là

Na,j j =| Đây là ước lượng ML Với cách ước lượng này, có thé sẽ có vai chủ dé có tỷ lệ là 0 nếu không có từ nào trong tài liệu dé cập đến chủ dé đó Để tránh tình trang này, người ta điều chỉnh công thức trên lại thành

Nai + Oj k yo (Na,j + /) z Đa ¡ © } Điều chỉnh này sẽ làm cho không có chủ đề nào sẽ bị gán xác xuất bằng 0 trong bất cứ tài liệu nào (vì œ, là giá trị dương, @ là tham số Dirichlet cho phân bố của chủ dé trên tài liệu) Day là ước lượng MAP.

Chủ đề (topic) Mỗi chủ đề là một phân bố trên các từ Để biết chủ đề đó đề cập dén cái gì, ta cần nhìn vào xác suất của các từ được gán cho chủ đề đó Giả sử V;, là số lần từ ? được gán chủ dé ¡ Xác xuất của một từ ¢ thuộc chủ dé i được ước lượng bởi công thức

Vir + Br w Ủ¡ ~ với là tham số Dirichlet cho phân bồ của từ trên chủ dé.

Thuật toán Thuật toán collapsed Gibbs sampling [18] dùng để học một mô hình chủ dé dựa trên việc gán chủ dé (topic assignment) Việc gán chủ dé sau đó sẽ được sử dụng đề ước lượng phân bé từ trên chủ đề ở; và phân bố chủ đề trên tài liệu 6¿ Y tưởng chính của thuật toán như sau:

Thuật toán bắt đầu bằng việc gán chủ đề một cách ngẫu nhiên Nếu có k chủ dé, mỗi từ sẽ có cơ hội được gan bất cứ chủ dé nào Những chủ dé này ban đầu sẽ khá tệ, nhưng sẽ được cải thiện theo từng bước lặp Ở mỗi bước lặp, thuật toán sẽ thay đổi việc gan chủ dé cho mỗi từ sao cho sự thay đổi đó phản ánh mô hình xác suất ẩn bên dưới dữ liệu Mỗi lần lặp sẽ làm chủ dé tốt hơn một chút cho đến khi ổn định Việc xác định khi nào đến được trạng thái ổn định này không dễ Về mặt hiện thực, người ta sẽ thiết lập số lần lặp tối đa của thuật toán, hoặc sẽ cho lặp đến khi các tham số có sự thay đổi so với bước lặp kế trước nhỏ hơn một ngưỡng nào đó.

Phương trình thể hiện xác suất việc gán từ wy, vào chủ dé i được mô tả như sau:

J— trong đó p(zan = /| ) được dùng để mô tả sự phụ thuộc của việc gan chủ dé vào tất cả các từ khác với từ đang xét Nếu viết đầy đủ thì

D(a,n = èè -) = (San = 2a, ô++ Zdyn—1 9 Zd ntl ô++ 2d,Nys Wan)

Việc tính p(Zan = i| ) sẽ được thực hiện cho mỗi từ trong mỗi tài liệu và lặp lại nhiều lần cho đến khi hội tụ Sau mỗi lần giá trị Ng, và Vy, sẽ được cập nhật.

Các nghiên cứu liên quan

Một trong những bước chính trong nghiên cứu cộng đồng vi sinh vật là để hiểu rõ về thành phần, tính đa dạng và chức năng của chúng Trước đây, những van dé này chủ yếu được giải quyết bằng cách sử dụng trình tự của một gen cu thể thông qua việc nuôi cay và nhân bản trong phòng thí nghiệm vì giá cả hợp lý và xử lý hậu nghiệm nhanh Tuy nhiên, với sự tiễn bộ của các kỹ thuật giải trình tự thé hệ mới, trọng tâm chính chuyển sang nghiên cứu toàn bộ trình tự shotgun (whole metagenome shotgun) được lay trực tiếp từ môi trường Việc này cho phép phân tích chi tiết hơn dữ liệu metagenomic, bao gồm cả việc tái tao các bộ gen của các vi khuẩn mới và dé đạt được kiến thức về tiém năng di truyền và khả năng trao đổi chất của toàn bộ môi trường Mặt khác, đầu ra của các công nghệ giải trình tự mới là toàn bộ là sự hỗn hợp của các đoạn DNA ngắn thuộc các bộ gen khác nhau, do đó cách tiếp cận này yêu cầu các thuật toán tính toán phức tạp hơn cho việc phân cụm các đoạn DNA liên quan nhau Quá trình này thường được gọi là phân loại (binning) trình tự Hiện tại có hai loại phương pháp binning: phân loại phụ thuộc vào cây phân loài (taxonomy dependent) và phần loại độc lập với cây phân loài

(taxonomy independent) Phương pháp thứ nhất phân loại các đoạn DNA có sử dụng

3l cơ sé dit liệu tham chiếu (reference database) để thực hiện việc suy luận sự tương đông (homology inference) hoặc tính toán sự hợp thành (composition), trong khi phương pháp thứ hai thực hiện việc binning không sử dụng cơ sở dữ liệu tham chiêu bằng cách áp dụng các kỹ thuật gom cụm dựa trên các đặc trưng được trích ra từ các trình tự.

Mặc dù có rất nhiều nghiên cứu sử dụng phương pháp thứ nhất, chúng phải chịu hai vẫn đề lớn Thi nhát, việc so sánh với cơ sở dữ liệu tham chiếu rất tốn thời gian, đặc biệt là khi có sử dụng đến các phương pháp gióng hàng trình tự (sequence alignment) Thứ hai, các co sở đữ liệu tham chiếu chứa toàn bộ trình tự bộ gen còn lâu mới day đủ Theo ước tính, chỉ khoảng 0.1% - 1% bộ gen hoàn chỉnh được cập nhật trong cơ sở dữ liệu tham chiếu [20] Do đó, một số lượng lớn các trình tự có thể hoặc là không được gán nhãn hoặc bị gán nhãn sai Việc dự đoán chính xác của các phương pháp tùy thuộc vào mức phân loại trên cây phân loài (taxonomy level) và xác suất gán đúng nhóm tăng lên cùng với mức phân loại trên cây phân loài tăng lên.

Mande và các cộng sự [21] đã có một bài tổng hợp các phương pháp binning đối với dữ liệu metagenomic nhưng chủ yếu tập trung vào các phương pháp dựa trên cơ sở dữ liệu tham chiêu Nghiên cứu này chỉ liệt kê 5 phương pháp binning không sử dụng cơ sở dữ liệu tham chiếu là TETRA [22], SOMs [23], CompostBin [24],

Gom cum dư liệu metagenomic

Gom cum dựa trên thành phan trình tự

Ý tưởng cốt lõi của các phương pháp theo hướng này dựa trên giả định là thành phan bộ gen là duy nhất cho mỗi taxon (đơn vị phân loài), và do đó có thể để gom nhóm các trình tự hoàn toàn bằng cách so sánh nội dung của chúng Vì thành phần trình tự dựa trên ký tự, trước hết cần biến đổi nó thành một vector đặc trưng dạng số thích hợp Các đặc trưng được sử dụng phổ biến nhất được gọi là các chữ ký gen (genomic signatures), thường là tần số (có thể được chuẩn hóa) của l-mers với một giá trị 1 cụ thể [26] Thông thường, | = 4, dẫn đến số đặc trưng (số chiều) là 4 — 256, được tạo bởi tần số của các từ có chiều dài bằng 4 {AAAA, AAAC, -, TTTT} Các chiến lược khác nhau có thể làm giảm số chiều vector bằng các phương pháp khác nhau.

TETRA [22], một công cụ để phân tích thong kê và so sánh các trình tự dựa

33 trên tần số của các tetranucleotide (các chuỗi con gôm 4 nucleotide liên tiếp trong chuỗi DNA), có thể được xem như là một phương pháp tiên phong của phương pháp binning hiện đại Tuy nhiên, khả năng tính toán của công cụ này không đáp ứng được các yêu cầu của dữ liệu metagenomic hiện tại và công cụ này cũng không còn truy cập được nữa Một ví dụ của các phương pháp hiện tại theo hướng tiếp cận này là LikelyBin [27] LikelyBin sử dụng cách tiếp cận Markov Chain Monte Carlo

(MCMC) cho việc gom cụm các trình tự dựa trên l-mers, với / = 2, - ,5 Mặc dù thực té là phương pháp này hoàn toàn tự động, nó chỉ đạt độ chính xác cao khi áp dụng trên các metagenome có độ phức tạp thấp (từ 2-10 loài) Kelley và Salzberg đã sử dụng mô hình Markov nội suy (interpolated Markov models - IMM) trong công su SCIMM [28] và nó cho kết quả tốt hơn Tuy nhiên, các cụm khởi tao (initial bins) cần được thành lập trước khi áp dụng IMM trên dữ liệu Điều này có thể được thực hiện bằng thuật toán gom cụm k-means, trong đó cần số cụm k như là đầu vào, hoặc bằng cách chạy thuật toán gom cụm khác, như LikelyBin [27] hoặc CompostBin [24] Mặc dù SCIMM có thể nâng cao chất lượng của các cụm, kết quả cudi cùng phụ thuộc rất nhiều vào bước khởi tạo này Việc sử dụng SCIMM cũng chỉ tốt với các metagenome có độ phức tạp thấp Khi số loài trong dữ liệu tăng lên, độ bao phủ

(recall) và đặc biệt là độ chính xác (precision) sẽ giảm di. Để có thể gom cụm tốt hơn cho các metagenome có độ phức tạp cao hơn, một số nghiên cứu khác sử dung self-organizing maps (SOMs) và các biến thể của nó.

SOMs là một dạng mang no ron nhân tạo được dé xuất bởi Kohonen vào năm 1990.

Các nghiên cứu này, như cua Brown và các cộng sự [29] hay của Kikuchi và các cộng sự [30], tuy giúp gom cụm tốt hơn nhưng cũng có nhược điểm là rất tốn thời gian VizBin [31] là một phương pháp gần đây áp dụng kỹ thuật thu giảm số chiều từ không gian nhiều chiều của các I-mers sang không gian hai chiêu dùng thuật toán Barnes-Hut Stochastic Neighbor Embedding (BH-SNE) có độ phức tạp O(nlogn) so với O(n) của các phương pháp dùng SOM.

Saeed và các cộng sự [32] sử dụng GC-content, oligonucleotide frequency derived error gradient (OFDEG) và 4-mers cho việc gom cum Ho chia quá trình gom cum làm hai giai đoạn, giai đoạn la gom cum sơ bộ dựa trên GC-content và

OFDEG, giai đoạn hai là gom các kết qua ở giai đoạn dau lại dùng tan số /-mers.

BiMeta [33] của Vinh và các cộng sự cũng là một phương pháp tiễn hành hai bước để gom cụm Bước đầu, là gom cum sơ bộ dựa trên dựa trên quan sát rang các ]-mers

(với | khoảng 30) là một đặc trưng xác định các loài Những trình tự có cùng l-mers và có tần số lớn hơn một ngưỡng nào đó thì khả năng cùng loài là rất cao Bước hai là gom các nhóm đã có ở bước một thành các nhóm lớn hơn Bước hai được thực hiện dựa vào tan số ]-mers trung bình của các trình tự không chông lắp (non-overlapping reads) của mỗi nhóm thu được ở bước một MetaProb [34] là một phương pháp sử dụng lại bước một của BiMeta nhưng thay đổi bước hai Các tác giả sử dụng đặc trưng probabilistic sequence signatures cho mỗi nhóm thu được ở bước một để gom các nhóm này lại Khi so sánh trên cùng tập dữ liệu cua BiMeta thì phương pháp nay cho kết quả tốt hơn.

Gom cum dựa trên độ phong phú của các taxon

Một trong những van dé với các phương pháp dựa trên thành phan là chúng gặp khó khăn trong việc gom cụm các loài có độ phong phú thấp (low abundance), bởi vì các trình tự thuộc những loài này hình thành các cụm nhỏ hơn không ro rang, do đó có thể dễ dàng bị phân loại nhằm như một phần của một cụm lớn hơn thuộc các loài có độ phong phú cao Van dé này có thể được giải quyết bằng cách sử dụng các phương pháp gom cụm dựa trên sự phong phú Các phương pháp theo hướng này có thể được thêm chia thành hai nhóm, nhóm các phương pháp làm việc với một mẫu metagenomic (AbundanceBin [12], MBBC [35]), và các phương pháp làm việc với nhiều mẫu metagenomic (Canopy [36]) Ý tưởng chính của nhóm đầu tiên là sự

35 phân bố của các trình tự tuân theo phân phối Poisson, do đó, các trình tự được mô hình hóa như một tổ hợp của các phân bố Poisson (mixture of Poisson distribution) [12] Sự khác biệt chính trong các phương pháp tiếp cận theo hướng này so với các phương pháp dựa trên thành phần trình tự là sự hình thành cụm được xác định bởi sự phong phú của các I-mers (I-mers abundance) thay vì sự tương đồng của chúng.

Nhóm thứ hai của các phương pháp dựa trên giả định rang độ bao phủ của các trình tự của cùng một bộ gen nên có tương quan cao trên nhiều mẫu thuộc cùng một môi trường.

Van đề thứ hai với phương pháp dựa trên thành phan là chúng thường cung cấp kết quả chính xác hợp lý chỉ khi các trình tự dài hơn được sử dụng (ví dụ lớn hơn 800 bp) AbundanceBin, phương pháp dựa trên sự phong phú thuộc nhóm thứ nhất (dựa trên một mẫu) đưa ra giải pháp cho van dé này và có thể làm việc chính xác ngay cả với trình tự chỉ dài 75 bp Kỹ thuật này trích xuất l-mers (1 đã được ước lượng bằng thực nghiệm đến 20) từ tất cả các trình tự và sau đó sử dụng thuật toán tối đa hóa kỳ vọng (Expectation Maximization - EM) để tìm các tham số cho các phân bố Poisson, phản ánh mức độ phong phú tương đối của loài Vì AbundanceBin sử dụng cách tiếp cận gom cụm đệ quy để ước lượng số cụm, phương pháp này có thể tự xác định được số cụm (không cần biết trước số cụm) Tuy nhiên, nó vẫn cho phép người dùng đưa vào số cụm ban đầu MBBC tương tự AbundanceBin, bước đầu cũng tìm cách ước lượng các tham số cho phân phối Poisson theo thuật toán EM Tuy nhiên, bước sau đó nó dùng kết quả của bước đầu để huấn luyện mô hình Markov, và tinh chỉnh các cụm Mặc dù cả hai phương pháp này hoạt động tốt ngay cả trên các chuỗi ngắn (ví dụ: 75 bp), việc thiết lập các điều kiện ban đầu là rất quan trọng Hơn nữa, trong MBBC, người dùng được yêu cầu phải nhập vào số lớn để ước lượng cụm.

Mặc dù số này sẽ được tối ưu sau đó nhưng không rõ số này lớn như thé nào cho các mẫu khác nhau. Để có thể khắc phục được những loài gần nhau về mặt huyết thống trên cây

36 phân loại, độ phong phú có thể được tính dựa trên nhiều mẫu và sử dụng thông tin này để phân nhóm Canopy [36] là một phương pháp như vậy Bởi vì phương pháp này chỉ áp dụng trên các gene region nên phương pháp này cần đến phần mềmMOCAT [37] để dự đoán gen Canopy thực hiện gom cụm bằng cách tìm các gen trong một khoảng cách được định trước từ một gen chưa gom nhóm được chọn ngẫu nhiên Các cụm được xây dựng dựa trên nội dung các gen.

Gom cụm dùng phương pháp lai

Phương pháp lai sử dụng cả hai đặc trưng sequence composition và abundance (coverage) và thường dẫn đến độ chính xác cao hơn CompostBin [24] là một phương pháp tiên phong theo hướng này Đầu tiên, nó trích xuất tần số của các hexa-mer và dùng kỹ thuật phân tích thành phần chính (principle component analysis - PCA) để thu giảm số chiều và gán trọng số dựa trên giá trị nghịch đảo của độ phong phú Một phương pháp nữa sử dụng PCA để thu giảm số chiều là CONCOCT [38] CONCOCT kết hợp hai vector: tần số ]-mers và độ bao phủ (coverage) trong khi dùng PCA Phương pháp này hiệu quả khi số mẫu (metagenomic sample) lớn (khoảng 50) CONCOCT sử dung cách tiếp cận variational Bayesian với Gaussian mixture model (GMM) để ước lượng số cụm Tương tự CONCOCT, COCACOLA [39] kết hợp độ bao phủ (coverage) qua nhiều mẫu với genomic signatures để tạo nên vector đặc trưng và sử dụng L¡ để tính khoảng cách thay cho độ đo Euclid Ngoài ra COCACOLA còn sử dụng thêm tri thức về linkage của các trình tự pair-end va co-alignment từ cơ sở dit liệu tham chiếu để nâng cao kết quả gom cụm.

MyCC [40] sử dụng vector tần số ]-mers với tùy chọn thêm về thông tin độ bao phủ, nên phương pháp này có thể vừa được phân vào nhóm composition based (nêu không có thông tin độ bao phủ) hoặc hybrid Phương pháp này cũng gồm hai bước, bước đầu giống với VizBin đã nói ở phan trên nhưng sử dụng thuật toán affinity

37 propagation để khởi tạo các cụm và tinh chỉnh sau đó bằng cách xác định các single- copy marker genes trong các cụm Các single-copy marker genes được bảo tôn ở phần lớn các vi khuẩn có trình tự và xuất hiện chính xác trong cùng một bản sao và do đó có thể được sử dụng như là một độ đo cho sự đầy đủ của bộ gen (genome completeness) hoặc trong trường hợp của MyCC như một công cụ hữu ích để tinh chỉnh các cụm MyCC không cần số cụm như là đầu vào nhưng thuật toán affinity propagation yêu cau can có bộ nhớ lớn.

MetaBAT [41] là một phương pháp làm việc trên nhiều mẫu Phương pháp này tính các khoảng cách xác suất (probabilistic distance) giữa các cặp trình tự dựa trên tần số và độ phong phú của l-mers và kết hợp chúng thành khoảng cách tổng hợp Khoảng cách xác suất của tan số l-mers được tính sử dụng một mô hình thực nghiệm, thu được từ việc so sánh khoảng cách trong và ngoài các loài (inter- and intraspecies distances) của các bộ gen đã biết vì vậy sự hiệu quả của mô hình được kiểm tra chỉ bởi tri thức về các bộ gen đã biết Giống với MetaBAT, MaxBin [42] sử dụng các mô hình xác suất (probabilistic models), cũng dựa trên các tan số 1- mers được xác định tương tự dùng khoảng cách Euclid trong và ngoài các loài của 3181 bộ gen đã biết Tuy nhiên, phương pháp này sử dụng cách ước lượng khác đối với khoảng cách xác suất của độ bao phủ Với mỗi cặp trình tự, MetaBAT sử dụng một vùng chung của các phân bô chuẩn (Gaussian distribution) để định lượng trong khi MaxBin sử dụng mô hình Lander-Waterman với phân phối Poisson Việc gom cụm trong MaxBin được thực hiện bởi thuật toán EM và single-copy marker genes được sử dụng để xác định số cụm Phiên bản đầu của MaxBin làm việc với một mẫu metagenomic Tuy nhiên, phiên bản MaxBin 2.0 [43] có thể làm việc trên nhiều mẫu và cho kết quả tốt hơn.

Bảng 3.1 tổng hợp các phương pháp binning đã đề cập ở trên.

Bang 3.1: Các phương pháp gom cụm metagenomic

LikelyBin 2009 | composition | http://ecotheory.biology.gatech.

[27] edu/downloads/likelybin SCIMM [28] | 2010 | composition | http: //www.cbcb.umd.edu/software/ scimm/

VizBin [31] | 2015 | composition | https://claczny.github.io/VizBin/

[34] metaprob AbundanceBin 2011 | abundance | http://omics.informatics.indiana.

Canopy [36] | 2014 | abundance | https://bitbucket.org/HeyHo/ mgs-canopy-algorithm/wiki/Home MBBC [35] 2015 | abundance http://eecs.ucf.edu/~xiaoman/MBBC/

MBBC html CompostBin | 2008 | hybrid https://sites.google.com/site/

[24] souravc/compostbin CONCOCT | 2014 | hybrid https: //github.com/BinPro/CONCOCT

MaxBin [42] | 2015 | hybrid https: //sourceforge.net/projects/ maxbin/

MetaBAT 2015 | hybrid https : //bitbucket org/berkeleylab/

COCACOLA | 2016 | hybrid https://github.com/younglululu/

MyCC [40] 2016 | hybrid https: //sourceforge.net/projects/ sb2nhri/files/MyCC/

Gom cum du liệu metagenomic dung mô hình

Trong những năm gan đây, với su phát triển mạnh mẽ của công nghệ sinh học và y sinh, dữ liệu sinh học (như dữ liệu microarray, protein, gene expression, metagenomic, - - - ) đang có sự tăng trưởng rất nhanh Tình trang này cũng đặt ra một thách thức lớn, đó là, làm thế nào để trích xuất ra tri thức và các mối quan hệ tiềm ẩn từ lượng dữ liệu lớn nay Do sự phổ biến và kha năng ứng dung rộng rãi, thời gian gần đây, ngày càng nhiều nhà nghiên cứu sinh tin học đang bắt đầu tích hợp mô hình chủ dé vào dữ liệu sinh hoc Liu và các cộng sự [44] đã có một bài phân tích tổng hợp về rất đầy đủ về các ứng dụng của mô hình chủ dé vào lĩnh vực tin sinh hoc (bioinformatics) Theo kết luận của các tác giả này, các nghiên cứu về mô hình chủ để trong dữ liệu sinh học vẫn còn một con đường dài và đầy thách thức Họ cho rằng các mô hình chủ đề là một phương pháp hứa hẹn cho các ứng dụng khác nhau trong nghiên cứu tin sinh học.

Dữ liệu sinh học rất đa dạng, do đó, ở đây chúng tôi chỉ tập trung vào ứng dụng của mô hình chủ dé vào dữ liệu metagenomic, đặt biệt là cho bài toán phân

40 cụm Ứng dụng cơ bản của các mô hình chủ đề cho dữ liệu metagenomic là phân loại và gom nhóm vì đây là bản chất của các mô hình này Để áp dụng mô hình chủ dé vào dữ liệu metagenomic, các nhóm nghiên cứu biểu diễn đữ liệu này (các trình tự DNA) như là các tài liệu, gồm một tập các I-mers (hay l-grams) Mỗi l-mers là một chuỗi con gồm | ký tự liên tiếp của trình tự DNA và được xem như là một đặc trưng cho trình tự DNA (giống như một từ trong văn bản) Như vậy, mỗi trình tự DNA có thể biểu diễn thành một vector tần số của các l-mers Sau đó, các mô hình chủ dé được áp dụng cho các vector đặc trưng này Chen và các cộng sự dùng vector tan số của các l-mers để biểu diễn trình tự DNA và áp dụng mô hình LDA để suy ra các chủ dé ẩn, mỗi chủ đề ẩn là đại diện cho một hệ gen nào đó [45, 46, 47] La Rosa và các cộng sự cũng có cách tiếp cận tương tự, nhưng khác với nghiên cứu của Chen và các cộng sự, trong nghiên cứu này, các chủ dé ẩn được phát hiện trong dữ liệu metagenomic không chỉ có một phân bố xác suất trên các từ (l-mers), mà còn tương ứng với một nhãn phân loại dung (taxonomic label) [7] Zhang và các cộng sự cũng áp dụng mô hình LDA trên vector tần số của các I-mers để suy ra các chủ dé ẩn Sau đó, ho dùng thuật toán SKWIC, một biến thể của thuật toán k-means để gom nhóm các trình tự DNA được biểu diễn bởi các chủ dé ẩn [8] Theo các nghiên cứu này, việc sử dụng mô hình chủ dé cho phân loại metagenomic đạt được những kết qua hứa hẹn khi so sánh với các phương pháp khác như AbundanceBin [12], MetaCluster

[25] và MCluster [48] và cho thay đây là một hướng phát triển tiềm năng [8].

Phân loại metagenomic dựa trên mo hình chủ đề

Biểu diễn dữ liêu metagenomic

Dữ liệu metagenomic bao gồm nhiều trình tự (read) từ các loài khác nhau. Để có thể áp dụng mô hình LDA vào dt liệu metagenomic, chúng tôi phải tìm cách biểu diễn các trình tự tương tự như các tài liệu Mỗi trình tự sẽ xem như là một tài liệu, các từ trong tài liệu sẽ được biểu diễn như là các /-mer được sinh ra từ trình tự.

Mỗi /-mer là một chuỗi con gồm / ký tự liên tiếp trong một trình tự Ví dụ: nếu ta có trình tự r = "ATCGAAGGTCGT" và chọn / = 4 thì các /-mer của trình tự r là:

ATCG, TCGA, CGAA, GAAG, AAGG, AGGT, GGTC, GTCG, va TCGT Như vậy trình tự r = "ATCGAAGGTCGT" sẽ được biểu diễn thành tài liệu "ATCG TCGA CGAA GAAG AAGG AGGT GGTC GTCG TCGT".

Tuy nhiên, cách biểu diễn nay khá thô va thường cho kết qua không tốt nếu dùng trực tiếp để phân loại trình tự Ngoài ra, cách biểu diễn này có thể sinh ra một lượng rất lớn các từ khi k lớn (số từ là 4Ý, vì mỗi trình tự được thành lập từ 4

42 nucleotides khác nhau A, G, T, C) Vì vậy, việc thu giảm số chiều và trích ra đặc trưng nổi trội dựa trên cách biểu diễn thô này là rất cần thiết.

Trong dé tài này, chúng tôi dùng LDA để chọn ra những đặc trưng nổi trội từ tập các /-mer để biểu diễn các trình tự từ cách biểu diễn thô đã mô tả như trên.

Chúng tôi sử dung LDA để biểu diễn mỗi trình tự bởi một vector gồm k đặc trưng, với k là số chủ dé khi áp dụng mô hình LDA trên các trình tự metagenomic Mỗi trình tự là một vector gồm k thành phan mà mỗi thành phan là trọng số của một chủ đề trong đầu ra của mô hình LDA.

Hình 4.1 là một minh họa cho cách biểu diễn một trình tự có độ dài 80 bởi một tài liệu gồm các /-mer (I = 4) va sau đó áp dụng mô hình LDA trên các tài liệu này để thu giảm số chiều của các tài liệu này thành một vector gồm k (k = 20) chủ dé Mỗi chủ dé là một phân bồ trên các I-mer, ở đây chúng tôi chỉ hiển thị 10 /-mer có xác suất cao nhất Hình 4.2 mô tả mối quan hệ giữa trình tự (tài liệu) với chủ dé(topic) và giữa chủ dé và từ (/-mer) Mỗi trình tự (tài liệu) là sẽ chứa nhiều chủ dé và mỗi chủ dé sẽ bao gồm nhiều từ (/-mer) với tỷ lệ tương ứng.

Mô hình

Chúng tôi tiến hành thử nghiệm hai mô hình: LDACluster và LDABiMeta- Cluster LDACluster chỉ sử dụng kết quả của LDA để phân loại trong khi LD- ABiMetaCluster có sử dụng kết quả ở phase một của BiMeta [33] kết hợp với kết quả của LDA dé phân loại BiMeta là một phương pháp phân loại metagenomic dựa trên hai phase Phase đầu là gom các trình tự vào các group nhỏ và phase hai là gom các group nhỏ của phase một lại thành các cụm Lý do chúng tôi sử dụng lại kết quả phase đầu của BiMeta là vì phase này cho độ chính xác rất cao Nghia là, các trình tự thuộc cùng group nhỏ gần như sẽ cùng một cụm khi đối chiều với cụm that sự.

Chi tiết về hai mô hình này được mô tả ở mục 4.2.1 và 4.2.2.

Quá trình phân loại dữ liệu metagenomic bởi LDACluster được mô tả bởi các bước xử lý sau đây: e Bước đầu tiên là biểu diễn mỗi trình tự như là một tài liệu gồm các từ là các l-mer được sinh ra từ trình tự. e Bước tiếp theo là áp dụng mô hình LDA trên các tài liệu theo cách biểu diễn ở bước đầu để tạo ra các chủ đề Mỗi chủ dé là một phân bố trên các /-mer và mỗi tài liệu sẽ là một phân bố trên các chủ đề Như vậy, mỗi trình tự ban đầu được biểu diễn bởi một vector đặc trưng của các chủ dé Trọng số của vector thể hiện tỷ lệ đóng góp của mỗi chủ đề vào tài liệu. e Cuối cùng, chúng tôi gom cụm các vector đặc trưng ở bước hai dùng thuật toán k-means để phân loại trình tự.

Hình 4.3 mô tả các bước xử lý của LDACluster.

Quá trình phân loại dữ liệu metagenomic bởi LDABiMetaCluster được mô ta bởi các bước xử lý sau đây: e Bước đầu tiên là biểu diễn mỗi trình tự như là một tài liệu gồm các từ là các l-mer được sinh ra từ trình tự. e Bước thứ hai là áp dụng mô hình LDA trên các tài liệu theo cách biểu diễn ở bước đầu để tạo ra các chủ đề Mỗi chủ dé là một phân bố trên các /-mer và mỗi tài liệu sẽ là một phân bố trên các chủ đề Như vậy, mỗi trình tự ban đầu được biểu diễn bởi một vector đặc trưng của các chủ dé Trọng số của vector thể hiện tỷ lệ đóng góp của mỗi chủ đề vào tài liệu.

44 e Bước thứ ba, chúng tôi thực hiện phase đầu của BiMeta trên dữ liệu metagenomic để nhóm các trình tự vào các group nhỏ Bước này được thực hiện độc lập với bước thứ hai. e Bước thứ tư, chúng tôi kết hợp kết quả ở bước thứ hai và bước thứ ba để tạo ra vector đặc trưng cho mỗi group nhỏ bằng cách tính centroid của các vector đặc trưng của các chủ dé (ở bước hai) ứng với mỗi group nhỏ (ở bước ba). e Bước thứ năm, chúng tôi gom cụm các vector đặc trưng ở bước thứ tư dùng thuật toán k-means để gom các group nhỏ vào các cụm (sô cụm bằng số loài). e Cuối cùng, chúng tôi kết hợp kết quả của bước năm và bước ba để gán cụm cho các trình tự.

Hình 4.4 mô tả các bước xử lý của LDABiMetaCluster.

ATAC TACA ACAG CAGA AGAC GACC ACCA CCAT CATT ATTG TIGT TGTT GTTA TTAT TATA ATAT TATT ATTC TICA TCAT CATA ATAT TATA ATAT TATG ATGT tải liệu TGTT GTTA TTAA TAAG AAGA AGATGATT ATTA TTAA TAAG AAGTAGTT GTIT — gom các TITC TTCT TCTT CTTA TTAA TAAG AAGT AGTG GTGA TGAC GACA ACAT CATA l-mer ATAT TATG ATGA TGAA GAAC AACG ACGA CGAT GATG ATGT TGTC GTCA TCAT|

CATA ATAC TACA ACAC CACT ACTT CTTC TTCT TCTG CTGC TGCA GCAT tỷ lệ đồng góp của

Topic 1 Topic 2 4— chi éé vio tai liệu

Topic 1 ACGAAACGACAACGAT TIGA GATT TGAA ATGA TGAT CGAA Topic 2 TTTT TITA ATIT AATT TTAA TTAT TATT CTTT ATTA TTTG các chu de

Topic 10 AGCT AGCACAGC GCTT TAGC AAGCTGCT GCAGGCTG GCAA

Hình 4.1: Biểu diễn trình tự như tài liệu gồm các từ (/-mer) và thu giảm số chiều dùng LDA trình tự (tải liệu) chủ đẻ l-mer (từ)

Hình 4.2: Mỗi quan hệ giữa tài liệu (trình tự), chủ dé, và từ (/-mer)

Create a document for each read (generate l-mer from read) document of l-mer words (each reach a document)

Feature vector for each read (each feature is an topic)

Clustering document using k-means a Cluster result a

Hình 4.3: Các bước xử ly của LDACluster

Create a document for each read (generate |-mer from read) ral document of I-mer words Z Groups reads into groups

(each reach a document) (Phase 1 of BiMeta)

Feature vector for each read Reads with group

(each feature is an topic) information

Create feature vector for each group

Clustering group vector using k-means ge Cluster result Z“

Hình 4.4: Các bước xử lý của LDABiMetaCluster

Thực nghiêm và đánh giá

Dữ liệu được dùng để thử nghiệm và đánh giá là dữ liệu được sử dụng bởi nghiên cứu của Vinh và các cộng sự [33] Day là các tập dữ liệu được sinh từ công cụ MetaSim [49] Dữ liệu thử nghiệm gồm hai loại trình tự ngắn và dài Các tập dữ liệu trình tự ngắn có độ dài khoảng 80 bp (base pair) Các tập dif liệu trình tự dài có độ dài 700-800 bp Các tập dữ liệu này đều có tỷ lệ lỗi khoảng 1% Các tập dữ liệu này được mô tả chi tiết ở bảng 5.1 và 5.2.

Các độ do

Các độ đo được sử dụng để đánh giá là precision, recall, và F-measure Goi m là số loài của của tập dit liệu và k là số cụm trả về bởi thuật toán và n;; là số trình tự thuộc loài 7 được gan vào cụm i Cac độ do precision, recall, và F-measure được tính theo các công thức sau:

Lb ny i=1 j=l m max {nj;} j=1ie{L, k} recall = km mm" i=1/=I

Recall là ty lệ số trình tự cùng loài được gán cùng cum Precision là tỷ lệ số trình tự được gán cùng cụm thuộc cùng loài F-measure là một độ do cân bằng giữa precision và recall và thường được sử dụng để so sánh các thuật toán với nhau.

Bảng 5.1: Các tập dif liệu trình tự ngắn

Tập dữ liệu | Sốloài | Mức phát sinh | Số trình tự loài SRI 2 Species 114177 + 81162 SR2 3 Species, Family 114250 + 81063 + 130087 SR3 3 Phylum, Kingdom | 172675 + 317955 + 222758 SR4 5 Genus, Order 99577 + 82961 + 37492 +

Bảng 5.2: Các tập dữ liệu trình tự dài

Tập dữ liệu | Sốloài | Mức phát sinh | Số trình tự loàiLRI 2 Species 42189 + 40771LR2 2 Genus, Family 38664 + 38629LR3 2 Genus 47457 + 45810LR4 3 Family, Order 19473 + 19291 + 251709

Cac thu nghiệm

Thử nghiệm với LDACluster

Chúng tôi thử nghiệm biểu diễn mỗi trình tự bởi một tài liệu gồm các từ l-mer với / = 4,5,6 Khi áp dụng mô hình LDA trên các tài liệu được sinh ra bởi các trình tự, chúng tôi thử nghiệm với số chủ dé là k = 20, 50 Theo kết quả thử nghiệm của Zhang và các cộng sự [8] lựa chọn tốt nhất là / = 4 và k = 20 Thử nghiệm của chúng tôi cũng nhất quán với kết quả này Do vậy, phần bên dưới chúng tôi chỉ minh họa kết quả với tham số / = 4 và k = 20.

Kết quả của LDACluster trên các tập dữ liệu được mô tả ở bảng 5.3.

!https://bioconductor.org/packages/release/bioc/html/Biostrings.html

*http://mallet.cs.umass.edu/

Bang 5.3: Precision, Recall, và F-measure của LDACluster trên các tập dữ liệu ứng với l = 4,k = 20

Dataset Precision Recall F-measure SRI 0.585 0.810 0.679 SR2 0.563 0.714 0.630 SR3 0.784 0.834 0.808 SR4 0.421 0.467 0.443 LRI 0.509 0.502 0.505 LR2 0.602 0.726 0.658 LR3 0.602 0.726 0.658 LR4 0.867 0.547 0.671 Để đánh giá mức độ hiệu quả của vector đặc trưng do LDA tạo ra, chúng tôi so sánh mức độ hiệu quả của nó so với phương pháp chỉ đơn thuần dựa trên vector tần số I-mer Chúng tôi gọi BaseCluster là phương pháp phân loại dữ liệu metagenomic dựa trên việc áp dung k-means trên vector tần số l-mer của mỗi trình tự Bảng 5.4 mô tả kết quả của BaseCluster ứng với các tập dữ liệu thử nghiệm với / = 4 Dựa vào kết quả của bảng 5.3 và 5.4 ta có bảng 5.5 tổng hợp F-measure giữa BaseCluster và LDACluster Kết quả ở bảng nay cho thay LDACluster hiệu quả hơn BaseCluster.

Mặc dù sự khác biệt là không lớn, thử nghiệm nay cho thấy vector chủ dé do LDA tạo ra hiệu quả hon so vector tân sô l-mer của mỗi trình tự.

Thu nghiệm với LDA BiMetaCluster

LDACluster cho kết quả không ấn tượng vì nó không tận dụng đặc trưng sinh học của dữ liệu metagenomic mà chỉ áp dụng một cách máy móc mô hình LDA vào dif liệu này Để khắc phục tình trạng này, chúng tôi đã tìm cách tận dụng đặc

Bang 5.4: Precision, Recall, và F-measure của BaseCluster trên các tập dữ liệu ứng VỚI ẽ = 4

Dataset Precision Recall F-measure SRI 0.585 0.593 0.589 SR2 0.425 0.773 0.549 SR3 0.546 0.820 0.655 SR4 0.369 0.320 0.343 LRI 0.509 0.502 0.505 LR2 0.632 0.666 0.649 LR3 0.613 0.703 0.655 LR4 0.867 0.499 0.633 trưng sinh học của dữ liệu metagenomic vào mô hình Ở thử nghiệm này, chúng tôi kết hợp kết quả của BiMeta [33] và LDA BiMeta là một phương pháp phân loại metagenomic dựa trên hai phase với phase | có nhiệm vụ gom các trình tự vào các nhóm nhỏ dựa trên sự trùng lắp thông tin giữa chúng Phase 1 của BiMeta rất hiệu quả do tận dụng được đặc trưng sinh học của dữ liệu metagenomic Chúng tôi sử dụng lai phase 1 của BiMeta và kết hợp kết quả ở phase 1 với các đặc trưng do LDA tạo ra để phân loại dữ liệu metagenomic Chi tiết các bước xử lý đã được trình bày ở mục 4.2.2.

Mỗi trình tự duoc biểu diễn thành một tài liệu gồm các từ l-mer với / = 4 Khi áp dụng mô hình LDA trên các tài liệu được sinh ra bởi các trình tự, chúng tôi thử nghiệm với số chủ dé là k = 20 Bang 5.6 mô tả kết quả của LDABiMetaCluster trên các tập dữ liệu thử nghiệm với / = 4,k = 20.

Bang 5.5: F-measure của BaseCluster và LDACluster trên các tập dữ liệu ứng với 1=4,k

SR2 0.549 0.630SR3 0.655 0.808SR4 0.343 0.443LRI 0.505 0.505LR2 0.649 0.658LR3 0.655 0.658LR4 0.633 0.671

So sánh BiMetaCluster với các phương pháp khác

Để đánh giá mức độ hiệu quả của giải pháp dé xuất, chúng tôi so sánh kết quả của LDABiMetaCluster với các phương pháp AbundanceBin [12], BiMeta [33], và MetaProb [34] Kết quả thử nghiệm được mô tả ở bảng 5.7 và 5.8 Kết quả này cho thay LDABiMetaCluster tốt hơn tat cả các phương pháp khác trên tat cả các tập dữ liệu trình tự dài đã thử nghiệm LDABiMetaCluster cho kết quả ngang ngửa với MetaProb và hơn các phương pháp khác trên tất cả các tập dữ liệu trình tự ngắn (tốt hơn trên 2 tập và kém hơn trên hai tập).

Bang 5.6: Precision, Recall, và F-measure của LDABiMetaCluster trên các tập dữ liệu ứng với / = 4,k = 20

Dataset Precision Recall F-measure SRI 0.964 0.964 0.964 SR2 0.773 0.780 0.776 SR3 0.757 0.947 0.841 SR4 0.765 0.932 0.841 LRI 0.986 0.986 0.986 LR2 0.993 0.993 0.993 LR3 0.960 0.960 0.960 LR4 0.992 0.992 0.992

Bang 5.7: F-measure của AbundanceBin, BiMeta, MetaProb va LDABiMetaCluster trên các tập dữ liệu trình tự ngắn

Dataset | AbundanceBin | BiMeta | MetaProb | LDABiMetaCluster SRI 0.713 0.581 0.901 0.964

Bang 5.8: F-measure của AbundanceBin, BiMeta, MetaProb, và LDABiMetaCluster trên các tập du liệu trình tự dai

Dataset | AbundanceBin | BiMeta | MetaProb | LDABiMetaCluster LRI 0.674 0.609 0.971 0.986

Tiêu đề	Sử dụng mô hình chủ đề cho bài toán phân loại metagenomic
Tác giả	Quách Đình Hoàng
Người hướng dẫn	PGS. TS. Trần Văn Hoài
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2017
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	76
Dung lượng	17,18 MB