Phân loại trình tự metagenomics trên cơ sở phân lớp và gom cụm

160 928 1
Phân loại trình tự metagenomics trên cơ sở phân lớp và gom cụm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA LÊ VĂN VINH PHÂN LOẠI TRÌNH TỰ METAGENOMICS TRÊN SỞ PHÂN LỚP GOM CỤM LUẬN ÁN TIẾN SĨ KỸ THUẬT TP HỒ CHÍ MINH NĂM 2016 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA LÊ VĂN VINH PHÂN LOẠI TRÌNH TỰ METAGENOMICS TRÊN SỞ PHÂN LỚP GOM CỤM LUẬN ÁN TIẾN SĨ KỸ THUẬT Chuyên ngành: Khoa học Máy tính Mã số chuyên ngành: 62480101 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS Trần Văn Lăng PGS TS Trần Văn Hoài LỜI CAM ĐOAN Tác giả xin cam đoan công trình nghiên cứu thân tác giả Các kết nghiên cứu kết luận luận án trung thực, không chép từ nguồn hình thức Việc tham khảo nguồn tài liệu (nếu có) thực trích dẫn ghi nguồn tài liệu tham khảo quy định Tác giả luận án Lê Văn Vinh TÓM TẮT LUẬN ÁN Metagenomics (còn gọi environmental genomics hay community genomics) lĩnh vực nghiên cứu cộng đồng vi sinh vật Khác với phương pháp nghiên cứu vi sinh vật truyền thống (được gọi microbial genomics), lĩnh vực cho phép phân tích trực tiếp mẫu thực nghiệm mà không cần trải qua giai đoạn nuôi cấy phân tách cá thể phòng thí nghiệm Những dự án nghiên cứu metagenomics mang đến lợi ích nhiều lĩnh vực như: nông nghiệp, công nghệ sinh học, khoa học môi trường Một việc quan trọng dự án metagenomics, gọi phân loại trình tự (taxonomic binning), nhằm xếp trình tự vào nhóm quan hệ sinh loài gần Công việc giúp xác định nguồn gốc trình tự mẫu thực nghiệm, xác định chúng quan hệ với sinh vật biết Kết toán phân loại sử dụng đầu vào toán khác dự án metagenomics như: xác định vị trí xuất gien trình tự (annotation), ráp nối trình tự (assembly) ba yếu tố mang đến thách thức cho toán phân loại trình tự metagenomics Thứ nhất, hầu hết công nghệ giải mã trình tự hệ (next-generation sequencing) cho phép xử lý cho trình tự ngắn ngắn (nhỏ 700bp) Tuy nhiên, độ dài trình tự ngắn làm giảm chất lượng phân loại thiếu thông tin chứa đựng trình tự Thứ hai, hiệu giải pháp phân loại giám sát phụ thuộc vào mức độ xác mức độ đầy đủ sở liệu tham khảo Điều dẫn đến giải pháp thường khó khăn việc phân loại phần lớn vi sinh vật trái đất chưa khám phá Cuối cùng, dự án metagenomics thường phải xử lý cho lượng liệu lớn Yếu tố không làm tăng thời gian thực thi, mà làm giảm độ xác phân loại giải pháp Nghiên cứu nhằm mục tiêu đề xuất giải pháp phân loại cho liệu metagenomics, khả xử lý tốt cho trình tự ngắn, giải hiệu cho trường hợp sở liệu ii tham khảo không đầy đủ Dựa việc vận dụng kỹ thuật phân lớp gom cụm, kết hợp khai thác tính chất liệu, luận án đóng góp sau Một là, luận án đề xuất phương pháp nhằm nâng cao chất lượng vấn đề phân loại trình tự dựa phong phú hệ gien Ba đóng góp luận án vấn đề là: (1) Sử dụng mô hình thu giảm vốn đòi hỏi chi phí tính toán để tìm ước lượng khả cực đại tham số cho mô hình thống kê; (2) Vận dụng phương pháp lựa chọn mô hình nhằm phát số cụm tập liệu, giúp làm tăng chất lượng phân loại (3) Đề xuất phương pháp đếm l-mer với độ dài thay đổi, giúp làm tăng chất lượng giải pháp phân loại dựa phong phú hệ gien liệu lỗi giải mã Hai là, luận án đề xuất ý tưởng xây dựng tập đại diện tập trình tự hệ gien dựa thông tin gối đầu trình tự Tập đại diện cho thấy chứa đựng đặc trưng tương đồng hợp thành tập trình tự ban đầu Do đó, khả bảo toàn đặc trưng tập liệu gốc vận dụng nhằm giúp giảm chi phí tính toán mà giữ chất lượng giải pháp phân loại Ba là, giải pháp không giám sát đề xuất cho phân loại trình tự sử dụng đặc trưng tần số xuất l-mer, thông tin gối đầu trình tự Giải pháp đề xuất này, gọi BiMeta, sử dụng ý tưởng tìm tập đại diện tập trình tự thuộc hệ gien nhằm mục đích vừa giảm chi phí tính toán, vừa đạt chất lượng phân loại tốt BiMeta bao gồm hai pha Trong pha đầu, trình tự gom thành nhóm dựa thông tin gối đầu chúng Pha hai trộn nhóm vào cụm dựa đặc trưng phân bố tần số xuất l-mer rút trích từ tập đại diện nhóm Bốn là, giải pháp phân lớp bán giám sát, gọi SeMeta, đề xuất nhằm phân loại gán nhãn cho trình tự SeMeta sử dụng ý tưởng tìm tập đại diện tập liệu, giải pháp vận dụng khả bảo toàn tính tương đồng chúng để phân loại trình tự Giải pháp bao gồm hai bước Sau bước gom cụm sử dụng phương pháp cải tiến BiMeta, thực gán nhãn cụm vào đơn vị phân loại phù hợp dựa tương đồng trình tự đại diện cụm với sở liệu tham khảo Bên cạnh đó, kỹ thuật lọc thông tin nhiễu (BLAST hit không tin cậy) từ iii trình so sánh tương đồng áp dụng giúp làm tăng chất lượng phân loại giải pháp Kết thực nghiệm liệu giả lập liệu thực tế cho thấy, giải pháp dựa phong phú hệ gien (MetaAB MetaAB-adv) BiMeta đạt độ xác cao tốn chi phí tính toán so với giải pháp không sử dụng liệu tham khảo thường sử dụng Bên cạnh đó, SeMeta cho thấy đạt chất lượng phân loại tốt hơn, đồng thời chi phí tính toán giảm đáng kể so với giải pháp giám sát dựa tính tương đồng phổ biến Các giải pháp hứa hẹn công cụ hữu ích cho vấn đề phân tích mẫu thực nghiệm từ môi trường vi sinh vật Mặc dù giải pháp đề xuất luận án cho thấy khả phân tích hiệu cho trình tự metagenomics, số khía cạnh cần nghiên cứu tương lai kể mặt lý thuyết thực nghiệm nhằm nâng cao chất lượng phân loại Để làm tăng độ xác giải pháp đề xuất, dấu hiệu hệ gien, hay độ đo khoảng cách vectơ tần số l-mer khác nghiên cứu áp dụng cho BiMeta SeMeta Ngoài ra, khả gán nhãn trình tự vào vị trí sinh loài SeMeta cải tiến mức độ tương đồng khác BLAST hits tin cậy quan tâm, ngưỡng giá trị thể mức độ tương đồng trình tự theo bậc phân loại khảo sát Bên cạnh đó, vấn đề sửa lỗi trình tự hay việc áp dụng công nghệ tính toán hiệu cao hướng nghiên cứu giúp làm tăng chất lượng phân loại, giảm chi phí tính toán giải pháp đề xuất iv ABSTRACT Metagenomics (or environmental genomics, community genomics) is the study of microbial communities The discipline, different from traditional methods (microbial genomics), enables analyzing microbial samples directly, without the needs of isolating and culturing single organisms in laboratories Metagenomic projects have contributed in advances in many fields, e.g., agriculture, biotechnology, and environmental science One of the crucial tasks in a metagenomic project, referred to as binning problem, is to sort reads into groups of closely related organisms This task also helps in identifying the origin of the reads in an environmental sample, as well as determining how they are related to known taxa Results of binning approaches can be used in other tasks of metagenomic analysis, such as DNA annotation, sequence assembly There are three main factors posing current research challenges in this field Firstly, most of the next-generation sequencing techniques only produce short or very short reads However, the length of short reads reduces much classification quality due to the lack of the sequence information Secondly, the performance of supervised approaches depends on the accuracy and completeness of reference database As a result, those methods are difficult to classify reads correctly because the majority of microorganisms on Earth remain undiscovered Finally, metagenomic projects usually are performed on a huge amount of data This factor not only makes binning approaches suffer from computational expense, but also reduces the classification accuracy This dissertation aims to propose efficient binning approaches for metagenomic reads which are able to work well with sort reads, and deal with the lack or the incompleteness of reference database Basing on the usage of classification and clustering techniques as well as discovering characteristics of sequences, the dissertation has the following contributions Firstly, this dissertation proposes methods to enhance the quality of the genome abundance based binning of metagenomic There are three major contributions of this study to v the problems: (1) using a reduced statistical model which requires small costs to find maximum likelihood estimates of its parameters; (2) applying a method of model selection to detect the number of clusters in datasets automatically, which could improve the classification quality; (3) proposing a variable-length l-mer counting method in order to boost the quality of abundance-based binning approaches in case of error-free sequencing sequences Secondly, the dissertation proposes an idea of selecting a representative of a group of reads belonging to the same genomes using the sequence overlapping information between reads The representative shows that it still contains similarity-based and composition-based features Thus, it is able to preserve features of the original read group and can be applied to reduce computational costs while still keeping the quality of binning approaches Thirdly, a novel unsupervised method is proposed to classify metagenomic reads using the feature of l-mer frequency and the sequence overlapping information between reads The proposed approach, called BiMeta, uses the idea of the selection of group representative to reduce computational costs as well as achieve good classification quality BiMeta consists of two main phases In the first phase, reads are grouped by utilizing the information of sequence overlapping The second phase merges the groups basing on the feature of l-mer frequency extracted from their representative Fourthly, a semi-supervised classification method, called SeMeta, is proposed to classify and label reads SeMeta also applies the idea of selecting representative of a read group, but it utilizes the ability of preserving the similarity-based feature to separate reads The approach consists of two major steps After clustering reads using an improvement of BiMeta, it assigns each cluster to the best suitable taxon basing on the similarity between reads in a representative of the cluster and reference databases Besides, an efficient filtering technique is also proposed to reduce noises (ambitious hits) in results of the similarity search, which aims to produce better classification quality Experimental results on both simulated and real metagenomic datasets demonstrate that the abundance-based binning approaches (MetaAB and MetaAB-adv) and BiMeta are able to achieve high accuracy and require less computational costs comparing with commonlyused unsupervised binning methods Besides, SeMeta gets higher classification quality in vi different aspects, as well as need lower costs than other well-known similarity-based approaches Those methods can be used as promising tools to analyze samples from microbial communities Although the proposed approaches demonstrate to be able to analyze effectively for metagenomic sequences, some aspects should be investigated by future theoretical and empirical studies to improve the proposed approaches In order to improve the quality of the proposed methods, other genomic signatures, or distance matrices between l-mer frequency distributions can be studied and applied for BiMeta and SeMeta Besides, the classification quality of SeMeta on assigning sequences into an exact position in a phylogenetic tree could be improved if the differences of homologous degrees between trusted BLAST hits are considered, and the thresholds of the homologous degrees for each taxonomic levels are investigated The correction of sequencing errors or the applying of high-performance techniques are also potential research trends which could help to enhance the classification quality or reduce computational costs of the proposed approaches vii LỜI CẢM ƠN Tôi xin chân thành cảm ơn trường Đại học Bách Khoa Tp Hồ Chí Minh nói chung, khoa Khoa học Kỹ thuật máy tính nói riêng tạo điều kiện môi trường nghiên cứu thuận lợi cho thực luận án Em xin chân thành cảm ơn thầy Trần Văn Lăng thầy Trần Văn Hoài tận tình bảo hướng dẫn em suốt trình nghiên cứu để hoàn thành đề tài Em chân thành cảm ơn thầy Lê Thanh Bình (Viện Công nghệ Sinh học - Viện Hàn lâm Khoa học Công nghệ Việt Nam) hỗ trợ em trình nghiên cứu Em xin gửi lời cảm ơn đến Thầy khoa Khoa học Kỹ thuật Máy tính nói chung, môn Khoa học Máy tính, môn Hệ thống Mạng máy tính nói riêng đóng góp quý báu để em hoàn thành tốt công việc Con xin chân thành cảm ơn cha mẹ, cảm ơn gia đình nhỏ, người khác gia đình bên cạnh ủng hộ, động viên, giúp đỡ mặt để thực tốt đề tài nghiên cứu Tôi xin chân thành cảm ơn đồng nghiệp, bạn bè lời khuyên, góp ý hữu ích trình thực đề tài nghiên cứu Tp Hồ Chí Minh, ngày 18 tháng năm 2016 Lê Văn Vinh viii 22 Fervidicoccus fontis Kam940 0.00723474 Ferrimonas balearica DSM 9799 23 Fervidobacterium nodosum Rt17-B1 0.000971573 Fervidobacterium pennivorans DSM 9078 24 Frankia alni ACN14a 0.000624341 Frankia symbiont of Datisca glomerata 25 Flavobacterium branchiophilum FL-15 0.0025518 Flavobacterium columnare ATCC 49512 26 Flavobacterium columnare ATCC 49512 0.000794538 Flavobacterium indicum GPTSA100-9 27 Flavobacterium psychrophilum JIP02/86 0.000579774 Flavobacterium indicum GPTSA100-9 28 Francisella cf novicida Fx1 0.00122829 Francisella noatunensis subsp orientalis str Toba 04 29 Francisella noatunensis subsp orientalis str Toba 04 0.000463824 Francisella philomiragia subsp philomiragia ATCC 25017 30 Francisella philomiragia subsp philomiragia ATCC 25017 0.000382518 Francisella cf novicida Fx1 31 Gallibacterium anatis UMN179 0.00510855 Gallionella capsiferriformans ES-2 32 Geobacillus kaustophilus HTA426 0.000392288 Geobacillus sp C56-T3 33 Geobacillus sp C56-T3 0.000328194 Geobacillus thermodenitrificans NG80-2 34 Geobacillus thermodenitrificans NG80-2 0.000816751 Geobacillus thermoglucosidasius C56-YS93 35 Geobacillus thermoglucosidasius C56-YS93 0.00184899 Geobacillus thermoleovorans CCB-US3-UF5 36 Geobacter lovleyi SZ 0.00580897 Geobacter metallireducens GS-15 125 37 Geobacter metallireducens GS-15 0.00213207 Geobacter sp FRC-32 38 Geobacter sp FRC-32 0.00307431 Geobacter sulfurreducens KN400 39 Haemophilus influenzae Rd KW20 0.000582075 Haemophilus parainfluenzae T3T1 40 Haemophilus parainfluenzae T3T1 0.000464351 Haemophilus parasuis SH0165 41 Rhodobacter capsulatus SB 1003 0.00100538 Rhodobacter sphaeroides 2.4.1 42 Rickettsia heilongjiangensis 054 0.000362156 Rickettsia massiliae MTU5 43 Rickettsia peacockii str Rustic 0.00116132 Rickettsia prowazekii Rp22 44 45 Roseiflexus castenholzii DSM 13941 Roseiflexus sp RS-1 Roseobacter denitrificans OCh 114 0.000437446 0.000435788 Roseobacter litoralis Och 149 46 Ruegeria pomeroyi DSS-3 0.000974478 Ruegeria sp TM1040 47 Salinispora arenicola CNS-205 0.000597411 Salinispora tropica CNB-440 48 Shewanella amazonensis SB2B 0.00118549 Shewanella baltica BA175 49 Sinorhizobium medicae WSM419 0.000465572 Sinorhizobium meliloti 1021 50 Streptococcus suis ST3 0.000983104 Streptococcus thermophilus ND03 Khoảng cách trung bình 126 0.001418848 Bảng 3: Khoảng cách Euclide cặp hệ gien - mức họ (family) Cặp Tên loài/chủng Khoảng cách Euclide Acidiphilium cryptum JF-5 0.00116041 Azospirillum lipoferum 4B Acidiphilium cryptum JF-5 0.00128279 Azospirillum sp B510 Acidiphilium cryptum JF-5 0.000960068 Rhodospirillum centenum SW Acidiphilium cryptum JF-5 0.0056813 Rhodospirillum photometricum DSM 122 Acidiphilium cryptum JF-5 0.000900461 Rhodospirillum rubrum F11 Acidiphilium multivorum AIU301 0.00119024 Azospirillum lipoferum 4B Acidiphilium multivorum AIU301 0.00130401 Azospirillum sp B510 Acidiphilium multivorum AIU301 0.000981188 Rhodospirillum centenum SW Acidiphilium multivorum AIU301 0.00566501 Rhodospirillum photometricum DSM 122 10 Acidiphilium multivorum AIU301 0.000905204 Rhodospirillum rubrum F11 11 Gluconobacter oxydans 621H 0.00272485 Magnetospirillum magneticum AMB-1 12 Gluconobacter oxydans 621H 0.00244248 Azospirillum lipoferum 4B 13 Gluconobacter oxydans 621H 0.00428762 Azospirillum sp B510 14 Gluconobacter oxydans 621H 0.00195362 127 Rhodospirillum centenum SW 15 Gluconobacter oxydans 621H 0.00187092 Rhodospirillum photometricum DSM 122 16 Gluconacetobacter xylinus NBRC 3288 0.00160728 Magnetospirillum magneticum AMB-1 17 Gluconacetobacter xylinus NBRC 3288 0.00187295 Azospirillum lipoferum 4B 18 Gluconacetobacter xylinus NBRC 3288 0.00267678 Azospirillum sp B510 19 Gluconacetobacter xylinus NBRC 3288 0.00176704 Rhodospirillum centenum SW 20 Gluconacetobacter xylinus NBRC 3288 0.00364943 Rhodospirillum photometricum DSM 122 21 Helicobacter pylori v225d 0.001695 Campylobacter concisus 13826 22 Helicobacter pylori v225d 0.00288986 Campylobacter curvus 525.92 23 Helicobacter pylori v225d 0.00233894 Campylobacter fetus subsp fetus 82-40 24 Helicobacter pylori v225d 0.0029078 Campylobacter hominis ATCC BAA-381 25 Helicobacter pylori v225d 0.0023106 Campylobacter jejuni RM1221 26 Helicobacter acinonychis str Sheeba 0.00260565 Campylobacter concisus 13826 27 Helicobacter acinonychis str Sheeba 0.00512735 Campylobacter curvus 525.92 28 Helicobacter acinonychis str Sheeba 0.00218291 Campylobacter fetus subsp fetus 82-40 29 Helicobacter acinonychis str Sheeba Campylobacter hominis ATCC BAA-381 128 0.00160544 30 Helicobacter acinonychis str Sheeba 0.00138367 Campylobacter jejuni RM1221 31 Mycobacterium tuberculosis CCDC5079 0.00121954 Corynebacterium aurimucosum ATCC 700975 32 Mycobacterium tuberculosis CCDC5079 0.0022096 Corynebacterium diphtheriae 241 33 Mycobacterium tuberculosis CCDC5079 0.00194272 Corynebacterium efficiens YS-314 34 Mycobacterium tuberculosis CCDC5079 0.00305287 Corynebacterium glutamicum ATCC 13032 35 Mycobacterium tuberculosis CCDC5079 0.00130545 Corynebacterium jeikeium K411 36 Mycobacterium ulcerans Agy99 0.00130113 Corynebacterium aurimucosum ATCC 700975 37 Mycobacterium ulcerans Agy99 0.00275419 Corynebacterium diphtheriae 241 38 Mycobacterium ulcerans Agy99 0.00188054 Corynebacterium efficiens YS-314 39 Mycobacterium ulcerans Agy99 0.0038878 Corynebacterium glutamicum ATCC 13032 40 Mycobacterium ulcerans Agy99 0.00160739 Corynebacterium jeikeium K411 41 Rhodococcus erythropolis PR4 0.00144254 Mycobacterium abscessus 42 Rhodococcus erythropolis PR4 0.00175072 Mycobacterium africanum GM041182 43 Rhodococcus erythropolis PR4 0.00245791 Mycobacterium avium 104 44 Rhodococcus erythropolis PR4 0.00177895 Mycobacterium bovis AF2122/97 129 45 Rhodococcus erythropolis PR4 0.00178442 Mycobacterium canettii CIPT 140010059 46 Rhodococcus jostii RHA1 0.000571187 Mycobacterium chubuense NBB4 47 Rhodococcus jostii RHA1 0.0033827 Clavibacter michiganensis subsp michiganensis NCPPB 382 48 Rhodococcus jostii RHA1 0.00266907 Clavibacter michiganensis subsp sepedonicus 49 Rhodococcus jostii RHA1 0.00144297 Microbacterium testaceum StLB037 50 Rhodococcus jostii RHA1 0.000791016 Mycobacterium avium 104 Khoảng cách trung bình 0.002183272 Bảng 4: Khoảng cách Euclide cặp hệ gien - mức loài (species) Cặp Tên loài/chủng Khoảng cách Euclide Arthrobacter aurescens TC1 0.000402109 Acidithiobacillus caldus SM-1 0.000338735 Acinetobacter baumannii TCDC-AB0715 0.000427445 Acinetobacter oleivorans DR1 0.000481165 Acinetobacter calcoaceticus PHEA-2 0.00504832 Actinobacillus pleuropneumoniae serovar str JL03 0.000593606 Clostridium tetani E88 0.00178746 Corynebacterium aurimucosum ATCC 700975 0.000361758 Clostridium acetobutylicum ATCC 824 0.000435955 10 Clostridium beijerinckii NCIMB 8052 0.00101003 11 Clostridium botulinum H04402 065 0.00199109 12 Clostridium clariflavum DSM 19732 0.000659139 130 13 Clostridium difficile 2007855 0.00209873 14 Clostridium kluyveri DSM 555 0.000273998 15 Ehrlichia canis str Jake 0.000517377 16 Ehrlichia chaffeensis str Arkansas 0.000276004 17 Enterobacter aerogenes KCTC 2190 0.000913663 18 Enterobacter cloacae EcWSU1 0.000610972 19 Leuconostoc kimchii IMSNU 11154 0.000384086 20 Lactobacillus amylovorus GRL 1112 0.00159008 21 Ferrimonas balearica DSM 9799 0.000662443 22 Fervidicoccus fontis Kam940 0.000835274 23 Fervidobacterium nodosum Rt17-B1 0.000359662 24 Frankia alni ACN14a 0.000511451 25 Flavobacterium branchiophilum FL-15 0.000794795 26 Flavobacterium columnare ATCC 49512 0.00115145 27 Flavobacterium psychrophilum JIP02/86 0.00162949 28 Francisella cf novicida Fx1 0.00122074 29 Francisella noatunensis subsp orientalis str Toba 04 0.000642839 30 Francisella philomiragia subsp philomiragia ATCC 25017 0.000303487 31 Gallibacterium anatis UMN179 0.000345561 32 Geobacillus kaustophilus HTA426 0.000390449 33 Geobacillus sp C56-T3 0.000305441 34 Geobacillus thermodenitrificans NG80-2 0.000368147 35 Geobacillus thermoglucosidasius C56-YS93 0.000243957 36 Geobacter lovleyi SZ 0.000368481 37 Geobacter metallireducens GS-15 0.000602051 38 Geobacter sp FRC-32 0.000710776 39 Haemophilus influenzae Rd KW20 0.000343967 40 Haemophilus parainfluenzae T3T1 0.0004172 41 Rhodobacter capsulatus SB 1003 0.00043359 42 Rickettsia heilongjiangensis 054 0.00044147 131 43 Rickettsia peacockii str Rustic 0.000313373 44 Roseiflexus castenholzii DSM 13941 0.0015777 45 Roseobacter denitrificans OCh 114 0.000430132 46 Ruegeria pomeroyi DSS-3 0.000256555 47 Salinispora arenicola CNS-205 0.000435634 48 Shewanella amazonensis SB2B 0.000405258 49 Sinorhizobium medicae WSM419 0.000490665 50 Streptococcus suis ST3 0.0014154 Khoảng cách trung bình Khoảng cách loài Khoảng cách Euclide trung bình Cùng loài 0.002183272 Khoảng cách họ 0.0024 0.0022 0.002 0.0018 0.0016 0.0014 0.0012 0.001 0.0008 0.0006 10 20 30 40 50 Số cặp hệ gien Hình 1: Kết thực nghiệm khoảng cách trung bình cặp hệ gien nhóm lượt tính toán thực theo giá trị tăng dần số cặp hệ gien nhóm Kết thể hình cho thấy, số cặp nhóm tính tăng, khác biệt khoảng cách trung bình cặp hệ gien nhóm rõ rệt, thể rõ dấu hiệu hệ gien khảo sát thực nghiệm Tập liệu thực nghiệm cho BiMeta 132 Bảng 5: Tập liệu thực nghiệm cho BiMeta - Tập trình tự dài Tập Tên loài/chủng Độ phong liệu R1 R2 R3 R4 R5 R6 R7 R8 R9 phú Bacillus halodurans C-125 Bacillus subtilis BSn5 Gluconobacter oxydans 621H Granulibacter bethesdensis CGDNIH1 Escherichia coli LF82 Yersinia pestis Z176003 Methanocaldococcus jannaschii DSM 2661 Methanococcus maripaludis C5 Pyrobaculum aerophilum str IM2 Thermofilum pendens Hrk Gluconobacter oxydans 621H Rhodospirillum rubrum F11 Gluconobacter oxydans 621H Granulibacter bethesdensis CGDNIH1 Nitrobacter hamburgensis X14 40 Escherichia coli UM146 Pseudomonas putida BIRD-1 Bacillus anthracis str H9401 40 Escherichia coli HS Pseudomonas putida F1 Thermofilum pendens Hrk 5 Pyrobaculum aerophilum str IM2 Bacillus anthracis str H9401 10 Bacillus subtilis BSn5 70 Bảng 6: Tập liệu thực nghiệm cho BiMeta - tập trình tự ngắn 133 Tập Tên loài/chủng Độ phong liệu S1 S2 S3 S4 S5 S6 S7 S8 phú Mycoplasma suis KI3806 10 Mycoplasma putrefaciens KS1 10 Lactobacillus salivarius UCC118 10 Lactobacillus sanfranciscensis TMW 1.1304 10 Lactobacillus salivarius UCC118 10 Bacillus selenitireducens MLS10 10 Borrelia burgdorferi JD1 10 Escherichia coli APEC O1 10 Lactobacillus salivarius UCC118 10 Lactobacillus sanfranciscensis TMW 1.1304 10 Aerococcus urinae ACS-120-V-Col10a 10 Borrelia burgdorferi JD1 30 Thermofilum pendens Hrk 20 Escherichia coli APEC O1 10 Actinobacillus pleuropneumoniae serovar 5b str L20 10 Aliivibrio salmonicida LFI1238 10 Haemophilus somnus 129PT 10 Pasteurella multocida 36950 40 Vibrio cholerae M66-2 40 Haemophilus somnus 129PT Pasteurella multocida 36950 Actinobacillus pleuropneumoniae serovar 5b str L20 Vibrio cholerae M66-2 Aliivibrio salmonicida LFI1238 11 Azospirillum sp B510 Bacillus amyloliquefaciens LL3 Bartonella clarridgeiae 73 Bifidobacterium animalis subsp lactis B420 Bordetella avium 197N 134 S10 Caldicellulosiruptor lactoaceticus 6A 10 Desulfovibrio vulgaris DP4 10 Ehrlichia canis str Jake 10 Geobacter sulfurreducens PCA 10 Haemophilus somnus 2336 10 Helicobacter cetorum MIT 00-7128 15 Lactobacillus amylovorus GRL1118 15 Mesotoga prima MesG1.Ag.4.2 15 Rickettsia akari str Hartford 15 Streptococcus thermophilus JIM 8232 15 Acidaminococcus intestini RyC-MR95 Acinetobacter baumannii ATCC 17978 Advenella kashmirensis WT001 Alicycliphilus denitrificans K601 Anaeromyxobacter sp Fw109-5 Bacillus amyloliquefaciens Y2 Bacteroides fragilis NCTC 9343 Bifidobacterium animalis subsp lactis AD011 Borrelia afzelii Pko Borrelia turicatae 91E135 Burkholderia ambifaria AMMD Caldicellulosiruptor owensensis OL Candidatus Amoebophilus asiaticus 5a2 Chelativorans sp BNC1 Clostridium cellulolyticum H10 Coxiella burnetii RSA 331 Dechlorosoma suillum PS Desulfitobacterium hafniense Y51 Edwardsiella ictaluri 93-146 Erwinia amylovora ATCC 49946 Escherichia coli DH1 135 L1 L2 L3 L4 L5 L6 Ferrimonas balearica DSM 9799 Finegoldia magna ATCC 29328 Fluviicola taffensis DSM 16823 Frankia sp CcI3 Gallibacterium anatis UMN179 10 Geobacillus sp C56-T3 10 Geobacter sp FRC-32 10 Gordonia polyisoprenivorans VH2 10 Haemophilus ducreyi 35000HP 10 Eubacterium eligens ATCC 27750 Lactobacillus amylovorus GRL1118 Eubacterium eligens ATCC 27750 Lactobacillus amylovorus GRL1118 14 Eubacterium eligens ATCC 27750 Lactobacillus amylovorus GRL1118 21 Eubacterium eligens ATCC 27750 Lactobacillus amylovorus GRL1118 28 Eubacterium eligens ATCC 27750 Lactobacillus amylovorus GRL1118 35 Eubacterium eligens ATCC 27750 Lactobacillus amylovorus GRL1118 42 136 Tập liệu thực nghiệm cho SeMeta Bảng 7: Tập liệu ds1 137 Stt Taxon ID Loài/Chủng Độ phủ Số trình tự 702459 Bifidobacterium bifidum PRL2010 138042 272559 Bacteroides fragilis NCTC 9343 325808 272563 Clostridium difficile 630 267894 226185 Enterococcus faecalis V583 201704 46170 Staphylococcus aureus subsp aureus USA300 FPR3757 179106 Tổng số trình tự 1112554 Bảng 8: Tập liệu ds2 138 Stt Taxon ID Loài/Chủng Độ phủ Số trình tự 203907 Candidatus Blochmannia floridanus 44128 243230 Deinococcus radiodurans R1 26208 355276 Leptospira borgpetersenii serovar Hardjo-bovis L550 19826 882944 Listonella anguillarum M3 61452 347257 Mycoplasma agalactiae PG2 54552 228908 Nanoarchaeum equitans Kin4-M 30564 222891 Neorickettsia sennetsu str Miyayama 53718 446468 Nocardiopsis dassonvillei subsp dassonvillei DSM 43111 48594 262768 Onion yellows phytoplasma OY-M 53162 10 246198 Prevotella intermedia 17 36470 Tổng số trình tự 428674 Bảng 9: Tập liệu ds3 139 Stt Taxon ID Loài/Chủng Độ phủ Số trình tự 416269 Actinobacillus pleuropneumoniae serovar 5b str L20 22666 295405 Bacteroides fragilis YCH46 105936 283166 Bartonella henselae str Houston-1 58030 568707 Bordetella bronchiseptica 253 211486 224326 Borrelia burgdorferi B31 44948 Buchnera aphidicola 26642 243160 Burkholderia mallei ATCC 23344 245760 498211 Cellvibrio japonicus Ueda107 365770 243161 Chlamydia muridarum Nigg 96928 10 264202 Chlamydophila felis Fe/C-56 10 117180 11 243365 Chromobacterium violaceum ATCC 12472 11 521158 12 777 Coxiella burnetii CbuGQ212 12 241798 13 138119 Desulfitobacterium hafniense Y51 13 745622 14 269484 Ehrlichia canis str Jake 14 184028 15 316385 Escherichia coli str K-12 substr DH10B 15 700742 Tổng số trình tự 3688694 ... [9]): "Phân loại trình tự metagenomics trình xếp trình tự DNA vào nhóm bao gồm trình tự thuộc hệ gien cá thể hệ gien vi sinh vật có quan hệ gần nhau" Có thể định nghĩa toán phân loại trình tự metagenomics. .. để phân loại trình tự Giải pháp bao gồm hai bước Sau bước gom cụm sử dụng phương pháp cải tiến BiMeta, thực gán nhãn cụm vào đơn vị phân loại phù hợp dựa tương đồng trình tự đại diện cụm với sở. .. phong phú tương tự Thứ hai, thực phân loại trình tự metagenomics trường hợp không tồn sở liệu tham khảo cho trình tự nhóm thuộc loài có quan hệ sinh loài gần Thứ ba, phân loại trình tự metagenomics

Ngày đăng: 16/05/2017, 23:34

Từ khóa liên quan

Mục lục

  • DANH MỤC CÁC HÌNH ẢNH

  • DANH MỤC BẢNG BIỂU

  • DANH MỤC CÁC TỪ VIẾT TẮT, THUẬT NGỮ VÀ KÝ HIỆU

  • GIỚI THIỆU

    • Metagenomics và bài toán phân loại trình tự

    • Vấn đề tồn tại cần giải quyết

      • Độ chính xác

      • Chi phí tính toán

      • Mục tiêu của luận án

      • Phương pháp và nội dung nghiên cứu

      • Đóng góp của luận án

        • Về mặt khoa học

        • Về mặt thực tiễn

        • Nội dung luận án

        • NỀN TẢNG KIẾN THỨC VÀ TÌNH HÌNH NGHIÊN CỨU

          • Nền tảng kiến thức

            • DNA và hệ gien

            • Công nghệ giải mã trình tự DNA

            • Đặc trưng sử dụng cho phân loại trình tự

            • Phân lớp và gom cụm dữ liệu

            • Độ đo hiệu năng giải pháp phân loại

            • Tình hình nghiên cứu

              • Phương pháp có giám sát

              • Phương pháp không có giám sát

              • Phương pháp bán giám sát

              • GIẢI PHÁP PHÂN LOẠI KHÔNG GIÁM SÁT DỰA TRÊN SỰ PHONG PHÚ CỦA HỆ GIEN

                • Giới thiệu

Tài liệu cùng người dùng

Tài liệu liên quan