1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phân loại trình tự metagenomics trên cơ sở phân lớp và gom cụm

150 600 4

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 150
Dung lượng 3,37 MB

Nội dung

MỤC LỤC DANH MỤC CÁC HÌNH ẢNH xiii DANH MỤC BẢNG BIỂU xviii DANH MỤC CÁC TỪ VIẾT TẮT, THUẬT NGỮ VÀ KÝ HIỆU xix CHƯƠNG GIỚI THIỆU 1.1 Metagenomics toán phân loại trình tự 1.2 Vấn đề tồn cần giải 1.2.1 Độ xác 1.2.2 Chi phí tính toán 1.3 Mục tiêu luận án 1.4 Phương pháp nội dung nghiên cứu 1.5 Đóng góp luận án 1.5.1 Về mặt khoa học 1.5.2 Về mặt thực tiễn 1.6 Nội dung luận án CHƯƠNG NỀN TẢNG KIẾN THỨC VÀ TÌNH HÌNH NGHIÊN CỨU 2.1 Nền tảng kiến thức 2.1.1 DNA hệ gien 2.1.2 Công nghệ giải mã trình tự DNA 2.1.3 Đặc trưng sử dụng cho phân loại trình tự 10 2.1.4 Phân lớp gom cụm liệu 14 2.1.5 Độ đo hiệu giải pháp phân loại 16 ix 2.2 Tình hình nghiên cứu 17 2.2.1 Phương pháp có giám sát 18 2.2.2 Phương pháp giám sát 20 2.2.3 Phương pháp bán giám sát 23 CHƯƠNG GIẢI PHÁP PHÂN LOẠI KHÔNG GIÁM SÁT DỰA TRÊN SỰ PHONG PHÚ CỦA HỆ GIEN 25 3.1 Giới thiệu 25 3.2 Phương pháp 26 3.2.1 Mô hình hỗn hợp tần số xuất l-mer 26 3.2.2 Mô hình thu giảm 27 3.2.3 Ước lượng tham số mô hình đề xuất 29 3.2.4 Ước lượng số cụm sử dụng BIC 32 3.2.5 Thuật toán MetaAB 33 3.2.6 Phương pháp đếm l-mer với độ dài thay đổi 36 3.2.7 Độ phức tạp giải thuật 38 3.3 Kết thực nghiệm 38 3.3.1 Dữ liệu thực nghiệm 39 3.3.2 Kết tập liệu lỗi giải mã 39 3.3.3 Kết tập liệu có lỗi giải mã trình tự 43 3.3.4 Sự ảnh hưởng tham số 44 3.4 Kết luận 46 CHƯƠNG CHỌN ĐẠI DIỆN CỦA MỘT TẬP TRÌNH TỰ DỰA TRÊN TÍNH CHẤT GỐI ĐẦU 47 4.1 Giới thiệu 47 4.2 Định nghĩa toán 48 4.2.1 Một số ký hiệu khái niệm 48 4.2.2 Tính chất tập đại diện 49 4.2.3 Định nghĩa toán tìm tập đại diện 49 4.3 Sự bảo toàn đặc trưng nhóm trình tự 50 4.3.1 Tính tương đồng 51 4.3.2 Tính hợp thành dựa tần số xuất l-mer 52 x 4.4 Kết luận 54 CHƯƠNG GIẢI PHÁP PHÂN LOẠI KHÔNG GIÁM SÁT SỬ DỤNG DẤU HIỆU HỆ GIEN 56 5.1 Giới thiệu 56 5.2 Phương pháp 57 5.2.1 Nền tảng phương pháp đề xuất 57 5.2.2 Thuật toán BiMeta 58 5.2.3 Độ phức tạp giải thuật 62 5.3 Kết thực nghiệm 62 5.3.1 Dữ liệu thực nghiệm 63 5.3.2 Kết thực nghiệm liệu giả lập 65 5.3.3 Kết thực nghiệm liệu thực tế 69 5.3.4 Sự ảnh hưởng tham số 70 5.3.5 Sự ảnh hưởng phương pháp tìm seed 71 5.4 Kết luận 73 CHƯƠNG GIẢI PHÁP PHÂN LOẠI BÁN GIÁM SÁT SỬ DỤNG ĐẶC TRƯNG KẾT HỢP 74 6.1 Giới thiệu 74 6.2 Phương pháp 75 6.2.1 Nền tảng phương pháp đề xuất 75 6.2.2 Thuật toán SeMeta 77 6.2.3 Độ phức tạp giải thuật 83 6.2.4 Cơ sở liệu tham khảo 84 6.2.5 Phương pháp đánh giá chất lượng phân loại 84 6.3 Kết thực nghiệm 85 6.3.1 Dữ liệu thực nghiệm 86 6.3.2 Kết thực nghiệm liệu giả lập 86 6.3.3 Kết thực nghiệm liệu thực tế 94 6.3.4 Sự ảnh hưởng tham số 97 6.3.5 Sự ảnh hưởng việc sử dụng đại diện cụm 104 xi 6.4 Thảo luận 105 6.5 Kết luận 106 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 108 7.1 Kết luận 108 7.2 Hướng phát triển 109 DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 111 TÀI LIỆU THAM KHẢO 121 PHỤ LỤC 122 xii DANH MỤC CÁC HÌNH ẢNH 1.1 Quy trình xử lý dự án lĩnh vực metagenomics 1.2 Minh họa mục tiêu toán phân loại trình tự metageonmic 2.1 Ví dụ phân tử DNA (Nguồn: The U.S National Library of Medicine) 2.2 Kỹ thuật giải mã trình tự đoạn ngắn Đoạn gạch thể thông tin gối đầu trình tự 10 2.3 Tỉ lệ trung bình l chia sẻ hệ gien 13 2.4 Ví dụ phong phú hệ gien 14 2.5 Các hướng tiếp cận toán phân loại trình tự metagenomics 21 3.1 Phân bố l-mer việc sử dụng ngưỡng countmin , nummin để loại bỏ l-mer không tin cậy 35 3.2 Ví dụ lặp lại l-mer có độ dài khác tập liệu metagenomics.37 3.3 Sử dụng l-mer có độ dài thay đổi để đếm số lần xuất chúng tập liệu metagenomics 39 3.4 F-measure AbundanceBin, MetaAB, MetaAB-adv cho tập liệu thử nghiệm Biểu đồ bên trái thể cho tập trình tự từ S1 đến S7 Biểu đồ bên phải thể cho tập trình tự từ T1 đến T7 43 3.5 F-measure trung bình MetaAB tập liệu từ S1 đến S5, với giá trị nummin khác 44 3.6 F-measure trung bình MetaAB tập liệu từ T1 đến T5, với giá trị countmin khác 45 3.7 F-measure trung bình MetaAB MetaAB-adv tâp liệu từ S1 đến S5 theo giá trị độ dài l-mer khác 46 xiii 4.1 Một nhóm bao gồm 17 trình tự thuộc hệ gien Một đại diện nhóm gồm trình tự không gối đầu 50 4.2 Đồ thị mô tập trình tự DNA thuộc hệ gien thực Tập đỉnh đại diện (màu đen đậm) bao gồm đỉnh không kề 51 4.3 Tần số xuất 4-mer nhóm chứa trình tự không gối đầu lấy mẫu từ hệ gien hai loài: Bacillus thuringiensis (BT-group1, BT-group2) and Alicycliphilus denitrificans (AD-group1, AD-group2) 55 5.1 Quá trình phân loại BiMeta 58 5.2 Hiệu MetaCluster 5.0, AbundanceBin BiMeta tập liệu từ S1 đến S10 66 5.3 Hiệu MetaCluster 5.0, BiMeta, AbundanceBin MetaAB tập liệu từ L1 đến L6 67 5.4 Hiệu MetaCluster 2.0 BiMeta tập liệu từ R1 đến R9 69 5.5 Độ xác trung bình việc gom nhóm trình tự pha 1, F-measure trung bình BiMeta với giá trị m khác 70 5.6 F-measure trung bình BiMeta với giá trị l khác Đồ thị bên trái thể kết tập trình tự từ S1 đến S5 Đồ thị bên phải thể kết tập trình tự R1 đến R5 71 5.7 Kết thực nghiệm cho trường hợp tìm seed khác BiMeta 73 6.1 Ví dụ kết gióng hàng trình tự đại diện cụm với sở liệu tham khảo 76 6.2 Chất lượng phân loại BiMeta trường hợp loại bỏ nhóm nhỏ với kích thước q khác 78 6.3 Quá trình thực SeMeta 79 6.4 Minh họa trình tìm đơn vị phân loại chung thấp 81 6.5 F-measure MEGAN, SOrt-ITEMS, SeMeta tập liệu giả lập cho trường hợp Loài biết Lược đồ cho tập liệu ds1, lược đồ cho tập liệu ds2, lược đồ cho tập liệu ds3 89 xiv 6.6 F-measure MEGAN, SOrt-ITEMS, SeMeta tập liệu giả lập cho trường hợp Loài chưa biết Lược đồ cho tập liệu ds1, lược đồ cho tập liệu ds2, lược đồ cho tập liệu ds3 92 6.7 Độ nhạy độ xác MEGAN, SOrt-ITEMS, SeMeta khía cạnh gán nhãn xác bậc phân loại thấp thể tập liệu giả lập 93 6.8 Số lượng truy vấn BLAST MEGAN/SOrt-ITEMS, SeMeta cho tập liệu giả lập 94 6.9 Kết thực thi SeMeta tập liệu thực AMD 95 6.10 Độ nhạy (A) độ xác (A) SeMeta với giá trị min-score smin khác cho trường hợp Loài biết, tập liệu ds2 99 6.11 Độ nhạy (A) độ xác (A) SeMeta với giá trị min-score smin khác cho trường hợp Loài chưa biết, tập liệu ds2 99 6.12 Độ nhạy (A) độ xác (A) SeMeta với giá trị top-percent ptop khác cho trường hợp Loài biết, tập liệu ds2 99 6.13 Độ nhạy (A) độ xác (A) SeMeta với giá trị top-percent ptop khác cho trường hợp Loài chưa biết, tập liệu ds2 100 6.14 Độ nhạy (A) độ xác (A) SeMeta với giá trị max-occur omax khác cho trường hợp Loài biết, tập liệu ds2 100 6.15 Độ nhạy (A) độ xác (A) SeMeta với giá trị max-occur omax khác cho trường hợp Loài chưa biết, tập liệu ds2 100 6.16 Độ nhạy (B) độ xác (B) SeMeta với giá trị khác min-score smin cho trường hợp Loài chưa biết, tập liệu ds2 101 6.17 Độ nhạy (B) độ xác (B) SeMeta với giá trị khác top-percent ptop cho trường hợp Loài chưa biết, tập liệu ds2 101 6.18 Độ nhạy (B) độ xác (B) SeMeta với giá trị khác max-occur omax cho trường hợp Loài chưa biết, tập liệu ds2 102 6.19 Sự ảnh hưởng độ dài l-mer lên hiệu SeMeta, trường hợp Loài biết 103 6.20 Sự ảnh hưởng độ dài l-mer lên hiệu SeMeta, trường hợp Loài chưa biết 103 6.21 Sự ảnh hưởng số cụm dự đoán lên chất lượng SeMeta 104 xv 6.22 Độ nhạy (A) độ xác (A) SeMeta phiên không sử dụng đại diện cụm tập liệu ds2, cho trường hợp Loài biết 105 6.23 Hiệu SeMeta phiên không sử dụng đại diện cụm tập liệu ds2, cho trường hợp Loài chưa biết 105 Kết thực nghiệm khoảng cách trung bình cặp hệ gien nhóm 132 xvi DANH MỤC BẢNG BIỂU 3.1 Ví dụ số lần xuất 4-mer tập liệu 28 3.2 Độ xác độ nhạy AbundanceBin, MetaAB MetaAB-adv tập liệu từ S1 đến S7 41 3.3 Độ xác độ nhạy AbundanceBin, MetaAB, MetaAB-adv tập liệu từ T1 đến T7 42 5.1 Tập liệu chứa trình tự dạng Roche 454 63 5.2 Tập liệu chứa trình tự dạng Illumina 64 5.3 F-measure MetaCluster 5.0, AbundanceBin BiMeta tập liệu từ S1 đến S10 66 5.4 Thời gian tính toán MetaCluster 5.0, AbundanceBin, MetaAB, BiMeta tập liệu từ L1 đến L6 68 5.5 Giá trị F-measure MetaCluster 2.0 BiMeta tập liệu từ R1 đến R9 69 6.1 Hiệu MEGAN, SOrt-ITEMS SeMeta tập liệu giả lập bậc phân loại - Trường hợp Loài biết 87 6.2 Hiệu MEGAN, SOrt-ITEMS SeMeta tập liệu giải lập bậc phân loại - Trường hợp Loài chưa biết 90 6.3 Thời gian chạy MEGAN, SOrt-ITEMS, SeMeta tập liệu ds2 93 6.4 Danh sách loài phổ biến tập MH0051 liệu thực HGM phát SeMeta 96 6.5 Danh sách chi (genus) phổ biến tập MH0051 liệu thực HGM phát SeMeta 97 xvii Tập liệu thực nghiệm cho MetaAB 122 Khoảng cách Euclide cặp hệ gien - mức chi (genus) 123 Khoảng cách Euclide cặp hệ gien - mức họ (family) 127 Khoảng cách Euclide cặp hệ gien - mức loài (species) 130 Tập liệu thực nghiệm cho BiMeta - Tập trình tự dài 133 Tập liệu thực nghiệm cho BiMeta - tập trình tự ngắn 133 Tập liệu ds1 137 Tập liệu ds2 138 Tập liệu ds3 139 xviii 22 Fervidicoccus fontis Kam940 0.00723474 Ferrimonas balearica DSM 9799 23 Fervidobacterium nodosum Rt17-B1 0.000971573 Fervidobacterium pennivorans DSM 9078 24 Frankia alni ACN14a 0.000624341 Frankia symbiont of Datisca glomerata 25 Flavobacterium branchiophilum FL-15 0.0025518 Flavobacterium columnare ATCC 49512 26 Flavobacterium columnare ATCC 49512 0.000794538 Flavobacterium indicum GPTSA100-9 27 Flavobacterium psychrophilum JIP02/86 0.000579774 Flavobacterium indicum GPTSA100-9 28 Francisella cf novicida Fx1 0.00122829 Francisella noatunensis subsp orientalis str Toba 04 29 Francisella noatunensis subsp orientalis str Toba 04 0.000463824 Francisella philomiragia subsp philomiragia ATCC 25017 30 Francisella philomiragia subsp philomiragia ATCC 25017 0.000382518 Francisella cf novicida Fx1 31 Gallibacterium anatis UMN179 0.00510855 Gallionella capsiferriformans ES-2 32 Geobacillus kaustophilus HTA426 0.000392288 Geobacillus sp C56-T3 33 Geobacillus sp C56-T3 0.000328194 Geobacillus thermodenitrificans NG80-2 34 Geobacillus thermodenitrificans NG80-2 0.000816751 Geobacillus thermoglucosidasius C56-YS93 35 Geobacillus thermoglucosidasius C56-YS93 0.00184899 Geobacillus thermoleovorans CCB-US3-UF5 36 Geobacter lovleyi SZ 0.00580897 Geobacter metallireducens GS-15 125 37 Geobacter metallireducens GS-15 0.00213207 Geobacter sp FRC-32 38 Geobacter sp FRC-32 0.00307431 Geobacter sulfurreducens KN400 39 Haemophilus influenzae Rd KW20 0.000582075 Haemophilus parainfluenzae T3T1 40 Haemophilus parainfluenzae T3T1 0.000464351 Haemophilus parasuis SH0165 41 Rhodobacter capsulatus SB 1003 0.00100538 Rhodobacter sphaeroides 2.4.1 42 Rickettsia heilongjiangensis 054 0.000362156 Rickettsia massiliae MTU5 43 Rickettsia peacockii str Rustic 0.00116132 Rickettsia prowazekii Rp22 44 45 Roseiflexus castenholzii DSM 13941 Roseiflexus sp RS-1 Roseobacter denitrificans OCh 114 0.000437446 0.000435788 Roseobacter litoralis Och 149 46 Ruegeria pomeroyi DSS-3 0.000974478 Ruegeria sp TM1040 47 Salinispora arenicola CNS-205 0.000597411 Salinispora tropica CNB-440 48 Shewanella amazonensis SB2B 0.00118549 Shewanella baltica BA175 49 Sinorhizobium medicae WSM419 0.000465572 Sinorhizobium meliloti 1021 50 Streptococcus suis ST3 0.000983104 Streptococcus thermophilus ND03 Khoảng cách trung bình 126 0.001418848 Bảng 3: Khoảng cách Euclide cặp hệ gien - mức họ (family) Cặp Tên loài/chủng Khoảng cách Euclide Acidiphilium cryptum JF-5 0.00116041 Azospirillum lipoferum 4B Acidiphilium cryptum JF-5 0.00128279 Azospirillum sp B510 Acidiphilium cryptum JF-5 0.000960068 Rhodospirillum centenum SW Acidiphilium cryptum JF-5 0.0056813 Rhodospirillum photometricum DSM 122 Acidiphilium cryptum JF-5 0.000900461 Rhodospirillum rubrum F11 Acidiphilium multivorum AIU301 0.00119024 Azospirillum lipoferum 4B Acidiphilium multivorum AIU301 0.00130401 Azospirillum sp B510 Acidiphilium multivorum AIU301 0.000981188 Rhodospirillum centenum SW Acidiphilium multivorum AIU301 0.00566501 Rhodospirillum photometricum DSM 122 10 Acidiphilium multivorum AIU301 0.000905204 Rhodospirillum rubrum F11 11 Gluconobacter oxydans 621H 0.00272485 Magnetospirillum magneticum AMB-1 12 Gluconobacter oxydans 621H 0.00244248 Azospirillum lipoferum 4B 13 Gluconobacter oxydans 621H 0.00428762 Azospirillum sp B510 14 Gluconobacter oxydans 621H 0.00195362 127 Rhodospirillum centenum SW 15 Gluconobacter oxydans 621H 0.00187092 Rhodospirillum photometricum DSM 122 16 Gluconacetobacter xylinus NBRC 3288 0.00160728 Magnetospirillum magneticum AMB-1 17 Gluconacetobacter xylinus NBRC 3288 0.00187295 Azospirillum lipoferum 4B 18 Gluconacetobacter xylinus NBRC 3288 0.00267678 Azospirillum sp B510 19 Gluconacetobacter xylinus NBRC 3288 0.00176704 Rhodospirillum centenum SW 20 Gluconacetobacter xylinus NBRC 3288 0.00364943 Rhodospirillum photometricum DSM 122 21 Helicobacter pylori v225d 0.001695 Campylobacter concisus 13826 22 Helicobacter pylori v225d 0.00288986 Campylobacter curvus 525.92 23 Helicobacter pylori v225d 0.00233894 Campylobacter fetus subsp fetus 82-40 24 Helicobacter pylori v225d 0.0029078 Campylobacter hominis ATCC BAA-381 25 Helicobacter pylori v225d 0.0023106 Campylobacter jejuni RM1221 26 Helicobacter acinonychis str Sheeba 0.00260565 Campylobacter concisus 13826 27 Helicobacter acinonychis str Sheeba 0.00512735 Campylobacter curvus 525.92 28 Helicobacter acinonychis str Sheeba 0.00218291 Campylobacter fetus subsp fetus 82-40 29 Helicobacter acinonychis str Sheeba Campylobacter hominis ATCC BAA-381 128 0.00160544 30 Helicobacter acinonychis str Sheeba 0.00138367 Campylobacter jejuni RM1221 31 Mycobacterium tuberculosis CCDC5079 0.00121954 Corynebacterium aurimucosum ATCC 700975 32 Mycobacterium tuberculosis CCDC5079 0.0022096 Corynebacterium diphtheriae 241 33 Mycobacterium tuberculosis CCDC5079 0.00194272 Corynebacterium efficiens YS-314 34 Mycobacterium tuberculosis CCDC5079 0.00305287 Corynebacterium glutamicum ATCC 13032 35 Mycobacterium tuberculosis CCDC5079 0.00130545 Corynebacterium jeikeium K411 36 Mycobacterium ulcerans Agy99 0.00130113 Corynebacterium aurimucosum ATCC 700975 37 Mycobacterium ulcerans Agy99 0.00275419 Corynebacterium diphtheriae 241 38 Mycobacterium ulcerans Agy99 0.00188054 Corynebacterium efficiens YS-314 39 Mycobacterium ulcerans Agy99 0.0038878 Corynebacterium glutamicum ATCC 13032 40 Mycobacterium ulcerans Agy99 0.00160739 Corynebacterium jeikeium K411 41 Rhodococcus erythropolis PR4 0.00144254 Mycobacterium abscessus 42 Rhodococcus erythropolis PR4 0.00175072 Mycobacterium africanum GM041182 43 Rhodococcus erythropolis PR4 0.00245791 Mycobacterium avium 104 44 Rhodococcus erythropolis PR4 0.00177895 Mycobacterium bovis AF2122/97 129 45 Rhodococcus erythropolis PR4 0.00178442 Mycobacterium canettii CIPT 140010059 46 Rhodococcus jostii RHA1 0.000571187 Mycobacterium chubuense NBB4 47 Rhodococcus jostii RHA1 0.0033827 Clavibacter michiganensis subsp michiganensis NCPPB 382 48 Rhodococcus jostii RHA1 0.00266907 Clavibacter michiganensis subsp sepedonicus 49 Rhodococcus jostii RHA1 0.00144297 Microbacterium testaceum StLB037 50 Rhodococcus jostii RHA1 0.000791016 Mycobacterium avium 104 Khoảng cách trung bình 0.002183272 Bảng 4: Khoảng cách Euclide cặp hệ gien - mức loài (species) Cặp Tên loài/chủng Khoảng cách Euclide Arthrobacter aurescens TC1 0.000402109 Acidithiobacillus caldus SM-1 0.000338735 Acinetobacter baumannii TCDC-AB0715 0.000427445 Acinetobacter oleivorans DR1 0.000481165 Acinetobacter calcoaceticus PHEA-2 0.00504832 Actinobacillus pleuropneumoniae serovar str JL03 0.000593606 Clostridium tetani E88 0.00178746 Corynebacterium aurimucosum ATCC 700975 0.000361758 Clostridium acetobutylicum ATCC 824 0.000435955 10 Clostridium beijerinckii NCIMB 8052 0.00101003 11 Clostridium botulinum H04402 065 0.00199109 12 Clostridium clariflavum DSM 19732 0.000659139 130 13 Clostridium difficile 2007855 0.00209873 14 Clostridium kluyveri DSM 555 0.000273998 15 Ehrlichia canis str Jake 0.000517377 16 Ehrlichia chaffeensis str Arkansas 0.000276004 17 Enterobacter aerogenes KCTC 2190 0.000913663 18 Enterobacter cloacae EcWSU1 0.000610972 19 Leuconostoc kimchii IMSNU 11154 0.000384086 20 Lactobacillus amylovorus GRL 1112 0.00159008 21 Ferrimonas balearica DSM 9799 0.000662443 22 Fervidicoccus fontis Kam940 0.000835274 23 Fervidobacterium nodosum Rt17-B1 0.000359662 24 Frankia alni ACN14a 0.000511451 25 Flavobacterium branchiophilum FL-15 0.000794795 26 Flavobacterium columnare ATCC 49512 0.00115145 27 Flavobacterium psychrophilum JIP02/86 0.00162949 28 Francisella cf novicida Fx1 0.00122074 29 Francisella noatunensis subsp orientalis str Toba 04 0.000642839 30 Francisella philomiragia subsp philomiragia ATCC 25017 0.000303487 31 Gallibacterium anatis UMN179 0.000345561 32 Geobacillus kaustophilus HTA426 0.000390449 33 Geobacillus sp C56-T3 0.000305441 34 Geobacillus thermodenitrificans NG80-2 0.000368147 35 Geobacillus thermoglucosidasius C56-YS93 0.000243957 36 Geobacter lovleyi SZ 0.000368481 37 Geobacter metallireducens GS-15 0.000602051 38 Geobacter sp FRC-32 0.000710776 39 Haemophilus influenzae Rd KW20 0.000343967 40 Haemophilus parainfluenzae T3T1 0.0004172 41 Rhodobacter capsulatus SB 1003 0.00043359 42 Rickettsia heilongjiangensis 054 0.00044147 131 43 Rickettsia peacockii str Rustic 0.000313373 44 Roseiflexus castenholzii DSM 13941 0.0015777 45 Roseobacter denitrificans OCh 114 0.000430132 46 Ruegeria pomeroyi DSS-3 0.000256555 47 Salinispora arenicola CNS-205 0.000435634 48 Shewanella amazonensis SB2B 0.000405258 49 Sinorhizobium medicae WSM419 0.000490665 50 Streptococcus suis ST3 0.0014154 Khoảng cách trung bình Khoảng cách loài Khoảng cách Euclide trung bình Cùng loài 0.002183272 Khoảng cách họ 0.0024 0.0022 0.002 0.0018 0.0016 0.0014 0.0012 0.001 0.0008 0.0006 10 20 30 40 50 Số cặp hệ gien Hình 1: Kết thực nghiệm khoảng cách trung bình cặp hệ gien nhóm Có lượt tính toán thực theo giá trị tăng dần số cặp hệ gien nhóm Kết thể hình cho thấy, số cặp nhóm tính tăng, khác biệt khoảng cách trung bình cặp hệ gien nhóm rõ rệt, thể rõ dấu hiệu hệ gien khảo sát thực nghiệm Tập liệu thực nghiệm cho BiMeta 132 Bảng 5: Tập liệu thực nghiệm cho BiMeta - Tập trình tự dài Tập Tên loài/chủng Độ phong liệu R1 R2 R3 R4 R5 R6 R7 R8 R9 phú Bacillus halodurans C-125 Bacillus subtilis BSn5 Gluconobacter oxydans 621H Granulibacter bethesdensis CGDNIH1 Escherichia coli LF82 Yersinia pestis Z176003 Methanocaldococcus jannaschii DSM 2661 Methanococcus maripaludis C5 Pyrobaculum aerophilum str IM2 Thermofilum pendens Hrk Gluconobacter oxydans 621H Rhodospirillum rubrum F11 Gluconobacter oxydans 621H Granulibacter bethesdensis CGDNIH1 Nitrobacter hamburgensis X14 40 Escherichia coli UM146 Pseudomonas putida BIRD-1 Bacillus anthracis str H9401 40 Escherichia coli HS Pseudomonas putida F1 Thermofilum pendens Hrk 5 Pyrobaculum aerophilum str IM2 Bacillus anthracis str H9401 10 Bacillus subtilis BSn5 70 Bảng 6: Tập liệu thực nghiệm cho BiMeta - tập trình tự ngắn 133 Tập Tên loài/chủng Độ phong liệu S1 S2 S3 S4 S5 S6 S7 S8 phú Mycoplasma suis KI3806 10 Mycoplasma putrefaciens KS1 10 Lactobacillus salivarius UCC118 10 Lactobacillus sanfranciscensis TMW 1.1304 10 Lactobacillus salivarius UCC118 10 Bacillus selenitireducens MLS10 10 Borrelia burgdorferi JD1 10 Escherichia coli APEC O1 10 Lactobacillus salivarius UCC118 10 Lactobacillus sanfranciscensis TMW 1.1304 10 Aerococcus urinae ACS-120-V-Col10a 10 Borrelia burgdorferi JD1 30 Thermofilum pendens Hrk 20 Escherichia coli APEC O1 10 Actinobacillus pleuropneumoniae serovar 5b str L20 10 Aliivibrio salmonicida LFI1238 10 Haemophilus somnus 129PT 10 Pasteurella multocida 36950 40 Vibrio cholerae M66-2 40 Haemophilus somnus 129PT Pasteurella multocida 36950 Actinobacillus pleuropneumoniae serovar 5b str L20 Vibrio cholerae M66-2 Aliivibrio salmonicida LFI1238 11 Azospirillum sp B510 Bacillus amyloliquefaciens LL3 Bartonella clarridgeiae 73 Bifidobacterium animalis subsp lactis B420 Bordetella avium 197N 134 S10 Caldicellulosiruptor lactoaceticus 6A 10 Desulfovibrio vulgaris DP4 10 Ehrlichia canis str Jake 10 Geobacter sulfurreducens PCA 10 Haemophilus somnus 2336 10 Helicobacter cetorum MIT 00-7128 15 Lactobacillus amylovorus GRL1118 15 Mesotoga prima MesG1.Ag.4.2 15 Rickettsia akari str Hartford 15 Streptococcus thermophilus JIM 8232 15 Acidaminococcus intestini RyC-MR95 Acinetobacter baumannii ATCC 17978 Advenella kashmirensis WT001 Alicycliphilus denitrificans K601 Anaeromyxobacter sp Fw109-5 Bacillus amyloliquefaciens Y2 Bacteroides fragilis NCTC 9343 Bifidobacterium animalis subsp lactis AD011 Borrelia afzelii Pko Borrelia turicatae 91E135 Burkholderia ambifaria AMMD Caldicellulosiruptor owensensis OL Candidatus Amoebophilus asiaticus 5a2 Chelativorans sp BNC1 Clostridium cellulolyticum H10 Coxiella burnetii RSA 331 Dechlorosoma suillum PS Desulfitobacterium hafniense Y51 Edwardsiella ictaluri 93-146 Erwinia amylovora ATCC 49946 Escherichia coli DH1 135 L1 L2 L3 L4 L5 L6 Ferrimonas balearica DSM 9799 Finegoldia magna ATCC 29328 Fluviicola taffensis DSM 16823 Frankia sp CcI3 Gallibacterium anatis UMN179 10 Geobacillus sp C56-T3 10 Geobacter sp FRC-32 10 Gordonia polyisoprenivorans VH2 10 Haemophilus ducreyi 35000HP 10 Eubacterium eligens ATCC 27750 Lactobacillus amylovorus GRL1118 Eubacterium eligens ATCC 27750 Lactobacillus amylovorus GRL1118 14 Eubacterium eligens ATCC 27750 Lactobacillus amylovorus GRL1118 21 Eubacterium eligens ATCC 27750 Lactobacillus amylovorus GRL1118 28 Eubacterium eligens ATCC 27750 Lactobacillus amylovorus GRL1118 35 Eubacterium eligens ATCC 27750 Lactobacillus amylovorus GRL1118 42 136 Tập liệu thực nghiệm cho SeMeta Bảng 7: Tập liệu ds1 137 Stt Taxon ID Loài/Chủng Độ phủ Số trình tự 702459 Bifidobacterium bifidum PRL2010 138042 272559 Bacteroides fragilis NCTC 9343 325808 272563 Clostridium difficile 630 267894 226185 Enterococcus faecalis V583 201704 46170 Staphylococcus aureus subsp aureus USA300 FPR3757 179106 Tổng số trình tự 1112554 Bảng 8: Tập liệu ds2 138 Stt Taxon ID Loài/Chủng Độ phủ Số trình tự 203907 Candidatus Blochmannia floridanus 44128 243230 Deinococcus radiodurans R1 26208 355276 Leptospira borgpetersenii serovar Hardjo-bovis L550 19826 882944 Listonella anguillarum M3 61452 347257 Mycoplasma agalactiae PG2 54552 228908 Nanoarchaeum equitans Kin4-M 30564 222891 Neorickettsia sennetsu str Miyayama 53718 446468 Nocardiopsis dassonvillei subsp dassonvillei DSM 43111 48594 262768 Onion yellows phytoplasma OY-M 53162 10 246198 Prevotella intermedia 17 36470 Tổng số trình tự 428674 Bảng 9: Tập liệu ds3 139 Stt Taxon ID Loài/Chủng Độ phủ Số trình tự 416269 Actinobacillus pleuropneumoniae serovar 5b str L20 22666 295405 Bacteroides fragilis YCH46 105936 283166 Bartonella henselae str Houston-1 58030 568707 Bordetella bronchiseptica 253 211486 224326 Borrelia burgdorferi B31 44948 Buchnera aphidicola 26642 243160 Burkholderia mallei ATCC 23344 245760 498211 Cellvibrio japonicus Ueda107 365770 243161 Chlamydia muridarum Nigg 96928 10 264202 Chlamydophila felis Fe/C-56 10 117180 11 243365 Chromobacterium violaceum ATCC 12472 11 521158 12 777 Coxiella burnetii CbuGQ212 12 241798 13 138119 Desulfitobacterium hafniense Y51 13 745622 14 269484 Ehrlichia canis str Jake 14 184028 15 316385 Escherichia coli str K-12 substr DH10B 15 700742 Tổng số trình tự 3688694 [...]... phân chia trình tự vào các nhóm sao cho mỗi nhóm chứa trình tự thuộc hệ gien có độ phong phú tương tự nhau Thứ hai, thực hiện phân loại trình tự metagenomics trường hợp không tồn tại cơ sở dữ liệu tham khảo sao cho trình tự trong mỗi nhóm thuộc cùng loài hoặc có quan hệ sinh loài gần nhau Thứ ba, phân loại trình tự metagenomics trong trường hợp tồn tại cơ sở dữ liệu tham khảo Giải pháp phân loại này... (thuộc hệ gien g2 ) trên hình này Dựa trên tính chất này, chúng ta có thể phân loại các l-mer thành các cụm có độ phong phú khác nhau Từ đó, trình tự chứa các l-mer này cũng có thể được phân loại dựa trên kết quả của việc phân loại l-mer 2.1.4 Phân lớp và gom cụm dữ liệu 2.1.4.1 Phân lớp dữ liệu Phân lớp dữ liệu (classification) là quá trình nhằm sắp xếp các đối tượng dữ liệu vào các lớp (classes) đã... giải pháp chỉ dựa trên tính tương đồng, SPHINX [55] trước hết gom cụm trình tự trong cơ sở dữ liệu tham khảo, và tính khoảng cách giữa từng trình tự với phần tử trung tâm (centriod) của các cụm Giải pháp này sau đó chỉ cần thực hiện tìm kiếm tương đồng (bởi giải thuật BLAST) giữa trình tự cần phân loại với trình tự trong mỗi cụm, mà không cần thực hiện trên toàn bộ trình tự trong cơ sở dữ liệu tham khảo... trọng cần giải quyết là phân loại trình tự metagenomics (taxonomic binning) Bài toán này được phát biểu như sau (theo Thomas và cộng sự [9]): "Phân loại trình tự metagenomics là quá trình sắp xếp trình tự DNA vào các nhóm bao gồm các trình tự thuộc cùng hệ gien của một cá thể hoặc hệ gien của các vi sinh vật có quan hệ gần nhau" 2 Có thể định nghĩa bài toán phân loại trình tự metagenomics một cách tổng... metagenomics, bao gồm: • Đề xuất giải pháp MetaAB và MetaAB-adv cho phép phân loại trình tự metagenomics dựa trên sự phong phú của hệ gien trong tập dữ liệu 6 • Đề xuất giải pháp BiMeta cho phép phân loại trình tự metagenomics dựa trên đặc trưng hợp thành, không sử dụng cơ sở dữ liệu tham khảo • Đề xuất giải pháp SeMeta cho phép phân loại trình tự metagenomics có sử dụng cơ sở dữ liệu tham khảo 1.6 Nội dung luận... cụm mà thực tế thuộc về cùng một loài • Phân loại có giám sát (phân lớp) : Độ chính xác và độ nhạy của một giải pháp phân loại có giám sát có thể được tính như sau (theo [43, 44]): Độ chính xác = Độ nhạy = Số trình tự được phân loại đúng , Tổng số trình tự Số trình tự được phân loại đúng Tổng số trình tự được phân loại (2.5) (2.6) Hai độ đo độ chính xác và độ nhạy cần được xem xét cùng nhau Chỉ sử... tự ngắn mà không sử dụng cơ sở dữ liệu tham khảo MetaCluster 5.0, vốn là phiên bản mở rộng của MetaCluster 4.0 [36], thực hiện hai vòng phân loại Vòng một phân loại trình tự có độ phong phú cao Vòng hai phân loại trình tự có độ phong phú thấp Ở mỗi vòng, trình tự được gom nhóm thành từng contig ảo (một contig là một nhóm các trình tự nằm liên tiếp nhau và gối đầu nhau) Sau đó, các contig được gom cụm. .. pháp dựa trên tính hợp thành và giải pháp dựa trên sự phong phú của hệ gien 20 21 Hình 2.5: Các hướng tiếp cận chính của bài toán phân loại trình tự metagenomics 2.2.2.1 Phương pháp dựa trên tính hợp thành Nhóm giải pháp theo hướng tiếp cận này phân loại trình tự dựa trên dấu hiệu hệ gien được rút trích từ trình tự đang được xử lý LikelyBin [31] là một trong số giải pháp nhằm phân loại cho trình tự dài,... một cụm và các đối tượng có đặc tính khác nhau thuộc về các cụm khác nhau [40] Nhiều phương pháp gom cụm đã được đề xuất, và có thể phân chia các phương pháp này thành các nhóm như (theo [40]): gom cụm bằng phân hoạch (partition clustering), gom cụm bằng phân cấp (hierarchical clustering), gọm cụm dựa trên mật độ (density-based clustering), gom cụm dựa trên mô hình (model-based clustering), hay gom cụm. .. Hai loại trình tự khác nhau Trình tự dạng single-end chỉ chứa một đoạn các nucleotide ở một vùng trên hệ gien Trình tự dạng paired-end chứa hai đoạn các nucleotide ở hai vùng khác nhau trên hệ gien contig: Đoạn trình tự dài hay một nhóm các trình tự ngắn ở vị trí liên tiếp nhau trên hệ gien Đơn vị phân loại (taxon): Là một nhóm sinh vật có mối quan hệ sinh loài với nhau Đơn vị phân loại: Cá (ở bậc phân ... tính chất này, phân loại l-mer thành cụm có độ phong phú khác Từ đó, trình tự chứa l-mer phân loại dựa kết việc phân loại l-mer 2.1.4 Phân lớp gom cụm liệu 2.1.4.1 Phân lớp liệu Phân lớp liệu (classification)... [9]): "Phân loại trình tự metagenomics trình xếp trình tự DNA vào nhóm bao gồm trình tự thuộc hệ gien cá thể hệ gien vi sinh vật có quan hệ gần nhau" Có thể định nghĩa toán phân loại trình tự metagenomics. .. Số trình tự không phân loại (2.3) (2.4) Trong đó, độ nhạy thể tỉ lệ trình tự từ loài mà gán vào cụm, độ xác thể tỉ lệ trình tự gán vào cụm mà thực tế thuộc loài • Phân loại có giám sát (phân lớp) :

Ngày đăng: 11/01/2017, 12:11

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w