Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 51 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
51
Dung lượng
2,28 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ──────── * ─────── NGUYỄN HUY TÌNH DỰ ĐỐN KHÁNG KHÁNG SINH SỬ DỤNG HƢỚNG TIẾP CẬN DỰA TRÊN HỌC MÁY LUẬN VĂN THẠC SĨ HÀ NỘI 12 – 2020 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ──────── * ─────── NGUYỄN HUY TÌNH DỰ ĐỐN KHÁNG KHÁNG SINH SỬ DỤNG HƢỚNG TIẾP CẬN DỰA TRÊN HỌC MÁY NGÀNH : CÔNG NGHỆ THÔNG TIN CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ : 8480104.01 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐẶNG THANH HẢI HÀ NỘI 12 – 2020 LỜI CAM ĐOAN Với mục đích học tập, nghiên cứu để nâng cao kiến thức trình độ chun mơn nên tơi làm luận văn cách nghiêm túc hoàn tồn trung thực Trong luận văn tơi có sử dụng số tài liệu tham khảo số tác giả Tơi thích nêu phần tài liệu tham khảo cuối luận văn Tôi xin cam đoan chịu trách nhiệm nội dung trung thực luận văn tốt nghiệp Thạc sĩ Hà Nội, ngày 22 tháng 12 năm 2020 Nguyễn Huy Tình LỜI CẢM ƠN Lời xin ch n thành cảm n c c thầy cô gi o tr ờng Đại Học Công Nghệ - Đại học Quốc Gia Hà Nội đ c iệt c c thầy cô khoa Công Nghệ Thông Tin truyền đạt cho kiến thức, kinh nghiệm vô quý báu suốt thời gian qua Tôi xin gửi lời cảm n đến TS Đ ng Thanh Hải – giảng viên khoa Công Nghệ Thông tin – Tr ờng Đại học Cơng Nghệ tận tình giúp đỡ, trực tiếp bảo h ớng dẫn tận tình suốt trình làm luận văn Luận văn đ ợc thực khuôn khổ đề tài mã số 102.05-2016.14 đ ợc tài trợ Quỹ Phát triển khoa học công nghệ Quốc gia (NAFOSTED) Cuối xin đ ợc cảm n đến gia đình ạn è động viên đóng góp ý kiến giúp đỡ trình học tập, nghiên cứu hoàn thành luận văn Do thời gian, kiến thức kinh nghiệm tơi cịn hạn chế nên khóa luận khơng thể tránh khỏi sai sót Tơi hy vọng nhận đ ợc ý kiến nhận xét, góp ý thầy giáo bạn để đồ n đ ợc hồn h n Tơi xin chân thành cảm n! Hà Nội, ngày 22 tháng 12 năm 2020 Nguyễn Huy Tình MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU MỞ ĐẦU 10 CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 12 1.1 CÁC KHÁI NIỆM LIÊN QUAN ĐẾN GEN 12 1.1.1 Giới thiệu chung 12 1.1.2 Khái niệm thuốc kháng sinh 17 1.1.3 Sự đề kháng kháng sinh vi khuẩn 20 1.2 KHÁI NIỆM CƠ BẢN VỀ KHAI PHÁ DỮ LIỆU 24 1.2.1 Định nghĩa khai phá liệu 24 1.2.2 Học có giám sát 24 1.2.3 Khái niệm thuật tốn phân lớp học có giám sát 26 1.2.4 Bài toán phân lớp 26 1.2.5 Tổng quan số thuật toán phân lớp c ản 27 1.2.6 Đ nh giá mơ hình phân lớp 29 CHƯƠNG 2: DỰ ĐOÁN KHÁNG KHÁNG SINH 32 2.1 BỘ DỮ LIỆU GEN E.COLI 32 2.2 XÂY DỰNG BỘ GEN 36 2.2.1 Dự đo n gen mã hóa protein sử dụng phần mềm Prodigal 36 2.2.2 Phân cụm gen mã hóa protein sử dụng phần mềm CD-HIT, eggNOG 37 2.2.3 Đ nh dấu gen kháng kháng sinh sử dụng CARD 38 2.3 LẬP BẢNG DỮ LIỆU 41 CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT LUẬN 45 3.1 Mơ hình thực nghiệm 45 3.2 Thử nghiệm 45 3.2.1 Cấu hình phần cứng 45 3.2.2 Kết thực 45 3.3 Đ nh gi 48 3.3.1 Đ nh gi chung 48 3.3.2 So sánh với số ph ng ph p kh c 48 CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50 4.1 Kết luận 50 4.2 H ớng phát triển t ng lai 50 TÀI LIỆU THAM KHẢO 51 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu viết tắt Thuật ngữ đầy đủ DNA DeoxyriboNucleic Acid RNA ReboNucleic Acid SVM Support Vector Machine Thuận toán máy vector hỗ trợ RF Random Forest Thuật toán rừng ngẫu nhiên ADA Adaboost Thuật tốn Adaboost NB Nạve Bayes Thuật tốn Nạve Bayes PBP Penicillin-Binding Proteins Protein gắn penicillin Giải thích DANH MỤC HÌNH VẼ Hình 1-1: Các c p nhiễm sắc thể ng ời 12 Hình 1-2: Một đoạn gen vi khuẩn E.coli 13 Hình 1-3: Cấu trúc DNA 14 Hình 1-4: Cấu trúc amino acid 15 Hình 1-5: C chế đề kháng vi khuẩn 20 Hình 1-6: Thuận tốn SVM 27 Hình 1-7: Thuật toán Random Forest 28 Hình 1-8: Thuật tốn Adaboost 28 Hình 2-1: Web tải liệu gen E.coli 32 Hình 2-2: Đầu vào ứng dụng Prodigal 36 Hình 2-3: Đầu ứng dụng Prodigal: c c đoạn gen mã hóa protein 37 Hình 2-4: Đầu ứng dụng Prodigal: c c đoạn protein 37 Hình 2-5: Đầu phần mềm CD-HIT 38 Hình 2-6: Các gen có khả kh ng kh ng sinh 39 Hình 2-7: Các họ gen kháng kháng sinh 39 Hình 2-8: Các thuốc kháng sinh mà vi khuẩn kháng lại 40 Hình 2-9: Kĩ thuật kháng thuốc vi khuẩn 41 Hình 3-1: Đ nh gi độ xác theo giải thuật 47 Hình 3-2: Đ nh gi độ xác theo loại kháng sinh 47 DANH MỤC BẢNG BIỂU Bảng 1-1: Danh sách amino acid 16 Bảng 1-2: Chức c c loại protein c ản 17 Bảng 1-3: Bộ liệu huấn luyện 26 Bảng 1-4: Ma trận nhầm lẫn 29 Bảng 1-5: Ma trận chuẩn hóa 30 Bảng 2-1: Danh sách dòng E.coli 34 Bảng 2-2: Bảng đ nh dấu hoạt động E.coli 36 Bảng 2-3: Bộ gen accessory dùng để dự đo n 43 Bảng 2-4: Bảng t ng t c thuốc ampicillin 44 Bảng 3-1: Độ xác dự đo n (accuracy) 47 Bảng 3-2: Thời gian huấn luyện tài nguyên sử dụng 48 Bảng 3-3: So s nh độ xác (accuracy) với c c ph ng ph p kh c 49 MỞ ĐẦU Kháng sinh loại thuốc quan trọng giúp ngăn ngừa tiến triển bệnh lý gây vi khuẩn (nhiễm trùng), giảm triệu chứng biến chứng nghiêm trọng bệnh Tuy nhiên, việc lạm dụng mức khiến loại kh ng sinh sử dụng tr ớc đ y hiệu ho c khơng có hiệu việc điều trị nhiễm trùng vi khuẩn sau Đ y vấn đề nhức nhối tổ chức y tế giới Kháng thuốc kháng sinh (kháng kháng sinh) khả vi khuẩn ho c tác nhân gây bệnh dạng vi khuẩn kháng lại hiệu thuốc kh ng sinh Khi vi khuẩn thay đổi theo cách để làm giảm ho c loại bỏ hiệu thuốc, hóa chất ho c c c t c nh n kh c đ ợc dùng để chữa bệnh Bất kì vi khuẩn sống sót sau điều trị kh ng sinh nhân lên truyền c c đ c tính cho hệ sau Ngồi ra, số vi khuẩn chuyển c c đ c tính kháng thuốc chúng sang vi khuẩn kh c điều làm gia tăng số l ợng chủng loại vi khuẩn kháng thuốc kháng sinh ngày nhiều h n Tình trạng kháng kháng sinh ngày gia tăng nh ng nh n loại ch a tìm đ ợc loại kháng sinh hoàn toàn để thay thuốc dùng điều gây nhiều lo ngại cơng chăm sóc sức khỏe y tế cho cộng đồng Các hậu nhiễm trùng kháng thuốc bao gồm: Bệnh n ng h n thời gian phục hồi l u h n Bệnh t i t i lại th ờng xuyên Ph Tử vong thuốc hiệu điều trị ng ph p chi phí điều trị cao h n Theo nghiên cứu đ ợc cơng bố năm 2013 chi phí kinh tế kháng kháng sinh lên tới 55 tỷ USD bệnh nhiễm trùng thông th ờng tăng tỉ lệ tử vong từ 0% lên 30% Nếu khơng có hành động kịp thời vào năm 2050 số ng ời chết bệnh nhiễm khuẩn có liên quan đến đề kháng kháng sinh tăng lên tới 10 triệu ng ời/năm làm giảm ~3,5% GDP toàn cầu phát sinh tổng chi phí điều trị có liên quan đến đề kháng kháng sinh Cũng vào thời điểm với tổng sản l ợng kinh tế toàn cầu chiếm gần 100 nghìn tỷ USD nh ng giây có ng ời tử vong có liên quan đến đề kháng kháng sinh đầu ng ời gánh thêm khoản chi phí đến h n 10 nghìn USD 10 Hình 2-3: Đầu ứng dụng Prodigal: đoạn gen mã hóa protein Hình 2-4: Đầu ứng dụng Prodigal: đoạn protein Sau chạy hết toàn liệu gen tải về, có liệu gen mã hóa protein 2.2.2 Phân cụm gen mã hóa protein sử dụng phần mềm CD-HIT, eggNOG Do số l ợng cụm gen nhiều dẫn đến việc nghiên cứu, phân tích g p khó khăn việc xử lý liệu d thừa lãng phí tài nguyên Phần mềm CD-HIT (http://weizhongli-lab.org/cd-hit/) giúp loại bỏ liệu d thừa, phân cụm cụm gen thành cụm có độ t ng đồng cao (Gom chuỗi protein giống v ợt ng ỡng 95% thành cụm).[8] Đầu vào: c c gen mã hóa protein c c đoạn mã protein đ ợc dự đo n từ Prodigal Đầu ra: gen đ ợc phân cụm 37 Hình 2-5: Đầu phần mềm CD-HIT Tiếp tục, cụm gen đ ợc phân vào cụm: cụm gen core bao gồm gen có tất hệ gen vi khuẩn cụm gen accessory (gen phụ) nằm vài dòng vi khuẩn Việc xác lập đ ợc thực dựa vào sử dụng hệ c sở liệu trực giao eggNOG [9] 2.2.3 Đánh dấu gen kháng kháng sinh sử dụng CARD Sau phân cụm loại bỏ d thừa liệu, tiến hành phân tích đ nh dấu gen có liên quan đến hoạt động kháng kháng sinh thông qua công cụ CARD- Comprehensive Antibiotic Resistance Database (https://card.mcmaster.ca/) Sử dụng công cụ CARD [10], dựa vào chuỗi gen đ ợc phân tích để x c định đ ợc gen có khả kh ng kh ng sinh C c - ớc sử dụng công cụ CARD: Phân tích chuỗi gen/protein sử dụng tool RGI Ph n tích c c đầu RGI web: https://card.mcmaster.ca/analyze/rgi Web cho phép phân lập hiển thị thông tin gen kháng kháng sinh, họ thuốc kháng kháng sinh liên quan Một số hình ảnh ví dụ phân tích dịng vi khuẩn E.coli: 38 Hình 2-6: Các gen có khả kháng kháng sinh Một số gen kháng kháng sinh đ ợc liệt kê là: emrA emrR acrD yojI marA tet(A) … Hình 2-7: Các họ gen kháng kháng sinh 39 Các họ kháng kháng sinh bao gồm số loại c - ản nh sau: fluoroquinolone resistant gyrA antibiotic-resistant GlpT antibiotic-resistant ptsI phosphotransferase fluoroquinolone resistant parC antibiotic-resistant UhpT elfamycin resistant EF-Tu trimethoprim resistant dihydrofolate reductase dfr ampC-type beta-lactamase kdpDE Hình 2-8: Các thuốc kháng sinh mà vi khuẩn kháng lại Các họ thuốc kháng sinh: - carbapenem monobactam sulfonamide antibiotic cephamycin cephalosporin 40 - aminocoumarin antibiotic aminoglycoside antibiotic tetracycline antibiotic penam fluoroquinolone antibiotic macrolide antibiotic Hình 2-9: Kĩ thuật kháng thuốc vi khuẩn C c kĩ thuật kháng bao gồm: - antibiotic target replacement: thay đích đến thuốc antibiotic inactivation: ức chế hoạt động thuốc reduced permeability to antibiotic: giảm tính thẩm thấu thuốc antibiotic efflux: đẩy thuốc ng ợc khỏi tế bào 2.3 LẬP BẢNG DỮ LIỆU Với liệu thu thập đ ợc từ đầu ứng dụng nêu trên, đ c biệt liệu phân tích từ CARD Ta có đ ợc chuỗi c c gen đ c tr ng đại diện cho khả kháng kháng sinh từ tất dòng E.coli Từ liệu CARD ta thấy có 110 cụm gen có hoạt động kháng kháng sinh chiếm 0.7% tổng số cụm gen số có 41 63 gene thuộc gen accessory đ ợc xác lập để đ nh gi thuật toán[6] Từ gen này, ta lập đ ợc ma trận t ng t c cho loại kh ng sinh đ ợc xem xét luận văn Card Gens STT 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 PmrE PmrC MCR-1 MCR-3 mdtP GlpT mdtM Mrx floR tet(A) emrA PmrE CMY-2 EreA-2 mdtN APH(4)-Ia APH(6)-Id mphA AAC(3)Via KPC-3 CTX-M-14 CTX-M-55 OXA-1 SHV-160 TEM-1 AAC-Iia sul1 sul2 OXA-2 gadX OXA-9 APH(3)-Ia NDM-1 AAC(3)-Iib APH(3)-Ib sul3 aadA5 aadA 42 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 aadA2 AAC(3)-IV ErmB gadW kdpE catI catB3 AAC(6)Ib3 AAC(6)-Ib dfrA17 AAC(6)-Iic emrR mdtO SAT-1 dfrA8 dfrA12 dfrA14 dfrA5 dfrA15 tet(D) FosA3 emrE qacH vgaC Bảng 2-3: Bộ gen accessory dùng để dự đoán Mỗi loại vi khuẩn chứa vài gen kháng kháng sinh số 62 gen đ ợc xác lập nhờ phần mềm CARD Thêm vào t ng t c kháng sinh dòng vi khuẩn đ ợc làm rõ phần 2.1 Kết hợp liệu có đ ợc ma trận t ng t c cho loại kháng sinh công việc đ nh gi hiệu dự đo n với thuật toán phân lớp: SVM, Nạve Bayes, Random Forest, Adaboost Ví dụ minh họa với thuốc Ampicillin ta có bảng liệu t ng t c nh sau: PmrE PmrC … vgaC Label BIDMC 19C 0 … Y BIDMC 39 0 … Y BIDMC 38 0 … N BIDMC 37 BWH 32 BIDMC 0 0 … … 0 Y N Y BIDMC 1 N Genome … … 43 … … … … … BWH 40 0 … BWH 34 0 … BIDMC 79 0 … CHS 68 0 … Bảng 2-4: Bảng tƣơng tác thuốc ampicillin ch … Y Y Y Y Với bảng liệu nh việc thử nghiệm đ ợc tiến hành nh nội dung ng sau đ y 44 CHƢƠNG 3: THỰC NGHIỆM VÀ KẾT LUẬN 3.1 Mơ hình thực nghiệm Trong luận văn, sử dụng th viện Python scikit-learn (http://scikitlearn.org/) để viết mã giải thuật dự đo n Chỉ hai nhãn đ ợc đ nh giá Y cho vi khuẩn kháng kháng sinh N cho không kháng Thực kết hợp chéo giải thuật: SVM, Nạve Bayes, Adaboost, RandomForest với dịng kháng sinh: Ampicillin, Gentamicin, Ciprofloxaxin, Trimethoprin để dự đo n kh ng kh ng sinh cho vi khuẩn, ta có tất 16 kết hợp để chạy dự đo n Tại lần chạy, tập huấn luyện tập đ ợc lấy ngẫu nhiên 90% số l ợng dòng E.coli, 10% lại tập test Kết độ xác dự đo n (accuracy) đ ợc l u lại dùng cho việc đ nh gi sau Với kết hợp thuật tốn dịng kháng sinh, 1000 lần chạy đ ợc thực từ ta có 1000 kết độ xác dự đo n, cuối giá trị trung bình kết đ ợc dùng cho việc so sánh giải thuật với 3.2 Thử nghiệm 3.2.1 Cấu hình phần cứng Cấu hình Chỉ số CPU Intel(R) Core(TM) i3-4160 CPU @ 3.60GHz RAM 16 GB OS Windows 10 3.2.2 Kết thực Sau thực chạy thuật toán, kết thu đ ợc nh sau: Với hai nhãn: Y: có kháng, N: khơng kháng Minh họa kết giải thuật cho lần chạy ngẫu nhiên nh bảng d ới đ y - Kháng sinh ampicillin kết hợp sử dụng thuật toán SVM: Genome BIDMC 43b BIDMC 20B BIDMC 20A BIDMC 19B BIDMC 19A Nhãn thực tế N N N N N 45 Nhãn dự đo n N N N N N BIDMC 17B BIDMC 17A - Nhãn thực tế N N N Y Y Y N Nhãn dự đo n N N N Y N Y Y Độ xác (accurary): 5/7 = 71,4% Kháng sinh trimethoprim kết hợp sử dụng thuật toán Adaboost: Genome UCI 53 UCI 57 UCI 58 UCI 65 UCI 66 ICBEC7P AR0048 - Y N Độ xác (accurary): = 100% Kháng sinh gentamicin kết hợp sử dụng thuật tốn Nạve Bayes: Genome BIDMC 77 BIDMC 78 BIDMC 79 CHS 68 CHS 69 CHS 77 MGH 57 - Y N Nhãn thực tế N N N N N N Y Nhãn dự đo n N Y N N N N Y Độ xác (accurary): 6/7 = 85,7% Kháng sinh ciprofloxaxin kết hợp thuật toán Random Forest: Genome BIDMC BIDMC BIDMC 2B BWH 40 BWH 34 BIDMC 49a BIDMC Nhãn thực tế N N N N N N N Nhãn dự đo n N N N Y N N N Độ xác (accurary): 6/7 = 85,7% Sau chạy thuật toán 1000 lần cho c p kháng sinh thuật toán, tổng hợp kết dự đo n ta có đ ợc bảng giá trị nh sau (đ n vị % thể tỉ lệ dự đo n x c): 46 SVM NB ADA RF ampicillin 76% 56% 62% 71% gentamicin 79% 50% 62% 69% trimethoprin 54% 61% 65% 63% ciprofloxaxin 74% 65% 78% 86% Bảng 3-1: Độ xác dự đốn (accuracy) Hình 3-1: Đánh giá độ xác theo giải thuật Hình 3-2: Đánh giá độ xác theo loại kháng sinh 47 3.3 Đánh giá 3.3.1 Đánh giá chung Dựa vào kết thực nghiệm, số kết luật đ ợc rút nh sau: 3.3.1.1 Về hiệu dự đốn - Giải thuật SVM có hiệu dự đo n cao số giải thuật phù hợp cho toán dự đo n kh ng kh ng sinh Kháng sinh ciprofloxaxin có điểm dự đo n x c cao bốn loại kh ng sinh đ ợc sử dụng Việc thuật to n Nạve Bayes có độ xác dự đo n thấp cho thấy tập liệu đầu vào dạng phi tuyến tính 3.3.1.2 Về thời gian thực thi tài nguyên CPU/RAM Sau thống kê thời gian huấn luyện, tơi có bảng liệu thời gian nh sau: Giải thuật CPU (%) RAM (%) SVM Thời gian chạy (giây) 34,733 15 Naïve Bayes 35,06 14 4,9 Random Forest 2162,43 13 4,5 Adaboost 516,41 13 4,2 Bảng 3-2: Thời gian huấn luyện tài nguyên sử dụng Với kết tơi nhận thấy giải thuật SVM có thời gian huấn luyện nhanh 34,733 giây, giải thuật RandomForest có thời gian huấn luyện lâu 2162,43 giây Tổng CPU RAM tiêu tốn cho giải thuật gần t ng đ ng với sai lệch không đ ng kể chiếm tài nguyên hệ thống 3.3.2 So sánh với số phương pháp khác Để đ nh gi mức độ hiệu gen đ ợc xác lập luận văn thực so sánh kết dự đo n sử dụng gen khác - Một gen đ ợc đề xuất báo Tyson [11] - Hai gen đ ợc tạo từ phần mềm Scoary [16] Bảng so sánh hiệu sử dụng Gen khác với giải thuật SVM nh d ới đ y Thuốc 63 CARD Tyson 2015 Scoary 2016 Ampicillin 76% 86% 75% 48 Gentamicin 79% 83% 85% Trimethoprin 54% 82% 76% Ciprofloxaxin 74% 78% 73% Bảng 3-3: So sánh độ xác (accuracy) với phƣơng pháp khác Với kết trên, tơi thấy gen đ ợc xác lập từ luận văn có hiệu dự đo n kh tốt so với ph ng ph p lại 49 CHƢƠNG 4: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 4.1 Kết luận Vấn đề kháng kháng sinh thu hút đ ợc nhiều quan tâm nhà nghiên cứu ý nghĩa thực tiễn to lớn việc tối u hóa qu trình điều trị bệnh viện Các cách tiếp cận kh c đời đạt đ ợc thành công định Trong c ch tiếp cận dựa học máy đ ợc cộng đồng tin sinh học nghiên cứu quan tâm nhiều Trong luận văn tơi tìm hiểu đ ợc hệ gen dịng E.coli, cách biến đổi, xử lý thơng tin hệ gen từ trích chọn đ ợc bảng gen đ c tr ng sử dụng c c ph ng ph p ph n lớp để dự đo n ớc đầu thu đ ợc kết khả quan 4.2 Hƣớng phát triển tƣơng lai Để tiếp tục h ớng phát triển đề xuất số h ớng nh sau nhằm nâng cao độ xác dự đo n nh tính thực tiễn đề tài: - - Hiện luận văn tơi sử dụng 52 dịng vi khuẩn E.coli, số l ợng so với l ợng gen đ ợc khai phá hệ c sở liệu PATRIC hay NCBI T ng lai ta dùng nhiều dòng vi khuẩn h n để chạy thuật toán Sử dụng thuật toán di truyền để chọn tập gen tối u cho việc dự đo n Để tăng tính thực tiễn luận văn t ng lai kết hợp với trung tâm nghiên cứu vi sinh vật, bệnh viện nhiệt đới nhằm đ nh giá thêm mức độ hoạt động kháng kháng sinh dịng vi khuẩn phổ biến khác Từ n ng cao khả nhận diện vi khuẩn kháng thuốc bối cảnh tỉ lệ kháng thuốc ngày cao nh 50 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] GS.TSKH Hồ Tú Bảo “Giới thiệu Tin Sinh học” [2] GS.TS Nguyễn Văn C ch 2005 “Tin-Sinh học” NXB Khoa học Kỹ thuật Hà Nội [3] ThS DS Nguyễn Thị Thu a 2011 “C chế đề kháng kháng sinh số vi khuẩn gây bệnh kháng thuốc” [4] PGS.TS L ng Ngọc Khuê 2014 “B o c o triển khai kế hoạch Quốc gia phòng chống kháng thuốc” [5] PGS.TS Nguyễn Hà Nam, PGS.TS Hà Quang Thụy, PGS.TS Nguyễn Trí Thành 2013 “Gi o trình Khai Ph Dữ Liệu” NXB ĐHQGHN Tiếng Anh: [6] Wattam, A.R et al (2014) “PATRIC, the bacterial bioinformatics database and analysis resource” Nucleic Acids Res., 42, D581–D591 [7] Hyatt, D et al (2010) “Prodigal: prokaryotic gene recognition and translation initiation site identification” BMC Bioinformatics, 11, 119 [8] Fu, L et al (2012) “CD-HIT: accelerated for clustering the next-generation sequencing data” Bioinformatics, 28, 3150–3152 [9] Huerta-Cepas,J et al (2016) eggNOG 4.5: a hierarchical orthology framework with improved functional annotations for eukaryotic, prokaryotic and viral sequences Nucleic Acids Res., 44, D286–D293 [10] Jia,B et al (2017) CARD 2017: expansion and model-centric curation of the comprehensive antibiotic resistance database.Nucleic Acids Res., 45, D566–D573 [11] Brynildsrud, O et al (2016) “Rapid scoring of genes in microbial pan-genomeide association studies with Scoary” Genome Biol., 17, 238 [12] Tyson, G.H et al (2015) “WGS accurately predicts antimicrobial resistance in Escherichia coli” J Antimicrob Chemother., 70, 2763–2769 [13] https://en.wikipedia.org/wiki/Naive_Bayes_classifier 51 ... phổ kháng khuẩn kháng sinh tính thấm kháng sinh vào mô nhiễm khuẩn 1.1.3 Sự đề kháng kháng sinh vi khuẩn Đề kh ng kh ng sinh nghĩa c thể chống lại tác dụng kháng sinh Hiện t ợng kháng kháng sinh. ..ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ──────── * ─────── NGUYỄN HUY TÌNH DỰ ĐỐN KHÁNG KHÁNG SINH SỬ DỤNG HƢỚNG TIẾP CẬN DỰA TRÊN HỌC MÁY NGÀNH : CÔNG NGHỆ THÔNG... tài: ? ?Dự đo n kháng kháng sinh sử dụng h ớng tiếp cận dựa học m y” Luận văn có ố cục gồm ch ng chính: Chƣơng 1: C sở lý thuyết Ch ng giới thiệu tổng quan hệ gen, protein cấu trúc hệ gen sinh học