Trong phạm vi bài viết này, nhóm nghiên cứu giới thiệu và đánh giá những công cụ rất hữu ích phục vụ cho việc nghiên cứu dữ liệu Metagenomic trong hỗ trợ chẩn đoán bệnh cho con người.
TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT Tập 10, Số 2, 2020 117-144 ĐÁNH GIÁ CÁC CÔNG CỤ HỖ TRỢ CHẨN ĐOÁN BỆNH VỚI CÁCH TIẾP CẬN Y HỌC CÁ THỂ HÓA TRÊN DỮ LIỆU METAGENOMIC Phan Tấn Tàia, Tạ Đặng Vĩnh Phúca, Phan Nguyễn Minh Thảoa, Nguyễn Thị Ngọc Chăma, Đào Cơng Tínha, Phạm Huỳnh Ngọca, Nguyễn Thanh Hảia* Khoa Công nghệ Thông tin Truyền thông, Trường Đại học Cần Thơ, Cần Thơ, Việt Nam * Tác giả liên hệ: Email: nthai@cit.ctu.edu.vn a Lịch sử báo Nhận ngày 18 tháng 01 năm 2020 Chỉnh sửa lần 01 ngày 18 tháng năm 2020 | Chỉnh sửa lần 02 ngày 20 tháng năm 2020 Chấp nhận đăng ngày 22 tháng năm 2020 Tóm tắt Trong năm gần đây, liệu Metagenomic hay gọi liệu “hệ đa gen” sử dụng ngày nhiều cho nghiên cứu tiếp cận “Y học cá thể hóa” với mục tiêu cải thiện nâng cao tính hiệu việc chăm sóc bảo vệ sức khỏe người Nhiều nghiên cứu thực nghiệm phân tích liệu đề xuất nhiều phương pháp để cải thiện độ xác phân tích Việc ứng dụng cơng nghệ thơng tin để xử lý hỗ trợ phân tích liệu phục vụ cho Y học cá thể thiếu khối lượng công việc xử lý độ phức tạp lớn Với lợi ích đầy tiềm liệu Metagenomic chứng minh qua nhiều nghiên cứu Trong phạm vi báo này, nhóm nghiên cứu giới thiệu đánh giá cơng cụ hữu ích phục vụ cho việc nghiên cứu liệu Metagenomic hỗ trợ chẩn đoán bệnh cho người Từ nghiên cứu này, phát triển nghiên cứu mở rộng sâu để khám phá ảnh hưởng quan trọng hệ sinh thái vi sinh vật thể người ảnh hưởng đến sức khỏe từ đề xuất xu hướng chẩn đốn điều trị phù hợp để nâng cao cải thiện sức khỏe người Từ khóa: Chẩn đốn bệnh; Học sâu; Máy học; Metagenomic; Phân tích gene; Y học cá thể DOI: http://dx.doi.org/10.37569/DalatUniversity.10.2.646(2020) Loại báo: Bài báo nghiên cứu gốc có bình duyệt Bản quyền © 2020 (Các) Tác giả Cấp phép: Bài báo cấp phép theo CC BY-NC 4.0 117 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] EVALUATION OF ASSISTANCE TOOLS FOR DIAGNOSIS OF DISEASES BY APPROACHING TO PERSONALIZED MEDICINE ON METAGENOMIC DATA Phan Tan Taia, Ta Đang Vinh Phuca, Phan Nguyen Minh Thaoa, Nguyen Thi Ngoc Chama, Dao Cong Tinha, Pham Huynh Ngoca, Nguyen Thanh Haia* a The Faculty of Information Communication and Technology, Cantho University, Cantho, Vietnam * Corresponding author: Email: nthai@cit.ctu.edu.vn Article history Received: January 18th, 2020 Received in revised form (1st): March 18th, 2020 | Received in revised form (2nd): April 20th, 2020 Accepted: May 22nd, 2020 Abstract In recent years, Metagenomic data, or “multi-genome” data, has been increasingly used for research in “personalized medicine” approaches with the purpose of improving and enhancing effectiveness in human health care Many studies have experimentally analyzed this data and proposed many methods to improve the accuracy of the analysis Applying and integrating information technology to process and analyze Metagenomic data for personalized medicine approaches are necessary because of the enormous complexity of Metagenomic data The potential advantages of Metagenomic data have been proven through many studies Within the scope of this research, we introduce and evaluate useful tools for studying Metagenomic data in supporting the diagnosis of human disease and health conditions From these studies, we may develop extensive and in-depth studies from previous studies to explore the important effect of the microbial ecosystem that is a rich set of microbial features for prediction and biomarker discovery in the human body Moreover, there are trends diagnosis, appropriate treatments to improve and enhance human health Keywords: Deep Learning; Disease diagnosis; Gene Analysis; Machine Learning; Metagenomic; Personalized Medicine DOI: http://dx.doi.org/10.37569/DalatUniversity.10.2.646(2020) Article type: (peer-reviewed) Full-length research article Copyright © 2020 The author(s) Licensing: This article is licensed under a CC BY-NC 4.0 118 Phan Tấn Tài, Tạ Đặng Vĩnh Phúc, Phan Nguyễn Minh Thảo, Nguyễn Thị Ngọc Chăm, Đào Cơng Tính, Phạm Huỳnh Ngọc, Nguyễn Thanh Hải GIỚI THIỆU VỀ METAGENOMIC 1.1 Tầm quan trọng hướng nghiên cứu hỗ trợ chăm sóc sức khỏe người Metagenomic, hay gọi “Di truyền học sinh thái”, “Di truyền học môi trường”, thuật ngữ nghiên cứu hệ sinh thái đa gen mơi trường (Ví dụ, hệ sinh thái vi khuẩn nằm môi trường ruột người) Hiện nay, nguồn liệu đầy tiềm để ứng dụng việc hỗ trợ chăm sóc chẩn đoán ban đầu cho sức khỏe người Với việc phát triển nhanh chóng Cơng nghệ thơng tin, nhiều công cụ dựa tảng công nghệ ngày phổ biến phục vụ đắc lực cho việc phân tích liệu Ehrlich (2016) cho nguồn liệu hỗ trợ cho chẩn đốn bệnh, dự báo dị tìm rủi ro làm cho người mắc bệnh, theo dõi tiến độ điều trị bệnh Trong thời gian dài, y học thường áp dụng phương pháp điều trị cho bệnh Chúng ta thường bỏ qua yếu tố riêng đặc biệt người việc điều trị bệnh mà áp dụng phương pháp đại trà cho tất người bệnh Điều dẫn đến tốn phác đồ điều trị có phương pháp riêng lẻ, khơng thể bao phủ đạt độ hiệu cho tất trường hợp Với đời cơng nghệ giải trình tự DNA hỗ trợ lớn cho y học phát triển sang cách tiếp cận y tế mới, Y học cá thể hóa (Personalized Medicine) (The Academy of Medical Sciences, 2015; Dudley & Karczewski, 2014) Trong tiếp cận này, bệnh nhân phân tích DNA để phân tích đặc điểm riêng biệt có khả gây bệnh cho bệnh nhân từ đề xuất phương pháp điều trị phù hợp riêng biệt cho bệnh nhân Các nghiên cứu y học cho thấy có nhiều tác nhân hình thành nên loại bệnh, có chứng mạnh mẽ vi khuẩn ruột người đóng góp phần lớn nguyên nhân gây bệnh viêm ruột (IBD), tiểu đường loại II (Type diabetes), béo phì (Obesity), ung thư trực tràng (Colorectal Cancer), tự miễn dịch, thối hóa thần kinh mãn tính (Virgin & Todd, 2011) Thực chất số lượng vi sinh vật chủ yếu đại tràng, gần số lượng tế bào toàn thể có từ 10% đến 20% số vi khuẩn có đường ruột người giống với người khác (Rakel & Rakel, 2011) Vì thế, việc phân tích liệu Metagenomic để đưa phương pháp điều trị bệnh phù hợp cho bệnh nhân điều cấp thiết Với tiềm lợi ích lớn liệu vấn đề chăm sóc sức khỏe người nên có nhiều nghiên cứu thử nghiệm trình bày đề xuất phương pháp cơng cụ dựa việc ứng dụng Công nghệ thông tin để hỗ trợ việc phân tích liệu cho “Y học cá thể hóa” cách có hiệu Với phạm vi nghiên cứu thực hiện, đạt số kết quả: • Đánh giá công cụ nghiên cứu triển khai để hỗ trợ chẩn đoán bệnh dựa liệu Metagenomic Từ đánh giá này, dùng để phát triển mở rộng hướng nghiên cứu liệu hiểu tầm quan trọng ảnh hưởng liệu sức khỏe người Những đánh giá giúp phát triển mở rộng cải tiến cách tiếp cận, 119 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] phương pháp khác việc mở rộng phân tích sâu liệu đầy tiềm • Trình bày số phân tích kết số nghiên cứu khác số bệnh khác xơ gan, ung thư trực tràng, viêm ruột, béo phì, tiểu đường loại Trong nhiều kết nghiên cứu kết khả việc dùng liệu vi sinh vật thể người để chẩn đoán bệnh Dữ liệu Metagenomic bao gồm vi sinh ruột người dùng để nhận biết chế độ ăn kiêng, phân biệt loại ruột, loại bệnh viêm ruột Những nghiên cứu tiềm để nghiên cứu chế độ dinh dưỡng chế độ ăn vùng khác nhau, để từ kết hợp chẩn đoán, đưa phương án đặc thù cho điều trị Tuy nhiên số thử thách cho bệnh béo phì tiểu đường loại mà thời gian tới phát triển nâng cấp mơ hình có sẵn đề xuất mơ hình từ hướng có để cải thiện độ xác • Chúng ta phân nhóm cơng cụ hỗ trợ phân tích liệu Metagenomic theo phương pháp lựa chọn thuộc tính phương pháp giảm chiều Các phương pháp trình bày liệu để thích hợp cho mơ hình máy học phương pháp trình bày liệu dạng 1D, 2D (ảnh) • Chúng tơi giới thiệu công cụ máy học phân làm hai loại: Máy học cổ điển học sâu Như thấy Rừng ngẫu nhiên (Random Forest–RF) đạt hiệu suất cao nhiều dự đốn chí cao học sâu vài trường hợp Các thuật toán học sâu mạng nơ-ron tích chập đạt hiệu cao chuyển liệu từ dạng số (1D) sang ảnh • Chúng tơi chọn vài công cụ đại diện cách tiếp cận khác để thực dự đoán số bệnh bao gồm bệnh xơ gan, béo phì, tiểu đường loại Bệnh xơ gan tương đối dự đốn hiệu quả, nhiên cịn gặp nhiều khó khăn dự đốn béo phì tiểu đường loại Chúng ta đánh giá bệnh thử thách hấp dẫn cho nghiên cứu nâng cao hiệu dự đoán tương lai Phần trình bày nghiên cứu có cấu trúc sau Nội dung cịn lại Phần chúng tơi nói tiềm việc áp dụng trí tuệ nhân tạo y học Phần 2, chúng tơi đánh giá tìm hiểu nguồn liệu Metagenomic cho việc nghiên cứu chuyên sâu này, nguồn liệu đến từ kho liệu tạp chí có uy tín Phần phân tích cơng cụ có để hỗ trợ cho việc phân tích liệu Metagenomic Một số dùng giải thuật máy học cổ điển, ứng dụng giải thuật học sâu để hỗ trợ chẩn đoán Cuối cùng, chúng tơi tóm tắt lại điểm nghiên cứu phần “Kết luận” 120 Phan Tấn Tài, Tạ Đặng Vĩnh Phúc, Phan Nguyễn Minh Thảo, Nguyễn Thị Ngọc Chăm, Đào Cơng Tính, Phạm Huỳnh Ngọc, Nguyễn Thanh Hải 1.2 Trí tuệ nhân tạo Y học Ngày nay, Trí tuệ nhân tạo (Artificial Intelligence–AI) người đưa vào lĩnh vực đời sống Bởi vì, máy học nói riêng hay trí tuệ nhân tạo nói chung sử dụng thuật tốn, quy tắc, học sâu hỗ trợ người tính tốn đưa kết luận mà không cần đầu vào trực tiếp người Đặc biệt, nhu cầu chăm sóc sức khỏe người ngày trọng, nhà nghiên cứu cho AI mang lại tiềm áp dụng hầu hết lĩnh vực y học bao gồm đọc phân tích thơng tin hồ sơ y tế thực hoạt động chuyên ngành chẳng hạn quét CT giúp chuyên gia giảm lượng lớn công việc, nên họ cần tập trung vào trường hợp phức tạp mà robot chưa đủ linh hoạt để giải Bên cạnh đó, có nhiều ứng dụng AI phát triển nhanh chóng, hỗ trợ bác sĩ chẩn đoán lâm sàng xu hướng điều trị bệnh Y học xác (Precision Medicine) hay Y học cá thể hoá (Personalized Medicine) Tất thông tin y khoa tạo lượng liệu cực lớn, phân tích tích hợp cơng nghệ tiên tiến trí tuệ nhân tạo góp phần giải xử lý khai thác tốt lượng liệu khổng lồ Hơn nữa, với lồi vi khuẩn chiếm 50% gen giống tìm thấy hai người mơi trường hoạt động chúng khác Vì thế, quan trọng khơng xác định loại vi khuẩn mẫu định mà phải ý đến mơi trường di truyền dịng chúng Tuy nhiên, điều thách thức đáng kể với Big Data, đòi hỏi tiến phương pháp thống kê phần mềm để phân tích xác liệu khổng lồ Metagenomic Do chuỗi Metagenomic có độ chệch lớn lỗi phải khắc phục trước so sánh liệu xác tất mẫu Điều hạn chế hiểu biết mức độ tác động biến đổi vi sinh vật môi trường khác nhau, quan trọng microbiome người Vì thế, ứng dụng để đưa cơng nghệ AI vào giải vấn đề khó khăn cần thiết cho ngành y học tương lai ĐẶC ĐIỂM DỮ LIỆU METAGENOMIC CHO NGHIÊN CỨU Kho liệu Metagenomic đa dạng phải trải qua nhiều thành phần xử lý liệu Ehrlich (2016) mơ tả tiến trình xử lý liệu thể Hình 1, để có liệu cho phân tích, cần trải qua nhiều giai đoạn xử lý Ban đầu, liệu thu thập từ mẫu phân bệnh nhân Phần thu thập đưa qua q trình phân tích giải trình tự vật liệu di truyền (DNA) Từ đoạn DNA cần tham chiếu vào gen nhà nghiên cứu trước khám phá cơng bố để biết đoạn DNA phân tích thuộc lồi Sau trình tham chiếu bảng “Gene counts” (Bộ đếm gene) Bộ đếm gene có kết tham chiếu loài vi khuẩn biết Từ gene counts tính tốn tỷ lệ phân bố (abundance) thành phần vi khuẩn bệnh nhân cần phân tích Relative abundance độ đo đa dạng sinh học cho biết độ phổ biến hay độ loài so với loài khác 121 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUN SAN KHOA HỌC TỰ NHIÊN VÀ CƠNG NGHỆ] Hình Tiến trình “định lượng Metagenomic” ruột người Nguồn: Ehrlich (2016) MỘT SỐ PHƯƠNG PHÁP BIẾN ĐỔI DỮ LIỆU METAGENOMIC Bộ liệu Metagenomic mang nhiều tiềm để chẩn đoán bệnh dự đoán rủi ro mắc bệnh Tuy nhiên, liệu cịn “thơ sơ” để đưa vào mơ hình huấn luyện theo phương pháp máy học học sâu (sẽ trình bày Mục 4) thường đạt hiệu suất dự đốn thấp Vì việc biến đổi liệu quan trọng, với mục đích chung giảm nhớ sử dụng cho huấn luyện, giảm thiểu số thuộc tính nhiễu, tăng cường chọn “đặc trưng” để tạo nên mơ hình học thật hiệu 3.1 Lựa chọn thuộc tính Lựa chọn thuộc tính phương pháp giảm số lượng thuộc tính đầu vào trình tạo mơ hình dự đốn có hiệu giảm chi phí cho việc tính tốn, vấn đề bùng nổ nhớ tăng độ hiệu mơ hình tạo Các phương pháp lựa chọn thuộc tính thực chất nhắm vào việc chọn thuộc tính liên quan mật thiết đến kết đầu dựa vào việc thống kê Đối với liệu Metagenomic, liệu thường có số lượng thuộc tính đầu vào lớn cơng việc tạo mơ hình dự đốn có triển vọng phải dựa vào việc cắt giảm thuộc tính đầu vào này, giữ mối liên hệ thuộc tính với kết đầu Một số phương pháp áp dụng lên liệu này, tiêu biểu kể đến phương pháp lựa chọn tập theo lý thuyết thông tin (Subset selection based on information-theoretic) (Ditzler, Morrison, Lan, & Rosen, 2015) Một công thức trở thành thước đo lý thuyết thông tin áp dụng rộng rãi cho lựa chọn tập “đặc tính” với lọc (filters) thông tin hỗ tương, đưa công 122 Phan Tấn Tài, Tạ Đặng Vĩnh Phúc, Phan Nguyễn Minh Thảo, Nguyễn Thị Ngọc Chăm, Đào Công Tính, Phạm Huỳnh Ngọc, Nguyễn Thanh Hải thức đánh giá thông tin hỗ tương–mutal information (Công thức 1) (Ditzler, Morrison, & ctg., 2015) 𝐼(𝑋; 𝑌) = ∑𝑦∈𝑌 ∑𝑥∈𝑋 𝑃𝑥,𝑦 (𝑥, 𝑦) log 𝑃 𝑃𝑥,𝑦 (𝑥,𝑦) 𝑋 (𝑥)𝑃𝑌 (𝑦) (1) Trong đó, 𝑃𝑥 (𝑥) phân phối cận biên (marginal distribution) biến 𝑥 𝑃𝑥,𝑦 (𝑥, 𝑦) xác suất xảy đồng thời x y Mục đích sử dụng hàm đánh giá–scoring function–J đó, phụ thuộc vào I(X;Y), để xác định tập thuộc tính F (chứa 𝑥) trở thành “đặc trưng” hình thành kết Y Hệ là, số lượng 𝑥 thuộc X cắt giảm giữ độ hiệu việc dự đốn Y Ta triển khai ý tưởng sau: • Đầu vào: Tập liệu thơ X, tập kết Y tương ứng hàm đánh giá J đó, giá trị 𝑛 thể số thuộc tính “đặc trưng” cần chọn • Xử lý: Bước 1: Gán tập thuộc tính “đặc trưng” F = {}; Bước 2: Nếu |F| > 𝑛 (|F| số lượng phần tử F), đến bước 5, ngược lại thực bước tiếp theo; Bước 3: Chọn tập X* = arg max J (X, Y, F); Bước 4: X = X \ X*, F = F ∪ X*, quay lại Bước 2; Bước 5: Trả F • Đầu giải thuật F–tập liệu thuộc tính đặc trưng “gây nên” đầu Y Từ bước trên, ta thu đầu vào cho mơ hình với kích thước giảm theo ý muốn giữ đặc trưng quan trọng để huấn luyện mơ hình học máy học sâu Trong vài nghiên cứu khác, giải thuật mRMR (Min Redundancy Max Relevance, tạm dịch tối thiểu dư thừa hay tối đa liên quan), Lasso, Elastic Net, giải thuật duyệt chọn để giảm số lượng phần tử liệu đầu vào sử dụng (Cai, Wu, Li, Zhou, & Zou, 2015; Pasolli, Truong, Malik, Waldron, & Segata, 2016; Zou & Hastie, 2005) Ngoài ra, sử dụng phương pháp tối ưu thông tin chung–Conditional Mutual Information Maximization (CMIM), lọc nhanh dựa tương quan–Fast Correlation Based Filter (FCBF), tối thiểu dư thừa–mRMR phương pháp eXtreme Gradient Boosting (XGBoost) (Hicilar, Nalbantoglu, Aran, & Bakir-Gungor, 2020) CMIM xếp hạng thuộc tính theo số entropy thơng tin liên quan với lớp dự đốn; Sau chọn thuộc tính mang thơng tin bổ sung Tương tự, FCBF xếp hạng đặc trưng dựa tương hỗ thơng tin với lớp để dự đốn; Sau loại bỏ thuộc tính mà lượng thơng tin tương hỗ ngưỡng xác định trước mRMR chọn thuộc tính có mối tương quan với lớp dự đốn mối tương quan chúng với Trong việc chọn “thuộc tính” với XGBoost, thuộc tính 123 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] sử dụng để đưa định quan trọng với định (decision tree), thuộc tính mang tầm quan trọng tương đối cao Thông qua việc áp dụng ngưỡng xác định trước, người ta chọn xếp hạng thuộc tính sau áp dụng CMIM, FCBF, XGBoost, từ chọn thuộc tính cần thiết “đặc trưng” liệu 3.2 Trình bày liệu dạng 1D Dữ liệu Metagenomic gặp nhiều thách thức tồn liệu nhiễu, sai số thiết bị lúc lấy mẫu khối lượng liệu nhiễu cịn lớn (Lin, 2015) Tuy vậy, hồn tồn sử dụng phương pháp binning đưa dạng liệu chiều (One single Dimension, hay 1D) để cắt giảm lượng liệu nhiễu nhờ mơ hình học không giám sát, hứa hẹn tiết kiệm nhớ mà việc huấn luyện đạt hiệu định (Lin, 2015) Bài viết không mơ tả chi tiết tốn bên mà xem xét đề cập đến bước làm để từ liệu mã gen với số lượng khổng lồ, đưa liệu thu gọn 1D, giới thiệu mơ hình tự động tế bào 1D–One-Dimensional Cellular Automaton (Umeo, Kamikawa, Nishioka, & Akiguchi, 2009) Cellata automaton mơ hình rời rạc cho hệ thống động, giới thiệu dạng tốn với bảng hai chiều, với có mang số lượng trạng thái định, với lần lặp lan truyền sang “hàng xóm” với quy tắc (chính xác hàm tốn học) định trước sau số lần lặp định, bảng kết phản ánh mức độ ảnh hưởng lẫn liệu Nguyen & Zucker (2019) thực nghiên cứu khác, tác giả đề xuất cách để gom liệu dạng liên tục thành khoảng rời rạc (phương pháp binning) phương pháp chia khoảng để gom nhóm theo độ rộng liệu (Equal Width Binning), dựa theo tần số xuất khoảng (Equal Frequency binning), chia khoảng dựa vào phân bố liệu suy từ tập hợp sáu liệu phân tích kỹ lưỡng viết hai tác giả Sau đó, liệu dạng 1D đưa qua mơ hình mạng nơ-ron để thực phân lớp dự đoán Kết từ nghiên cứu viết cho thấy phương pháp đề xuất cải thiện hiệu suất chẩn đốn 3.3 Trình bày liệu dạng ảnh Với phát triển mạnh giải thuật học sâu ngày nay, thấy hiệu suất dự đốn, phân lớp mơ hình nhận dạng ảnh dựa vào học sâu vượt qua người (Dodge & Karam, 2017) Chính vậy, nhiều học giả, nhà nghiên cứu tập trung chuyển liệu Metagenomic ban đầu từ dạng số sang ảnh để tận dụng bước phát triển vượt bậc việc nhận dạng ảnh học sâu Các liệu với tập thuộc tính biểu diễn thành ảnh ảnh trở thành liệu đầu vào mạng nơ-ron tích chập hai chiều (CNN2D) Trong nghiên cứu đề xuất Deepmg framework ảnh dùng để huấn luyện mơ hình có kích thước độ rộng độ dài phụ thuộc vào số lượng thuộc tính cần biểu diễn ảnh (Nguyen, Prifti, Sokolovska, & Zucker, 2019) Ví dụ với 1000 thuộc tính, cần ảnh có kích thước 32x32 (số thuộc tính biểu diễn tối đa 1024) để chứa hết 124 Phan Tấn Tài, Tạ Đặng Vĩnh Phúc, Phan Nguyễn Minh Thảo, Nguyễn Thị Ngọc Chăm, Đào Cơng Tính, Phạm Huỳnh Ngọc, Nguyễn Thanh Hải tất 1000 thuộc tính Để áp dụng thuật toán học sâu, Nguyen ctg (2019) chuyển liệu từ số sang ảnh với bước: Bước 1: Biến đổi liệu “rời rạc hóa” (data transformation and discretization) đưa giá trị liên tục thành giá trị rời rạc Vì điểm ảnh để biểu diễn màu sử dụng giá trị rời rạc, trước biểu diễn thuộc tính lên ảnh cần phải chuyển sang dạng “rời rạc” Hiểu đơn giản, xét phần tử mẫu (sample), số thực, quy khoảng số thực giá trị “đặc trưng” cho khoảng Ví dụ khoảng giá trị [0, 1] chia thành khoảng nhỏ [0, 0.5] [0.5, 1], giá trị liên tục thuộc khoảng cho đại diện số rời rạc Nếu x thuộc [0, 0.5] biến đổi x = (thậm chí giá trị khác, ta tự quy định) Nếu x giá trị 0.1, 0.3, 0.49 chuyển đổi thành x = Giả sử x = 0.6 thuộc miền giá trị thứ 2: [0.5,1] chuyển x = Với giá trị ánh xạ màu tương ứng “bảng màu nhiệt–heatmap” (bảng biểu diễn nhiệt màu theo độ lớn liệu), từ tạo ảnh với số điểm ảnh với số thuộc tính Việc biến đổi liệu liên tục thành giá trị rời rạc, gọi “Rời rạc hóa” Để xác định khoảng trên, sử dụng nhiều phương pháp, kể đến: • Phương pháp chia thành khoảng (EQual Width binning–EQW), sử dụng tham số Min, Max k, tức chia k khoảng đoạn [Min, Max] • Phương pháp biến đổi dựa vào phân phối logarithm Biến đổi logarithm sử dụng rộng rãi nghiên cứu y sinh tâm lý xã hội để xử lý liệu có độ lệch cao, phương pháp sử dụng hiệu việc tiền xử lý liệu, đưa tình trạng phân bố liệu ngành Metagenomics mức cân (Hình 2) (a) (b) Hình Phân bố liệu sáu tập liệu thô tập liệu qua biến đổi theo hàm logarithm a) Phân bố liệu sáu tập liệu thô; b) Phân bố tập liệu qua biến đổi theo hàm logarithm Nguồn: Nguyen ctg (2019) 125 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] Bước 2: Sinh ảnh (dựa theo phương pháp “rải đều” (Fill-up) sử dụng thuật toán biểu diễn liệu đa nhiều tiếng visualized t-Distributed Stochastic Neighbor Embedding (t-SNE) chi tiết mô tả (Nguyen & ctg., 2019) CÁC CƠNG CỤ SẴN CĨ HIỆN TẠI CƠNG BỐ ĐỂ HỖ TRỢ NGHIÊN CỨU TRÊN BỘ DỮ LIỆU METAGENOMIC 4.1 Cơng cụ dựa vào máy học Hình Sơ đồ SVM Nguồn: Jiang, Wang, Xia, & Yu (2017) Công cụ dựa công cụ máy học cổ điển thường sử dụng giải thuật phổ biến SVM, RF, Lasso, ENet áp dụng rộng rãi nhiều lĩnh vực khác bao gồm sinh học tính tốn gen (Statnikov & ctg., 2013) Các trình phân loại thực cách sử dụng gói Scikit-learn (sklearn), ngơn ngữ Python (Pedregosa & ctg., 2011) Có hai phương pháp học máy cổ điển thường sử dụng để dự đốn bệnh 126 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CƠNG NGHỆ] diễn giải mơ hình Phương pháp đề xuất để cải thiện phương pháp máy học cổ điển eXtreme Gradient Boosting (XGBoost) tương tự RF, chỗ xây dựng nhóm định Sự khác biệt xây dựng để giảm lỗi trước Để dự đốn thành phần hệ vi sinh vật bệnh nhân dựa liệu trình tự, họ áp dụng số thuật toán học máy cổ điển tiếng SVM RF để dự đốn tình trạng bệnh bệnh nhân Những phương pháp thực tốt việc dự đoán số bệnh nhân xơ gan, ung thư đại trực tràng bệnh viêm ruột, so với người mắc bệnh tiểu đường loại béo phì Tuy nhiên, có nhiều cải tiến cách sử dụng phương pháp học máy khác áp dụng máy học vào loại liệu khác 16S rRNA Nhiều phương pháp số có liên quan đến việc sử dụng phương pháp học sâu sử dụng mạng lưới gọi nơ-ron thần kinh (lấy cảm hứng từ mạng thần kinh thực não) để tìm hiểu chức phức tạp ánh xạ liệu đầu vào, liệu tuần tự, đến giá trị đầu dự đốn tình trạng bệnh 4.2 Các nghiên cứu cho thấy khả dự đoán bệnh dựa vào liệu Metagenomic Việc đánh giá liệu Metagenomic dự đoán bệnh cách liên kết hệ vi sinh vật đường ruột người với biểu bệnh Qua sáu liệu liên quan đến năm bệnh gồm: xơ gan, ung thư đại trực tràng, bệnh viêm ruột (IBD), béo phì tiểu đường loại (Chatelier & ctg., 2013; Karlsson & ctg., 2013; Qin & ctg., 2010; Qin & ctg., 2012; Qin & ctg., 2014; & Zeller & ctg., 2014) SVM RF sử dụng nhiều nghiên cứu phương pháp tiên tiến phù hợp với loại liệu (Breiman, 2001; Cortes & Vapnik, 1995; & Statnikov & ctg., 2013) Hiệu suất dự đoán đánh giá với độ đo khu vực bên đường cong ROC (Area Under the Curve–AUC) Confidence Intervals (CI) khoảng tin cậy tính từ số liệu thống kê quan sát được, bao hàm giá trị thực tham số quần thể chưa biết, bao gồm tỷ lệ dương tính thật dương tính sai, âm tính thật âm tính sai AUC độ đo phổ biến để đánh giá hiệu mơ hình chẩn đốn Sử dụng phong phú lồi MetaPhlAn2 làm liệu đầu vào tạo độ xác cao để phân loại bệnh (Darling & Jospin, Lowe, Matsen, Bik, & Eisen, 2014) Mặc dù hiệu suất dự đoán thay đổi đáng kể liệu Kết chẩn đoán đạt cao thường xơ gan (AUC = 0.945, 95% CI: 0.909-0.981 cho phân lớp tốt nhất), tiếp đến ung thư đại tràng (AUC = 0.873, 95% CI: 0.802-0.944), IBD (AUC = 0.890, 95%, CI: 0.812-0.968) (Error! Reference source not found.) 130 Phan Tấn Tài, Tạ Đặng Vĩnh Phúc, Phan Nguyễn Minh Thảo, Nguyễn Thị Ngọc Chăm, Đào Cơng Tính, Phạm Huỳnh Ngọc, Nguyễn Thanh Hải Hình Phân tích kiểm chứng chéo Cross-validation để phân lớp dự đoán bệnh sáu liệu khác cho năm bệnh Dữ liệu tỷ lệ thành phần vi sinh vật loài vi khuẩn sử dụng làm đầu vào cho trình học chẩn đoán Ghi chú: a) Các kết dự đoán cho bệnh phân biệt bệnh nhân người khỏe mạnh Các lề lỗi báo cáo ngoặc đơn Những kết tốt liệu tô đậm b) Đường cong ROC trung bình với khoảng tin cậy biểu diễn kết dự đoán giải thuật rừng ngẫu nhiên (RF) máy vectơ hỗ trợ (SVM) Nguồn: Pasolli ctg (2016) 131 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] Đối với bệnh viêm ruột (IBD), xem xét số lượng ca bệnh liệu thấp so với điều khiển với quy tắc chung mười mẫu lớp bắt buộc mô hình dự đốn đáng tin cậy Quan sát thấy số thuộc tính vi khuẩn dành riêng cho bệnh Crohn loại bệnh viêm ruột (IBD) Viêm ruột bệnh Crohn gây liên quan đến khu vực khác đường tiêu hóa người khác (Gevers & ctg., 2014) Việc điều trị tích cực dẫn đến khả dự đốn đánh giá q cao có khả yếu tố gây nhiễu (Bajaj, Betrapally, & Gillevet, 2015; & Forslund & ctg., 2015) Đối với bệnh khác, nghiên cứu đạt kết thấp hơn, cho thấy thay đổi vi khuẩn kịch tính bệnh nhân Đối với bệnh tiểu đường loại 2, hai liệu xem xét lấy mẫu độc lập nhóm khác biệt mặt địa lý, thu giá trị AUC tương đồng cho hai (0.744, 95% CI: 0.688-0.800 and 0.762, 95% CI: 0.651-0.873 cho T2D WT2D) Dự đốn bệnh béo phì cho AUC thấp (0.655, 95% CI: 0.576-0.734) Mặc dù có nhiều hiệu suất phân loại, tất liệu điều tra cho thấy mức độ liên quan đáng kể bệnh hệ vi sinh vật microbiome với giá trị AUC cao đáng kể so với phân loại thu áp dụng cho liệu với nhãn lớp bị xáo trộn (p-value từ 9.9×10-3 cho bệnh béo phì đến 5.6×10-7 cho bệnh xơ gan) (Hình 6) Hình Kiểm tra t-test so sánh hiệu suất giải thuật RF SVM Nguồn: Pasolli ctg (2016) 132 Phan Tấn Tài, Tạ Đặng Vĩnh Phúc, Phan Nguyễn Minh Thảo, Nguyễn Thị Ngọc Chăm, Đào Cơng Tính, Phạm Huỳnh Ngọc, Nguyễn Thanh Hải So sánh độ xác SVM RF RF thể trường hợp kết tương tự tốt so với SVM Điều thể qua độ xác (AUC) khác đáng kể ba liệu: Đại trực tràng với AUC tăng từ 0.809 đến 0.873; T2D với AUC tăng từ 0.663 đến 0.744 (sự khác biệt hỗ trợ ý nghĩa thống kê, giá trị p 0.011; WT2D với AUC tăng từ 0.664 đến 0.762; Bệnh xơ gan với AUC tăng từ 0.922 đến 0.945 IBD với AUC tăng từ 0.862 đến 0.890 Về mặt phương pháp, đề xuất sử dụng RF để dự đốn bệnh từ phong phú lồi (Hình 7) 4.3 Cài đặt thực nghiệm Các thí nghiệm tiến hành để dự đoán bệnh dựa liệu Metagenomic, sử dụng tảng R-project trang web http://www.R-project.org, phiên 3.0.4 (Wassan, 2018) Các gói khác liên quan đến mơ hình máy học–Machine Learning (ML) thơng số cấu hình tối ưu có liên quan sử dụng nghiên cứu liệt kê (Bảng 2) Bảng Bảng liệt kê thơng số để cấu hình tối ưu phương pháp Phương pháp Tên viết tắt XGBoost (Extreme Gradient Boosting) XGBoost Glmnet Lasso, Ridge, ENet logistic classifier glmnet RF (Random forest) svmRadial A SVM with RBF kernel ELM (Extreme learning machines) k-NN (k-Nearest Neighbor’s classifier) Các tham số cấu hình/đánh giá “Binary” = logistic, cho lớp nhị phân “multi” = softmax, cho lớp đa phương “nthread” = 8, “max_depth” = 3, “gamma loss reduction” = family = “binomial”, “multinomial”, alpha regularization penalty (ɑ)=0,0.3,0.5,1 randomForest ntree=100 kernel=“radial”, cost=1, gamma=0.5, e1071 scale=TRUE elmNN nhid = 100, actfun = “sig” Class k = 10 rfe (Recursive Feature Elimination) Caret rfeControl = rfFuncs Entropy-based Mutual Information (information gain()) and oneR Filters FSelector 20 thuộc tính đầu Confusion Matrix Caret ROC pROC glmnetRank SurvRank Thứ tự hệ số glmnet Random forest Importance FSelector 10 thuộc tính đầu Các số liệu đánh giá qua thông số liên quan đến $overall $byClass Đánh giá lớp nhị thức đa thức theo: giá trị diện tích đường cong (ROC-AUC) Nguồn: Wassan, Wang, Browne, & Zheng (2018) 133 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] Kiểm chứng chéo 10 lần thực cho tất thực nghiệm Mỗi liệu chia thành 10 phần gọi folds Chín phần sử dụng để học từ liệu phần sử dụng để kiểm tra độ hiểu việc huấn luyện Quá trình lặp lặp lại cho lần Thời gian ghi cho mơ hình máy học thời gian User (CPU) tính cho việc thực lời gọi tiến trình (tính giây) Môi trường chạy bao gồm hệ thống cấu hình với xử lý AMD A8-7410 @ 2.20 GHz, Quad Core, GB RAM (Wassan & ctg., 2018) 4.4 Hiệu suất mơ hình dự đốn: Trong phần này, chúng tơi phân tích kết hợp phương pháp lựa chọn thuộc tính mơ hình phân loại để giải vấn đề phân tích liệu Metagenomic Mơ hình dự đốn qua nghiên cứu hỗ trợ việc tìm hiểu hành vi liệu đầu vào mục tiêu nghiên cứu xác định mơ hình máy học, giúp huấn luyện nhanh chóng nâng cao độ xác việc phân loại liệu Metagenomic RF SVM phương pháp tiếp cận đại phổ biến để dự đoán chức phân tích liệu Metagenomic (Breiman, 2001; Breiman & Cutler, 2012; Saitta, 1995) Các thuật toán phân loại sử dụng gồm có XGBoost, Glmnet, RF, SVM, ELM k-NN Việc điều chỉnh trình phân loại Glmnet với hình phạt quy 0, 0.3, 0.5, 1.0 Các kết thu thuật toán máy học ba trường hợp: Chế độ ăn kiêng, phân biệt Enterotype (là phân loại sinh vật sống dựa hệ sinh thái vi khuẩn hệ vi sinh vật đường ruột), bệnh viêm ruột tương ứng chi tiết (Bảng 3) Từ kết thu được, phân loại thống trị cung cấp độ xác tổng thể tốt ROC-AUC ghi nhận là: RF, Glmnet, XGBoost Mặc dù độ xác RF tốt Glmnet XGBoost đóng vai trị mơ hình mở rộng nhanh RF tập liệu Metagenomic có khơng gian lớn Bảng So sánh hiệu suất phương pháp ăn kiêng, loại ruột, phân loại bệnh viêm ruột Phân loại chế độ ăn kiêng Phân loại loại ruột (10-folds cross-validation) Phân loại bệnh viêm ruột (10-folds cross-validation) Mô hình Thời gian (giây) Độ xác ROCAUC Thời gian (giây) Độ xác ROCAUC Thời gian (giây) Độ xác ROCAUC XGBoost 62 0.931 0.926 41 0.979 0.976 198 0.770 0.730 Glmnet α = (Lasso) 29 0.924 0.908 34 0.936 0.919 254 0.695 0.657 Glmnet α = 0.5 (ENet) 28 0.950 0.942 37 0.968 0.958 299 0.728 0.728 Glmnet α = (Ridge) 244 0.567 0.571 29 0.993 0.992 5109 0.770 0.709 Glmnet α = 0.3 32 0.951 0.944 42 0.985 0.981 406 0.747 0.712 RF 2085 0.953 0.947 1712 0.991 0.988 3229 0.746 0.703 SVM (radial) 793 0.591 0.500 181 0.625 0.500 946 0.481 0.500 ELM (nhid=100) 258 0.944 0.936 25 0.898 0.885 45 0.350 0.614 k-NN (K=10) 87 0.919 0.905 190 0.935 0.916 230 0.585 0.636 Nguồn: Wassan ctg (2018) 134 Phan Tấn Tài, Tạ Đặng Vĩnh Phúc, Phan Nguyễn Minh Thảo, Nguyễn Thị Ngọc Chăm, Đào Cơng Tính, Phạm Huỳnh Ngọc, Nguyễn Thanh Hải 4.5 Công cụ dựa vào giải thuật học sâu Học sâu tập hợp thuật tốn để mơ hình hóa liệu trừu tượng mức cao cách sử dụng nhiều lớp xử lý bao gồm mạng thần kinh nhân tạo (Artificial Neural Network–ANN) với cấu trúc phức tạp, cách khác bao gồm nhiều biến đổi phi tuyến Chúng bao gồm nhiều lớp khác kết nối với nhau, lớp bao gồm đơn vị tính tốn đơn giản riêng biệt gọi nơ-ron thần kinh Thông tin đầu vào chảy qua mạng sau: lớp nhận liệu đầu vào cho nơ-ron nó, nơ-ron sau thực chức người dùng định nghĩa đơn giản sau đầu nơ-ron truyền dạng đầu vào đến nơ-ron lớp Hiện nay, mơ hình học sâu xử lý dễ dàng ngơn ngữ tự nhiên, phân loại hình ảnh, nhận dạng giọng nói bao gồm phân tích liệu Metagenomic Một số loại kiến trúc học sâu: • Mạng nơ-ron sâu, Deep Neural Networks (DNN) (Hinton & Salakhutdinov, 2006; Svozil & ctg., 1997; & Vincent, Larochelle, Lajoie, Bengio, & Manzagol, 2010) • Mạng nơ-ron tích chập, Convolutional Neural Networks (CNN) (Krizhevsky, Sutskever, & Hinton, 2012; & LeCun, Boser, Denker, Henderson, Howard, Hubbard, & Jacke, 1990) • Bộ mã hóa tự động, Auto Encoder (AE) (Hinton & Salakhutdinov, 2006) Hình Mạng nơron truyền thẳng đa tầng (MLP) Mạng nơ-ron nhân tạo (ANN) với gồm ba tầng Input layer, Output layer, Hidden layer Khi giải toán ta quan tâm đến input output model, ngồi lớp nơ-ron gọi Hidden quan tâm đến (Hình 8) 135 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CƠNG NGHỆ] Hiện nay, mơ hình phổ biến cải tiến học sâu Mạng nơ-ron tích chập– Convolutional Neural Networks (CNN) Nó thiết kế nhằm mục đích sử dụng toán nhận dạng đối tượng ảnh Các CNN tập trung vào việc tóm tắt thơng tin hàm tốn học, gọi tích chập, giảm đáng kể việc tính tốn Do CNN mạnh để xử lý hình ảnh, nhà nghiên cứu phát triển phương pháp mã hóa loại thơng tin khác dạng hình ảnh cho nhiều ứng dụng, bao gồm dự đoán bệnh dựa Metagenomic Bộ mã hóa tự động–Auto-encoders (AE) đại diện cho loại học sâu khác Trong trường hợp này, mục tiêu khơng phải dự đốn giá trị đầu ra, mà tìm thể nén từ liệu đầu vào (Hinton & Salakhutdinov, 2006) Điều gọi giảm chiều liệu (dimensionality reduction) không gian đặc trưng Giảm chiều liệu giải vấn đề phổ biến học tập sâu, gọi học vẹt (overfitting) Đây mối quan tâm có nhiều đặc trưng mẫu thường thấy dự đoán bệnh dựa Metagenomic (Nguyen, Prifti, Chevaleyre, Sokolovska, & Zucker, 2018) Trước tiên, áp dụng AE để giảm tập hợp đặc trưng để tạo điều kiện huấn luyện, cải thiện tính khái quát khả diễn giải Từ sử dụng làm đầu vào cho DNN, mơ hình tránh overfitting tổng quát hóa tốt (Hinton & Salakhutdinov, 2006; & LeCun, Bengio, & Hinton, 2015) Khi mạng nơ-ron có số tầng lớn (sâu) (DNN) đạt kết phân loại cao thể nhiều triển vọng Từ đó, nhà nghiên cứu gần cố gắng áp dụng chúng cho vấn đề dự đoán bệnh dựa chuỗi gene Tuy nhiên kiến trúc DNN khơng phù hợp để dự đốn bệnh việc sử dụng liệu Metagenomic (Lin, 2015; & Reiman, Metwally, & Dai, 2017) Huấn luyện thông qua kiến trúc học sâu thường đòi hỏi lượng liệu khổng lồ, không thực tế với số lượng bệnh nhân lấy mẫu hạn chế (Bajaj & ctg., 2015; & Virgin & Todd, 2011) Ngồi ra, việc trích xuất đặc trưng quan trọng từ mơ hình huấn luyện vấn đề phức tạp Reiman & ctg (2017) đề xuất framework sử dụng kiến trúc CNN để dự đoán bệnh từ hồ sơ phong phú vi sinh vật để giảm thiểu vấn đề (Lin, 2015; & Reiman & ctg., 2017) Phương pháp PopPhy-CNN sử dụng phát sinh chủng loại để mô tả liên quan đặc trưng khác nhau, tức vi sinh vật (Reiman, Metwally, & Dai, 2018) Cây nhúng thêm vào ma trận 2D để bao gồm phong phú tương đối loài vi sinh vật, cho phép CNN khai thác triệt để mối quan hệ không gian vi sinh vật đặc điểm định lượng chúng liệu Metagenomic Một đánh giá tồn diện chứng minh framework huấn luyện mơ hình cách hiệu mà không cần nhiều liệu Các vi sinh vật quan trọng góp phần vào bệnh khác trích xuất thể cách trực quan phát sinh chủng loại Một vấn đề phổ biến cần quan tâm áp dụng học sâu overfitting Để giảm bớt vấn đề tiến hành dự đoán bệnh đề xuất phương pháp Met2Img, dựa phân loại pixel màu hình ảnh gọi hình ảnh tổng hợp (synthetic images) (Nguyen & ctg., 2018) Họ khám phá nhiều cách khác để đặt màu xếp pixel Cuối cùng, CNN sử dụng để dự đoán bệnh dựa hình ảnh tạo 136 Phan Tấn Tài, Tạ Đặng Vĩnh Phúc, Phan Nguyễn Minh Thảo, Nguyễn Thị Ngọc Chăm, Đào Cơng Tính, Phạm Huỳnh Ngọc, Nguyễn Thanh Hải Đánh giá mười hai liệu điểm chuẩn cho thấy Met2Img vượt trội thuật toán học máy cổ điển (Nguyen & ctg., 2018) Việc tích hợp thơng tin phát sinh với liệu phong phú giúp cải thiện việc phân loại Một số phương pháp liên quan khác phát triển sử dụng học sâu để dự đốn kiểu hình vật chủ môi trường MicroPheno sử dụng số lượng K-mer trích xuất để dự đốn kiểu hình môi trường vật chủ khác nhau, cho thấy học sâu vượt trội so với rừng ngẫu nhiên (RF) để dự đốn kiểu hình mơi trường khơng phải kiểu hình bệnh (Dinsdale & ctg., 2013) MetaNN sử dụng hồ sơ vi sinh vật, gia tăng chúng mẫu mô tạo từ phân phối nhị thức âm dự đoán kiểu hình vật chủ thể cách sử dụng DNN CNN (Lo & Marculescu, 2018) Phương pháp cải thiện phương pháp học máy cổ điển DNN vượt trội so với CNN (Lo & Marculescu, 2018) Áp dụng DNN mạng nơ-ron hồi quy (Recurrent Neural Network–RNN) để dự đốn kiểu hình vật chủ môi trường (Ditzler, Polikar, & Rosen, 2015) DNN vượt trội RNN RF dự đoán pH vị trí mẫu thể, khi, RF tốt việc dự đốn kiểu hình vật chủ (Ditzler, Polikar, & Rosen, 2015) KẾT QUẢ VÀ THẢO LUẬN Để dễ dàng so sánh hiệu suất framework khác Selbal, PopPhy, Deepmg, thực nghiệm phương pháp đề xuất gần để kiểm thử độ hiệu bệnh xơ gan, béo phì, tiểu đường loại (Pasolli & ctg., 2017) PopPhy-CNN kiến trúc mạng nơ ron tích chập sử dụng huấn luyện liệu microbial taxa hiệu quả, đầu vào ma trận 2D, tạo có dựa vào thơng tin từ phát sinh loài (phylogenetic tree) liệu thành phần vi sinh ruột người (Reiman & ctg., 2018) PopPhy-CNN nhận liệu đầu vào bảng hai chiều với dòng mẫu, cột thể giá trị tỷ lệ thành phần vi sinh, điểm khác biệt PopPhy sử dụng phát sinh loài để thể mối quan hệ dựa lồi từ hình thành liệu để huấn luyện, với hy vọng tìm thấy ảnh hưởng mối quan hệ loài sinh vật với tình trạng bệnh Dữ liệu phát sinh loài biểu thị dạng newick, cách biểu diễn lý thuyết đồ thị Bên cạnh đó, chúng tơi chọn Selbal, mơ hình dành cho liệu thưa, áp dụng cho liệu Metagenomic (Rivera-Pinto, Egozcue, Pawlowsky-Glahn, Paredes, Noguera-Julian, & Calle, 2018) để chạy thực nghiệm Selbal xây dựng dựa vào thuật toán “ham ăn” bước để chọn lọc thuộc tính coi “dấu hiệu nhận dạng sinh học” cho phép giữ lại tính chất chủ chốt liệu Ngoài ra, Deepmg sử dụng để so sánh Deepmg framework sử dụng nhiều mơ hình khác gồm hồi quy tuyến tính, SVM, rừng ngẫu nhiên, CNN để huấn luyện liệu Framework bậc tính linh động với hàng trăm tham số thay đổi tùy ý, phục vụ cho việc thí nghiệm liệu khác (Nguyen, Prifti, Sokolovska, & Zucker, 2019) Ở đây, Deepmg sử dụng để nghiên cứu liệu Metagenomic, với liệu đầu vào mảng 2D, với hàng mẫu gồm tỉ lệ có mặt chủng vi khuẩn đường ruột Các liệu sử dụng phương pháp binning dựa độ phân bố loài vi khuẩn (SPB bin) mơ tả (Nguyen, 137 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] Prifti, Sokolovska, & Zucker, 2019) sử dụng giải thuật hồi quy tuyến tính mạng nơ ron tích chập để so sánh kết Chúng so sánh kết ba framework với kết từ MetAML (Pasolli & ctg., 2016), nghiên cứu tác giả chạy liệu gốc không qua tiền xử lý với giải thuật Rừng Ngẫu nhiên Những ưu điểm Metagenomic công cụ đề cập phía nhằm mục đích giúp hiểu tầm quan trọng việc thu thập liệu liên quan đến vi sinh vật gây người bệnh Thông thường, khai thác liệu Metagenomic phức tạp chiều cao đòi hỏi việc xử lý tính tốn lớn Do đó, việc áp dụng học máy liệu bước quan trọng hữu ích lĩnh vực tin sinh học Chúng sử dụng liệu có sẵn cung cấp HMP Unified Metabolic Analysis Network (HUMAnN2) nơi tải xuống từ curatedMetagenomicData R (Abubucker & ctg., 2012; & Pasolli & ctg., 2017) Chúng thực nghiệm phương pháp đề xuất ba liệu Metagenomic bao gồm liệu phong phú vi sinh vật liên quan đến bệnh khác xơ gan (CIR), béo phì (OBE), tiểu đường loại (T2D) Ta thấy, bệnh xơ gan CIR có 232 mẫu với 114 mẫu khơng bệnh, béo phì OBE có 253 mẫu với 164 người béo phì, T2D với 344 mẫu 174 khơng bị tiểu đường loại Thông tin chi tiết liệu mô tả ba bệnh (Bảng 4) Bảng Mô tả chi tiết thông tin ba liệu Tập liệu Xơ gan Béo phì Tiểu đường (loại 2) Số Thuộc tính 542 465 572 Số Mẫu 232 253 344 Số mẫu Bệnh 118 164 170 Số mẫu Không bệnh 114 89 174 Tỷ lệ mẫu có bệnh 0.51 0.65 0.49 Tỷ lệ mẫu khơng bệnh 0.49 0.35 0.51 Chúng thực nghiệm để có so sánh vài framework dùng cho việc phân tích liệu Metagenomic Kết thực nghiệm chạy máy tính Macbook cài đặt hệ điều hành MacOS Catalina 10.15 với cấu hình gồm xử lý Intel(R) Core(TM) i7-7920HQ CPU @ 3.10 GHz với cores Bộ nhớ LPDDR3 với dung lượng RAM 16GB Card hình Intel HD Graphics 630, Radeon Pro 555 Kết so sánh sử dụng phương pháp Deepmg với mơ hình Full connected, Deepmg-CNN, PopPhy-CNN Selbal (Bảng Kết so sánh framework khác hỗ trợ phân tích liệu Metagenomic dựa tham số đề nghị) đánh giá với độ xác trung bình dựa kỹ thuật kiểm tra chéo 10 phần (10 fold cross validation) Từ kết ta thấy sử dụng Deepmg-CNN bệnh Xơ gan cho kết cao (0.918), đồng thời phương pháp Selbal cho kết cao (0.900) so với phương pháp khác Trong phương pháp khảo sát sử dụng phương pháp PopPhy-CNN (0.720) cho kết thấp Đối với bệnh béo phì tiểu đường loại sử dụng Deepmg-Full connected cho kết cao nhất, béo phì 138 Phan Tấn Tài, Tạ Đặng Vĩnh Phúc, Phan Nguyễn Minh Thảo, Nguyễn Thị Ngọc Chăm, Đào Cơng Tính, Phạm Huỳnh Ngọc, Nguyễn Thanh Hải (0.668) tiểu đường loại (0.700) PopPhy-CNN cho kết thấp nhất, béo phì (0.493) tiểu đường loại (0.532) So sánh với kết công bố MetAML (Pasolli & ctg, 2016), thấy kết Selbal Deepmg-CNN vượt trội chẩn đoán bệnh xơ gan, riêng bệnh béo phì tiểu đường loại giải thuật hồi quy tuyển tính Deepmg cho kết tốt công bố (Pasolli & ctg, 2016) Dựa phương pháp thấy khác biệt rõ rệt độ xác dự đốn bệnh Tóm lại, qua chạy thực nghiệm nhiều phương pháp, đề xuất sử dụng Deepmg-CNN (mơ hình nơ ron tích chập) để dự đốn bệnh xơ gan, béo phì, tiểu đường loại Qua việc sử dụng framework cho thực nghiệm, nhận thấy ba hỗ trợ nhận tập tin đầu vào với định dạng phổ biến định dạng file csv Sử dụng ngôn ngữ phổ biến dành cho khoa học liệu R (Selbal), Python (Deepmg PopPhy) Các framework có trang thơng tin hướng dẫn để người dùng dễ dạng chạy thực nghiệm Tuy nhiên, Selbal yêu cầu phải tiền xử lý giá trị thuộc tính có giá trị việc thay số tịnh tiến cộng tất giá trị liệu với số khơng đổi (ví dụ cộng thêm cho liệu thành phần tổng loài vi sinh mẫu để tất giá trị khác 0), điều dẫn đến gây nhiễu cho kết thấp số liệu (ví dụ bệnh béo phì thể Bảng 5) Thêm Selbal hỗ trợ với giải thuật học với mơ hình hồi quy tuyến tính tích hợp cứng framework Đối với PopPhy hỗ trợ với liệu mà tác giả nghiên cứu với tham số mơ hình học thiết lập cứng, liệu cần phải có đề xuất mơ hình khơng kết đạt khơng cao lấy cấu hình từ liệu cũ khảo sát Riêng với Deepmg hỗ trợ với vùng rộng tham số hỗ trợ nhiều giải thuật học khác từ giải thuật máy học cổ điển Rừng ngẫu nhiên giải thuật học sâu Tuy nhiên việc chọn tham số tối ưu danh sách tham số dài điều không đơn giản khó kiểm sốt chương trình Bảng Kết so sánh framework khác hỗ trợ phân tích liệu Metagenomic dựa tham số đề nghị tác giả Độ xác trung bình dự đốn (Accuracy) Phương pháp Xơ gan Béo phì Tiếu đường loại Deepmg-Hồi quy tuyến tính 0.776 0.668 0.700 Deepmg-Mạng nơ-ron tích chập 0.918 0.660 0.656 PopPhy- Mạng nơ-ron tích chập 0.720 0.493 0.532 Selbal-Hồi quy tuyến tính 0.900 0.587 0.662 MetAML-RF 0.877 0.644 0.664 Nguồn: Pasolli & ctg (2016) 139 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] KẾT LUẬN Trong báo chúng tơi trình bày cơng cụ hỗ trợ cho việc phân tích nguồn liệu Metagenomic hỗ trợ chẩn đoán bệnh cho người Bằng cách sử dụng framework khác Popphy-CNN, Selbal, Deepmg, vài framework đề xuất khác mang đến kết vô khả quan, mang tính khích lệ việc tìm liệu pháp chữa trị đắn cho cá nhân mắc bệnh, tạo tiếp cận khác so với y học truyền thống Đây phần nằm nhóm phương pháp Y học cá thể hóa Phương pháp thay phương pháp truyền thống để nâng cao hiệu việc chẩn đoán điều trị bệnh Từ kết khảo sát qua nghiên cứu ta thấy tiềm cho việc nghiên cứu phân tích liệu Metagenomic việc chẩn đoán bệnh người Bộ liệu Metagenomic với nhiều tiềm hỗ trợ giải vấn đề như: Tìm nguyên nhân bệnh, loài vi khuẩn cốt yếu mà thay đổi mật độ chúng ảnh hưởng đến sức khỏe người hay tình trạng bệnh bệnh nhân Từ đẩy mạnh nghiên cứu thuốc tiêu diệt hay tăng cường chủng vi khuẩn cốt yếu Thêm vào đó, cá nhân hóa việc điều trị bệnh, với người, biểu phương pháp điều trị chung có nhiều trường hợp rủi ro chữa bệnh khơng thành cơng, với phương pháp điều trị cá nhân hóa giúp nâng cao hiệu suất chữa bệnh cho bệnh nhân Bằng cách xác định nguyên nhân gây bệnh với người, thể tìm cách giải tốt cho bệnh nhân cứu họ khỏi bệnh tật mà phương pháp “đại chúng” không phù hợp với “cơ địa” họ Trong tương lai, với hỗ trợ Công nghệ thông tin, chúng tơi dự đốn có nhiều nghiên cứu phân tích khám phá dựa sức mạnh phát triển cơng nghệ để thu thập khám phá thêm kiến thức ảnh hưởng vi sinh vật sống môi trường thể người với ảnh hưởng chúng sức khỏe người nhằm hỗ trợ chăm sóc sức khỏe người theo hướng tiếp cận Y học cá thể hóa LỜI CẢM ƠN Nghiên cứu tài trợ dự án, đề tài mã số T2020-12 Trường Đại học Cần Thơ TÀI LIỆU THAM KHẢO Abubucker, S., Segata, N., Goll, J., Schubert, A M., Izard, J., Cantarel, … Huttenhower, C (2012) Metabolic reconstruction for Metagenomic data and its application to the human microbiome PLOS Computational Biology, 8(6), 1-17 Bajaj, J S., Betrapally, N S., & Gillevet, P M (2015) Decompensated cirrhosis and microbiome interpretation Nature, 525(7569), 1-4 Breiman, L (2001) Random Forests Machine Learning, 45(1), 5-32 Breiman, L., & Cutler, A (2012) Breiman and Cutler’s random forests for classification and regression (Package randomForest) Retrieved from http://math.furman edu/~dcs/courses/math47/R/library/randomForest/html/00Index.html 140 Phan Tấn Tài, Tạ Đặng Vĩnh Phúc, Phan Nguyễn Minh Thảo, Nguyễn Thị Ngọc Chăm, Đào Cơng Tính, Phạm Huỳnh Ngọc, Nguyễn Thanh Hải Cai, L., Wu, H., Li, D., Zhou, K., & Zou, F (2015) Type diabetes biomarkers of human gut microbiota selected via iterative sure independent screening method PloS One, 10(10), 1-15 Chatelier, L E., Nielsen, T., Qin, J., Prifti, E., Hildebrand, F., Falony, G., … Pedersen, O (2013) Richness of human gut microbiome correlates with metabolic markers Nature, 500(7464), 541-546 Cortes, C., & Vapnik, V (1995) Support-vector networks Machine Learning, 20, 273-297 Darling, A E., Jospin, G., Lowe, E., Matsen, IV F A., Bik, H M., & Eisen, J A (2014) PhyloSift: phylogenetic analysis of genomes and metagenomes PeerJ, 2013(1), 1-28 Dinsdale, E A., Edwards, R A., Bailey, B A., Tuba, I., Akhter, S., McNair, K., … Ponomarenko, V (2013) Multivariate Analysis of Functional Metagenomes Frontiers, 4(41), 1-25 Ditzler, G., Polikar, R., & Rosen, G (2015) Multi-layer and recursive neural networks for metagenomic classification IEEE Transactions on NanoBioscience, 14(6), 608-616 Ditzler, G., Morrison, J C., Lan, Y., & Rosen, G L (2015) Feature subset selection for metagenomics BMC Bioinformatics, 16, 1-8 Dodge, S., & Karam, L (2017) A study and comparison of human and deep learning recognition performance under visual distortions New York, US: Institute of Electrical and Electronics Engineers Inc Publishing Dudley, J T., & Karczewski, K J (2014) Exploring personal genomics Oxford, UK: Oxford University Press Publishing Ehrlich, S D (2016) The human gut microbiome impacts health and disease Comptes Rendus Biologies, 339(7-8), 319-323 Forslund, K., Hildebrand, F., Nielsen, T., Falony, G., Chatelier, L E., Sunagawa, S., … Pedersen, O (2015) Disentangling type diabetes and metformin treatment signatures in the human gut microbiota Nature, 528, 262-266 Gevers, D., Kugathasan, S., Denson, LA., Vázquez-Baeza, Y., Van, T W., Ren, B., Schwager, E., Knights, D., Song, S J., Yassour, M., Morgan, X C., Kostic, A D., Luo, C., González, A., McDonald, D., Haberman, Y., Walters, T., Baker, S., Rosh, J., Stephens, M., Heyman, M., Markowitz, J., Baldassano, R., Griffiths, A., Sylvester, F., Mack, D., Kim, S., Crandall, W (2014) The treatment naïve microbiome in new-onset Crohn’s disease Cell Host Microbe, 15(3), 382-392 Hinton, G E., & Salakhutdinov, R R (2006) Reducing the dimensionality of data with neural networks Science, 313(5786), 504-507 Hicilar, H., Nalbantoglu, O U., Aran, O., & Bakir-Gungor, B (2020) Inflammatory Bowel Disease Biomarkers of Human Gut Microbiota Selected via Ensemble Feature Selection Methods Retrieved from https://www.semanticscholar.org/ 141 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] paper/Inflammatory-Bowel-Disease-Biomarkers-of-Human-Gut-HacilarNalbantoglu/bf1b542425279483c24da74b2bfe40826eff76aa Jiang, Y., Wang, J., Xia, D., & Yu, G (2017) EnSVMB: Metagenomics Fragments Classification using Ensemble SVM and BLAST Scientific Reports, 7(1), 1-10 Karlsson, F H., Tremaroli, V., Nookaew, I., Bergström, G., Behre, C J., Fagerberg, B., … Bäckhed, F (2013) Gut metagenome in European women with normal, impaired and diabetic glucose control Nature, 498(7452), 99-103 Krizhevsky, A., Sutskever, I., & Hinton, G E (2012) Imagenet classification with deep convolutional neural networks In D S Touretzky (Ed), Advances in neural information processing systems (pp 1097-1105) Vancouver, Canada: Neural Information Processing Systems Publishing LeCun, Y., Boser, B., Denker, J S., Henderson, D., Howard, R E., Hubbard, W., & Jackel, L D (1990) Handwritten digit recognition with a back-propagation network In D S Touretzky (Ed), Advances in neural information processing systems (pp 396-404) Vancouver, Canada: Neural Information Processing Systems Publishing LeCun, Y., Bengio, Y., & Hinton, G (2015) Deep learning Nature, 521(7553), 436-444 Lin, Y C (2015) A new binning method for metagenomics by one-dimensional cellular automata International Journal of Genomics, 2015, 1-6 Lo, C., & Marculescu, R (2018) Accurate classification of host phenotypes from metagenomic data using neural networks BMC Bioinformatics, 20, 1-14 Nguyen, T H., Prifti, E., Chevaleyre, Y., Sokolovska, N., & Zucker, J D (2018) Disease Classification in Metagenomics with 2D Embeddings and Deep Learning Retrieved from https://arxiv.org/abs/1806.09046 Nguyen, T H., Prifti, E., Sokolovska, N., & Zucker, J D (2019) Disease Prediction Using Synthetic Image Representations of Metagenomic Data and Convolutional Neural Networks New York, USA: IEEE Publishing Nguyen, T H., & Zucker, J D (2019) Enhancing metagenome-based disease prediction by unsupervised binning approaches Paper presented at The 11th International Conference on Knowledge and Systems Engineering, Da Nang, Vietnam Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., … Duchesnay, E (2011) Scikit-learn: Machine learning in Python Journal of Machine Learning Research, 12(85), 2825-2830 Pasolli, E., Truong, D T., Malik, F., Waldron, L., & Segata, N (2016) Machine learning meta-analysis of large metagenomic datasets: tools and biological insights PLOS Computational Biology, 12(7), 1-26 Pasolli, E., Schiffer, L., Manghi, P., Renson, A., Obenchain, A., Truong, D T., … Waldron, L (2017) Accessible, curated metagenomic data through ExperimentHub Natural Methods, 14, 1023-1024 142 Phan Tấn Tài, Tạ Đặng Vĩnh Phúc, Phan Nguyễn Minh Thảo, Nguyễn Thị Ngọc Chăm, Đào Cơng Tính, Phạm Huỳnh Ngọc, Nguyễn Thanh Hải Qin, J., Li, R., Raes, J., Arumugam, M., Burgdorf, K S., Manichanh, C., … Wang, J (2010) A human gut microbial gene catalogue established by metagenomic sequencing Nature, 464, 59-65 Qin, J., Li, Y., Cai, Z., Li, S., Zhu, J., Zhang, F., … Wang, J (2012) A metagenomewide association study of gut microbiota in type diabetes Nature, 490, 55-60 Qin, N., Yang, F., Li, A., Prifti, E., Chen, Y., Shao, L., … Li, L (2014) Alterations of the human gut microbiome in liver cirrhosis Nature, 513, 59-64 Rakel, D., & Rakel, R E (2011) Textbook of Family Medicine Pennsylvania, USA: Saunders Publishing Reiman, D., Metwally, A., & Dai, Y (2017), Using convolutional neural networks to explore the microbiome, Engineering in Medicine and Biology Society (EMBC) Paper presented at The 39th Annual International Conference of the IEEE Engineering in Medicine and Biology Society, Seogwipo, South Korea Reiman, D., Metwally, A A., & Dai, Y (2018) PopPhy-CNN: A phylogenetic tree embedded architecture for convolution neural networks for metagenomic data Oxford, UK: Oxford University Express Publishing Rivera-Pinto, J., Egozcue, J J., Pawlowsky-Glahn, V., Paredes, R., Noguera-Julian, M., & Calle, M L (2018) Balances: a New Perspective for Micro- biome Analysis mSystems, 3(4), 1-12 Saitta, L (1995) Support-vector networks Machine Learning, 20(3), 273-297 Statnikov, A., Henaff, M., Narendra, V., Konganti, K., Li, Z., Yang, L., … Alekseyenko, A V (2013) A comprehensive evaluation of multicategory classification methods for microbiomic data Microbiome, 1(1), 1-12 Svozil, D., Kvasnicka, V & Pospichal, J.(1997) Introduction to multi-layer feed-forward neural networks Chemometrics and intelligent laboratory systems 39 (1), 43-62 The Academy of Medical Sciences (2015) Stratified, personalised or P4 medicine: a new direction for placing the patient at the centre of healthcare and health education Retrieved from https://acmedsci.ac.uk/viewFile/564091e072d41.pdf Umeo, H., Kamikawa, N., Nishioka, K., & Akiguchi, S (2009) Simulation of generalized synchronization processes on one-dimensional cellular automata In R Imre, M Demiralp, & N Mastorakis (Eds.), Proceedings of the 9th WSEAS International Conference on Simulation, Modelling and Optimization (pp 350-357) Wiscosin, USA: World Scientific and Engineering Academy and Society (WSEAS) Publishing Vincent, P., Larochelle, H., Lajoie, I., Bengio, Y., & Manzagol, P A (2010) Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion Journal of machine learning research, 11, 3371-3408 Virgin, H W., & Todd, J A (2011) Metagenomics and personalized medicine Cell, 147(1), 44-56 143 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] Wassan, J T., Wang, H., Browne, F., & Zheng, H (2018) A Comprehensive Study on Predicting Functional Role of Metagenomes Using Machine Learning Methods IEEE/ACM Transactions on Computational Biology and Bioinformatics, 16(3), 751-763 Zeller, G., Tap, J., Voigt, A Y., Sunagawa, S., Kultima, J R., Costea, P I., … Bork, P (2014) Potential of fecal microbiota for early‐stage detection of colorectal cance Molecular Systems Biology, 10(11), 1-18 Zou, H., & Hastie, T (2005) Regularization and variable selection via the elastic net Journal of the Royal Statistical Society: Series B (Statistical Methodology), 67, 301-320 144 ... ánh xạ liệu đầu vào, liệu tuần tự, đến giá trị đầu dự đốn tình trạng bệnh 4.2 Các nghiên cứu cho th? ?y khả dự đoán bệnh dựa vào liệu Metagenomic Việc đánh giá liệu Metagenomic dự đoán bệnh cách. .. hợp Với đời công nghệ giải trình tự DNA hỗ trợ lớn cho y học phát triển sang cách tiếp cận y tế mới, Y học cá thể hóa (Personalized Medicine) (The Academy of Medical Sciences, 2015; Dudley &... phương pháp công cụ dựa việc ứng dụng Công nghệ thông tin để hỗ trợ việc phân tích liệu cho ? ?Y học cá thể hóa? ?? cách có hiệu Với phạm vi nghiên cứu thực hiện, đạt số kết quả: • Đánh giá cơng cụ nghiên