Khảo sát một số thuật toán học máy trong việc dự đoán hoạt tính của hợp chất hoá học Khảo sát một số thuật toán học máy trong việc dự đoán hoạt tính của hợp chất hoá học Khảo sát một số thuật toán học máy trong việc dự đoán hoạt tính của hợp chất hoá học Khảo sát một số thuật toán học máy trong việc dự đoán hoạt tính của hợp chất hoá học
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** ĐỖ HOÀNG TÚ KHẢO SÁT MỘT SỐ THUẬT TỐN HỌC MÁY TRONG VIỆC DỰ ĐỐN HOẠT TÍNH CỦA HỢP CHẤT HỐ HỌC LUẬN VĂN THẠC SĨ CƠNG NGHỆ THÔNG TIN Đồng Nai, Năm 2023 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** ĐỖ HOÀNG TÚ KHẢO SÁT MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG VIỆC DỰ ĐỐN HOẠT TÍNH CỦA HỢP CHẤT HỐ HỌC Chuyên ngành: Công nghệ thông tin Mã số chuyên ngành: 8480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: PGS TS TRẦN VĂN LĂNG Đồng Nai, Năm 2023 i LỜI CẢM ƠN Đầu tiên, muốn bày tỏ lòng biết ơn chân thành sâu sắc đến Giảng viên hướng dẫn PGS.TS Trần Văn Lăng tận tâm kiên nhẫn hướng dẫn suốt trình học tập, nghiên cứu thực luận văn Tôi xin gửi lời cám ơn đến Ban Giám hiệu, Giảng viên, Thầy/Cô khoa Sau Đại học trường Đại học Lạc Hồng tạo điều kiện để tơi học tập tiếp thu kiến thức quý báu thời gian học Trường Cuối cùng, muốn gửi lời cám ơn đến với Gia đình, bạn học người động viên, hỗ trợ tin tưởng vào khả Sự ủng hộ tinh thần tình yêu thương từ bạn nguồn động lực quan trọng để tơi hồn thành luận văn Người thực Đỗ Hoàng Tú ii LỜI CAM ĐOAN Tơi, Đỗ Hồng Tú, cam kết luận văn thực hướng dẫn giảng viên PGS.TS Trần Văn Lăng tất thông tin kết trình bày luận văn cơng việc tơi Tơi cam đoan tất nguồn thông tin, tài liệu, báo, nghiên cứu tài liệu tham khảo sử dụng luận văn liệt kê trích dẫn cách theo quy định quy tắc nghiên cứu khoa học Tôi xác nhận tuân thủ nguyên tắc đạo đức nghiên cứu, bao gồm việc trích dẫn xác khơng vi phạm quyền tác giả tác giả Tất số liệu, liệu thông tin sử dụng luận vane xác đảm bảo tính tồn vẹn Bất kỳ sai sót hay thiếu sót luận văn trách nhiệm riêng không phản ánh ý kiến hay chất lượng nhà trường, quan, đơn vị cá nhân khác Tôi xin cam đoan luận văn công việc độc lập chịu trách nhiệm hoàn toàn nội dung, ý kiến quan điểm trình bày luận văn Người thực Đỗ Hoàng Tú iii TRƯỜNG ĐẠI HỌC LẠC HỒNG KHOA SAU ĐẠI HỌC TÓM TẮT LUẬN VĂN (Dùng cho học viên người hướng dẫn) Đề tài: Khảo sát số thuật toán học máy việc dự đoán hoạt tính hợp chất hố học Ngành: Cơng nghệ thơng tin Mã số: 8480201 Học viên: Đỗ Hồng Tú Người hướng dẫn: PGS.TS Trần Văn Lăng NỘI DUNG TÓM TẮT Nội dung giao kết mong đợi người hướng dẫn - Tìm hiểu số dataset thí nghiệm sinh học số 21 dataset cơng bố Kaggle - Tìm hiểu số thư viện liên quan để truy cập tập tin biểu diễn cấu trúc hoá học hợp chất - Tìm hiểu số thuật tốn để tạo mẫu (resample) với liệu cân - Tìm hiểu phương pháp rút trích đặc trưng để giảm thời gian huấn luyện, tăng độ xác nhận diện hợp chất tập liệu - Tìm hiểu cách thức chọn tham số (hyperparameters) cho phương pháp huấn luyện sử dụng để tăng cường tính hiệu mơ hình - Sử dụng tri thức tìm hiểu để viết module chương trình số dataset nêu - Trên sở thử nghiệm, chọn phương pháp tối ưu để phân loại hoạt tính - Một số module chương trình dạng ipynb đưa lên GitHub nội dung liên quan để sử dụng dự đốn hoạt tính - Thử nghiệm đánh giá kết - Hoàn thiện hệ thống, viết báo cáo luận văn Cách thức giải vấn đề Giải pháp đưa để giải vấn đề “Khảo sát số thuật toán học máy việc dự đốn hoạt tính hợp chất hố học” thực sau: iv - Sử dụng ngôn ngữ lập trình Python để viết chương trình - Dùng gói thư viện Scikit learn, Imbalanced learn cho vấn đề liên quan đến học máy - Dùng gói thư viên Keras, DeepChem liên quan đến học sâu - Dùng gói thư viện RDKit để truy cập hợp chất hóa học - Theo dõi cải thiện: Theo dõi hiệu suất việc cân liệu cải thiện mơ hình phương pháp nhằm tăng cường tính hiệu mơ hình liệu cân Đánh giá mặt khoa học kết - Việc nghiên cứu số thuật toán học máy việc dự đốn hoạt tính hợp chất hóa học giúp cải thiện hiệu suất, tăng cường độ xác mơ hình với độ tin cậy cao Giúp tiết kiệm thời gian chi phí so với phương pháp thử nghiệm truyền thống, hạn chế số lượng thử nghiệm tối ưu hóa quy trình nghiên cứu - Luận văn hoàn thành mục tiêu nghiên cứu đề số module chương trình dạng ipynb đưa lên GitHub nội dung liên quan để sử dụng dự đốn hoạt tính dựa mơ hình huấn luyện - Luận văn nghiên cứu phát triển để hỗ trợ việc tối ưu hóa thiết kế ứng dụng dự đốn hoạt chất, tính chất sinh học hợp chất mơ dược động học Những vấn đề cịn tồn so với nội dung giao (nếu có) Đồng Nai, ngày …… tháng ……năm 2023 NGƯỜI HƯỚNG DẪN HỌC VIÊN PGS.TS Trần Văn Lăng Đỗ Hoàng Tú v MỤC LỤC LỜI CẢM ƠN .i LỜI CAM ĐOAN ii TÓM TẮT LUẬN VĂN iii MỤC LỤC v DANH MỤC TỪ VIẾT TẮT viii DANH MỤC BẢNG ix DANH MỤC HÌNH x Chương II: TỔNG QUAN II.1 Giới thiệu đề tài luận văn II.2 Một số cơng trình nghiên cứu tiêu biểu: II.3 Một số vấn đề sở lý thuyết liên quan II.3.1 Hóa tin: II.3.2 Học máy (Machine Learning) Học có giám sát (Supervised Learning): Học không giám sát (Unsupervised Learning): 11 Học bán giám sát (Semi-supervised Learning): 14 Học tăng cường (Reinforcement Learning): 14 Các phương pháp khác: 15 II.3.3 Học sâu (Deep Learning) 15 II.4 Tổng kết chương 18 Chương III: BÀI TOÁN CÂN BẰNG DỮ LIỆU TRONG DỰ ĐỐN HOẠT TÍNH CỦA HĨA CHẤT 19 III.1 Giới thiệu khái quát 19 III.1.1 Rút gọn thuộc tính 19 III.1.2 Chọn tham số theo Bayesian optimization 21 vi III.1.3 Xử lý liệu cân 21 III.1.3.1 Một số cách resample mẫu liệu 22 Phương pháp SMOTE 22 Phương pháp ADASYN 23 Phương pháp Borderline SMOTE 23 Phương pháp SMOTE-ENN 24 Phương pháp SMOTETomek 25 Phương pháp tăng cường ngẫu nhiên 26 III.1.3.2 Mơ hình gan việc xử lý liệu cân 27 III.2 Tổng kết chương 31 Chương IV: MÔ HÌNH HUẤN LUYỆN 32 IV.1 Phương pháp học máy 32 IV.1.1.1 Kỹ thuật học phối hợp: 32 a) Bagging (Bootstrap Aggregating): 32 b) Boosting: 34 IV.1.1.2 Kỹ thuật học phối hợp thư viện imbalanced-learn: 36 IV.2 Phương pháp học sâu 38 IV.2.1 Tối ưu hóa Adam 38 IV.2.2 Dùng hàm mát 39 IV.3 Tổng kết chương 41 Chương V: KẾT QUẢ THỬ NGHIỆM 42 V.1 Bộ liệu 42 Bộ liệu: 42 Thang điểm đánh giá: 45 V.2 Kết thử nghiệm 46 V.2.1 Tiền xử lý: 46