Ứng dụng mô hình học máy để dự báo khả năng hấp phụ dược phẩm bằng than sinh học trong môi trường nước (tt)

26 6 0
Ứng dụng mô hình học máy để dự báo khả năng hấp phụ dược phẩm bằng than sinh học trong môi trường nước (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA ⎯⎯⎯⎯⎯⎯⎯⎯⎯ NGUYỄN THỊ THANH HUYỀN ỨNG DỤNG MƠ HÌNH HỌC MÁY ĐỂ DỰ BÁO KHẢ NĂNG HẤP PHỤ DƯỢC PHẨM BẰNG THAN SINH HỌC TRONG MÔI TRƯỜNG NƯỚC Chuyên ngành: Kỹ thuật mơi trường Mã số: 8520320 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT MÔI TRƯỜNG Đà Nẵng – 2022 THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ Lưu hành nội Cơng trình hồn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: PGS.TS LÊ PHƯỚC CƯỜNG T.S NGUYỄN XUÂN CƯỜNG Phản biện 1: TS ĐẶNG QUANG HẢI Phản biện 2: PGS.TS LÊ MINH ĐỨC Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ (Kỹ thuật môi trường) họp Trường Đại học Bách khoa vào ngày 15 tháng 07 năm 2022 Có thể tìm hiểu luận văn tại: − Trung tâm Học liệu, Đại học Bách khoa Trường Đại học Bách Khoa − Thư viện Khoa Môi Trường, Trường Đại học Bách khoa - Đại học Đà Nẵng THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ Lưu hành nội MỞ ĐẦU Tính cấp thiết đề tài Các hợp chất dược phẩm (gọi chung pharmaceutical compounds: Dược phẩm) oxytetracycline, ciprofloxacin, paracetamol phát sinh từ trình sản xuất thuốc nguồn độc hại môi trường nước ảnh hưởng đến hiệu trình sinh học xử lý nước thải đặc tính độc hại khả khơng phân hủy sinh học chúng Các dược phẩm có khả gây tác động có hại đến đời sống thủy sinh, biến đổi trao đổi chất giới tính, phản ứng kháng sinh vi sinh vật gây bệnh thủy sinh làm gián đoạn hoạt động phân hủy sinh học [1, 2] Những dược phẩm dễ dàng xâm nhập vào môi trường thông qua nguồn nước chưa xử lý khơng quản lý cách Thậm chí, nguồn nước đầu xử lý từ trình sản xuất thuốc, nồng độ dược phẩm cao, chẳng hạn nồng độ còn vài mg L-1 Mỹ Châu Âu [3], 31 mg.L-1 Ấn Độ [4] 51 mg.L-1 Trung Quốc [5] Do đó, việc loại bỏ dược phẩm nguồn nước điều cần thiết ngày trở thành chủ đề thu hút nhiều quan tâm nhà khoa học nghiên cứu ứng dụng Đa số nhà máy xử lý nước thải thường không thiết kế để loại bỏ dược phẩm [6] Mặc dù công nghệ xử lý tiên tiến bao gồm q trình oxy hóa nâng cao lọc màng đạt hiệu việc loại bỏ dược phẩm, nhiên lượng tiêu thụ cao sản phẩm phụ không mong muốn nhược điểm chúng [7, 8] Vì thế, phương pháp hấp phụ bằng than sinh học (biochars: BC) dường phương pháp hiệu chi phí thân thiện với môi trường để xử lý dược phẩm [9, 10] Tuy nhiên, hiệu loại bỏ dược phẩm bằng hấp phụ BC thay đổi nhiều tùy thuộc vào số yếu tố thúc đẩy Chẳng hạn, loại bỏ ibuprofen cao tìm thấy pH= 3, loại bỏ có xu hướng giảm điều kiện [11] Li (2018) quan sát cho thấy hấp phụ đạt trạng thái cân bằng ciprofloxacin tăng từ 32,9 đến 146,9 mg/g với nồng độ ban đầu tăng từ 150 đến 500 mg/L [12] Trong nghiên cứu khác, tương tác axit-bazơ đóng vai trò quan trọng hấp phụ diclofenac, tương tác liên kết hydro có xu hướng trở nên quan trọng khả hấp phụ cephalexin BC hoạt tính có nguồn gốc từ anthriscus sylvestris [13] Như vậy, khác thiết kế thử nghiệm, mục đích nghiên cứu yếu tố ảnh hưởng nghiên cứu trước gây khó khăn đáng kể việc lựa chọn vật liệu BC thích hợp để đạt hiệu hấp phụ Bên cạnh đó, hầu hết nghiên cứu hấp phụ giới hạn quy mơ phòng thí nghiệm với dược phẩm cụ thể, nhiều loại chúng tồn nước thải tổng hợp nước thải thực tế Do đó, thách thức quan trọng dẫn đến quan tâm cách khai thác liệu từ tài liệu để phát triển thuật toán nhằm dự đoán hiệu loại bỏ dược phẩm BC Học máy (machine learning: ML), cách tiếp cận toán học nâng cao theo hướng liệu, thường sử dụng để diễn giải tính trừu tượng phức tạp liệu, đặc biệt quan trọng việc tính gần phản ứng phi tuyến phức tạp, sẵn có lượng lớn liệu khơng phù hợp với mơ hình vật lý thống kê đơn giản [14] Do khả “tự học” (“learning”), tính đơn giản thiết kế thuật toán, khả tiếp cận THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ Lưu hành nội sẵn có, ML đưa dự đốn xác cung cấp giải pháp tối ưu, qua giảm bớt sức cơng việc, thời gian vận hành thí nghiệm [15] Những năm gần đây, ML áp dụng rộng rãi lĩnh vực môi trường, xử lý chất thải hỗ trợ định quản lý [16] Trong bối cảnh hấp phụ, số nghiên cứu thực để khám phá ứng dụng tiềm ML Ví dụ, Afolabi cộng (2020) phát triển cấu trúc mạng neuron nhân tạo (Artifical neuron networks: ANN) để dự đoán hấp phụ paracetamol BC biến tính - từ vỏ cam [17] Gần đây, Zhu cộng (2021) chứng minh hoạt động tốt mơ hình “rừng ngẫu nhiên” (random forest) dự báo khả hấp phụ tetracycline sulfamethoxazole vật liệu carbon khác dựa vào thuật tốn ANN [18] Ngồi ra, ANN áp dụng để dự báo Log Kd (tỷ lệ Qe / Ce) Log KF (của mô hình Freundlich trạng thái cân bằng) cho vật liệu hấp phụ nano carbon, BC graphenes [19, 20] Mặc dù kết nghiên cứu trước đạt hiệu đáng kể, nhiên, ứng dụng ML cho nghiên cứu hấp phụ toàn diện BC phương pháp khai thác liệu còn bị hạn chế Công việc bao gồm thu thập loạt liệu rộng qua quan sát mười năm gần từ nghiên cứu cơng bố tạp chí khoa học loại bỏ loại dược phẩm môi trường nước bằng loại BC khác Dựa phân tích nêu trên, đề xuất đề tài luận văn tốt nghiệp: “Ứng dụng mơ hình học máy để dự báo khả hấp phụ dược phẩm than sinh học môi trường nước” 2.Mục tiêu nghiên cứu Mục tiêu tổng quát Làm rõ hiệu hấp phụ dược phẩm BC môi trường nước sở số liệu thực tế từ nghiên cứu xuất giới (số liệu từ khoảng 267 báo khoa học, 19 loại dược phẩm 88 biochars) Phạm vi nghiên cứu Phát triển mơ hình học máy dự báo hấp phụ (R2>0.9) xây dựng công cụ giao diện người dùng web (website user interface) để hỗ trợ đánh giá, lựa chọn BC tiềm cho hấp phụ dược phẩm môi trường nước Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu - Dữ liệu nghiên cứu hấp phụ từ nghiên cứu cơng bố tạp chí uy tín có phản biện - Các thông số hấp phụ: + Thông số Abraham: Là thông số dùng để để mô tả định lượng tương tác chất tan/dung môi Mỗi loại dược phẩm lựa chọn (hợp chất trung hòa) có giá trị thơng số Abraham khác Thơng số Abraham gồm có thơng số đơn lẽ sau: A (Khả cho liên kết hydro), B (Khả chấp nhận liên kết hydro), S (Tính phân cực: Polarity), E (Khúc xạ mol dư) V (Thể tích mol) Giá trị thơng số Abraham lấy từ sở liệu UFZ-LSER địa chỉ: THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ Lưu hành nội https://www.ufz.de/index.php?en=31698&contentonly=1&m=0&lserd_data[mvc]=Publi c/start + BET (Specific surface area): Là diện tích riêng bề mặt BC xác định bằng phương pháp Brunauer–Emmett–Teller + PV (Pore volume): Là thể tích lổ rỗng BC, đơn vị cm3/g + PS (pore size): Là kích thước lổ trung bình BC, đơn vị tính nanomet (nm) + TemP (Temperature of pyrolysis): Là nhiệt độ nhiệt phân chế tạo BC - Kết dung lượng hấp phụ: Dung lượng hấp phụ cực đại (Qm, mg dược phẩm/g BC) từ mơ hình Langmuir - Các mơ hình học máy: 02 phương pháp/mơ hình học máy sử dụng bao gồm: + Thuật tốn/mơ hình KNN (K nearest neigbor): Ứng dụng dự báo dung lượng hấp phụ dược phẩm BC + Thuật toán Cubist: Ứng dụng dự báo dung lượng hấp phụ Phạm vi nghiên cứu Dữ liệu hấp phụ dược phẩm sử dụng nghiên cứu này, có phạm vi giới hạn sau: - Dữ liệu từ nghiên cứu cơng bố tạp chí uy tín có phản biện: + 267 báo khoa học (ngôn ngữ Tiếng Anh, ISI Scopus) + 19 loại dược phẩm khác (kháng sinh, kích thích thần kinh tổng hợp) + 88 loại BC, gồm BC thường biến tính - Các thí nghiệm hấp phụ dược phẩm bằng BC cơng bố báo khoa học thỏa mãn 02 điều kiện: + Có thí nghiệm đẳng nhiệt hấp phụ + Mơ kết thí nghiệm đẳng nhiệt hấp phụ bằng mơ hình Langmuir (có kết dung lượng hấp phụ cực đại Qm) - Các thí nghiệm hấp phụ báo khoa học phải dạng mẻ đơn chất hấp phụ Dược phẩm pha trộn với nước cất nồng độ thích hợp để thực hấp phụ BC - Các thí nghiệm đồng hấp phụ (nhiều loại dược phẩm), hấp phụ dạng cột khơng thực thí nghiệm đẳng nhiệt hấp phụ (thí nghiệm điều kiện nhiệt độ ổn định) loại trình thu thập liệu Ý nghĩa đề tài 4.1.Ý nghĩa khoa học Nghiên cứu làm rõ hiệu hấp phụ dược phẩm BC dựa liệu học máy Kết đề tài góp phần làm phong phú, bổ sung thêm vào kho tàng kiến thức lĩnh vực hấp phụ vật liệu BC 4.2.Ý nghĩa thực tiễn Kết nghiên cứu nhằm đưa công cụ hỗ trợ đánh giá lựa chọn BC tiềm cho xử lý dược phẩm mơi trường nước; góp phần giảm chi phí, thời gian hạn chế nước thải phát sinh từ phòng thí nghiệm THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ Lưu hành nội Phạm vi nghiên cứu ứng dụng thực triển khai hấp phụ dược phẩm đơn lẻ môi trường nước cất điều kiện thí nghiệm dạng mẻ Bố cục luận văn MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN CHƯƠNG 2: ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP CHƯƠNG 3: KẾT QUẢ NGHIÊN CỨU VÀ THẢO LUẬN KẾT LUẬN VÀ KIẾN NGHỊ TÀI LIỆU THAM KHẢO DANH MỤC CƠNG TRÌNH KHOA HỌC PHỤ LỤC THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ Lưu hành nội CHƯƠNG I: TỔNG QUAN 1.1 Giới thiệu dược phẩm 1.1.1 Dược phẩm môi trường a Nồng độ dược phẩm môi trường Hiện việc thải bỏ loại dược phẩm không qua xử lý điều lo ngại vấn đề ô nhiễm nguồn nước Các nghiên cứu chứng minh dư lượng vài loại dược phẩm tìm thấy nước mặt, nước ngầm, đất mô động vật với nồng độ ô nhiễm cao [21] Theo thống kê Cơ quan thăm dò địa chất Hoa Kỳ nghiên cứu với 139 nguồn nước, có 80% nguồn nước chứa dư lượng nhiều dược phẩm, phân nửa chứa 07 hóa chất khác có nguồn chứa tới 38 hóa chất [22] Một số loại thuốc giảm đau, thuốc chống vi trùng, thuốc chống trầm cảm, thuốc tránh thai thuốc chống ký sinh trùng thường tìm thấy môi trường nước lục địa [21] b Nguồn dược phẩm môi trường Dược phẩm chủ yếu phát tán môi trường thông qua: - Xả thải từ nhà máy xử lý nước thải thị có chứa dược phẩm; - Nguồn nước: Nước rỉ rác, nước xử lý dùng để tưới tiêu; dược phẩm còn tồn đọng thấm vào mạch nước ngầm; - Rãi phân gia súc, nuôi trồng thủy sản; dược phẩm thường trộn với thức ăn chăn nuôi Các nguồn phát thải dược phẩm khác [23]; - Xả thải từ nhà máy sản xuất; - Sự lan truyền bùn thải có chứa dược phẩm bị loại bỏ khỏi nước thải trình xử lý sinh học; - Chăn thả gia súc; - Thuốc dùng cho thú y; - Thải bỏ không phù hợp vào bãi chôn lấp c Những ảnh hưởng rủi ro môi trường Ảnh hưởng đến sức khỏe rủi ro môi trường dược phẩm chưa rõ ràng biến động, chuyển hóa mơi trường, khó khăn việc đánh giá Các nghiên cứu gần đưa nhận định ban đầu ảnh hưởng dược phẩm Những tác động mãn tính tìm thấy thử nghiệm ngắn hạn thường nồng độ cao nồng độ tìm thấy mơi trường nghiên cứu Một số thử nghiệm đưa phản ứng độc hại chung, dựa chế hoạt động [24] Cleuvers (2008) chứng minh độc tính hỗn hợp thuốc chống viêm khơng steroid chống lại lồi Daphnia (động vật giáp xác phù du) cao đáng kể nồng độ mà chất đơn lẻ có tác dụng nhẹ [25] Các nồng độ dược phẩm sử dụng trình thử nghiệm độc chất khác khác nồng độ dược phẩm môi trường nơi sản xuất [26, 27] 1.1.2 Các phương pháp xử lý dược phẩm Ngày nay, với gia tăng dân số, lượng dược phẩm sử dụng nhiều Do đó, số lượng nhà máy nghiên cứu sản xuất dược phẩm ngày lớn Nước THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ Lưu hành nội thải nhà máy thường chứa lượng định dược phẩm, không quản lý xử lý phát tán môi trường Việc xử lý nước thải dược phẩm cần thiết cấp bách nhà máy sản xuất dược phẩm Vì vậy, để hoạt động tốt bảo vệ môi trường phát triển bền vững, nhà máy sản xuất thuốc cần phải có hệ thống xử lý hiệu Tuy nhiên, đa phần nhà máy cơng trình xử lý nước thải không thiết kế để loại bỏ chất vi lượng khó phân hủy dược phẩm [32] 1.2 Giới thiệu than sinh học 1.2.1 Quá trình chế tạo than sinh học BC loại vật liệu giàu cacbon, tạo thành từ việc đốt nóng sinh khối điều kiện khơng có thiếu oxy [45, 46] Nó có đặc tính xốp, độ rỗng lớn, diện tích bề mặt cao có khả hấp phụ tốt [47, 48] Quá trình chế tạo BC gọi trình nhiệt phân nhiệt độ nhiệt phân thường khoảng từ 300 đến 1000 oC [46] 1.2.2 Nguyên liệu loại than sinh học a Nguyên liệu Nguồn nguyên liệu để tạo BC đa dạng, bùn hoạt tính [59], chất thải gia cầm [49], chất thải cà phê [60], chất thải nông nghiệp [61], chất thải rắn đô thị [62], tre [63], vỏ trấu [64] mai dương b Các loại than sinh học BC bao gồm loại: BC thông thường BC biến tính - BC thường than tạo điều kiện nhiệt phân (băm nhỏ vật liệu, phơi, nung, sấy, rửa nước cất ) BC biến tính BC cải tiến bổ sung tác nhân (hố học, vật lý quy trình) q trình chế tạo (nhiệt phân) - BC thơng thường có số hạn chế khả hấp phụ không cao phạm vi hấp phụ hẹp Do đó, nhiều nghiên cứu sử dụng BC biến tính nhằm cải thiện chức hiệu xử lý chất thải 1.2.3 Ứng dụng than sinh học Các nghiên cứu BC tập trung vào tiềm hấp phụ thí nghiệm dạng mẻ, cột BC áp dụng để loại bỏ chất như: thuốc nhuộm [67, 68], dinh dưỡng [64], hợp chất hữu [69] kim loại nặng [70, 71] môi trường nước Ứng dụng BC đa dạng từ trình sản xuất nhiệt đến lượng, xử lý khí thải, luyện kim, nông nghiệp, vật liệu xây dựng, y tế làm giảm khí thải nhà kính [72] BC ngun liệu có sẵn, chi phí thấp, đặc tính bề mặt vật lý/ hóa học thuận lợi, có khả xử lý hiệu chất gây ô nhiễm Đã có nhiều nghiên cứu tính chất ứng dụng BC xử lý nước nước thải [73] 1.3 Cơ chế hấp phụ 1.3.1 Cơ chế hấp phụ vật lý Trong hấp phụ vật lý, phân tử chất bị hấp phụ liên kết bề mặt phân tử lực liên kết Van Der Walls Chất bị hấp phụ cố định bề mặt phân chia pha bị giữ lại bề mặt chất hấp phụ, khơng tạo thành hợp chất hóa học Ở hấp phụ vật lý, nhiệt hấp phụ không lớn THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ Lưu hành nội 1.3.2 Cơ chế hấp phụ hoá học Hấp phụ hóa học phân tử chất hấp phụ tạo hợp chất hóa học với chất bị hấp phụ Lực hấp phụ hóa học lực liên kết hóa học thơng thường Lực liên kết mạnh nên khó bị phá vỡ thiệt hấp phụ hóa học lớn Giữa hấp phụ hóa học vật lý thực tế khó phân biệt không rõ ràng Một số trường hợp tồn trình hấp phụ vật lý hóa học Ở nhiệt độ thấp xảy q trình hấp phụ vật lý, tăng nhiệt độ lên khả hấp phụ vật lý giảm còn khả hấp phụ hóa học lại tăng lên [80] ❖ Các yếu tố ảnh hưởng đến khả hấp phụ như: - Diện tích bề mặt vật liệu hấp phụ: Diện tích lớn khả hấp phụ cao - Thời gian tiếp xúc thời gian lưu: Thời gian lâu hiệu cao - Độ tan chất tan chất lỏng: Chất tan nước dễ dàng tách chất có khả hòa tan cao - pH, nhiệt độ điều kiện khác 1.4 Tổng quan học máy nghiên cứu ứng dụng học máy dự báo hấp phụ 1.4.1 Lịch sử đời, khái niệm phân loại học máy a Lịch sử đời học máy Học máy (machine learning) đời vào cuối năm 80 đầu năm 90 kỷ XX Là lĩnh vực trí tuệ nhân tạo (Artificial Intelligence) liên quan đến việc nghiên cứu xây dựng kĩ thuật cho phép hệ thống "học" tự động từ liệu để giải đưa định dựa liệu để thực nhiệm vụ định Các chương trình thuật toán thiết kế theo cách mà chúng học hỏi cải thiện theo thời gian tiếp xúc với liệu b Khái niệm học máy Học máy (machine learning) thuật ngữ để hành động máy tính tự học để cải thiện nhiệm vụ mà thực hiện; Học máy nhánh trí thơng minh nhân tạo, cho phép hệ thống máy tính học trực tiếp từ ví dụ, liệu kinh nghiệm; Hiệu suất máy tính thực nhiệm vụ trở nên tốt thực nhiệm vụ nhiều lần Hay nói cách khác khả học máy sử dụng thuật tốn để phân tích thơng tin có sẵn học hỏi từ đưa định dự đốn thứ có liên quan thay tạo phần mềm với hành động hướng dẫn chi tiết để thực nhiệm vụ cụ thể c Phân loại học máy Học máy phân thành loại bao gồm: - Học có giám sát (Supervied learning) - Học khơng giám sát (Unsupervied learing) - Học bán giám sát (Semi-supervised learning) - Học tăng cường (Reinforcement learning) THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ Lưu hành nội 1.4.2 Các nghiên cứu ứng dụng học máy dự báo hấp phụ Trong năm gần đây, nghiên cứu ứng dụng mơ hình học máy để dự báo khả hấp phụ vấn đề còn Ở Việt Nam, gần chưa có nghiên cứu Nhiều nghiên cứu ứng dụng mơ hình học máy sử dụng mơ hình ANN, NNET, v.v làm rõ mối quan hệ phức tạp đối tượng dự báo mà khơng cần thực thí nghiệm thực tế Trong hệ thống hấp phụ bằng mơ hình học máy, đối tượng dự báo đa dạng phong phú với phương pháp dự báo khác dự báo hiệu hấp phụ, dự báo khả hấp phụ tối đa (Qm), khả hấp phụ đạt trạng thái cân bằng (Qe), v.v… Trên giới có nhiều nghiên cứu áp dụng mơ hình dự báo hấp phụ Trong báo cáo, Afolabi nnk (2020) phát triển mơ hình NNET để dự báo khả hấp phụ paracetamol bằng than sinh học biến tính từ vỏ cam [17] Bên cạnh đó, Xu nnk (2021) ứng dụng mơ hình random forest để dự báo khả hấp phụ tetracycline sulfamethoxazole vật liệu từ carbon khác bằng mơ hình định ANN [18] Ngoài ra, nhiều nghiên cứu báo cáo gần sử dụng mơ hình ANN từ vật liệu hấp phụ nano carbon, BC graphene để dự báo khả hấp phụ mơ hình Freundlich trạng thái cân bằng [19, 20] Mặc dù, với kết tốt nghiên cứu trước đó, nghiên cứu ứng dụng ML để dự báo khả hấp phụ còn bị hạn chế trình lựa chọn phương pháp hay khai thác liệu Một số báo cáo trước giới hạn dược phẩm cụ thể như: paracetamol, tetracycline sulfamethoxazole nguyên liệu BC, ví dụ: vỏ cam [17, 18, 82, 83], nghiên cứu khác cố gắng làm rõ vật liệu hấp phụ khác [19, 20] làm ảnh hưởng đến việc dự đoán sai THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ Lưu hành nội 10 dùng phương pháp thống kê sử dụng giá trị trung bình cột để điền vào giá trị trống 2.2.3 Phương pháp học máy Dữ liệu hấp phụ xử lý sử dụng đào tạo mơ hình học máy Trong nghiên cứu phương pháp ML sử dụng để: ✓ Dùng thuật toán ML để dự báo dung lượng hấp phụ - Thuật tốn KNN: KNN thực toán dự báo cho số thực (biến đầu số) phân loại (biến đầu phân loại, ví dụ: “Hiệu quả”, “lỗi”, vv.) Mơ hình dự đoán bằng cách áp dụng nguyên tắc gần tập liệu huấn luyện (dữ liệu mới) Nó khơng phải mơ hình đào tạo tập liệu biết trước, hay nói cách khác mơ hình KNN đào tạo trước sử dụng [85] Để xác định mẫu/giá trị lân cận gần nhất, hàm khoảng cách áp dụng (tức khoảng cách Euclid) K số trường hợp mẫu có hàm khoảng cách gần Trong KNN, tất liệu đưa vào huấn luyện (và tập kiểm tra) bao gồm n mẫu (n hàng liệu) Khi mẫu cần dự đoán kết đầu ra, khoảng cách (ví dụ Euclidean) mẫu đến tất mẫu liệu huấn luyện tính tốn k trường hợp (ví dụ: k = 5,5 trường hợp mẫu) với khoảng cách thấp kiểm tra Đối với toán hồi quy, dự đốn cuối tính trung bình k lân cận gần [85] Hình 2.9 Diễn giải mơ hình học máy KNN [86] - Mơ hình Cubist: Từ đánh giá sơ ban đầu phạm vi nghiên cứu này, với kinh nghiệm đào tạo thuật toán ML [86, 87], định sử dụng Cubist để dự báo Qe Mơ hình Cubist, hình thức mơ hình “cây định” – phát triển từ mơ hình M5 - phân loại dựa vào mơ hình hồi quy [88, 89] Cơ chế Cubist xây dựng mơ hình tuyến tính với quy tắc, gọi “cây – tạo ra” “lá - điểm cuối” Mối quan hệ quy tắc phương trình hồi quy tuyến tính lệnh "nếu-thì", THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ Lưu hành nội 11 quy tắc (rule) kết hợp với nhiều mơ hình tuyến tính [86, 87, 90] Đối với quy tắc (If – Nếu), (then) đồng thời phương trình hồi quy tuyến tính tạo để dự báo đầu Các phương trình hồi quy tuyến tính hiệu chỉnh thông qua thay đổi committee [88] Committee xem số lượng điều chỉnh mơ hình hồi quy để đạt mơ hình dự báo tốt Hình 2.1 Mơ hình học máy Cubist [86] 2.3 Công cụ ngôn ngữ máy tính 2.3.1 Giới thiệu ngơn ngữ R Ngơn ngữ R (phiên 3.6) sử dụng để xử lý liệu chạy thuật tốn ML Đây ngơn ngữ mơi trường cho tính tốn thống kê đồ họa Ngồi ra, mơ hình áp dụng để trực quan hóa, xử lý liệu chạy thuật toán ML, bao gồm “Random Forest”, “Caret”, “ggplot2”, “psych”, “VIM”, “tidyr” and “dplyr” 2.3.2 Tải R- Studio cài đặt máy tính Để sử dụng R-Studio, việc phải cài đặt R- Studio máy tính Để làm việc này, ta cần truy cập vào website có tên “Comprehensive R Archive Network” (CRAN), sau đây: https://cran.r-project.org/ 2.3.3 Các bước chạy mô hình học máy a Các bước chạy mơ hình dự báo dung lượng hấp phụ Qe Sau bước cụ thể thực mơ hình học máy phần mềm R-Studio: Bước1: Trước tiến hành thực bước mơ hình, cần làm liệu Bước 2: Để thực việc chạy mơ hình R, cần tải cài đặt package (gói) liệu để mở file excel chứa thuật toán mơ hình Bước 3: Sau cài đặt package, gọi package để làm việc Bước 4: Truy xuất liệu để làm việc Bước 5: Dữ liệu chia thành phần: phần liệu đào tạo với 80%, phần liệu Bước 6: Sau phân chia liệu xong, tiến hành chuẩn bị khai thác liệu để đánh giá thuật toán THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ Lưu hành nội 12 Bước 7: Tinh chỉnh mơ hình b Các bước chạy mơ hình dự báo dung lượng hấp phụ Qm Bước 1: Thực cài đặt 04 package Bước 2: Tải gói lên thư viện để làm việc Bước 3: Truy xuất liệu để làm việc Bước 4: Dữ liệu chia thành phần: phần liệu đào tạo với 80%, phần liệu kiểm tra với 20% Thực lệnh bên Bước 5: Sau phân chia liệu xong, tiến hành chuẩn bị khai thác liệu để đánh giá thuật tốn Bước Dùng mơ hình đào tạo để dự báo liệu kiểm tra Sau thực thao tác kỹ thuật để tạo liệu để tính R2 RMSE Bước 7: Sau có kết R2 RMSE, ta thực vẽ biểu đồ residual (phần dư/sai số) c Xây dựng công cụ giao diện người dùng Web ❖ Giao diện người dùng Bước 1: Cần tải cài đặt package (gói) liệu Bước 2: Sau cài đặt package, gọi package để làm việc Bước 3: Tạo ứng dụng web, liệu MAC đưa vào máy học sau cho kết địa web Người dùng nhấp vào địa khai báo giá trị đầu vào, sau phần mềm giao diện web đưa kết dự đốn Hình 2.2 Phần mềm giao diện người dùng web Hình 2.3 Phần mềm giao diện người dùng web THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ Lưu hành nội 13 CHƯƠNG III: KẾT QUẢ VÀ THẢO LUẬN NGHIÊN CỨU 3.1 Thống kê mô tả suy luận 3.1.1 Dữ liệu thực tế Dữ liệu dung lượng hấp phụ kết báo cáo báo thu thập lưu trữ phần mềm excel Giá trị Qm kết rút từ mơ liệu hấp phụ bằng phương trình Langmuir (3) Dữ liệu cần thiết cho trình thiết kế hệ thống hấp phụ Có 02 liệu bao gồm liệu hấp phụ cực đại Qm liệu hấp phụ bão hồ Qe Mơ hình Langmuir (dạng phi tuyến tính): 𝑞𝑒 = 𝑞𝑚 𝐾𝐿 𝐶𝑒 CT (3) 1+ 𝐾𝐿 𝐶𝑒 Trong đó: qe hấp phụ bảo hòa qm hấp phụ tối đa (mg/g) KL hằng số Langmuir (L/mg) Ce nồng độ bão hòa (mg/L) Dữ liệu dung lượng hấp phụ cực đại (Dữ liệu Qm) nhằm sàng lọc lựa chọn vật liệu BC tiềm ứng dụng loại bỏ dược phẩm mà không cần phải tốn thời gian thực thí nghiệm hạn chế nước thải phát sinh mơi trường Vì giá trị Qm thu từ phương trình Langmuir (ở điều kiện cân bằng) nên có khả chứa sai số lớn, cần sàng lọc giá trị bất thường Dữ liệu ngoại lai Qm phát biểu đồ hộp (box-plot) – giá trị vượt khỏi phạm vi bách phân vị Q1 Q3, bao gồm 18 hàng có giá trị lớn 258,76 mg /g xóa khỏi liệu Dữ liệu cuối làm (loại bỏ giá trị trùng lặp, lỗi, biến không quan trọng) làm bao gồm 152 hàng 05 cột để chạy mơ hình ML Bảng 3.1 thể liệu Qm, cột Stt Dược phẩm 02 biến mô tả - không dùng để chạy mơ hình Qm đầu mục tiêu (tức biến phụ thuộc) biến khác (S, A, BET PV) biến độc lập (tức biến đầu vào) Các biến cuối lựa chọn để đưa vào chạy mơ hình thu thập 36 báo Dữ liệu ban đầu thu thập hết tất biến Sau đó, sử dụng công cụ xử lý liệu để chọn lại biến cần thiết, biến không quan trọng không đóng góp cho hiệu mơ hình bị loại bỏ Bảng 3.1 Bộ liệu tóm tắt dung lương hấp phụ tối đa Qm STT Dược phẩm S A BET PV Qm Citalopram 1,99 3,43 0,02 4,4 Citalopram 1,99 94,39 0,06 3,8 Citalopram 1,99 120,86 0,08 8,5 Citalopram 1,99 209,12 0,13 19,6 Citalopram 1,99 10,82 0,02 Citalopram 1,99 2,36 0,018 2,2 Salicylic acid 0,85 0,73 1,35 0,095 7,56 THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ Lưu hành nội 14 Salicylic acid 0,85 0,73 1,35 0,193 16,84 Salicylic acid 0,85 0,73 1,35 0,193 22,7 10 Ibuprofen 0,7 0,56 1,35 0,378 10,74 11 Sulfamethazine 2,55 0,65 0,85 0,004 15,656 12 Sulfamethazine 2,55 0,65 1,22 0,003 14,681 13 Sulfamethazine 2,55 0,65 2,31 0,008 20,559 14 Sulfamethazine 2,55 0,65 2,31 0,008 18,776 15 Sulfamethazine 2,55 0,65 2,31 0,008 18,591 16 Sulfamethazine 2,55 0,65 2,31 0,008 10,451 17 Sulfamethazine 2,55 0,65 7,1 0,038 37,731 18 Sulfamethazine 2,55 0,65 7,1 0,038 32,192 19 Sulfamethazine 2,55 0,65 7,1 0,038 30,015 20 Sulfamethazine 2,55 0,65 7,1 0,038 25,226 151 Salicylic acid 0,85 0,73 841 0,378 48,8 152 Salicylic acid 0,85 0,73 477 0,38 50,5 … Dữ liệu dung lượng hấp phụ bão hòa (Dữ liệu Qe) liệu với biến mục tiêu giá trị dung lượng trạng thái cân bằng – trích xuất từ biểu đồ hấp phụ Nó bao gồm đặc tính chất hấp phụ điều kiện thí nghiệm hấp phụ Mục đích thu thập liệu nhằm hỗ trợ nghiên cứu hấp phụ, ước lượng hiệu sơ để xác định liều lượng cần dùng loại dược phẩm loại BC Dữ liệu còn dùng để phát triển thuật tốn nhằm hiểu tồn diện chế hấp phụ sở dự đoán hiệu hấp phụ dược phẩm BC điều kiện bão hòa Dữ liệu Qe bao gồm 07 biến đầu vào gồm: BET, Ci, AD, O/C, PV, A B biến mục tiêu Qe với 1033 dòng, thể tóm tắt Bảng 3.2 Bảng 3.2 Bộ tóm tắt liệu dung lương hấp bão hoà Qe STT Dược phẩm A B BET PV AD Citalopram 1,53 3,43 0,02 0,5 1,212965 0,494163 1,99199 Citalopram 1,53 3,43 0,02 0,5 1,61512 0,494163 2,38436 Citalopram 1,53 3,43 0,02 0,5 2,23643 0,494163 2,5884 Citalopram 1,53 3,43 0,02 0,5 2,608245 0,494163 2,79243 Citalopram 1,53 3,43 0,02 0,5 2,91485 0,494163 3,07494 Citalopram 1,53 3,43 0,02 0,5 3,50824 0,494163 3,20574 Citalopram 1,53 3,43 0,02 0,5 3,98069 0,494163 3,69228 Citalopram 1,53 3,43 0,02 0,5 4,705335 0,494163 3,65043 Citalopram 1,53 3,43 0,02 0,5 5,483295 0,494163 4,17359 10 Citalopram 1,53 3,43 0,02 0,5 6,94296 0,494163 4,64444 11 Citalopram 1,53 94,39 0,06 0,5 1,418965 0,498778 2,66481 12 Citalopram 1,53 94,39 0,06 0,5 1,734715 0,498778 2,87459 13 Citalopram 1,53 94,39 0,06 0,5 2,297755 0,498778 2,87459 14 Citalopram 1,53 94,39 0,06 0,5 2,61077 3,23646 THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ Ci O_C 0,498778 Qe Lưu hành nội 15 15 Citalopram 1,53 94,39 0,06 0,5 3,15541 0,498778 3,4777 16 Citalopram 1,53 94,39 0,06 0,5 3,796385 0,498778 3,58259 17 Citalopram 1,53 94,39 0,06 0,5 4,472885 0,498778 4,13851 18 Citalopram 1,53 94,39 0,06 0,5 5,35248 0,498778 4,72064 19 Citalopram 1,53 120,86 0,08 0,5 3,516275 0,502169 4,51859 20 Citalopram 1,53 120,86 0,08 0,5 4,344625 0,502169 5,12921 … 1031 Ibuprofen 0,56 0,79 342 0,132 3,33 23,94501 0,508075 4,799386 1032 Ibuprofen 0,56 0,79 342 0,132 3,33 20,59512 0,508075 4,316485 1033 Ibuprofen 0,56 0,79 342 0,132 3,33 17,44552 0,508075 3,752627 3.1.2 Mô tả dữ liệu Mục đích bước để tóm tắt liệu, nhận diện kiểu phân bố suy luận thông tin biến Chẳng hạn, liệu nghiên cứu có phân bố chuẩn, giá trị suy luận thống kê trung bình, trung vị, sai số chuẩn, khoảng tin cậy, v.v cung cấp nhiều thơng tin có giá trị, giúp hiểu liệu rõ Trong nghiên cứu này, có 19 loại dược phẩm sử dụng, bao gồm: Thuốc kháng sinh (Tetracycline, norfloxacin, ciprofloxacin, metronidazole, sulfadiazine, sulfamerazine sulfamethoxazole), thuốc kích thích thần kinh (Caffeine), thuốc gây mê (Benzocaine, 2-phenoxyethanol) thuốc tổng hợp (Acetaminophen, citalopram, diclotine, ibuprofen, axit salicylic, sulfamethazine naproxen) Các thống kê mô tả liệu sử dụng nghiên cứu trình bày Bảng 3.3 Giá trị độ lệch (skewness) = 0, liệu phân bố chuẩn; giá trị lớn, chứng tỏ liệu bị lệch chuẩn (dữ liệu phân bố khơng khó để suy giá trị suy luận) Theo quan sát cho thấy, đa số biến có độ lệch phân bố (skewness) gần dương, phần đuôi biến nằm bên phải Độ lệch biến cao (tức giá trị lệch > 1), cho thấy rằng liệu không phân bố chuẩn Chỉ có biến Temp có phân bố liệu xấp xỉ đối xứng, gần với phân phối chuẩn Khoảng giá trị nhỏ – lớn biến lớn, chẳng hạn, BET có giá trị tối đa gấp 3831 lần tối thiểu, Qm 1082 lần thời gian 2400 lần Có thể khẳng định rằng, biến liệu có khoảng giá trị (range) rộng, độ biến thiên lớn không tuân theo luật phân bố chuẩn thường không phù hợp cho phương pháp phân tích thống kê thơng thường (chẳng hạn, mơ hình hồi quy tuyến tính đòi hỏi biến phải tuân theo phân bố chuẩn) Biến mục tiêu có giá trị trung bình Qm đạt 48,29 mg/g THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ Lưu hành nội 16 Bảng 3.3 Thống kê tóm tắt biến sử dụng cho thuật tốn ML Biến Trung bình Độ lệch chuẩn Giá trị tối thiểu Giá trị tối đa Độ lệch (skewness) H/C 0,45 0,38 0,03 3,76 5,18 N/C 0,04 0,04 0,0 0,24 2,36 O/C 0,25 0,24 3,10-3 1,58 2,47 PS 10,09 29,49 1,32 213,29 6,46 BET 191,26 255,60 0,48 1838,86 2,64 PV 0,15 0,16 0,001 1,03 1,84 pHS 6,28 1,40 2,00 9,00 -1,32 Tem 27,24 9,11 15,00 61,00 1,83 Time 29,78 42,78 0,08 192,00 2,53 TemP 611,28 189,09 300,00 950,00 0,35 Qm 48,29 55,77 0,22 238,10 1,58 3.1.3 Khả hấp phụ diện tích riêng bề mặt Trong tập liệu Qm BET hai thông số quan trọng nghiên cứu hấp phụ BC để loại bỏ dược phẩm, nghiên cứu kiểm tra xem giá trị trung bình Qm BET có khác biệt ý nghĩa thống kê hay sai số ngẫu nhiên không Kết phân phối biểu đồ Hình 3.1 cho thấy rằng, Qm BET không tuân theo luật phân phối chuẩn, cần sử dụng phương pháp kiểm tra Kruskal-Wallis Phương pháp KruskalWallis phương pháp kiểm tra xem giá trị trung bình nhóm (khơng tn theo luật phân phối chuẩn) có thực khác biệt, có ý nghĩa thống kê (P

Ngày đăng: 21/10/2022, 17:59

Hình ảnh liên quan

ỨNG DỤNG MƠ HÌNH HỌC MÁY ĐỂ DỰ BÁO KHẢ NĂNG HẤP PHỤ DƯỢC PHẨM BẰNG THAN SINH HỌC TRONG   - Ứng dụng mô hình học máy để dự báo khả năng hấp phụ dược phẩm bằng than sinh học trong môi trường nước (tt)
ỨNG DỤNG MƠ HÌNH HỌC MÁY ĐỂ DỰ BÁO KHẢ NĂNG HẤP PHỤ DƯỢC PHẨM BẰNG THAN SINH HỌC TRONG Xem tại trang 1 của tài liệu.
Dữ liệu hấp phụ sẽ được xử lý và sử dụng đào tạo các mơ hình học máy. Trong nghiên cứu này phương pháp ML sẽ được sử dụng để:  - Ứng dụng mô hình học máy để dự báo khả năng hấp phụ dược phẩm bằng than sinh học trong môi trường nước (tt)

li.

ệu hấp phụ sẽ được xử lý và sử dụng đào tạo các mơ hình học máy. Trong nghiên cứu này phương pháp ML sẽ được sử dụng để: Xem tại trang 12 của tài liệu.
quy tắc (rule) kết hợp với nhiều mơ hình tuyến tính [86, 87, 90]. Đối với mỗi quy tắc (If – Nếu), thì (then) đồng thời 1 phương trình hồi quy tuyến tính được tạo ra để dự báo đầu ra - Ứng dụng mô hình học máy để dự báo khả năng hấp phụ dược phẩm bằng than sinh học trong môi trường nước (tt)

quy.

tắc (rule) kết hợp với nhiều mơ hình tuyến tính [86, 87, 90]. Đối với mỗi quy tắc (If – Nếu), thì (then) đồng thời 1 phương trình hồi quy tuyến tính được tạo ra để dự báo đầu ra Xem tại trang 13 của tài liệu.
Bước 7: Tinh chỉnh mơ hình. - Ứng dụng mô hình học máy để dự báo khả năng hấp phụ dược phẩm bằng than sinh học trong môi trường nước (tt)

c.

7: Tinh chỉnh mơ hình Xem tại trang 14 của tài liệu.
Mơ hình Langmuir (dạng phi tuyến tính):  - Ứng dụng mô hình học máy để dự báo khả năng hấp phụ dược phẩm bằng than sinh học trong môi trường nước (tt)

h.

ình Langmuir (dạng phi tuyến tính): Xem tại trang 15 của tài liệu.
Bảng 3.2 Bộ tóm tắt về dữ liệu dung lương hấp bão hoà Qe - Ứng dụng mô hình học máy để dự báo khả năng hấp phụ dược phẩm bằng than sinh học trong môi trường nước (tt)

Bảng 3.2.

Bộ tóm tắt về dữ liệu dung lương hấp bão hoà Qe Xem tại trang 16 của tài liệu.
Bảng 3.3 Thống kê tóm tắt các biến sử dụng cho thuật toán ML - Ứng dụng mô hình học máy để dự báo khả năng hấp phụ dược phẩm bằng than sinh học trong môi trường nước (tt)

Bảng 3.3.

Thống kê tóm tắt các biến sử dụng cho thuật toán ML Xem tại trang 18 của tài liệu.
Hình 3.1 Dung lượng hấp phụ tối đa (a) và diện tích bề mặt được chia theo phương pháp chế tạo thường và biến tính - Ứng dụng mô hình học máy để dự báo khả năng hấp phụ dược phẩm bằng than sinh học trong môi trường nước (tt)

Hình 3.1.

Dung lượng hấp phụ tối đa (a) và diện tích bề mặt được chia theo phương pháp chế tạo thường và biến tính Xem tại trang 19 của tài liệu.
Hình 3.2 Ma trận biểu đồ phân bố cho các biến đầu vào và kết quả.Các tông màu đỏ là tương quan dương và xanh là âm (theo tỷ lệ) - Ứng dụng mô hình học máy để dự báo khả năng hấp phụ dược phẩm bằng than sinh học trong môi trường nước (tt)

Hình 3.2.

Ma trận biểu đồ phân bố cho các biến đầu vào và kết quả.Các tông màu đỏ là tương quan dương và xanh là âm (theo tỷ lệ) Xem tại trang 20 của tài liệu.
còn lại sẽ được “test” độ chính xác của mơ hình. Đây là cách phân chia dữ liệu nhằm tránh “thiên kiến” (bias) so với dùng 100% dữ liệu cho đào tạo mơ hình - Ứng dụng mô hình học máy để dự báo khả năng hấp phụ dược phẩm bằng than sinh học trong môi trường nước (tt)

co.

̀n lại sẽ được “test” độ chính xác của mơ hình. Đây là cách phân chia dữ liệu nhằm tránh “thiên kiến” (bias) so với dùng 100% dữ liệu cho đào tạo mơ hình Xem tại trang 21 của tài liệu.
Hình 3.4 Kết quả dự báo của mơ hình KNN với dữ liệu kiểm tra - Ứng dụng mô hình học máy để dự báo khả năng hấp phụ dược phẩm bằng than sinh học trong môi trường nước (tt)

Hình 3.4.

Kết quả dự báo của mơ hình KNN với dữ liệu kiểm tra Xem tại trang 22 của tài liệu.
Mơ hình Cubist sử dụng 80% dữ liệu đào tạo (dữ liệu Qe) để phát triển mơ hình dự báo. Mơ hình ML  sẽ  được  chạy  10  lần  dựa  vào  kĩ  thuật  lấy  mẫu  lại  theo  nguyên  tắc  kiểm  tra  chéo 10 lần (10 fold - Cross validation) - Ứng dụng mô hình học máy để dự báo khả năng hấp phụ dược phẩm bằng than sinh học trong môi trường nước (tt)

h.

ình Cubist sử dụng 80% dữ liệu đào tạo (dữ liệu Qe) để phát triển mơ hình dự báo. Mơ hình ML sẽ được chạy 10 lần dựa vào kĩ thuật lấy mẫu lại theo nguyên tắc kiểm tra chéo 10 lần (10 fold - Cross validation) Xem tại trang 22 của tài liệu.
Hình 3.5 Kết quả mơ hình Cubist với dữ liệu đào tạo dựa trên các thông số RMSE (a) và R2 - Ứng dụng mô hình học máy để dự báo khả năng hấp phụ dược phẩm bằng than sinh học trong môi trường nước (tt)

Hình 3.5.

Kết quả mơ hình Cubist với dữ liệu đào tạo dựa trên các thông số RMSE (a) và R2 Xem tại trang 23 của tài liệu.
Hình 3.7 Mơ hình giao diện người dùng – mơ hình KNN dự báo dung lượng hấp phụ cực đại  - Ứng dụng mô hình học máy để dự báo khả năng hấp phụ dược phẩm bằng than sinh học trong môi trường nước (tt)

Hình 3.7.

Mơ hình giao diện người dùng – mơ hình KNN dự báo dung lượng hấp phụ cực đại Xem tại trang 25 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan