CHƯƠNG ll : PHƯƠNG PHÁP NGHIÊN CỨU
2.1. Quy trình nghiên cứu
Quy trình nghiên cứu: ứng dụng mơ hình học máy để dự báo khả năng hấp phụ dược phẩm bằng BC trong môi trường nước bao gồm thứ tự các bước (5 bước) như sau:
Bước 1: Tìm kiếm, thu thập và tổng hợp các dữ liệu.
Dữ liệu về hấp phụ dược phẩm bằng BC được thu thập từ các bài báo khoa học được công bố trên các tạp chí quốc tế uy tín. Hiện nay, trên thế giới có nhiều hệ thống xếp hạng các tạp chí, trong đó có hai hệ thống được xem là phổ biến, uy tín và tin cậy nhất đó là ISI (Viện thơng tin khoa học - Institute of Scientific Information) và SCOPUS.
ISI được thành lập bởi tác giả Eugene Garfield vào năm 1960, đến năm 1992 được Thomson Scientific & Healthcare mua lại, được biết đến với tên Thomson ISI và hiện nay là một phần của Intellectual Property & Science thuộc Thomson Reuters. Sau đó, vào năm 2016, Intellectual Property & Science được đổi tên thành Clarivate Analytics. Tạp chí uy tín là các tạp chí có phản biện được xếp vào ISI hoặc SCOPUS. Khi xếp hạng các tạp chí người ta thường dựa vào các chỉ số đo chất lượng khoa học của tạp chí, chẳng hạn như chỉ số ảnh hưởng IF (Impact Factor) hoặc nhóm Q1, Q2, Q3 và Q4.
Để biết tạp chí nào thuộc ISI (SCIE), tra cứu tên tạp chí ở website: https://mjl.clarivate.com/home
và tạp chí thuộc Scopus, tra tại:
https://www.scimagojr.com/journalsearch.php
Thời gian lựa chọn thu thập dữ liệu là các cơng trình nghiên cứu cơng bố trong gần 10 năm trở lại, với khoảng thời gian từ năm 2010 đến 2020. Số lượng các nghiên cứu về hấp phụ dược phẩm bằng BC trước những năm 2010 được đăng trên các tạp chí là rất ít và số liệu không đầy đủ. Thời điểm kết thúc quá trình tìm kiếm tài liệu trong nghiên cứu này là cuối năm 2020.
Hiện nay, có nhiều cơ sở dữ liệu khác nhau được ứng dụng nhằm hỗ trợ trong quá trình tìm kiếm tài liệu từ các cơng trình nghiên cứu trên thế giới như: cơ sở dữ liệu ScienceDirect, Scopus, google scholar. Cơ sở dữ liệu ScienceDirect là miễn phí, nhưng nó chỉ đưa ra các cơng trình nghiên cứu xuất bản bởi Elsevier. Cơ sở dữ liệu
Scopus là cơng cụ mất phí và nó cũng chỉ đưa ra các cơng trình nghiên cứu chỉ thuộc mục Scopus. Đối với Google scholar, đây là cơng cụ tìm kiếm miễn phí, có nguồn thông tin chính xác và uy tín, cho phép truy cập danh mục của các lĩnh vực nghiên cứu khác nhau, bao trùm một lượng lớn kiến thức và được trích dẫn đầy đủ. Trong nghiên cứu này, chúng tôi đã lựa chọn cơ sở dữ liệu google scholar để tìm kiếm dữ liệu. Giao diện phần mềm và quá trình tìm kiếm tài liệu của cơ sở dữ liệu google Scholar được thể hiện Hình 2.1 và Hình 2.2.
Hình 2.1 Giao diện của phầm mềm cơ cở dữ liệu google scholar
Hình 2.2 Q trình tìm kiếm tài liệu thơng qua phần mềm cơ sở dữ liệu google scholar
Bước 2: Sàng lọc các bài báo phù hợp theo tiêu chí nghiên cứu.
Sau khi đã tìm kiếm các tài liệu trên google scholar. Kết quả đã cho ra hằng trăm bài báo để lựa chọn và tải về máy. Bước này chính là bước lựa chọn ra các bài báo nào cần giữ lại và bài báo nào cần loại đi – dựa vào tiêu chí nghiên cứu.
Tiêu chí lựa chọn (điều kiện cần) bài báo phù hợp trong nghiên cứu này bao gồm:
✓ Là các bài báo có báo cáo dung lượng hấp phụ dược phẩm cân bằng (Qe)
✓ Bài báo có kết quả về dung lượng hấp phụ dược phẩm cực đại (Qm mg dược
phẩm/g BC). Đó là giá trị thu được từ mô phỏng dữ liệu hấp phụ đẳng nhiệt bằng mơ hình động học Langmuir;
✓ Có báo cáo hàm lượng (%) của các nguyên tố C (carbon), H (hydro), O (oxy);
✓ Có báo cáo diện tích bề mặt riêng (BET) của BC;
✓ Bài báo thuộc tạp chí có phản biện, uy tín (ISI và Scopus).
Sau khi sàng lọc và lựa chọn được các bài báo đủ tiêu chuẩn, các thông tin và số liệu từ các bài báo sẽ được trích xuất và nhập vào file excel. Các số liệu và thông tin được thu thập bao gồm: Qm, Qe, BET, PV, PS, Tem, Time, TemP, pH, và Met (phương pháp nhiệt phân).
Bước 3: Xử lý dữ liệu.
Đây là bước sàng lọc, sắp xếp và “làm sạch” dữ liệu. Dữ liệu (từ các bài báo và lưu trữ - quản lý trong file excel) được rà soát và làm sạch bằng cách loại bỏ các dữ liệu trùng, thiếu, hoặc bị lỡi. Bên cạnh đó, dữ liệu thơ cũng có thể được chuyển đổi các hàng/cột, cộng trừ, tính %, tính dung lượng hấp phụ tối đa (Qm) và dung lượng hấp phụ ở trạng thái cân bằng (Qe) của BC. Dữ liệu được cấu trúc theo các cột và hàng như Hình 2.3.
Hình 2.3 Cấu trúc dữ liệu hấp phụ dược phẩm bởi BC lưu trữ trong File excel
Bước 4: Áp dụng kĩ thuật thống kê và thuật toán ML để phân tích số liệu và dự báo. Đây là bước lựa chọn các kĩ thuật thống kê và thuật toán ML để tiến hành khai thác dữ liệu để trả lời câu hỏi nghiên cứu hoặc làm rõ mục tiêu nghiên cứu. Các phương pháp thống kê được dùng để mơ tả dữ liệu (trung bình, trung vị, độ lệch chuẩn, sai số, tương quan…) nhằm trích xuất đặc trưng và phân tích mối tương quan bên trong dữ liệu.
Các thuật tốn ML được dùng để xây dựng mơ hình dự báo năng lực hấp phụ dược phẩm bằng BC. Bước này sẽ hỗ trợ các nhà thiết kế và quản lý vận hành hình dung hoặc dự đốn Qm của BC nhất định mà không cần phải thực hiện các thí nghiệm quy mơ phịng thí nghiệm mới.
Bước 5: Xây dựng công cụ giao diện người dùng web để dự báo dung lượng hấp phụ.
Sau khi sử dụng các thuật toán để xây dựng dự báo năng lực hấp phụ dược phẩm bằng BC, ta đã có bộ dữ liệu và mơ hình học máy được đào tạo. Tiếp theo là tiến hành xây dựng công cụ giao diện người dùng web để thuận lợi trong việc sử dụng mơ hình ML - dự báo dung lượng hấp phụ.
Trên công cụ này, người dùng sẽ khai báo các giá trị đầu vào (tức là các biến BET, PV, A và S) trên trang giao diện và kết quả của Qm sẽ được trả lại - trích xuất trực tiếp. Đây là công cụ hiệu quả và dễ dàng giúp cho các kỹ sư trong việc sàng lọc các loại BC tiềm năng, thay vì phải thực hiện các thí nghiệm tốn kém và mất thời gian.
Các bước của quy trình nghiên cứu về hấp phụ dược phẩm bằng BC được trình bày ở Hình 2.4.
Hình 2.4 Quy trình nghiên cứu về hấp phụ dược phẩm bằng BC