.7 Giao diện phần mềm Origin 2018

Một phần của tài liệu Ứng dụng mô hình học máy để dự báo khả năng hấp phụ dược phẩm bằng than sinh học trong môi trường nước (Trang 35)

Hình 2.8 Giao diện cơng cụ trích xuất dữ liệu bằng phần mềm Origin

2.2.2. Phương pháp xử lý dữ liệu

- Lưu trữ dữ liệu:

+ Dữ liệu về nghiên cứu hấp phụ dược phẩm bằng BC được lưu trữ và quản lý bằng phần mềm Excel. Dữ liệu được cấu trúc thành các cột và hàng. Các cột là tên các biến đầu vào (các thơng số của hệ thống hấp phụ), gồm có E, S, A, B, V, L, PS, PV, BET, pHs, tem, time, temp, Qm, H/C, O/C, N/C, biomass, và method. Giá trị ở các hàng là kết quả các thí nghiệm hấp phụ đẳng nhiệt.

- Xử lý dữ liệu:

+ Các dữ liệu về hấp phụ trong quá trình thu thập từ các bài báo sẽ được rà soát, làm sạch bằng cách xử lý các số liệu bị trùng, bị lặp và lỗi. Các dữ liệu không chính xác và không phù hợp sẽ bị loại bỏ khỏi tập dữ liệu. Các trường hợp trùng lặp và lỗi giá trị là điều thường xảy ra trong quá trình thu thập dữ liệu. Quá trình xử lý dữ liệu địi hỏi nhiều thời gian và cơng sức trong nghiên cứu. Nếu bỏ qua việc xử lý dữ liệu, khi đưa bộ dữ liệu vào chạy mơ hình ML sẽ cho ra kết quả dự báo sai hoặc phần mềm/lệnh sẽ không hoạt động.

+ Bên cạnh các biến đầu vào thiết yếu (BET, Qe, Qm), có một số biến như nhiệt độ, PS hay PV có thể bị thiếu giá trị do các nghiên cứu không báo cáo đầy đủ. Có nhiều phương pháp để xử lý các thông số bị thiếu trong thu thập dữ liệu. Trong nghiên cứu này, chúng tôi sẽ thay thế dữ liệu thiếu (missing values) bằng phương pháp thống kê. Dữ liệu thiếu sẽ được dùng một phương pháp thống kê như sử dụng giá trị trung bình của cột để điền vào giá trị trống đó.

2.2.3. Phương pháp học máy

Dữ liệu hấp phụ sẽ được xử lý và sử dụng đào tạo các mơ hình học máy. Trong nghiên cứu này phương pháp ML sẽ được sử dụng để:

✓ Dùng thuật toán ML để dự báo dung lượng hấp phụ. - Thuật toán KNN:

KNN có thể thực hiện trong bài tốn dự báo cho số thực (biến đầu ra là số) và phân loại (biến đầu ra là phân loại, ví dụ: “Hiệu quả”, “lỡi”, vv.). Mơ hình dự đốn bằng cách áp dụng nguyên tắc gần nhất của tập dữ liệu huấn luyện (dữ liệu mới). Nó khơng phải là một mơ hình được đào tạo tập dữ liệu biết trước, hay nói cách khác mơ hình KNN khơng phải đào tạo trước khi sử dụng [85].

Để xác định mẫu/giá trị là lân cận gần nhất, hàm khoảng cách được áp dụng (tức là khoảng cách Euclid). K là số trường hợp hoặc mẫu có hàm khoảng cách gần nhất. Trong KNN, tất cả dữ liệu được đưa vào huấn luyện (và cả tập kiểm tra) bao gồm n mẫu (n hàng dữ liệu). Khi một mẫu mới cần dự đoán kết quả đầu ra, khoảng cách (ví dụ Euclidean) của mẫu mới này đến tất cả các mẫu trong dữ liệu huấn luyện được tính toán và k trường hợp (ví dụ: k = 5,5 trường hợp hoặc 5 mẫu) với khoảng cách thấp nhất sẽ được kiểm tra. Đối với bài toán hồi quy, dự đoán cuối cùng được tính trung bình của k lân cận gần nhất [85]. Khoảng cách Euclide của một mẫu được tính như sau:

𝑑 = √∑(𝑥𝑖− 𝑦𝑖)2 𝑛

𝑖=1

CT. (2)

Trong đó: d là khoảng cách Euclidean, xi là giá trị của mẫu dữ liệu mới, yi là giá trị mẫu đào tạo,

i là số tính năng của thứ i.

Quy trình thủ công thực hiện dự báo đầu ra bằng KNN:

✓ Bước 1: Tính khoảng cách d (Euclidean) dựa vào dữ liệu đào tạo và dữ liệu mới

✓ Bước 2: Xếp thứ tự độ lớn d

✓ Bước 3: Chọn giá trị K (số lượng đối tượng gần nhất – có d nhỏ nhất đưa vào tính tốn)

✓ Bước 4: Tính trung bình của biến đầu ra từ dữ liệu đào tạo (dữ liệu sẵn có). Kết quả bước này chính là đầu ra của dữ liệu mới.

Hình 2.9 Diễn giải mơ hình học máy KNN [86]

- Mơ hình Cubist:

Từ đánh giá sơ bộ ban đầu ngoài phạm vi nghiên cứu này, cùng với kinh nghiệm đào tạo các thuật tốn ML [86, 87], chúng tơi quyết định sử dụng Cubist để dự báo Qe.

Mơ hình Cubist, là một hình thức của mơ hình “cây quyết định” – phát triển từ mơ hình M5 - cây phân loại dựa vào mơ hình hồi quy [88, 89]. Cơ chế của Cubist là xây dựng các mơ hình tuyến tính cùng với các quy tắc, được gọi là “cây – tạo ra” và “lá - điểm cuối”. Mối quan hệ của các quy tắc và phương trình hồi quy tuyến tính là lệnh

"nếu-thì", trong đó mỡi quy tắc (rule) kết hợp với nhiều mơ hình tuyến tính [86, 87, 90]. Đối với mỡi quy tắc (If) Nếu, thì (then) đồng thời 1 phương trình hồi quy tuyến

tính được tạo ra để dự báo đầu ra. Các phương trình hồi quy tuyến tính sẽ được hiệu chỉnh thông qua thay đổi committee [88]. Committee có thể được xem như là số lượng các điều chỉnh của mơ hình hồi quy để đạt được mơ hình dự báo tốt nhất.

Hình 2.10 Mơ hình học máy Cubist [86]

2.3. Cơng cụ và ngơn ngữ máy tính

2.3.1. Giới thiệu ngơn ngữ R

Ngôn ngữ R (phiên bản 3.6) được sử dụng để xử lý dữ liệu và chạy thuật toán ML. Đây là một ngôn ngữ và môi trường cho tính tốn thống kê và đồ họa. Ngồi ra, các mơ hình được áp dụng để trực quan hóa, xử lý dữ liệu và chạy thuật toán ML, bao gồm “Random Forest”, “Caret”, “ggplot2”, “psych”, “VIM”, “tidyr” and “dplyr”.

Phân tích số liệu và biểu đồ với lượng dữ liệu lớn thường được tiến hành được tiến hành bằng các phần mềm thông dụng như SPSS, SAS, Stata, S-Plus...Đây là những phần mềm được các công ty phần mềm phát triển và giới thiệu trên thị trường, được áp dụng tại các trường đại học, các trung tâm nghiên cứu trên thế giới sử dụng cho giảng dạy và nghiên cứu.

Nhưng vì chi phí để sử dụng các phần mềm này tương đối đắt tiền, một số trường đại học ở các nước đang phát triển khơng có khả năng tài chính để sử dụng một cách

lâu dài. Do đó các nhà nghiên cứu thống kê trên thế giới đã hợp tác để phát triển một phần mềm mới, với chủ trương mã nguồn mở và được sử dụng hoàn toàn miễn phí [91].

Phần mềm R- Studio là một phiên bản phát triển từ phần mềm của R. Vậy R- Studio là gì? Nói một cách ngắn gọn, R-Studio là một phần mềm sử dụng cho phân tích thống kê và vẽ biểu đồ. Thật ra, về bản chất, R- Studio là ngơn ngữ máy tính đa năng, có thể sử dụng cho nhiều mục tiêu khác nhau, từ tính toán đơn giản, toán học giải trí, tính toán ma trận, đến các phân tích thống kê phức tạp.

2.3.2. Tải R- Studio và cài đặt máy tính

Để sử dụng R-Studio, việc đầu tiên là chúng ta phải cài đặt R- Studio trong máy tính của mình. Để làm việc này, ta cần truy cập vào website có tên là “Comprehensive R Archive Network” (CRAN), sau đây: https://cran.r-project.org/.

Chọn file tài liệu cần tải về để cài đặt phần mềm, tùy theo phiên bản, nhưng thường có tên bắt đầu bằng mẫu tự R và số phiên bản. Phiên bản được cập nhật lại và có tên file Ri386 4.1.3. Khi tải file tài liệu xuống máy tính, bước tiếp theo là cài đặt vào máy tính. Để làm việc này, chúng ta cần nhấn chuột vào file tài liệu đã tải về và làm theo các hướng dẫn cách cài đặt trên màn hình. Sau khi hồn tất việc cài đặt, trên màn hình desktop đã xuất hiện:

Sau khi cài đặt hoàn tất, nhấn chuột vào biểu tượng ở trên Hình 2.11, chúng ta sẽ có một của sổ làm việc trên R - Studio như sau:

Hình 2.12 Màn hình cửa sổ của R- Studio

Màn hình cửa sổ làm việc của R-Studio gồm có 4 khung:

- Bên trái phía trên là khung “nguồn”, khung này dùng để soạn các câu lệnh để xử lý dữ liệu và thực hiện mơ hình;

- Bên trái phía dưới là khung “tương tác”, khung này thể hiện các câu lệnh và kết quả thực hiện câu lệnh. Khung này giống với cửa sổ làm việc của R khi không sử dụng R-Studio.

- Bên phải phía trên là khung "đối tượng" chứa ba thẻ, thẻ Environment dùng để thể hiện thông tin về các đối tượng sử dụng trong khi thực hiện các câu lệnh, thẻ History dùng để thể hiện tất cả các câu lệnh đã soạn kể từ một thời điểm nào đấy, thẻ Connection thể hiện các kết nối.

- Bên phải phía dưới là khung "đa chức năng" chứa 5 thẻ: + Files: chứa các thư mục và tập tin có liên quan;

+ Plots: thể hiện các biểu đồ là kết quả của những lệnh vẽ; + Packages: thể hiện các phụ kiện;

+ Help: thể hiện các trợ giúp; + Viewer: dùng để xem.

2.3.3. Các bước chạy mơ hình học máy

a. Các bước chạy mơ hình dự báo dung lượng hấp phụ Qe

Sau đây là các bước cụ thể thực hiện mơ hình học máy trên phần mềm R-Studio: Bước1: Trước khi tiến hành thực hiện các bước trong mơ hình, cần làm sạch dữ liệu bằng cách xóa bỏ các câu lệnh và kết quả thực hiện trước đó (khi sử dụng lần 2 trở đi) bằng lệnh rm() (xóa bỏ các câu lệnh, kết quả đã thực hiện trước đó), lệnh graphics() (xóa bỏ các biểu đồ) nhằm đảm bảo khơng bị nhầm lẫn kết quả khi thực hiện lại mô hình từ dữ liệu khác.

Bước 2: Để thực hiện được việc chạy mơ hình R, cần tải và cài đặt các package (gói) dữ liệu để mở file excel và chứa thuật tốn trong các mơ hình.

Bước 3: Sau khi đã cài đặt được các package, sẽ gọi các package để làm việc. Bước 4: Truy xuất dữ liệu để làm việc

- Thiết lập file dữ liệu: Chọn đường dẫn và đọc dữ liệu vào máy học: Sử dụng lệnh setwd ("E:/CONG VIEC HUYEN/Luan van Thac si HUYEN/R Data/Qe") và tiến hành đọc dữ liệu bằng lệnh read.xlsx ("Final data-Qe for ML.xlsx"), dữ liệu máy học được chuyển về dạng có đi .xlsx.

Sau khi dữ liệu được máy học, cần kiểm tra dữ liệu mà máy đã học với tất cả dữ liệu bao gồm 1033 dòng và 8 biến.

Hình 2.13 Kết quả sau khi kiểm tra bộ dữ liệu

Bước 5: Dữ liệu được chia thành 2 phần: phần 1 dữ liệu đào tạo với 80%, phần 2 dữ liệu kiểm tra với 20%.

Hình 2.14 Tổng dữ liệu sau khi được tách bộ dữ liệu

Kết quả sau khi sử dụng lệnh để tách bộ dữ liệu ta được dữ liệu đào tạo 80% với 829 dòng và 8 biến, 20% thử nghiệm gồm 204 dòng và 8 biến.

Bước 6: Sau khi phân chia dữ liệu xong, tiến hành chuẩn bị khai thác dữ liệu để đánh giá thuật toán. Bước này với mục đích lấy mẫu lại và cho chạy xáo trộn dữ liệu một cách ngẫu nhiên bằng cách sử dụng xác thực chéo 10 lần (10- fold Crossvalidation) từ dữ liệu Training (80%).

Thuật tốn lựa chọn có khả năng hoạt động trên hồi quy là mơ hình Cubist để thực hiện chạy mơ hình học máy.

Hình 2.15 Thuật tốn của mơ hình học máy cubist từ tập dữ liệu Training

Bước 7: Tinh chỉnh mơ hình.

Mơ hình sẽ có các tham số (thơng số), đây là bước để thử nghiệm các giá trị thông số khác nhau; xem giá trị nào làm mơ hình tối ưu nhất.

Sử dụng các lệnh chạy mơ hình, kết quả sẽ cho ra các giá trị RMSE, R2. Sau đó, dữ liệu được biểu diễn bằng biểu đồ tối ưu hóa siêu tham số.

b. Các bước chạy mơ hình dự báo dung lượng hấp phụ Qm

Bước 1: Thực hiện cài đặt 04 package install.packages("openxlsx") install.packages("caret") install.packages("tidyr") install.packages("dplyr")

Bước 2: Tải các gói lên thư viện để làm việc Require (openxlxl)

Require (caret) Require (tidyr) Library (dplyr)

Bước 3: Truy xuất dữ liệu để làm việc

Thiết lập file dữ liệu. Chọn đường dẫn và đọc dữ liệu vào máy học:

Sử dụng lệnh setwd ("E:/CONG VIEC HUYEN/Luan van Thac si - HUYEN/R Data") và tiến hành đọc dữ liệu bằng lệnh read.xlsx("Data-Lasso.xlsx"), dữ liệu máy học được chuyển về dạng có đi .xlsx.

Sau khi dữ liệu được máy học, cần kiểm tra dữ liệu mà máy đã học với tất cả dữ liệu bao gồm 152 dòng và 5 biến gồm BET, PV, A, S, Qm.

Hình 2.16 Kết quả sau khi kiểm tra bộ dữ liệu

Bước 4: Dữ liệu được chia thành 2 phần: phần 1 dữ liệu đào tạo với 80%, phần 2 dữ liệu kiểm tra với 20%. Thực hiện lệnh bên dưới.

Hình 2.17 Các lệnh để thực tách bộ dữ liệu

Hình 2.18 Kết quả sau khi tách bộ dữ liệu

Kết quả sau quá trình tách, dữ liệu đào tạo gồm 124 dòng và 5 biến; dữ liệu thử nghiệm gồm 28 dòng và 5 biến.

Bước 5: Sau khi phân chia dữ liệu xong, tiến hành chuẩn bị khai thác dữ liệu để đánh giá thuật toán. Bước này với mục đích lấy mẫu lại và cho chạy xáo trộn dữ liệu một cách ngẫu nhiên bằng cách sử dụng xác thực chéo 10 lần (10- fold Crossvalidation) từ dữ liệu Training (80%)

Xây dựng mơ hình KNN (K nearest neighbor). Dữ liệu được thực hiện chạy ngẫu nhiên 500 lần.

Xem đặc tính dữ liệu, sử dụng lệnh bên dưới.

Hình 2.19 Đặc tính của bộ dữ liệu

Dữ liệu đào tạo khi đưa vào chạy mơ hình. Biến đầu vào x gồm 4 biến: BET, PV, A, S; Biến Y là biến đầu ra (dự báo) gồm Qm. Tương tự dữ liệu thử nghiệm được đưa vào chạy mơ hình với x biến đầu vào và y biến đầu ra.

Thuật toán lựa chọn là mơ hình KNN để thực hiện chạy mơ hình học máy. Thực hiện chạy 500 lần lặp lại.

Bước 6. Dùng mơ hình đã đào tạo để dự báo đối với dữ liệu kiểm tra. Sau đó thực hiện thao tác kỹ thuật để tạo ra bộ dữ liệu để tính R2 và RMSE.

Hình 2.20 Các lệnh thực hiện dự báo với dữ kiệu kiểm tra và các thao thác kỹ thuật.

Bước 7: Sau khi có kết quả của R2 và RMSE, ta thực hiện vẽ biểu đồ residual (phần dư/sai số). Tạo ra mơ hình hồi quy tuyến tính (linear regression). Sử dụng lệnh được trình bày ở Hình 2.21.

Hình 2.21 Các lệnh được sử dụng để vẽ biểu đồ phần dư/sai số

Cuối cùng, sau khi đã hiện kết quả biểu đồ phần dư/ sai số ta sẽ thực hiện xuất hình ảnh và lưu về máy.

c. Xây dựng công cụ giao diện người dùng Web

❖ Giao diện người dùng

Bước 1: Cần tải và cài đặt các package (gói) dữ liệu, sử dụng lệnh bên dưới. Library (shiny)

Library (data.table) Library (caret) library(openxlsx)

Bước 2: Sau khi đã cài đặt được các package, sẽ gọi các package để làm việc.

Chọn đường dẫn và thực hiện đọc mơ hình KNN vào máy học. Dữ liệu được chuyển về dạng có đi.rds với lệnh model <- readRDS("model.rds").

Bước 3: Tạo ứng dụng web, dữ liệu MAC được đưa vào máy học và sau đó sẽ cho kết quả địa chỉ web. Người dùng nhấp vào địa chỉ và khai báo các giá trị đầu vào, sau đó phần mềm giao diện web sẽ đưa ra kết quả dự đoán.

CHƯƠNG III: KẾT QUẢ VÀ THẢO LUẬN NGHIÊN CỨU

3.1. Thống kê mô tả và suy luận

3.1.1. Dữ liệu thực tế

Dữ liệu dung lượng hấp phụ là kết quả báo cáo trong các bài báo đã thu thập và được lưu trữ trong phần mềm excel. Giá trị Qm là kết quả rút ra từ mô phỏng dữ liệu hấp phụ bằng phương trình Langmuir (3). Dữ liệu này là cần thiết cho q trình thiết kế hệ thống hấp phụ. Có 02 bộ dữ liệu bao gồm bộ dữ liệu hấp phụ cực đại Qm và dữ liệu hấp phụ bão hoà Qe.

Mơ hình Langmuir (dạng phi tuyến tính): 𝑄𝑒 = 𝑄𝑚𝐾𝐿𝐶𝑒

1+ 𝐾𝐿𝐶𝑒 CT. (3)

Trong đó:

Qe là hấp phụ bảo hòa Qm là hấp phụ tối đa (mg/g). KL là hằng số Langmuir (L/mg) Ce nồng độ bão hòa (mg/L).

Dữ liệu dung lượng hấp phụ cực đại (Dữ liệu Qm) nhằm sàng lọc và lựa chọn vật liệu BC tiềm năng ứng dụng loại bỏ dược phẩm mà không cần phải tốn thời gian thực hiện các thí nghiệm và hạn chế nước thải phát sinh ra mơi trường. Vì giá trị Qm thu được từ phương trình Langmuir (ở điều kiện cân bằng) nên có khả năng chứa sai số lớn, do đó chúng ta cần sàng lọc các giá trị bất thường. Dữ liệu ngoại lai Qm được phát

Một phần của tài liệu Ứng dụng mô hình học máy để dự báo khả năng hấp phụ dược phẩm bằng than sinh học trong môi trường nước (Trang 35)

Tải bản đầy đủ (PDF)

(141 trang)