Phương pháp nghiên cứu

CHƯƠNG ll : PHƯƠNG PHÁP NGHIÊN CỨU

2.2. Phương pháp nghiên cứu

2.2.1. Phương pháp thu thập dữ liệu

Phương pháp thu thập dữ liệu là phương pháp được sử dụng nhằm mục đích có được dữ liệu, số liệu cần thiết cho nghiên cứu. Đây là phương pháp quan trọng nhưng thường mất nhiều thời gian, chi phí và cơng sức trong q trình thực hiện. Do đó, cần phải lựa chọn phương pháp thu thập dữ liệu phù hợp để đạt hiệu quả tốt nhất.

Có nhiều phương pháp khác nhau để thu thập dữ liệu, chẳng hạn:

✓ Thu thập dữ liệu thứ cấp: từ các bài báo hoặc các báo cáo của tổ chức ✓ Thu thập dữ liệu trực tiếp thông qua điều tra thực địa, phân tích mẫu ✓ Thu thập dữ liệu thông qua các đợt khảo sát, phiếu hỏi.

Trong nghiên cứu này, chúng tôi lựa chọn phương pháp nghiên cứu thu thập dữ liệu thứ cấp. Đây là phương pháp thu thập từ các nguồn dữ liệu có sẵn, thường là các dữ liệu thu thập đã qua tổng hợp và xử lý. Nguồn dữ liệu thu thập đã được công bố rộng rãi trên các cơ sở dữ liệu nên rất dễ tìm kiếm và thu thập, có độ tin cậy về mặt khoa học cao.

Dữ liệu nghiên cứu về hấp phụ dược phẩm bằng BC đã công bố trên các tạp chí uy tín, có phản biện được thu thập thơng qua cơ sở dữ liệu google scholar. Nhóm từ khóa được tìm kiếm trong nghiên cứu này gồm 03 từ khóa: Biochar (than sinh học - BC), pharmaceutical (dược phẩm) và adsorbent (hấp phụ). Ngôn ngữ sử dụng trong quá

trình tìm kiếm tài liệu là ngơn ngữ tiếng Anh. Kết quả tìm kiếm thơng qua bước sàng lọc ban đầu đã cho 267 bài báo khoa học, xuất bản từ năm 2010 đến 2020. Cuối cùng, 36 bài báo được lựa chọn để thu thập dữ liệu.

Công cụ đã được sử dụng để lấy dữ liệu từ biểu đồ trong các bài báo là phần mềm Origin. Phần mềm này trích xuất dữ liệu điểm trên các biểu đồ đường bằng cách số hóa các điểm dữ liệu. Các bước thực hiện trích xuất dữ liệu điểm trên bản đồ bằng phần mềm Origin như sau:

Bước 1: Mở biểu đồ hấp phụ đẳng nhiệt (đã cắt chụp ra từ bài báo khoa học).

Bước 2: Đặt tọa độ trục tung (trục Y) và trục hoành (trục X) tương ứng với giá trị nhỏ nhất và lớn nhất của 2 trục biểu đồ.

Bước 3: Số hóa lần lượt từng điểm trên biểu đồ điểm (hoặc biểu đồ đường).

Biểu đồ và quá trình trích xuất điểm dữ liệu từ biểu đồ được thể hiện Hình 2.5 và 2.6.

Hình 2.6 Q trình trích xuất điểm dữ liệu biểu đồ từ phần mềm Origin

Bước 4: Copy dữ liệu từ quá trình số hóa và file dữ liệu thu thập (file excel).

Giao diện và công cụ trích xuất dữ liệu phầm mềm Origin được thể hiện ở Hình 2.7 và 2.8.

Hình 2.8 Giao diện cơng cụ trích xuất dữ liệu bằng phần mềm Origin

2.2.2. Phương pháp xử lý dữ liệu

- Lưu trữ dữ liệu:

+ Dữ liệu về nghiên cứu hấp phụ dược phẩm bằng BC được lưu trữ và quản lý bằng phần mềm Excel. Dữ liệu được cấu trúc thành các cột và hàng. Các cột là tên các biến đầu vào (các thơng số của hệ thống hấp phụ), gồm có E, S, A, B, V, L, PS, PV, BET, pHs, tem, time, temp, Qm, H/C, O/C, N/C, biomass, và method. Giá trị ở các hàng là kết quả các thí nghiệm hấp phụ đẳng nhiệt.

- Xử lý dữ liệu:

+ Các dữ liệu về hấp phụ trong quá trình thu thập từ các bài báo sẽ được rà soát, làm sạch bằng cách xử lý các số liệu bị trùng, bị lặp và lỗi. Các dữ liệu không chính xác và không phù hợp sẽ bị loại bỏ khỏi tập dữ liệu. Các trường hợp trùng lặp và lỗi giá trị là điều thường xảy ra trong quá trình thu thập dữ liệu. Quá trình xử lý dữ liệu địi hỏi nhiều thời gian và cơng sức trong nghiên cứu. Nếu bỏ qua việc xử lý dữ liệu, khi đưa bộ dữ liệu vào chạy mơ hình ML sẽ cho ra kết quả dự báo sai hoặc phần mềm/lệnh sẽ không hoạt động.

+ Bên cạnh các biến đầu vào thiết yếu (BET, Qe, Qm), có một số biến như nhiệt độ, PS hay PV có thể bị thiếu giá trị do các nghiên cứu không báo cáo đầy đủ. Có nhiều phương pháp để xử lý các thông số bị thiếu trong thu thập dữ liệu. Trong nghiên cứu này, chúng tôi sẽ thay thế dữ liệu thiếu (missing values) bằng phương pháp thống kê. Dữ liệu thiếu sẽ được dùng một phương pháp thống kê như sử dụng giá trị trung bình của cột để điền vào giá trị trống đó.

2.2.3. Phương pháp học máy

Dữ liệu hấp phụ sẽ được xử lý và sử dụng đào tạo các mơ hình học máy. Trong nghiên cứu này phương pháp ML sẽ được sử dụng để:

✓ Dùng thuật toán ML để dự báo dung lượng hấp phụ. - Thuật tốn KNN:

KNN có thể thực hiện trong bài tốn dự báo cho số thực (biến đầu ra là số) và phân loại (biến đầu ra là phân loại, ví dụ: “Hiệu quả”, “lỗi”, vv.). Mơ hình dự đốn bằng cách áp dụng nguyên tắc gần nhất của tập dữ liệu huấn luyện (dữ liệu mới). Nó khơng phải là một mơ hình được đào tạo tập dữ liệu biết trước, hay nói cách khác mơ hình KNN khơng phải đào tạo trước khi sử dụng [85].

Để xác định mẫu/giá trị là lân cận gần nhất, hàm khoảng cách được áp dụng (tức là khoảng cách Euclid). K là số trường hợp hoặc mẫu có hàm khoảng cách gần nhất. Trong KNN, tất cả dữ liệu được đưa vào huấn luyện (và cả tập kiểm tra) bao gồm n mẫu (n hàng dữ liệu). Khi một mẫu mới cần dự đoán kết quả đầu ra, khoảng cách (ví dụ Euclidean) của mẫu mới này đến tất cả các mẫu trong dữ liệu huấn luyện được tính toán và k trường hợp (ví dụ: k = 5,5 trường hợp hoặc 5 mẫu) với khoảng cách thấp nhất sẽ được kiểm tra. Đối với bài toán hồi quy, dự đoán cuối cùng được tính trung bình của k lân cận gần nhất [85]. Khoảng cách Euclide của một mẫu được tính như sau:

𝑑 = √∑(𝑥𝑖− 𝑦𝑖)2 𝑛

𝑖=1

CT. (2)

Trong đó: d là khoảng cách Euclidean, xi là giá trị của mẫu dữ liệu mới, yi là giá trị mẫu đào tạo,

i là số tính năng của thứ i.

Quy trình thủ cơng thực hiện dự báo đầu ra bằng KNN:

✓ Bước 1: Tính khoảng cách d (Euclidean) dựa vào dữ liệu đào tạo và dữ liệu mới

✓ Bước 2: Xếp thứ tự độ lớn d

✓ Bước 3: Chọn giá trị K (số lượng đối tượng gần nhất – có d nhỏ nhất đưa vào tính toán)

✓ Bước 4: Tính trung bình của biến đầu ra từ dữ liệu đào tạo (dữ liệu sẵn có). Kết quả bước này chính là đầu ra của dữ liệu mới.

Hình 2.9 Diễn giải mơ hình học máy KNN [86]

- Mơ hình Cubist:

Từ đánh giá sơ bộ ban đầu ngoài phạm vi nghiên cứu này, cùng với kinh nghiệm đào tạo các thuật tốn ML [86, 87], chúng tơi quyết định sử dụng Cubist để dự báo Qe.

Mơ hình Cubist, là một hình thức của mơ hình “cây quyết định” – phát triển từ mơ hình M5 - cây phân loại dựa vào mơ hình hồi quy [88, 89]. Cơ chế của Cubist là xây dựng các mơ hình tuyến tính cùng với các quy tắc, được gọi là “cây – tạo ra” và “lá - điểm cuối”. Mối quan hệ của các quy tắc và phương trình hồi quy tuyến tính là lệnh

"nếu-thì", trong đó mỡi quy tắc (rule) kết hợp với nhiều mơ hình tuyến tính [86, 87, 90]. Đối với mỡi quy tắc (If) Nếu, thì (then) đồng thời 1 phương trình hồi quy tuyến

tính được tạo ra để dự báo đầu ra. Các phương trình hồi quy tuyến tính sẽ được hiệu chỉnh thơng qua thay đổi committee [88]. Committee có thể được xem như là số lượng các điều chỉnh của mơ hình hồi quy để đạt được mơ hình dự báo tốt nhất.

Hình 2.10 Mơ hình học máy Cubist [86]

2.3. Cơng cụ và ngơn ngữ máy tính

2.3.1. Giới thiệu ngơn ngữ R

Ngôn ngữ R (phiên bản 3.6) được sử dụng để xử lý dữ liệu và chạy thuật tốn ML. Đây là một ngơn ngữ và mơi trường cho tính tốn thống kê và đồ họa. Ngồi ra, các mơ hình được áp dụng để trực quan hóa, xử lý dữ liệu và chạy thuật tốn ML, bao gồm “Random Forest”, “Caret”, “ggplot2”, “psych”, “VIM”, “tidyr” and “dplyr”.

Phân tích số liệu và biểu đồ với lượng dữ liệu lớn thường được tiến hành được tiến hành bằng các phần mềm thông dụng như SPSS, SAS, Stata, S-Plus...Đây là những phần mềm được các công ty phần mềm phát triển và giới thiệu trên thị trường, được áp dụng tại các trường đại học, các trung tâm nghiên cứu trên thế giới sử dụng cho giảng dạy và nghiên cứu.

Nhưng vì chi phí để sử dụng các phần mềm này tương đối đắt tiền, một số trường đại học ở các nước đang phát triển khơng có khả năng tài chính để sử dụng một cách

lâu dài. Do đó các nhà nghiên cứu thống kê trên thế giới đã hợp tác để phát triển một phần mềm mới, với chủ trương mã nguồn mở và được sử dụng hoàn toàn miễn phí [91].

Phần mềm R- Studio là một phiên bản phát triển từ phần mềm của R. Vậy R- Studio là gì? Nói một cách ngắn gọn, R-Studio là một phần mềm sử dụng cho phân tích thống kê và vẽ biểu đồ. Thật ra, về bản chất, R- Studio là ngơn ngữ máy tính đa năng, có thể sử dụng cho nhiều mục tiêu khác nhau, từ tính toán đơn giản, toán học giải trí, tính toán ma trận, đến các phân tích thống kê phức tạp.

2.3.2. Tải R- Studio và cài đặt máy tính

Để sử dụng R-Studio, việc đầu tiên là chúng ta phải cài đặt R- Studio trong máy tính của mình. Để làm việc này, ta cần truy cập vào website có tên là “Comprehensive R Archive Network” (CRAN), sau đây: https://cran.r-project.org/.

Chọn file tài liệu cần tải về để cài đặt phần mềm, tùy theo phiên bản, nhưng thường có tên bắt đầu bằng mẫu tự R và số phiên bản. Phiên bản được cập nhật lại và có tên file Ri386 4.1.3. Khi tải file tài liệu xuống máy tính, bước tiếp theo là cài đặt vào máy tính. Để làm việc này, chúng ta cần nhấn chuột vào file tài liệu đã tải về và làm theo các hướng dẫn cách cài đặt trên màn hình. Sau khi hồn tất việc cài đặt, trên màn hình desktop đã xuất hiện:

Sau khi cài đặt hoàn tất, nhấn chuột vào biểu tượng ở trên Hình 2.11, chúng ta sẽ có một của sổ làm việc trên R - Studio như sau:

Hình 2.12 Màn hình cửa sổ của R- Studio

Màn hình cửa sổ làm việc của R-Studio gồm có 4 khung:

- Bên trái phía trên là khung “nguồn”, khung này dùng để soạn các câu lệnh để xử lý dữ liệu và thực hiện mơ hình;

- Bên trái phía dưới là khung “tương tác”, khung này thể hiện các câu lệnh và kết quả thực hiện câu lệnh. Khung này giống với cửa sổ làm việc của R khi không sử dụng R-Studio.

- Bên phải phía trên là khung "đối tượng" chứa ba thẻ, thẻ Environment dùng để thể hiện thông tin về các đối tượng sử dụng trong khi thực hiện các câu lệnh, thẻ History dùng để thể hiện tất cả các câu lệnh đã soạn kể từ một thời điểm nào đấy, thẻ Connection thể hiện các kết nối.

- Bên phải phía dưới là khung "đa chức năng" chứa 5 thẻ: + Files: chứa các thư mục và tập tin có liên quan;

+ Plots: thể hiện các biểu đồ là kết quả của những lệnh vẽ; + Packages: thể hiện các phụ kiện;

+ Help: thể hiện các trợ giúp; + Viewer: dùng để xem.

2.3.3. Các bước chạy mô hình học máy

a. Các bước chạy mơ hình dự báo dung lượng hấp phụ Qe

Sau đây là các bước cụ thể thực hiện mơ hình học máy trên phần mềm R-Studio: Bước1: Trước khi tiến hành thực hiện các bước trong mơ hình, cần làm sạch dữ liệu bằng cách xóa bỏ các câu lệnh và kết quả thực hiện trước đó (khi sử dụng lần 2 trở đi) bằng lệnh rm() (xóa bỏ các câu lệnh, kết quả đã thực hiện trước đó), lệnh graphics() (xóa bỏ các biểu đồ) nhằm đảm bảo không bị nhầm lẫn kết quả khi thực hiện lại mơ hình từ dữ liệu khác.

Bước 2: Để thực hiện được việc chạy mơ hình R, cần tải và cài đặt các package (gói) dữ liệu để mở file excel và chứa thuật tốn trong các mơ hình.

Bước 3: Sau khi đã cài đặt được các package, sẽ gọi các package để làm việc. Bước 4: Truy xuất dữ liệu để làm việc

- Thiết lập file dữ liệu: Chọn đường dẫn và đọc dữ liệu vào máy học: Sử dụng lệnh setwd ("E:/CONG VIEC HUYEN/Luan van Thac si HUYEN/R Data/Qe") và tiến hành đọc dữ liệu bằng lệnh read.xlsx ("Final data-Qe for ML.xlsx"), dữ liệu máy học được chuyển về dạng có đi .xlsx.

Sau khi dữ liệu được máy học, cần kiểm tra dữ liệu mà máy đã học với tất cả dữ liệu bao gồm 1033 dòng và 8 biến.

Hình 2.13 Kết quả sau khi kiểm tra bộ dữ liệu

Bước 5: Dữ liệu được chia thành 2 phần: phần 1 dữ liệu đào tạo với 80%, phần 2 dữ liệu kiểm tra với 20%.

Hình 2.14 Tổng dữ liệu sau khi được tách bộ dữ liệu

Kết quả sau khi sử dụng lệnh để tách bộ dữ liệu ta được dữ liệu đào tạo 80% với 829 dòng và 8 biến, 20% thử nghiệm gồm 204 dòng và 8 biến.

Bước 6: Sau khi phân chia dữ liệu xong, tiến hành chuẩn bị khai thác dữ liệu để đánh giá thuật toán. Bước này với mục đích lấy mẫu lại và cho chạy xáo trộn dữ liệu một cách ngẫu nhiên bằng cách sử dụng xác thực chéo 10 lần (10- fold Crossvalidation) từ dữ liệu Training (80%).

Thuật toán lựa chọn có khả năng hoạt động trên hồi quy là mơ hình Cubist để thực hiện chạy mơ hình học máy.

Hình 2.15 Thuật tốn của mơ hình học máy cubist từ tập dữ liệu Training

Bước 7: Tinh chỉnh mơ hình.

Mơ hình sẽ có các tham số (thơng số), đây là bước để thử nghiệm các giá trị thông số khác nhau; xem giá trị nào làm mơ hình tối ưu nhất.

Sử dụng các lệnh chạy mơ hình, kết quả sẽ cho ra các giá trị RMSE, R2. Sau đó, dữ liệu được biểu diễn bằng biểu đồ tối ưu hóa siêu tham số.

b. Các bước chạy mơ hình dự báo dung lượng hấp phụ Qm

Bước 1: Thực hiện cài đặt 04 package install.packages("openxlsx") install.packages("caret") install.packages("tidyr") install.packages("dplyr")

Bước 2: Tải các gói lên thư viện để làm việc Require (openxlxl)

Require (caret) Require (tidyr) Library (dplyr)

Bước 3: Truy xuất dữ liệu để làm việc

Thiết lập file dữ liệu. Chọn đường dẫn và đọc dữ liệu vào máy học:

Sử dụng lệnh setwd ("E:/CONG VIEC HUYEN/Luan van Thac si - HUYEN/R Data") và tiến hành đọc dữ liệu bằng lệnh read.xlsx("Data-Lasso.xlsx"), dữ liệu máy học được chuyển về dạng có đi .xlsx.

Sau khi dữ liệu được máy học, cần kiểm tra dữ liệu mà máy đã học với tất cả dữ liệu bao gồm 152 dòng và 5 biến gồm BET, PV, A, S, Qm.

Hình 2.16 Kết quả sau khi kiểm tra bộ dữ liệu

Bước 4: Dữ liệu được chia thành 2 phần: phần 1 dữ liệu đào tạo với 80%, phần 2 dữ liệu kiểm tra với 20%. Thực hiện lệnh bên dưới.

Hình 2.17 Các lệnh để thực tách bộ dữ liệu

Hình 2.18 Kết quả sau khi tách bộ dữ liệu

Kết quả sau quá trình tách, dữ liệu đào tạo gồm 124 dòng và 5 biến; dữ liệu thử nghiệm gồm 28 dòng và 5 biến.

Bước 5: Sau khi phân chia dữ liệu xong, tiến hành chuẩn bị khai thác dữ liệu để đánh giá thuật toán. Bước này với mục đích lấy mẫu lại và cho chạy xáo trộn dữ liệu một cách ngẫu nhiên bằng cách sử dụng xác thực chéo 10 lần (10- fold Crossvalidation) từ dữ liệu Training (80%)

Xây dựng mơ hình KNN (K nearest neighbor). Dữ liệu được thực hiện chạy ngẫu nhiên 500 lần.

Xem đặc tính dữ liệu, sử dụng lệnh bên dưới.

Hình 2.19 Đặc tính của bộ dữ liệu

Dữ liệu đào tạo khi đưa vào chạy mơ hình. Biến đầu vào x gồm 4 biến: BET, PV, A, S; Biến Y là biến đầu ra (dự báo) gồm Qm. Tương tự dữ liệu thử nghiệm được đưa vào chạy mơ hình với x biến đầu vào và y biến đầu ra.

.7 Giao diện phần mềm Origin 2018