CHƯƠNG ll : PHƯƠNG PHÁP NGHIÊN CỨU
2.2. Phương pháp nghiên cứu
2.2.1. Phương pháp thu thập dữ liệu
Phương pháp thu thập dữ liệu là phương pháp được sử dụng nhằm mục đích có được dữ liệu, số liệu cần thiết cho nghiên cứu. Đây là phương pháp quan trọng nhưng thường mất nhiều thời gian, chi phí và cơng sức trong q trình thực hiện. Do đó, cần phải lựa chọn phương pháp thu thập dữ liệu phù hợp để đạt hiệu quả tốt nhất.
Có nhiều phương pháp khác nhau để thu thập dữ liệu, chẳng hạn:
✓ Thu thập dữ liệu thứ cấp: từ các bài báo hoặc các báo cáo của tổ chức ✓ Thu thập dữ liệu trực tiếp thông qua điều tra thực địa, phân tích mẫu ✓ Thu thập dữ liệu thông qua các đợt khảo sát, phiếu hỏi.
Trong nghiên cứu này, chúng tôi lựa chọn phương pháp nghiên cứu thu thập dữ liệu thứ cấp. Đây là phương pháp thu thập từ các nguồn dữ liệu có sẵn, thường là các dữ liệu thu thập đã qua tổng hợp và xử lý. Nguồn dữ liệu thu thập đã được công bố rộng rãi trên các cơ sở dữ liệu nên rất dễ tìm kiếm và thu thập, có độ tin cậy về mặt khoa học cao.
Dữ liệu nghiên cứu về hấp phụ dược phẩm bằng BC đã công bố trên các tạp chí uy tín, có phản biện được thu thập thơng qua cơ sở dữ liệu google scholar. Nhóm từ khóa được tìm kiếm trong nghiên cứu này gồm 03 từ khóa: Biochar (than sinh học - BC), pharmaceutical (dược phẩm) và adsorbent (hấp phụ). Ngôn ngữ sử dụng trong quá
trình tìm kiếm tài liệu là ngơn ngữ tiếng Anh. Kết quả tìm kiếm thơng qua bước sàng lọc ban đầu đã cho 267 bài báo khoa học, xuất bản từ năm 2010 đến 2020. Cuối cùng, 36 bài báo được lựa chọn để thu thập dữ liệu.
Công cụ đã được sử dụng để lấy dữ liệu từ biểu đồ trong các bài báo là phần mềm Origin. Phần mềm này trích xuất dữ liệu điểm trên các biểu đồ đường bằng cách số hóa các điểm dữ liệu. Các bước thực hiện trích xuất dữ liệu điểm trên bản đồ bằng phần mềm Origin như sau:
Bước 1: Mở biểu đồ hấp phụ đẳng nhiệt (đã cắt chụp ra từ bài báo khoa học).
Bước 2: Đặt tọa độ trục tung (trục Y) và trục hoành (trục X) tương ứng với giá trị nhỏ nhất và lớn nhất của 2 trục biểu đồ.
Bước 3: Số hóa lần lượt từng điểm trên biểu đồ điểm (hoặc biểu đồ đường).
Biểu đồ và quá trình trích xuất điểm dữ liệu từ biểu đồ được thể hiện Hình 2.5 và 2.6.
Hình 2.6 Q trình trích xuất điểm dữ liệu biểu đồ từ phần mềm Origin
Bước 4: Copy dữ liệu từ quá trình số hóa và file dữ liệu thu thập (file excel).
Giao diện và công cụ trích xuất dữ liệu phầm mềm Origin được thể hiện ở Hình 2.7 và 2.8.
Hình 2.8 Giao diện cơng cụ trích xuất dữ liệu bằng phần mềm Origin
2.2.2. Phương pháp xử lý dữ liệu
- Lưu trữ dữ liệu:
+ Dữ liệu về nghiên cứu hấp phụ dược phẩm bằng BC được lưu trữ và quản lý bằng phần mềm Excel. Dữ liệu được cấu trúc thành các cột và hàng. Các cột là tên các biến đầu vào (các thơng số của hệ thống hấp phụ), gồm có E, S, A, B, V, L, PS, PV, BET, pHs, tem, time, temp, Qm, H/C, O/C, N/C, biomass, và method. Giá trị ở các hàng là kết quả các thí nghiệm hấp phụ đẳng nhiệt.
- Xử lý dữ liệu:
+ Các dữ liệu về hấp phụ trong quá trình thu thập từ các bài báo sẽ được rà soát, làm sạch bằng cách xử lý các số liệu bị trùng, bị lặp và lỗi. Các dữ liệu không chính xác và không phù hợp sẽ bị loại bỏ khỏi tập dữ liệu. Các trường hợp trùng lặp và lỗi giá trị là điều thường xảy ra trong quá trình thu thập dữ liệu. Quá trình xử lý dữ liệu địi hỏi nhiều thời gian và cơng sức trong nghiên cứu. Nếu bỏ qua việc xử lý dữ liệu, khi đưa bộ dữ liệu vào chạy mơ hình ML sẽ cho ra kết quả dự báo sai hoặc phần mềm/lệnh sẽ không hoạt động.
+ Bên cạnh các biến đầu vào thiết yếu (BET, Qe, Qm), có một số biến như nhiệt độ, PS hay PV có thể bị thiếu giá trị do các nghiên cứu không báo cáo đầy đủ. Có nhiều phương pháp để xử lý các thông số bị thiếu trong thu thập dữ liệu. Trong nghiên cứu này, chúng tôi sẽ thay thế dữ liệu thiếu (missing values) bằng phương pháp thống kê. Dữ liệu thiếu sẽ được dùng một phương pháp thống kê như sử dụng giá trị trung bình của cột để điền vào giá trị trống đó.
2.2.3. Phương pháp học máy
Dữ liệu hấp phụ sẽ được xử lý và sử dụng đào tạo các mơ hình học máy. Trong nghiên cứu này phương pháp ML sẽ được sử dụng để:
✓ Dùng thuật toán ML để dự báo dung lượng hấp phụ. - Thuật tốn KNN:
KNN có thể thực hiện trong bài tốn dự báo cho số thực (biến đầu ra là số) và phân loại (biến đầu ra là phân loại, ví dụ: “Hiệu quả”, “lỗi”, vv.). Mơ hình dự đốn bằng cách áp dụng nguyên tắc gần nhất của tập dữ liệu huấn luyện (dữ liệu mới). Nó khơng phải là một mơ hình được đào tạo tập dữ liệu biết trước, hay nói cách khác mơ hình KNN khơng phải đào tạo trước khi sử dụng [85].
Để xác định mẫu/giá trị là lân cận gần nhất, hàm khoảng cách được áp dụng (tức là khoảng cách Euclid). K là số trường hợp hoặc mẫu có hàm khoảng cách gần nhất. Trong KNN, tất cả dữ liệu được đưa vào huấn luyện (và cả tập kiểm tra) bao gồm n mẫu (n hàng dữ liệu). Khi một mẫu mới cần dự đoán kết quả đầu ra, khoảng cách (ví dụ Euclidean) của mẫu mới này đến tất cả các mẫu trong dữ liệu huấn luyện được tính toán và k trường hợp (ví dụ: k = 5,5 trường hợp hoặc 5 mẫu) với khoảng cách thấp nhất sẽ được kiểm tra. Đối với bài toán hồi quy, dự đoán cuối cùng được tính trung bình của k lân cận gần nhất [85]. Khoảng cách Euclide của một mẫu được tính như sau:
𝑑 = √∑(𝑥𝑖− 𝑦𝑖)2 𝑛
𝑖=1
CT. (2)
Trong đó: d là khoảng cách Euclidean, xi là giá trị của mẫu dữ liệu mới, yi là giá trị mẫu đào tạo,
i là số tính năng của thứ i.
Quy trình thủ cơng thực hiện dự báo đầu ra bằng KNN:
✓ Bước 1: Tính khoảng cách d (Euclidean) dựa vào dữ liệu đào tạo và dữ liệu mới
✓ Bước 2: Xếp thứ tự độ lớn d
✓ Bước 3: Chọn giá trị K (số lượng đối tượng gần nhất – có d nhỏ nhất đưa vào tính toán)
✓ Bước 4: Tính trung bình của biến đầu ra từ dữ liệu đào tạo (dữ liệu sẵn có). Kết quả bước này chính là đầu ra của dữ liệu mới.
Hình 2.9 Diễn giải mơ hình học máy KNN [86]
- Mơ hình Cubist:
Từ đánh giá sơ bộ ban đầu ngoài phạm vi nghiên cứu này, cùng với kinh nghiệm đào tạo các thuật tốn ML [86, 87], chúng tơi quyết định sử dụng Cubist để dự báo Qe.
Mơ hình Cubist, là một hình thức của mơ hình “cây quyết định” – phát triển từ mơ hình M5 - cây phân loại dựa vào mơ hình hồi quy [88, 89]. Cơ chế của Cubist là xây dựng các mơ hình tuyến tính cùng với các quy tắc, được gọi là “cây – tạo ra” và “lá - điểm cuối”. Mối quan hệ của các quy tắc và phương trình hồi quy tuyến tính là lệnh
"nếu-thì", trong đó mỡi quy tắc (rule) kết hợp với nhiều mơ hình tuyến tính [86, 87, 90]. Đối với mỡi quy tắc (If) Nếu, thì (then) đồng thời 1 phương trình hồi quy tuyến
tính được tạo ra để dự báo đầu ra. Các phương trình hồi quy tuyến tính sẽ được hiệu chỉnh thơng qua thay đổi committee [88]. Committee có thể được xem như là số lượng các điều chỉnh của mơ hình hồi quy để đạt được mơ hình dự báo tốt nhất.
Hình 2.10 Mơ hình học máy Cubist [86]
2.3. Cơng cụ và ngơn ngữ máy tính
2.3.1. Giới thiệu ngơn ngữ R
Ngôn ngữ R (phiên bản 3.6) được sử dụng để xử lý dữ liệu và chạy thuật tốn ML. Đây là một ngơn ngữ và mơi trường cho tính tốn thống kê và đồ họa. Ngồi ra, các mơ hình được áp dụng để trực quan hóa, xử lý dữ liệu và chạy thuật tốn ML, bao gồm “Random Forest”, “Caret”, “ggplot2”, “psych”, “VIM”, “tidyr” and “dplyr”.
Phân tích số liệu và biểu đồ với lượng dữ liệu lớn thường được tiến hành được tiến hành bằng các phần mềm thông dụng như SPSS, SAS, Stata, S-Plus...Đây là những phần mềm được các công ty phần mềm phát triển và giới thiệu trên thị trường, được áp dụng tại các trường đại học, các trung tâm nghiên cứu trên thế giới sử dụng cho giảng dạy và nghiên cứu.
Nhưng vì chi phí để sử dụng các phần mềm này tương đối đắt tiền, một số trường đại học ở các nước đang phát triển khơng có khả năng tài chính để sử dụng một cách
lâu dài. Do đó các nhà nghiên cứu thống kê trên thế giới đã hợp tác để phát triển một phần mềm mới, với chủ trương mã nguồn mở và được sử dụng hoàn toàn miễn phí [91].
Phần mềm R- Studio là một phiên bản phát triển từ phần mềm của R. Vậy R- Studio là gì? Nói một cách ngắn gọn, R-Studio là một phần mềm sử dụng cho phân tích thống kê và vẽ biểu đồ. Thật ra, về bản chất, R- Studio là ngơn ngữ máy tính đa năng, có thể sử dụng cho nhiều mục tiêu khác nhau, từ tính toán đơn giản, toán học giải trí, tính toán ma trận, đến các phân tích thống kê phức tạp.
2.3.2. Tải R- Studio và cài đặt máy tính
Để sử dụng R-Studio, việc đầu tiên là chúng ta phải cài đặt R- Studio trong máy tính của mình. Để làm việc này, ta cần truy cập vào website có tên là “Comprehensive R Archive Network” (CRAN), sau đây: https://cran.r-project.org/.
Chọn file tài liệu cần tải về để cài đặt phần mềm, tùy theo phiên bản, nhưng thường có tên bắt đầu bằng mẫu tự R và số phiên bản. Phiên bản được cập nhật lại và có tên file Ri386 4.1.3. Khi tải file tài liệu xuống máy tính, bước tiếp theo là cài đặt vào máy tính. Để làm việc này, chúng ta cần nhấn chuột vào file tài liệu đã tải về và làm theo các hướng dẫn cách cài đặt trên màn hình. Sau khi hồn tất việc cài đặt, trên màn hình desktop đã xuất hiện:
Sau khi cài đặt hoàn tất, nhấn chuột vào biểu tượng ở trên Hình 2.11, chúng ta sẽ có một của sổ làm việc trên R - Studio như sau:
Hình 2.12 Màn hình cửa sổ của R- Studio
Màn hình cửa sổ làm việc của R-Studio gồm có 4 khung:
- Bên trái phía trên là khung “nguồn”, khung này dùng để soạn các câu lệnh để xử lý dữ liệu và thực hiện mơ hình;
- Bên trái phía dưới là khung “tương tác”, khung này thể hiện các câu lệnh và kết quả thực hiện câu lệnh. Khung này giống với cửa sổ làm việc của R khi không sử dụng R-Studio.
- Bên phải phía trên là khung "đối tượng" chứa ba thẻ, thẻ Environment dùng để thể hiện thông tin về các đối tượng sử dụng trong khi thực hiện các câu lệnh, thẻ History dùng để thể hiện tất cả các câu lệnh đã soạn kể từ một thời điểm nào đấy, thẻ Connection thể hiện các kết nối.
- Bên phải phía dưới là khung "đa chức năng" chứa 5 thẻ: + Files: chứa các thư mục và tập tin có liên quan;
+ Plots: thể hiện các biểu đồ là kết quả của những lệnh vẽ; + Packages: thể hiện các phụ kiện;
+ Help: thể hiện các trợ giúp; + Viewer: dùng để xem.
2.3.3. Các bước chạy mô hình học máy
a. Các bước chạy mơ hình dự báo dung lượng hấp phụ Qe
Sau đây là các bước cụ thể thực hiện mơ hình học máy trên phần mềm R-Studio: Bước1: Trước khi tiến hành thực hiện các bước trong mơ hình, cần làm sạch dữ liệu bằng cách xóa bỏ các câu lệnh và kết quả thực hiện trước đó (khi sử dụng lần 2 trở đi) bằng lệnh rm() (xóa bỏ các câu lệnh, kết quả đã thực hiện trước đó), lệnh graphics() (xóa bỏ các biểu đồ) nhằm đảm bảo không bị nhầm lẫn kết quả khi thực hiện lại mơ hình từ dữ liệu khác.
Bước 2: Để thực hiện được việc chạy mơ hình R, cần tải và cài đặt các package (gói) dữ liệu để mở file excel và chứa thuật tốn trong các mơ hình.
Bước 3: Sau khi đã cài đặt được các package, sẽ gọi các package để làm việc. Bước 4: Truy xuất dữ liệu để làm việc
- Thiết lập file dữ liệu: Chọn đường dẫn và đọc dữ liệu vào máy học: Sử dụng lệnh setwd ("E:/CONG VIEC HUYEN/Luan van Thac si HUYEN/R Data/Qe") và tiến hành đọc dữ liệu bằng lệnh read.xlsx ("Final data-Qe for ML.xlsx"), dữ liệu máy học được chuyển về dạng có đi .xlsx.
Sau khi dữ liệu được máy học, cần kiểm tra dữ liệu mà máy đã học với tất cả dữ liệu bao gồm 1033 dòng và 8 biến.
Hình 2.13 Kết quả sau khi kiểm tra bộ dữ liệu
Bước 5: Dữ liệu được chia thành 2 phần: phần 1 dữ liệu đào tạo với 80%, phần 2 dữ liệu kiểm tra với 20%.
Hình 2.14 Tổng dữ liệu sau khi được tách bộ dữ liệu
Kết quả sau khi sử dụng lệnh để tách bộ dữ liệu ta được dữ liệu đào tạo 80% với 829 dòng và 8 biến, 20% thử nghiệm gồm 204 dòng và 8 biến.
Bước 6: Sau khi phân chia dữ liệu xong, tiến hành chuẩn bị khai thác dữ liệu để đánh giá thuật toán. Bước này với mục đích lấy mẫu lại và cho chạy xáo trộn dữ liệu một cách ngẫu nhiên bằng cách sử dụng xác thực chéo 10 lần (10- fold Crossvalidation) từ dữ liệu Training (80%).
Thuật toán lựa chọn có khả năng hoạt động trên hồi quy là mơ hình Cubist để thực hiện chạy mơ hình học máy.
Hình 2.15 Thuật tốn của mơ hình học máy cubist từ tập dữ liệu Training
Bước 7: Tinh chỉnh mơ hình.
Mơ hình sẽ có các tham số (thơng số), đây là bước để thử nghiệm các giá trị thông số khác nhau; xem giá trị nào làm mơ hình tối ưu nhất.
Sử dụng các lệnh chạy mơ hình, kết quả sẽ cho ra các giá trị RMSE, R2. Sau đó, dữ liệu được biểu diễn bằng biểu đồ tối ưu hóa siêu tham số.
b. Các bước chạy mơ hình dự báo dung lượng hấp phụ Qm
Bước 1: Thực hiện cài đặt 04 package install.packages("openxlsx") install.packages("caret") install.packages("tidyr") install.packages("dplyr")
Bước 2: Tải các gói lên thư viện để làm việc Require (openxlxl)
Require (caret) Require (tidyr) Library (dplyr)
Bước 3: Truy xuất dữ liệu để làm việc
Thiết lập file dữ liệu. Chọn đường dẫn và đọc dữ liệu vào máy học:
Sử dụng lệnh setwd ("E:/CONG VIEC HUYEN/Luan van Thac si - HUYEN/R Data") và tiến hành đọc dữ liệu bằng lệnh read.xlsx("Data-Lasso.xlsx"), dữ liệu máy học được chuyển về dạng có đi .xlsx.
Sau khi dữ liệu được máy học, cần kiểm tra dữ liệu mà máy đã học với tất cả dữ liệu bao gồm 152 dòng và 5 biến gồm BET, PV, A, S, Qm.
Hình 2.16 Kết quả sau khi kiểm tra bộ dữ liệu
Bước 4: Dữ liệu được chia thành 2 phần: phần 1 dữ liệu đào tạo với 80%, phần 2 dữ liệu kiểm tra với 20%. Thực hiện lệnh bên dưới.
Hình 2.17 Các lệnh để thực tách bộ dữ liệu
Hình 2.18 Kết quả sau khi tách bộ dữ liệu
Kết quả sau quá trình tách, dữ liệu đào tạo gồm 124 dòng và 5 biến; dữ liệu thử nghiệm gồm 28 dòng và 5 biến.
Bước 5: Sau khi phân chia dữ liệu xong, tiến hành chuẩn bị khai thác dữ liệu để đánh giá thuật toán. Bước này với mục đích lấy mẫu lại và cho chạy xáo trộn dữ liệu một cách ngẫu nhiên bằng cách sử dụng xác thực chéo 10 lần (10- fold Crossvalidation) từ dữ liệu Training (80%)
Xây dựng mơ hình KNN (K nearest neighbor). Dữ liệu được thực hiện chạy ngẫu nhiên 500 lần.
Xem đặc tính dữ liệu, sử dụng lệnh bên dưới.
Hình 2.19 Đặc tính của bộ dữ liệu
Dữ liệu đào tạo khi đưa vào chạy mơ hình. Biến đầu vào x gồm 4 biến: BET, PV, A, S; Biến Y là biến đầu ra (dự báo) gồm Qm. Tương tự dữ liệu thử nghiệm được đưa vào chạy mơ hình với x biến đầu vào và y biến đầu ra.