Đánh giá kết quả thực nghiệm

Một phần của tài liệu Tiếp cận mờ trong khai phá dữ liệu (Trang 52 - 58)

Trong phần này, em sẽ trình bày chi tiết kết quả thực nghiệm bài toán, đã được công bố tại tạp chí [1].

Trong quá trình thực nghiệm, tất cả các mô hình đều được chia tỉ lệ học (Training) và kiểm thử (Testing) với tỉ lệ 90/10, để có thể kiểm soát độ chính xác của mô hình. Mô hình huấn luyện được xây dựng sử dụng thư viện Keras [27], với ngôn ngữ lập trình Python, Toàn bộ quá trình thực nghiệm được triển khai trên máy trạm Core i5 thế hệ 7, bộ nhớ trong Ram 8GB, thời gian huấn luyện là không đáng kể. Quá trình huấn luyện được dừng khi hàm mất này không giảm trong quá trình huấn luyện.

Trích chọn đặc trưng tối ưu

Một trong những công việc quan trọng của bài toán là tìm được các đặc trưng thật sự ảnh hưởng đến hiện tượng phú dưỡng và nở hoa ở Tảo. Bước đầu cần xác định xem sự tương quan giữa các biến với TSI-Chla. Phân tích tương quan và phân tích entropy được ứng dụng và thể hiện chi tiết tại Bảng 2.1. Các thông số có độ entropy cao nhất bao gồm DTN, DTP, BOD, nhiệt độ và lượng mưa. Điều này cho thấy độ nở hoa của tạo phụ thuộc khá nhiều vào các yếu tố thuộc tự nhiên và con người

Bảng 2.1: Tương quan giữa các thành đặc trưng trong bài toán chất lượng nước NH3-N NO3-N PO4-P T-N T-P NH3-N 1 0.15 0.28 0.77 0.35 NO3-N 0.15 1 0.25 0.68 0.28 PO4-P 0.28 0.25 1 0.39 0.91 T-N 0.77 0.68 0.39 1 0.48 T-P 0.35 0.28 0.91 0.48 1 Dissolved Total N 0.77 0.69 0.39 1 0.48 Dissolved Total P 0.11 0.15 0.39 0.19 0.43

Hydrogen ion conc. -0.2 -0.13 -0.14 -0.23 -0.12

DO -0.11 0.08 -0.24 -0.05 -0.25

TSI(Chl-a) 0.01 -0.19 -0.03 -0.1 -0.01

Dissolved Total N Dissolved Total P Hydrogen ion conc. DO TSI(Chl-a)

NH3-N 0.77 0.11 -0.2 -0.11 0.01 NO3-N 0.69 0.15 -0.13 0.08 -0.19 PO4-P 0.39 0.39 -0.14 -0.24 -0.03 T-N 1 0.19 -0.23 -0.05 -0.1 T-P 0.48 0.43 -0.12 -0.25 -0.01 Dissolved Total N 1 0.19 -0.22 -0.05 -0.11 Dissolved Total P 0.19 1 -0.01 -0.09 -0.07

Hydrogen ion conc. -0.22 -0.01 1 0.3 0.13

DO -0.05 -0.09 0.3 1 -0.04

TSI(Chl-a) -0.11 -0.07 0.13 -0.04 1

Ngược lại, hệ số tương quan thấp chỉ ra rằng mô hình tuyến tính là không thật sự phù hợp với bài toán, trong khi mô hình tuyến tính thường được áp dụng trong các bài toán kỹ thuật. Điều này có thể giải thích do chất lượng nước bị ảnh hưởng bởi nhiều yếu tố từ môi trường tự nhiên, cũng như có ảnh hưởng lớn từ quá trình sinh hoạt của con người.

Em đã thực hiện chia các đặc trưng ra chạy với nhiều mô hình dự đoán khác nhau, quan sát để rút ra kết luận. Với các trường đánh giá bao gồm MAE, Precision, Recall, F1-score. Một cách tổng quan, mô hình cho MAE nhỏ hơn, đồng thời các chỉ số còn lại cao hơn sẽ được đánh giá là một mô hình tốt. Với phương pháp đại. Quá diện là RNN, kết quả thu được tại Bảng 2.2.

Bảng 2.2: Sự ảnh hưởng của mô hình khi thay đổi các thuộc tính đầu vào, hương pháp RNN

Phương pháp RNN

Thuộc tính đầu vào Precision Recall F!-score MAE

NH3-N, NO3-N, PO4-P 0.67 0.69 0.68 0.1245 NH3-N, NO3-N, PO4-P, TN , TP 0.72 0.72 0.72 0.1179 NH3-N, NO3-N, PO4-P, TN , TP , DTN, DTP 0.78 0.78 0.78 0.1135 DTN, DTP , pH 0.84 0.84 0.84 0.1122 DTN, DTP 0.82 0.83 0.82 0.1145 DTN, DTP , pH, DO, BOD 0.87 0.88 0.87 0.1126 NH3-N, NO3-N, PO4-P, DTN, DTP, pH 0.82 0.84 0.83 0.1178 Nhiệt độ, Tốc độ chảy, Lượng mưa 0.82 0.78 0.8 0.1188 DO,BOD, Nhiệt độ, Tốc độ chảy,

Lượng mưa

0.84 0.87 0.85 0.1098

DTN, DTP, pH, DO, BOD, Nhiệt độ, Tốc độ chảy, Lượng mưa

0.9 0.91 0.9 0.1085

NH3-N, NO3-N, PO4-P, TN , BOD, Nhiệt độ, Tốc độ chảy, Lượng mưa, Độ dấn nhiệt

0.84 0.84 0.84 0.1236

Tất cả thuộc tính 0.88 0.87 0.88 0.1125

Có thể thấy rõ rằng, một tổ hợp chỉ bao gồm hai hoặc 3 trường không thể giải thích được mức độ nở hoa của tảo. Ví dụ, những thông số dinh dưỡng (NH3-N, NO3-N và PO4-P) hoặc các trường về điều kiện tự nhiên (lượng mưa, nhiệt độ) cho độ lệch MAE tương đối cao, lần lượt là 0.1179 và 0.1187. Mặt khác, kết quả cũng cho thấy, sử dụng tất cả các trường cũng không mang

lại kết quả tốt nhất. Việc thêm một trường không có ảnh hưởng tới độ nở hoa vào quá trình dự đoán có thể tạo nhiễu và khiến cho mô hình trở nên thiếu ổn định, đặc biệt là khi trường thêm vào có mối quan hệ tuyến tính với các trường khác [7]. Cụ thể, với các trường có chỉ số tương quan cao, bao gồm DTN và TN (r=0.98), hoặc DTP và TP (r=0.91) gây ra sai lệch cho mô hình.

Sau quá trình phân tích, kết quả cho thấy nếu sử dụng các thông số DTP, DTN, pH, DO, BOD, nhiệt độ, lượng mưa và tốc độ dòng, có thể cho ra chỉ số MAE tốt nhất (0.1085). Một cách tổng quan, mô hình học máy đã cho thấy rằng, hiện tượng phú dưỡng và nở hoa ở tạo phụ thuộc nhiều vào dinh dưỡng trong chất thải, chất thải hữu cơ và điều kiện tự nhiên. Để việc đánh giá đặc trưng được khách quan, em áp dụng quy trình thử nghiệm với tất cả các phương pháp xây dựng, kết quả chi tiết được có thể tìm thấy tại phụ lục của báo cáo này

Các kết quả học máy đưa ra là phù hợp với các nghiên cứu về môi trường từ trước đó, DO được biết đến rộng rãi là một yếu tố quan trọng ảnh hưởng đến sự nở hoa của tảo. Mặt khác, chỉ khi mực nước có độ Ph cao, tảo mới thực hiện quá trình quang hợp [58]. Đồng thời, ánh sáng cũng ảnh hưởng nhiều đến sự phát triển của tảo [58]. Tốc độ chảy cũng là một yếu tố ảnh hưởng đến sự sinh tồn của tảo, khi với mực nước lớn, tảo thường dễ bị cuốn trôi [60]. Các chất dinh dưỡng và các chất thải hữu cơ cũng có những ảnh hưởng nhất định đối với quá trình phú dưỡng.

Kiểm thử kết quả bài toán hồi quy

Bảng 2.3 tính MEA trung bình cho từng phương pháp, từ đó có thể tìm được phương án tốt nhất cho bài toán cần giải quyết. Trong quá trình phân tích, có thể thu được một số nhận xét như sau:

• Các phương pháp học sâu cho một kết quả tương đối tốt, trong đó, vượt trội hơn cả là RNN (MAE = 0.1085), so với các mạng LSTM (MAE = 2206) và GRU (MAE = 0.1185). Để giải thích cho điều này, có thể hiểu tỉ lệ nở hoa ở tảo trong tương lai phụ thuộc nhiều vào hiện tại, trong khi

LSTM và GRU đánh trọng số các thời điểm trong quá khứ, làm tăng tính phức tạp, giảm hiệu năng và sự ổn định của mô hình.

Bảng 2.3: Bảng tổng hợp kết quả hồi quy TSI-chla của các phương pháp

Phương pháp MAE RNN 0,1085 LSTM 0,1106 GRU 0,1116 SARIMAX 0,1069 SVR 0,1135 LR 0,1167 DTR 0,1703 fuzzy-LSTM 0,1072 fuzzy-RNN 0,1067 ANFIS 0,0932

• Các mô hình hồi quy cho kết quả không thực sự tốt, nhưng SVR vẫn cho thấy sự vượt trội trong nhóm các phương pháp này, do không phải là hàm tuyến tính. DTR là phương pháp kém hiệu quả nhất do dữ liệu không phù hợp

• SARIMAX cho độ sai số MAE (0.1069) tốt hơn so với các phương pháp học sâu, điều này có thể do mô hình học sâu vẫn chưa có đủ dữ liệu để thể hiện sức mạnh của mình

• Mô hình học sâu mở cho kết quả tương đối tốt, xấp xỉ với mạng SARI- MAX, có thể thấy việc thêm lớp mờ đã giúp mạng học sâu có nhiều thông tin hơn cho quá trình học, dẫn tới tạo được một mô hình tốt hơn

• Mạng Anfis cho kết quả vượt trội, với sai số MAE là 0.0932, mạng đã chứng minh được tính vượt trội trong việc áp dụng phương pháp mờ kết hợp học máy.

Tổng quan lại, có thể thấy việc kết hợp mô hình mờ và mạng học sâu thu được những kết quả tốt hơn so với các phương pháp khác. Điều này một lần nữa khẳng định tầm quan trọng của phương pháp mờ trong việc ứng dụng và tối ưu các mô hình học sâu.

Kiểm thử kết quả bài toán phân lớp

Kết quả của bài toán phân lớp được mô tả chi tiết tại Bảng 2.4. Có thể thấy rằng, trong bài toán phân lớp, các phương pháp học sâu cho kết quả vượt trội, đặc biệt là mạng học sâu RNN. Các mạng học sâu mở fuzzy-RNN và fuzzy-LSTM cũng cho thấy sự vượt trội của mình so với các mạng học sâu truyền thống. Mạng ANFIS kết hợp giữa học sâu và mờ cho kết quả vượt trội, tỉ lệ F1-score đạt 0.97.

Bảng 2.4: Bảng tổng hợp kết quả bài toán phân lớp

Phương pháp Precision Recall F1-score

GRU 0.73 0.78 0.75 LSTM 0.82 0.82 0.82 RNN 0.9 0.91 0.9 Sarimax 0.82 0.86 0.84 LR 0.93 0.93 0.92 SVR 0.93 0.93 0.92 DTR 0.82 0.86 0.84 Fuzzy-LSTM 0.90 0.91 0.90 Fuzzy-RNN 0.94 0.94 0.94 ANFIS 0.96 0.98 0.97

Ngược lại, trong mô hình phân lớp, phương pháp chuỗi thời gian SARI- MAX cho kết quả giảm mạnh so với mô hình hồi quy. Nguyên nhân đến sự chênh lệch giữa giá trị dự đoán và giá trị thật. Nếu như hai giá trị này nằm về hai phía của ngưỡng, thì rất khó để mô hình có độ phân lớp cao. Cũng vì lý do này, các mô hình tuyến tính cũng cho một kết quả phân lớp tương đối tốt dù kết quả hồi quy thấp hơn mức kỳ vọng.

Nhìn chung lại toàn bộ kết quả, có thể thấy rằng, các phương pháp học sâu mờ đã có những cải tiến nhất định so với mạng học sâu truyền thống, trong

Một phần của tài liệu Tiếp cận mờ trong khai phá dữ liệu (Trang 52 - 58)

Tải bản đầy đủ (PDF)

(101 trang)