Kiểm thử với tập dữ liệu testing dataset

Một phần của tài liệu Ứng dụng máy học trong nông nghiệp công nghệ cao (Trang 63)

Confusion matrix Predict: No Predict: Yes

Actual: No 13 0

Actual: Yes 3 14

Sau khi tiến hành kiểm thử lần lượt với 30 tập test, bảng 4.3 cho ta thấy được kết quả dự đoán so với thực tế của 30 lần thực hiện kiểm thử mơ hình huấn luyện.

Với bảng 4.3, ta có 27 lần dự đốn đúng trên tổng số 30 lần kiểm thử. Trong đó, 13 đại diện cho số lần dự đốn đúng rằng mưa sẽ khơng xảy ra và 14 là số dự đoán đúng rằng mưa sẽ xảy ra. Ngược lại, ta có 3 dự đốn sai trên tổng số 30 lần kiểm thử. Trong đó, 3 là số lần dự đốn khơng mưa nhưng thực tế là mưa đã xảy ra và 0 là số lần dự đốn có mưa nhưng thực tế là mưa đã khơng xảy ra. Độ chính xác của thuật tốn lan truyền ngược với mơ hình mạng nơron nhiều lớp là 90.0%.

4.5 So sánh thuật toán

Để chứng minh tính hiệu quả của thuật tốn lan truyền ngược với mơ hình mạng nơron, tác giả tiến hành huấn luyện và kiểm thử bằng các thuật toán khác với cùng tập dữ liệu huấn luyện và kiểm thử đã thực nhiệm như trên. Các thuật toán phổ biến dùng giải quyết các bài toán dự đoán như Logistic Regression, Naive Bayes, K- Nearest Neighbor, Decision Tree, Random Forest, Support Vector Machine lần lượt sẽ được huấn luyện và kiểm thử.

Sau khi thực hiện huấn luyện với tập dữ liệu training dataset cho tất cả thuật tốn, ta có được thời gian huấn luyện của từng thuật toán như sau:

Algorithm Training time (s) Neural Network 0.57

Naive Bayes 0.007

Support Vector Machine 0.005

K – Nearest Neighbor 0.003

Decision Tree 0.008

Random Forest 0.028

Logistic Regression 0.048

Với bảng 4.4, ta có thể thấy được mơ hình Neural Network có thời gian huấn luyện lâu nhất với 0.57 giây. Tiếp đến là mơ hình thuật tốn Logistic Regression với 0.048 giây và Random Forest với 0.028 giây. Các mơ hình Naive Bayes, SVM, KNN, Decision Tree có thời gian huấn luyện giao động trong khoảng thời gian từ 0.003 – 0.008 giây. Với kết quả trên, có thể thấy rằng mơ hình Neural Network có thời gian huấn luyện lâu nhất bởi tính chất tính tốn phức tạp và khả năng học sâu của mơ hình. Tác giả cũng tiến hành kiểm thử bằng testing dataset ở phần 4.1 với tất cả mơ hình đã huấn luyện trước đó bằng training dataset. Tỉ lệ dự đốn chính xác giữa các thuật tốn sẽ được thể hiện theo cơng thức tỉ lệ phần trăm độ chính xác Accuracy (3.5).

Bảng biểu 4.5: Phần trăm dự đoán của các thuật toán

Algorithm Accuracy (%)

Neural Network 90

Naive Bayes 76.6

Support Vector Machine 80

K – Nearest Neighbor 76.6

Decision Tree 83.3

Random Forest 60

Bảng 4.5 cho ta thấy được phần trăm dự đốn đúng của 7 mơ hình thuật tốn khi thực hiện kiểm thử với tập dữ liệu testing dataset.

Hình 4.5 Số phần trăm dự đốn chính xác của các thuật tốn

Sau khi thực hiện kiểm thử, ta có thể thấy rằng thuật tốn lan truyền ngược có tỷ lệ phần trăm độ chính xác cao hơn so với các thuật tốn cịn lại với 90%. Tiếp đến là thuật toán Logistic Regression với 86.6%. Các thuật toán Naive Bayes, SVM, KNN, Decision Tree có tỉ lệ dao động từ 76.6% đến 83.3%. Và cuối cùng là Random Forest với tỉ lệ thấp nhất là 60%.

So sánh kết quả độ chính xác của các thuật tốn ở bảng 4.5 với thời gian huấn luyện ở bảng 4.4, ta có thể thấy rằng các thuật tốn có thời gian huấn luyện dài sẽ cho kết quả dự đốn tốt hơn so với các mơ hình thuật tốn có thời gian huấn luyện ngắn. Mơ

từ 76.6% đến 83.3% nhưng có thời gian huấn luyện ngắn hơn so với 2 mơ hình thuật tốn trước, dao động từ 0.003 – 0.008 giây. Điều này cho ta thấy rằng thời gian huấn luyện mơ hình sẽ tỷ lệ nghịch với độ chính xác của mơ hình thuật tốn.

Tuy nhiên, mơ hình thuật tốn Random Forest có thời gian huấn luyện lâu hơn các thuật toán Naive Bayes, SVM, KNN, Decision Tree nhưng độ chính xác dự đốn lại khá thấp với 60%. Điều này chứng tỏ Random Forest chưa huấn luyện hiệu quả với các thông số đã chọn hoặc mơ hình này chưa thích hợp để xử lý các thông số dự liệu về thời tiết.

 Từ hai kết quả trên ở bảng 4.4 và 4.5, ta có thể đánh giá mơ hình thuật tốn Neural Network đang được huấn luyện có hiệu quả. Đồng thời, mơ hình cũng phù hợp để xử lý các thơng số dữ liệu thời tiết và thích hợp để tích hợp vào hệ thống dự báo thời tiết mà tác giả đang xây dựng.

4.6 Nhận xét thuật toán

Qua thực nghiệm ta thấy hệ thống dự báo thời tiết đã lựa chọn được những tham số để mạng huấn luyện tốt nhất: hằng số học 0.1, số nơron lớp ẩn là 100. Đồng thời, cập nhật trọng số ngay khi huấn luyện từng mẫu với hàm tính lỗi, thời gian dự báo gần như tức thời.

Ngoài đặc trưng về dữ liệu, một yếu tố khác trong quá trình huấn luyện mạng cần quan tâm là nếu số lần thực hiện điều chỉnh các tham số của mạng q ít sẽ dẫn đến tình trạng là khả năng tổng quát hóa của mạng rất kém.

Để có thể xem xét, đánh giá được khả năng tổng quát hóa của mạng, cần thực hiện phân chia tập dữ liệu thành các tập: huấn luyện (training dataset) và tập kiểm tra (testing dataset). Tập các dữ liệu kiểm thử sẽ không đưa vào huấn luyện để đảm bảo sự khách quan.

Để đảm bảo khả năng lỗi có thể đạt đến cực tiểu, số nút trong lớp ẩn cần đủ lớn. Tuy nhiên, nếu số nút trong lớp ẩn vượt quá một ngưỡng nào đó thì khả năng tổng qt hóa của mạng sẽ kém, bởi vì sau khi huấn luyện mạng có xu hướng ghi nhớ tất cả các

mẫu đã được học. Khi đó, nên xem xét đến khả năng sử dụng thêm một lớp ẩn nữa với số nơron nhỏ và giảm bớt số nơron ở lớp ẩn thứ nhất.

4.7 Đánh giá hệ thống Ưu điểm

- Hệ thống có mức tiêu thụ năng lượng thấp.

- Xây dựng được hệ thống truyền nhận bằng công nghệ Zigbee với nhiều nút cảm biến có thể đặt ở nhiều khoảng cách xa nhau.

- Hệ thống thu thập và lưu trữ các thông số môi trường diễn ra ổn định. - Khối cảm biến có khả năng mở rộng phạm vi và số cảm biến.

- Có khả năng cập nhật dự báo thời tiết tức thời. Nhược điểm

- Vì đây là hệ thống dự báo thời tiết nên ln đặt ở ngồi trời, khi thời tiết rất xấu như mưa to, gió lớn có thể làm hỏng hệ thống và dẫn đến làm gián đoạn việc lấy dữ liệu từ các cảm biến.

- Thông số dữ liệu huấn luyện thu thập chưa nhiều, chưa đủ đặc trưng nên trong một số trường hợp sẽ dự báo sai.

Chương 5:

KẾT LUẬN 5.1 Kết quả đạt được

Xây dựng mơ hình thu thập dữ liệu ổn định, tiêu tốn ít năng lượng và các điểm thu thập hoạt động ở nhiều khu vực khác nhau.

Xây dựng thành cơng hệ thống dự báo thời tiết bằng thuật tốn máy học áp dụng các vấn đề lý thuyết đã tìm hiểu về mơ hình thu thập dữ liệu khơng dây, mạng nơron truyền thẳng nhiều lớp, thuật toán lan truyền ngược và các bước cần thực hiện khi phân tích, thiết kế và xây dựng ứng dụng cho bài toán dự báo thời tiết.

Thuật toán để dự đoán sự kiện mưa bằng các thông số thời tiết đã đáp ứng được yêu cầu đặt ra, dự đốn với độ chính xác khá cao. Các thực nghiệm cho thấy, nếu như được huấn luyện tốt trên tập các dữ liệu đầy đủ và hoàn thiện với các tham số được lựa chọn cẩn thận thì kết quả dự báo có thể đạt độ chính xác cao.

Đề tài có nghiên cứu để thực nghiệm dự báo trên những thông số đã thu thập được với các mơ hình thuật tốn khác như: Logistic Regression, Naive Bayes, K-Nearest Neighbor, Decision Tree, Random Forest, Support Vector Machine. Đồng thời, so sánh hiệu năng và khả năng dự báo của các mơ hình thuật tốn trên với mơ hình mạng nơron nhân tạo nhiều lớp sử dụng thuật toán lan truyền ngược mà tác giả đã đề xuất cho hệ thống trong đề tài này.

5.2 Hạn chế

Với thời gian có hạn, dữ liệu huấn luyện thu thập chưa nhiều, chưa đủ đặc trưng nên mơ hình đưa ra kết quả mới đúng ở những thời điểm trong mùa do vậy khơng có ý nghĩa lớn trong thực tiễn, lúc giao mùa phải huấn luyện lại mạng. Để mơ hình dự báo thu được kết quả cao thì tập dữ liệu huấn luyện phải lớn, phải đặc trưng cho mùa.

5.3 Hướng phát triển

Trong tương lai, tác giả sẽ tiếp tục nghiên cứu sâu và rộng hơn nữa về mạng nơron nhân tạo. Kết hợp lai ghép mạng nơron nhân tạo với các phương pháp khác để tối ưu khả năng tiên đoán của mạng nơron nhân tạo nhằm hướng tới việc áp dụng mạng nơron vào dự báo vấn đề thực tế.

Mở rộng phạm vi thu thập dữ liệu bằng cách gia tăng số lượng khối cảm biến ở nhiều khu vực với khoảng cách lớn hơn, đồng thời tích hợp mạch pin để tiết kiệm năng lượng.

Cải thiện khả năng dự đoán với tập dữ liệu lớn hơn. Mở rộng thời gian thu thập dữ liệu và thu thập thêm nhiều thông số môi trường khác để tăng khả năng tổng qt hóa mơ hình dự báo và đa dạng về yếu tố đầu vào với nhiều dữ liệu thời tiết diễn ra tại mọi thời điểm trong năm.

Hệ thống sẽ tích hợp các chức năng như cảnh báo sự cố, ghi nhận thay đổi bất thường xảy ra trên hệ thống và máy chủ.

Tài Liệu Tham Khảo

[1] Tác động của biến đổi khí hậu đến tự nhiên và xã hội. Internet:

Tác động của biến đổi khí hậu đến tự nhiên và xã hội (quangnam.gov.vn), 12/06/2018.

[2] Cảnh báo thời tiết cực đoan ảnh hưởng đến sản xuất nông nghiệp. Internet:

Cảnh báo thời tiết cực đoan ảnh hưởng đến sản xuất nông nghiệp (nongdan.com.vn),

15/02/2019.

[3] Tăng dữ liệu thời tiết trong nông nghiệp, giảm rủi ro biến đổi khí hậu. Internet:

Tăng dữ liệu thời tiết trong nông nghiệp,giảm rủi ro biến đổi khí hậu | baotintuc.vn,

20/08/2017.

[4] Các phương pháp dự báo thời tiết hàng không hiện nay ở Việt Nam. Internet:

Các phương pháp dự báo thời tiết hàng không hiện nay ở Việt Nam (vatm.vn),

20/09/2018.

[5] S. Ray. A Quick Review of Machine Learning Algorithms. 2019 International Conference on Machine Learning, Big Data, Cloud and Parallel Computing (COMITCon), 2019, pp. 35-39.

[6] T. Truong, A. Dinh and K. Wahid. An IoT environmental data collection system for fungal detection in crop fields, 2017 IEEE 30th Canadian Conference on Electrical and Computer Engineering (CCECE), 2017, pp. 1-4.

[7] J. K. Roy, D. Gupta and S. Goswami. An improved flood warning system using WSN and Artificial Neural Network. 2012 Annual IEEE India Conference, 2012, pp. 770-774.

[8] Mohsen Hayati, Zahra Mohebi. Application of Artificial Neural Networks for Temperature Forecasting. World Academy of Science, Engineering and Technology, Vol 4, Issue 1, pp. 662-666, 2007.

[9] L. P. Dinesh Kumar, S. Shakena Grace, A. Krishnan, V. M. Manikandan, R. Chinraj and M. R. Sumalatha. Data filtering in wireless sensor networks using neural networks for storage in cloud, 2012 International Conference on Recent Trends in Information Technology, 2012, pp. 202-205.

[10] Tạ Quốc Dũng, Lê Thế Hà, Phạm Duy Khang. Ứng dụng mạng Neural nhân tạo trong dự báo độ rỗng. Tạp chí dầu khí, số 7, tr 18-27, 2019.

[11] A. Sperduti. An overview on supervised neural networks for structure. Proceedings of International Conference on Neural Networks, 1997, pp. 2550-2554. [12] M. Chen, U. Challita, W. Saad, C. Yin and M. Debbah. Artificial Neural Networks-Based Machine Learning for Wireless Networks: A Tutorial. IEEE Communications Surveys & Tutorials, vol. 21, no. 4, pp. 3039-3071, 2019.

[13] C. Bircanoğlu and N. Arıca. A comparison of activation functions in artificial neural networks. 2018 26th Signal Processing and Communications Applications Conference (SIU), 2018, pp. 1-4.

[14] M. Verhelst and B. Moons, Embedded Deep Neural Network Processing: Algorithmic and Processor Techniques Bring Deep Learning to IoT and Edge Devices. IEEE Solid-State Circuits Magazine, vol. 9, no. 4, pp. 55-65, Fall 2017. [15] I. R. Widiasari, L. E. Nugroho and Widyawan. Deep learning multilayer perceptron (MLP) for flood prediction model using wireless sensor network based hydrology time series data mining. 2017 International Conference on Innovative and Creative Information Technology (ICITech), 2017, pp. 1-5.

[16] A. J. Smola và B. Schölkopf. A tutorial on support vector regression. Statistics and Computing, tập 14, số 3, pp. 199-222, 2004.

[18] M. Muthmainnah, M. Ashar, I. M. Wirawan and T. Widiyaningtyas. Time Series Forecast for Rainfall Intensity in Malang City with Naive Bayes Methodology. 2018 International Conference on Sustainable Information Engineering and Technology (SIET), 2018, pp. 137-14.

[19] A. Geetha and G. M. Nasira.Data mining for meteorological applications: Decision trees for modeling rainfall prediction. 2014 IEEE International Conference on Computational Intelligence and Computing Research, 2014, pp. 1-4.

[20] S. C. Sreenivasa, S. K. Agarwal and R. Kumar. Short term wind forecasting using logistic regression driven hypothesis in artificial neural network. 2014 6th IEEE Power India International Conference (PIICON), 2014, pp. 1-6.

[21] Z. Liu and Z. Zhang. Solar forecasting by K-Nearest Neighbors method with weather classification and physical model. 2016 North American Power Symposium (NAPS), 2016, pp. 1-6.

[22] Y. Liu and H. Wu. Prediction of Road Traffic Congestion Based on Random Forest. 2017 10th International Symposium on Computational Intelligence and Design (ISCID), 2017, pp. 361-364.

Một phần của tài liệu Ứng dụng máy học trong nông nghiệp công nghệ cao (Trang 63)

Tải bản đầy đủ (PDF)

(73 trang)