Dự báo giá khoai lang huyện Bình Tân, tỉnh Vĩnh Long bằng trí tuệ nhân tạo

7 21 0
Dự báo giá khoai lang huyện Bình Tân, tỉnh Vĩnh Long bằng trí tuệ nhân tạo

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết này trình bày việc ứng dụng mô hình học sâu Long Short Term Memory (LSTM) trong dự báo giá khoai lang huyện Bình Tân tỉnh Vĩnh Long. Thực nghiệm trên bộ số liệu về giá loại khoai lang Tím nhật phổ biến ở huyện Bình Tân tỉnh Vĩnh Long từ năm 2015 đến tháng 3/2020 cho thấy LSTM dự báo dài hạn tốt hơn ARIMA.

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00157 DỰ BÁO GIÁ KHOAI LANG HUYỆN BÌNH TÂN, TỈNH VĨNH LONG BẰNG TRÍ TUỆ NHÂN TẠO Lê Duy Đồng1, Nguyễn Thị Thý Liễu2, Vũ Thanh Nguyên3, Nguyễn Thanh Nghiêm4, Lê Kim Nga5 1,2 Phân hiệu Trường Đại học Kinh tế Thành phố Hồ Chí Minh, tỉnh Vĩnh Long Trường Đại học Cơng nghiệp Thực phẩm Thành phố Hồ Chí Minh Trung tâm Khuyến nông - Sở Nông nghiệp Phát triển nông thôn tỉnh Vĩnh Long Trường Trung học phổ thông & Trung học sở Trưng Vương - thành phố Vĩnh Long dongld@ueh.edu.vn, lieuntt@ueh.edu.vn, nguyenvt@hufi.edu.vn, thanhnghiem79@yahoo.com.vn, lekimngavlg@gmail.com TĨM TẮT: Bài báo trình bày việc ứng dụng mơ hình học sâu Long Short Term Memory (LSTM) dự báo giá khoai lang huyện Bình Tân tỉnh Vĩnh Long Chúng thực hiện: Thu thập xử lý liệu học; Xây dựng huấn luyện mô hình; Dự báo Đánh giá sai số; So sánh kết với mơ hình thống kê ARIMA Thực nghiệm số liệu giá loại khoai lang Tím nhật phổ biến huyện Bình Tân tỉnh Vĩnh Long từ năm 2015 đến tháng 3/2020 cho thấy LSTM dự báo dài hạn tốt ARIMA Từ khóa: LSTM, ARIMA, dự báo chuỗi thời gian, dự báo giá nông sản I GIỚI THIỆU Trong năm qua, việc ứng dụng thành tựu khoa học máy tính vào cơng tác dự báo kinh tế nói chung dự báo giá hàng nơng sản nói riêng giới Việt Nam đạt thành tựu quan trọng Năm 2018, Sima Siami Namin - nghiên cứu sinh Khoa Nông nghiệp Kinh tế ứng dụng, Akbar Siami Namin giáo sư Khoa Khoa học Máy tính Trường Đại học Kỹ thuật Texas Hoa Kỳ ứng dụng thành cơng mơ hình Arima LSTM dự báo giá chứng khoán [1] Tại Ấn Độ năm 2005, ba tác giả Sagar Pathane, Uttam Patil, Nandini Sidnal giáo sư sinh viên Khoa Khoa học Máy tính Trường Đại học Sheshgiri Ấn Độ nghiên cứu thành cơng cơng bố tạp chí publishingindia.com báo “Prediction of Future Market Price for Agricultural Commodities” [2] Kết luận báo nêu lên lợi ích việc ứng dụng giải thuật máy học để dự báo giá nông sản, giúp tăng lợi nhuận cho người nơng dân, điều có ý nghĩa đặc biệt Ấn Độ nước sản xuất nông nghiệp hàng đầu giới Năm 2003, PGS.TS Vũ Thanh Nguyên - Đại học Công nghệ thông tin - Đại học Quốc gia TP HCM cộng thực đề tài cấp Cơ sở TP HCM “Giải số vấn đề phân tích dự báo kinh tế ứng dụng ngành công nghiệp TP HCM” [3] Đề tài này, nhóm nghiên cứu ứng dụng thành cơng giải thuật máy học vào dự báo giá vàng, gạo, cà phê, Năm 2016, PGS.TS Nguyễn Đình Thuân - Trường Đại học Công nghệ thông tin cộng cơng bố cơng trình nghiên cứu “Phương pháp dự báo chuỗi thời gian dựa chuỗi thời gian mờ theo tiếp cận đại số gia tử” [4] Hội nghị Khoa học Quốc gia lần thứ nghiên cứu ứng dụng Công nghệ thông tin (FAIR9) Huyện Bình Tân tỉnh Vĩnh Long nơi trồng chiếm 95 % diện tích khoai lang tỉnh Vĩnh Long đứng đầu vùng Đồng sông Cửu Long, tập trung hai xã Tân Thành Thành Đông Các giống khoai trồng phổ biến Tím Nhật, Trắng Sữa, Trắng Giấy, Bí Đường, Bí Nghệ, Dương Ngọc,… đạt phẩm chất ngon, suất bình quân 20 tấn/ha, sản lượng hàng năm đạt khoản 300 ngàn [5] Tuy nhiên, điệp khúc mùa giá lặp lặp lại mặt hàng nông sản nước nói chung tỉnh Vĩnh Long nói riêng, việc có tác động tiêu cực đến tâm lý gây thất thu kinh tế bà nông dân huyện tỉnh Cây khoai lang loại chủ lực tỉnh Vĩnh Long, điệp khúc mùa giá ảnh hưởng lớn đến đời sống bà trồng khoai nơi Trong năm 2010, 2012 2018 giá kilogram khoai lang Bình Tân tỉnh Vĩnh Long đơi cịn 2.500 đồng sản lượng liên tục tăng (từ 6.000 năm 2010 lên 14.000 năm 2018) [6] Xuất phát từ liệu nói trên, chúng tơi thực cơng trình nghiên cứu với mong muốn góp phần sức lực nhỏ bé vào cơng phát triển kinh tế - xã hội chung địa phương Bên cạnh kết nghiên cứu nguồn tài liệu tin cậy giảng dạy học tập giảng viên, sinh viên Phân hiệu Trường Đại học Kinh tế Thành phố Hồ Chí Minh tỉnh Vĩnh Long sở đào tạo khác II MÔ HÌNH DỰ BÁO CHUỖI THỜI GIAN A Một số mơ hình dự báo chuỗi thời gian Mơ hình dự báo chuỗi thời gian đa dạng, thường chia thành nhóm gồm nhóm mơ hình thống kê nhóm mơ hình máy học Mơ hình thống kê: Các mơ hình thống kê đời từ sớm khẳng định vị chúng thống kê dự báo kinh tế định lượng như: mô hình Tự hồi quy Autoregressive (AR), mơ hình Trung bình trượt Moving Average (MA), mơ hình Véc tơ tự hồi quy Véc tơ Autoregression (VAR),… Trong đó, mơ hình Tự hồi quy kết hợp trung bình trượt DỰ BÁO GIÁ KHOAI LANG HUYỆN BÌNH TÂN, TỈNH VĨNH LONG BẰNG TRÍ TUỆ NHÂN TẠO 108 AutoRegressive Integrated Moving Average (ARIMA) tích hợp AR MA sử dụng rộng rãi Trong nghiên cứu này, chúng tơi chọn ARIMA để làm đối chứng với LSTM tính phổ biến hiệu Mơ hình ARIMA [1] dự báo chuỗi thời gian hai nhà khoa học thống kê George Box Gwilym Jenkins giới thiệu năm 1976 Phương pháp thường gọi phương pháp Box-Jenkins, dùng để xác định mơ hình phù hợp với chuỗi thời gian khứ thơng qua ba tham số p, d, q Trong p tham số độ trễ chuỗi quan sát (time lag) cho mơ hình tự hồi quy (AR), q tham số cho mơ hình trung bình trượt (MA), d bậc sai phân để có chuỗi dừng, tham số đại diện cho tích hợp (Integrated) Để sử dụng mơ hình ARIMA vào dự báo chuỗi thời gian cần có điều kiện sau: chuỗi phải có tính dừng, số lượng mẫu quan sát phải từ 50 mẫu trở lên Một phương pháp thông dụng để xác định chuỗi có tính dừng hay khơng phương pháp KPSS (p-value > 0,05 tương đương chuỗi có tính dừng ngược lại),… Ta thực sai phân (Differencing) chuỗi nhiều lần để có chuỗi dừng Mơ hình ARIMA đánh giá thơng qua thông số AIC BIC (Akaike Information Criterion Bayesian Information Criterion) Khơng có AIC BIC chuẩn cho mơ hình thơng số nhỏ mơ hình phù hợp với chuỗi quan sát Có nhiều biến thể ARIMA SARIMA, ARIMAX, VAR, VCER,… cho loại hình chuỗi thời gian khác Mơ hình máy học: Các mơ hình máy học ứng dụng dự báo chuỗi thời gian phong phú, số đại diện tiêu biểu như: Multi-Layer Perceptron (MLP), Nearest regression (KNN), Support Vector Regression SVR, Long Short Term Memory (LSTM),… Trong nghiên cứu này, chọn LSTM giải thuật học sâu mới, tính xác cao khả dự báo tốt dài hạn LSTM viết tắt chữ Long Short Term Memory, mạng học sâu với nhiều lớp nơron hồi quy, dạng đặc biệt RNN (Recurrent Neural Network) LSTM giới thiệu lần đầu vào năm 1997 hai nhà khoa học Sepp Hochreiter Jürgen Schmidhuber Qua nhiều cải tiến, LSTM ngày mạnh mẽ ứng dụng thành công nhiều lĩnh vực từ xử lý ngôn ngữ tự nhiên đến xử lý hình ảnh, video Năm 2016 Google ứng dụng LSTM nhận dạng smartphone, Google dịch,… Năm 2017 Facebook ứng dụng LSTM cho công cụ dịch tự động cho 4.5 tỉ người dùng ngày Hình Một cell LSTM [7] đó: - : Tanh Signoid hai hàm nhận vùng giá trị lần lược [0,1] [-1,1] - Forget Gate: Cổng quên, định xem thông tin nhớ giữ thông tin bị loại bỏ - Output Gate: Cổng - Input Gate: Cổng vào III DỰ BÁO GIÁ KHOAI LANG A Thu thập xử lý liệu giá khoai lang huyện Bình Tân tỉnh Vĩnh Long (Data set) Số liệu thu thập từ Trung tâm Thông tin nông nghiệp nông thôn thuộc Sở Nông nghiệp Phát triển nông thôn tỉnh Vĩnh Long Trung tâm cập nhật giá khoai lang tuần lần từ báo cáo Trạm Khuyến nơng huyện Bình Tân tỉnh Vĩnh Long Số liệu thu thập tháng 02/2015 đến tháng 03/2020 742 mẫu tin cho loại khoai lang Tím Nhật trồng phổ biến huyện Bình Tân tỉnh Vĩnh Long Bảng Ngày 02/02/2015 02/4/2015 … 03/4/2020 03/6/2020 Bảng liệu thô Giá (đồng/tạ) 810000 780000 … 600000 550000 Lê Duy Đồng, Vũ Thanh Nguyên, Nguyễn Thị Thý Liễu, Nguyễn Thanh Nghiêm, Lê Kim Nga 109 Chúng chọn kỳ dự báo theo tuần cách lấy trung bình giá ngày tuần, đơn vị giá tính ngàn đồng/tạ (60 kg) để tiện cho việc hiển thị quan sát biểu đồ Kết xử lý liệu chuỗi thời gian 256 tuần Bảng Hình Bảng Giá khoai lang Tím Nhật - huyện Bình Tân tỉnh Vĩnh Long theo tuần từ 2015 đến 2020 Tuần 2015-02-08 2015-02-15 … 2020-03-01 2020-03-08 Giá (ngàn đồng/tạ) 788.571429 780.000000 … 734.285714 610.000000 Hình Biểu đồ giá khoai lang huyện Bình Tân tỉnh Vĩnh Long theo tuần từ 2015 đến 2020 B Dự báo với mơ hình Arima Chuẩn bị liệu Kiểm tra tính dừng chuỗi kiểm tra KPSS Results of KPSS Test: Test Statistic p-value Lags Used Critical Value (10%) Critical Value (5%) Critical Value (2.5%) Critical Value (1%) 0.18023 0.10000 16.00000 0.34700 0.46300 0.57400 0.73900 p-value > signif level (0.05) nên chuổi liệu có tính dừng Chia liệu thu thập làm phần, đó: tập liệu huấn luyện chiếm 2/3 tập kiểm tra chiếm 1/3 Xây dựng mơ hình If series stationary Scaled series Product (p, d, q) range (0, 5) For each pdq in [p, d, q] size = int(len(series) * 0.66) Train, Test = series[0:-size], series[-size:] For each t in Test Fit ARIMA(Train, order=pdq) Forecast ARIMA() Train.append(t) Store AIC, BIC, MSE ARIMA.summary() DỰ BÁO GIÁ KHOAI LANG HUYỆN BÌNH TÂN, TỈNH VĨNH LONG BẰNG TRÍ TUỆ NHÂN TẠO 110 Kết huấn luyện dự báo Quá trình huấn luyện Arima trình thử sai để tìm số pdq mà AIC BIC mơ hình nhỏ Với pdq = [1, 0, 4] thông số mô hình 3, MSE = 0.0040 Hình Thơng số mơ hình ARIMA dự báo giá khoai lang huyện Bình Tân tỉnh Vĩnh Long Với mơ hình trên, cho ARIMA dự báo bước tập kiểm tra, kết dự báo so với số liệu thực mơ tả Hình Hình Biểu đồ tập kiểm tra kết dự báo với ARIMA Trong đó: - Đường màu xanh: Dữ liệu thực - Đường màu đỏ: Kết dự báo Biểu đồ Hình cho thấy kết dự báo giá khoai lang Tím Nhật huyện Bình Tân tỉnh Vĩnh Long mơ hình ARIMA(1, 0, 4) đáng tin cậy C Dự báo với mơ hình LSTM Chuẩn bị liệu Chuẩn bị liệu mục B.1 Lê Duy Đồng, Vũ Thanh Nguyên, Nguyễn Thị Thý Liễu, Nguyễn Thanh Nghiêm, Lê Kim Nga 111 Xây dựng mơ hình Scaled serries size = int(len(series) * 0.66) Train, Test = series[0:-size], series[-size:] Reshape Train Reshape Test model = Sequential() model.add(LSTM(Number of neurons, input_shape=(1, Look_back))) model.add(Dropout(0.1)) model.add(Dense(1)) model.compile(loss='mse', optimizer='adam') model.fit(trainX, trainY, epochs=number of epochs, batch_size= Number of Look_back, verbose=1) Predict Inverse Kết huấn luyện dự báo Huấn luyện LSTM với thông số 600 nơron, look_back = 24 tuần giá, epochs = 300 thu thơng số mơ Hình 5, MSE = 0.0044 Hình Thơng số mơ hình LSTM Với mơ hình trên, cho LSTM dự báo bước tập Test, kết dự báo so với số liệu thực mô tả Hình Hình Biểu đồ tập kiểm tra kết dự báo với LSTM Trong đó: - Đường màu xanh: Dữ liệu thực - Đường màu đỏ: Kết dự báo D Đối sánh mơ hình Kết mơ hình cho thấy MSE ARIMA thấp LSTM huấn luyện lẫn dự báo Tuy nhiên với ARIMA, liệu cần phải kiểm tra tính dừng, chuỗi khơng dừng phải thực bước sai phân Hạn chế lớn ARIMA dự báo dài hạn cho kết thiếu xác 112 DỰ BÁO GIÁ KHOAI LANG HUYỆN BÌNH TÂN, TỈNH VĨNH LONG BẰNG TRÍ TUỆ NHÂN TẠO Hình Kết dự báo với ARIMA liên tục 24 tuần Chúng cho ARIMA dự báo 24 tuần kể từ đầu tháng 03/2020 Hình cho thấy ARIMA dự báo ổn định khoảng đến tuần tháng 03/2020 Các tuần sau biểu đồ giá tăng dần đến tuần 20 ngang Do đó, nghiên cứu này, chúng tơi thiết lập ARIMA dự báo bước (step by step) giải thuật mục B.2 Trong đó, LSTM khơng cần kiểm tra tính dừng liệu, kết dự báo tập kiểm tra nghiêm cứu có MSE cao ARIMA (0.0044 so với 0.0040) Tuy nhiên, ưu điểm lớn LSTM dự báo tin cậy dài hạn Hình Kết dự báo với LSTM liên tục 24 tuần Để đối sánh với ARIMA, cho LSTM dự báo 24 tuần kể từ đầu tháng 03/2020 Hình cho thấy biểu đồ giá LSTM dự báo tin cậy ARIMA Có thể cho LSTM dự báo xa hơn, nhiên chọn thời gian dự báo 24 tuần nhằm tương ứng với thời gian trung bình vụ khoai lang huyện Bình Tân tỉnh Vĩnh Long IV MÔ TẢ ỨNG DỤNG Ứng dụng dự báo giá khoai lang xây dựng online Project Cocalc ngôn ngữ Python địa https://cocalc.com/projects/0f0d8eae-3f9b-4ea7-9c17-f19dd801f1e2 Sử dụng Project này, người dùng cần có tài khoản CoCalc gửi yêu cầu đến collaborator (dongld@ueh.edu.vn) để cấp quyền sử dụng Để dự báo giá khoai lang huyện Bình Tân tỉnh Vĩnh Long, người dùng chọn tập tin ARIMA.ipynb muốn chạy ARIMA, ngược lại muốn chạy LSTM chọn tập tin LSTM.ipynb Đối với LSTM muốn dự báo xa tương lai người dùng thực bước sau: B1 Download tập tin B2 Cập nhật giá khoai lang từ cổng thông tin,… B3 Upload tập tin B4 Chạy tập tin LSTM.ipynb B5 Đọc phân tích biểu đồ TÀI LIỆU THAM KHẢO [1] Namın, S S., & Namın, A S, “Forecasting economic and financial time series: ARIMA vs LSTM” Lubbock, TX, USA: Texas Tech University, 2018, retrieved from https://arxiv.org/fp/arxiv/papers/1803/1803.06386.pdf [2] Sagar Pathane, Uttam Patil, Nandini Sidnal, “Prediction of Future Market Price for Agricultural Commodities” Belgaum,Karnataka, India, 2015, retrieved from http://www.publishingindia.com/ijsse/70/prediction-of-futuremarket-price-for-agricultural-commodities/394/2804/ Lê Duy Đồng, Vũ Thanh Nguyên, Nguyễn Thị Thý Liễu, Nguyễn Thanh Nghiêm, Lê Kim Nga 113 [3] Vũ Thanh Nguyên, “Giải số vấn đề phân tích dự báo kinh tế ứng dụng ngành công nghiệp TP HCM”, 2003 [4] Hồng Tùng, Nguyễn Đình Thn, Vũ Minh Lộc, “Phương pháp dự báo chuỗi thời gian dựa chuỗi thời gian mờ theo tiếp cận đại số gia tử”, Fair 9, 2016, Cần Thơ [5] Thành Long, “Thế mạnh vùng nguyên liệu khoai lang”, Báo Vĩnh Long Online, 2018, http://www.baovinhlong.com.vn/kinh-te/nong-nghiep/201803/the-manh-vung-nguyen-lieu-khoai-lang-2885311/ [6] Cao Huyền, Phương Thủy, “Tìm lời giải cho khoai lang ổn định, hiệu , Báo Vĩnh Long Online, 2019, http://baovinhlong.com.vn/thoi-su/201901/tim-loi-giai-cho-cay-khoai-lang-on-dinh-hieu-qua-2928700/#.XvU9iZgzbIU [7] Ayşe Soy Temür, Melek Akgün, Günay Temür, “Predicting housing sales in turkey using ARIMA, LSTM and hybrid models”, Journal of Business Economics and Management, 2019 FORECASTING SWEET POTATOES PRICE IN BINH TAN DISTRICT, VINH LONG PROVINCE BY ARTIFICIAL INTELLIGENCE Le Duy Dong, Vu Thanh Nguyen, Nguyen Thi Thy Lieu, Nguyen Thanh Nghiem, Le Kim Nga ABSTRACT: This paper presents the application of the Long Short Term Memory (LSTM) deep learning model in predicting sweet potato prices in Binh Tan district, Vinh Long province We have implemented: Collecting and processing data set; Building and training models; Forecasting and evaluation; Comparing results with ARIMA statistical model Experiments on the price of Tim Nhat potato, a main type of sweet potatoes in Binh Tan district, Vinh Long province from 2015 to March 2020 show that LSTM is more accurate in the long term forecasting ... Train.append(t) Store AIC, BIC, MSE ARIMA.summary() DỰ BÁO GIÁ KHOAI LANG HUYỆN BÌNH TÂN, TỈNH VĨNH LONG BẰNG TRÍ TUỆ NHÂN TẠO 110 Kết huấn luyện dự báo Quá trình huấn luyện Arima trình thử sai để... LSTM dự báo xa hơn, nhiên chọn thời gian dự báo 24 tuần nhằm tương ứng với thời gian trung bình vụ khoai lang huyện Bình Tân tỉnh Vĩnh Long IV MƠ TẢ ỨNG DỤNG Ứng dụng dự báo giá khoai lang xây dựng... ARIMA dự báo giá khoai lang huyện Bình Tân tỉnh Vĩnh Long Với mơ hình trên, cho ARIMA dự báo bước tập kiểm tra, kết dự báo so với số liệu thực mơ tả Hình Hình Biểu đồ tập kiểm tra kết dự báo với

Ngày đăng: 30/09/2021, 15:30

Tài liệu cùng người dùng

Tài liệu liên quan