Mối quan tâm của doanh nghiệp, người quản lý, nhà đầu tư, chiến lược pháttriển kinh doanh hiệu quả đối với doanh nghiệp là thường xuyên phân tích dự báodoanh thu sẽ giúp nhà quản lý doan
Trang 1BỘ GIÁO DỤC
VÀ ĐÀO TẠO
VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-HỒ KHÔI
XÂY DỰNG ỨNG DỤNG PHÂN TÍCH DỰ BÁO DOANH THU DOANH NGHIỆP GOLF
LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH
Thành phố Hồ Chí Minh - 2020
Trang 2HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-HỒ KHÔI
XÂY DỰNG ỨNG DỤNG PHÂN TÍCH DỰ BÁO DOANH THU DOANH NGHIỆP GOLF
Chuyên ngành: Hệ Thống Thông Tin.
Mã số: 8480104
LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN VĂN LĂNG
Thành phố Hồ Chí Minh - 2020
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan các số liệu, kết quả trong luận văn nghiên cứu ứng dụngphân tích doanh thu, xây dựng phần mềm ứng dụng để phân tích doanh thu và dựbáo doanh thu của doanh nghiệp golf là trung thực
Thành phố Hồ Chí Minh, ngày 11 tháng 12 năm 2020
Học viên thực hiện
Hồ Khôi
Trang 4Chân thành cảm ơn đến gia đình, các Anh chị đồng nghiệp trong Viện Cơ học và Tinhọc ứng dụng, bạn bè đã giúp đỡ cũng như đóng góp ý kiến, động viên tinh thần chotôi có thêm nghị lực để hoàn thành luận văn này.
Trân trọng cảm ơn!
Thành phố Hồ Chí Minh, ngày 11 tháng 12 năm 2020
Học viên thực hiện
Hồ Khôi
Trang 5DANH MỤC CÁC BẢNG
Bảng 1:Số liệu doanh thu VietNam Golf Club từ 2003 – 2018. 15
Bảng 2: Bảng phân tích số liệu doanh thu VietNam Golf Club từ 2003 – 2018 15
Bảng 3: Bảng số liệu doanh thu golf theo từng quý qua năm 19
Bảng 4: Bảng số liệu doanh thu Gofl file CSV 20
Bảng 5: Bảng số liệu doanh thu golf từ tháng 01 năm 2003 đến 12 năm 2018 22
Bảng 6: Bảng số liệu MA4 theo trung bình cộng 23
Bảng 7: Bảng số liệu CMA4 theo trung bình cộng 24
Bảng 8: Bảng số liệu St x It 25
Bảng 9: Bảng số liệu St theo quý 25
Bảng 10: Bảng số liệu St hiệu chỉnh theo quý 25
Bảng 11: Bảng số liệu kết quả khử mùa vụ 26
Bảng 12: Bảng số liệu kết hồi quy theo quý 26
Bảng 13: Bảng kết quả Tt 27
Bảng 14: Bảng kết quả Yt = St x Tt 28
Bảng 15: Bảng kết quả dự báo quý 2,3,4 năm 2019 28
Bảng 16: Bảng kết quả dự báo quý năm 2020 đến 2026 29
Bảng 17: Bảng phương trình hồi quy tuyến tính 47
Bảng 18: Bảng kết quả mô hình nhân 48
Bảng 19: Bảng kết quả dự báo std err các mô hình 49
Bảng 20: Bảng kết quả dự báo các mô hình 50
Trang 6DANH MỤC CÁC HÌNH MINH HỌA
Hình 1: Giao diện và chức năng dự báo 4
Hình 2: Sơ đồ khối thuật toán phân tích dự báo mô hình nhân 19
Hình 3: Sơ đồ khối xây dựng quy trình dự báo bằng mô hình ARIMA 21
Hình 4: Quy trình huấn luyện mạng LSTM 22
Hình 5: Biểu đồ doanh thu gofl 23
Hình 6: Biểu đồ kết quả mô hình dự báo doanh thu Golf từ 2003 đến 2026 29
Hình 7: Biểu đồ minh họa doanh thu golf theo số liệu thực 31
Hình 8: Kết quả dự báo trung bình MA 32
Hình 9: Kết quả dự báo trung bình MA 33
Hình 10: Phân rã doanh thu theo tháng 34
Hình 11 : Biểu đồ phân tích số liệu theo thời gian 35
Hình 12: Biểu đồ doanh thu và doanh thu khác biệt 1 36
Hình 13: Biểu đồ doanh thu loại bỏ xu hướng 37
Hình 14: Biểu đồ biến đổi với Log 37
Hình 15: Biểu đồ biến đổi với Log khác 1 38
Hình 16: Sơ đồ tự tương quan (AFC) và (PACF) 39
Hình 17: Kết quả tốt nhất với mô hình dự báo 40
Hình 18: Biều đồ dự đón theo AFC và PACF 41
Hình 19: Kết quả dự báo trước 1 bước 42
Hình 20: Kết quả dự báo 10 năm tới 43
Hình 21: Biểu đồ doanh thu Golf 44
Hình 22: Kết quả thư nghiệm mô hình mạng LSTM 47
Hình 23: Biểu đồ trực quan với mô hình nhân 48
Hình 24: Mô hình trung bình MA ttheo tháng 49
Hình 25: Kết quả độ lệch chuẩn trung bình 49
Hình 26: Hình minh họa kết quả dự báo 50
Hình 27: Đồ thị minh họa trực quan LSTM 50
Trang 7MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
DANH MỤC CÁC BẢNG iii
DANH MỤC CÁC HÌNH MINH HỌA iv
MỤC LỤC v
CHƯƠNG 1 - TỔNG QUAN 1
CHƯƠNG 2 - MỘT SỐ PHƯƠNG PHÁP PHÂN TÍCH VÀ DỰ BÁO TÀI CHÍNH 6 2.1 Các phương pháp phân tích và dự báo 6
2.1.1 Dự báo ngắn hạn 6
2.1.2 Dự báo dài hạn 8
2.2 Các phương pháp dự báo theo chuỗi thời gian 9
2.2.1 Mức độ trung bình theo thời gian 9
2.2.1.1 Đối với dãy số thời kỳ 9
2.2.1.2 Đối với dãy số thời điểm 9
2.2.2 Các phương pháp biểu hiện xu hướng phát triển 9
2.2.2.1 Phương pháp số trung bình trượt 9
2.2.2.2 Phương pháp hồi quy 10
2.2.3 Phương pháp ARIMA 11
2.2.3.1 Mô hình AR(P) (Auto Regression) 11
2.3.3.2 Mô hình MA(q) (Moving Average) 11
2.3.3.3 Mô hình ARMA(p,q) 12
2.3.3.4 Mô hình ARMA mở rộng 12
2.2.4 Dự báo chuỗi thời gian sử dụng mạng nơ ron 13
Trang 82.2.5 Dự báo chuỗi thời gian sử dụng mạng Long short-term memory (LSTM) 14
CHƯƠNG 3 – PHÂN TÍCH, THIẾT KẾ HỆ THỐNG DỰ BÁO DOANH THU
GOLF THEO THỜI GIAN 15
3.1 Phân tích số liệu dự báo 15
3.2 Quy trình dự báo 16
3.3 Xây dựng quy trình phân tích dự báo cho bài toán doanh thu Golf 18
3.3.1 Xây dựng dự báo theo chuỗi thời gian với mô hình trung bình nhân 18
3.3.2 Xây dựng dữ liệu ứng dụng dự báo theo mô hình ARIMA 20
3.3.3 Xây dựng ứng dụng dữ liệu theo mô hình LSTM 22
CHƯƠNG 4 – XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM 23
4.1 Xây dựng dự báo theo chuỗi thời gian với mô hình trung bình nhân 23
4.1.1 Xây dựng dữ liệu dự báo : 23
4.1.2 Làm mịn số liệu: 23
4.1.3 Xác định St: 25
4.1.4 Xác định phương trình hồi quy: 26
4.1.4 Kết quả dự báo 28
4.2 Xây dựng ứng dụng dự báo theo mô hình ARIMA 30
4.2.1 Xây dựng chương trình phân tích và dự báo dự báo doanh thu hiện thực bằng Python 30
4.2.1.1 Khai báo thư viện và xử lý số liệu : 30
4.2.1.2 Xây dựng các mô hình trung bình (Moving Average): 31
4.2.1.3 Xây dựng mô hình ARIMA kết hợp 36
4.2.1.4 Xác định mô hình ARIMA phù hợp nhất 39
4.2.1.5 Dự báo doanh thu Golf 42
4.3 Xây dựng ứng dụng dự báo theo mô hình mạng Long short-term memory (LSTM) 44
4.3.1 Khai báo thư viện 44
4.3.2 Xây dựng số liệu Dataset 45
4.3.3 Xử lý số liệu 45
4.3.4 Xây dựng mô hình mạng LSTM 46
Trang 94.3.5 Huấn luyện mô hình mạng 46
4.3.6 Kết quả thử nghiệm 46
5.1 Kết quả dự báo 47
5.1.1 Kết quả xây dựng với mô hình nhân 47
5.1.2 Mô hình ARIMA 49
5.1.3 Mô hình mạng LSTM 50
5.2 Bảng kết quả kiểm nghiệm doanh thu khi kiểm nghiệm mô hình 50
KẾT LUẬN 51
DANH MỤC TÀI LIỆU THAM KHẢO 53
Trang 11Mối quan tâm của doanh nghiệp, người quản lý, nhà đầu tư, chiến lược pháttriển kinh doanh hiệu quả đối với doanh nghiệp là thường xuyên phân tích dự báodoanh thu sẽ giúp nhà quản lý doanh nghiệp thấy rõ thực trạng tình hình tài chínhcủa doanh nghiệp mình, từ đó có thể đánh giá mặt mạnh, yếu của doanh nghiệp làmcăn cứ chiến lược để thúc đẩy tăng doanh thu[1].
Phân tích dữ liệu và dự báo là một bài toán có ý nghĩa quan trọng trong việc
hỗ trợ các nhà quản lý đưa ra quyết định đúng đắn dựa vào các dữ liệu đã thu thậpđược Khi tiến hành dự báo cần căn cứ vào việc thu thập, xử lý số liệu trong quákhứ và hiện tại để xác định xu hướng vận động của các hiện tượng trong tương lainhờ vào một số mô hình toán học[2]
Phân tích dữ liệu và dự báo đã được một số nhà quản lý, chuyên gia kinh tếnghiên cứu và đề xuất một số giải pháp ứng dụng vào một số lĩnh vực cụ thể: Phântích và dự báo tình hình tài chính , tiền tệ , hoạch định và điều hành chính sách tàichính, xây dựng mô hình dự báo chỉ số thống kê xã hội chủ yếu, dự báo biến độnggiá chứng khoán , dự báo sự tác động của vốn đầu tư từ nước ngoài, dự báo giá một
số mặt hàng tư liệu sản xuất [3]
Phân tích hồi quy xu thế là các dạng ứng dụng mô hình hoá trong lý thuyếtphân tích chuỗi thời gian, như mô hình trung bình trượt MA(Moving Average), mô
tự hồi quy AR(AutoRegressive hay các dạng kết hợp như ARMA (AutoRegressiveMoving Average), ARIMA (AutoRegressive Integrated Moving Average) Trongmỗi tình huống ứng dụng cụ thể, vấn đề đặt ra là vận dụng một mô hình phân tíchchuỗi thời gian hay mô hình phân tích hồi quy xu thế [4]
Trang 12Phương pháp chủ yếu để phân tích chuỗi thời gian là sử dụng các công cụcủa thống kê như hồi quy và một vài công cụ khác Nhưng hiệu quả nhất có lẽ làphương pháp sử dụng mô hình ARIMA của Box-Jenkins Mô hình này đã cho mộtkết quả khá tốt trong phân tích dữ liệu và đang được sử dụng rất rộng rãi trong thực
tế Tuy nhiên, sự phức tạp của thuật toán đã gây khó khăn khi ứng dụng trong phântích chuỗi số liệu, nhất là khi chuỗi số liệu có những thay đổi phản ánh sự phi tuyếncủa mô hình Xu thế vận động tăng giảm của giữ liệu theo chuỗi thới gian mô tảbằng đường thẳng hoặc đường cong
Phương pháp dự báo mô hình học cộng đồng (ensemble learning) kết hợp giảithuật tiến hóa đa mục tiêu dùng mạng nơron nhân tạo (Artificial Neural Network -ANN) để huấn luyện được triển khai nhiều trong lĩnh vực dự báo chuỗi thời gian Thựchiện dự báo chuỗi thời gian với mô hình cộng đồng trên cơ sở các mô hình đơn để xâydựng dự báo lặp nhằm tìm ra được số các thành viên cộng đồng góp phần nâng caohiệu suất dự báo; Đề xuất dự báo chuỗi thời gian bằng giải thuật lai tiến hóa đa mụctiêu để tối ưu cấu trúc của mạng RNNs dựa trên hai mục tiêu: mục tiêu thứ nhất là các
cá thể dưới một ngưỡng trên biên Pareto và mục tiêu thứ hai là dựa trên lỗi huấn luyện;minh chứng việc cân bằng giữa độ đa dạng giữa các thành viên của cộng đồng và tínhchính xác (đó là hai yêu cầu quan trọng để xây dựng phương pháp học cộng đồng dựatrên giải thuật tiến hóa đa mục tiêu Một chuỗi thời gian được hiểu là một dãy rời rạccác giá trị quan sát tại các khoảng thời gian cách đều nhau Y= {y1, y2, … yt} đượcxếp thứ tự diễn biến thời gian với y1 là các giá trị quan sát tại thời
điểm đầu tiên, y2 là quan sát tại thời điểm thứ 2 và yt là quan sát tại thời điểm thứ t
Để nhận thấy sự biến động của hiện tượng qua thời gian, cần phải phân tích chuỗithời gian Có thể kể đến các yếu tố là nguồn gốc tạo ra đặc tính dao động, đó là: tính
xu hướng, tính mùa, tính chu kì và tính ngẫu nhiên [5]
Trang 13Liên quan đến đề tài, trong nước cũng có nhiều tác giả phân tích và dự báodoanh thu của doanh nghiệp như [1], tác giả nghiên cứu và phân tích dựa trên bản sốliệu báo cáo tài chính của doanh nghiệp trong vòng 03 năm, để phân tích và so sánh
tỷ lệ chênh lệch qua các năm dựa trên một số tiêu chí để phân tích như:
Phân tích tài sản ngắn hạn, phân tích khả năng thanh toán, khả năng sinh lợi
và phân tích cơ cấu tài chính, tác giả cũng chỉ ra các điểm tốt và chưa tốt của doanhnghiệp Với công trình này của tác giả chỉ nhận định trên việc so sánh và đưa ra kếtquả từ thực tế chưa dự báo được các kết quả trong thời gian trước
Phân tích hồi quy với biến giả trong việc phân tích và dự báo doanh số bánhàng [4], tác giả cũng đưa ra mô hình ARIMA theo thời gian nhưng theo tác giả là
mô hình ARIMA kết quả phân tích chưa tốt, theo tác giả thì hồi quy theo biến giả đạt kết quả tốt hơn mô hình ARIMA, kết quả của bài báo chỉ ra được các mặt hàng
ăn vặt tăng theo mùa và tăng theo thời gian và phụ thuộc vào yếu tố thời tiết
Xây dựng giải pháp và phân tích cho doanh nghiệp nhỏ [3], tác giả đã đưa racác phương pháp phân tích và dự báo như: trung bình cộng đơn giản, hồi quy tuyếntính, trung bình động đơn giản, tác giả đã xây dựng các giải pháp và xây dựng chương trình phần mềm để đánh giá dữ liệu và lựa chọn phương pháp dự báo
Ưu điểm: Xây dựng chương trình với nhưng số liệu thực tế liên tục cho kếtquả nhanh với nhiều lựa cho mô hình dự báo như mô hình trung bình cộng đơngiản, hồi quy tuyến tính Nhược điểm: là chương trình giản đơn chưa đi sâu vàonhững mô hình phức tạp
Ứng dụng công nghệ thông tin phân tích và dự báo :
Phân tích hồi quy với biến giả trong việc phân tích và dự báo doanh số bánhàng [4], tác giả đã dùng phần mềm R, phương trình hồi quy tuyến tính, hồi quy đabiến để phân tích và dự báo doanh số báng hàng của cửa hàng của Căn tin Trườngđại học Cần Thơ
Trang 14Xây dựng giải pháp và phân tích cho doanh nghiệp nhỏ [3], của tác giả đã sử dụng phần mềm SQL Server và ngôn ngữ lập trình C# để xây dựng các chức năng phân tích và dự báo kết quả của chương trình như hình minh họa Hình 1.
Hình 1: Giao diện và chức năng dự báoTrong doanh nghiệp golf hay các doanh nghiệp khác khi ứng dụng phân tích
và dự báo thường dùng công cụ phân tích có sẵn trong gói phần mềm MicrosofExcel để phân tích và dự báo Như lập kế hoạch và sánh các chỉ số doanh thu quacác năm, vẽ biểu đồ minh họa
Các phương pháp dự báo định tính là các phương pháp dự báo bằng cáchphân tích định tính dựa vào suy đoán, cảm nhận Các phương pháp này phụ thuộcnhiều vào trực giác, kinh nghiệm và sự nhạy cảm của nhà quản trị trong quá trình
dự báo, chỉ mang tính phỏng đoán, không định lượng
Các phương pháp dự báo định lượng dựa vào các số liệu thống kê và thôngqua các công thức toán học được thiết lập để dự báo nhu cầu cho tương lai Khi dựbáo nhu cầu tương lai, nếu không xét đến các nhân tố ảnh hưởng khác có thể dùngcác phương pháp dự báo theo dãy số thời gian
Những hướng tiếp cận phổ biến hiện nay để giải quyết bài toán dự báo doanhthu là dự báo theo chuỗi thời gian, mô hình hồi quy, mô hình máy học, mô hình
Trang 15chuyên gia Phân tích chuỗi thời gian dự báo doanh thu dựa vào phương trình hồiquy theo thời gian, hàm xu thế và biến động theo mùa vụ, theo hàm san mũ và chuỗithời gian dự báo
Một phương pháp tiếp cận hiệu quả đối với dự báo là phần quan trọng tronghoạch định, lên kế hoạch, xác định các hoạt động Bước đầu tiên trong hoạch định
dự báo hay ước lượng nhu cầu tương lai cho doanh thu dịch vụ và các nguồn lực cầnthiết để tạo ra dịch vụ doanh thu golf
Dự đoán doanh thu tài chính của doanh nghiệp trong tương lai, đó là lý do
để chọn đề tài “Xây dựng ứng dụng phân tích dự báo doanh thu doanh nghiệp golf”.Thu thập dữ liệu, phân tích dữ liệu, chuyển đổi thực trạng số liệu phục vụ phân tíchdoanh thu golf
Xây dựng các mô hình nghiên cứu và các giả thuyết nghiên cứu, xây dựngứng dụng phần mềm phân tích thử nghiệm dự đoán kết quả doanh thu theo chuỗithời gian
Thu thập dữ liệu và ứng dụng với số liệu của doanh nghiệp Golf có tên làVietNam Golf Club, thời gian số liệu thu thập là từ năm 2001 đến 2018
Trang 16CHƯƠNG 2 - MỘT SỐ PHƯƠNG PHÁP PHÂN TÍCH VÀ DỰ
BÁO TÀI CHÍNH
2.1 Các phương pháp phân tích và dự báo
Dự báo dài hạn: Là những dự báo có thời gian dự báo từ 5 năm trở lên.Thường dùng để dự báo những mục tiêu, chiến lược về kinh tế chính trị, khoa học
kỹ thuật trong thời gian dài ở tầm vĩ mô
Dự báo trung hạn: Là những dự báo có thời gian dự báo từ 3 đến 5 năm.Thường phục vụ cho việc xây dựng những kế hoạch trung hạn về kinh tế văn hoá xãhội… ở tầm vi mô và vĩ mô
Dự báo ngắn hạn: Là những dự báo có thời gian dự báo dưới 3 năm, loại dựbáo này thường dùng để dự báo hoặc lập các kế hoạch kinh tế, văn hoá, xã hội chủyếu ở tầm vi mô và vĩ mô trong khoảng thời gian ngắn nhằm phục vụ cho công tácchỉ đạo kịp thời
2.1.1 Dự báo ngắn hạn
Dự báo ngắn hạn ước lượng trong thời gian ngắn, có thể dự báo theo tuầnhoặc theo quý Dự báo ngắn hạn giúp các người điều hành quản lý doanh nghiệpđưa ra những thông tin để đưa ra quyết định
* Phương pháp bình quân di động có quyền số.
Trong phương pháp bình quân di động được đề cập ở phần trên, chúng taxem vai trò của các số liệu trong quá khứ là như nhau Trong một vài trường hợp,các số liệu này có ảnh hưởng khác nhau trên kết quả dự báo, vì thế, người ta thích
sử dụng quyền số không đồng đều cho các số liệu quá khứ Quyền số hay trọng số làcác con số được gán cho các số liệu quá khứ để chỉ mức độ quan trọng của chúngảnh hưởng đến kết quả dự báo Quyền số lớn được gán cho số liệu gần với kỳ dựbáo nhất để ám chỉ ảnh hưởng của nó là lớn nhất.Việc chọn các quyền số phụ thuộcvào kinh nghiệm và sự nhạy cảm của người dự báo
Trang 17Để dự báo thời kỳ thứ t với t là biến thời gian, ta ký hiệu là Ft
Số liệu thực tế thời kỳ trước (i=1,2, , n) thu thập được ký hiệu là A t−i
Quyền số tương ứng ở thời kỳ I, ký hiệu là ki. Được xác định bởi công thức
∑ At−iki
sau: = i=1
∑ n i=1 k
* Phương pháp điều hòa mũ.
Điều hòa mũ đưa ra các dự báo cho giai đoạn trước và thêm vào đó một lượng điều chỉnh để có được lượng dự báo cho giai đoạn kế tiếp Sự điều chỉnh này là một tỷ lệ nào đó của sai số dự báo ở giai đoạn trước và được tính bằng cách nhân số dự báo của giai đoạn trước với hệ số nằm giữa 0 và 1 gọi là α số này gọi là hệ số điều
* Phương pháp điều hòa mũ theo xu hướng
Chúng ta thường xem xét kế hoạch ngắn hạn, thì mùa vụ và xu hướng là nhân tố không quan trọng Khi chúng ta chuyển từ dự báo ngắn hạn sang dự báo trung hạn thì mùa vụ và xu hướng trở nên quan trọng hơn Kết hợp nhân tố xu hướng vào dự báo điều hòa mũ được gọi là điều hòa mũ theo xu hướng hay điều hòa đôi.Vì ước lượng cho số trung bình và ước lượng cho xu hướng cho số trung bình
và hệ số điều hòa được điều hòa cả hai Hệ số điều hòa cho xu hướng, được sử dụng trong mô hình này
Ta gọi Ft là giá trị dự báo theo xu hướng trong giai đoạn t , St là giá trị dự báo được điều hòa trong giai đoạn t, Tt gọi ước lượng trong giai đoạn t, At là số liệu thực tế trong gian đoạn t, t là thời gian trong gian đoạn t, t -1là thời gian nằm trong gian đoạn trước t, hệ số điều hòa trung bình có giá trị từ 0 ≤ ≤1,
hệ số điều hòa theo xu hướng có giá trị từ 0≤ ß ≤1 Ta có thể viết như sau: F t = S t−1 + T t−1 (A t - F t ) α.
Trang 182.1.2 Dự báo dài hạn
Dự báo dài hạn là ước lượng tương lai trong thời gian dài, thường hơn một năm
Dự báo dài hạn rất cần thiết trong quản trị sản xuất để trợ giúp các quyết định chiếnlược về hoạch định sản phẩm, quy trình công nghệ và các phương tiện sản xuất
* Phương pháp hồi qui tuyến tính.
Phân tích hồi qui tuyến tính là một mô hình dự báo thiết lập mối quan hệ giữa biến phụ thuộc với hai hay nhiều biến độc lập Trong phần này, chúng ta chỉ xét đến một biến độc lập duy nhất Nếu số liệu là một chuỗi theo thời gian thì biến độc lập là giai đoạn thời gian và biến phụ thuộc thông thường là doanh số bán rahay bất kỳ chỉ tiêu nào khác mà ta muốn dự báo Ta có: y - Biến phụ thuộc cần
* Tính chất mùa vụ trong dự báo chuỗi thời gian.
Loại mùa vụ thông thường là sự lên xuống xảy ra trong vòng một năm và có
xu hướng lặp lại hàng năm Những vụ mùa này xảy ra có thể do điều kiện thời tiết,địa lý hoặc do tập quán của người tiêu dùng khác nhau
Cách thức xây dựng dự báo với phân tích hồi qui tuyến tính khi vụ mùa hiệndiện trong chuỗi số theo thời gian Ta thực hiện các bước:
✓ Chọn lựa chuỗi số liệu quá khứ đại diện
✓ Xây dựng chỉ số mùa vụ cho từng giai đoạn thời gian.
Trang 19✓ Sử dụng các chỉ số mùa vụ để hóa giải tính chất mùa vụ của số liệu
✓ Phân tích hồi qui tuyến tính dựa trên số liệu đã phi mùa vụ.
✓ Sử dụng phương trình hồi qui để dự báo cho tương lai.
✓ Sử dụng chỉ số mùa vụ để tái ứng dụng tính chất mùa vụ cho dự báo
2.2 Các phương pháp dự báo theo chuỗi thời gian
2.2.1 Mức độ trung bình theo thời gian
2.2.1.1 Đối với dãy số thời kỳ
Muốn tính mức độ bình quân: ta cộng các mức độ trong dãy số rồi chia cho số các mức độ với Yi (i = 1,…, n) là các mức độ của dãy số thời kỳ, n là số mức độ của dãy số, ta có: = 1 + 2 + 3+⋯+
= ∑ =1
2.2.1.2 Đối với dãy số thời điểm
Dãy số có khoảng cách thời gian bằng nhau: mức độ trung bình được tính theo công thức sau:
= 1/2 + 2 + 3+⋯+ −1+ /2
−1Trong đó: yi (i=1,2, , n) là các mức độ của dãy số thời điểm, nsố mức độ của
số thời điểm, ti (i=1, 2, , n): độ dài của các khoảng cách thời gian
2.2.2 Các phương pháp biểu hiện xu hướng phát triển
2.2.2.1 Phương pháp số trung bình trượt
Số trung bình trượt (còn gọi là số trung bình di động) là số trung bình cộngcủa 1 nhóm nhất định các mức độ của dãy số được tính bằng cách lần lượt loại dần
các mức độ đầu, đồng thời, thêm vào các mức độ tiếp theo, sao cho tổng số lượng các
mức độ tham gia tính số trung bình không thay đổi
Giả sử có dãy thời gian y1, y2, y3, yn-1, yn
Nếu tính trung bình trượt cho nhóm 3 mức độ, ta sẽ có:
Trang 202.2.2.2 Phương pháp hồi quy
Trên cơ sở dãy số thời gian, người ta tìm một hàm số (gọi là phương trình hồiquy) phản ánh sự biến động của hiện tượng qua thời gian có dạng tổng quát như sau:
Trong đó: a0, a1, , an các tham số
t: thứ tự thời gian
Để lựa chọn đúng đắn dạng của phương trình hồi quy đòi hỏi phải dựa vào
sự phân tích đặc điểm biến động của hiện tượng qua thời gian, đồng thời kết hợpvới một số phương pháp đơn giản khác (như dựa vào đồ thị, dựa vào độ tăng (giảm)tuyệt đối, dựa vào tốc độ phát triển, .)
Các tham số ai (i= 1,2,3, , n) thường được xác định bằng phương pháp bình
phương nhỏ nhất Tức là: ∑( − ) 2 = min
Sau đây là 1 số dạng phương trình hồi quy đơn giản thường được sử dụng:Phương trình đường thẳng: y = a0 + a1t
Phương trình đường thẳng được sử dụng khí các lượng tăng (hoặc giảm) tuyệt
đối liên hoàn (còn gọi là sai phân bậc 1) xấp sỉ nhau
Trang 212.2.3 Phương pháp ARIMA
2.2.3.1 Mô hình AR(P) (Auto Regression)
Trong một quá trình tự hồi quy bậc p, số liệu quan trắc tại thời điểm hiện tại
yt được tạo ra bởi một tổng trung bình có trọng số của các giá trị quan trắc trong quákhứ tính cho đến giá trị quan trắc quá khứ thứ p Công thức định nghĩa như sau:
AR (1): yt = q1 * yt + et
AR (2): y t = q 1 * y (t−1) + q 2 * y (t−2) + e t
……….AR(P): y t = q 1 * y (t−1) + q 2 * y (t−2) +…+ q p * y (t−p) + e t
Trong đó q1; q2; …; qp là các thông số cần phải xác định et là một nhiễu trắng ngẫu nhiên
có dạng Gaussien Chúng ta cũng có thể thêm vào quá trình này một hằng số mà nó vẫn không ảnh hưởng đến những tính chất ngẫu nhiên của chuỗi Phương trình trên có thể viết dưới dạng đơn giản hơn nhờ vào định nghĩa toán tử lệch pha D như sau: e t = (1- q1 * D - q 2 * D 2 - … - q p * D p ) *
y t
2.3.3.2 Mô hình MA(q) (Moving Average)
Trong một quá trình trung bình động bậc q, số liệu quan trắc tại thời điểm hiện
tại yt được tính bởi tổng trung bình có trọng số giá trị của các nhiễu ngẫu nhiên chođến nhiễu thứ q Công thức định nghĩa như sau:
MA (1): yt = et - a1* e(t−1)
MA (2): y t = e t - a 1 * e (t−1) - a 2 * e (t−2)
-MA(q): y t = e t - a 1 * e (t−1) - a 2 * e (t−2) - … - a q * e (t−q)Trong đó a1, a3, ap là các thông số cần phải xác định et là một nhiễu trắngngẫu nhiên có dạng Gaussien Phương trình trên có thể viết dưới dạng đơn giản hơnnhờ vào định nghĩa một toán tử lệch pha D như sau: yt = (l -a1D- a2D2 - - apDp) et
Trong quá trình dạng nây cũng như tất cả các mô hình tự hồi quy các nhiễungẫu nhiên được giả thiết là được tạo ra bởi một <<nhiễu trắng>> Chúng ta có thể
Trang 22hiểu quá trình trung bình động là một chuỗi thời gian dao động ngẫu nhiên chungquanh giá trị trung bình của chúng.
2.3.3.3 Mô hình ARMA(p,q)
Mô hình ARMA(p,q) là một quá trình được tạo ra bởi từ tổ hợp giữa các giátrị của chuỗi trong quá khứ và các giá trị của nhiễu trong quá khứ Được xác địnhbởi phương trình sau đây:
Thật vậy giả sừ chuỗi có một xu thế tuyến tính biểu thị bởi phương trình sau
đây: y =a+bt
Định nghĩa sai biệt bậc 1 Dyt ta có: Dyt = yt-yt-1 =(a+bt) -(a+b[t—1]) =
b=cte Ta thấy chuỗi sai biệt bậc 1 có xu thế ổn định.
Trong trường hợp có xu thế bậc 2 phương trình có dạng: yt =a+bt+ct2
Tính sai biệt bậc 1 ta có: Dyt =yt - yt-1 = (a+bt+ct2) -(a+b[t-l] +c*[t-1]2) =
b-c+2tc Ta thấy chuỗi Dyt có xu thế bậc 1
Để có xu thế ổn định ta chỉ cần tính thêm một lần nữa cho sự khác biệt như trường hợp ta đã có trong trường hợp xu thế là tuyến tính ở trên
Trang 232.2.4 Dự báo chuỗi thời gian sử dụng mạng nơ ron
Giả sử ta có chuỗi thời gian {x[t]), x [t-1], …} tính đến thời điểm t, nhiệm vụ của chúng ta là dự báo giá trị của x tại một thời điểm trong tương lai.
xdb[t+s] =f(x[t], x[t−1], ···)
s: khoảng dự đoán (horizon of prediction) trong trường hợp s = 1, nghĩa là ta chỉ dự
báo 01 giá trị tại tương lai, khi đó, bài toán rơi vào trường hợp tìm ra một hàm xấp
xỉ (function approximation) biểu diễn chuỗi thời gian, nói cách khác là dự đoán giátrị tương lai từ các giá trị đã thu thập trước đó trong chuỗi thời gian
Để giải quyết bài toán dự báo chuỗi thời gian nói chung và sử dụng mạngnơron nói riêng, cần thực hiện các bước tổng quát sau:
Chọn mô hình tổng quát: Với mỗi x[ti] trong quá khứ, huấn luyện mô hình với đầu vào là các giá trị trước đó và đầu ra mong muốn, là chính ti.
Sau khi huấn luyện mô hình, chạy mô hình với chuỗi {x[t], x[t−1], ···} để thu được giá trị dự đoán xdb[t+s].[6]
Trang 242.2.5 Dự báo chuỗi thời gian sử dụng mạng Long short-term
memory (LSTM)
Mạng bộ nhớ dài - ngắn (Long ShortTerm Memory networks thường đượcgọi là LSTM) là một dạng đặc biệt của mạng nơ-ron hồi quy (Recurrent NeuralNetwork gọi là RNN) LSTM được giới thiệu bởi Hochreiter & Schmidhuber vàonăm (1997) được ứng dụng và phổ biến trên nhiều nghiên cứu khác nhau
LSTM là một trong những mạng thần kinh nhân tạo được sử dụng phổ biếntrong phân tích dữ liệu chuỗi thời gian (time-series) LSTM được thiết kế để tránhđược vấn đề phụ thuộc xa (long-term dependency) Việc nhớ thông tin trong suốtthời gian dài là đặc tính mặc định của chúng, chứ không cần phải đào tạo nó để cóthể nhớ được Tức là ngay nội tại của nó đa có thể ghi nhớ được mà không cần bất
kì can thiệp nào Mọi mạng hồi quy đều có dạng là một chuỗi các mô-đun lặp đi lặplại của mạng nơ-ron Với mạng RNN chuẩn, các mô-dun này có cấu trúc rất đơngiản, thường là một tầng tanh LSTM cũng có kiến trúc dạng chuỗi như vậy, nhưngcác mô-đun trong nó có cấu trúc khác với mạng RNN chuẩn Thay vì chỉ có mộttầng mạng nơron, chúng có tới 4 tầng tương tác với nhau một cách đặc biệt [8]
Trang 25CHƯƠNG 3 – PHÂN TÍCH, THIẾT KẾ HỆ THỐNG DỰ BÁO
DOANH THU GOLF THEO THỜI GIAN
3.1 Phân tích số liệu dự báo
Thu thập số liệu doanh thu golf từ năm 2003 đến năm 2018 theo bảng 1,
Bảng 1:Số liệu doanh thu VietNam Golf Club từ 2003 – 2018.
Phân tích số liệu doanh thu Golf từ năm 2003 đến 2018 như ở Bảng 2
Bảng 2: Bảng phân tích số liệu doanh thu VietNam Golf Club từ 2003 – 2018
Trang 26Theo kết quả phân tích trong bảng 2:3.2, trong giai đoạn năm 2003-2004,
doanh thu tăng 6,889 tỷ Việt Nam đồng , tỷ lệ doanh thu năm 2004 tăng là 8 % so vớinăm 2003, Năm 2018 tăng 54,865.09 tỷ đồng tỷ lệ doanh thu tăng 2018 so với năm
Bước 2: Xác định dự báo cái gì
Khi các mục tiêu tổng quát đã rõ ta phải xác định chính xác là dự báo cái gì
Dự báo doanh thu doanh thu Golf hay số đơn vị doanh số Dự báo theo năm, quý,tháng hay tuần
Bước 3: Xác định khía cạnh thời gian
Thứ nhất: Độ dài dự báo, cần lưu ý:
✓ Dự báo dài hạn: Là những dự báo có thời gian dự báo từ 5 năm trở lên.Thường dùng để dự báo những mục tiêu, chiến lược về kinh tế chính trị,khoa học kỹ thuật trong thời gian dài ở tầm vĩ mô
✓ Dự báo trung hạn: Là những dự báo có thời gian dự báo từ 3 đến 5 năm.Thường phục vụ cho việc xây dựng những kế hoạch trung hạn về kinh tếvăn hoá xã hội… ở tầm vi mô và vĩ mô
✓ Dự báo ngắn hạn: Là những dự báo có thời gian dự báo dưới 3 năm, loại
dự báo này thường dùng để dự báo hoặc lập các kế hoạch kinh tế, vănhoá, xã hội chủ yếu ở tầm vi mô và vĩ mô trong khoảng thời gian ngắnnhằm phục vụ cho công tác chỉ đạo kịp thời
Thứ hai: Làm dự báo phải thống nhất tính cấp thiết của dự báo
Trang 27Bước 4: Xem xét dữ liệu
Dữ liệu cần để dự báo có thể từ 2 nguồn: bên trong và bên ngoài
Cần phải lưu ý dạng dữ liệu sẵn có ( thời gian, đơn vị tính,…)
Dữ liệu thường được tổng hợp theo cả biến và thời gian, nhưng tốt nhất là thu thập dữ liệu chưa được tổng hợp
Cần trao đổi giữa người sử dụng và người làm dự báo
Bước 5: Lựa chọn mô hình
Làm sao để quyết định được phương pháp thích hợp nhất cho một tình huốngnhất định?
✓ Loại và lượng dữ liệu sẵn có
✓ Mô hình (bản chất) dữ liệu quá khứ
✓ Tính cấp thiết của dự báo
✓ Độ dài dự báo
✓ Kiến thức chuyên môn của người làm dự báo
Bước 6: Đánh giá mô hình
Đối với các phương pháp định tính thì bước này ít phù hợp hơn so vớiphương pháp định lượng
Đối với các phương pháp định lượng, cần phải đánh giá mức độ phù hợp của
mô hình (trong phạm vi mẫu dữ liệu)
Đánh giá mức độ chính xác của dự báo (ngoài phạm vi mẫu dữ liệu)
Nếu mô hình không phù hợp, quay lại bước 5
Bước 7: Chuẩn bị dự báo
Nếu có thể nên sử dụng hơn một phương pháp dự báo, và nên là những loạiphương pháp khác nhau (ví dụ mô hình hồi quy và san mũ Holt, thay vì cả 2 môhình hồi quy khác nhau)
Các phương pháp được chọn sử dụng để chuẩn bị cho một số các dự báo
Bước 8: Trình bày kết quả dự báo
Kết quả dự báo phải được trình bày rõ ràng cho ban quản lý sao cho họ hiểucác con số được tính toán như thế nào và chỉ ra sự tin cậy trong kết quả dự báo
Trang 28Người dự báo phải có khả năng trao đổi các kết quả dự báo theo ngôn ngữ
mà các nhà quản lý hiểu được
Trình bày cả ở dạng viết và dạng nói
Bảng biểu phải ngắn gọn, rõ ràng
Chỉ cần trình bày các quan sát và dự báo gần đây thôi
Chuỗi dữ liệu dài có thể được trình bày dưới dạng đồ thị
Trình bày thuyết trình nên theo cùng hình thức và cùng mức độ với phần trình bày viết
Bước 9: Theo dõi kết quả dự báo
Lệch giữa giá trị dự báo và giá trị thực phải được thảo luận một cách tích cực, khách quan và cởi mở
Mục tiêu của việc thảo luận là để hiểu tại sao có các sai số, để xác định độ lớn của sai số
Trao đổi và hợp tác giữa người sử dụng và người làm dự báo có vai trò rất quan trọng trong việc xây dựng và duy trì quy trình dự báo thành công [2]
3.3 Xây dựng quy trình phân tích dự báo cho bài toán doanh thu Golf 3.3.1 Xây dựng dự báo theo chuỗi thời gian với mô hình trung bình nhân
Chuỗi thời gian là một chuỗi giá trị được ghi nhận theo thời gian (ngày, tuần, tháng, quý, năm)
Có nhiều phương pháp dự báo với chuỗi thời gian, ở đây chỉ trình bày
phương pháp phân rã (Decomposition)
Theo phương pháp này, chuỗi thời gian có thể được mô tả theo dạng tích như sau:
Yt = St x Tt x It
Trongđó:
+ Yt là giá trị quan sát (observed value)+ St là giá trị quan sát (seasonality)+ Tt là yếu tố xu hướng (trend)+ It là yếu tố bất thường (irregularity)
Trang 29Xây dựng số liệu dự báo doanh thu golf theo năm và quý từ quý 1 năm 2003 đến quý 4 năm 2018, với bảng số liệu Bảng 3
Bảng 3: Bảng số liệu doanh thu golf theo từng quý qua năm
Quy trình thực hiện dự báo mô hình trung bình nhân theo Hình 2:
Xây dựng số liệuphân tích dự báo
Tạo các tham số
Làm mịn số liệu và tính các giá trị tham số
Xác định phương trình hồi quy
Kết quả phân tích và dự báo
Hình 2: Sơ đồ khối thuật toán phân tích dự báo mô hình nhân
Trang 303.3.2 Xây dựng dữ liệu ứng dụng dự báo theo mô hình ARIMA
Xây dựng số liệu doanh thu Golf từ tháng 01 năm 2003 đến 03 năm 2019 Sốliệu doanh thu theo tháng được xây dựng dưới dạng file CSV, số liệu xây dựng trênđơn vị tính là 1.000.000 đồng Việt Nam Bảng số liệu doanh thu qua các tháng đượcthể hiện qua Bảng 4 :
Bảng 4: Bảng số liệu doanh thu Gofl file CSV
Trang 31Quy trình thực hiện và phân tích dự báo bằng mô hình ARIMA Hình 3:
Dữ liệu đầu vào
Xác định mô hìnhthử nghiệm
Ước lượng tham số
Kiểm định chuẩn đoán
Dự báo
Hình 3: Sơ đồ khối xây dựng quy trình dự báo bằng mô hình ARIMA
Trang 323.3.3 Xây dựng ứng dụng dữ liệu theo mô hình LSTM
Xây dựng số liệu doanh thu Golf theo tháng từ 01 năm 2003 đến tháng 12 năm 2018 với bảng số liệu Bảng 5:
Bảng 5: Bảng số liệu doanh thu golf từ tháng 01 năm 2003 đến 12 năm 2018
Xây dựng quy trình phân tích và huấn luyện mô hình LSTM như Hình 4:
Dữ liệu đầu vào Phân tích xử lý
Xây dựng mô hìnhmạng LSTM
Kết quả phân tích
Hình 4: Quy trình huấn luyện mạng LSTM