III. CHƯƠNG 3: MƠ HÌNH ARIMA, PHẦM MỀM EVIEWS
3.1.3 Các bước lặp trong phương pháp luận Box-Jenkins (BJ)
Bước 1: Nhận dạng mơ hình
Nhận dạng mơ hình ARIMA (p,d,q) là việc tìm các giá trị thích hợp của p, d và q. Với d là bậc sai phân của chuỗi thời gian được khảo sát, p là bậc tự hồi qui và q là bậc trung bình trượt. Việc xác định p và q sẽ phụ thuộc vào các đồ thị SPAC = f(t) và SAC = f(t), với SAC là hàm tự tương quan của mẫu (Sample Autocorrelation) và SPAC là hàm tự tương quan từng phần của mẫu.
Việc lựa chọn mơ hình AR(p) phụ thuộc vào đồ thị SPAC nếu nĩ cĩ giá trị cao tại các độ trễ 1, 2,..., p và giảm đột ngột sau đĩ, đồng thời dạng hàm SAC tắt lịm dần. Tương tự, việc chọn mơ hình MA(q) dựa vào đồ thị SPAC nếu nĩ cĩ giá trị cao tại các độ trễ 1, 2,….p và giảm đột ngột sau đĩ, đồng thời dạng hàm SAC tắt lịm dần. Tương tự việc chọn mơ hình MA(q) dựa vào đồ thị SAC nếu cĩ trá trị cao tại độ trễn 1, 2…q và giảm mạnh sau đĩ q, đồng thời hàm SPAC tắt lịm dần.
Bước 2: Ước lượng các thơng số của mơ hình ARIMA (p, d, q): Các
tham số của mơ hình ARIMA sẽ được ước lượng theo phương pháp bình phương nhỏ nhất.
Bước 3: Kiểm tra chẩn đốn mơ hình: Sau khi xác định các tham
số của quá trình ARIMA, điều cần phải làm là tiến hành kiểm tra xem số hạng sai số et của mơ hình cĩ phải là một nhiễu trắng hay khơng.
Bước 4: Dự báo: Dựa trên phương trình của mơ hình ARIMA, tiến
hành xác định giá trị dự báo điểm và khoảng tin cậy của dự báo. 3.2 Phần mềm Eviews
Eviews là một gĩi phần mềm thống kê cho Windows, được sử dụng chính vào phân tích kinh tế hướng đối tượng chuỗi thời gian. Nĩ do Quantitative Micro Software (QMS) phá triển. Bản 1.0 được ra đời vào tháng 3 năm 1994. Với Eviews, chúng ta cĩ thể nhanh chĩng xây dựng mối quan hệ từ dữ liệu cĩ sẵn và sử dụng mối quan hệ này để dự báo các giá trị tương lai. Eviews cĩ thể hữu ích trong tất cả các loại nghiên cứu như đánh giá và phân tích dữ liệu khoa học, phân tích tài chính, mơ phỏng và dự báo vĩ mơ,
dự báo doanh số, và phân tích chi phí. Đặc biết, Eviews là một phần mềm rất mạnh cho phân tích dữ liệu thời gian.
Eview đưa ra nhiều cách nhập dữ liệu rất thơng dụng và dễ sử dụng như nhập bằng tay, từ các file cĩ dưới dạng excel hay text, dễ dàng mở rộng file dữ liệu cĩ sẵn. Eviews trình bày các biểu đồ, kết quả cĩ thể in trực tiếp hoặc chuyển qua các loại định dạng văn bản khác nhau.
Hình 3.1: Giao diện chương trình eviews
3.3 Áp dụng cho bài tốn dự báo gỗ nguyên liệu 3.3.1 Dữ liệu cho dự báo 3.3.1 Dữ liệu cho dự báo
Dữ liệu trong bài tốn sử dụng là dữ liệu chuỗi thời gian, đặc điểm chính để phân biệt giữa dữ liệu cĩ phải thời gian thực hay khơng đĩ chính là sự tồn tại của cột thời gian được đính kèm trong đối tượng quan sát. Nĩi cách khác dữ liệu thời gian là một chuỗi các giá trị quan sát biến Y:
Y = {y1, y2, y3……yt-1, yt, yt+1,…yn} với yt là giá trị của biến Y tại thời điểm t.
Bảng 3.1: Các dữ liệu đầu vào cho dự báo
(Nguồn: Tổng cơng ty Giấy Việt Nam)
STT Năm Sản lượng bột giấy (nghìn tấn) Sản lượng giấy (nghìn tấn) Lượng nguyên liệu tự cung cấp (nghìn tấn) Lượng nguyên liệu mua ngồi (nghìn tấn) Lượng nguyên liệu xuất khẩu
(nghìn tấn) 1 2000 48,250 81,356 120,350 95,000 0 2 2001 52,120 83,550 135,535 98,200 0 3 2002 53,050 84,013 138,250 95,680 0 4 2003 55,465 85,327 145,650 105,680 98,000 5 2004 56,332 91,185 158,352 115,562 150,565,000 6 2005 65,629 92,171 160,230 135,098 369,844,000 7 2006 70,521 101,160 168,352 155,356 550,652,000 8 2007 67,269 102,308 165,455 150,365 880,563,000 9 2008 75,183 112,031 177,099 160,064 958,356,000 10 2009 56,090 77,614 144,120 55,801 1,545,252,000 11 2010 64,218 92,149 155,345 120,158 1,850,550,000 12 2011 64,791 100,112 124,250 166,490 2,350,200,000 13 2012 62,730 95,571 145,950 92,670 1,568,520,000
3.3.2 Mơ hình ARIMA cho dự báo nguyên liệu gỗ
a. Quá trình xây dựng mơ hình thực hiện qua các bước
- Xác định mơ hình - Ước lượng, kiểm tra - Dự báo
b. Thiết kế mơ hình ARIMA cho dữ liệu
Các bước để xây dựng một mơ hình như sau :
- Chọn tham biến: Đối với bài tốn dự báo nguồn nguyên liệu cho sản xuất sử dụng các tham biến: MUANGOAI; XUATKHAU; TUCAP; BOT; GIAY; NHAPNGOAI
- Chuẩn bị dữ liệu: Các bảng số liệu tổng hợp về nguyên liệu tự cung cấp và mua ngồi cho sản xuất từ năm 2000 - 2012; số liệu về sản lượng giấy và bột giấy đã sản xuất từ năm 2000 – 2012;
3.3.3 Giao diện chương trình làm việc:
Hình3.4: Biểu đồ tương quan lượng gỗ nguyên liệu tự cung cấp và mua ngồi cho sản xuất
Hình3.6: Ước lượng mơ hình ARIMA(1,0,1) của tucap & muangoai
Hình 3.8 Bảng so sánh lượng nguyên liệu cần cho sản xuất và lượng đã xuất khẩu
3.4 Các đánh giá sau dự báo
Sau khi thực hiện dự báo với các số liệu đã thu thập trên chương trình eviews đạt được một số đánh giá:
+ Nguồn nguyên liệu tự cung cấp, phần mua thêm phụ thuộc bên ngồi cho sản xuất đến năm 2020 cho nhà máy tương đối ổn định.
+ Nguồn cung nguyên liệu tại khu vực miền Bắc và Bắc – Trung bộ cho sản xuất dư thừa, hiện tại đang xuất khẩu với số lượng lớn, xu hướng xuất khẩu tới năm 2020 cịn tăng cao.
+ Với lượng nguyên liệu ổn định như vậy thì nhà máy cĩ thể đầu tư mở rộng sản xuất theo hướng sản xuất bột giấy thương phẩm, chế biến gỗ.
KẾT LUẬN
Với mục tiêu nghiên cứu một số phương pháp khai phá dữ liệu, phân tích và áp dụng cho dự báo số liệu, luận văn đã đạt được một số kết quả chính sau đây:
1. Tìm hiểu được nội dung một số phương pháp khai phá dữ liệu phổ biến.
2. Tìm hiểu, áp dụng mơ hình ARIMA dự báo trong kinh tế vào dự báo số liệu thực tế trong hoạt động sản xuất.
Đưa ra một số đánh giá từ các số liệu đầu vào từ thực tế thu thập được trong quá trình hoạt động sản xuất kinh doanh của đơn vị. Từ đĩ đưa ra một số nhận định, phán đốn, một phần nào đĩ giúp cho đơn vị cĩ kế hoạch phát triển lĩnh vực được dự đốn.
Luận văn cũng đã trình bày được một số nội dung cơ sở lý thuyết về chuỗi thời gian thực, về mơ hình ARIMA (các cơng cụ áp dụng trong mơ hình, quy trình xây dựng mơ hình) và phần mềm Eviews; sử dụng chương trình Eviews để thi hành các bước của mơ hình ARIMA trong dự báo số liệu. Tác giả cơ bản nắm được quy trình dùng phần mềm Eviews để xây dựng mơ hình ARIMA cho dữ liệu thời gian thực, tính tốn giá trị dự báo cho chuỗi dữ liệu thu thập về nguyên liệu cho sản xuất.
Luận văn đã áp dụng những cơ sở lý thuyết nghiên cứu tiến hành thực nghiệm trên ba chuỗi số liệu (lượng nguyên liệu tự cung cấp, lượng nguyên liệu mua ngồi, lượng nguyên liệu xuất khẩu) dựa trên dữ liệu lịch sử của mỗi chuỗi và đã dự báo số lượng cửa của 10 năm tiếp theo.
Kết quả dự báo đã được phân tích, kiểm tra, đối chiếu với giá thực tế và cho thấy kết quả đĩ là khá chính xác, độ tin cậy cao. Như vậy cũng cho thấy rằng mơ hình ARIMA đưa ra cho mỗi chuỗi số liệu trong luận văn là
khá phù hợp để dự báo trung hạn nguồn nguyên liệu cho sản xuất.
Luận văn này nhằm giới thiệu một số vấn đề lý thuyết về khai phá dữ liệu đồng thời áp dụng cho bài tốn dự báo số liệu, cụ thể là bài tốn dự báo nguồn nguyên liệu cho sản xuất. Bên cạnh đĩ luận văn được thực hiện chắc chắn vẫn cịn nhiều hạn chế, thiếu sĩt và một số kết quả chưa đạt được:
- Thuật tốn để ước lượng cũng như đánh giá cịn nhiều hạn chế. - Trong các phiên giao dịch cịn cĩ thể cĩ tác động của các yếu tố ngoại lai lớn như tác động của các thị trường trong nước và khu vực, thơng tin về sự thay đổi cơ chế chính sách, rào cản về thương mại.… sẽ làm cho sai số dự báo tăng. Do đĩ kết quả của mơ hình đưa ra vẫn chỉ mang tính chất tham khảo nhiều hơn. Đây chỉ là mơ hình phân tích kỹ thuật, chưa thể dự báo một cách chính xác, bởi chỉ phụ thuộc vào một biến, tác giả rất mong nhận được những ý kiến đĩng gĩp nhằm hồn thiện hơn nữa hiểu biết của mình.
HƯỚNG NGHIÊN CỨU TIẾP THEO
Luận văn mới nghiên cứu và đánh giá dựa trên các số liệu thực tế thu thập tại đơn vị sản xuất và các đơn vị thành viên của Tổng cơng ty Giấy Việt Nam. Vì vậy để cĩ những đánh giá, kết luận chính xác hơn nhất là trong mơi trường sản xuất kinh doanh chịu tác động lớn của yếu tố kinh tế cần thử nghiệm số liệu đã thu thập được trên phép dự đốn, phân tích tương tự khác.
1. Đánh giá kết quả thực tế của đơn vị so với kết quả nghiên cứu.
2. Sau khi cĩ dự kiểm nghiệm trực tiếp trong quá trình hoạt động sản xuất kinh doanh các năm sau, áp dụng các kết quả nghiên cứu được vào thực tế tại đơn vị.
DANH MỤC TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt
[1] Lê Hồi Bắc (2002), Bài giảng về khám phá tri thức và khai thác dữ
liệu – tìm luật kết hợp theo mục đích người dùng, Đại học Quốc gia TP.
Hồ Chí Minh.
[2] Đỗ Phúc (2002), Nghiên cứu và phát triển một số thuật giải, mơ
hình ứng dụng khai thác dữ liệu (data mining). Luận án tiến sĩ tốn học,
Đại học Quốc gia TP. Hồ Chí Minh.
[3] Nguyễn Sĩ Linh (2010). Tổng quan về phương pháp dự báo và khả năng
áp dụng một số mơ hình - trong dự báo biến động tài nguyên và mơi trường Việt Nam.
[4] Nguyễn Ngọc Thiệp (2010). Một số phương pháp khai phá dữ liệu quan
hệ trong tài chính và chứng khốn. Luận văn tốt nghiệp đại học hệ chính
quy, Đại học Cơng nghệ - Đại học Quốc gia Hà Nội.
[5] Vũ Thị Gương (2012). Kỹ thuật khai phá dữ liệu chuỗi thời gian áp dụng
trong dự báo chứng khốn. Luận văn Thạc sỹ chuyên ngành truyền dữ liệu
và mạng máy tính. Học viện Cơng nghệ Bưu chính Viễn thơng.
[6] Nguyễn Thị Kim Loan (2009). Mơ hình chuỗi thời gian mờ trong dự báo chuỗi thời gian. Luận văn Thạc sỹ Khoa học máy tính – Đại học CNTT&TT – Đại học Thái Nguyên.
Tài liệu tiếng Anh
[7] Introduction to Data Mining and Knowledge Discovery - Third Edition -
1999, by Two Crows Corporation.
[8] Fiona Nielsen(2001), Neural Networks - algorithms and applications,
www.glyn.dk/download/synopsis.pdf, 12/12/2001.
[10] Nicholas R. Noble. Eview user’s guide.
[11] Introduction to ARIMA: nonseasonal models http://people.duke.edu/
~rnau/411home.htm
[12] Introduction to Time Series Analysis http://www.itl.nist.gov/div898/
PHỤ LỤC
PHỤ LỤC 1: CÁC SỐ LIỆU LÀM CƠ SỞ CHO BÀI TỐN Bài tốn được thực hiện dựa trên các số liệu thu thập được về:
1. Lượng nguyên liệu tự cung cấp, mua ngồi cho sản xuất của đơn vị từ năm 2000-2012; lượng xuất khẩu (do đơn vị hạch tốn độc lập thuộc Tổng cơng ty giấy Việt Nam thực hiện).
ĐVT: x1000 tấn
STT Năm Lượng nguyên liệu tự cung cấp
Lượng nguyên liệu mua ngồi
Lượng nguyên liệu xuất khẩu
1 2000 120.350 95.000 0 2 2001 135.535 98.200 0 3 2002 138.250 95.680 0 4 2003 145.650 105.680 98.000 5 2004 158.352 115.562 150.565 6 2005 160.230 135.098 369.844 7 2006 168.352 155.356 550.652 8 2007 165.455 150.365 880.563 9 2008 177.099 160.064 958.356 10 2009 144.120 55.801 1.545.252 11 2010 155.345 120.158 1.850.550 12 2011 124.250 166.490 2.350.200 13 2012 145.950 92.670 1.568.520
2. Lượng bột giấy và giấy sản xuất được từ năm 2000 – 2012 của nhà máy giấy Bãi Bằng – Tổng cơng ty Giấy Việt Nam;
STT Năm Sản lượng bột giấy (tấn) Sản lượng giấy (tấn) 1 2000 48.250 81.356 2 2001 52.120 83.550 3 2002 53.050 84.013 4 2003 55.465 85.327 5 2004 56.332 91.185 6 2005 65.629 92.171 7 2006 70.521 101.160 8 2007 67.269 102.308 9 2008 75.183 112.031 10 2009 56.090 77.614 11 2010 64.218 92.149 12 2011 64.791 100.112 13 2012 62.730 95.571 14 9T/2013 48.965 72.870
6. Lượng tiêu thụ giấy các loại của Việt Nam từ 2006 – 2012
2006 2007 2008 2009 2010 2011 Loại giấy 1.557 1.769 1.880 2.026 2.101 2.278
Giấy in báo 98 107 115 118 120 125
Giấy in,viết 325 365 265 302 308 401
Giấy làm lớp mặt các tơng sĩng 454 509 590 632 650 700 Giấy làm lớp giữa các tơng sĩng 298 365 432 459 475 520
Giấy tráng phấn 174 192 222 235 250 270
Giấy tissue 39 40 43 48 50 54
Giấy vàng mã 6 10 13 15 17 18
Giấy khác 162 180 200 215 230 240
7. Lượng tiêu thụ giấy in,viết khu vực ASEAN 2006 – 2011 2006 2007 2008 2009 2010 2011 Indonesia 1.656 1.739 1.833 1.800 1.881 1.965 Thai lan 821 886 956 944 1,007 1.052 Malayxia 355 360 355 400 420 445 Singapore 227 227 209 230 250 Phillipine 296 308 328 350 370 Viet nam 305 365 265 302 308 325 Tổng cộng 3.660 3.885 3.946 4.027 4.237 Tăng trưởng 106.14% 101.56% 102.08% 105.20%
8. Lượng tiêu thụ giấy in, viết tồn thế giới từ 2008 - 2012 Tiêu dùng giấy in, viết tồn cầu (x1.000 tấn)
Khu vực 2008 2009 2010 2011 2012 Tây Âu 38.594 37.899 36.952 36.361 36.052 Đơng Âu 3.298 3.216 3.316 3.405 3.420 Bắc Mỹ 29.960 28.282 28.989 29.525 29.722 Nam Mỹ 4.554 4.372 4.529 4.635 4.685 Châu Á 23.214 22.820 23.778 24.672 Nhật Bản 12.132 11.829 11.675 11.161 Châu Phi 1.132 1.119 1.133 1.173
Châu Đại Dương 618 592 601 616
Tổng cộng 113.502 110.129 110.973 111.548 Tiêu dùng bình quân
(kg/người) 16.90 16.20 16.14 15.94