Mục đích bài luận văn là tìm hiểu một số phương pháp khai phá, phân tích dữ liệu từ các số liệu thực tế được tổng hợp và ứng dụng cho bài toán dự báo nguồn nguyên liệu cho sản xuất của n
Trang 1NGUYỄN ĐỨC CHÍ
“ NGHIÊN CỨU PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
VÀ ỨNG DỤNG DỰ BÁO NGUỒN GỖ NGUYÊN LIỆU CHO SẢN XUẤT TẠI NHÀ MÁY GIẤY BÃI BẰNG”
Chuyên ngành : Khoa học máy tính
Mã số : 60 48 01
LUẬN VĂN THẠC SỸ
NGƯỜI HƯỚNG DẪN KHOA HỌC: GS.TS NGUYỄN THANH THỦY
GS.TS Nguyễn Thanh Thủy
Trang 2LỜI CAM ĐOAN Tôi xin cam đoan:
Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của thầy giáo Giáo sư, Tiến sĩ Nguyễn Thanh Thủy
Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tác giả, tên công trình, thời gian, địa điểm công bố
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo hay gian lận tôi xin hoàn toàn chịu trách nhiệm./
Thái Nguyên, tháng 12 năm 2013
Tác giả luận văn
Nguyễn Đức Chí
Trang 3LỜI CẢM ƠN
Trước hết, tôi xin bày tỏ lòng biết ơn sâu sắc tới tập thể các Giáo sư, Tiến sĩ, giảng viên thuộc Viện Công nghệ Thông tin – Viện Hàn lâm Khoa học và Công nghệ Việt Nam; Trường Đại học Công nghệ Thông tin và Truyền thông – Đại học Thái Nguyên đã tận tình giảng dạy, truyền đạt kiến thức cho tôi trong suốt thời gian học tập vừa qua Tôi xin bày tỏ lòng biết ơn tới GS.TS Nguyễn Thanh Thủy người đã tận tình hướng dẫn, chỉ bảo và chia
sẻ những tài liệu rất hữu ích để tôi hoàn thành luận văn
Xin chân thành cảm ơn lãnh đạo trường Đại học Công nghệ thông tin
và Truyền thông – Đại học Thái Nguyên đã tạo điều kiện giúp đỡ tôi về mọi mặt trong suốt thời gian học tập tại trường cũng như trong thời gian thực hiện luận văn
Tôi xin bày tỏ lòng biết ơn sâu sắc đến gia đình, người thân, bạn bè, đồng nghiệp những người luôn động viên, khuyến khích và giúp đỡ để tôi có thể hoàn thành tốt nội dung nghiên cứu./
Thái Nguyên, tháng 12 năm 2013
Tác giả luận văn
Nguyễn Đức Chí
Trang 4MỤC LỤC
I CHƯƠNG I: TỔNG QUAN VỀ DỰ BÁO DỮ LIỆU 3
1.1 Khái niệm về dự báo 3
1.2 Một số đặc điểm của dự báo 3
1.3 Các phương pháp dự báo 4
1.3.1 Phương pháp dự báo định tính (phán đoán) 5
1.3.2 Phương pháp dự báo định lượng 8
1.3.3 Quy trình dự báo 11
1.4 Kết luận: 11
II CHƯƠNG 2: KHAI PHÁ DỮ LIỆU VÀ CÁC ỨNG DỤNG CHO 12
DỰ BÁO DỮ LIỆU 12
2.1 Khai phá dữ liệu: 12
2.1.1 Phát hiện tri thức và khai phá dữ liệu 12
2.1.2 Quá trình phát hiện tri thức từ cơ sở dữ liệu 12
2.2 Các phương pháp dự báo dữ liệu: 14
2.2.1 Các phương pháp trực quan 14
2.3.1 Chuỗi thời gian thực 19
2.3.2 Thành phần xu hướng dài hạn 20
2.3.3 Thành phần mùa 21
2.3.4 Thành phần chu kỳ 21
2.3.5 Thành phần bất thường 21
2.3.6 Khai phá tri thức trên cơ sở dữ liệu chuỗi thời gian 21
2.4 Các ứng dụng cho dự báo dữ liệu: 22
III CHƯƠNG 3: MÔ HÌNH ARIMA, PHẦM MỀM EVIEWS 24
3.1 Mô hình ARIMA 24
3.1.1 Lập mô hình AR, MA và ARIMA với dữ liệu chuỗi thời gian 24
3.1.2 Xem xét tính dừng của chuỗi quan sát 27
3.1.3 Các bước lặp trong phương pháp luận Box-Jenkins (BJ) 28
3.2 Phần mềm Eviews 28
3.3 Áp dụng cho bài toán dự báo gỗ nguyên liệu 30
3.3.1 Dữ liệu cho dự báo 30
3.3.2 Mô hình ARIMA cho dự báo nguyên liệu gỗ 31
3.4 Các đánh giá sau dự báo 36
KẾT LUẬN 37
HƯỚNG NGHIÊN CỨU TIẾP THEO 39
DANH MỤC TÀI LIỆU THAM KHẢO 40
Trang 5DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
Các ký hiệu,
KPDL Khai phá dữ liệu CNTT Công nghệ thông tin ARIMA Autoregresssive Intergrated Moving Avegage
Trang 6DANH MỤC CÁC BẢNG
22
Trang 7DANH MỤC CÁC HÌNH (HÌNH VẼ, ẢNH CHỤP, ĐỒ THỊ…)
2.1 Quy trình phát hiện tri thức từ cơ sở dữ liệu 9
2.3 Đồ thị minh họa thành phần xu hướng dài hạn 16
3.2 Giao diện làm việc với workfile khởi tạo các biến 25 3.3 Giao diện nhập số liệu vào chương trình eviews 27 3.4 Tương quan lượng gỗ tự cấp và mua ngoài 28 3.5
3.6
Ước lượng ARIMA(1,0,1) với tucap và muangoai 29
3.7 Biểu đồ tương quan lượng giấy và bột giấy sản xuất được 29 3.8 So sánh lượng nguyên liệu cho sản xuất và xuất khẩu 30 3.9 So sánh lượng giấy và bột giấy đã sản xuất 30 3.10 Ước lượng hồi quy lượng giấy và bột giấy đã sản xuất 31
Trang 8MỞ ĐẦU Tổng công ty giấy Việt Nam hiện nay là một trong những đơn vị lớn trong cả nước về sản xuất bột giấy và giấy Đặc biệt sản phẩm giấy Bãi Bằng (sản xuất tại Nhà máy giấy Bãi Bằng) của Tổng công ty là thương hiệu nổi tiếng đã được người tiêu dùng trong nước biết đến từ lâu và tin dùng
Trong quá trình phát triển và hoạt động, giấy Bãi Bằng đã nhiều lần nâng cấp thiết bị và mở rộng sản xuất Năm 2003 đã đầu tư thành công Dự án
mở rộng công ty giấy Bãi Bằng giai đoạn I, nâng công suất sản xuất bột giấy
từ 48.000 tấn/năm lên 71.000 tấn/năm và công suất sản xuất giấy từ 50.000 tấn/năm lên 100.000 tấn/năm Tiếp theo thành công của dự án đầu tư giai đoạn I, Tổng công ty giấy Việt Nam đã lập dự án đầu tư giai đoạn II - dây chuyền bột giấy tẩy trắng 250.000 tấn/năm, dự án giấy nhà máy giấy Thanh Hoá - dây chuyền sản xuất giấy in/viết 100.000 tấn/năm, năm 2010 Tổng công ty đã đầu tư nâng công suất sản xuất giấy lên 120.000 tấn/năm, tiếp nhận dự án nhà máy bột giấy Phương Nam – tỉnh Long An và một số dự án khác Tuy nhiên, trong đó có các dự án hoặc là đã dừng lại, hoặc là chưa thành công hay triển vọng sinh lời khi đưa vào sản xuất còn hạn chế Nguyên nhân là thiếu sự nghiên cứu, phân tích đầy đủ về thị trường đầu vào và đầu ra của các sản phẩm trong các dự án đầu tư, cũng như công nghệ phù hợp với điều kiện sản xuất ở Việt Nam
Trong khi Tổng công ty chưa thành công trong các dự án đầu tư ngành giấy thì Việt Nam lại đang được coi là nước thu hút đầu tư ngành giấy, trong đó các công ty giấy của Nhật Bản, Trung Quốc, Thái Lan… đã và đang đầu tư lớn vào Việt Nam Các công ty trong nước cũng đang mở rộng sản xuất, xúc tiến đầu tư Tổng công ty giấy Việt Nam đang đứng trước nguy cơ tụt hậu so với các công ty sản xuất giấy khác ngay tại Việt Nam
Trang 9Mặc dù nhiều dự án đầu tư đã và đang được tiến hành, hầu hết các công ty và các dự án giấy tại Việt Nam mới chỉ đầu tư và sản xuất được giấy in, giấy viết, một phần nhỏ giấy in báo, giấy vàng mã, giấy các tông sóng ở quy mô nhỏ, đa số không có xử lý môi trường, chưa sản xuất được các loại giấy cao cấp như giấy bao bì tráng phủ, giấy kraft tẩy trắng hoặc không tẩy trắng, giấy làm lớp mặt thùng có lớp sóng,…
Mặt khác, tuy các điều kiện về kinh tế và dân số của Việt Nam vẫn tăng trưởng đều đặn, sự phát triển của công nghệ thông tin và các công nghệ mới
đã làm cho nhu cầu giấy in báo tại Việt Nam giảm sút rõ rệt, nhu cầu giấy in/viết không còn tăng mạnh và chịu sự cạnh tranh khốc liệt từ giấy ngoại nhập, các loại sách điện tử, những lý do này làm cho các thị trường giấy in báo, giấy in/viết của Tổng công ty Giấy Việt Nam không còn là cơ hội đầu tư nữa
Trong điều kiện môi trường kinh doanh như vậy, Tổng công ty giấy Việt Nam
đã nhận thấy sự cần thiết và cơ hội đầu tư sản xuất sản phẩm giấy cao cấp khác để cạnh tranh Cùng với việc nghiên cứu thị trường và công nghệ sản xuất giấy trước khi đi đến quyết định đầu tư cần phải nghiên cứu và dự báo rõ ràng nguồn nguyên liệu cho việc sản xuất mang tính ổn định lâu dài Việc tự lực được nguồn nguyên liệu là quyết định được lợi thế cạnh tranh lớn trên thị trường
Mục đích bài luận văn là tìm hiểu một số phương pháp khai phá, phân tích dữ liệu từ các số liệu thực tế được tổng hợp và ứng dụng cho bài toán dự báo nguồn nguyên liệu cho sản xuất của nhà máy giấy Bãi Bằng – Tổng công
ty Giấy Việt Nam
Trang 10NỘI DUNG
I CHƯƠNG I: TỔNG QUAN VỀ DỰ BÁO DỮ LIỆU
1.1 Khái niệm về dự báo
Dự báo là biện pháp lập luận khoa học tiên đoán những sự việc sẽ xảy
ra trong tương lai, trên cơ sở phân tích, tổng hợp về các dữ liệu đã thu thập được Khi tiến hành dự báo cần căn cứ vào việc thu thập, xử lý số liệu trong quá khứ và hiện tại để xác định xu hướng vận động của các hiện tượng trong tương lai nhờ vào một số mô hình toán học (Định lượng) Tuy nhiên dự báo cũng có thể là một dự đoán chủ quan hoặc trực giác về tương lai (Định tính)
và để dự báo định tính được chính xác hơn, cần phải loại trừ những tính chủ quan của người dự báo
Dù định nghĩa có sự khác biệt nào đó, nhưng đều thống nhất về cơ bản
là dự báo bàn về tương lai, nói về tương lai Dự báo trước hết là một thuộc tính không thể thiếu của tư duy của con người, con người luôn luôn nghĩ đến ngày mai, hướng về tương lai Trong thời đại công nghệ thông tin và toàn cầu hóa, dự báo lại đóng vai trò quan trọng hơn khi nhu cầu về thông tin thị trường, tình hình phát triển tại thời điểm nào đó trong tương lai càng cao Dự báo được sử dụng trong nhiều lĩnh vực khác nhau, mỗi lĩnh vực có một yêu cầu về dự báo riêng nên phương pháp dự báo được sử dụng cũng khác nhau
1.2 Một số đặc điểm của dự báo
Tính không chính xác của dự báo: Dù phương pháp chúng ta sử dụng là
gì thì luôn tồn tại yếu tố không chắc chắn cho đến khi thực tế diễn ra
Luôn có điểm mù trong các dự báo: Không phải cái gì cũng có thể dự báo được nếu chúng ta thiếu hiểu biết về vấn đề cần dự báo
Trang 11Dự báo cung cấp kết quả đầu vào cho các nhà hoạch định chính sách trong việc đề xuất các chính sách phát triển: Chính sách mới sẽ ảnh hưởng đến tương lai, vì thế cũng sẽ ảnh hưởng đến độ chính xác của dự báo
1.3 Các phương pháp dự báo
Hiện nay trên thế giới rất nhiều phương pháp dự báo được sử dụng, tuy nhiên có 9 phương pháp dự báo được áp dụng phổ biến là:
1 Phương pháp tiên đoán (Genius forecasting)
2 Phương pháp ngoại suy xu hướng (Tren extrapolation)
3 Phương pháp chuyên gia (Consensus)
4 Phương pháp mô phỏng (Mô hình hóa - Simulation)
5 Phương pháp ma trận trác động qua lại (Cross-Impact matrix method)
6 Phương pháp kịch bản (Scenario)
7 Phương pháp cây quyết định (Decision trees)
8 Phương pháp dự báo tổng hợp/ luật kết hợp (Combining methods)
9 Phương pháp chuỗi thời gian (Time series)
Bảng 1.1: Một số phương pháp dự báo phổ biến
Tuy nhiên, theo cách phân loại tại Việt Nam các phương pháp dự báo thường được chia thành 2 nhóm chính là phương pháp định tính và phương pháp định lượng
Trang 121.3.1 Phương pháp dự báo định tính (phán đoán)
Phương pháp này dựa trên cơ sở phân tích những yếu tố liên quan, và những ý kiến về các khả năng có liên hệ của những yếu tố liên quan này trong tương lai Phương pháp định tính có liên quan đến mức độ phức tạp khác nhau, từ việc khảo sát ý kiến được tiến hành một cách khoa học để nhận biết các sự kiện tương lai hay từ ý kiến phản hồi của một nhóm đối tượng hưởng chịu tác động nào đó
Phán đoán đơn độc (unaided judgment): Việc dự báo bởi các chuyên
gia thường sử dụng các phán đoán đơn độc thì hấu hết chính xác trong các tình huống sau:
- Xảy ra tương tự như yếu tố khác mà chuyên gia đã làm dự báo
- Bao gồm mối quan hệ đơn giản và dễ hiểu
- Không bị ảnh hưởng bởi sự thay đổi lớn
- Không bao hàm các xung đột
Và các chuyên gia dự báo:
- Không chệch
- Có thông tin mà những nơi khác không có
- Chấp nhận độ chính xác, thời gian và thông tin phản hồi về dự báo của họ
Trang 13Phán đoán thị trường: Việc phán đoán thị trường phải dựa vào những
thông tin thị trường trong quá khứ ở một thời gian dài và phán đoán những gì sắp xảy ra đối với thị trường tương lai Tuy nhiên, thị trường không đơn gian như những thống kê đơn thuần mà nó bao gồm rất nhiều những giao dịch
“ngầm” mà chúng ta không thể dễ dàng có được những thông tin này Do vậy, việc phán đoán giá cả trong một thị trường là hết sức phức tạp và có nhiều
những thay đổi không được như kỳ vọng của các nhà nghiên cứu
Phương pháp Delphi: Phương pháp chuyên gia Delphi là phương pháp
chủ yếu dựa trên ý kiến của các chuyên gia hàng đầu trong mỗi lĩnh vực Theo Green, Armstrong và Graefe (2007) cho rằng phương pháp Delphi hấp dẫn các nhà quản lý bỏi vì tính dễ hiểu và sự hỗ trợ dự báo của các chuyên gia Theo Green và các công sự (2007) đã đưa ra tám thuận lợi của phương pháp Delphi trong dự báo thị trường: (1) Áp dụng rộng hơn, (2) Dễ hiểu, (3) Có thể trả lời các câu hỏi phức tạp, (4) Khả năng duy trì bảo mật, (5) Tránh nhiều thao tác, (6) Phát hiện nhiều kiến thức mới, và (7) Ít người tham gia
Cấu trúc tương tự: Phương pháp cấu trúc tương tự vượt qua được
những yếu tố chệch và không đáng tin cậy của những thông tin Phương pháp cấu trúc tương tự đặc biệt thích hợp khi cầu bị ảnh hưởng bởi những hành động cạnh tranh, chính phủ, hoặc nhóm lợi ích giống như môi trường và
những hành động tự phát
Lý thuyết trò chơi: Lý thuyết trò chơi nghiên cứu vấn đề ra quyết định
của nhiều người, nhiều doanh nghiệp ở các mức độ khác nhau Có rất nhiều bài viết nói về các lý thuyết trò chơi và đưa ra những áp dụng thực tiễn và chỉ
ra rằng lý thuyết trò chơi không đơn thuần là lý thuyết mà thực tế còn là
Trang 14những công cụ hữu hiệu trong phân tích kinh tế và xác định chiến lược kinh
doanh
Phân rã và xây dựng phán đoán: Để có thể dự báo chính xác hơn có
thể phân rã vấn đề cần dự báo thành nhiều dự báo thành phần Trên cơ sở dựa vào những dự báo thành phần để thu được dự báo toàn bộ cho vấn đề cần dự báo Bởi vì, dự báo một vấn đề gộp khó khăn hơn rất nhiều khi chúng ta phân
rã vấn đề đó thành nhiều vấn để nhỏ để có thể đưa ra những phương pháp dự báo thích hợp cho từng vấn đề nhỏ
Xây dựng phán đoán thường được sử dựng trong những trường hợp mà
dữ liệu không có hoặc dữ liệu không thể ước lượng được bằng mô hình kinh
tế lượng Theo nghiên cứu của Goodwin và các cộng sự (2011) chỉ ra rằng xây dựng phán đoán không cải thiện được độ chính xác của dự báo khi những dấu hiệu tiềm năng có thể xảy ra và nó không rõ ràng khi các chuyên gia đánh giá thông tin mà không có sẵn mô hình hoặc kiến thức mà không thể kết hợp thông tin vào mô hình hoặc những biến có thể có tự tương quan
Phương pháp hệ thống chuyên gia: Phương pháp hệ thống chuyên gia
được xây dựng dựa trên cấu trúc thi hành dự báo của một nhóm chuyên gia Theo nghiên cứu của Collopy, Adya và Armstrong (2001) chỉ ra rằng phương pháp hệ thống chuyên gia chính xác hơn phương pháp phán đoán độc đoán Tuy nhiên, phương pháp này phải chịu một mức chi phí cho các chuyên gia là khá cao mà với mức chi phí này có thể xây dựng được một phương pháp dự báo thích hợp hơn
Mô phỏng tương tác: Phương háp mô phỏng tương tác thường được sử
dụng khi chúng ta có ít hoặc không đủ dữ liệu để làm các dự báo và những
Trang 15nhà quyết sách kỳ vọng rằng có thể đoán được những ảnh hưởng của những chính sách hoặc những chiến lược sẽ được thực thi trong tương lai
Phương pháp điều tra chọn mẫu kết hợp với kinh nghiệm thực tế: Để
dự báo trước một vấn đề chúng ta có thể thực hiện một cuộc điều tra chọn mẫu với độ tin cậy của mẫu có thể chấp nhận được Với kết quả của mẫu thu được kết hợp với kinh nghiệm thực tế trong lĩnh vực cần được dự báo để đưa
ra kết quả dự báo có tính chính xác cao hơn Phương pháp này còn được gọi
là phương pháp “Phòng thí nghiệm”, tức là việc điều tra chọn một mẫu nhỏ nhưng phải có tính khái quát cho toàn bộ mẫu lớn để khi áp dụng kết quả thu được sẽ không bị sai lệch so với thực tế thực thi
1.3.2 Phương pháp dự báo định lượng
Phương pháp dự báo định lượng dựa trên các số liệu quá khứ, những số liệu này giả sử có liên quan đến tương lai và có thể tìm thấy được Tất cả các
mô hình dự báo theo định lượng có thể sử dụng thông qua chuỗi thời gian và các giá trị này được quan sát đo lường các giai đoạn theo từng chuỗi
Phép ngoại suy: Phương pháp này dựa vào dữ liệu quá khứ để dự báo
như phương pháp san mũ hoặc phương pháp chuỗi thời gian Theo nghiên cứu của Makridakis và các cộng sự (1984), nếu dữ liệu chuỗi có dạng năm thì việc loại bỏ ảnh hưởng của yếu tổ mùa vụ sẽ thu được kết quả dự báo chính xác hơn Tuy nhiên, phương pháp dự báo này sẽ không đánh giá được yếu tố ảnh hưởng bên ngoài, ví dụ như ảnh hưởng của suy thoái tài chính đến thị trường
Phân tích định lượng: Một vài dữ liệu định lượng được sử dụng để dự
báo trong những tình huống tương tự có thể sử dung phương pháp ngoại suy
Vì vậy dư liệu định lượng là quan trọng trong mục tiêu được xem xét và dữ
Trang 16liệu tượng tự để xây dựng các hệ số hoặc ngoại suy xu hướng trung bình cho từng trường hợp cụ thể
Nguyên tắc dự báo cơ bản (RBF): Nguyên tắc dự báo cơ bản (RBF) để
xác định đặc trung của một chuỗi số liệu, theo nghiên cứu cảu Armstrong, Adya và Collopy (2001) chỉ ra rằng có 28 đặc trưng chủ yếu dựa trên bao số liệu, số quan sat, tính mùa vụ và các điểm nằm ngoài (outliers) Có 99 nguyên tắc của RBF thường được dùng để điều chỉnh dữ liệu để ước lượng cho các mô hình ngắn và dài hạn và thường được sử dụng hỗn hợp cho hai loại mô hình này Thêm vào đó, RBF hữu dụng khi nội dung của kiến thức có khả năng, mô hình chính xác của chuỗi, xu hướng và dự báo cần chuỗi số liệu
ít nhất là sáu năm hoặc hơn
Mô hình mạng Nơ-ron: Mạng nơ ron được xây dựng dựa trên chuỗi
thời gian phi tuyến Mặc dù mô hình mạng Nơ-ron có thể khớp với dữ liệu tương đối tốt nhưng có một khó khăn trong mô hình là chúng ta không có một
lý giải kinh tế thật sự rõ ràng nào Theo Enders (2004), do dù mô hình mạng Nơ-ron có thể nới rộng ra các chuỗi tự hồi quy bậc cao hơn nên mô hình này
có số lượng tham số rất lớn và do vậy sẽ luôn gặp phải nguy cơ phù hợp thái quá với dữ liệu Nếu có quá nhiều nút được sử dụng thì thành phần nhiễu của
dữ liệu sẽ được khớp tương đối chính xác Việc R2 có xu hướng tiến tới 1 khi
n tăng không phải là điều tốt nếu như mục tiêu của chúng ta là dự báo các giá trị tương lai của chuỗi
Mô hình nhân quả: Mô hình nhân quả bao gồm mô hình gốc sử dụng
phân tích hồi quy, phương pháp chỉ số và phương pháp phân khúc Theo nghiên cứu của Armstrong (1985) và Allen và Fildes (2001) cho thấy rằng mô hình nhân quả dự báo chính xác hơn từ việc ngoại suy biến phụ thuộc khi dự
Trang 17báo sự thay đổi lớn và có thể dự báo được ảnh hưởng chính sách của những
kế hoạch hoặc những quyết định chính sách
Mô hình nhân quả hữu dụng trong trường hợp: (1) tồn tại mối quan hệ nhân quả mạnh, (2) các mối quan hệ trực tiếp đã biết, (3) có sự khác biệt lớn giữa các biến thay thế, và (4) sự khác nhau thay thế có thể được biết hoặc được kiểm soát để dự báo chính xác hơn
Mô hình hồi quy hay mô hình kinh tế lượng được xây dựng dựa trên ước lượng các hệ số của mô hình nhân quả từ chuỗi số liệu quá khứ
Mô hình chỉ số thích hợp trong trường hợp dữ liệu ít, có thể các biến nhân quả là quan trọng và đã có cơ sở lý thuyết chắc chắn từ trước cho những ảnh hưởng của các biến nhân quả
Mô hình phân đoạn: Mô hình phân đoạn là việc phân chia vấn đề
thành những phần độc lập và sử dụng dữ liệu để dự báo cho mỗi phần này rồi sau đó kết hợp các phần lại để được một dự báo Để có thể sử dụng được mô hình phân đoạn chúng ta cần phải xác định các biến nhân quả quan trọng của
mô hình và xác định được mối quan hệ giữa biến độc lập và biến phu thuộc
một cách chính xác
Tuy vậy, để nâng cao độ chính xác của dự báo thông thường khi dự báo người ta thường hay kết hợp cả hai phương pháp trên Bên cạnh đó, đôi khi vấn đề cần dự báo không thể thực hiện được thông qua một phương pháp dự báo đơn lẻ mà đòi hỏi kết hợp nhiều hơn một phương pháp nhằm mô tả đúng bản chất sự việc cần dự báo
Trang 181.3.3 Quy trình dự báo
Thông thường trong các dự báo về kinh tế, quy trình dự báo được chia thành các bước sau Các bước này bắt đầu và kết thúc với sự trao đổi giữa người sử dụng và người làm dự báo
Bước 1 Xác định mục tiêu dự báo
Bước 2 Lựa chọn đối tượng cần dự báo
Bước 3 Xác định khoảng thời gian dự báo
Bước 4 Lựa chọn mô hình dự báo
Bước 5 Thu thập số liệu và tiến hành dự báo
Bước 6 Phê chuẩn mô hình dự báo
Bước 7 Tiến hành dự báo
Bước 8 Áp dụng kết quả dự báo
1.4 Kết luận:
Tìm hiểu cơ bản về khái niệm dự báo dữ liệu, một số đặc điểm của dự báo dữ liệu và một số phương pháp chính để dự báo
Trang 19II CHƯƠNG 2: KHAI PHÁ DỮ LIỆU VÀ CÁC ỨNG DỤNG CHO
DỰ BÁO DỮ LIỆU
2.1 Khai phá dữ liệu:
Khai phá dữ liệu (KPDL) là lĩnh vực kết hợp nhiều biện pháp kỹ thuật với nhau và là một quá trình xử lý dữ liệu, trích xuất tri thức từ lượng lớn dữ liệu và là quá trình tìm ra những thông tin ẩn, hữu ích, chưa được biết trước
từ dữ liệu
2.1.1 Phát hiện tri thức và khai phá dữ liệu
Việc thu thập và lưu trữ các kho chứa dữ liệu khổng lồ dẫn tới một yêu cầu cấp thiết là cần có những kỹ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ thành các tri thức có ích Do vậy, khai phá dữ liệu nhằm phát hiện các tri thức mới giúp ích cho hoạt động của con người đã trở thành một lĩnh vực quan trọng của ngành Công nghệ thông tin
2.1.2 Quá trình phát hiện tri thức từ cơ sở dữ liệu
Thông tin là một khái niệm trừu tượng, được thể hiện dưới nhiều dạng thức khác nhau Thông tin có thể được phát sinh, lưu trữ, biến đổi trong những vật mang tin Dữ liệu là sự biểu diễn thông tin và được thể hiện bằng các tín hiệu vật lý Dữ liệu là một dãy các bit các số, sử dụng các bit để đo lường các thông tin và xem nó như là các dữ liệu đã được lọc bỏ các phần dư thừa, được rút gọn tới mức tối thiểu để đặc trưng một cách cơ bản cho dữ liệu
Có thể xem tri thức như là các thông tin tích hợp, bao gồm các sự kiện và các mối quan hệ giữa chúng Các mối quan hệ này có thể được hiểu ra, có thể được phát hiện, hoặc có thể được học
Trang 20Mục đích của phát hiện tri thức và khai phá dữ liệu là tìm ra các mẫu và các
mô hình đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị che khuất bởi các khối dữ liệu Quá trình phát hiện tri thức được mô tả tóm tắt như sau:
Hình 2.1: Quy trình phát hiện tri thức từ cơ sở dữ liệu
+ Sử dụng tri thức khai phá được
Trong thực tế, thuật ngữ khai phá dữ liệu được sử dụng phổ biến hơn là khai phá tri thức trong cơ sở dữ liệu Tùy theo hướng ứng dụng mà người ta chia khai phá dữ liệu ra làm nhiều quá trình trong đó gồm nhiều bước nhỏ
Trang 212.2 Các phương pháp dự báo dữ liệu:
2.2.1 Các phương pháp trực quan
Quan sát các hoạt động không theo chủ quan: Kỹ thuật khai phá dữ liệu trực quan cung cấp cho người khai phá khả năng đầy đủ để quan sát các hoạt động mà không theo định kiến cá nhân nào cả Điều đó có nghĩa là ta không cần phải biết là cần phải tìm kiếm cái gì trong thời gian sáp tới Hơn thế, bạn
có thể bắt dữ liệu chỉ ra cho bạn thấy cái gì là quan trọng
Trực quan và đòi hỏi của nhận thức: Có thể sự mở rộng lớn nhất trong việc sử dụng trực quan trong các phương pháp khai phá dữ liệu là phương pháp trực quan cốt để làm nổi bật khả năng nhận thức, kinh nghiệm của con người có thể làm tốt và một số công việc khác lại làm rất tốt Việc lựa chọn phương pháp nghiên cứu thường phải có sự cân nhắc về kiểu xử lý thông tin
mà người đó đòi hỏi trong suất quá trình nghiên cứu
Vẽ sơ đồ dữ liệu trên lược đồ trực quan: Khi đưa dữ liệu vào trong một môi trường trực quan, bạn phải quyết định làm sao để trình bày dữ liệu theo một kiểu cách có ý nghĩa Hoạt động này tập trung vào sử dụng những thuộc tính của các phần tử dữ liệu đã được định nghĩa trong mô hình để xác định làm sao thông tin sẽ được nhìn thấy và cảm nhận bạn có thể chọn những giải thuật xác định vị trí như gộp nhóm, phân cụm, …
2.2.2 Các phương pháp truyền thống
a Phương pháp thống kê: Trong phương pháp này, ta sử dụng những
thông tin được thống kê để suy luận và miêu tả xa hơn trong phân tích dữ liệu Trong hệ thống hỗ trợ quyết định thì việc dùng phương pháp thống kê là rất phổ biến
Trang 22b Phương pháp cây quyết định và luật
Cây quyết định là công cụ phân tích để khám phá ra các luật và mối quan hệ bằng phương pháp phân tích thống kê phân chi thành các phần nhỏ các thông tin chứa trong tập dữ liệu
Cây quyết định là một mô tả tri thức dạng đơn giản nhằm phân các đối tượng dữ liệu thành một số lớp nhất định Các nút của cây được gán nhãn là tên các thuộc tính, các cạnh được gán các giá trị cụ thể các thuộc tính, các lá miêu tả các lớp khác nhau Các đối tượng được phân lớp theo các đường đi trên cây, các cạnh tương ứng với giá trị các thuộc tính của đối tượng tới lá
c Sử dụng các luật kết hợp
Những luật kết hợp được dẫn xuất ra từ sự phân tích các thông tin trùng hợp Phương pháp luật kết hợp này cho phép khám phá những tương quan, hoặc những biến cố trong giao dịch là các sự kiện
Các luật kết hợp là một dạng biểu diễn tri thức, hay chính xác hơn là dạng mẫu của hình thành tri thức Phương pháp này nhằm phát hiện ra các mối quan hệ kết hợp giữa các hình thành phần dữ liệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật khai phá dữ liệu là các tập luật kết hợp tìm được
d Mạng Nơron
Mạng nơron là một hệ thống bao gồm rất nhiều phần tử xử lý đơn giản cùng hoạt động song song Tính năng hoạt động của hệ thống này phụ thuộc vào cáu trúc của hệ thống, vào cường độ liên kết giữa các phần tử trong hệ thống và dựa vào quá trình xử lý bên trong các phần tử đó Hệ thống này có thể học từ các dữ liệu có khả năng tổng quát hóa các dữ liệu đó
Trang 23e Giải thuật di truyền
Giải thuật di truyền được phát triển mô phỏng lại hệ thống tiến hóa trong tự nhiên, chính xác hơn đó là giải thuật chỉ ra tập các cá thể được hình thành, được ước lượng và biến đổi như thế nào Giải thuật cũng mô phỏng lại yếu tố gen trong nhiễm sắc thể sinh học trên máy tính để có thể giải quyết nhiều bài toán thực tế khác nhau Giải thuật di truyền dựa trên ba cơ chế cơ bản: Chọn lọc, tương giao chéo và đột biến
2.2.3 Các phương pháp khác
a Phân nhóm và phân đoạn
Phương pháp phân nhóm và phân đoạn là những kỹ thuật phân chia dữ liệu sao cho mỗi phần hoặc một nhóm giống nhau theo một tiêu chuẩn nào đó
b Phương pháp suy diễn và quy nạp
Một cơ sở dữ liệu là một kho thông tin những các thông tin quan trọng hơn cũng có thể được suy diễn từ kho thông tin đó Có hai kỹ thuật chính để thực hiện việc này là suy diễn và quy nạp
Phương pháp suy diễn: Nhằm rút ra những thông tin là kết quả logic của các thông tin trong cơ sở dữ liệu, dựa trên các quan hệ trong dữ liệu
Phương pháp quy nạp: Nhằm suy ra các thông tin được sinh ra từ cơ sở
dữ liệu
Trang 24c Các phương pháp dựa trên mẫu
Sử dụng các mẫu miêu tả từ cơ sơ dữ liệu để tạo nên mọt mô hình dự đoán các mẫu mới dằng cách rút ra các thuộc tính tương tự như các mẫu đã biết trong mô hình Ở đây, nhiệm vụ chính là phải xác định được độ giống nhau, tương đồng giữa các mẫu, sau đó mới rạo ra mẫu dự đoán
2.3 Cơ sở dữ liệu chuỗi thời gian
Chuỗi thời gian là một tập hợp các quan sát Xt được ghi nhận tại một thời điểm t, theo một trình tự thời gian nhất định Công việc dự đoán dựa trên
cơ sở dữ liệu chuỗi thời gian được gọi là dự đoán chuỗi thời gian Việc tìm kiếm các mẫu thích hợp trong dữ liệu tuần tự theo thời gian (Time Series Data – TSD) là rất quan trọng cho các ứng dụng trong hầu hết các lĩnh vực khoa học như tìm kiếm âm điệu, tìm các các mẫu chứng khoán trong quá khứ để có thể dự đoán khuynh hướng giá trong tương lai, số lượng sản phẩm bán ra, dự báo mức độ ô nhiễm môi trường hay dự báo thời tiết… Dữ liệu tuần tự theo thời gian thường có nhiều trong các lĩnh vực khác nhau nên có nhiều dạng khác nhau Xét về mặt toán học thì chúng đều như nhau là mỗi chuỗi thời gian biểu diễn các giá trị của một biến thực theo các khoảng thời gian bằng nhau
Do đó khái niệm về chuỗi thời gian tương đối rộng nên có thể áp dụng các kỹ thuật khám phá tri thức trên chuỗi thời gian để xây dựng các ứng dụng trong các lĩnh vực khác nhau
Trong các bài toán dự báo nói chung và các bài toán dự báo dữ liệu thường được biểu diễn dưới dạng chuỗi thời gian Trong các dạng dữ liệu được phân tích thì dữ liệu chuỗi thời gian luôn thuộc tốp đầu về tính phổ biến
Trang 25Có thể chia các phương pháp phân tích chuỗi thời gian (Time series) ra làm hai loại Tập trung các tính chất, hành vi tổng quát của chuỗi thời gian và nghiên cứu các tính chất có tính cục bộ, địa phương trên chuỗi thời gian (thông qua các dãy con, các mẫu tuần hoàn, đoạn lặp phổ biến, các luật liên kết các mẫu đặc trưng trong chuỗi thời gian )
Định nghĩa 1:
- Cho chuỗi thời gian X=(x1, x2, , xn) là một tập n giá trị xi được ghi nhận trên các khoảng thời gian bằng nhau của một biến thực và được sắp theo thứ tự thời gian
- Cơ sở dữ liệu chuỗi thời gian là một tập rất lớn các chuỗi thời gian, trong đó mỗi mẫu tin là một chuỗi thời gian T={Xi}, (i=1 n)
Chuỗi thời gian có thể biểu diễn các đối tượng khác nhau trong nhiều lĩnh vực, tuy nhiên chúng đều có nhiều tính chất giống nhau Có thể biểu diễn một chuỗi thời gian trên biểu đồ sau:
Hình 2.2 Minh họa chuỗi thời gian