1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phương pháp khai phá dữ liệu và ứng dụng dự báo nguồn gỗ nguyên liệu cho sản xuất tại nhà máy giấy Bãi Bằng

51 571 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 51
Dung lượng 634,51 KB

Nội dung

Mục đích bài luận văn là tìm hiểu một số phương pháp khai phá, phân tích dữ liệu từ các số liệu thực tế được tổng hợp và ứng dụng cho bài toán dự báo nguồn nguyên liệu cho sản xuất của n

Trang 1

NGUYỄN ĐỨC CHÍ

“ NGHIÊN CỨU PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU

VÀ ỨNG DỤNG DỰ BÁO NGUỒN GỖ NGUYÊN LIỆU CHO SẢN XUẤT TẠI NHÀ MÁY GIẤY BÃI BẰNG”

Chuyên ngành : Khoa học máy tính

Mã số : 60 48 01

LUẬN VĂN THẠC SỸ

NGƯỜI HƯỚNG DẪN KHOA HỌC: GS.TS NGUYỄN THANH THỦY

GS.TS Nguyễn Thanh Thủy

Trang 2

LỜI CAM ĐOAN Tôi xin cam đoan:

Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của thầy giáo Giáo sư, Tiến sĩ Nguyễn Thanh Thủy

Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tác giả, tên công trình, thời gian, địa điểm công bố

Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo hay gian lận tôi xin hoàn toàn chịu trách nhiệm./

Thái Nguyên, tháng 12 năm 2013

Tác giả luận văn

Nguyễn Đức Chí

Trang 3

LỜI CẢM ƠN

Trước hết, tôi xin bày tỏ lòng biết ơn sâu sắc tới tập thể các Giáo sư, Tiến sĩ, giảng viên thuộc Viện Công nghệ Thông tin – Viện Hàn lâm Khoa học và Công nghệ Việt Nam; Trường Đại học Công nghệ Thông tin và Truyền thông – Đại học Thái Nguyên đã tận tình giảng dạy, truyền đạt kiến thức cho tôi trong suốt thời gian học tập vừa qua Tôi xin bày tỏ lòng biết ơn tới GS.TS Nguyễn Thanh Thủy người đã tận tình hướng dẫn, chỉ bảo và chia

sẻ những tài liệu rất hữu ích để tôi hoàn thành luận văn

Xin chân thành cảm ơn lãnh đạo trường Đại học Công nghệ thông tin

và Truyền thông – Đại học Thái Nguyên đã tạo điều kiện giúp đỡ tôi về mọi mặt trong suốt thời gian học tập tại trường cũng như trong thời gian thực hiện luận văn

Tôi xin bày tỏ lòng biết ơn sâu sắc đến gia đình, người thân, bạn bè, đồng nghiệp những người luôn động viên, khuyến khích và giúp đỡ để tôi có thể hoàn thành tốt nội dung nghiên cứu./

Thái Nguyên, tháng 12 năm 2013

Tác giả luận văn

Nguyễn Đức Chí

Trang 4

MỤC LỤC

I CHƯƠNG I: TỔNG QUAN VỀ DỰ BÁO DỮ LIỆU 3

1.1 Khái niệm về dự báo 3

1.2 Một số đặc điểm của dự báo 3

1.3 Các phương pháp dự báo 4

1.3.1 Phương pháp dự báo định tính (phán đoán) 5

1.3.2 Phương pháp dự báo định lượng 8

1.3.3 Quy trình dự báo 11

1.4 Kết luận: 11

II CHƯƠNG 2: KHAI PHÁ DỮ LIỆU VÀ CÁC ỨNG DỤNG CHO 12

DỰ BÁO DỮ LIỆU 12

2.1 Khai phá dữ liệu: 12

2.1.1 Phát hiện tri thức và khai phá dữ liệu 12

2.1.2 Quá trình phát hiện tri thức từ cơ sở dữ liệu 12

2.2 Các phương pháp dự báo dữ liệu: 14

2.2.1 Các phương pháp trực quan 14

2.3.1 Chuỗi thời gian thực 19

2.3.2 Thành phần xu hướng dài hạn 20

2.3.3 Thành phần mùa 21

2.3.4 Thành phần chu kỳ 21

2.3.5 Thành phần bất thường 21

2.3.6 Khai phá tri thức trên cơ sở dữ liệu chuỗi thời gian 21

2.4 Các ứng dụng cho dự báo dữ liệu: 22

III CHƯƠNG 3: MÔ HÌNH ARIMA, PHẦM MỀM EVIEWS 24

3.1 Mô hình ARIMA 24

3.1.1 Lập mô hình AR, MA và ARIMA với dữ liệu chuỗi thời gian 24

3.1.2 Xem xét tính dừng của chuỗi quan sát 27

3.1.3 Các bước lặp trong phương pháp luận Box-Jenkins (BJ) 28

3.2 Phần mềm Eviews 28

3.3 Áp dụng cho bài toán dự báo gỗ nguyên liệu 30

3.3.1 Dữ liệu cho dự báo 30

3.3.2 Mô hình ARIMA cho dự báo nguyên liệu gỗ 31

3.4 Các đánh giá sau dự báo 36

KẾT LUẬN 37

HƯỚNG NGHIÊN CỨU TIẾP THEO 39

DANH MỤC TÀI LIỆU THAM KHẢO 40

Trang 5

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

Các ký hiệu,

KPDL Khai phá dữ liệu CNTT Công nghệ thông tin ARIMA Autoregresssive Intergrated Moving Avegage

Trang 6

DANH MỤC CÁC BẢNG

22

Trang 7

DANH MỤC CÁC HÌNH (HÌNH VẼ, ẢNH CHỤP, ĐỒ THỊ…)

2.1 Quy trình phát hiện tri thức từ cơ sở dữ liệu 9

2.3 Đồ thị minh họa thành phần xu hướng dài hạn 16

3.2 Giao diện làm việc với workfile khởi tạo các biến 25 3.3 Giao diện nhập số liệu vào chương trình eviews 27 3.4 Tương quan lượng gỗ tự cấp và mua ngoài 28 3.5

3.6

Ước lượng ARIMA(1,0,1) với tucap và muangoai 29

3.7 Biểu đồ tương quan lượng giấy và bột giấy sản xuất được 29 3.8 So sánh lượng nguyên liệu cho sản xuất và xuất khẩu 30 3.9 So sánh lượng giấy và bột giấy đã sản xuất 30 3.10 Ước lượng hồi quy lượng giấy và bột giấy đã sản xuất 31

Trang 8

MỞ ĐẦU Tổng công ty giấy Việt Nam hiện nay là một trong những đơn vị lớn trong cả nước về sản xuất bột giấy và giấy Đặc biệt sản phẩm giấy Bãi Bằng (sản xuất tại Nhà máy giấy Bãi Bằng) của Tổng công ty là thương hiệu nổi tiếng đã được người tiêu dùng trong nước biết đến từ lâu và tin dùng

Trong quá trình phát triển và hoạt động, giấy Bãi Bằng đã nhiều lần nâng cấp thiết bị và mở rộng sản xuất Năm 2003 đã đầu tư thành công Dự án

mở rộng công ty giấy Bãi Bằng giai đoạn I, nâng công suất sản xuất bột giấy

từ 48.000 tấn/năm lên 71.000 tấn/năm và công suất sản xuất giấy từ 50.000 tấn/năm lên 100.000 tấn/năm Tiếp theo thành công của dự án đầu tư giai đoạn I, Tổng công ty giấy Việt Nam đã lập dự án đầu tư giai đoạn II - dây chuyền bột giấy tẩy trắng 250.000 tấn/năm, dự án giấy nhà máy giấy Thanh Hoá - dây chuyền sản xuất giấy in/viết 100.000 tấn/năm, năm 2010 Tổng công ty đã đầu tư nâng công suất sản xuất giấy lên 120.000 tấn/năm, tiếp nhận dự án nhà máy bột giấy Phương Nam – tỉnh Long An và một số dự án khác Tuy nhiên, trong đó có các dự án hoặc là đã dừng lại, hoặc là chưa thành công hay triển vọng sinh lời khi đưa vào sản xuất còn hạn chế Nguyên nhân là thiếu sự nghiên cứu, phân tích đầy đủ về thị trường đầu vào và đầu ra của các sản phẩm trong các dự án đầu tư, cũng như công nghệ phù hợp với điều kiện sản xuất ở Việt Nam

Trong khi Tổng công ty chưa thành công trong các dự án đầu tư ngành giấy thì Việt Nam lại đang được coi là nước thu hút đầu tư ngành giấy, trong đó các công ty giấy của Nhật Bản, Trung Quốc, Thái Lan… đã và đang đầu tư lớn vào Việt Nam Các công ty trong nước cũng đang mở rộng sản xuất, xúc tiến đầu tư Tổng công ty giấy Việt Nam đang đứng trước nguy cơ tụt hậu so với các công ty sản xuất giấy khác ngay tại Việt Nam

Trang 9

Mặc dù nhiều dự án đầu tư đã và đang được tiến hành, hầu hết các công ty và các dự án giấy tại Việt Nam mới chỉ đầu tư và sản xuất được giấy in, giấy viết, một phần nhỏ giấy in báo, giấy vàng mã, giấy các tông sóng ở quy mô nhỏ, đa số không có xử lý môi trường, chưa sản xuất được các loại giấy cao cấp như giấy bao bì tráng phủ, giấy kraft tẩy trắng hoặc không tẩy trắng, giấy làm lớp mặt thùng có lớp sóng,…

Mặt khác, tuy các điều kiện về kinh tế và dân số của Việt Nam vẫn tăng trưởng đều đặn, sự phát triển của công nghệ thông tin và các công nghệ mới

đã làm cho nhu cầu giấy in báo tại Việt Nam giảm sút rõ rệt, nhu cầu giấy in/viết không còn tăng mạnh và chịu sự cạnh tranh khốc liệt từ giấy ngoại nhập, các loại sách điện tử, những lý do này làm cho các thị trường giấy in báo, giấy in/viết của Tổng công ty Giấy Việt Nam không còn là cơ hội đầu tư nữa

Trong điều kiện môi trường kinh doanh như vậy, Tổng công ty giấy Việt Nam

đã nhận thấy sự cần thiết và cơ hội đầu tư sản xuất sản phẩm giấy cao cấp khác để cạnh tranh Cùng với việc nghiên cứu thị trường và công nghệ sản xuất giấy trước khi đi đến quyết định đầu tư cần phải nghiên cứu và dự báo rõ ràng nguồn nguyên liệu cho việc sản xuất mang tính ổn định lâu dài Việc tự lực được nguồn nguyên liệu là quyết định được lợi thế cạnh tranh lớn trên thị trường

Mục đích bài luận văn là tìm hiểu một số phương pháp khai phá, phân tích dữ liệu từ các số liệu thực tế được tổng hợp và ứng dụng cho bài toán dự báo nguồn nguyên liệu cho sản xuất của nhà máy giấy Bãi Bằng – Tổng công

ty Giấy Việt Nam

Trang 10

NỘI DUNG

I CHƯƠNG I: TỔNG QUAN VỀ DỰ BÁO DỮ LIỆU

1.1 Khái niệm về dự báo

Dự báo là biện pháp lập luận khoa học tiên đoán những sự việc sẽ xảy

ra trong tương lai, trên cơ sở phân tích, tổng hợp về các dữ liệu đã thu thập được Khi tiến hành dự báo cần căn cứ vào việc thu thập, xử lý số liệu trong quá khứ và hiện tại để xác định xu hướng vận động của các hiện tượng trong tương lai nhờ vào một số mô hình toán học (Định lượng) Tuy nhiên dự báo cũng có thể là một dự đoán chủ quan hoặc trực giác về tương lai (Định tính)

và để dự báo định tính được chính xác hơn, cần phải loại trừ những tính chủ quan của người dự báo

Dù định nghĩa có sự khác biệt nào đó, nhưng đều thống nhất về cơ bản

là dự báo bàn về tương lai, nói về tương lai Dự báo trước hết là một thuộc tính không thể thiếu của tư duy của con người, con người luôn luôn nghĩ đến ngày mai, hướng về tương lai Trong thời đại công nghệ thông tin và toàn cầu hóa, dự báo lại đóng vai trò quan trọng hơn khi nhu cầu về thông tin thị trường, tình hình phát triển tại thời điểm nào đó trong tương lai càng cao Dự báo được sử dụng trong nhiều lĩnh vực khác nhau, mỗi lĩnh vực có một yêu cầu về dự báo riêng nên phương pháp dự báo được sử dụng cũng khác nhau

1.2 Một số đặc điểm của dự báo

Tính không chính xác của dự báo: Dù phương pháp chúng ta sử dụng là

gì thì luôn tồn tại yếu tố không chắc chắn cho đến khi thực tế diễn ra

Luôn có điểm mù trong các dự báo: Không phải cái gì cũng có thể dự báo được nếu chúng ta thiếu hiểu biết về vấn đề cần dự báo

Trang 11

Dự báo cung cấp kết quả đầu vào cho các nhà hoạch định chính sách trong việc đề xuất các chính sách phát triển: Chính sách mới sẽ ảnh hưởng đến tương lai, vì thế cũng sẽ ảnh hưởng đến độ chính xác của dự báo

1.3 Các phương pháp dự báo

Hiện nay trên thế giới rất nhiều phương pháp dự báo được sử dụng, tuy nhiên có 9 phương pháp dự báo được áp dụng phổ biến là:

1 Phương pháp tiên đoán (Genius forecasting)

2 Phương pháp ngoại suy xu hướng (Tren extrapolation)

3 Phương pháp chuyên gia (Consensus)

4 Phương pháp mô phỏng (Mô hình hóa - Simulation)

5 Phương pháp ma trận trác động qua lại (Cross-Impact matrix method)

6 Phương pháp kịch bản (Scenario)

7 Phương pháp cây quyết định (Decision trees)

8 Phương pháp dự báo tổng hợp/ luật kết hợp (Combining methods)

9 Phương pháp chuỗi thời gian (Time series)

Bảng 1.1: Một số phương pháp dự báo phổ biến

Tuy nhiên, theo cách phân loại tại Việt Nam các phương pháp dự báo thường được chia thành 2 nhóm chính là phương pháp định tính và phương pháp định lượng

Trang 12

1.3.1 Phương pháp dự báo định tính (phán đoán)

Phương pháp này dựa trên cơ sở phân tích những yếu tố liên quan, và những ý kiến về các khả năng có liên hệ của những yếu tố liên quan này trong tương lai Phương pháp định tính có liên quan đến mức độ phức tạp khác nhau, từ việc khảo sát ý kiến được tiến hành một cách khoa học để nhận biết các sự kiện tương lai hay từ ý kiến phản hồi của một nhóm đối tượng hưởng chịu tác động nào đó

Phán đoán đơn độc (unaided judgment): Việc dự báo bởi các chuyên

gia thường sử dụng các phán đoán đơn độc thì hấu hết chính xác trong các tình huống sau:

- Xảy ra tương tự như yếu tố khác mà chuyên gia đã làm dự báo

- Bao gồm mối quan hệ đơn giản và dễ hiểu

- Không bị ảnh hưởng bởi sự thay đổi lớn

- Không bao hàm các xung đột

Và các chuyên gia dự báo:

- Không chệch

- Có thông tin mà những nơi khác không có

- Chấp nhận độ chính xác, thời gian và thông tin phản hồi về dự báo của họ

Trang 13

Phán đoán thị trường: Việc phán đoán thị trường phải dựa vào những

thông tin thị trường trong quá khứ ở một thời gian dài và phán đoán những gì sắp xảy ra đối với thị trường tương lai Tuy nhiên, thị trường không đơn gian như những thống kê đơn thuần mà nó bao gồm rất nhiều những giao dịch

“ngầm” mà chúng ta không thể dễ dàng có được những thông tin này Do vậy, việc phán đoán giá cả trong một thị trường là hết sức phức tạp và có nhiều

những thay đổi không được như kỳ vọng của các nhà nghiên cứu

Phương pháp Delphi: Phương pháp chuyên gia Delphi là phương pháp

chủ yếu dựa trên ý kiến của các chuyên gia hàng đầu trong mỗi lĩnh vực Theo Green, Armstrong và Graefe (2007) cho rằng phương pháp Delphi hấp dẫn các nhà quản lý bỏi vì tính dễ hiểu và sự hỗ trợ dự báo của các chuyên gia Theo Green và các công sự (2007) đã đưa ra tám thuận lợi của phương pháp Delphi trong dự báo thị trường: (1) Áp dụng rộng hơn, (2) Dễ hiểu, (3) Có thể trả lời các câu hỏi phức tạp, (4) Khả năng duy trì bảo mật, (5) Tránh nhiều thao tác, (6) Phát hiện nhiều kiến thức mới, và (7) Ít người tham gia

Cấu trúc tương tự: Phương pháp cấu trúc tương tự vượt qua được

những yếu tố chệch và không đáng tin cậy của những thông tin Phương pháp cấu trúc tương tự đặc biệt thích hợp khi cầu bị ảnh hưởng bởi những hành động cạnh tranh, chính phủ, hoặc nhóm lợi ích giống như môi trường và

những hành động tự phát

Lý thuyết trò chơi: Lý thuyết trò chơi nghiên cứu vấn đề ra quyết định

của nhiều người, nhiều doanh nghiệp ở các mức độ khác nhau Có rất nhiều bài viết nói về các lý thuyết trò chơi và đưa ra những áp dụng thực tiễn và chỉ

ra rằng lý thuyết trò chơi không đơn thuần là lý thuyết mà thực tế còn là

Trang 14

những công cụ hữu hiệu trong phân tích kinh tế và xác định chiến lược kinh

doanh

Phân rã và xây dựng phán đoán: Để có thể dự báo chính xác hơn có

thể phân rã vấn đề cần dự báo thành nhiều dự báo thành phần Trên cơ sở dựa vào những dự báo thành phần để thu được dự báo toàn bộ cho vấn đề cần dự báo Bởi vì, dự báo một vấn đề gộp khó khăn hơn rất nhiều khi chúng ta phân

rã vấn đề đó thành nhiều vấn để nhỏ để có thể đưa ra những phương pháp dự báo thích hợp cho từng vấn đề nhỏ

Xây dựng phán đoán thường được sử dựng trong những trường hợp mà

dữ liệu không có hoặc dữ liệu không thể ước lượng được bằng mô hình kinh

tế lượng Theo nghiên cứu của Goodwin và các cộng sự (2011) chỉ ra rằng xây dựng phán đoán không cải thiện được độ chính xác của dự báo khi những dấu hiệu tiềm năng có thể xảy ra và nó không rõ ràng khi các chuyên gia đánh giá thông tin mà không có sẵn mô hình hoặc kiến thức mà không thể kết hợp thông tin vào mô hình hoặc những biến có thể có tự tương quan

Phương pháp hệ thống chuyên gia: Phương pháp hệ thống chuyên gia

được xây dựng dựa trên cấu trúc thi hành dự báo của một nhóm chuyên gia Theo nghiên cứu của Collopy, Adya và Armstrong (2001) chỉ ra rằng phương pháp hệ thống chuyên gia chính xác hơn phương pháp phán đoán độc đoán Tuy nhiên, phương pháp này phải chịu một mức chi phí cho các chuyên gia là khá cao mà với mức chi phí này có thể xây dựng được một phương pháp dự báo thích hợp hơn

Mô phỏng tương tác: Phương háp mô phỏng tương tác thường được sử

dụng khi chúng ta có ít hoặc không đủ dữ liệu để làm các dự báo và những

Trang 15

nhà quyết sách kỳ vọng rằng có thể đoán được những ảnh hưởng của những chính sách hoặc những chiến lược sẽ được thực thi trong tương lai

Phương pháp điều tra chọn mẫu kết hợp với kinh nghiệm thực tế: Để

dự báo trước một vấn đề chúng ta có thể thực hiện một cuộc điều tra chọn mẫu với độ tin cậy của mẫu có thể chấp nhận được Với kết quả của mẫu thu được kết hợp với kinh nghiệm thực tế trong lĩnh vực cần được dự báo để đưa

ra kết quả dự báo có tính chính xác cao hơn Phương pháp này còn được gọi

là phương pháp “Phòng thí nghiệm”, tức là việc điều tra chọn một mẫu nhỏ nhưng phải có tính khái quát cho toàn bộ mẫu lớn để khi áp dụng kết quả thu được sẽ không bị sai lệch so với thực tế thực thi

1.3.2 Phương pháp dự báo định lượng

Phương pháp dự báo định lượng dựa trên các số liệu quá khứ, những số liệu này giả sử có liên quan đến tương lai và có thể tìm thấy được Tất cả các

mô hình dự báo theo định lượng có thể sử dụng thông qua chuỗi thời gian và các giá trị này được quan sát đo lường các giai đoạn theo từng chuỗi

Phép ngoại suy: Phương pháp này dựa vào dữ liệu quá khứ để dự báo

như phương pháp san mũ hoặc phương pháp chuỗi thời gian Theo nghiên cứu của Makridakis và các cộng sự (1984), nếu dữ liệu chuỗi có dạng năm thì việc loại bỏ ảnh hưởng của yếu tổ mùa vụ sẽ thu được kết quả dự báo chính xác hơn Tuy nhiên, phương pháp dự báo này sẽ không đánh giá được yếu tố ảnh hưởng bên ngoài, ví dụ như ảnh hưởng của suy thoái tài chính đến thị trường

Phân tích định lượng: Một vài dữ liệu định lượng được sử dụng để dự

báo trong những tình huống tương tự có thể sử dung phương pháp ngoại suy

Vì vậy dư liệu định lượng là quan trọng trong mục tiêu được xem xét và dữ

Trang 16

liệu tượng tự để xây dựng các hệ số hoặc ngoại suy xu hướng trung bình cho từng trường hợp cụ thể

Nguyên tắc dự báo cơ bản (RBF): Nguyên tắc dự báo cơ bản (RBF) để

xác định đặc trung của một chuỗi số liệu, theo nghiên cứu cảu Armstrong, Adya và Collopy (2001) chỉ ra rằng có 28 đặc trưng chủ yếu dựa trên bao số liệu, số quan sat, tính mùa vụ và các điểm nằm ngoài (outliers) Có 99 nguyên tắc của RBF thường được dùng để điều chỉnh dữ liệu để ước lượng cho các mô hình ngắn và dài hạn và thường được sử dụng hỗn hợp cho hai loại mô hình này Thêm vào đó, RBF hữu dụng khi nội dung của kiến thức có khả năng, mô hình chính xác của chuỗi, xu hướng và dự báo cần chuỗi số liệu

ít nhất là sáu năm hoặc hơn

Mô hình mạng Nơ-ron: Mạng nơ ron được xây dựng dựa trên chuỗi

thời gian phi tuyến Mặc dù mô hình mạng Nơ-ron có thể khớp với dữ liệu tương đối tốt nhưng có một khó khăn trong mô hình là chúng ta không có một

lý giải kinh tế thật sự rõ ràng nào Theo Enders (2004), do dù mô hình mạng Nơ-ron có thể nới rộng ra các chuỗi tự hồi quy bậc cao hơn nên mô hình này

có số lượng tham số rất lớn và do vậy sẽ luôn gặp phải nguy cơ phù hợp thái quá với dữ liệu Nếu có quá nhiều nút được sử dụng thì thành phần nhiễu của

dữ liệu sẽ được khớp tương đối chính xác Việc R2 có xu hướng tiến tới 1 khi

n tăng không phải là điều tốt nếu như mục tiêu của chúng ta là dự báo các giá trị tương lai của chuỗi

Mô hình nhân quả: Mô hình nhân quả bao gồm mô hình gốc sử dụng

phân tích hồi quy, phương pháp chỉ số và phương pháp phân khúc Theo nghiên cứu của Armstrong (1985) và Allen và Fildes (2001) cho thấy rằng mô hình nhân quả dự báo chính xác hơn từ việc ngoại suy biến phụ thuộc khi dự

Trang 17

báo sự thay đổi lớn và có thể dự báo được ảnh hưởng chính sách của những

kế hoạch hoặc những quyết định chính sách

Mô hình nhân quả hữu dụng trong trường hợp: (1) tồn tại mối quan hệ nhân quả mạnh, (2) các mối quan hệ trực tiếp đã biết, (3) có sự khác biệt lớn giữa các biến thay thế, và (4) sự khác nhau thay thế có thể được biết hoặc được kiểm soát để dự báo chính xác hơn

Mô hình hồi quy hay mô hình kinh tế lượng được xây dựng dựa trên ước lượng các hệ số của mô hình nhân quả từ chuỗi số liệu quá khứ

Mô hình chỉ số thích hợp trong trường hợp dữ liệu ít, có thể các biến nhân quả là quan trọng và đã có cơ sở lý thuyết chắc chắn từ trước cho những ảnh hưởng của các biến nhân quả

Mô hình phân đoạn: Mô hình phân đoạn là việc phân chia vấn đề

thành những phần độc lập và sử dụng dữ liệu để dự báo cho mỗi phần này rồi sau đó kết hợp các phần lại để được một dự báo Để có thể sử dụng được mô hình phân đoạn chúng ta cần phải xác định các biến nhân quả quan trọng của

mô hình và xác định được mối quan hệ giữa biến độc lập và biến phu thuộc

một cách chính xác

Tuy vậy, để nâng cao độ chính xác của dự báo thông thường khi dự báo người ta thường hay kết hợp cả hai phương pháp trên Bên cạnh đó, đôi khi vấn đề cần dự báo không thể thực hiện được thông qua một phương pháp dự báo đơn lẻ mà đòi hỏi kết hợp nhiều hơn một phương pháp nhằm mô tả đúng bản chất sự việc cần dự báo

Trang 18

1.3.3 Quy trình dự báo

Thông thường trong các dự báo về kinh tế, quy trình dự báo được chia thành các bước sau Các bước này bắt đầu và kết thúc với sự trao đổi giữa người sử dụng và người làm dự báo

Bước 1 Xác định mục tiêu dự báo

Bước 2 Lựa chọn đối tượng cần dự báo

Bước 3 Xác định khoảng thời gian dự báo

Bước 4 Lựa chọn mô hình dự báo

Bước 5 Thu thập số liệu và tiến hành dự báo

Bước 6 Phê chuẩn mô hình dự báo

Bước 7 Tiến hành dự báo

Bước 8 Áp dụng kết quả dự báo

1.4 Kết luận:

Tìm hiểu cơ bản về khái niệm dự báo dữ liệu, một số đặc điểm của dự báo dữ liệu và một số phương pháp chính để dự báo

Trang 19

II CHƯƠNG 2: KHAI PHÁ DỮ LIỆU VÀ CÁC ỨNG DỤNG CHO

DỰ BÁO DỮ LIỆU

2.1 Khai phá dữ liệu:

Khai phá dữ liệu (KPDL) là lĩnh vực kết hợp nhiều biện pháp kỹ thuật với nhau và là một quá trình xử lý dữ liệu, trích xuất tri thức từ lượng lớn dữ liệu và là quá trình tìm ra những thông tin ẩn, hữu ích, chưa được biết trước

từ dữ liệu

2.1.1 Phát hiện tri thức và khai phá dữ liệu

Việc thu thập và lưu trữ các kho chứa dữ liệu khổng lồ dẫn tới một yêu cầu cấp thiết là cần có những kỹ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ thành các tri thức có ích Do vậy, khai phá dữ liệu nhằm phát hiện các tri thức mới giúp ích cho hoạt động của con người đã trở thành một lĩnh vực quan trọng của ngành Công nghệ thông tin

2.1.2 Quá trình phát hiện tri thức từ cơ sở dữ liệu

Thông tin là một khái niệm trừu tượng, được thể hiện dưới nhiều dạng thức khác nhau Thông tin có thể được phát sinh, lưu trữ, biến đổi trong những vật mang tin Dữ liệu là sự biểu diễn thông tin và được thể hiện bằng các tín hiệu vật lý Dữ liệu là một dãy các bit các số, sử dụng các bit để đo lường các thông tin và xem nó như là các dữ liệu đã được lọc bỏ các phần dư thừa, được rút gọn tới mức tối thiểu để đặc trưng một cách cơ bản cho dữ liệu

Có thể xem tri thức như là các thông tin tích hợp, bao gồm các sự kiện và các mối quan hệ giữa chúng Các mối quan hệ này có thể được hiểu ra, có thể được phát hiện, hoặc có thể được học

Trang 20

Mục đích của phát hiện tri thức và khai phá dữ liệu là tìm ra các mẫu và các

mô hình đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị che khuất bởi các khối dữ liệu Quá trình phát hiện tri thức được mô tả tóm tắt như sau:

Hình 2.1: Quy trình phát hiện tri thức từ cơ sở dữ liệu

+ Sử dụng tri thức khai phá được

Trong thực tế, thuật ngữ khai phá dữ liệu được sử dụng phổ biến hơn là khai phá tri thức trong cơ sở dữ liệu Tùy theo hướng ứng dụng mà người ta chia khai phá dữ liệu ra làm nhiều quá trình trong đó gồm nhiều bước nhỏ

Trang 21

2.2 Các phương pháp dự báo dữ liệu:

2.2.1 Các phương pháp trực quan

Quan sát các hoạt động không theo chủ quan: Kỹ thuật khai phá dữ liệu trực quan cung cấp cho người khai phá khả năng đầy đủ để quan sát các hoạt động mà không theo định kiến cá nhân nào cả Điều đó có nghĩa là ta không cần phải biết là cần phải tìm kiếm cái gì trong thời gian sáp tới Hơn thế, bạn

có thể bắt dữ liệu chỉ ra cho bạn thấy cái gì là quan trọng

Trực quan và đòi hỏi của nhận thức: Có thể sự mở rộng lớn nhất trong việc sử dụng trực quan trong các phương pháp khai phá dữ liệu là phương pháp trực quan cốt để làm nổi bật khả năng nhận thức, kinh nghiệm của con người có thể làm tốt và một số công việc khác lại làm rất tốt Việc lựa chọn phương pháp nghiên cứu thường phải có sự cân nhắc về kiểu xử lý thông tin

mà người đó đòi hỏi trong suất quá trình nghiên cứu

Vẽ sơ đồ dữ liệu trên lược đồ trực quan: Khi đưa dữ liệu vào trong một môi trường trực quan, bạn phải quyết định làm sao để trình bày dữ liệu theo một kiểu cách có ý nghĩa Hoạt động này tập trung vào sử dụng những thuộc tính của các phần tử dữ liệu đã được định nghĩa trong mô hình để xác định làm sao thông tin sẽ được nhìn thấy và cảm nhận bạn có thể chọn những giải thuật xác định vị trí như gộp nhóm, phân cụm, …

2.2.2 Các phương pháp truyền thống

a Phương pháp thống kê: Trong phương pháp này, ta sử dụng những

thông tin được thống kê để suy luận và miêu tả xa hơn trong phân tích dữ liệu Trong hệ thống hỗ trợ quyết định thì việc dùng phương pháp thống kê là rất phổ biến

Trang 22

b Phương pháp cây quyết định và luật

Cây quyết định là công cụ phân tích để khám phá ra các luật và mối quan hệ bằng phương pháp phân tích thống kê phân chi thành các phần nhỏ các thông tin chứa trong tập dữ liệu

Cây quyết định là một mô tả tri thức dạng đơn giản nhằm phân các đối tượng dữ liệu thành một số lớp nhất định Các nút của cây được gán nhãn là tên các thuộc tính, các cạnh được gán các giá trị cụ thể các thuộc tính, các lá miêu tả các lớp khác nhau Các đối tượng được phân lớp theo các đường đi trên cây, các cạnh tương ứng với giá trị các thuộc tính của đối tượng tới lá

c Sử dụng các luật kết hợp

Những luật kết hợp được dẫn xuất ra từ sự phân tích các thông tin trùng hợp Phương pháp luật kết hợp này cho phép khám phá những tương quan, hoặc những biến cố trong giao dịch là các sự kiện

Các luật kết hợp là một dạng biểu diễn tri thức, hay chính xác hơn là dạng mẫu của hình thành tri thức Phương pháp này nhằm phát hiện ra các mối quan hệ kết hợp giữa các hình thành phần dữ liệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật khai phá dữ liệu là các tập luật kết hợp tìm được

d Mạng Nơron

Mạng nơron là một hệ thống bao gồm rất nhiều phần tử xử lý đơn giản cùng hoạt động song song Tính năng hoạt động của hệ thống này phụ thuộc vào cáu trúc của hệ thống, vào cường độ liên kết giữa các phần tử trong hệ thống và dựa vào quá trình xử lý bên trong các phần tử đó Hệ thống này có thể học từ các dữ liệu có khả năng tổng quát hóa các dữ liệu đó

Trang 23

e Giải thuật di truyền

Giải thuật di truyền được phát triển mô phỏng lại hệ thống tiến hóa trong tự nhiên, chính xác hơn đó là giải thuật chỉ ra tập các cá thể được hình thành, được ước lượng và biến đổi như thế nào Giải thuật cũng mô phỏng lại yếu tố gen trong nhiễm sắc thể sinh học trên máy tính để có thể giải quyết nhiều bài toán thực tế khác nhau Giải thuật di truyền dựa trên ba cơ chế cơ bản: Chọn lọc, tương giao chéo và đột biến

2.2.3 Các phương pháp khác

a Phân nhóm và phân đoạn

Phương pháp phân nhóm và phân đoạn là những kỹ thuật phân chia dữ liệu sao cho mỗi phần hoặc một nhóm giống nhau theo một tiêu chuẩn nào đó

b Phương pháp suy diễn và quy nạp

Một cơ sở dữ liệu là một kho thông tin những các thông tin quan trọng hơn cũng có thể được suy diễn từ kho thông tin đó Có hai kỹ thuật chính để thực hiện việc này là suy diễn và quy nạp

Phương pháp suy diễn: Nhằm rút ra những thông tin là kết quả logic của các thông tin trong cơ sở dữ liệu, dựa trên các quan hệ trong dữ liệu

Phương pháp quy nạp: Nhằm suy ra các thông tin được sinh ra từ cơ sở

dữ liệu

Trang 24

c Các phương pháp dựa trên mẫu

Sử dụng các mẫu miêu tả từ cơ sơ dữ liệu để tạo nên mọt mô hình dự đoán các mẫu mới dằng cách rút ra các thuộc tính tương tự như các mẫu đã biết trong mô hình Ở đây, nhiệm vụ chính là phải xác định được độ giống nhau, tương đồng giữa các mẫu, sau đó mới rạo ra mẫu dự đoán

2.3 Cơ sở dữ liệu chuỗi thời gian

Chuỗi thời gian là một tập hợp các quan sát Xt được ghi nhận tại một thời điểm t, theo một trình tự thời gian nhất định Công việc dự đoán dựa trên

cơ sở dữ liệu chuỗi thời gian được gọi là dự đoán chuỗi thời gian Việc tìm kiếm các mẫu thích hợp trong dữ liệu tuần tự theo thời gian (Time Series Data – TSD) là rất quan trọng cho các ứng dụng trong hầu hết các lĩnh vực khoa học như tìm kiếm âm điệu, tìm các các mẫu chứng khoán trong quá khứ để có thể dự đoán khuynh hướng giá trong tương lai, số lượng sản phẩm bán ra, dự báo mức độ ô nhiễm môi trường hay dự báo thời tiết… Dữ liệu tuần tự theo thời gian thường có nhiều trong các lĩnh vực khác nhau nên có nhiều dạng khác nhau Xét về mặt toán học thì chúng đều như nhau là mỗi chuỗi thời gian biểu diễn các giá trị của một biến thực theo các khoảng thời gian bằng nhau

Do đó khái niệm về chuỗi thời gian tương đối rộng nên có thể áp dụng các kỹ thuật khám phá tri thức trên chuỗi thời gian để xây dựng các ứng dụng trong các lĩnh vực khác nhau

Trong các bài toán dự báo nói chung và các bài toán dự báo dữ liệu thường được biểu diễn dưới dạng chuỗi thời gian Trong các dạng dữ liệu được phân tích thì dữ liệu chuỗi thời gian luôn thuộc tốp đầu về tính phổ biến

Trang 25

Có thể chia các phương pháp phân tích chuỗi thời gian (Time series) ra làm hai loại Tập trung các tính chất, hành vi tổng quát của chuỗi thời gian và nghiên cứu các tính chất có tính cục bộ, địa phương trên chuỗi thời gian (thông qua các dãy con, các mẫu tuần hoàn, đoạn lặp phổ biến, các luật liên kết các mẫu đặc trưng trong chuỗi thời gian )

Định nghĩa 1:

- Cho chuỗi thời gian X=(x1, x2, , xn) là một tập n giá trị xi được ghi nhận trên các khoảng thời gian bằng nhau của một biến thực và được sắp theo thứ tự thời gian

- Cơ sở dữ liệu chuỗi thời gian là một tập rất lớn các chuỗi thời gian, trong đó mỗi mẫu tin là một chuỗi thời gian T={Xi}, (i=1 n)

Chuỗi thời gian có thể biểu diễn các đối tượng khác nhau trong nhiều lĩnh vực, tuy nhiên chúng đều có nhiều tính chất giống nhau Có thể biểu diễn một chuỗi thời gian trên biểu đồ sau:

Hình 2.2 Minh họa chuỗi thời gian

Ngày đăng: 06/11/2014, 00:14

HÌNH ẢNH LIÊN QUAN

Bảng  Nội dung  Trang - Nghiên cứu phương pháp khai phá dữ liệu và ứng dụng dự báo nguồn gỗ nguyên liệu cho sản xuất tại nhà máy giấy Bãi Bằng
ng Nội dung Trang (Trang 6)
Hình  Nội dung  Trang - Nghiên cứu phương pháp khai phá dữ liệu và ứng dụng dự báo nguồn gỗ nguyên liệu cho sản xuất tại nhà máy giấy Bãi Bằng
nh Nội dung Trang (Trang 7)
Bảng 1.1: Một số phương pháp dự báo phổ biến - Nghiên cứu phương pháp khai phá dữ liệu và ứng dụng dự báo nguồn gỗ nguyên liệu cho sản xuất tại nhà máy giấy Bãi Bằng
Bảng 1.1 Một số phương pháp dự báo phổ biến (Trang 11)
Hình 2.1: Quy trình phát hiện tri thức từ cơ sở dữ liệu - Nghiên cứu phương pháp khai phá dữ liệu và ứng dụng dự báo nguồn gỗ nguyên liệu cho sản xuất tại nhà máy giấy Bãi Bằng
Hình 2.1 Quy trình phát hiện tri thức từ cơ sở dữ liệu (Trang 20)
Hình 2.2 Minh họa chuỗi thời gian - Nghiên cứu phương pháp khai phá dữ liệu và ứng dụng dự báo nguồn gỗ nguyên liệu cho sản xuất tại nhà máy giấy Bãi Bằng
Hình 2.2 Minh họa chuỗi thời gian (Trang 25)
Hình 2.3: Đồ thị minh họa thành phần xu hướng dài hạn - Nghiên cứu phương pháp khai phá dữ liệu và ứng dụng dự báo nguồn gỗ nguyên liệu cho sản xuất tại nhà máy giấy Bãi Bằng
Hình 2.3 Đồ thị minh họa thành phần xu hướng dài hạn (Trang 27)
Hình 3.1: Giao diện chương trình eviews - Nghiên cứu phương pháp khai phá dữ liệu và ứng dụng dự báo nguồn gỗ nguyên liệu cho sản xuất tại nhà máy giấy Bãi Bằng
Hình 3.1 Giao diện chương trình eviews (Trang 36)
Bảng 3.1: Các dữ liệu đầu vào cho dự báo - Nghiên cứu phương pháp khai phá dữ liệu và ứng dụng dự báo nguồn gỗ nguyên liệu cho sản xuất tại nhà máy giấy Bãi Bằng
Bảng 3.1 Các dữ liệu đầu vào cho dự báo (Trang 37)
Hình 3.3: Giao diện nhập số liệu vào chương trình Eviews - Nghiên cứu phương pháp khai phá dữ liệu và ứng dụng dự báo nguồn gỗ nguyên liệu cho sản xuất tại nhà máy giấy Bãi Bằng
Hình 3.3 Giao diện nhập số liệu vào chương trình Eviews (Trang 38)
Hình 3.7 Biểu đồ tương quan lượng giấy và bột sản xuất được - Nghiên cứu phương pháp khai phá dữ liệu và ứng dụng dự báo nguồn gỗ nguyên liệu cho sản xuất tại nhà máy giấy Bãi Bằng
Hình 3.7 Biểu đồ tương quan lượng giấy và bột sản xuất được (Trang 40)
Hình 3.9 Biểu đồ lượng giấy và bột giấy đã sản xuất - Nghiên cứu phương pháp khai phá dữ liệu và ứng dụng dự báo nguồn gỗ nguyên liệu cho sản xuất tại nhà máy giấy Bãi Bằng
Hình 3.9 Biểu đồ lượng giấy và bột giấy đã sản xuất (Trang 41)
Hình 3.8 Bảng so sánh lượng nguyên liệu cần cho sản xuất và lượng đã xuất khẩu - Nghiên cứu phương pháp khai phá dữ liệu và ứng dụng dự báo nguồn gỗ nguyên liệu cho sản xuất tại nhà máy giấy Bãi Bằng
Hình 3.8 Bảng so sánh lượng nguyên liệu cần cho sản xuất và lượng đã xuất khẩu (Trang 41)
Hình 3.10 Ước lượng hồi quy lượng giấy và bột đã sản xuất - Nghiên cứu phương pháp khai phá dữ liệu và ứng dụng dự báo nguồn gỗ nguyên liệu cho sản xuất tại nhà máy giấy Bãi Bằng
Hình 3.10 Ước lượng hồi quy lượng giấy và bột đã sản xuất (Trang 42)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w