ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU SẢN XUẤT KINH DOANH CHO VNPT
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hoàng Tuấn Ninh ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU SẢN XUẤT KINH DOANH CHO VNPT LUẬN VĂN THẠC SĨ HÀ NỘI – 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hoàng Tuấn Ninh ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU SẢN XUẤT KINH DOANH CHO VNPT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC TS.Đỗ Văn Thành HÀ NỘI - 2009 - i - LỜI CAM ĐOAN Tôi xin cam đoan nội dung bản luận văn chưa từng được công bố hay xuất bản dưới bất kỳ hình thức nào và cũng không được sao chép từ bất kỳ một công trình nghiên cứu nào. Toàn bộ ứng dụng thử nghiệm đều do tôi tự thiết kế và xây dựng. Nếu sai tôi xin hoàn toàn chịu trách nhiệm. Hà Nội, ngày tháng năm 2009 Người thực hiện đề tài Hoàng Tuấn Ninh - ii - LỜI CẢM ƠN Tôi xin chân thành cảm ơn thầy giáo TS. Đỗ Văn Thành,Trung tâm Thông tin và Dự báo Kinh tế - Xã hội, Bộ Kế hoạch và Đầu tư đã tận tình hướng dẫn và có nhiều chỉ dẫn quí báu cho tôi hoàn thành khoá luận này. Tôi xin chân thành cảm ơn các thầy, cô trong Đại học Công nghệ cũng như các thầy cô giảng dạy ở Đại học Quốc Gia Hà Nội đã truyền đạt cho tôi những kiến thức bổ ích trong thời gian học tập tại trường. Tôi cũng xin gửi lời cảm ơn tới các chuyên viên của Tập đoàn Bưu chính Viễn thông Việt Nam đã cung cấp số liệu cho tôi để thực hiện luận văn này. Cuối cùng, tôi xin bày tỏ lòng biết ơn đến gia đình và bạn bè, những người đã giúp đỡ, động viên tôi rất nhiều trong suốt quá trình học tập và làm luận văn. Do thời gian và kiến thức có hạn, khoá luận không tránh khỏi những thiếu sót nhất định. Tôi rất mong nhận được sự góp ý của thầy cô giáo và các bạn. Tôi xin chân thành cảm ơn ! - iii - TÓM TẮT NỘI DUNG LUẬN VĂN Luận văn được trình bày làm 3 chương chính với các nội dung như sau: Chương I: Khảo cứu các phương pháp dự báo số liệu Chương này giới thiệu các kiến thức tổng quan về dự báo và giới thiệu một số phương pháp dự báo định lượng chính như: Hồi quy tuyến tính, Hồi quy phi tuyến, phương pháp chuỗi thời gian, phương pháp phân lớp dữ liệu… Chương II: Dự báo định lượng bằng phương pháp mạng nơron nhân tạo Chương này tập trung giới thiệu về việc dự báo định lượng bằng phương pháp mạng nơron nhân tạo, thuật toán lan truyền ngược sai số và phương pháp thiết kế mạng nơron nhân tạo. Chương III: Dự báo kết quả hoạt động SXKD của VNPT bằng phương pháp mạng nơron nhân tạo Chương này sẽ trình bày bài toán dự báo kết quả thực hiện SXKD của VNPT, đề xuất giải pháp dự báo định lượng để giải quyết bài toán, sau đó ứng dụng phương pháp mạng nơron nhân tạo để dự báo kết quả. Cuối cùng là kết quả thử nghiệm với số liệu SXKD của VNPT, đánh giá kết quả và một số đề xuất, khuyến nghị. - iv - MỤC LỤC MỤC LỤC iv DANH SÁCH HÌNH VẼ vi DANH SÁCH BẢNG BIỂU vii BẢNG THUẬT NGỮ viii MỞ ĐẦU ix CHƯƠNG 1. KHẢO CỨU CÁC PHƯƠNG PHÁP DỰ BÁO VỀ HOẠT ĐỘNG SẢN XUẤT KINH DOANH DOANH NGHIỆP 11 1. Tổng quan các phương pháp dự báo 11 1.3. Dự báo định lượng bằng các phương pháp hồi quy 16 1.3.1.Hồi quy tuyến tính và hồi quy bội 16 1.1.2. Hồi quy phi tuyến tính 17 1.4. Dự báo số liệu bằng các phương pháp chuỗi thời gian 18 1.4.1. Khái niệm chuỗi thời gian 18 1.4.2. Phân tích, dự báo chuỗi thời gian 19 1.4. Dự báo bằng phương pháp phân lớp dữ liệu 21 1.4.1. Phương pháp phân lớp dữ liệu 21 1.4.2. Độ chính xác phân lớp 21 CHƯƠNG 2. DỰ BÁO ĐỊNH LƯỢNG BẰNG PHƯƠNG PHÁP MẠNG NƠRON NHÂN TẠO 24 2.1. Mạng nơron nhân tạo 24 1). Khái quát về mạng nơron 24 2.2 . Mô hình của mạng nơron nhân tạo 25 2.4. Thuật toán lan truyền ngược sai số 30 2.5. Thiết kế mạng nơron 32 1) Bước 1: Lựa chọn biến 33 2). Bước 2: Thu thập dữ liệu 34 3). Bước 3: Tiền xử lý dữ liệu 34 4). Bước 4: Xác định tập huấn luyện, tập kiểm tra và đánh giá 37 5). Bước 5: Xác định mô hình mạng nơron 38 6). Bước 6: Xác định hàm đánh giá sai số 43 7). Bước 7: Huấn luyện mạng nơron 43 8). Bước 8: Thực thi 48 CHƯƠNG 3. DỰ BÁO KẾT QUẢ HOẠT ĐỘNG SXKD CHO VNPT BẰNG PHƯƠNG PHÁP MẠNG NƠRON NHÂN TẠO 50 - v - 3.1. Xác định bài toán dự báo kết quả hoạt động sản xuất kinh doanh của VNPT 50 3.2. Xác định hệ thống chỉ tiêu cần được phân tích, dự báo về kết quả SXKD 50 3.2.1. Phân tích quy trình nghiệp vụ báo cáo số liệu tại VNPT 50 3.2.2. Xác định hệ thống chỉ tiêu cần được phân tích và dự báo 52 3.3. Giải pháp dự báo định lượng kết quả SXKD của VNPT 58 3.3.1. Mô hình tổng thể hệ thống thông tin phục vụ dự báo định lượng 58 3.3.2. Giới thiệu tập số liệu và vấn đề tiền xử lý số liệu 61 3.3.3. Phương pháp mạng nơrontrong dự báo số liệu SXKD tại VNPT 62 3.3.4. Phần mềm công cụ hỗ trợ dự báo 63 3.4. Ứng dụng mạng Nơron để dự báo số liệu SXKD cho VNPT 72 3.4.1. Xác định các biến dự báo 72 3.4.2. Thu thập dữ liệu 72 3.4.3. Tiền xử lý dữ liệu 72 3.4.4. Trích chọn dữ liệu – Xây dựng tập huấn luyện 74 3.4.5. Xác định mô hình mạng nơron 76 3.4.6. Xác định hàm đánh giá sai số 79 3.4.7. Huấn luyện mạng nơ ron 79 3.4.8. Dự báo số liệu 81 3.5. Kết quả thử nghiệm 82 a. Thử nghiệm với số liệu điện thoại cố định 83 b. Thử nghiệm với dữ liệu mạng Internet 86 c. Thử nghiệm với dữ liệu mạng di động 87 3.6. Thiết kế Phần mềm dự báo số liệu SXKD cho VNPT 88 3.6.1. Sơ đồ phân rã chức năng 88 3.6.2. Biểu đồ ngữ cảnh 88 3.6.3. Sơ đồ phân rã chức năng 89 3.6.4. Sơ đồ quan hệ 90 3.6.5. Thiết kế dữ liệu logic 91 3.6.6. Thiết kế chức năng xem số liệu 95 3.6.7. Thiết kế chức năng xây dựng mô hình 96 3.6.8. Thiết kế chức năng dự báo số liệu 96 3.6.9. Thiết kế chức năng Cập nhật tập huấn luyện 97 KẾT LUẬN 98 TÀI LIỆU THAM KHẢO 100 - vi - DANH SÁCH HÌNH VẼ Hình 1. Các phương pháp dự báo hoạt động SXKD doanh nghiệp 16 Hình 2. Đánh giá độ chính xác của bộ phân lớp bằng phương pháp holdout 22 Hình 3. Mô hình phi tuyến của một nơron 26 Hình 4. Kết quả biến đổi afine của ngưỡng 27 Hình 5. Hai mô hình phi tuyến của nơron 28 Hình 6. Chuyển đổi logarit của số liệu buôn bán lúa gạo theo tháng 36 Hình 7. Phương pháp kiểm tra cửa sổ trượt 38 Hình 8. Hai phương pháp chia tỉ lệ thông dụng trên tập dữ liệu S&P500 42 Hình 9. Đồ thị lỗi của quá trình huấn luyện và kiểm tra mạng nơron 45 Hình 10. Giản đồ biểu diễn một mặt phẳng lỗi của mạng nơron 47 Hình 11. Mô hình Hệ thống dự báo số liệu 58 Hình 12. Mô hình Trích chọn dữ liệu 59 Hình 13. Mô hình Làm sạch, chuẩn hóa dữ liệu 60 Hình 14. Xây dựng mô hình dữ liệu 60 Hình 15. Mô hình Dự báo giá trị mới 61 Hình 16. Màn hình chương trình YALE 64 Hình 17. Mô hình xử lý một cây toán tử của Yale 69 Hình 18. Màn hình chương trình WEKA 70 Hình 19. Cấu trúc kho dữ liệu SXKD của VNPT 73 Hình 20. Biểu đồ ngữ cảnh Hệ thống Dự báo số liệu 89 Hình 21. Sơ đồ quan hệ dữ liệu của Hệ thống Dự báo số liệu 90 Hình 22. Biểu đồ luồng dữ liệu cho chức năng xem số liệu 95 Hình 23. Biểu đồ luồng dữ liệu cho chức năng xây dựng mô hình 96 Hình 24. Biểu đồ luồng dữ liệu cho chức năng dự báo số liệu 96 Hình 25. Biểu đồ luồng dữ liệu cho chức năng Cập nhật tập huấn luyện 97 - vii - DANH SÁCH BẢNG BIỂU Bảng 1. So sánh YALE và WEKA 71 Bảng 2. Kết quả dự báo chỉ tiêu m420 tháng 8 từ số liệu tháng 7 83 Bảng 3. Kết quả dự báo chỉ tiêu m420 tháng 10 từ số liệu tháng 7 83 Bảng 4. Kết quả dự báo chỉ tiêu m420 tháng 9 từ số liệu tháng 7 83 Bảng 5. Kết quả dự báo chỉ tiêu m410 tháng 8 từ số liệu tháng 7 83 Bảng 6. Kết quả dự báo chỉ tiêu m410 tháng 9 từ tháng 7 84 Bảng 7. Kết quả dự báo chỉ tiêu m410 tháng 10 từ tháng 7 84 Bảng 8. Kết quả dự báo chỉ tiêu m425 tháng 8 từ tháng 7 84 Bảng 9. Kết quả dự báo chỉ tiêu m425 tháng 9 từ tháng 7 84 Bảng 10. Kết quả dự báo chỉ tiêu m425 tháng 10 từ tháng 7 85 Bảng 11. Kết quả dự báo chỉ tiêu m425 tháng 11 từ tháng 7 85 Bảng 12. Kết quả dự báo chỉ tiêu m425 tháng 12 từ tháng 7 85 Bảng 13. Độ chính xác trung bình theo chu kỳ 86 Bảng 14. Độ chính xác trung bình theo chỉ tiêu 86 - viii - BẢNG THUẬT NGỮ Từ viết tắt Tiếng Anh Tiếng Việt ARIMA AutoRegressive Integrated Moving Average Tích hợp trung bình trượt tự hồi qui CSDL Cơ sở dữ liệu DM Data mart Kho dữ liệu chủ đề DW Data warehouse Kho dữ liệu KDD Knowlegde Discovery in Databases Khám phá tri thức trong CSDL KPDL Khai phá dữ liệu MLP Multilayer Perceptron Mạng nơron đa lớp SARIMA Seasonal AutoRegressive Integrated Moving Average Tích hợp trung bình trượt tự hồi qui theo mùa vụ VNPT Vietnam Posts and Telecomunications Coporation Tập đoàn Bưu chính Viễn thông Việt Nam [...]... hồi quy 1.4 Dự báo bằng phương pháp phân lớp dữ liệu 1.4.1 Phương pháp phân lớp dữ liệu Quá trình phân lớp dữ liệu thường gồm 2 bước: xây dựng mô hình và sử dụng mô hình để phân lớp dữ liệu [12] Bước 1: một mô hình sẽ được xây dựng dựa trên việc phân tích các mẫu dữ liệu Mỗi mẫu tương ứng với một lớp, được quy t định bởi một thuộc tính gọi là thuộc tính lớp Các mẫu dữ liệu này còn được gọi là tập dữ. .. mô hình sẽ được sử dụng để dự báo nhãn lớp cho các mẫu dữ liệu khác trong tương lai Các kỹ thuật phân lớp dữ liệu chủ yếu để dự báo số liệu gồm có: phân lớp theo phương pháp Bayes, phân lớp theo cây quy t định, phân lớp theo phương pháp máy vector hỗ trợ (SVM), phân lớp theo phương pháp mạng nơron, thuật toán di truyền, thuật toán người lãng riềng gần nhất, … 1.4.2 Độ chính xác phân lớp Ước lượng độ... ban đầu Để tăng độ chính xác của phương pháp phân lớp, người ta đưa ra một số kỹ thuật như: Bagging và boosting Tư tưởng chính của kỹ thuật bagging là thay vì xây dựng một bộ phân lớp, chúng ta sẽ xây dựng k bộ phân lớp từ tập dữ liệu ban đầu, với mỗi mẫu mới cần phân lớp, mỗi bộ phân lớp sẽ có 1 kết quả dự báo và nhãn nào được dự báo nhiều nhất bởi các bộ phân lớp sẽ được gán cho mẫu mới Kỹ thuật boosting... boosting tương tự kỹ thuật bagging nhưng mỗi mẫu học sẽ được gán thêm 1 trọng số để giúp các bộ phân loại xây dựng sau tránh các lỗi mà các bộ phân loại trước gặp phải KẾT LUẬN CHƯƠNG 1 Trong chương 1, luận văn đã trình bày một cách tổng quan về dự báo và các phương pháp dự báo Các phương pháp dự báo bao gồm các phương pháp dự báo định tính và các phương pháp dự báo định lượng Trong phương pháp định lượng... văn đã giới thiệu nhanh các mô hình hồi quy tuyến tính và phi tuyến, và phương pháp dự báo bằng phân lớp dữ liệu Phương pháp dự báo phân lớp dữ liệu sẽ là đối tượng nghiên cứu chính của luận văn này Trong chương tiếp theo, luận văn sẽ tập trung trình bày phương pháp phân lớp dữ liệu sử dụng mạng nơron nhân tạo để dự báo định lượng - 24 - CHƯƠNG 2 DỰ BÁO ĐỊNH LƯỢNG BẰNG PHƯƠNG PHÁP MẠNG NƠRON NHÂN TẠO... Phương pháp luận tổng quát về dự báo Để thiết lập một dự báo, về cơ bản, chúng ta có các bước tiến hành sau đây: a) Xác định vấn đề dự báo và mốc thời gian xa nhất của dự báo b) Hiểu vấn đề cần được dự báo, xây dựng hệ thống mô tả vấn đề cần được dự báo và nhận ra những biến số then chốt của hệ thống; c) Thu thập các số liệu cần thiết phục vụ cho dự báo và Đề xuất các giả thiết xuất phát của dự báo; d)... tiêu dùng -Phương pháp chuyên gia -Hồi quy -Phân lớp -Phân tích tương quan, -… Các mô hình chuỗi thời gian - Làm trơn hàm mũ - Trung bình trượt tích hợp tự hồi qui (ARIMA) và ARIMA theo mùa vụ; - Mô hình tự hồi quy véc tơ VAR, … - Hình 1 Các phương pháp dự báo hoạt động SXKD doanh nghiệp 1.3 Dự báo định lượng bằng các phương pháp hồi quy 1.3.1 .Hồi quy tuyến tính và hồi quy bội Hồi quy tuyến tính: Đây... thế hiệu quả cho phương thức báo cáo, tổng hợp số liệu bằng giấy tờ Đồng thời Hệ thống VRS được đưa vào sử dụng đã cung cấp một khối lượng thông tin lớn khó có thể xử lý bằng những phương pháp thủ công hiện có, từ đó đặt ra nhu cầu về một hệ thống phần mềm có thể hỗ trợ xử lý hiệu quả những thông tin này -x- Đề tài Áp dụng các kỹ thuật phân lớp dữ liệu, hồi quy để dự báo số liệu SXKD cho VNPT được... thể, xác suất xuất hiện các điểm uốn hay gián đoạn đó * Tiến hành dự báo và kiểm nghiệm kết quả dự báo Trong phần lớn các trường hợp rất cần phải kiểm nghiệm kết quả dự báo so với thực tế Nó là cơ sở để chấp nhận dự báo và ứng dụng vào thực tiễn * Ứng dụng dự báo Mục đích cuối cùng của dự báo là nhằm phục vụ quá trình xây dựng chiến lược, kế hoạch sản xuất kinh doanh và phục vụ quá trình ra quy t định,... ngành và sử dụng các cách làm như gửi bảng câu hỏi để lấy ý kiến, phỏng vấn chuyên gia, v.v Để phân tích các quan hệ giữa các biến số, phương pháp thường được sử dụng là phân tích cấu trúc gồm ba bước cơ bản như sau: ˉ Thống kê các biến số; ˉ Lập ma trận phân tích cáu trúc và đồ thị độ phát động - mức phụ thuộc; ˉ Phát hiện các biến số then chốt * Thu thập dữ liệu phục vụ dự báo và đề xuất các giả thiết/giả . Hoàng Tuấn Ninh ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU SẢN XUẤT KINH DOANH CHO VNPT LUẬN. Hoàng Tuấn Ninh ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU SẢN XUẤT KINH DOANH CHO VNPT Ngành: Công nghệ