Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 100 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
100
Dung lượng
2,33 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Hoàng Tuấn Ninh ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU SẢN XUẤT KINH DOANH CHO VNPT LUẬN VĂN THẠC SĨ HÀ NỘI – 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ Hồng Tuấn Ninh ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU SẢN XUẤT KINH DOANH CHO VNPT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ NGƢỜI HƢỚNG DẪN KHOA HỌC TS.Đỗ Văn Thành HÀ NỘI - 2009 -i- MỤC LỤC MỤC LỤC i DANH SÁCH HÌNH VẼ iii DANH SÁCH BẢNG BIỂU iv BẢNG THUẬT NGỮ v MỞ ĐẦU vi CHƢƠNG KHẢO CỨU CÁC PHƢƠNG PHÁP DỰ BÁO VỀ HOẠT ĐỘNG SẢN XUẤT KINH DOANH DOANH NGHIỆP Tổng quan phƣơng pháp dự báo 1.3 Dự báo định lượng phương pháp hồi quy 13 1.3.1.Hồi quy tuyến tính hồi quy bội 13 1.1.2 Hồi quy phi tuyến tính 14 1.4 Dự báo số liệu phương pháp chuỗi thời gian 15 1.4.1 Khái niệm chuỗi thời gian 15 1.4.2 Phân tích, dự báo chuỗi thời gian 16 1.4 Dự báo phương pháp phân lớp liệu 18 1.4.1 Phương pháp phân lớp dữ liê ̣u 18 1.4.2 Độ xác phân lớp 18 CHƢƠNG DỰ BÁO ĐỊNH LƢỢNG BẰNG PHƢƠNG PHÁP MẠNG NƠRON NHÂN TẠO 21 2.1 Mạng nơron nhân tạo 21 1) Khái quát mạng nơron 21 2.2 Mơ hình mạng nơron nhân tạo 22 2.4 Thuật toán lan truyền ngược sai số 27 2.5 Thiết kế mạng nơron 29 1) Bước 1: Lựa chọn biến 30 2) Bước 2: Thu thập liệu 31 3) Bước 3: Tiền xử lý liệu 31 4) Bước 4: Xác định tập huấn luyện, tập kiểm tra đánh giá 34 5) Bước 5: Xác định mơ hình mạng nơron 35 6) Bước 6: Xác định hàm đánh giá sai số 40 7) Bước 7: Huấn luyện mạng nơron 40 8) Bước 8: Thực thi 45 CHƢƠNG DỰ BÁO KẾT QUẢ HOẠT ĐỘNG SXKD CHO VNPT BẰNG PHƢƠNG PHÁP MẠNG NƠRON NHÂN TẠO 47 - ii - 3.1 Xác định toán dự báo kết hoạt động sản xuất kinh doanh VNPT 47 3.2 Xác định hệ thống tiêu cần đƣợc phân tích, dự báo kết SXKD 47 3.2.1 Phân tích quy trình nghiệp vụ báo cáo số liệu VNPT 47 3.2.2 Xác định hệ thống tiêu cần phân tích dự báo 49 3.3 Giải pháp dự báo định lƣợng kết SXKD VNPT 55 3.3.1 Mơ hình tổng thể hệ thống thơng tin phục vụ dự báo định lượng 55 3.3.2 Giới thiệu tập số liệu vấn đề tiền xử lý số liệu 58 3.3.3 Phương pháp mạng nơrontrong dự báo số liệu SXKD VNPT 59 3.3.4 Phần mềm công cụ hỗ trợ dự báo 60 3.4 Ứng dụng mạng Nơron để dự báo số liệu SXKD cho VNPT 69 3.4.1 Xác định biến dự báo 69 3.4.2 Thu thập liệu 69 3.4.3 Tiền xử lý liệu 69 3.4.4 Trích chọn liệu – Xây dựng tập huấn luyện 71 3.4.5 Xác định mơ hình mạng nơron 73 3.4.6 Xác định hàm đánh giá sai số 76 3.4.7 Huấn luyện mạng nơ ron 76 3.4.8 Dự báo số liệu 78 3.5 Kết thử nghiệm 79 a Thử nghiệm với số liệu điện thoại cố định 80 b Thử nghiệm với liệu mạng Internet 83 c Thử nghiệm với liệu mạng di động 84 3.6 Thiết kế Phần mềm dự báo số liệu SXKD cho VNPT 85 3.6.1 Sơ đồ phân rã chức 85 3.6.2 Biểu đồ ngữ cảnh 85 3.6.3 Sơ đồ phân rã chức 86 3.6.4 Sơ đồ quan hệ 87 3.6.5 Thiết kế liệu logic 88 3.6.6 Thiết kế chức xem số liệu 92 3.6.7 Thiết kế chức xây dựng mơ hình 93 3.6.8 Thiết kế chức dự báo số liệu 93 3.6.9 Thiết kế chức Cập nhật tập huấn luyện 94 KẾT LUẬN 95 TÀI LIỆU THAM KHẢO 97 - iii - DANH SÁCH HÌNH VẼ Hình Các phương pháp dự báo hoạt động SXKD doanh nghiệp 13 Hình Đánh giá độ xác phân lớp phương pháp holdout 19 Hình Mơ hình phi tuyến nơron 23 Hình Kết biến đổi afine ngưỡng 24 Hình Hai mơ hình phi tuyến nơron 25 Hình Chuyển đổi logarit số liệu buôn bán lúa gạo theo tháng 33 Hình Phương pháp kiểm tra cửa sổ trượt 35 Hình Hai phương pháp chia tỉ lệ thơng dụng tập liệu S&P500 39 Hình Đồ thị lỗi trình huấn luyện kiểm tra mạng nơron 42 Hình 10 Giản đồ biểu diễn mặt phẳng lỗi mạng nơron 44 Hình 11 Mơ hình Hệ thống dự báo số liệu 55 Hình 12 Mơ hình Trích chọn liệu 56 Hình 13 Mơ hình Làm sạch, chuẩn hóa liệu 57 Hình 14 Xây dựng mơ hình liệu 57 Hình 15 Mơ hình Dự báo giá trị 58 Hình 16 Màn hình chương trình YALE 61 Hình 17 Mơ hình xử lý toán tử Yale 66 Hình 18 Màn hình chương trình WEKA 67 Hình 19 Cấu trúc kho liệu SXKD VNPT 70 Hình 20 Biểu đồ ngữ cảnh Hệ thống Dự báo số liệu 86 Hình 21 Sơ đồ quan hệ liệu Hệ thống Dự báo số liệu 87 Hình 22 Biểu đồ luồng liệu cho chức xem số liệu 92 Hình 23 Biểu đồ luồng liệu cho chức xây dựng mơ hình 93 Hình 24 Biểu đồ luồng liệu cho chức dự báo số liệu 93 Hình 25 Biểu đồ luồng liệu cho chức Cập nhật tập huấn luyện 94 - iv - DANH SÁCH BẢNG BIỂU Bảng So sánh YALE WEKA 68 Bảng Kết dự báo tiêu m420 tháng từ số liệu tháng 80 Bảng Kết dự báo tiêu m420 tháng 10 từ số liệu tháng 80 Bảng Kết dự báo tiêu m420 tháng từ số liệu tháng 80 Bảng Kết dự báo tiêu m410 tháng từ số liệu tháng 80 Bảng Kết dự báo tiêu m410 tháng từ tháng 81 Bảng Kết dự báo tiêu m410 tháng 10 từ tháng 81 Bảng Kết dự báo tiêu m425 tháng từ tháng 81 Bảng Kết dự báo tiêu m425 tháng từ tháng 81 Bảng 10 Kết dự báo tiêu m425 tháng 10 từ tháng 82 Bảng 11 Kết dự báo tiêu m425 tháng 11 từ tháng 82 Bảng 12 Kết dự báo tiêu m425 tháng 12 từ tháng 82 Bảng 13 Độ xác trung bình theo chu kỳ 83 Bảng 14 Độ xác trung bình theo tiêu 83 -v- BẢNG THUẬT NGỮ Từ viết tắt ARIMA Tiếng Anh AutoRegressive Integrated Moving Average Tiếng Việt Tích hợp trung bình trượt tự hồi qui Cơ sở liệu CSDL DM Data mart Kho liệu chủ đề DW Data warehouse Kho liệu KDD Knowlegde Discovery in Databases Khám phá tri thức CSDL Khai phá liệu KPDL MLP Multilayer Perceptron Mạng nơron đa lớp SARIMA Seasonal AutoRegressive Integrated Moving Average Tích hợp trung bình trượt tự hồi qui theo mùa vụ VNPT Vietnam Posts and Telecomunications Coporation Tập đồn Bưu Viễn thơng Việt Nam - vi - MỞ ĐẦU Trong kinh tế tri thức, ưu cạnh tranh thuộc doanh nghiệp nắm bắt đầy đủ, kịp thời khai thác có hiệu thơng tin Các doanh nghiệp thành công giới không ngừng đầu tư cho công cụ quản lý tri thức nhiều cấp độ khác nhau, mức thấp cơng cụ báo cáo, phân tích tình hình tài chính… dựa vào thơng tin từ phần mềm kế tốn mức độ cao ứng dụng cơng nghệ Khai phá liệu nhằm khai thác kho liệu giúp nhà quản lý phân tích giá thành, thị trường khách hàng,… Công nghệ Khai phá liệu triển khai nhanh chóng dựa tảng phần cứng phần mềm sẵn có đáp ứng yêu cầu khai thác thông tin doanh nghiệp, nâng cao hiệu sử dụng thông tin từ nguồn tài ngun sẵn có mang lại lợi ích to lớn cho doanh nghiệp Tại Việt Nam, có nhiều tổ chức, doanh nghiệp nước nhận thức tầm quan trọng lợi ích cơng nghệ Khai phá liệu Một số tổ chức, doanh nghiệp xây dựng kho liệu lưu trữ tồn thơng tin tổ chức, doanh nghiệp như: Kho liệu Kho bạc nhà nước, Kho liệu Ngân sách nhà nước Bộ Tài chính, Kho liệu Ngân hàng Nhà nước… Tuy nhiên, việc khai thác liệu từ kho tài nguyên đồ sộ chưa đạt hiệu mong muốn chưa phát triển cơng cụ phù hợp, chưa trích chọn phân tích liệu xác đáng Để đạt thông tin mong muốn từ nguồn liệu lớn địi hỏi phải có đổi mặt kỹ thuật Là doanh nghiệp đầu việc đẩy mạnh khai thác sử dụng thông tin hỗ trợ hoạt động quản lý điều hành sản xuất kinh doanh, Tập đồn Bưu Viễn thơng Việt Nam (VNPT) có số phần mềm ứng dụng hỗ trợ quản lý điều hành sản xuất kinh doanh như: Hệ thống Báo cáo nhanh, Hệ thống báo cáo tài chính, Hệ thống quản lý tài sản, Hệ thống quản lý dự án Internet trường học… Sự đời “Hệ thống phần mềm báo cáo số liệu thông tin phục vụ quản lý, điều hành sản xuất kinh doanh Cơ quan Tập đoàn” (Hệ thống VRS) giúp đáp ứng nhu cầu báo cáo thông tin cách thống nhất, hệ thống, xác cập nhật, thay hiệu cho phương thức báo cáo, tổng hợp số liệu giấy tờ Đồng thời Hệ thống VRS đưa vào sử dụng cung cấp khối lượng thông tin lớn khó xử lý phương pháp thủ cơng có, từ đặt nhu cầu hệ thống phần mềm hỗ trợ xử lý hiệu thông tin - vii - Đề tài “Áp dụng kỹ thuật phân lớp liệu, hồi quy để dự báo số liệu SXKD cho VNPT” phát triển nhằm mục đích hỗ trợ phân tích, tổng hợp xử lý kho liệu, thơng tin cách tự động, xác tích hợp với ứng dụng hỗ trợ quản lý sản xuất kinh doanh hoạt động khác Kết nghiên cứu đề tài hỗ trợ tích cực cho cơng tác xử lý số liệu dự báo tình hình SXKD Tập đồn, đồng thời góp phần đẩy mạnh cơng tác ứng dụng cơng nghệ thông tin vào hoạt động quản lý điều hành sản xuất kinh doanh Cơ quan Tập đoàn Hà Nội 10-2009 Người thực đề tài -8- CHƢƠNG KHẢO CỨU CÁC PHƢƠNG PHÁP DỰ BÁO VỀ HOẠT ĐỘNG SẢN XUẤT KINH DOANH DOANH NGHIỆP Tổng quan phƣơng pháp dự báo Trong những năm gầ n , sự phát triể n ma ̣nh mẽ của CNTT và ngành công nghiê ̣p phầ n cứng đã làm cho khả thu thâ ̣p và lưu trữ thông tin của các ̣ thố ng thông tin tăng lên cách nhanh chóng Bên ca ̣nh đó viê ̣c tin ho ̣c hoá mô ̣t cách mạnh mẽ hoạt động sản xuất , kinh doanh cũng nhiề u liñ h vực hoạt động khác tạo lượng liệu lưu trữ khổng lồ Hàng triệu CSDL đã đươ ̣c sử du ̣ng các hoa ̣t đô ̣ng sản xuấ t , kinh doanh, quản lí , đó có nhiề u CSDL cực lớn cỡ Gigabyte , thâ ̣m chí là Terabyte Sự bùng nổ này đã dẫn tới mô ̣t yêu cầ u cấ p thiế t là cầ n có nhữn g ki ̃ thuâ ̣t và công cu ̣ mới để tự đô ̣ng chuyể n đổ i lươ ̣ng dữ liê ̣u khổ ng lồ thành các tri thức có ić h Từ đó , kĩ thuâ ̣t Khai phá dữ liê ̣u đã đời và trở thành mô ̣t liñ h vực thời sự của nề n CNTT thế giới hiê ̣n 1.1 Tổng quan dự báo * Dự báo gì? Dự báo nhận định tương lai Những nhận định có tảng vững thiếu tảng sở thuyết phục; chúng xác khơng xác trường hợp cá biệt tính trung bình; chúng chi tiết khơng chi tiết; chúng dựa mơ hình mang tính thơng tin Các dự báo đưa phương pháp với hệ hàng trăm phương trình ước lượng kinh tế lượng kiểm định chặt chẽ phương pháp gần khơng có sở để quan sát Do vậy, dự báo chủ đề rộng Trong lịch sử, hầu hết phương pháp mà người nghĩ hoạt động “tiên đốn” tương lai mang lại điều thử nghiệm * Có thể dự báo gì? Bởi dự báo đơn giản nhận định tương lai nên dự báo điều gì, dự báo lạm phát số giá tiêu dùng tháng tới, dự báo thời tiết ngày mai, mực nước biển tính trung bình dâng cao thêm sau 20 năm dân số trái đất vào ngày hơm hay giá trị số VN index thời điểm đầu năm 2010 Chúng ta không khẳng định kết dự báo thiết hữu ích * Mức độ tin cậy dự báo nào? - 84 - 11 12 13 14 15 16 17 18 NINH BINH QUANG TRI DA NANG VUNG TAU LONG AN TRA VINH CAN THO KIEN GIANG 554,763 113,429 3,728,179 4,579,414 1,339,210 2,366,711 2,312,776 984,872 296,709 111,890 3,570,627 4,206,617 1,257,809 2,584,598 2,497,010 781,674 46.52 1.36 4.23 8.14 6.08 9.21 7.97 20.63 c Thử nghiệm với liệu mạng di động - Mục tiêu dự báo doanh thu tháng 10/2005 từ số liệu tháng 9/2005 - Tập liệu dùng để huấn luyện mơ hình sử dụng tiêu sau: Stt Mã số 602 604 606 608 Tên Điện thoại di động nội vùng Điện thoại di động cận vùng Điện thoại di động quốc tế Điện thoại di động cách vùng - Kết dự báo sau: STT Tên tỉnh Số liệu gốc BAC CAN 508,039,169 BAC GIANG 1,086,907,436 BAC NINH 1,705,863,787 BINH PHUOC 1,099,713,765 CAO BANG 580,236,192 HA GIANG 966,031,510 HAI DUONG 1,711,405,674 HOA BINH 1,125,970,653 LAI CHAU 528,864,221 10 LAM DONG 1,705,469,174 11 LAO CAI 1,810,695,973 12 NINH BINH 1,614,052,078 13 NINH THUAN 1,504,169,432 14 PHU YEN 1,302,080,907 15 QUANG BINH 934,335,220 16 QUANG TRI 1,681,432,846 17 SON LA 1,055,662,325 18 TRA VINH 1,544,938,241 19 VINH LONG 986,814,753 20 YEN BAI 903,100,663 KQ dự báo 510,695,509 1,125,339,897 1,463,726,093 1,161,228,984 494,989,286 1,014,016,656 1,417,889,774 930,931,549 444,178,039 1,815,195,236 1,823,770,800 1,413,569,994 1,858,152,940 1,270,779,574 948,417,461 1,713,333,591 869,255,073 1,639,290,025 1,041,746,985 891,574,021 Sai số (%) 0.52 3.54 14.19 5.59 14.69 4.97 17.15 17.32 16.01 6.43 0.72 12.42 23.53 2.40 1.51 1.90 17.66 6.11 5.57 1.28 - Đánh giá chung: Các lần thử nghiệm cho kết tốt, thể qua kết dự báo sai lệch khoảng 10% so với kết thực tế tùy theo điều kiện dự báo Mặt khác độ xác chương trình ước lượng sai số thực tế chênh lệch không nhiều (không 10%), điều cho - 85 - thấy độ tin tưởng chương trình chấp nhận dựa vào số liệu này, chuyên viên sử dụng kinh nghiệm để đưa kết dự báo xác Bên cạnh đó, chương trình cơng cụ tốt giúp chuyên viên xử lý lượng liệu lớn cần dự báo số liệu SXKD, hỗ trợ cho việc dự báo hàng loạt nhiều tiêu, nhiều đơn vị, tiết kiệm thời gian, công sức cho chuyên viên việc dự báo số liệu phục vụ cơng tác điều hành SXKD Tập đồn 3.6 Thiết kế Phần mềm dự báo số liệu SXKD cho VNPT 3.6.1 Sơ đồ phân rã chức Hệ thống xây dựng bao gồm chức sau: - Xem số liệu: giúp người sử dụng xem số liệu dạng trực quan hóa, xem siêu liệu tập liệu Chức gồm chức sau: - Xây dựng mơ hình: Xây dựng mơ hình dự báo chu kỳ sau: xây dựng mơ hình dự báo số liệu chu kỳ Chức gồm chức sau: Xây dựng mơ hình dự báo nhiều chu kỳ liên tiếp: xây dựng mơ hình dự báo số liệu cho nhiều chu kỳ liên tiếp Chức gồm chức sau: - Dự báo số liệu mới: Dự báo số liệu chu kỳ sau: dự báo số liệu chu kỳ Chức gồm chức sau: Dự báo số liệu nhiều chu kỳ liên tiếp: dự báo số liệu cho nhiều chu kỳ liên tiếp Chức gồm chức sau: - Cập nhật tập huấn luyện: giúp người sử dụng cập nhật liệu cho tập huấn luyện nhằm giúp mơ hình dự báo xác Chức gồm chức sau: - Cấu hình hệ thống: thiết đặt cấu hình tham số cho hệ thống 3.6.2 Biểu đồ ngữ cảnh Tác nhân tham gia hệ thống có đối tượng Người dùng mà cụ thể chuyên viên phân tích, tổng hợp số liệu Người dùng cung cấp số liệu - 86 - SXKD cho hệ thống, đưa yêu cầu dự báo, yêu cầu xây dựng mơ hình nhận kết dự báo trả lại từ chương trình u cầu dự đốn Số liệu SXKD Đánh giá mơ hình Người dùng Kết dự đoán Hệ thống Khai phá liệu Thiết lập cấu hình u cầu xây dựng mơ hình u cầu xem số liệu Số liệu Hình 20 Biểu đồ ngữ cảnh Hệ thống Dự báo số liệu 3.6.3 Sơ đồ phân rã chức Hệ thống KPDL Xem Số liệu Dự đốn số liệu Xây dựng mơ hình Cập nhật tập huấn luyện Cấu hình hệ thống Xem số liệu mạng Internet Dự đoán số liệu mạng Internet Xây dựng mơ hình mạng Internet Cập nhật tập huấn luyện mạng Internet Xem số liệu mạng cố định Dự đoán số liệu mạng cố định Xây dựng mơ hình mạng cố định Cập nhật tập huấn luyện mạng cố định Xem số liệu mạng di động Dự đoán số liệu mạng di động Xây dựng mơ hình mạng di động Cập nhật tập huấn luyện mạng di động Xem số liệu mạng hội tụ Dự đoán số liệu mạng hội tụ Xây dựng mơ hình mạng hội tụ Cập nhật tập huấn luyện mạng hội tụ - 87 - 3.6.4 Sơ đồ quan hệ Chi tieu Ket qua Giai Thuat PK PK KetquaID FK1 FK3 GiaTri NgayTao ThamSoID MohinhID GiaiThuatID TenGiaiThuat MoTa PK ChitieuID FK1 TenChitieu MaChitieu NhiemvuID Chu ky PK ChuykyID TenChuky MoTa Mo hinh Tham So PK ThamSoID FK1 TenThamSo GiaTri MoTa MohinhID Du lieu Internet PK ID FK1 TinhID m5831 m5832 m5833 m5834 m5835 m5836 Thang Nam PK MohinhID FK1 FK2 FK3 FK4 FK5 TenMohinh LienKet MoTa NgayTao Thang Nam NhiemvuID ChuykyID TinhID GiaiThuatID ChitieuID Tinh PK Nhiem vu PK Hình 21 FK1 tentacdong nhanto hanhdong mucdo ID NhiemvuID Du lieu Mang hoi tu Du lieu mang Di dong Du lieu mang co dinh PK ID PK ID PK ID FK1 TinhID FK2 TinhID m601 m602 m603 m604 m605 m606 m607 m608 Thang Nam FK2 TinhID m410 m420 m421 m422 m423 m425 Thang Nam PK Tacdongid FK1 tentacdong nhanto hanhdong mucdo ID Tac dong Internet Tacdongid TenTinh TenViettat TenNhiemvu MoTa Tac dong mang hoi tu PK TinhID Tac dong Di dong Tac dong Co dinh PK Tacdongid PK Tacdongid FK1 tentacdong nhanto hanhdong mucdo ID FK1 tentacdong nhanto hanhdong mucdo ID Sơ đồ quan hệ liệu Hệ thống Dự báo số liệu - 88 - 3.6.5 Thiết kế liệu logic Bảng NHIEMVU: lưu thông tin nhiệm vụ hệ thống Tên trƣờng Kiểu liệu Giá trị khởi tạo NhiemvuID Int(2) TenNhiemvu Varchar(255) MoTa Varchar(255) Bảng CHUKY: lưu thông tin loại chu kỳ hệ thống dự báo Tên trƣờng Kiểu liệu Giá trị khởi tạo ChukyID Int(2) TenChuky Varchar(100) MoTa Varchar(255) Bảng GIAITHUAT: lưu thông tin giải thuật hệ thống sử dụng để dự báo số liệu Tên trƣờng Kiểu liệu Giá trị khởi tạo GiaithuatID Int(2) TenGiaithuat Varchar(255) MoTa Varchar(255) Bảng THAMSO: lưu thông tin tham số giải thuật tham số mơ hình xây dựng Tên trƣờng Kiểu liệu Giá trị khởi tạo ThamsoID Int(5) TenThamso Varchar(255) Giatri Varchar(100) MoTa Varchar(255) MohinhID Int(5) Bảng KETQUA: lưu kết số liệu mà hệ thống dự báo Tên trƣờng Kiểu liệu Giá trị khởi tạo KetquaID Int(7) Giatri Varchar(100) NgayTao Datetime - 89 - ChitieuID MohinhID Int(7) Int(7) Bảng CHITIEU: lưu thông tin tiêu sử dụng để xây dựng mơ hình Tên trƣờng Kiểu liệu Giá trị khởi tạo ChitieuID Int(7) TenChitieu Varchar(100) MaChitieu Varchar(10) NhiemvuID Int(2) Bảng TINH: lưu danh sách tỉnh Tên trƣờng Kiểu liệu TinhID Int(2) TenTinh Varchar(100) TenViettat Char(3) Giá trị khởi tạo Bảng MOHINH: lưu thơng tin mơ hình hệ thống xây dựng nên để dự báo số liệu Tên trƣờng Kiểu liệu Giá trị khởi tạo MohinhID Int(5) TenMohinh Varchar(255) Lienket Varchar(255) MoTa Varchar(255) NgayTao Datetime ChitieuID Int(7) NhiemvuID Int(2) ChukyID Int(2) GiaithuatID Int(2) TinhID Int(2) Thang Int(2) Nam Int(4) Bảng INTERNET: lưu số liệu SXKD tiêu Internet Tên trƣờng Kiểu liệu Giá trị khởi tạo - 90 - ID TinhID m5831 m5832 m5833 m5834 m5835 m5836 Thang Nam Int(7) Int(2) Int(10) Int(10) Int(10) Int(10) Int(10) Int(10) Int(2) Int(4) Bảng DIDONG: lưu số liệu SXKD tiêu điện thoại di động Tên trƣờng Kiểu liệu Giá trị khởi tạo ID Int(7) TinhID Int(2) m601 Int(10) m602 Int(10) m603 Int(10) m604 Int(10) m605 Int(10) m606 Int(10) m607 Int(10) m608 Int(10) Thang Int(2) Nam Int(4) Bảng CODINH: lưu số liệu SXKD tiêu điện thoại cố định Tên trƣờng Kiểu liệu Giá trị khởi tạo ID Int(7) TinhID Int(2) m410 Int(10) m420 Int(10) m421 Int(10) m422 Int(10) m423 Int(10) - 91 - m425 Thang Nam Int(10) Int(2) Int(4) Bảng TACDONG_CODINH: lưu số liệu tác động môi trường tới tiêu điện thoại cố định Tên trƣờng Kiểu liệu Giá trị khởi tạo tadongid Int(7) tentacdong Varchar(200) nhanto Int(2) hanhdong Int(3) mucdo Int(3) codinhid Int(7) Bảng TACDONG_HOITU: lưu số liệu tác động môi trường tới tiêu mạng hội tụ Tên trƣờng Kiểu liệu Giá trị khởi tạo tadongid Int(7) tentacdong Varchar(200) nhanto Int(2) hanhdong Int(3) mucdo Int(3) hoituid Int(7) Bảng TACDONG_INTERNET: lưu số liệu tác động môi trường tới tiêu mạng Internet Tên trƣờng Kiểu liệu Giá trị khởi tạo tadongid Int(7) tentacdong Varchar(200) nhanto Int(2) hanhdong Int(3) mucdo Int(3) internetid Int(7) - 92 - Bảng TACDONG_DIDONG: lưu số liệu tác động môi trường tới tiêu điện thoại di động Tên trƣờng Kiểu liệu Giá trị khởi tạo tadongid Int(7) tentacdong Varchar(200) nhanto Int(2) hanhdong Int(3) mucdo Int(3) didongid Int(7) 3.6.6 Thiết kế chức xem số liệu Internet Số liệu Yêu cầu xem Người dùng Xem liệu Dữ liệu Số liệu Cố định Hình 22 Số liệu Hội tụ Số liệu Di động Biểu đồ luồng liệu cho chức xem số liệu - 93 - 3.6.7 Thiết kế chức xây dựng mơ hình Chỉ tiêu Chu kỳ Chỉ tiêu Chọn tiêu Chỉ tiêu 2.1 Chọn tiêu Mơ hình Mơ hình Chu kfy Người dùng Chọn chu kỳ Chọn đơn vị 2.2 Chọn chu kỳ Chu kỳ 2.4 Chọn đơn vị 2.3 Huấn luyện Đơn vị Tham số Tham số tỉnh Tỉnh Hình 23 Biểu đồ luồng liệu cho chức xây dựng mơ hình 3.6.8 Thiết kế chức dự báo số liệu Tỉnh Chu kỳ Tỉnh 3.1 Chọn tỉnh Chọn tỉnh Chọn chu kỳ Người dùng 3.2 Chọn chu kỳ Tỉnh Chu kỳ Số liệu Kết dự đoan Chọn tiêu 3.3 Chọn tiêu Kết Chu kỳ 3.4 Dự đoán Cập nhật kết Chỉ tiêu Mơ hình Cập nhật tham số Chỉ tiêu Chỉ tiêu Hình 24 Tham số Mơ hình Biểu đồ luồng liệu cho chức dự báo số liệu - 94 - 3.6.9 Thiết kế chức Cập nhật tập huấn luyện Internet Cập nhật số liệu Người dùng Dữ liệu Xem liệu Cập nhật số liệu Cập nhật số liệu Cập nhật số liệu Internet Hình 25 Internet Di động Biểu đồ luồng liệu cho chức Cập nhật tập huấn luyện KẾT LUẬN CHƢƠNG Trong chương 3, luận văn phát biểu toán “Dự báo kết hoạt động SXKD VNPT”, thiết kế mạng nơron nhân tạo để giải toán theo bước: phân tích hoạt động SXKD VNPT để lựa chọn liệu đầu vào, tiền xử lý liệu, Xác định tập huấn luyện, tập kiểm thử, Xác định mơ hình mạng nơ ron, Huấn luyện mạng nơron Dự báo số liệu Sau đó, thơng qua công cụ khai phá liệu YALE, người thực đề tài ứng dụng mạng nơron nhân tạo để dự báo kết hoạt động SXKD cho VNPT với tiêu điện thoại di động, điện thoại cố định mạng Internet Quá trình thử nghiệm với số liệu thực tế VNPT cho kết tốt với độ xác dự báo trung bình khoảng 10% - 95 - KẾT LUẬN Trong kinh tế tri thức nay, thơng tin có vai trị định, nhiên thơng tin có giá trị thông tin thô mà thơng tin qua phân tích, tổng hợp Do đó, nghiên cứu xử lý thông tin ngày thể rõ tầm quan trọng ngày doanh nghiệp khắp giới quan tâm, đầu tư phát triển Tại Việt Nam, nhu cầu phân tích, xử lý thơng tin đặc biệt khai phá, dự báo số liệu xuất từ lâu việc đáp ứng nhu cầu hạn chế, có số doanh nghiệp lớn Nhà nước đầu tư cho lĩnh vực Trong thực tiễn tiến trình hội nhập kinh tế quốc tế nước ta thời gian qua cho thấy để hoạt động sản xuất kinh doanh doanh nghiệp đạt hiệu quả, để doanh nghiệp cạnh tranh thành công thị trường điều quan trọng doanh nghiệp phải dự báo khả sản xuất kinh doanh sản phẩm Bởi nhu cầu đẩy mạnh hoạt động khai phá dự báo liệu doanh nghiệp ngày trở lên cần thiết cấp bách Trong bối cảnh vấn đề nghiên cứu ứng dụng luận văn hướng đắn có ý nghĩa thực tiến Luận văn trình bầy cách tổng quan dự báo, chức dự báo phương pháp dự báo định lượng chủ yếu ứng dụng doanh nghiệp Luận văn tập trung trình bầy cách tóm tắt số nội dung chủ yếu mạng nơron, trình bầy phương pháp phân lớp dự báo liệu mạng nơron Trên sở phân tích nhu cầu dự báo định lượng Tập đoàn VNPT, luận văn đề xuất toán thực dự báo số tiêu điện thoại cố định, điện thoại di động mạng Internet phương pháp mạng noron dựa công cụ khai phá liệu YALE tập số liệu thực tế Tập đoàn VNPT Kết dự báo khả quan Kết dự báo có độ xác cao so với thực tiễn kỳ dự báo gần; kỳ dự báo xa hơn, độ xác bị giảm xuống khơng nhiều khơng có khác biệt lớn với dự báo nhiều kỳ thời gian Kết dự báo cho cho thấy phương pháp dự báo số liệu mạng nơron nhân tạo có số điểm ưu việt như: - 96 - - Mô hình có khả tự điều chỉnh tham số để thích nghi với biến động liệu q trình sử dụng - Độ xác kết dự báo phụ thuộc vào liệu đầu vào, biến động thực tế thể số liệu Đề tài luận văn tiếp tục nghiên cứu phát triển theo hướng sau: - Hồn chỉnh mơ hình dự báo, xây dựng hoàn thiện phần mềm dự báo số liệu SXKD cho VNPT nhằm tạo thuận tiện, dễ dàng cho người dùng sử dụng hệ thống - Mở rộng ứng dụng phương pháp dự báo luận văn sang số lĩnh vực kinh tế - xã hội khác dự báo tiêu kinh tế - xã hội chủ yếu, dự báo giá số chứng khoán, - 97 - TÀI LIỆU THAM KHẢO A - Sách tham khảo Tiếng Việt [1] Tạ Mạnh Cường (2006), Dự báo chuỗi liệu phụ thuộc thời gian theo mùa vụ mơ hình Holt-Winters, Luận văn Ths, ĐH Công nghệ ĐHQGHN [2] Nguyễn Khắc Minh (2002), Các phương pháp phân tích dự báo kinh tế NXB Khoa học kỹ thu, ật Hà Nội, [3] Trần Văn Thái (2005), Phát tri thức theo mùa từ sở liệu chuỗi thời gian, Luận văn Ths, ĐH Công nghệ - ĐHQGHN [4] Đỗ Văn Thành (2007), Giải pháp dự báo ngắn hạn tăng trưởng kinh tế Việt Nam Tiếng Anh [5] C.C.Klimasauskas (1993), Applying neural network, in R.R Trippi and E Turban, eds., Neural Network in Finance and Investing: Using Artificial Intelligence to Improve Real World Performance, Chicago [6] Christopher M Bishop (1995), Neural Networks for Pattern Recognition Clarendon Press, Oxford [7] Danielle Graupe (2007), Principles of Artificial Neural Networks World Scientific [8] David Hand, Heikki Mannila, Padhraic Smyth (2001) Principles of Data Mining The MIT Press [9] G.J.Deboeck, Ed (1994), Trading on the Edge: Neural, Genetic and Fuzzy Systems for Chaotic Financial Markets Wiley, NewYork [10] Icebeling Kaastra, Milton Boyd (1995), Designing a neural network for forcasting finacial and economic time series [11] J.O.Katz (April 1992), Developing neural network forcasters for trading, Technical Analysis of Stocks and Commodities - 98 - [12] Jiawei Han and Michelle Kamber (2001), Data Mining: Concepts and Techniques Morgan Kaufmann [13] Joseph P.Bigus (1996), Data Mining Process with Neural Networks McGraw-Hill [14] Peter Cabena, Pablo Hadjinian, Rolf Stadler, Jaap Verhees, Alessandro Zanasi (1998), Discovering Data Mining, From Concept to Implementation Prentice Hall Ptr [15] T Masters (1993), Pratical Neural Networks Recipes in C++, Academic Press, NewYork B - Địa web [16] Tài liệu phần mềm http://www.cs.waikato.ac.nz/~ml/weka/ nguồn mở Weka: [17] Tài liệu phần mềm nguồn mở Yale: http://www-ai.cs.unidortmund.de/SOFTWARE/YALE/index.html [18] www.forecast.umkc.edu ... sử dụng để dự báo nhãn lớp cho mẫu liệu khác tương lai Các kỹ thuật phân lớp liệu chủ yếu để dự báo số liệu gồm có: phân lớp theo phương pháp Bayes, phân lớp theo định, phân lớp theo phương pháp... NGHỆ Hoàng Tuấn Ninh ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU SẢN XUẤT KINH DOANH CHO VNPT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN... thay xây dựng phân lớp, xây dựng k phân lớp từ tập liệu ban đầu, với mẫu cần phân lớp, phân lớp có kết dự báo nhãn dự báo nhiều phân lớp gán cho mẫu Kỹ thuật boosting tương tự kỹ thuật bagging