Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 42 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
42
Dung lượng
3,79 MB
Nội dung
1 TRƯỜNG……………………… KHOA…………………… LUẬN VĂN TỐT NGHIỆP Ứng dụng DataMining cho phát triển thuê bao điện thọai cố định LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG I :ĐẶT VẤN ĐỀ Đặt vấn đề Trong xu tồn cầu hóa tự hóa thương mại, kinh tế giới khu vực tiếp tục biến đổi nhanh chóng sâu sắc nhiều mặt Cách mạng khoa học, cơng nghệ nói chung cơng nghệ thơng tin nói riêng tiếp tục phát triển nhanh; đấu tranh dân tộc, đấu tranh giai cấp toàn giới nước ta diễn phức tạp, đặt yêu cầu ngành kinh tế nước ta phải nắm bắt công nghệ đại, chủ động hội nhập, thực cơng nghiệp hóa, đại hóa theo định hướng xã hội chủ nghĩa Đối với nghành Bưu Viễn thơng, xu hội nhập, cạnh tranh, sức ép giảm giá cước viễn thơng, địi hỏi xã hội việc nâng cao chất lượng dịch vụ bưu viễn thơng ngày cao Ở số lĩnh vực, số dịch vụ, việc cạnh tranh trở nên gay gắt Ngành công nghiệp viễn thông lưu trữ khối lượng liệu khổng lồ, bao gồm chi tiết gọi, thông tin cảnh báo tình trạng hệ thống mạng viễn thơng thơng tin liệu khách hàng Khả ứng dụng kỹ thuật khai phá liệu (Data Mining) để phát quy luật ẩn chứa khối liệu khổng lồ, giúp đưa định đắn mang lại cho doanh nghiệp viễn thông hội để phát triển dựa hoạch định xác mang tính lịch sử thực tiễn cao Đây hướng phù hợp sớm áp dụng phổ biến nhiều công ty viễn thông lớn giới Chính lý Ứng dụng DataMining cho phát triển thuê bao điện thọai cố định giúp phát triển thuê bao đặc biệt Hà Nội Mục tiêu nghiên cứu khoa học Mục tiêu đề tài sử dụng công cụ SQL 2005 ứng dụng DataMining cho việc phát triển thuê bao điện thoại cố định Hà Nội, bao gồm vấn đề sau: Nắm bắt khái quát lý thuyết DataMining Công cụ sử dụng SQL 2005 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đưa báo cáo, kết toán phát triển thuê bao điện thoại cố định giúp cho việc đưa định nhằm giúp ích cho việc đưa chiến lược phát triển thuê bao Hà Nội CHƯƠNG II: PHƯƠNG PHÁP NGHIÊN CỨU Để thực Đề tài, em sử dụng số phương pháp nghiên cứu sau: Nghiên cứu lý thuyết Kho liệu Khai phá liệu Tìm hiểu cơng cụ SQL 2005 với khả hỗ trợ Kho liệu Khai phá liệu Tìm hiểu tốn Phát triển th bao Ứng dụng toán Phát triển thuê bao để cài đặt Kho liệu SQL 2005 CHƯƠNG III: KẾT QUẢ NGHIÊN CỨU Nắm lý thuyết kho liệu(DataWareHouse-DW) lý thuyết khai phá liệu(DataMining) 1.1 Kho liệu: Có thể nói gọn nghành tin học ba từ lưu trữ, xử lý khác thác thông tin Về mặt lưu trữ, hệ quản trị sở liệu thực tốt Tuy nhiên, lượng thông tin cần lưu trữ khai thác trở nên khổng lồ đặc biệt nghành ngân hàng, tài chính…đã làm nảy sinh khái niệm DataWarehouse hay kho liệu Kho liệu tuyển tập sở liệu tích hợp, hướng chủ đề, thiết kế để hỗ trợ cho chức trợ giúp định, mà đơn vị liệu liên quan tới khỏang thời gian cụ thể Nói cách khác, kho liệu tập hợp sở liệu lớn tới hàng trăm GB hay chí hàng Terabyte liệu từ nhiều phân hệ hệ thống, lưu trữ phân tích phục vụ cho việc cung cấp dịch vụ thông tin liên quan tới nghiệp vụ hệ thống Mục tiêu kho liệu giải vấn đề sau: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 1.1.1 Tích hợp liệu siêu liệu từ nguồn khác 1.1.2 Nâng cao chất lượng liệu phương pháp làm tinh lọc liệu theo hướng chủ đề định 1.1.3 Tổng hợp kết nối liệu 1.1.4 Đồng hóa nguồn liệu với DW 1.1.5 Phân định đồng hệ quản trị sở liệu tác nghiệp công cụ chuẩn để phục vụ cho DW 1.1.6 Quản lý siêu liệu 1.1.7 Cung cấp thơng tin tích hợp, tóm tắt liên kết, tổ chức theo chủ đề 1.1.8 Dùng hệ thống hỗ trợ đinh 1.2 Khai phá liệu: Khai phá liệu (Data mining - DM) khái niệm đời vào năm cuối thập kỷ 80 Nó bao hàm loạt kỹ thuật nhằm phát thông tin có giá trị tiềm ẩn tập liệu lớn (các kho liệu) Về chất, khai phá liệu liên quan đến việc phân tích liệu sử dụng kỹ thuật để tìm mẫu hình có tính quy (regularities) tập liệu Quá trình khai phá liệu tiến hành qua giai đoạn hình 1.1 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Envalution of Data Mining Transformati Cleansing Pre- Knowledge Pattern Selection Transforme Gathering Target Internet, Discovery Cleansed Preprocessed Preparated Data Data Hình 1.1 Quá trình khai phá liệu giai đoạn Bắt đầu q trình kho liệu thơ kết thúc tri thức chiết xuất Đây q trình phức tạp khó khăn như: quản lý tập liệu, phải lặp lặp lại tồn q trình,.v.v Gom liệu (Gathering) Tập hợp liệu bước trình khai phá liệu Là bước khai thác sở liệu, kho liệu liệu từ nguồn ứng dụng Web Trích lọc liệu (Selection) Dữ liệu lựa chọn phân chia theo số tiêu chuẩn, ví dụ chọn tất người có tuổi đời từ 25 – 35 có trình độ đại học Làm sạch, tiền xử lý chuẩn bị liệu (Cleansing, Pre-processing and Preparation) Là bước quan trọng trình khai phá liệu “làm - tiền xử lý - chuẩn bị trước” LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Một số lỗi thường mắc phải tính phi logíc liệu chứa giá trị vơ nghĩa gây lỗi liệu Ví dụ: tuổi = 673 Đây giai đoạn tiến hành xử lý dạng liệu không chặt chẽ, phi logic, loại bỏ liệu dư thừa khơng có giá trị Chuyển đổi liệu (Transformation) Bước chuyển đổi liệu: liệu sử dụng điều khiển việc tổ chức lại giúp chuyển đổi phù hợp với mục đích khai thác Phát trích mẫu liệu (Pattern Extraction and Discovery) Là bước mang tính tư khai phá liệu Giai đoạn sử dụng nhiều thuật tốn khác để trích mẫu liệu Thuật toán thường dùng nguyên tắc phân loại, ngun tắc kết hợp mơ hình liệu tuần tự, v.v Đánh giá kết mẫu (Evaluation of Result) Là giai đoạn cuối trình khai phá liệu Các mẫu liệu chiết xuất phần mềm khai phá liệu Khơng phải mẫu liệu hữu ích, đơi cịn bị sai lệch Vì vậy, cần ưu tiên tiêu chuẩn đánh giá để chiết xuất tri thức (Knowlege) cần thiết Tìm hiểu cơng cụ SQL 2005 2.1 SQL Manager Studio Quản lý CSDL: cho phép quản lý dự án cách tốt từ việc tạo đến bảo trì CSDL Các chức tương tự với SQL Manager 2000, SQL Manager Studio 2005 hỗ trợ việc quản lý dự án SQL Analysis, SQL Integrate, SQL Report Quản lý hoạt động Chạy dự án 2.2 SQL Intergrate Công cụ cho phép người quản trị tích hợp liệu từ nhiều nguồn liệu khác nhau: Text(có cấu trúc), Excel, Access, SQL, Oracle LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Cơ chế cho phép chuyển đổi hầu hết liệu có dạng cấu trúc vào CSDL SQL 2005 Với khả linh hoạt cho phép lựa chọn liệu cần thiết, ngồi cịn cho phép thơng báo liệu không hợp lệ theo ý người dùng.(Cơ chế báo lỗi ngồi ý muốn) Hỗ trợ khả tích hợp cách linh hoạt, sử dụng Query để phụ giúp cho q trình tích hợp liệu, bổ sung liệu mà có liên quan tới liệu có CSDL(dữ liệu có tính tham chiếu) 2.3 SQL Analysis Là cơng cụ cho phép người quản trị phân tích kho liệu theo nhiều cách để giúp cho việc đưa báo cáo mang tính chiến lược, liệu khác - Cho phép thiết kế, tạo, quản lý khối Làm việc với Data-Mining nhằm khai thác liệu SQL Analysis bao gồm: Data Sources, Data Source Views, Cubes, Dimensions, Mining Structures, Roles, Assemblies, and Miscellaneous a Data Source SQL cho phép làm việc với nhiều Datasource dự án Mỗi Datasource sử dụng connect khác Data Source View b Khối – Cube Project bao gồm nhiều Cube khác Cube bao gồm độ đo chiều Xây dựng Cube sử dụng theo mơ hình star schema snowflake schema c Measures, Attributes and Hierarchies (kỹ thuật UDM) - Measures: thơng tin cần phân tích - Attributes: thơng tin chiều cần phân tích theo hướng khác - Hiearchies: khả Tổng quát hóa Chi tiết hóa DataMining Hỗ trợ khả sử dụng SQL để tạo liệu Tổng quát d Mining Structures LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục đích tạo định hướng cho nguồn liệu giúp tìm quy luật liệu, tách liệu mức cao Hỗ trợ thuật toán DataMining giúp cho việc phân tích liệu như: Microsoft Decition trees, Microsoft Clustering, Microsoft Linear Regression, Microsoft Logistic Regression, Microsoft Naive Bayes, Microsoft Neural Network, Microsoft Sequence Clustering, Microsoft Time Series e Roles, Assemblies, and Miscellaneous 2.4 SQL Report Giúp ích cho việc đưa báo cáo dạng văn trình duyệt giúp cho người quản lý, lãnh đạo xem để đưa định Báo cáo đưa nhiều dạng khác nhau: HTML, Web(server), Doc, Excel, Pdf, Image Hoặc đưa liệu lên Server để Server trực tiếp Connect tới DataWarehouse Report SQL đưa báo cáo từ liệu có trực tiếp CSDL Ngồi bao gồm liệu khác liệu từ việc Phân tích Khối, liệu từ phân tích DataMining Report hỗ trợ việc định dạng báo cáo: liệu định dạng tùy theo ý muốn: liệu dạng số, ngày đặc biệt hỗ trợ nhiều dạng biểu đồ mang tính trực quan cho người xem báo cáo Basic Report: Tạo báo cáo đơn giản sử dụng Query thông thường SQL để đưa thông tin Group Report: Tạo nhóm báo cáo giúp cho việc định dạng khn dạng nhóm để đưa liêu lên Server Trong bao gồm việc tạo Mẫu báo cáo Tìm hiểu tốn Phát triển th bao LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bài toán Phát triển thuê bao điện thoại Hà Nội gắn liền với việc ngày có nhiều khách hàng làm Hợp đồng, đăng kí sử dụng dịch vụ Bưu điện Cơ sở liệu bao gồm có 19 bảng : DICHVU_VT, DOITUONG, DONVI, QUANHUYEN, DUONGPHO, MAPHO, PHUONGXA, HD_KHACHHANG, HD_THANHTOAN, HD_THUEBAO, KIEU_LD, KIEU_TT, LOAI_HD, LOAI_KH, LOAI_NV, LOAIHINH_TB, NGANHANG, NHANVIEN, PHI_HOPDONG Ứng dụng toán Phát triển thuê bao sử dụng SQL 2005 4.1 Lược đồ quan hệ kho liệu 4.2 Sơ đồ tích hợp liệu từ File Excel vào Kho liệu 4.2.1 Tích hợp từ File Excel vào Bộ đệm Tích hợp liệu từ nguồn Excel vào bảng QUANHUYEN LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 10 Tạo kết nối tới nguồn exel Chuyển đổi kiểu liệu cho kiểu Chèn liệu vào đệm Tích hợp liệu từ nguồn Excel vào bảng PHUONGXA Tạo kết nối tới nguồn Exel Chuyển đổi liệu cho kiểu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 28 Tạo kết nối tới nguồn đệm Chuyển đổi kiểu liệu cho Chèn liệu vào kho Tích hợp liệu từ đệm vào bảng DICHVU_VIENTHONG Tạo kết nối tới nguồn đệm Chuyển đổi kiểu liệu cho kiểu Chèn liệu vào kho Tích hợp liệu từ đệm vào bảng DONVI Tạo kết nối tới ngùôn đệm Chuyển đổi kiểu liệu cho kiểu Chèn liệu vào kho LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 29 Tích hợp liệu từ đệm vào bảng LOAIHINH_TB Tạo kết nối tới nguồn đệm Chuyển đổi kiểu liệu cho kiểu Chèn liệu vào kho LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 30 Tích hợp liệu từ đệm vào bảng PHI_HD Tạo kết nối tới nguồn đệm Chuyển đổi kiểu liệu cho kiểu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 31 Chèn liệu vào kho Tích hợp liệu từ đệm vào bảng KIEU_LD Tạo kết nối tới nguồn đệm Chuyển đổi liệu cho kiểu Chèn liệu vào kho Tích hợp liệu từ đệm vào bảng KIEU_TT LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 32 Tạo kết nối tới nguồn đệm Chuyển đổi liệu cho kiểu Chèn liệu vào kho Tích hợp liệu từ đệm vào bảng LOAI_HD Tạo kết nối tới nguồn đệm Chuyển đổi kiểu liệu cho kiểu Chèn liệu vào kho LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 33 Tích hợp liệu từ đệm vào bảng DOITUONG Tạo kết nối tới nguồn đệm Chuyển đổi kiểu liệu cho kiểu Chèn liệu vào kho LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 34 Tích hợp liệu từ đệm vào bảng NGANHANG Tạo kết nối tới nguồn đệm Chuyển đổi kiểu liệu cho kiểu Chèn liệu vào kho Tích hợp liệu từ đệm vào bảng LOAI_NHANVIEN LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 35 Tạo kết nối tới nguồn đệm Chuyển đổi kiểu liệu cho kiểu Chèn liệu vào kho Tích hợp liệu từ đệm vào bảng NHANVIEN Tạo kết nối tới nguồn đệm Chuyển đổi kiểu liệu cho kiểu Chèn liệu vào kho LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 36 Tích hợp liệu từ đệm vào bảng LOAI_KH Tạo kết nối tới nguồn đệm Chuyển đổi kiểu liệu co kiểu Chèn liệu vào kho LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 37 Tích hợp liệu từ đệm vào bảng HOPDONG_TB Tạo kết nối tới nguồn đệm Chuyển đổi kiểu liệu cho kiểu Kiểm tra ràng buộc qua công thức bảng TIME Kiểm tra ràng buộc thời gian Cập Nhật Kiểm tra ràng buộc thời gian Thanh Toán Chèn liệu vào kho Tích hợp liệu từ đệm vào bảng HOPDONG_KH LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 38 Tạo kết nối tới nguồn đệm Chuyển đổi kiểu liệu cho kiểu Kiểm tra ràng buộc thời gian qua công thức bảng TIME Kiểm tra ràng buộc thời gian Ngày_CN Kiểm tra ràng buộc thời gian Ngày_Lap_HD Chèn liệu vào kho Tích hợp liệu từ đệm vào bảng HOPDONG_TT LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 39 Tạo kết nối tới nguồn đệm Chuyển đổi kiểu liệu cho kiểu Kiểm tra ràng buộc thời gian bảng TIME Kiểm tra ràng buộc thời gian Chèn liệu vào kho 4.3 Các kết đưa đạt dự kiến Kết đưa tăng trưởng phát triển thuê bao thời gian định từ khoảng thời gian tới khỏang thời gian xác định Mật độ máy điện thoại/100 dân LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 40 Mức tăng doanh thu Tập quận, huyện thường gọi điện cho Để từ hoặch định chiến lược tiếp thị xây dựng vùng cước phù hợp Dự đốn khách hàng có ý định rời bỏ mạng thay đổi nhà cung cấp dịch vụ, vấn đề nghiêm trọng ảnh hưởng đến phát triển thuê bao Để từ có cách phù hợp để lơi kéo khách hàng Phân lớp khách hàng dựa liệu khách hàng toán cước CHƯƠNG I :ĐẶT VẤN ĐỀ .1 Đặt vấn đề 2 Mục tiêu nghiên cứu khoa học CHƯƠNG II: PHƯƠNG PHÁP NGHIÊN CỨU Nghiên cứu lý thuyết Kho liệu Khai phá liệu Tìm hiểu cơng cụ SQL 2005 với khả hỗ trợ Kho liệu Khai phá liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 41 Tìm hiểu tốn Phát triển thuê bao Ứng dụng toán Phát triển thuê bao để cài đặt Kho liệu SQL 2005 CHƯƠNG III: KẾT QUẢ NGHIÊN CỨU Nắm lý thuyết kho liệu(DataWareHouse-DW) lý thuyết khai phá liệu(DataMining) 1.1 Kho liệu: 1.1.1 Tích hợp liệu siêu liệu từ nguồn khác .4 1.1.2 Nâng cao chất lượng liệu phương pháp làm tinh lọc liệu theo hướng chủ đề định 1.1.3 Tổng hợp kết nối liệu 1.1.4 Đồng hóa nguồn liệu với DW 1.1.5 Phân định đồng hệ quản trị sở liệu tác nghiệp công cụ chuẩn để phục vụ cho DW 1.1.6 Quản lý siêu liệu .4 1.1.7 Cung cấp thơng tin tích hợp, tóm tắt liên kết, tổ chức theo chủ đề 1.1.8 1.2 Dùng hệ thống hỗ trợ đinh Khai phá liệu: Tìm hiểu cơng cụ SQL 2005 2.1 SQL Manager Studio .6 2.2 SQL Intergrate .6 2.3 SQL Analysis a Data Source b Khối – Cube c Measures, Attributes and Hierarchies (kỹ thuật UDM) d Mining Structures e Roles, Assemblies, and Miscellaneous 2.4 SQL Report Tìm hiểu tốn Phát triển thuê bao Ứng dụng toán Phát triển thuê bao sử dụng SQL 2005 4.1 Lược đồ quan hệ kho liệu .9 4.2 Sơ đồ tích hợp liệu từ File Excel vào Kho liệu .9 4.2.1 Tích hợp từ File Excel vào Bộ đệm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.2.2 4.3 42 Tích hợp từ đệm vào Kho liệu 25 Các kết đưa đạt dự kiến 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... Chính lý Ứng dụng DataMining cho phát triển thuê bao điện thọai cố định giúp phát triển thuê bao đặc biệt Hà Nội Mục tiêu nghiên cứu khoa học Mục tiêu đề tài sử dụng công cụ SQL 2005 ứng dụng DataMining. .. toán phát triển thuê bao điện thoại cố định giúp cho việc đưa định nhằm giúp ích cho việc đưa chiến lược phát triển thuê bao Hà Nội CHƯƠNG II: PHƯƠNG PHÁP NGHIÊN CỨU Để thực Đề tài, em sử dụng. .. cụ SQL 2005 ứng dụng DataMining cho việc phát triển thuê bao điện thoại cố định Hà Nội, bao gồm vấn đề sau: Nắm bắt khái quát lý thuyết DataMining Công cụ sử dụng SQL 2005 LUAN VAN CHAT LUONG