Tên đề tài luận văn Ứng dụng khai phá dữ liệu trong viễn thông ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LƯỜNG HỒNG GIANG ỨNG DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU ĐỂ PHÂN TÍCH DỮ LIỆU VIỄN THÔ[.]
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LƯỜNG HỒNG GIANG ỨNG DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU ĐỂ PHÂN TÍCH DỮ LIỆU VIỄN THƠNG NHẰM TĂNG CƯỜNG CHẤT LƯỢNG DỊCH VỤ KHÁCH HÀNG LUẬN VĂN THẠC SĨ Hà Nội - 2012 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ o0o -LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân tôi, không chép lại người khác Trong toàn nội dung luận văn, LƯỜNG HỒNG GIANG điều trình bày cá nhân tôi tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp ỨNG DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU Tơi xin chịu tồn trách nhiệm chịu hình thức kỷ luật theo quy định ĐỂ PHÂN TÍCH DỮ LIỆU VIỄN THƠNG NHẰM TĂNG cho lờiCƯỜNG cam đoan CHẤT LƯỢNG DỊCH VỤ KHÁCH HÀNG Ngành : Công nghệ Thông tin Chuyên ngành : Hệ thống thông tin Mã số : 60 48 05 Hà Nội, tháng 10 năm 2012 LUẬN VĂN THẠCLường SĨ Hồng Giang NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM Hà Nội - 2012 LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành tới PGS.TS Nguyễn Hà Nam, Đại học Công Nghê, Đại học Quốc Gia Hà Nội - dành nhiều thời gian q báu để tận tình hướng dẫn, bảo định hướng cho suốt thời gian hồn thành luận văn Tơi xin bày tỏ lịng biết ơn tới thầy giáo Khoa Công nghệ thông tin Trường Đại học Công nghệ - ĐHQGHN truyền đạt cho kiến thức, kinh nghiệm quý báu suốt thời gian học tập trường Tôi xin chân thành cảm ơn bạn bè gia đình tơi, người thân u ln ln bên khuyến khích, động viên ủng hộ tơi học tập sống Do thời gian có hạn nên luận văn khơng thể tránh khỏi thiếu sót Rất mong nhận đóng góp ý kiến thầy cô giáo, bạn bè, quý vị quan tâm tới vấn đề để luận văn hoàn thiện Trân trọng cảm ơn! Hà Nội, tháng 10 năm 2012 Lường Hồng Giang MỤC LỤC Chương Tổng quan khai phá liệu .7 1.1 Khai phá liệu 1.2 Các phương pháp khai phá liệu 1.3 Các kỹ thuật tiếp cận khai phá liệu 1.4 Các cách giải có 1.5 Hướng tiếp cận luận văn Chương Các kiến thức để giải toán 2.1 Dữ liệu – time series 2.2 Các phương pháp sử dụng – AR Chương Phương pháp luận luận văn Chương Thực nghiệm 4.1 Mô tả liệu 4.2 Thử nghiệm với phương pháp truyền thống 4.3 Chạy phương pháp đề nghị 4.4 So sánh phương pháp Kết luận Tài liệu tham khảo .10 DANH MỤC CÁC CHỮ VIẾT TẮT CSDL CNTT AI CDR KPDL KDD DSS Cơ sở liệu Công nghệ thông tin Artificial Intelligence (Trí tuệ nhân tạo) Call Detail Records Khai phá liệu Knowledge Discovery in Databases (Phát tri thức sở liệu) Decision Suport System (Hệ trợ giúp định) MỞ ĐẦU Ngành công nghiệp viễn thông lưu trữ khối lượng liệu khổng lồ, bao gồm chi tiết gọi, thông tin cảnh báo trình trạng hệ thống mạng viễn thơng thông tin liệu khách hàng ứng dụng kỹ thuật khai phá liệu (data mining) để phát quy luật ẩn chứa khối liệu khổng lồ mang lại cho doanh nghiệp viễn thông nhiều hội để phát triển ứng dụng mang tính thực tiễn cao Đây hướng phù hợp sớm áp dụng phổ biến nhiều công ty viễn thông lớn giới Với phát triển mạnh mẽ khoa học công nghệ với lớn mạnh thị trường viễn thơng Việt Nam, đến có 08 doanh nghiệp cấp phép hoạt động dịch vụ điện thoại di động Tính đến hết tháng 8/2012, tổng số thuê bao điện thoại di động Việt Nam lên đến 140 triệu thuê bao, đạt mật độ 160 máy/100 dân Với tỷ lệ điện thoại cao gấp 1,6 lần dân số, thị trường viễn thông di động Việt Nam xem bước vào giai đoạn bão hoà Tốc độ tăng trưởng thuê bao dự báo rơi từ mức 4050%/năm xuống 5-15%/năm 4-5 năm tới Ở Việt Nam, nhu cầu dịch vụ viễn thông ngày gia tăng mở rộng với nhiều dịch vụ tiện ích, bao gồm internet băng rộng, trở thành truy cập phổ cập, thay nhu cầu viễn thơng cố định Chính vậy, nhu cầu đặt cho nhà cung cấp dịch vụ viễn thông đối mặt với áp lực cạnh tranh khốc liệt từ nhà cung cấp dịch vụ nước đến tập đồn viễn thơng đa quốc gia Đối với ngành viễn thông, thị phần khách hàng hai yếu tố quan trọng, định thành cơng doanh nghiệp Chính việc nắm nhu cầu sở thích khách hàng xu hướng biến động thị trường lợi to lớn cho doanh nghiệp cạnh tranh mở rộng thị trường Ngày nay, cơng ty viễn thơng khơng ngừng nâng cao, cải tiến dịch vụ tìm kiếm dich vụ để đáp ứng nhu cầu ngày lớn khách hàng Đòi hỏi nhà mạng cần phải có định hướng, chiến lược kinh doanh hợp lý để đứng vững môi trường viễn thông Việt Nam Khai phá liệu kỹ thuật hữu ích để giải vấn đề Vấn đề đặt ra: Bài toán đặt cho nhà mạng di động thu thập tri thức từ kho liệu khách hàng khổng lồ Phân loại liệu cước di động phương pháp giúp cho nhà mạng di động phân loại nhóm đối tượng khách hàng khác nhau, từ đưa chiến lược kinh doanh phù hợp với đối tượng khách hàng Luận văn “ứng dụng số kỹ thuật khai phá liệu để phân tích liệu viễn thơng nhằm tăng cường chất lượng dịch vụ khách hàng” Đề tài nghiên cứu dựa luật kết hợp (một những kỹ thuật quan trọng khai phá liệu - data mining) Nội dung luận văn chia thành ba chương sau: Chương 1: Giới thiệu khai phá mẫu phổ biến, luật kết hợp Chương 2: Xác định toán ứng dụng phát luật kết hợp viễn thông Chương 3: Xây dựng ứng dụng thử nghiệm thuật tốn tìm tập phổ biến luật kết hợp: Phân tích sở liệu, trình bày cách cài đặt chương trình khai thác luật kết hợp việc sử dụng dịch vụ giá trị gia tăng khách hàng Dựa vào kết mà người quản lý doanh nghiệp viễn thông nắm bắt nhóm dịch vụ có liên quan tới nhau, phục vụ cho mục đích quản lý lựa chọn dịch vụ thời điểm phát hành loại dịch vụ cho nhóm khách hàng khác Cuối cùng, phần kết luận trình bày số kết đạt luận văn hướng nghiên cứu tương lai Chương Tổng quan khai phá liệu 1.1 Khai phá liệu - Loại liệu: liệu cước viễn thơng - u cầu tốn: o Phân loại khách hàng để phục vụ tốt o Tối ưu hệ thống o Xây dựng chiến lược phát triển hệ thống o Tìm khách hàng tiềm 1.2 Các phương pháp khai phá liệu 1.3 Các kỹ thuật tiếp cận khai phá liệu 1.4 Các cách giải có 1.5 Hướng tiếp cận luận văn Chương Các kiến thức để giải toán 2.1 Dữ liệu – time series 2.2 Các phương pháp sử dụng – AR Trong giao dịch mua bán, nhận thấy chủng loại mặt hàng lớn số lượng giao dịch có chứa đồng thời số mặt hàng xác định chiếm tỉ lệ đáng quan tâm Trên thực tế khơng biết người mua ai, vấn đề đặt trùng lặp có ngẫu nhiên hay có qui luật hay khơng? Đó tiền đề cho đời luật kết hợp Chương Phương pháp luận luận văn - Vẽ mô hình thực thi Chương Thực nghiệm 4.1 Mơ tả liệu 4.2 Thử nghiệm với phương pháp truyền thống 4.3 Chạy phương pháp đề nghị 4.4 So sánh phương pháp Kết luận Việc ứng dụng phát luật kết hợp quan tâm đặc biệt để nghiên 10 Tài liệu tham khảo Tiếng Việt: Đỗ Văn Thành; Phát luật kết hợp có độ hỗ trợ cực tiểu khơng giống nhau; Khoa học Công nghệ T42, N1, 2004, 79-90 Cù Thu Thủy – Đỗ Văn Thành, Phát luậ kết hợp với ràng buộc mục liệu âm Tiếng Anh: Agrawal R., Mannila H., Srikant R., Toivonen H.; Fast Discovery of Association Rules Advances in Knowledge discovery and DataMining, edited by U.M fayyad, G.Platstsky-Shapiro, P.Smyth, and Uthurusamy, AAAI Press/The MIT Press,1996, pp.306-328 Antonic M., Zaiane O R.; Mining Positive and Negative Rules: An Approach for Confined Rules, Proc Intl.Conf on Principles and Practice of Knowledge Discovery in Database, 2004, pp 27-38 Cai C.H.; Mining Association Rules with Weighted Items, Thesis, Chinese University of Hongkong, 8/1998 Cornelis C., Yan P., Kang X., Chen G.; Mining Positive and Negative Association Rules from Large Databases, 14244-023-6/06, 2006 IEEE Han J., and Fu Y.; Discovery of Multiple Level Association Rules from Large Databases; Proc of Inter Conference on very large databases; Zurich, Swizerland, pp 420-431, Sep 1995 Kryszkiewicz M., Cichon K.; Support Oriented Discovery of Generalized Disjunction-Free Representation of Frequent Patterns with Negation; PAKDD 2005, LNAI 3518, pp 672-682, 2005 Pasquier N., Bastide Y., Taouil R., and Lakhal L.; Efficient Mining of Association Rules Using Closed Itemset Latics Information Systems, Vol 24, No 1, pp 20-46, 1999 10 Wang W., Yang J., Yu P.S.; Efficient Mining of Weighted Association Rules, IBM Research Report RC 21692 (97734), March, 2000 11 ... mạng viễn thông thông tin liệu khách hàng ứng dụng kỹ thuật khai phá liệu (data mining) để phát quy luật ẩn chứa khối liệu khổng lồ mang lại cho doanh nghiệp viễn thông nhiều hội để phát triển ứng. .. Chương Tổng quan khai phá liệu .7 1.1 Khai phá liệu 1.2 Các phương pháp khai phá liệu 1.3 Các kỹ thuật tiếp cận khai phá liệu 1.4 Các cách giải có 1.5 Hướng tiếp cận luận văn Chương Các... phương pháp truyền thống 4.3 Chạy phương pháp đề nghị 4.4 So sánh phương pháp Kết luận Việc ứng dụng phát luật kết hợp quan tâm đặc biệt để nghiên 10 Tài liệu tham khảo Tiếng Việt: Đỗ Văn Thành; Phát