Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
28
Dung lượng
1,08 MB
Nội dung
Header Page of 166 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - LÊ MINH HẢI PHÂNLOẠIHÀNHVIKHÁCHHÀNGSỬDỤNGDỊCHVỤDIĐỘNGDỰATRÊNTHUẬTTOÁNK-MEANS LUẬN VĂN THẠC SỸ KỸ THUẬT HÀ NỘI - 2013 Footer Page of 166 Header Page of 166 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - LÊ MINH HẢI PHÂNLOẠIHÀNHVIKHÁCHHÀNGSỬDỤNGDỊCHVỤDIĐỘNGDỰATRÊNTHUẬTTOÁNK-MEANS Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI -2013 Footer Page of 166 Header Page of 166 Luận văn hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: TS NGUYỄN MẠNH HÙNG Phản biện 1: ………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thông Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thông Footer Page of 166 Header Page of 166 MỞ ĐẦU Lý chọn đề tài Đối với doanh nghiệp thông diđộngdiđộng việc phát triển thuê bao để kiếm tìm lợi nhuận vào thời điểm không đem lại hiệu Thay vào phương án kinh doanh tiến đến phát triển chất lượng dịchvụ cung cấp thêm nhiều dịchvụ giá trị gia tăng Tuy nhiên dịchvụ truyền thống thoại, nhắn tin đem lại nguồn lợi nhuận cao kích thích nhu cầu sửdụngkháchhàng Lưu lượng gọi theo 80 Tỷ lệ lưu lượng (%) 70 60 50 Nhóm B 40 Nhóm A 30 20 10 0 10 12 14 16 18 20 22 Thông thường cá nhân tùy vào vị trí xã hội, điều kiện kinh tế vùng mà có nhu cầu sửdụng thoại tin nhắn khác Tại vùng cụ thể, có thời điểm lực mạng khả phục vụ nhu cầu nên toàn tài nguyên hoạt động hiệu suất thấp Đây thời điểm nhà mạng cần tăng cường tận dụng Giả sử địa phương có 02 nhóm người có hànhvi tương tự thể biểu đồ trên, nhóm A thường thực gọi vào buổi sáng, nhóm B thường thực gọi vào chiều tối; ban đầu chưa xác định 02 nhóm Để phân tích hànhvisửdụngdịchvụ cần khai thác nguồn liệu tổng đài MSC Các liệu CDR ghi lại lịch sử gọi địa điểm cụ thể, nguồn liệu thích hợp nhiên khối lượng liệu lớn nên cần có kỹ thuậtphân tích Footer Page of 166 Header Page of 166 thích hợp Hiện kỹ thuật khai phá liệu đạt nhiều thành tựu hỗ trợ toánphân tích hànhvikháchhàngphân cụm dựa vào thuậttoánk-meansDựa vào thực trạng kết hợp với kỹ thuậtphân cụm khai phá liệu phát triển để đưa đề tài “Phân loạihànhvikháchhàngsửdụngdịchvụdiđộngdựathuậttoán k-means” Mục đích đề tài: đề tài hướng đến phânloạihànhvikhách hàng, tìm nhóm khác hàng phổ biến, hoạt động mạng diđộng Mobifone; tiến đến đề xuất tích hợp kết vào hệ thống báo cáo số liệu sản xuất kinh doanh cho Tập đoàn VNPT Đối tượng phạm vi nghiên cứu: Việc nghiên cứu tập trung vào lý thuyết phân cụm liệu theo thuậttoán k-means, áp dụng vào phân cụm hànhvisửdụngdịchvụ thoại nhắn tin kháchhàng VMS Mobifone Phương pháp nghiên cứu: Tìm hiểu tài liệu liên quan đến kỹ thuậtphân cụm, tập trung vào thuậttoánk-means Kết cấu luận văn Luận văn gồm chương Chương 1: Bài toánphân nhóm kháchhàngdựahànhvisửdụngdịchvụdịđộng Chương luận văn trình bày nhu cầu phân tích số liệu diđộng để đưa thông tin thói quen sửdụngdịchvụ viễn thông, dịchvụ truyền thống thoại nhắn tin, địa bàn Chương 2: Thuậttoánk-means Chương luận văn trình bày thuậttoánphân cụm k-means đánh giá khả áp dụngtoánphân cụm hànhvikháchhàngsửdụngdịchvụ viễn thông Chương 3: Áp dụngthuậttoánk-means vào phân cụm hànhvisửdụngdịchvụ thoại nhắn tin Chương luận văn trình bày bước xử lỷ liệu, xây dựng nguồn liệu đầu vào, thực phân cụm theo phương pháp k-means cuối đánh giá số thông tin rút từ kết sau phân cụm Footer Page of 166 Header Page of 166 CHƯƠNG BÀI TOÁNPHÂN NHÓM KHÁCHHÀNGDỰATRÊNHÀNHVISỬDỤNGDỊCHVỤDỊĐỘNG 1.1 Đặt vấn đề 1.1.1 Một số định nghĩa Định nghĩa tổng lượng sửdụng mạng khoảng thời gian ∑ (1) t khoảng thời gian xem xét Lt tổng lượng sửdụngdịchvụ (là giây với dịchvụ thoại, số lượng tin nhắn dịchvụ nhắn tin) n tổng số thuê bao vùng xem xét Cit tổng lượng sửdụngkháchhàng C i khoảng thời gian xem xét t ∑ (2) m số gọi kháchhàng i khoản thời gian t Di,j thời lượng gọi kháchhàng i gọi thứ j khoảng thời gian t Với dịchvụ tin nhắn giá trị = hay Cit = m Khung thời gian có Lt nhỏ khoảng thời gian cần kích thích để thuê bao sửdụngsửdụng nhiều Định nghĩa hành vi: Hànhvi nói chung khái niệm rộng Trong luận văn này, khái niệm hànhvidùng để hànhđộng thực dịchvụkháchhàngdựa vào vùng nơi thuê bao thực dịchvụ thời điểm thực dịchvụ 1.1.2 Nhu cầu phân tích hànhvisửdụngdịchvụdiđộng Hiện hệ thống báo cáo số liệu kinh doanh tập đoàn VNPT khai thác cung cấp liệu dạng tổng hợp Tuy nhiên câu hỏi tính chất liệu chưa khai thác Luận văn đề xuất việc phân tích liệu lịch sử gọi kháchhàng để tìm nhóm hànhvi Xem xét nhóm hànhvi tác động nhóm đối Footer Page of 166 Header Page of 166 với lực mạng địa bàn cụ thể; từ trợ giúp việc thiết kế gói khuyến mại để tận dụng lực mạng 1.1.3 Các khía cạnh phục vụphân tích hànhvi Thời điểm thực dịch vụ: thuộc tính hànhvisửdụngdịchvụkhách hàng, thời điểm kháchhàng bắt đầu sửdụngdịchvụ gọi điện nhắn tin Lượng sửdụngdịch vụ: khung thời gian chia theo thuộc tính thời điểm, tổng lượng thời gian đàm thoại số tin nhắn kháchhàng lượng sửdụngdịchvụkháchhàng khung thời gian Địa điểm phát sinh gọi: Một nhóm hànhvi đặc trưng lượng sửdụng thuê bao nhóm khung xem xét địa phương cụ thể Địa điểm phát sinh gọi vùng quản lý trạm phát sóng phục vụ cho kháchhàng Trong luận văn địa điểm phân tích cấp tỉnh/thành phố 1.2 Trình bày số giải pháp cho toán 1.2.1 Các giải pháp theo thống kê thông thường Phương pháp tổng hợp số liệu phổ biến sửdụng lệnh thống kê, sửdụng truy vấn liệu theo chuẩn SQL 2.0 Để tìm nhóm số lượng kháchhàng thuộc nhóm cần thực hai bước: Khảo sát thị trường tìm đặc trưng thời điểm gọi, lượng sửdụng điển hình Sửdụng giá trị đặc trưng nhóm, xây dựng lệnh thống kê Việc khảo sát thường đem lại kết xác không cao tốn nhiều thời gian Do hànhvisửdụngdịchvụ biến đổi liên tục phụ thuộc vào kiện kinh tế trị, việc phân tích nhóm cần thực nhiều lần thời điểm năm nhiều năm; điều khối lượng cần khảo sát chiếm nhiều chi phí Phương pháp thống kê truyền thống tỏ không thích hợp để giải toán 1.2.2 Giải pháp ứng dụng kỹ thuật khai phá liệu Khai phá liệu vấn đề nhận nhiều quan tâm Nhu cầu khai phá dự liệu nhu cầu sau doanh nghiệp tổ chức hệ thống sở liệu Footer Page of 166 Header Page of 166 Hình 1 Sự phát triển hệ thống sở liệu (dựa [2, tr.2]) Hệ quản trị sở liệu quan hệ xuất từ năm 1970 đến đầu 1980, đại diện tên tuổi lớn Oracle, DB2, MS SQL, MySQL Đến nay, hệ quản trị cở sở liệu quan hệ có nhiều cải tiến mạnh mẽ ứng dụng rộng rãi Các doanh nghiệp tích lũy số liệu kinh doanh qua thời gian dài nhờ sửdụng cở sở liệu, nhiên mẫu báo cáo kinh doanh thông thường chưa khai thác hết thông tin mà liệu cất giữ Chính kỹ thuật khai phá liệu nghiên cứu ứng dụng Các kiến thức tìm nhờ ưng dụng kỹ thuật khai phá liệu gồm: Nhận biết phân biệt lớp liệu: Nhận biết đặc tính liệu việc tìm tổng kết đặc điểm chung tính lớp liệu mục tiêu Phân biệt lớp liệu việc so sánh đặc tính liệu lớp liệu với lớp khác tập lớp khác biết Khai thác mẫu phổ biến: Mẫu phổ biến mẫu liệu hay xuất tập liệu xét Mẫu thường xuyên bao gồm kiểu tập phổ biến mẫu Footer Page of 166 Header Page of 166 Phânloại dự báo: trình việc tìm kiếm mô hình (hoặc chức năng) mô tả phân biệt lớp liệu khái niệm, sửdụng mô hình tìm để dự đoán lớp đối tượng mà chưa gán lớp Phân cụm liệu: Khác với phânloại dự báo liệu, phân cụm liệu phân tích liệu mà không tham khảo lớp liệu biết trước Với nguồn liệu biểu diễn tập đối tượng, phân cụm liệu nhóm đối tượng thành nhóm dựa tối đa hóa sai khác phần tử nhóm khác tối thiểu hóa sai khác phần tử nhóm Phân tích bất thường: Một sở liệu chứa đối tượng liệu mà không tuân thủ với hànhvi chung, mang đặc điểm liệu khác nhiều so với đại phận đối tượng lại Các đối tượng liệu coi liệu bất thường Đánh giá liệu theo thời gian: tìm mô hình mô tả xu hướng liệu thay đổi theo thời gian 1.2.3 Phân cụm liệu Quá trình nhóm tập hợp đối tượng vật lý hay trừu tượng thành lớp đối tượng tương tự gọi phân cụm Một cụm tập đối tượng liệu tương tự không giống đối tượng cụm khác Hình Hình ảnh phân cụm điểm mặt phẳng hai chiều [2, tr.64] Footer Page of 166 Header Page 10 of 166 Phân cụm liệu thực gom nhóm liệu theo hướng ngược lại Tập liệu gom thành nhóm dựa tương tự liệu, sau gán nhãn cho nhóm Số lượng nhóm cài đặt trước phân cụm liệu trở nên thích nghi với biến đổi liệu tốt phânloại liệu Vấn đề xác định độ tương đồng liệu: Khi liệu cần phân cụm có nhiều thuộc tính thuộc tính đa dạng nhiều kiểu Trong thực tế việc xem xét phân cụm liệu mang nhiều thuộc tính nhiều kiểu thuộc tính vần đề cần giải Ngoài nhiều thuậttoán xác định tương đồng đối tượng dựa khoảng cách Euclidean Manhattan cho phần tử tương đồng tạo thành cụm dạng cầu Tuy nhiên cụm có hình dạng cần phát triển thuậttoán tính độ tương đồng với hình dạng tuỳ ý Vấn đề xử lý nhiễu phân cụm liệu: Hầu hết sở liệu thực tế có chứa liệu cá biệt tích, không rõ, liệu sai Một số thuậttoánphân cụm nhạy cảm với liệu dẫn đến kết phân cụm có chất lượng Tập liệu gốc loại bỏ thành phần nhiễu trở thành đầu vào tốt cho giai đoại phân cụm liệu 1.3 Kết luận Trong chương 1, luận văn trình bày vấn đề sau: Nêu lên toánphân tích hànhvisửdụngdịchvụkhách hàng, để hỗ trợ việc xây dựng sách phát triển dịchvụ tận dụng tốt tài nguyên mạng lưới Nêu mặt khó khăn việc giải toándựa khảo sát thị trường Đề xuất sửdụng kỹ thuật khai phá liệu, cụ thể phương pháp phân cụm liệu, để phân tích nhóm hànhvi Chương luận văn trình bày kỹ thuậtphân cụm k-means, bên cạnh đánh giá khả áp dụngthuậttoán vào toánphân cụm hànhvi Footer Page 10 of 166 Header Page 14 of 166 12 Hình Mô tả thuậttoánk-means [2, tr.403] Trong thuậttoán phương pháp tính khoảng cách gần cho kháchhàngdựa vào công thức Euclidean, dựa [2,tr.389], sau: √ Trong Pk giá trị điểm trung tâm Do tham số để đánh giá khoảng cách có thứ nguyên bình đẳng sửdụng công thức Euclidean tham số Trong nhiều trường hợp tham số không thứ nguyên ,ví dụ thuộc tính “giới tính” “độ tuổi” người, nên cần thiết phải chuyển đổi đơn vị 2.3 Đánh giá thuậttoán 2.3.1 Đánh giá kết Với kết đầu dạng mô tả điểm trung tâm với thuộc tính có giá trị trung bình phần tử nhóm, thuậttoánđưa kết phù hợp với nhu cầu phân tích hànhvikháchhànghànhvi tương tự nhóm lại vùng Đánh giá liệu đầu thuậttoánk-meanstoánphân cụm hànhvisửdụngdịchvụkhách hàng, cụm hành xác định, việc phân tích sâu nhóm cần thiết 2.3.2 Đánh giá khả triển khai Thuậttoánk-means có độ phức tạp thuậttoán tính theo công thức sau [2,tr.403] Footer Page 14 of 166 Header Page 15 of 166 13 số phần tử tập phân cụm số cụm cần phân chia số lần tái lặp xác định phần tử cụm Thông thường nhỏ nhiều so với , phương pháp phân cụm dựa phương pháp phân cấp có độ phức tạp thuậttoán nhiên phương pháp không sửdụng với nhóm có hình dạng cầu không dùng công thức tính toán khoảng cách Các tiêu chí đánh giá xếp loạihànhvisửdụng ba tiêu chí ý nghĩa, cách tính khoảng cách áp dụngthuậttoánk-meansđưa nhóm hình cầu tỏ thích hợp Bên cạnh đó, việc phân cụm lặp lại hàng ngày; việc tái sửdụng kết phân cụm giụp giảm số lần tái lặp , từ giảm chi phí thực Thuậttoánk-means có nhược điểm có khả chống nhiễu kém; nhóm có lượng giá trị nhiễu giá trị chung bình nhóm bị thay đổi đáng kể từ dẫn đến kết nạp sai lầm vòng lặp xử lý sau Tuy nhiên áp dụng số phương pháp tiền xử lý liệu đầu vào để giảm ảnh hưởng nhiễu 2.4 Kết luận Trong chương 2, luận văn trình bày vấn đề : Giới thiệu thuậttoánk-means Cài đặt thuậttoánk-means Đánh giá sơ kết khả triển khai thuậttoánk-means vào công việc phân cụm hànhvisửdụngdịchvụ viễn thông Chương luận văn trình bày trình áp dụngthuậttoánk-means vào toánphân cụm hànhvisửdụngkháchhàng mạng diđộng VMS Mobifone Footer Page 15 of 166 Header Page 16 of 166 14 CHƯƠNG ÁP DỤNGTHUẬTTOÁNK-MEANS VÀO PHÂN CỤM HÀNHVISỬDỤNGDỊCHVỤ THOẠI VÀ NHẮN TIN Bài toánphân cụm hànhvi 3.1 Mục tiêu toán tìm nhóm thuê bao, nhóm chứa thuê bao có hànhvisửdụngdịchvụ thoại tin nhắn địa bàn Một hànhvi xác định tỷ lệ tương quan lượng sửdụngdịchvụ (thời gian đàm thoại số lượng tin nhắn) khung thời gian ngày Cụ thể khung thời gian chia thành: S tổng lượng sửdụng số máy (tính giây dịchvụ thoại, tính số lượng tin nhắn dịchvụ nhắn) tin tính từ 4h sáng đến 11h 59 phút C tổng lượng sửdụng số máy tính từ 12h đến 19h 59 phút T tổng lượng sửdụng số máy tính 20h đến 23h59 0h đến 4h sáng Gọi M giá trị lớn lượng sửdụng thuê bao khung thời gian Tỷ lệ tương quan lượng sửdụng ba khung xác định sau: ; giá trị tương quan lượng sửdụng buổi sáng với lượng sửdụng lớn ; giá trị tương quan lượng sửdụng buổi trưa với lượng sửdụng lớn ; giá trị tương quan lượng sửdụng buổi tối với lượng sửdụng lớn Bảng Tổng lưu lượng tỷ lệ lưu lượng thuê bao theo thời gian S (giây) 100 C (giây) 1000 T (giây) 50 PS 0.1 PC PT 0.05 Luận văn đề xuất số mẫu kết cần đạt sau: Tiêu chí : đánh giá nhu cầu sửdụngdịchvụkháchhàng theo khung thời gian Bảng Định dạng mẫu đánh giá nhu cầu sửdụngdịchvụkháchhàng theo thời gian Ngày /Tuần Địa /Tháng /Năm phương báo cáo (tỉnh/ thành phố) Footer Page 16 of 166 Tổng thời gian gọi buổi sáng buổi chiều Tổng tin nhắn gửi buổi tối buổi sáng buổi chiều buổi tối Header Page 17 of 166 15 Tiêu chí : đánh giá nhóm hànhvisửdụngdịchvụ thoại kháchhàng theo ngày địa phương Bảng 3 Định dạng mẫu đánh giá nhóm hànhvisửdụngdịchvụ thoại kháchhàng theo ngày địa phương Số thứ tự cụm Số lượng Thời gian gọi trung bình thuê bao Buổi Buổi Buổi tối sáng chiều Tổng thời gian gọi Buổi Buổi sáng chiều Buổi tối Tiêu chí : đánh giá nhóm hànhvisửdụngdịchvụ tin nhắn kháchhàng theo ngày địa phương Bảng Định dạng mẫu đánh giá nhóm hànhvisửdụngdịchvụ tin nhắn kháchhàng theo ngày địa phương Số thứ tự cụm Số lượng Số lượng tin nhắn gửi trung Tổng số tin nhắn gửi thuê bao bình Buổi sáng 3.2 Buổi chiều Buổi tối Buổi sáng Buổi chiều Buổi tối Khảo sát nguồn liệu lịch sử gọi 3.2.1 Khuôn dạng tin gọi, tin nhắn Nguồn liệu ban đầu ghi ghi hệ thống tổng đài chuyển mạch diđộng (MSC – mobile switching center) VMS Mobifone quy định chuẩn giản lược khai thác liệu lịch sử gọi theo chuẩn đo Cấu trúc liệu áp dụng cho tất loại tổng đài sử kiện gồm 43 trường Dựa vào chuẩn liệu VMS khai thác, luận văn xác định thuộc tính khai thác để phục vụtoán gồm: Thuộc tính “calling isdn” “called_isdn” : sửdụng làm khóa xác định thuê bao Thuộc tính ghi lại số điện thoại mà tổng đài phục vụ số máy theo nguyên tắc thuộc thuê bao Mobifone thuê bao sửdụngdịchvụ roaming qua mạng Mobifone Đối với ghi gọi calling_isdn chứa thuê bao thực quay số, ghi gọi đến calling_isdn mang số máy nhận gọi tin nhắn Thuộc Footer Page 17 of 166 Header Page 18 of 166 16 tính calling_isdn lại có giá trị để phân biệt kháchhàng calling_isdn làm mã xác nhận phần tử thuậttoánphân cụm k-means Thuộc tính “call type”: nhận biết loạidịchvụ Gồm giá trị : OG: gọi Số máy calling_isdn gọi cho số máy called_isdn; IC: gọi đến Số máy calling_isdn nhận gọi từ số called_isdn; SMO: tin nhắn Số máy calling_isdn nhắn tin cho số máy called_isdn; SMT: tin nhắn đến Số máy calling_isdn nhận tin nhắn called_isdn Để xác định hànhvikhách hàng, kiện chủ động quan tâm khai thác kiện gọi (OG) tin nhắn (SMO) Thuộc tính “call sta time” : nhận biết thời điểm gọi Thời điểm bắt đầu gọi hay thời điểm tin nhắn Định dạng liệu “DD/MM/YYYY HH:MI:SS” (Ngày/tháng/năm giờ/phút/giây) Thuộc tính “duration” : nhận biết lượng sửdụng kiện Đối với dịchvụ thoại thời lượng gọi số giây kháchhàng thực gọi Đối với dịchvụ tin nhắn thuộc tính giá trị, lúc đánh giá hànhvi nhắn tin tổng số tin nhắn mà kháchhàng gửi khung thời gian Thuộc tính “cell id” : nhận biết địa điểm gọi khởi tạo Mỗi lần tổng đài thực khởi tạo dịchvụ ghi lại tọa độ nơi kháchhàng bắt đầu sửdụngdịchvụ Tọa độ “cell id” mã trạm phát sóng diđộng quy hoạch theo mạng tổ ong Với cấp độ toán tại, luận văn khai thác thông tin đến địa bàn tỉnh, từ cung cấp nhìn tổng quát nhóm hànhvitoàn tỉnh Nguồn liệu xác định địa bàn dựa vào cell_id có dạng sau: Bảng Cấu trúc liệu quy hoạch trạm BTS Tên cột Dạng liệu Ghi CELL_ID String Lưu mã trạm phát sóng DISTRICT String Mã huyện nơi đặt trạm PROVINCE String Mã tỉnh/thành phố nơi đặt trạm REGION String Mã trung tâm, nơi quản lý trạm Footer Page 18 of 166 Header Page 19 of 166 17 3.2.2 Khối lượng liệu cần xử lý VMS Mobifone có hệ thống tổng đài MSC gồm 25 tổng đài Trung bình ngày cần xử lý 30000 file dung lượng trung bình 57GB Theo thống kê, có khoảng 10 triệu thuê mobifone thực 39 triệu gọi thực gửi 52 triệu tin nhắn tinh toàn mạng Quá trình tiền xử lý liệu cho đầu vào thuậttoánk-means cần phải tổng hợp lượng sửdụngdịchvụ từ 90 triệu ghi để tạo thành nguồn 10 triệu ghi ghi lưu số máy đặc trưng sửdụng số máy ngày 3.3 Tiền xử lý liệu đầu vào 3.3.1 Định dạng tập liệu phần tử đầu vào thuậttoánk-meansDựa vào cách mô tả hànhvisửdụngdịchvụkhách hàng, xác định định dạng đầu kiểu liệt kê phần tử (định dạng đầu vào thuậttoán k-means) sau: Bảng Cấu trúc liệu đầu thuậttoánk-means dạng liệt kê phần tử Số thứ tự Tên cột Ý nghĩa Phone Number Số điện thoại kháchhàng S Tổng số thời lượng sửdụng buổi sáng C Tổng số thời lượng sửdụng buổi chiều T Tổng số thời lượng sửdụng buổi tối Ps Tỷ lệ thời lượng sửdụng buổi sáng so với thời lượng lớn Pc Tỷ lệ thời lượng sửdụng buổi chiều so với thời lượng lớn Pt Tỷ lệ thời lượng sửdụng buổi tối so với thời lượng lớn Với liệu định dạng file đầu liệt kê điểm trung tâm có dạng: Footer Page 19 of 166 Header Page 20 of 166 18 Bảng Cấu trúc liệu đầu thuậttoánk-means dạng mô tả điểm trung tâm Số thứ tự Tên cột Round Count Cluster S C T PS PC PT Ý nghĩa Lần xử lý Số phần tử nhóm Chỉ số cụm Trung bình tổng số thời lượng sửdụng buổi sáng Trung bình tổng số thời lượng sửdụng buổi chiều Trung bình tổng số thời lượng sửdụng buổi tối Tỷ lệ thời lượng sửdụng buổi sáng so với thời lượng lớn Tỷ lệ thời lượng sửdụng buổi chiều so với thời lượng lớn Tỷ lệ thời lượng sửdụng buổi tối so với thời lượng lớn 3.3.2 Phương pháp xác định k điểm khởi tạo ban đầu Mỗi kháchhàng cần tổng hợp thành liệu mô tả tương quan lượng sửdụng buổi ngày tính theo tỷ lệ phần trăm so với cao điểm Tương quan sửdụngdịchvụ khung định thành ba mức : 0; 0.5 Các giá trị khung mang ba giá trị; nhiên có ràng buộc ba giá trị phải Như danh sách điểm k khởi tạo gồm Bảng Danh sách k điểm khởi tạo sau điều chỉnh Nhóm 10 11 12 13 14 15 16 17 18 Footer Page 20 of 166 PS 0 0 0.5 0.5 0.5 0.5 0.5 1 1 1 1 PC 0.5 1 0.5 1 0 0.5 0.5 0.5 1 PT 1 0.5 1 0.5 0.5 0.5 0.5 Header Page 21 of 166 19 3.3.3 Chuyển đổi liệu tổng đài theo định dạng đầu vào thuậttoán Quá trình tổng hợp duyệt ghi có thuộc tính “call_type” ứng với hànhvi thuê bao chủ động gọi nhắn tin Với ghi tìm thuộc tính “call_sta_time” xem xét để xác định khung thời gian kiện, đồng thời giá trị “duration” tính cộng tích lũy vào thuộc tính thể lượng sửdụng khung thời gian tương ứng Khi ghi duyệt hết, tập hànhvi xác định cho toán thuê bao, liệu ghi đĩa nhớ Quá trình tổng hợp mô tả sau: (1) Khởi tạo HashMap (2) Lặp danh sách thư mục tổng đài ngày (3) Lặp danh sách file tổng đài (4) Lặp dòng file (5) Kiểm tra thuộc tính “call type”, khác OG, SMO bỏ qua (6) Kiểm tra HashMap có chứa key có giá trị thuộc tính “calling_isdn”, chưa có khởi tạo đối tượng mô tả hànhvi thêm vào HashMap (7) Xác định khung thời gian (8) Cộng tích lũy giá trị “duration” vào thuộc tính mô tả lượng sửdụng khung thời gian xác định bước (7) Với “call type” SMO coi giá trị “duration” = (9) (10) Kết thúc lặp dòng Kết thúc lặp file (11)Kết thúc lặp thư mục (12)Ghi tập mô tả thuộc tính đĩa nhớ 3.3.4 Xử lý nguồn nhiễu số liệu hànhvi Trong hai dịch vụ, liệu thoại có nguồn nhiễu, gọi xuất phát từ nhu cầu thật cá nhân kháchhàng Với dịchvụ nhắn tin nguồn nhiễu xuất Dịchvụ nhắn tin mục đích trao đổi thông tin hai người dùng có thêm số trường hợp : nhắn tin dịchvụ (đăng ký nhạc chuông, ủng hộ quỹ xã hội, bình chọn trò chơi truyền hình v.v…); tin Footer Page 21 of 166 Header Page 22 of 166 20 nhắn quảng bá từ tổng đài; tin nhắn quảng bá từ tư nhân Vì trình tổng hợp liệu loại bỏ liệu Cụ thể lọc loại số dạng: Dạng 1800XXXX, 1900XXXX (X đại diện cho số từ đến 9) Độ dài số máy Quá trình lọc nhiễu áp dụng trước trình phân cụm, triển khai phần chuyển đổi định dạng theo mẫu định nghĩa, trình bày phần 3.3.1 3.3.3 3.4 Triển khai thuậttoánphân lớp k-means Luận văn sửdụng ngôn ngữ Java để triển khai thuậttoán Dưới phần thiết kế lớp chương trình phân cụm Chương trình gồm 03 lớp chính: Lớp NormalObject chứa thông tin hànhvisửdụngdịchvụkháchhàng Lớp phần lớp Cluster, phục vụ việc mô tả giá trị trung bình lượng sử dụng, tỷ lệ lượng sửdụng đối tượng cụm Lớp Cluster chứa thông tin cụm gồm : số lượng phần tử nhóm đặc tính hànhvi nhóm Lớp Program triển khai thuậttoánk-means 3.5 Tăng tốc độ xử lý phân cụm Nghiệp vụphân cụm hànhvisửdụngdịchvụ phải thực hàng ngày liệu lưu lượng ngày đó, khối lượng liệu cần xử lý lớn việc lựa chọn k điểm khởi tạo có ảnh hưởng nhiều đến thời gian xử lý Hànhvikháchhàng gần biến đổi so với ngày trước giá trị trung tâm cuối lần phân cụm ngày trước dùng điểm khởi tạo cho thuậttoán cho liệu hôm sau Các thời điểm sửdụng lại điểm khởi tạo mặc định: Ngày nghỉ lễ: thời gian thói quen sửdụngdịchvụ khác với ngày thường Ngày thứ 7: tương tự với nghỉ lễ ngày nghỉ cuối tuần Ngày sau kỳ nghỉ lễ: sau nghỉ lễ thói quen sửdụngdịchvụ trở lại bình thường Ngày thứ 2: thói quen sửdụngdịchvụ trở lại bình thường sau hai ngày nghỉ Footer Page 22 of 166 Header Page 23 of 166 3.6 21 Kết đánh giá Xem xét kết phân cụm thành phố Hồ Chí Minh, ngày 21/09/2012 Bảng Kết phân cụm theo mẫu đánh giá nhóm hànhvisửdụngdịchvụ thoại kháchhàng theo ngày địa phương * Đơn vị giây Footer Page 23 of 166 Header Page 24 of 166 22 Biểu đồ tương quan nhóm hànhvi ngày 21/09/2012 TP Hồ Chí Minh Tổng lượng sửdụng 500000000 450000000 Series19 400000000 Series18 350000000 Series17 300000000 Series16 250000000 Series15 200000000 150000000 Series14 100000000 Series13 50000000 Series12 Chiều Sáng Tối Khung thời gian Series11 Series10 Hình Biểu đồ so sánh lượng sửdụng nhóm hànhvi 3.7 Khuyến nghị tăng hiệu suất mạng Ta nhận thấy nhóm số nhóm số 10 có tiềm kích thích nhu cầu gọi Giả sử nhắm vào đối tượng thuộc nhóm để kích thích nhu cầu sử dụng, áp dụng gói khuyễn mại sau: Nội dung khuyễn mại: giảm 50% cước gọi thực khoảng thời gian từ 20h đến 23h59 từ 0h đến 4h sáng tháng Điều kiện áp dụng: thuê bao thực 100 phút (tương đương thực khoảng 200s đàm thoại vào buổi chiều) đàm thoại vào khung 12h đến 20h tháng trước Trường hợp gói cước triển khai có nhiều 11 nhóm kháchhàng thỏa mãn điều kiện Giả sử thuê bao thực phút gọi khung tối, số liệu thu Bảng 10 Kết tăng doanh thu với gói khuyến mại cước khung tối Footer Page 24 of 166 Header Page 25 of 166 23 Như tổng số doanh thu thu thêm khoảng 506 triệu đồng ngày với điều kiện thuê bao thỏa mãn gói khuyến thực thêm phút gọi vào khung tối 3.8 Kết luận Trong chương 3, luận văn trình bày vấn đề: Phân tích chi tiết toánphân cụm hànhvisửdụngdịchvụ thoại nhắn tin mạng diđộng VMS Mobifone Khảo sát nguồn liệu lịch sử gọi Quá trình tiền xử lý liệu lịch sử, tạo nguồn liệu đầu vào phù hợp cho thuậttoánk-means Triển khai thuậttoánphân cụm k-means Đánh giá kết thu sau trình phân cụm Nêu hướng khuyến nghị tăng hiệu sửdụng tài nguyên mạng dựa kết thu Footer Page 25 of 166 Header Page 26 of 166 24 KẾT LUẬN Luận văn “Phân loạihànhvikháchhàngsửdụngdịchvụdiđộngdựathuậttoán k-means” đạt kết sau: Thiết kế nguồn liệu đầu vào mô tả hànhvisửdụngdịchvụkháchhàngdiđộng Thiết kế xây dựng chương trình chuyển đổi nguồn liệu lịch sử gọi thành liệu đầu vào cho thuậttoánphân cụm Triển khai thuậttoánk-means thu kết Lập lịch tái sửdụng kết đầu cho lần phân cụm để tăng tốc độ xử lý Luận văn đề xuất gói khuyễn mại, sau đánh giá kết phân cụm hànhvi Kết thu là: lực mạng vào khung tối vốn thấp điểm tận dụng, doanh thu thường xuyên từ dịchvụ thoại tăng lên Tuy nhiên nhiệm vụphân tích nhóm kháchhàng luận văn số nhược điểm sau: Do hànhvi định nghĩa tỷ lệ lượng sửdụngdịch vụ, nên nhóm kháchhàng có nhiều đặc điểm khác nhau, cụ thể tổng lượng sửdụngđóng góp Do cách xác định mà tính chất gọi nhiều hay kháchhàng chưa đem làm tiêu chí phân cụm Do số lượng thuê bao toán quốc lớn, nên việc phân cụm tiến hành địa phương đảm bảo thời gian xử lý Như kết phân cụm khó mô tả cụm hànhvi điển hình toàn quốc Việc đưaphân tích cục địa phương xem thích hợp với mạng Vinaphone so với mạng VMS Mobifone, thuê bao mạng Vinaphone viễn thông tỉnh chăm sóc dịchvụ VMS Mobifone tổ chức thuê khoán đại lý phát triển thuê bao với doanh nghiệp VNPT Điều dẫn đến hệ kết đầu thuậttoánphân cụm chưa trợ giúp trực tiếp công tác hoạch định Footer Page 26 of 166 Header Page 27 of 166 25 Trong trình thực phân cụm, luận văn triển khai lại thuậttoán ngôn ngữ lập trình Java mà chưa gắn với hệ thống khai thác số liệu kinh doanh tập đoàn, vốn triển khai tảng khác Để tìm hiểu thiết kế có tính thực tế cao hơn, luận văn đề xuất số hướng khắc phục giai đoạn hoàn thiện sau: Cần có thêm trình phân cụm 19 nhóm kết Tại trình phân cụm tiêu chí tổng lượng sửdụngdịchvụ xem xét Sau trình nhóm kết ban đầu xem xét chi tiết hơn, dự đoán tác dụng gói cước kích thích tính toán chuẩn xác Do số lượng thuê bao lớn nên để thực phân cụm, cần tìm hiểu thêm kỹ thuậtphân cụm song song Nghiên cứu triển khai thuậttoánk-means tảng có sẵn hệ thống khai thác số liệu kinh doanh Từ dễ dàng triển khai đưa vào sửdụng Footer Page 27 of 166 Header Page 28 of 166 26 TÀI LIỆU THAM KHẢO [1] Hamerly Greg, and Elkan Charles Learning the k in k-means Department of Computer Science and Engineering, University of California (2003) [2] Jiawei Han, Jian Pei.Data Mining: Concepts and Techniques Second Edition Diane Cerra (2006) [3] Zhexue Huang.Extensions to the k-Means Algorithm for Clustering Large Data Sets with Categorical Values Kluwer Academic (1998) [4] N Hussein A Fast Greedy k-means Algorithm (2002) [5] Sammy Larbi k-means Clustering & Finding K codeodor.com (2006) [6] XindongWu, Vipin Kumar, J Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J McLachlan, Angus Ng, Bing Liu, Philip S Yu, Zhi-Hua Zhou, Michael Steinbach, David J Hand, Dan Steinberg Top 10 algorithms in data mining Chapman and Hall/CRC (2007) [7] http://en.wikipedia.org/wiki/k-means_clustering [8] http://wtng.info/wtng-84-vn.html Footer Page 28 of 166 ... khai thuật toán k-means vào công vi c phân cụm hành vi sử dụng dịch vụ vi n thông Chương luận văn trình bày trình áp dụng thuật toán k-means vào toán phân cụm hành vi sử dụng khách hàng mạng di động. .. LUẬN Luận văn Phân loại hành vi khách hàng sử dụng dịch vụ di động dựa thuật toán k-means đạt kết sau: Thiết kế nguồn liệu đầu vào mô tả hành vi sử dụng dịch vụ khách hàng di động Thiết kế... thuật toán phân cụm k-means đánh giá khả áp dụng toán phân cụm hành vi khách hàng sử dụng dịch vụ vi n thông Chương 3: Áp dụng thuật toán k-means vào phân cụm hành vi sử dụng dịch vụ thoại nhắn