Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
28
Dung lượng
1,06 MB
Nội dung
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
LÊ MINH HẢI
PHÂN LOẠIHÀNHVIKHÁCHHÀNGSỬDỤNGDỊCHVỤDI
ĐỘNG DỰATRÊNTHUẬTTOÁN K-MEANS
LUẬN VĂN THẠC SỸ KỸ THUẬT
HÀ NỘI - 2013
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
LÊ MINH HẢI
PHÂN LOẠIHÀNHVIKHÁCHHÀNGSỬDỤNGDỊCHVỤDIĐỘNGDỰA
TRÊN THUẬTTOÁN K-MEANS
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI -2013
1
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: TS NGUYỄN MẠNH HÙNG
Phản biện 1: …………………………………………………………………………
Phản biện 2: …………………………………………………………………………
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công
nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
2
MỞ ĐẦU
1. Lý do chọn đề tài
Đối với một doanh nghiệp thông diđộngdiđộng việc phát triển thuê bao để kiếm
tìm lợi nhuận vào thời điểm hiện tại đã không còn đem lại hiệu quả. Thay vào đó là một
phương án kinh doanh tiến đến phát triển chất lượng dịchvụ cung cấp thêm nhiều dịchvụ
giá trị gia tăng. Tuy nhiên các dịchvụ truyền thống như thoại, nhắn tin vẫn có thể đem lại
nguồn lợi nhuận cao hơn nếu kích thích được nhu cầu sửdụng của khách hàng.
Thông thường mỗi cá nhân tùy vào vị trí xã hội, điều kiện kinh tế mỗi vùng mà có
nhu cầu sửdụng thoại và tin nhắn khác nhau. Tại một vùng cụ thể, có những thời điểm năng
lực mạng vẫn còn khả năng phục vụ nhưng do không có nhu cầu nên toàn bộ tài nguyên
hoạt động ở hiệu suất thấp. Đây là những thời điểm các nhà mạng cần tăng cường tận dụng.
Giả sử một địa phương có 02 nhóm người có hànhvi tương tự nhau được thể hiện bằng biểu
đồ như trên, nhóm A thường thực hiện cuộc gọi vào buổi sáng, nhóm B thường thực hiện
cuộc gọi vào giờ chiều và tối; ban đầu chúng ta chưa xác định được 02 nhóm này.
Để phân tích hànhvisửdụng các dịchvụ cơ bản thì cần khai thác nguồn dữ liệu tổng
đài MSC. Các dữ liệu CDR ghi lại lịch sử cuộc gọi tại một địa điểm cụ thể, đây là nguồn dữ
liệu rất thích hợp tuy nhiên khối lượng dữ liệu này rất lớn nên cần có các kỹ thuậtphân tích
0
10
20
30
40
50
60
70
80
0 2 4 6 8 10 12 14 16 18 20 22
Nhóm B
Nhóm A
Lưu lượng cuộc gọi theo giờ
Tỷ lệ lưu lượng (%)
3
thích hợp. Hiện nay các kỹ thuật khai phá dữ liệu đã đạt được nhiều thành tựu có thể hỗ trợ
bài toánphân tích hànhvikháchhàng như phân cụm dựa vào thuậttoán k-means.
Dựa vào thực trạng như trên kết hợp với các kỹ thuậtphân cụm trong khai phá dữ
liệu đã được phát triển để đưa ra đề tài “Phân loạihànhvikháchhàngsửdụngdịchvụdi
động dựatrênthuậttoán k-means”.
1. Mục đích của đề tài: đề tài hướng đến phânloạihànhvikhách hàng, tìm ra các
nhóm khác hàng phổ biến, đang hoạt động trong mạng diđộng Mobifone; tiến đến đề xuất
tích hợp kết quả vào hệ thống báo cáo số liệu sản xuất kinh doanh cho Tập đoàn VNPT
2. Đối tượng và phạm vi nghiên cứu: Việc nghiên cứu sẽ tập trung vào lý thuyết
phân cụm dữ liệu theo thuậttoán k-means, áp dụng vào phân cụm hànhvisửdụngdịchvụ
thoại và nhắn tin của kháchhàng VMS Mobifone.
3. Phương pháp nghiên cứu: Tìm hiểu các tài liệu liên quan đến các kỹ
thuật phân cụm, tập trung vào thuậttoán k-means.
4. Kết cấu của luận văn
Luận văn gồm 3 chương
Chương 1: Bài toánphân nhóm kháchhàngdựatrênhànhvisửdụngdịchvụdị
động. Chương này luận văn trình bày nhu cầu phân tích số liệu diđộng để đưa ra được
thông tin về thói quen sửdụngdịchvụ viễn thông, dịchvụ truyền thống thoại và nhắn tin,
trên một địa bàn.
Chương 2: Thuậttoán k-means. Chương này luận văn trình bày một trong những
thuật toánphân cụm k-means và đánh giá khả năng áp dụng đối với bài toánphân cụm hành
vi kháchhàngsửdụngdịchvụ viễn thông.
Chương 3: Áp dụngthuậttoán k-means vào phân cụm hànhvisửdụngdịchvụ
thoại và nhắn tin. Chương này luận văn trình bày các bước xử lỷ dữ liệu, xây dựng các
nguồn dữ liệu đầu vào, thực hiện phân cụm theo phương pháp k-means và cuối cũng sẽ
đánh giá một số thông tin rút ra được từ kết quả sau khi phân cụm.
4
CHƯƠNG 1. BÀI TOÁNPHÂN NHÓM KHÁCHHÀNGDỰATRÊN
HÀNH VISỬDỤNGDỊCHVỤDỊĐỘNG
1.1. Đặt vấn đề
1.1.1. Một số định nghĩa
Định nghĩa tổng lượng sửdụng của mạng trong một khoảng thời gian
(1)
t là khoảng thời gian xem xét.
L
t
là tổng lượng sửdụngdịchvụ (là giây với dịchvụ thoại, số lượng tin nhắn đối với
dịch vụ nhắn tin).
n là tổng số thuê bao trong vùng đang xem xét.
C
i
t
là tổng lượng sửdụng của kháchhàng C
i
trong khoảng thời gian xem xét t.
(2)
m là số cuộc gọi của kháchhàng i trong khoản thời gian t.
D
i,j
là thời lượng cuộc gọi của kháchhàng i trong cuộc gọi thứ j trong khoảng thời
gian t. Với dịchvụ tin nhắn giá trị này = 1 hay C
i
t
= m.
Khung thời gian có L
t
nhỏ nhất là khoảng thời gian cần kích thích để các thuê bao sử
dụng sửdụng nhiều hơn.
Định nghĩa hành vi: Hànhvi nói chung là một khái niệm rộng. Trong luận văn này,
khái niệm hànhvidùng để chỉ hànhđộng thực hiện dịchvụ của kháchhàngdựa vào vùng
nơi thuê bao thực hiện dịchvụ và thời điểm thực hiện dịch vụ.
1.1.2. Nhu cầu phân tích hànhvisửdụngdịchvụdiđộng
Hiện tại hệ thống báo cáo số liệu kinh doanh được tập đoàn VNPT khai thác đang
cung cấp dữ liệu dạng tổng hợp. Tuy nhiên câu hỏi chỉ ra tính chất của dữ liệu chưa được
khai thác. Luận văn đề xuất việc phân tích dữ liệu lịch sử cuộc gọi của kháchhàng để tìm ra
các nhóm hành vi. Xem xét các nhóm hànhvi có thể chỉ ra được tác động của nhóm này đối
5
với năng lực mạng tại một địa bàn cụ thể; từ đó trợ giúp việc thiết kế các gói khuyến mại để
tận dụng năng lực mạng.
1.1.3. Các khía cạnh phục vụphân tích hànhvi
Thời điểm thực hiện dịch vụ: là một thuộc tính của hànhvisửdụngdịchvụ của
khách hàng, chỉ ra thời điểm kháchhàng bắt đầu sửdụngdịchvụ gọi điện hoặc nhắn tin.
Lượng sửdụngdịch vụ: trong một khung thời gian được chia theo thuộc tính thời
điểm, tổng lượng thời gian đàm thoại hoặc số tin nhắn của một kháchhàng là lượng sửdụng
dịch vụ của kháchhàng trong khung thời gian đó.
Địa điểm phát sinh cuộc gọi: Một nhóm hànhvi sẽ là đặc trưng về lượng sửdụng
của các thuê bao trong nhóm trên mỗi khung giờ được xem xét trên một địa phương cụ thể.
Địa điểm phát sinh cuộc gọi là vùng quản lý trạm phát sóng phục vụ cho kháchhàng đó.
Trong luận văn địa điểm được phân tích ở cấp tỉnh/thành phố.
1.2 Trình bày một số giải pháp cho bài toán
1.2.1 Các giải pháp theo thống kê thông thường
Phương pháp tổng hợp số liệu phổ biến là sửdụng các lệnh thống kê, sửdụng truy
vấn dữ liệu theo chuẩn SQL 2.0. Để tìm ra các nhóm và số lượng kháchhàng thuộc các
nhóm đó cần thực hiện hai bước:
Khảo sát thị trường tìm ra các đặc trưng về thời điểm gọi, lượng sửdụng điển hình.
Sửdụng các giá trị đặc trưng của từng nhóm, xây dựng lệnh thống kê.
Việc khảo sát thường đem lại kết quả chính xác không cao và tốn nhiều thời gian. Do
hành visửdụngdịchvụ biến đổi liên tục phụ thuộc vào các sự kiện kinh tế chính trị, vì vậy
việc phân tích nhóm cần thực hiện nhiều lần tại các thời điểm trong năm và trong nhiều
năm; điều này khối lượng cần khảo sát sẽ chiếm nhiều chi phí.
Phương pháp thống kê truyền thống tỏ ra không thích hợp để giải quyết bài toán.
1.2.2 Giải pháp ứng dụng các kỹ thuật khai phá dữ liệu
Khai phá dữ liệu là vấn đề nhận được nhiều sự quan tâm. Nhu cầu khai phá dự liệu là
nhu cầu tiếp theo sau khi một doanh nghiệp đã tổ chức được hệ thống cơ sở dữ liệu.
6
Hình 1. 1 Sự phát triển của hệ thống cơ sở dữ liệu (dựa trên [2, tr.2])
Hệ quản trị cơ sở dữ liệu quan hệ được xuất hiện từ những năm 1970 đến đầu 1980,
đại diện là các tên tuổi lớn như Oracle, DB2, MS SQL, MySQL. Đến nay, hệ quản trị cở sở
dữ liệu quan hệ có nhiều cải tiến mạnh mẽ và được ứng dụng rất rộng rãi. Các doanh nghiệp
đã tích lũy các số liệu kinh doanh qua thời gian dài nhờ sửdụng cở sở dữ liệu, tuy nhiên các
mẫu báo cáo kinh doanh thông thường vẫn chưa khai thác hết thông tin mà các dữ liệu đó
đang cất giữ. Chính vì vậy các kỹ thuật khai phá dữ liệu được nghiên cứu và ứng dụng.
Các kiến thức tìm được nhờ ưng dụng kỹ thuật khai phá dữ liệu gồm:
Nhận biết và phân biệt các lớp dữ liệu: Nhận biết đặc tính dữ liệu là việc tìm ra
một tổng kết về các đặc điểm chung hoặc các tính năng của một lớp dữ liệu mục tiêu. Phân
biệt các lớp dữ liệu là việc so sánh các đặc tính dữ liệu của một lớp dữ liệu với một lớp khác
hoặc một tập các lớp khác đã biết.
Khai thác mẫu phổ biến: Mẫu phổ biến là các mẫu dữ liệu hay xuất hiện trong tập
dữ liệu đang xét. Mẫu thường xuyên bao gồm các kiểu như tập phổ biến. các mẫu tuần tự.
7
Phân loại và dự báo: quá trình của việc tìm kiếm một mô hình (hoặc chức năng) mô
tả và phân biệt các lớp dữ liệu hoặc các khái niệm, sửdụng các mô hình tìm được để dự
đoán lớp của các đối tượng mà chưa gán được lớp.
Phân cụm dữ liệu: Khác với phânloại và dự báo dữ liệu, phân cụm dữ liệu là phân
tích dữ liệu mà không tham khảo một lớp dữ liệu biết trước nào. Với một nguồn dữ liệu biểu
diễn một tập các đối tượng, phân cụm dữ liệu sẽ nhóm các đối tượng thành các nhóm dựa
trên sự tối đa hóa sự sai khác các phần tử ở các nhóm khác nhau và tối thiểu hóa sự sai khác
giữa các phần tử cùng nhóm.
Phân tích bất thường: Một cơ sở dữ liệu có thể chứa các đối tượng dữ liệu mà
không tuân thủ với các hànhvi chung, mang các đặc điểm về dữ liệu khác nhiều so với đại
bộ phận các đối tượng còn lại. Các đối tượng dữ liệu đó có thể coi là dữ liệu bất thường.
Đánh giá dữ liệu theo thời gian: tìm ra các mô hình mô tả xu hướng của dữ liệu
thay đổi theo thời gian.
1.2.3 Phân cụm dữ liệu
Quá trình nhóm một tập hợp các đối tượng vật lý hay trừu tượng thành các lớp đối
tượng tương tự được gọi là phân cụm. Một cụm là một tập các đối tượng dữ liệu tương tự và
không giống các đối tượng trong các cụm khác.
Hình 1. 2 Hình ảnh phân cụm các điểm trong mặt phẳng hai chiều [2, tr.64]
8
Phân cụm dữ liệu thực hiện gom nhóm dữ liệu theo hướng ngược lại. Tập các dữ liệu
được gom thành các nhóm dựatrênsự tương tự nhau giữa các dữ liệu, và sau đó gán nhãn
cho các nhóm. Số lượng các nhóm có thể được cài đặt trước và phân cụm dữ liệu trở nên
thích nghi với sự biến đổi dữ liệu tốt hơn phânloại dữ liệu.
Vấn đề xác định độ tương đồng của dữ liệu: Khi dữ liệu cần phân cụm có nhiều
thuộc tính và các thuộc tính rất đa dạng nhiều kiểu. Trong thực tế việc xem xét phân cụm
trong khi dữ liệu mang nhiều thuộc tính và nhiều kiểu thuộc tính là một vần đề cần giải
quyết.
Ngoài ra nhiều thuậttoán xác định sự tương đồng của đối tượng dựatrên các khoảng
cách Euclidean hoặc Manhattan thì cho ra các phần tử tương đồng tạo thành một cụm dạng
cầu. Tuy nhiên cụm có thể có hình dạng bất kỳ vì vậy cần phát triển thuậttoán tính độ tương
đồng với hình dạng tuỳ ý.
Vấn đề xử lý nhiễu trong phân cụm dữ liệu: Hầu hết các cơ sở dữ liệu thực tế có
chứa các dữ liệu cá biệt hoặc mất tích, không rõ, hoặc dữ liệu sai. Một số thuậttoánphân
cụm nhạy cảm với các dữ liệu đó và có thể dẫn đến kết quả phân cụm có chất lượng kém.
Tập dữ liệu gốc được loại bỏ các thành phần nhiễu sẽ trở thành đầu vào tốt cho giai đoại
phân cụm dữ liệu.
1.3 Kết luận
Trong chương 1, luận văn đã trình bày các vấn đề sau:
Nêu lên bài toánphân tích hànhvisửdụngdịchvụkhách hàng, để hỗ trợ việc xây
dựng chính sách phát triển dịchvụ tận dụng tốt tài nguyên của mạng lưới.
Nêu các mặt khó khăn trong việc giải quyết bài toándựatrên khảo sát thị trường. Đề
xuất sửdụng kỹ thuật khai phá dữ liệu, cụ thể là phương pháp phân cụm dữ liệu, để
phân tích các nhóm hànhvi
Chương tiếp theo luận văn trình bày kỹ thuậtphân cụm k-means, bên cạnh đó đánh
giá khả năng áp dụngthuậttoán vào bài toánphân cụm hành vi.
[...]... liệu lịch sử, tạo ra nguồn dữ liệu đầu vào phù hợp cho thuậttoán k- means Triển khai thuậttoánphân cụm k- means Đánh giá k t quả thu được sau quá trình phân cụm Nêu hướng khuyến nghị tăng hiệu quả sửdụng tài nguyên mạng dựatrênk t quả thu được 24 K T LUẬN Luận văn Phân loạihànhvikháchhàng sử dụngdịchvụdiđộngdựatrênthuậttoán k- means đã đạt được các k t quả sau: Thiết k nguồn... vụvi n thông Chương tiếp theo luận văn trình bày quá trình áp dụngthuậttoán k- means vào bài toánphân cụm hànhvisửdụngkháchhàng của mạng diđộng VMS Mobifone 14 CHƯƠNG 3 ÁP DỤNGTHUẬTTOÁN K- MEANS VÀO PHÂN CỤM HÀNHVISỬDỤNGDỊCHVỤ THOẠI VÀ NHẮN TIN Bài toánphân cụm hànhvi 3.1 Mục tiêu bài toán là tìm ra các nhóm thuê bao, trong mỗi nhóm chứa các thuê bao có cùng hànhvisửdụngdịch vụ. .. nhóm, thuậttoánđưa ra được k t quả phù hợp với nhu cầu phân tích hành vikháchhàng và các hànhvi tương tự nhau được nhóm lại một vùng Đánh giá dữ liệu đầu ra của thuậttoán k- means đối với bài toánphân cụm hànhvi sử dụngdịchvụ của khách hàng, khi các cụm hànhvì được xác định, vi c phân tích sâu hơn về nhóm đó là cần thiết 2.3.2 Đánh giá khả năng triển khai Thuậttoán k- means có độ phức tạp thuật. .. được hànhvi sử dụngdịchvụ của kháchhàngdiđộng Thiết k và xây dựng chương trình chuyển đổi nguồn dữ liệu lịch sử cuộc gọi thành dữ liệu đầu vào cho thuậttoánphân cụm Triển khai thuậttoán k- means và thu được k t quả Lập lịch tái sửdụngk t quả đầu ra cho các lần phân cụm tiếp theo để tăng tốc độ xử lý Luận văn đã đề xuất một gói khuyễn mại, sau khi đánh giá k t quả phân cụm hànhviK t... k từ đó dẫn đến k t nạp sai lầm tại những vòng lặp xử lý sau Tuy nhiên vẫn có thể áp dụng một số phương pháp tiền xử lý dữ liệu đầu vào để giảm sự ảnh hưởng nhiễu 2.4 K t luận Trong chương 2, luận văn đã trình bày các vấn đề : Giới thiệu thuậttoán k- means Cài đặt thuậttoán k- means Đánh giá sơ bộ k t quả và khả năng triển khai thuậttoán k- means vào công vi c phân cụm hànhvisửdụngdịch vụ. .. Program triển khai thuậttoán k- means 3.5 Tăng tốc độ xử lý phân cụm Nghiệp vụphân cụm hànhvisửdụngdịchvụ sẽ phải thực hiện hàng ngày trên dữ liệu lưu lượng ngày đó, khối lượng dữ liệu cần xử lý là rất lớn vì vậy vi c lựa chọn k điểm khởi tạo có ảnh hưởng nhiều đến thời gian xử lý Hành vikháchhàng gần như biến đổi ít so với ngày trước đó vì vậy các giá trị trung tâm cuối cùng của lần phân cụm ngày... chí đánh giá và xếp loại một hànhvisửdụng ba tiêu chí cùng ý nghĩa, vì vậy cách tính khoảng cách áp dụng trong thuậttoán k- meansđưa ra các nhóm hình cầu tỏ ra thích hợp Bên cạnh đó, vi c phân cụm được lặp lại hàng ngày; vi c tái sửdụngk t quả phân cụm cũng giụp giảm số lần tái lặp , từ đó giảm chi phí thực hiện Thuậttoán k- means có một nhược điểm là có khả năng chống nhiễu k m; nếu trong nhóm... triệu bản ghi để tạo thành một nguồn 10 triệu bản ghi trong đó mỗi bản ghi lưu số máy và các đặc trưng sửdụng của số máy đó trong ngày 3.3 Tiền xử lý dữ liệu đầu vào 3.3.1 Định dạng tập dữ liệu phần tử đầu vào thuậttoán k- meansDựa vào cách mô tả hànhvisửdụngdịchvụ của một khách hàng, có thể xác định định dạng đầu ra kiểu liệt kphần tử (định dạng đầu vào thuậttoán k- means) như sau: Bảng 3... Các k t quả sau khi thay đổi số cụm khởi tạo (dựa trên [6,tr.21]) 11 Trên hình minh họa thể hiện khi k tăng và không được khởi tạo tốt cụm thứ năm có thể gần với một trong các cụm ban đầu; đây là trường hợp mong muốn Khi phân cụm mà có những cụm các phần tử trong nó có độ sai khác không lớp thì không đạt được k vọng của thuậttoánphân cụm 2.2.2 Dữ liệu đầu ra của thuậttoánThuậttoánphân cụm yêu cầu... gọi Đối với dịchvụ tin nhắn thuộc tính này không có giá trị, lúc này có thể đánh giá hànhvi nhắn tin bằng tổng số tin nhắn mà kháchhàng gửi trong một khung thời gian Thuộc tính “cell id” : nhận biết địa điểm cuộc gọi được khởi tạo Mỗi lần tổng đài thực hiện khởi tạo dịchvụ thì đều ghi lại tọa độ nơi kháchhàng bắt đầu sửdụngdịchvụ Tọa độ “cell id” chính là mã các trạm phát sóng diđộng quy hoạch .
HỌC VI N CÔNG NGHỆ BƯU CHÍNH VI N THÔNG
LÊ MINH HẢI
PHÂN LOẠI HÀNH VI KHÁCH HÀNG SỬ DỤNG DỊCH VỤ DI
ĐỘNG DỰA TRÊN THUẬT TOÁN K- MEANS. toán phân cụm hành
vi khách hàng sử dụng dịch vụ vi n thông.
Chương 3: Áp dụng thuật toán k- means vào phân cụm hành vi sử dụng dịch vụ
thoại và nhắn tin.