Các bước thực hiện của thuật toán Apriori theo MapReduce như sau:
Bước 1: Sử dụng mơ hình MapReduce để tìm tập mục thường xuyên 1-
itemsets.
30
Bước 3: Nếu tập mục thường xuyên (k+1)-itemsets không được tạo ra, sẽ
chuyển sang Bước 6.
Bước 4: Theo k-itemsets tập mục thường xuyên, sử dụng mơ hình MapReduce
để tạo ra (k+1)-itemsets tập mục thường xuyên.
Bước 5: Nếu k nhỏ hơn số lần lặp tối đa, tăng k++, sau đó quay lại Bước 3 và
thực hiện tiếp bước tiếp theo
Bước 6: Tìm được tập mục thường xuyên L, sau đó tạo ra các luật kết hợp
mạnh.
Thuật toán:
Input: Cơ sở dữ liệu giao dịch TransactionID, độ hỗ trợ tối thiểu (min support) Output: sinh ra các mục thường xuyên.
Mã giả thuật toán
Map transaction t in data source to all Map nodes; //(1) In each Map node m
Cm1 = {tập ứng viên có 1 phần tử tại node m};
// (2) In Reduce, compute C1 and L1 with all Cm1 ;
C1 = {tập ứng viên có 1 phần tử};
// (3) min_support = num / total items
L1 = {Tập mục thường xuyên 1 phần tử}; for (k = 1; Lk !=∅; k++) do begin
// (4) In each Map node m
// Lmk: Lk mapped to each node m; // sort to remove duplicated items
Cm(k+1) = Lk join sort Lmk;
// (5) In Reduce, use Apriori Property
compute Ck+1 with all sorted Cm(k+1) ; if (k>=3) prune(Ck+1);
for each transaction t in data source with Ck+1 do
// (6) In each Map node m
increment the count of all candidates in Lm(k+1) that are contained in t end
// (7) In Reduce, find Lk+1 with Lm(k+1) and // min_support
31
end
return ∪k Lk;
Đánh giá:
Việc triển khai thuật toán Apriori theo mơ hình MapReduce sẽ giúp giải quyết các bất cập của thuật toán Apriori là phải duyệt nhiều lần, dễ dàng được mở rộng theo chiều ngang bằng việc bổ sung các node xử lý nếu tập dữ liệu giao dịch tăng trưởng nhanh.
1.5. Bài toán quản lý thuê bao trong viễn thông
Trong mạng viễn thông thuê bao là chủ thể đối tượng trung tâm chính của hệ thống. Tất cả các hoạt động, luồng xử lý dữ liệu đều liên quan đến thuê bao. Tùy thuộc vào từng loại dịch vụ, gói cước được cung cấp, thuê bao sẽ được chia làm hai loại trả trước và trả sau:
Thuê bao trả trước là các thuê bao có tài khoản cước viễn thông trước khi sử
dụng dịch vụ, số tiền trong tài khoản sẽ bị trừ đi trước khi khách hàng sử dụng dịch vụ (như thoại, tin nhắn, data..). Để sử dụng dịch vụ trong tài khoản của th bao ln phải có số dư tiền lớn hơn hoặc bằng phí dịch vụ sẽ sử dụng. Nếu tài khoản không đủ tiền, nhà mạng sẽ không cho phép thuê bao sử dụng dịch vụ cho đến khi tài khoản được nạp tiền. Đối tượng khách hàng sử dụng thuê bao trả trước chủ yếu là các khách hàng cá nhân. Vòng đời của thuê bao trả trước gồm các bước như sau:
Hình 1.5: Vịng đời của thuê bao trả trước
Thuê bao trả sau là thuê bao mà khách hàng có thể sử dụng dịch vụ viễn thơng
32
dịch vụ thuê bao đã sử dụng trong kỳ. Các thuê bao trả sau sẽ có một hạn mức tiêu dùng giới hạn, để đảm bảo thuê bao sử dụng trong ngưỡng tiêu dùng cho phép, nếu cước phí thuê bao đã sử dụng vượt quá hạn mức cho phép, thuê bao sẽ bị chặn và không sử dụng được dịch vụ. Để nhà mạng đảm bảo có thể thu tiền cước của các thuê bao trả sau, khi ký hợp đồng nhà mạng sẽ kiểm tra xác minh thông tin khách hàng để chắc chắn rằng khách hàng có khả năng thanh toán được hóa đơn. Đối tượng khách hàng sử dụng thuê bao trả sau có thể là khách hàng cá nhân, doanh nghiệp, các tổ chức.
Hình 1.6: Vịng đời của thuê bao trả sau
Tùy thuộc vào mỗi loại thuê bao trả trước và trả sau sẽ có những dịch vụ cung cấp phù hợp với nhu cầu của từng khách hàng (dịch vụ di động, truyền hình, mạng internet,…) . Do đó bài toán quản lý thuê bao là một trong những bài toán phức tạp vì:
- Số lượng dữ liệu thuê bao cần quản lý đa dạng loại dịch vụ, số lượng lớn và luôn tăng trưởng.
- Các bài toán kinh doanh thì ln phải thay đổi để đưa ra các chính sách mới cho các thuê bao.
- Dữ liệu thuê bao phải quản lý đồng bộ trên nhiều hệ thống khác nhau như tất cả các hệ thống tổng đài (OCS, HLR), hệ thống Quản lý thuê bao, hệ thống BI (Business Intelligence), dữ liệu trên Data lake, hệ thống Report (báo cáo), các hệ thống VAS.
33
kèm.
- Mỗi thuê bao là một loại dịch vụ tương ứng (di động, cố định, PSTN - điện thoại có dây, mạng internet, truyền hình).
Việc quản lý thơng tin th bao, thơng tin khách hàng sẽ thực hiện trên hệ thống Quản lý thuê bao của nhà mạng. Một số loại dữ liệu được quản lý và sử dụng để phân tích khai thác số liệu phục vụ kinh doanh như sau:
- Phân tích về tiêu dùng của thuê bao (tiêu dùng thoại, tin nhắn, data, dịch vụ vas).
- Phân tích về các gói cước sử dụng tương ứng với tập khách hàng: Gói cước học sinh sinh viên, gói cước khách hàng doanh nghiệp, gói cước cho khách hàng cá nhân, gói cước thoại, gói cước tin nhắn, gói cước cho tập khách hàng mới, gói cước cho tập khách hàng thân thiết.
- Phân tích về hành vi: Số lần nạp thẻ, số ngày sử dụng, số ngày phát sinh lưu lượng, số ngày mở máy.
- Phân tích mức độ hài lòng của khách hàng khi sử dụng dịch vụ.
- Phân tích về đăng ký sử dụng các dịch vụ giá trị gia tăng.
Hình 1.7: Mơ hình kết nối của hệ thống quản lý thuê bao Kết luận:
Do thuê bao là thành phần chính trong mạng viễn thông, doanh thu của nhà mạng chủ yếu đến từ việc sử dụng các dịch vụ của thuê bao, trong đó doanh thu dịch vụ giá trị gia tăng chiếm tỷ trọng lớn. Trong phạm vi của luận văn sẽ nghiên cứu áp dụng các thuật toán về khai phá luật kết hợp để đưa ra mối liên hệ sử dụng dịch vụ giá
34
trị gia tăng của thuê bao, giúp nhà mạng có thể bán chéo các sản phẩm cho khách hàng, đồng thời tăng thêm trải nghiệm cho người dùng.
Apriori là một thuật toán nổi tiếng trong việc khai phá các luật kết hợp sử dụng linh hoạt và hiệu quả để tìm các tập chỉ mục phổ biến. Ngồi ra, đây cịn là một thuật toán dễ cài đặt. Tuy nhiên, thuật toán này có 2 hạn chế: Một là độ phức tạp của quá trình sinh tập phổ biến gây tốn nhiều thời gian và bộ nhớ. Hai là số lần duyệt cơ sở dữ liệu của thuật toán Apriori phụ thuộc vào độ dài của tập phổ biến dài nhất tìm được. Các vấn đề trên có thể gây ra tình trạng nghẽn cổ chai cho thuật tốn Apriori khi số lượng giao dịch lớn và tập mục nhiều. Do đó việc sử dụng mơ hình MapReduce trong thuật toán Apriori sẽ giúp cải thiện hiệu năng, thời gian xử lý nhanh hơn và có thể dễ dàng mở rộng theo chiều ngang khi dữ liệu cần xử lý tăng lên.
35
CHƯƠNG 2: KHAI PHÁ DỮ LIỆU TRONG VIỄN THÔNG THÔNG
2.1. Tổng quan
Các dữ liệu liên quan đến viễn thông hàng ngày sản sinh ra nhiều loại dữ liệu khác nhau với số lượng rất lớn (dữ liệu về cuộc gọi, truy cập mạng, dữ liệu khách hàng..). Các dữ liệu lớn này đang được các doanh nghiệp viễn thông khai thác sử dụng, để phân tích tìm ra lợi thế cạnh tranh trong thời điểm việc gia tăng số lượng thuê bao khách hàng mới tại Việt Nam đã phát triển chậm và chững lại. Điều này đã tạo ra một nhu cầu lớn về khai phá dữ liệu để giúp hiểu số liệu kinh doanh, xác định mơ hình viễn thơng, xác định các hoạt động gian lận, sử dụng tốt hơn các nguồn lực và cải tiến chất lượng dịch vụ.
Đối với ngành viễn thông, hai yếu tố quan trọng quyết định sự thành công của doanh nghiệp là thị phần và khách hàng. Chính vì vậy, việc nắm bắt được các nhu cầu, sở thích, cũng như hành vi khách hàng sẽ giúp các nhà mạng có một lợi thế to lớn trong việc cạnh tranh và mở rộng thị trường tập khách hàng của mình.
Tại thị trường Viễn thông Việt Nam, số lượng phát triển thuê bao di động mới đã chững lại, các nhà mạng cần chuyển sang các chiến lược kinh doanh mới: Nâng cao chất lượng dịch vụ, chăm sóc khách hàng, tăng trải nghiệm của người dùng, xây dựng các chương trình khuyến mại phù hợp để giữ chân các thuê bao cũ, giảm lượng khách hàng rời mạng và khuyến khích khách hàng tăng giá trị sử dụng dịch vụ. Để làm được việc đó cần phải ứng dụng các cơng nghệ phân tích dữ liệu, sử dụng các kỹ thuật khai phá dữ liệu trên nền tảng dữ liệu lớn vào các hoạt động sản xuất kinh doanh, nhằm phân tích và so sánh với các đối thủ để có thể tung ra thị trường các sản phẩm và dịch vụ theo đúng nhu cầu của từng cá thể khách hàng.
2.2. Dữ liệu trong viễn thông
Ngành viễn thông là một trong những ngành quan trọng và có tốc độ phát triển nhanh chóng, sử dụng các cơng nghệ và ứng dụng CNTT tiên tiến, ngồi ra viễn thơng cịn có số lượng khách hàng sử dụng lớn, cung cấp nhiều dịch vụ đa dạng khác nhau (di động, cố định, truyền hình), do đó dữ liệu mà các hệ thống trong viễn thông sản sinh ra sẽ rất đa dạng. Bao gồm các dữ liệu như thông tin cá nhân người dùng, dữ liệu về cuộc gọi, các dịch vụ sản phẩm khách hàng đang dùng, mức tiêu dùng, chi tiêu hàng tháng, dữ liệu truy cập mạng. Tất cả các dữ liệu này như là một tài sản vơ giá, có thể khai thác giúp doanh nghiệp đưa ra các quyết định trong kinh doanh, cũng như chăm sóc khách hàng tốt hơn. Chi tiết một số loại dữ liệu điển hình sau:
36
viễn thông là chúng ta luôn nghĩ ngay tới sim, số điện thoại, đặc biệt là các doanh nghiệp lớn thì ln lưu trữ một lượng lớn thơng tin về th bao, có thể lên tới hàng chục triệu bản ghi. Các trường thông tin như sau:
- Số thuê bao
- Trạng thái của thuê bao: Hoạt động/Hủy - Gói cước đang sử dụng
- Gói khuyến mại đang sử dụng - Ngày kích hoạt
- Loại thuê bao
- Thông tin hạ tầng kết nối - Địa bàn đăng ký
- Loại máy đang sử dụng.
Dữ liệu khách hàng (customer data): Bên cạnh thơng tin liên quan đến th
bao, thì thông tin về khách hàng cũng được các doanh nghiệp viễn thông lưu trữ đầy đủ thông tin. Các thông tin về khách hàng bao gồm:
- Tên/tuổi khách hàng. - Địa chỉ sinh sống - Số giấy tờ
- Thông tin hợp đồng và lịch sử thanh toán.
Chi tiết cước cuộc gọi (call detail record): Doanh nghiệp có thể hiểu khách
hàng hơn khi khai thác dữ liệu chi tiết cước gọi. Tất cả các cuộc gọi, tin nhắn hay dữ liệu sử dụng data đều được ghi lại, một số dữ liệu được sử dụng trong khai phá dữ liệu:
- Thời gian trung bình của các cuộc gọi. - Thời điểm cuộc gọi (ngày/đêm)
- Số lượng cuộc gọi vào các ngày trong tuần. - Khu vực phát sinh cuộc gọi.
- Số lượng cuộc gọi được tạo ra trong một ngày. - Số gọi đi, số gọi đến.
Dữ liệu mạng (network data): Mạng viễn thông gồm nhiều hệ thống giao tiếp
với nhau, có cấu hình phức tạp. Mỗi hệ thống lại sinh ra các thông báo và trạng thái, dữ liệu này được lưu trữ và xử lý dẫn đến có một lượng lớn về dữ liệu mạng. Dữ liệu
37
này được sử dụng để hỗ trợ quản lý, giám sát hệ thống tránh các sự cố. Các nhân sự giám sát hệ thống không thể xử lý thủ công mọi thông báo do số lượng các hệ thống sinh ra quá lớn. Do vậy các thông báo này cần phải được xử lý tự động dựa trên phân tích và các nhân sự giám sát chỉ xử lý khi vấn đề không thể tự động giải quyết.
Dữ liệu truy cập người dùng (User access data): Các thuê bao hiện nay chủ
yếu sử dụng hạ tầng mạng 3G/4G/5G để kết nối tới các mạng xã hội như Facebook, Youtube, Tiktok. Vì thế việc lưu trữ log truy cập đến các URL của thuê bao sẽ là một điểm quan trọng trong việc phân tích hành vi, nhu cầu mong muốn của khách hàng.
2.3. Khai phá dữ liệu trong lĩnh vực viễn thông
Các nhà mạng viễn thông sở hữu, lưu trữ một lượng lớn dữ liệu về thuê bao, khách hàng từ thông tin định danh cá nhân đến thông tin tiêu dùng các dịch vụ, tất cả các dữ liệu, đều được lữu trữ trên các hệ thống một cách chi tiết phục vụ các hoạt động kinh doanh và nghiệp vụ hàng ngày. Lượng, dữ liệu được ,sinh ra trên là nguồn thông tin tài nguyên quý báu về khách hàng, sản phẩm… Sử dụng ,các thuật tốn phân tích, khai phá dữ liệu cùng mơ hình dự đoán cho phép các ,nhà mạng ,đưa ra các chính sách kinh doanh hiệu quả và kịp thời, tối ,đa hóa lợi ích cho người dùng và tăng trưởng kinh doanh bền vững cho doanh nghiệp. Có nhiều các bài toán phân tích trong lĩnh vực viễn thơng phục vụ cho các hoạt động điều hành hỗ trợ ra quyết định và kinh doanh. Qua khảo sát các tài liệu liên quan, luận văn đưa ra một số bài tốn điển hình về khai phá trong lĩnh vực viễn thơng:
2.3.1 Dự đốn khách hàng rời mạng
Dự đoán, thuê bao rời mạng, là việc tìm ra các thuê bao, hiện tại có đặc điểm gần tương tự với hành vi của các thuê bao đã rời mạng trong những tháng gần đây. Từ đó xây dựng thành một mơ hình luật dự đoán hành vi th bao trong tương lai.
Trong những năm trở lại đây, việc mở rộng tập khách hàng đối với các nhà mạng khá khó khăn, bởi sự bão hịa của các dịch vụ viễn thơng. Khơng phát triển thêm được nhiều thuê bao mới cũng khiến cho doanh thu tăng trưởng của doanh nghiệp bị sụt giảm theo. Chính vì vậy, việc giữ gìn và chăm sóc thuê bao cũ, khiến họ trở thành những khách hàng lâu năm và trung thành trên hệ thống, không chỉ giúp doanh nghiệp đó ngày càng phát triển vững bền hơn, mà còn ngăn chặn được các thuê bao chuyển sang nhà mạng đối thủ. Bài toán phát hiện sớm ra các thuê bao có dấu hiệu rời mạng có ý nghĩa vơ cùng quan trọng đối với nhà mạng viễn thơng, tuy nhiên nó cũng là bài toán khá khó khi dữ liệu thực tế của các nhà mạng có tỷ lệ mất cân bằng lớn [11].
Để xây dựng được bài toán này thì nguồn dữ liệu được thu thập để phân tích cũng rất rộng, bao trùm hầu hết hành vi của thuê bao như: Hành vi tiêu dùng, hành vi nạp thẻ, chi tiết các cuộc gọi đến gọi đi trong nhiều tháng (dữ liệu CDR), số ngày mở
38
máy, số ngày phát sinh lưu lượng thoại và data, hành vi truy cập url.
Hình 2.1: Các bước xây dựng bài toán dự đoán rời mạng của thuê bao Mục đích:
- Giảm tỷ lệ rời mạng của khách hàng bằng cách phân tích hành vi tiêu dùng viễn thông cũng như hành vi rời mạng trong quá khứ, sau đó thiết kế và xây dựng các kịch bản triển khai (chi tiết các chương trình khuyến mãi, thời gian tác động, cách thức truyền thông tiếp cận khách hàng qua SMS/Telesales/App mobile...) phù hợp với từng nhóm đối tượng để đem lại