Ứng dụng khai phá dữ liệu dự đoán thuê bao mạng MobiFone có nguy cơ rời mạng

Đề tài sẽ kết hợp các kỹ thuật khai phá dữ liệu với các hiểu biết về dit liệu khách hàng MobiFone dé xây dựng một mô hình dự đoán các thuê bao MobiFone có xu hướng rời mạng hay không dé

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Nguyễn Danh Nam

ỨNG DỤNG KHAI PHÁ DỮ LIỆU

DU DOAN THUÊ BAO MẠNG MOBIFONE

CÓ NGUY CƠ RỜI MẠNG

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2015

Trang 2

Luận văn được hoàn thành tại:

-HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG

Phản biện 1: Q2 2n no Phản biện 1: tees eee 2v.

Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ tại Học viện

Công nghệ Bưu chính Viễn Thông

Có thê tìm hiệu luận van tai:

- Thu viện cua Học viện Công nghệ Bưu chính Viễn Thông

Trang 3

MỞ ĐÀU

Cơ sở dữ liệu trong các đơn vị, tổ chức kinh doanh, quản lý khoa học chứa

đựng nhiều thông tin tiềm ân, phong phú và đa dạng, đòi hỏi phải có những phươngpháp nhanh, phù hợp, chính xác, hiệu qua dé lấy được những thông tin bổ ích.Những “tri thức” chiết suất từ nguồn cơ sở dữ liệu trên sẽ là nguồn thông tin hỗ trợcho lãnh đạo trong việc lên kế hoạch hoạt động hoặc trong việc ra quyết định sảnxuất kinh doanh Tiến hành công việc như vậy chính là thực hiện quá trình phát hiện

tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database) mà trong đó kỹ

thuật khai phá đữ liệu (Data Mining) cho phép phát hiện những tri thức tiềm ân

Hai mươi năm qua ghi nhận một thời gian dài phát triển sôi động, vượt bậc

của ngành công nghiệp viễn thông nói chung và thông tin di động nói riêng.

Bước sang những năm đầu của thập kỷ mới, cùng với sự bão hòa của sốlượng thuê bao toàn thị trường, những thách thức đang dan trở nên thực tế hơn, đòi

hỏi MobiFone phải có những sự theo dõi sát sao hơn với tính hình kinh doanh Việc

phát triển thuê bao mà ngay cả việc giữ thuê bao cũng trở nên cấp bách

Do đó việc dự đoán được chính xác các khách hàng có nguy cơ rời mạng

(cham dứt, kết thúc sử dụng dịch vụ), từ đó phân tích, đánh giá nguyên nhân cũngnhư có các chính sách chăm sóc khách hàng phù hợp dé giữ được khách hàng, tiếp

tục trung thành và sử dụng dịch vụ, đóng góp doanh thu cho nhà mạng có ý nghĩa

rất lớn đối với sự sông còn và phát triển của mạng MobiFone nói riêng và các nhàmạng khác nói chung.

Với mục đích áp dụng các kiến thức công nghệ thông tin vào công việc thực

tế tại Công ty, người thực hiện xin chọn đề tài nghiên cứu “Ứng dụng khai phá dữliệu dự đoán thuê bao mạng MobiFone có nguy cơ rời mạng” Đề tài sẽ kết hợp các

kỹ thuật khai phá dữ liệu với các hiểu biết về dit liệu khách hàng MobiFone dé xây

dựng một mô hình dự đoán các thuê bao MobiFone có xu hướng rời mạng hay

không dé từ đó phục vụ cho các nghiệp vụ chăm sóc khách hàng, khuyến mại, duytrì khách hàng của Mạng MobiFone.

Trang 4

1.2.

1.3.

CHUONG 1 TONG QUAN VE KHAI PHA DU LIEU

Định nghĩa khai pha dữ liệu

Gartner group định nghĩa “Khai phá dữ liệu là quá trình khám pha các tươngquan, mô hình và các xu thế mới có ý nghĩa bằng việc dịch chuyển thông qua lượnglớn các dt liệu được lưu trữ, và sử dụng các công nghệ nhận dạng mô hình cũng

như các công nghệ thong kê, toán” Error! Reference source not found

Khai phá tri thức (KDD-Knowledge Discovery in Databases) là mục tiêu

chính của khai phá dữ liệu, do vậy hai khái niệm đó được xem như hai lĩnh vực

tương đương nhau Nhưng, nếu phân chia một cách tách bạch thì khai phá dữ liệu là

một bước chính trong quá trình khai phá tri thức.

Ứng dụng của khai phá dữ liệu

Sau đây là một số lĩnh vực áp dụng thành công kỹ thuật khai phá dữ liệu:

e Phân tích dữ liệu và hỗ trợ ra quyết định

e Linh vực tài chính và ngân hànge_ Chăm sóc sức khỏe và y tế

e Viễn thông

e Text mining and web mining

e Linh vuc khoa hoc Qua trình khai phá dữ liệu

Hình 1.1 Quá trình khai pha tri thức trong cơ sở dữ liệu

Trang 5

Quá trình khai phá tri thức trong cơ sở dữ liệu có thể phân thành các giai

đoạn sau (theo Han & Kamber Error! Reference source not found.):

1 Tiền xử lý dữ liệu

2 Khai phá dữ liệu

3 Đánh giá và thé hiện tri thức

Kiến trúc của hệ thống khai phá dữ liệuTheo Han & Kamber, kiến trúc của hệ thống khai phá dữ liệu điển hình baogồm các thành phan chính sau đây Error! Reference source not found.:

e Cơ sở dit liệu, kho dit liệu, web hoặc những hệ thống thông tin khác

e Mdy chủ cơ sở dit liệu hoặc kho dữ liệu

e_ Tri thức nên tang (knowledge base)

e Máy khai phá dit liệu (data mining engine)

e Module đánh gia mô hình

e Giao diện người sử dung

Data Warehouse

— —

Hình 1.2 Kiến trúc của hệ thống khai phá dữ liệu điển hình

Một số phương pháp khai phá dữ liệu thông dụng

Trang 6

Đánh giá độ chính xác thuật toán phân lớp

1.6.1 Kỹ thuật kiểm tra

e Phương pháp holdout: dit liệu đưa ra được phân chia ngẫu nhiên thành 2

phan: tập dit liệu huấn luyện và tap dit liệu kiểm tra

e_ Phương pháp k-fold cross validation, tập dữ liệu ban đầu được chia ngẫu

nhiên thành k tập con (fold) có kích thước xấp xỉ nhau Si, Sa, , Sk Lần

lượt sử dụng từng tập như tập kiểm tra, phần còn lại là dữ liệu huấn luyện

1.0.2 Độ đo chính xác

Giả sử ta có bài toán phân lớp với dau ra là 02 lớp Tốt/Xâu (hoặc Dung/Sai),kết qua phân lớp trên tập mẫu so với thực tế có 4 khả năng thể hiện như Bang 1.1

Bảng này được gọi là ma trận sai sô (confusion matrix).

Bảng 1.1 Các khả năng phân lớp của bài toán phân loại 2 lớp.

Lép dự đoán (predicted class)

: Tốt Xấu

„ £ Tot True Positive (TP) False Negative (FN)

Lớp thực tê (actual class) Xấu False Positive (FP) True Negative (TN)

Ta có các độ đo đánh giá hiệu quả của kết quả phân loại như sau:

Tên độ đo Công thức Diễn giải

Độ chính xác TP+TN Tỷ lệ các mẫu được phân lớp

Accuracy = TP+TN + FP + EN | đúng trên toàn bộ tập mẫu

Tỷ lệ lỗi Error Rate = FP+FN Ty lệ các mẫu được phân lớp

~ TP +TN+FP+FN | Sai trên toàn bộ tập mau

Độ bao phủ Recall = TP Ty lệ các mau phân lớp Tối

TP +FN đúng trên toan bộ các mau

thực sự thuộc phân lớp Tốt

Tỷ lệ chính xác Precision = TP Ty lệ các mau phân lớp Tốt

_—TP+FP đúng trên toàn bộ các mau dự

đoán phân lớp Tốt

Trang 7

CHUONG 2 KY THUAT PHAN LỚP DỰA TRÊN CÂY

QUYET ĐỊNH VA MẠNG NƠRON NHÂN TAO

Trong chương này sẽ giới thiệu hai kỹ thuật phân lớp được sử dụng phô biến

được áp dụng trong luận văn là: kỹ thuật cây quyết định và mạng noron

Nút trên cùng của cây gọi là gốc (root)

Mỗi núi trong (internal node) biéu diễn một thuộc tinh,

Nhánh (branch) biễu diễn giá trị có thê có của thuộc tínhMỗi /⁄ (leaf node) biểu diễn các lớp quyết định

Đề phân lớp mau dữ liệu chưa biết, giá trị các thuộc tính của mẫu được đưa

vào kiểm tra trên cây quyết định

Quá trình xây dựng cây quyết định gồm hai giai đoạn:

Giay đoạn thứ nhat-phat triển cây quyết địnhGiai đoạn thứ hai-cắt, tỉa bớt các cành nhánh trên cấy quyết định

Các thuật toán phân lớp như ID3 (Quinlan, 1986 Error! Reference source

not found.) , C4.5 (Quinlan, 1993 Error! Reference source not found.), CART

Trang 8

(Breiman, 1984 Error! Reference source not found.) và SPRINT (Shafer và cộng

sự, 1996 Error! Reference source not found.) đều sử dụng phương pháp của HuntError! Reference source not found làm tư tưởng chu dao.

Giả sử xây dung cây quyết định từ T là tap dữ liệu huấn luyện và các lớp

được biểu diễn dưới dạng tập C = {C¡, Cạ, , Cy}

- Khoi đầu: nút hiện thời là nút gốc chứa toàn bộ tập dữ liệu huấn luyện

- Tại nút hiện thời n, lựa chọn thuộc tính:

o Chưa được sử dụng ở nút tô tiên

Cho phép phân chia tập dữ liệu hiện thời thành các tập con một cách

tốt nhất

Với mỗi giá trị thuộc tính được chọn thêm một nút con bên dưới

o được chọn

- Lap (đệ quy) cho tới khi:

o_ Tất cả các thuộc tính đã được sử dụng ở các nút phía trên, hoặco_ Tất cả ví dụ tại nút hiện thời có cùng nhãn phân loại

o Nhãn của nút được lay theo da số nhãn của ví du tai nút hiện thời

Hình 2.2 Giải thuật xây dựng cây Hunt

2.1.3 Thuật toán ID3

2.1.3.1 Mô tả thuật toán

Trên cơ sở Entropy, thuật toán tính độ tăng thông tin như mức tăng độ đồngnhất, từ đây xác định thuộc tính tốt nhất tại mỗi nút

Trang 9

H(S)= -> pilog2 (pi) = >) x mi (2.2)

e_ Độ tăng thông tin (Information Gain, ký hiệu IG) là chỉ số đánh giá độ

tốt của thuộc tính trong việc phân chia tập dữ liệu thành những tập con

I6G,4)=H@)— Yay @3)

vevalues(A)

Trong do:

- § là tập dt liệu ở nút hiện tại

- A là thuộc tính được sử dụng dé đánh giá độ tốt phân chia

- Values(A) là tập các giá trị của A

- Sy là tập mau con của S có các giá trị thuộc tinh A bằng v

- [Sl và I§vI là số phần tử của các tập ISI, ISv| tương ứng

Thuộc tính được lựa chọn là thuộc tính mang lại độ tăng thông tin lớn nhất

2.1.3.2 Ví dụ minh họa

2.1.4 Thuật toán C4.5

C4.5 là thuật toán dùng để xây dựng cây quyết định được đề xuất bởi

Quinlan năm 1993 [4], là mở rộng của ID3 Đặc điểm của C4.5:

- Cho phép dữ liệu đầu vào ở các thuộc tính là liên tục

- Cho phép thao tác với các thuộc tính có dữ liệu không xác định (do bị mất

mát dữ liệu)

- _ Đưa ra phương pháp cắt tỉa cây và giản lược các luật để phù hợp với những

bộ dữ liệu lớn

2.1.4.1 Độ do GainRatio

Độ do GainRatio được sử dung trong thuật toán C4.5 là cải tiễn của thuật

toán ID3 và được xây dựng bởi Quinlan [4].

e Độ đo này giải quyết van đề thuộc tính có nhiều giá trị: Thành phan thông

tin chia (Split Information-SI) được bồ sung dé phạt các thuộc tính cónhiều giá trị:

+ Sil I5I

e Tiêu chuẩn đánh giá thuộc tính GainRatio duoc xác định bằng cách chia

độ tăng thông tin cho thông tin chia

Trang 10

GR(S,A) = SI(S,A) (2.5)

2.1.4.2 Biểu diễn cây quyết định dưới dạng luật

Ví dụ, chuyên đổi từ cây quyết định được xây ở thuật toán ID3 sang tập luật

Luật 1 Nếu "Trời = Luật 2 Nếu "Trời = Luật 3 Nếu "Trời = U ám" then "Không chơi".

Luật 4 Nếu "Trời = Mưa" Và "Gió = Mạnh" Thì "Không chơi".

Luật 5 Nếu "Troi = Mua" Và "Gió = Yếu" Thi "Choi".

Ngoài ra, “Chơi” là lớp mặc định.

Nắng" Và "Độ ẩm Nắng" Và “Độ ẩm

Cao" Thì "Không choi".

Bình thường” Thì "Choi".

2.1.5 Một số vẫn đề trong khai phá dữ liệu sử dụng cây quyết đỉnh

2.1.5.1 Tránh qua vừa dữ liệu 2.1.5.2 Xứ lý thuộc tính liên tục

Mạng nơron nhân tạo

2.2 Mang noron nhân tao được giới thiệu năm 1943 bởi nhà thần kinh học

Warren McCulloch va nhà logic học Walter Pits Error! Reference source not

found Mạng noron nhân tao được coi là một công cụ mạnh dé giải quyết các bài

toán có tính phi tuyến, phức tạp và đặc biệt trong các trường hợp mà mối quan hệ

giữa các quá trình không dễ thiết lập một cách tường minh

2.2.1 Khái niệm cơ bản

Cell body or Soma

Hình 2.3 Cau tao của tế bào noron sinh học

Hệ thống thần kinh của con người bao gồm khoảng 100 tỷ tế bào thần kinh,thường gọi là các noron Mỗi tế bào noron gồm 3 phan:

e Thân noron (gọi là soma), là nơi tiếp cận hay phát ra các xung thần kinh

e Hệ thống dạng cây các dây thần kinh vào (gọi la dendride)

e_ Đầu dây thần kinh ra (gọi là axon): nối với các dây thần kinh vào hoặc

với nhân tế bào của nơron khác thông qua các khớp nối (gọi là synapse)

Trang 11

e Chức năng cơ bản của các tế bào nơron là liên kết với nhau dé tạo nên hệ

thống thần kinh điều khiến hoạt động của cơ thê song

2.2.1.2 Nơron nhân tạo

Với mục đích tạo ra một mô hình tính toán phỏng theo cách làm việc của

noron trong bộ não con người, vao năm 1943, các tác giả McCulloch va Pitts Error! Reference source not found đã đê xuât một mô hình toán cho một nơron

như sau:

Các tín hiệu dau

Trang 12

2.2.1.3 Các hàm kích hoạt thông dung

Một số hàm kích hoạt thường sử dụng trong các mô hình mạng noron đượcđưa ra trong Bảng 2.1 (Kantardzic, 2011Error! Reference source not found.)

Bang 2.1 Một số ham kích hoạt phố biến

A Ham

Hàm ngưỡng |Hard Limit (còn có f(x) = R néu x > 0 1 hardlim

các tên gọi khác là 0 nếu x < 0

Hàm tuyến Saturating Linear 1 nếu x > 1 satlin

tinh bao hoa f(x) = )x nếu 0 < x < 1

0 nếu x < 0

Hàm tuyến Symmetric 1 nếu x > 1 hog satlins

tính bão hòa|SaturatingLinear |Ý(*) = yx nếu ~isxsl Sf

đối xứng —1 nếu x < —1

Hàm sigmoid|Log-Sigmoid _ if logsig

đơn cực ƒ@)= 1+e~* —_.

Ham sigmoid|Hyperbolic Tangent (x) = e*—e~* 3 tansig

lưỡng cực Sigmoid fe) = ex+e*

2.2.2 M6 hinh mang noron nhan tao

2.2.2.1 Phân loại theo số lớp

Dựa theo số lớp thì mạng mạng nơron gồm 2 loại: mạng một lớp và mạng

nhiều lớp

e Mang một lớp

e Mang nhiều lớp

Trang 13

2.2.2.2 Phân loại theo liên kết giữa các lớp

e Mạng truyền thang (feed-forward neural network): Dòng dữ liệu đầu

vào từ các nơron đầu vào đến các noron đầu ra chỉ được truyền thăng

bias bias Xo

x; O Vy

xX; J2

Ww - Wy Input Layer J’ Hidden Layer Output Layer

Hình 2.5 Mang noron truyền thang

e Mang hồi quy (recurrent neural network): Khác với mạng truyền

thang, mạng hồi quy có chứa các liên kết ngược từ một đơn vị đến các

đơn vi ở lớp trước nó.

Input Layer Hidden Layer Output Layer

Hình 2.6 Mang noron hồi quy2.2.2.3 Huấn luyện mang noron nhân tạo

Rất nhiều thuật toán huấn luyện đã được phát minh dé tìm ra tập trọng số tối

ưu làm giải pháp cho các bài toán Các thuật toán đó có thé chia làm hai nhóm

chính: Hoc có giám sát (Supervised learning) và Học không có giám sát(Unsupervised Learning) và một nhóm kết hợp là Hoc tang cường (ReinforcementLearning)

2.2.2.4 Kha năng ứng dụng của mạng noron nhân tạo

Mạng noron nhân tạo đã được sử dụng dé giải quyết nhiều bài toán:

Trang 14

e_ Bài toán phân lớp: Giải quyết van đề phân loại các đối tượng quan sát

được thành các nhóm dựa trên các đặc điểm của các nhóm đối tượng đó

e Bài toán dự báo

e Bai toán điều khiến và tối ưu hóa2.2.3 Mạng noron truyền thắng nhiều lớp (Multilayer Perceptron)

Mạng truyền thắng da tang là một trong các mang phố biến và quan trọng

nhất trong các ứng dụng của mạng nơron, bao gồm một tập các đầu vào tạo nên tầng

đầu vào của mạng, một hoặc nhiều hơn các tầng ấn của các nút tính toán, và cuốicùng một tầng đầu ra Dạng của mạng noron nhân tạo như vậy được gọi là

“Perceptron đa tầng” (Multilayer Perceptron)

MLP đã được ứng dụng thành công dé giải quyết một số các bài toán khó và

đa dạng bằng việc huấn luyện mạng dưới dạng có giám sát với một thuật giải đượcnhiều người biết đến là giải thuật lỗi lan truyền ngược

2.2.3.1 Perceptron

2.2.3.1.1 Cấu trúc Perceptron

Perceptron là nơron đầu tiên được mô tả dưới dạng giải thuật do Rosenblalt

đề xuất năm 1958 Error! Reference source not found Mạng Perceptron một lớp

là mạng truyền thăng chỉ một lớp vào và một lớp ra không có lớp ân Rosenblatt sử

dụng hàm ngưỡng (Hard Lim) đóng vai trò là hàm kích hoạt.

1 nếu net; > bị với net; = Vw jx; là tông

Output

Inputs < %

Hard limiter

Hình 2.7 Perceptron có hàm kích hoạt là hàm ngưỡng

Trang 15

2.2.3.1.2 Luật học Perceptron (Perceptron Learning Rule)

Dé đơn giản trong quá trình học, ta sử dung dạng biểu diễn không có ngưỡng(như mô tả ở 2.2.1.2) đề mô tả luật học Perceptron

Dau ra tinh toan Đầu ra mong muốn

Hình 2.8 Mang Perceptron một lớp (Singlelayer Perceptron) Việc hoc cho mang Perceptron don hoặc Perceptron một lớp được thực hiện theo luật học có giám sát Perceptron (Perceptron Learning Rule).

Đầu vào giải thuật:

o x) = [x , ve x4 | là dau vào tương ứng

Yêu cầu kết quả:

` T `

e Đầu ra tính toán được y“ = Ly, ys, ¬ y?] ứng với dau vào x

sẽ băng với dau ra của mẫu học d®9

m

k k k k

yf = (net) = FC wyxl) = af (2.8)

j=l

với i=1, 2, , n là các dau ra; k=1,2, , p là các mau

Các bước học Perceptron: Các trọng sô được gan giá trị ngẫu nhiên sau đóhiệu chỉnh các trọng số cho phù hợp với mau học dé làm giảm sai số y® và d®:

e Xác định ngẫu nhiên bộ trọng SỐ

Tiêu đề	Ứng dụng khai phá dữ liệu dự đoán thuê bao mạng MobiFone có nguy cơ rời mạng
Tác giả	Nguyễn Danh Nam
Trường học	Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành	Công nghệ thông tin
Thể loại	Luận văn Thạc sĩ
Năm xuất bản	2015
Thành phố	Hà Nội

Định dạng
Số trang	27
Dung lượng	5,71 MB