HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Nguyễn Danh Nam
ỨNG DỤNG KHAI PHÁ DỮ LIỆU
DU DOAN THUÊ BAO MẠNG MOBIFONE CÓ NGUY CƠ RỜI MẠNG
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2015
Trang 2Luận văn được hoàn thành tại:
-HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG
Phản biện 1: Q2 2n noPhản biện 1: tees eee 2v.
Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ tại Học viện
Công nghệ Bưu chính Viễn Thông
Có thê tìm hiệu luận van tai:
- Thu viện cua Học viện Công nghệ Bưu chính Viễn Thông
Trang 3MỞ ĐÀU
Cơ sở dữ liệu trong các đơn vị, tổ chức kinh doanh, quản lý khoa học chứa
đựng nhiều thông tin tiềm ân, phong phú và đa dạng, đòi hỏi phải có những phương pháp nhanh, phù hợp, chính xác, hiệu qua dé lấy được những thông tin bổ ích Những “tri thức” chiết suất từ nguồn cơ sở dữ liệu trên sẽ là nguồn thông tin hỗ trợ
cho lãnh đạo trong việc lên kế hoạch hoạt động hoặc trong việc ra quyết định sản xuất kinh doanh Tiến hành công việc như vậy chính là thực hiện quá trình phát hiện
tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database) mà trong đó kỹ
thuật khai phá đữ liệu (Data Mining) cho phép phát hiện những tri thức tiềm ân.
Hai mươi năm qua ghi nhận một thời gian dài phát triển sôi động, vượt bậc
của ngành công nghiệp viễn thông nói chung và thông tin di động nói riêng.
Bước sang những năm đầu của thập kỷ mới, cùng với sự bão hòa của số lượng thuê bao toàn thị trường, những thách thức đang dan trở nên thực tế hơn, đòi
hỏi MobiFone phải có những sự theo dõi sát sao hơn với tính hình kinh doanh Việc
phát triển thuê bao mà ngay cả việc giữ thuê bao cũng trở nên cấp bách.
Do đó việc dự đoán được chính xác các khách hàng có nguy cơ rời mạng
(cham dứt, kết thúc sử dụng dịch vụ), từ đó phân tích, đánh giá nguyên nhân cũng như có các chính sách chăm sóc khách hàng phù hợp dé giữ được khách hàng, tiếp
tục trung thành và sử dụng dịch vụ, đóng góp doanh thu cho nhà mạng có ý nghĩa
rất lớn đối với sự sông còn và phát triển của mạng MobiFone nói riêng và các nhà mạng khác nói chung.
Với mục đích áp dụng các kiến thức công nghệ thông tin vào công việc thực tế tại Công ty, người thực hiện xin chọn đề tài nghiên cứu “Ứng dụng khai phá dữ liệu dự đoán thuê bao mạng MobiFone có nguy cơ rời mạng” Đề tài sẽ kết hợp các
kỹ thuật khai phá dữ liệu với các hiểu biết về dit liệu khách hàng MobiFone dé xây
dựng một mô hình dự đoán các thuê bao MobiFone có xu hướng rời mạng hay
không dé từ đó phục vụ cho các nghiệp vụ chăm sóc khách hàng, khuyến mại, duy trì khách hàng của Mạng MobiFone.
Trang 4CHUONG 1 TONG QUAN VE KHAI PHA DU LIEU
Định nghĩa khai pha dữ liệu
Gartner group định nghĩa “Khai phá dữ liệu là quá trình khám pha các tương quan, mô hình và các xu thế mới có ý nghĩa bằng việc dịch chuyển thông qua lượng lớn các dt liệu được lưu trữ, và sử dụng các công nghệ nhận dạng mô hình cũng
như các công nghệ thong kê, toán” Error! Reference source not found.
Khai phá tri thức (KDD-Knowledge Discovery in Databases) là mục tiêu
chính của khai phá dữ liệu, do vậy hai khái niệm đó được xem như hai lĩnh vực
tương đương nhau Nhưng, nếu phân chia một cách tách bạch thì khai phá dữ liệu là
một bước chính trong quá trình khai phá tri thức.
Ứng dụng của khai phá dữ liệu
Sau đây là một số lĩnh vực áp dụng thành công kỹ thuật khai phá dữ liệu:
e Phân tích dữ liệu và hỗ trợ ra quyết định
e Linh vực tài chính và ngân hàng e_ Chăm sóc sức khỏe và y tế
e Viễn thông
e Text mining and web mining
e Linh vuc khoa hoc
Qua trình khai phá dữ liệu
Hình 1.1 Quá trình khai pha tri thức trong cơ sở dữ liệu
Trang 5Quá trình khai phá tri thức trong cơ sở dữ liệu có thể phân thành các giai
đoạn sau (theo Han & Kamber Error! Reference source not found.):
1 Tiền xử lý dữ liệu 2 Khai phá dữ liệu
3 Đánh giá và thé hiện tri thức
Kiến trúc của hệ thống khai phá dữ liệu
Theo Han & Kamber, kiến trúc của hệ thống khai phá dữ liệu điển hình bao gồm các thành phan chính sau đây Error! Reference source not found.:
e Cơ sở dit liệu, kho dit liệu, web hoặc những hệ thống thông tin khác
e Mdy chủ cơ sở dit liệu hoặc kho dữ liệu
e_ Tri thức nên tang (knowledge base)
e Máy khai phá dit liệu (data mining engine)e Module đánh gia mô hình
e Giao diện người sử dung
Hình 1.2 Kiến trúc của hệ thống khai phá dữ liệu điển hình
Một số phương pháp khai phá dữ liệu thông dụng
15.I — Phânlớp
Phân lớp là quá trình xây dựng một mô hình đề mô tả dit liệu được phân chia như thế nào, nói cách khác, phân lớp là quá trình xây dựng một mô hình băng cách
gán các đối tượng dir liệu (thuộc tính) vào các lớp đã xác định.
Trang 6Đánh giá độ chính xác thuật toán phân lớp 1.6.1 Kỹ thuật kiểm tra
e Phương pháp holdout: dit liệu đưa ra được phân chia ngẫu nhiên thành 2
phan: tập dit liệu huấn luyện và tap dit liệu kiểm tra.
e_ Phương pháp k-fold cross validation, tập dữ liệu ban đầu được chia ngẫu nhiên thành k tập con (fold) có kích thước xấp xỉ nhau Si, Sa, , Sk Lần
lượt sử dụng từng tập như tập kiểm tra, phần còn lại là dữ liệu huấn luyện
1.0.2 Độ đo chính xác
Giả sử ta có bài toán phân lớp với dau ra là 02 lớp Tốt/Xâu (hoặc Dung/Sai), kết qua phân lớp trên tập mẫu so với thực tế có 4 khả năng thể hiện như Bang 1.1.
Bảng này được gọi là ma trận sai sô (confusion matrix).
Bảng 1.1 Các khả năng phân lớp của bài toán phân loại 2 lớp.
Lép dự đoán (predicted class)
: Tốt Xấu
„ £ Tot True Positive (TP) False Negative (FN)
Lớp thực tê (actual class) Xấu False Positive (FP) True Negative (TN)
Ta có các độ đo đánh giá hiệu quả của kết quả phân loại như sau:
Tên độ đo Công thức Diễn giải
Độ chính xác TP+TN Tỷ lệ các mẫu được phân lớp
Accuracy = TP+TN + FP + EN | đúng trên toàn bộ tập mẫu
Tỷ lệ lỗi Error Rate = FP+FN Ty lệ các mẫu được phân lớp
~ TP +TN+FP+FN | Sai trên toàn bộ tập mau
Độ bao phủ Recall = TP Ty lệ các mau phân lớp Tối
TP +FN đúng trên toan bộ các mau
thực sự thuộc phân lớp Tốt
Tỷ lệ chính xác Precision = TP Ty lệ các mau phân lớp Tốt
_—TP+FP đúng trên toàn bộ các mau dự
đoán phân lớp Tốt
Trang 7CHUONG 2 KY THUAT PHAN LỚP DỰA TRÊN CÂY
QUYET ĐỊNH VA MẠNG NƠRON NHÂN TAO
Trong chương này sẽ giới thiệu hai kỹ thuật phân lớp được sử dụng phô biến
được áp dụng trong luận văn là: kỹ thuật cây quyết định và mạng noron.
Cây quyết định
Định nghĩa
Cây quyết định là cau trúc biéu diễn dưới dạng cây, trong đó, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân
loại đó:
Nút trên cùng của cây gọi là gốc (root).
Mỗi núi trong (internal node) biéu diễn một thuộc tinh,
Nhánh (branch) biễu diễn giá trị có thê có của thuộc tính Mỗi /⁄ (leaf node) biểu diễn các lớp quyết định
Đề phân lớp mau dữ liệu chưa biết, giá trị các thuộc tính của mẫu được đưa
vào kiểm tra trên cây quyết định.
Hình 2.1 Ví dụ cây quyết định chơi tennis Phương pháp xây dựng cây quyết định
Quá trình xây dựng cây quyết định gồm hai giai đoạn:
Giay đoạn thứ nhat-phat triển cây quyết định
Giai đoạn thứ hai-cắt, tỉa bớt các cành nhánh trên cấy quyết định.
Các thuật toán phân lớp như ID3 (Quinlan, 1986 Error! Reference source
not found.) , C4.5 (Quinlan, 1993 Error! Reference source not found.), CART
Trang 8(Breiman, 1984 Error! Reference source not found.) và SPRINT (Shafer và cộng sự, 1996 Error! Reference source not found.) đều sử dụng phương pháp của Hunt Error! Reference source not found làm tư tưởng chu dao.
Giả sử xây dung cây quyết định từ T là tap dữ liệu huấn luyện và các lớp
được biểu diễn dưới dạng tập C = {C¡, Cạ, , Cy}
- Khoi đầu: nút hiện thời là nút gốc chứa toàn bộ tập dữ liệu huấn luyện
- Tại nút hiện thời n, lựa chọn thuộc tính: o Chưa được sử dụng ở nút tô tiên
Cho phép phân chia tập dữ liệu hiện thời thành các tập con một cách
tốt nhất
Với mỗi giá trị thuộc tính được chọn thêm một nút con bên dưới
© 0 0 0 Chia các ví dụ ở nút hiên thời về các nút con theo giá trị thuộc tính
o được chọn
- Lap (đệ quy) cho tới khi:
o_ Tất cả các thuộc tính đã được sử dụng ở các nút phía trên, hoặc o_ Tất cả ví dụ tại nút hiện thời có cùng nhãn phân loại
o Nhãn của nút được lay theo da số nhãn của ví du tai nút hiện thời
Hình 2.2 Giải thuật xây dựng cây Hunt
2.1.3 Thuật toán ID3
2.1.3.1 Mô tả thuật toán
Trên cơ sở Entropy, thuật toán tính độ tăng thông tin như mức tăng độ đồng nhất, từ đây xác định thuộc tính tốt nhất tại mỗi nút.
Trang 9H(S)= -> pilog2 (pi) = >) x mi (2.2)
e_ Độ tăng thông tin (Information Gain, ký hiệu IG) là chỉ số đánh giá độ tốt của thuộc tính trong việc phân chia tập dữ liệu thành những tập con
I6G,4)=H@)— Yay @3)
Trong do:
- § là tập dt liệu ở nút hiện tại
- A là thuộc tính được sử dụng dé đánh giá độ tốt phân chia
- Values(A) là tập các giá trị của A
- Sy là tập mau con của S có các giá trị thuộc tinh A bằng v
- [Sl và I§vI là số phần tử của các tập ISI, ISv| tương ứng
Thuộc tính được lựa chọn là thuộc tính mang lại độ tăng thông tin lớn nhất.
2.1.3.2 Ví dụ minh họa
2.1.4 Thuật toán C4.5
C4.5 là thuật toán dùng để xây dựng cây quyết định được đề xuất bởi
Quinlan năm 1993 [4], là mở rộng của ID3 Đặc điểm của C4.5: - Cho phép dữ liệu đầu vào ở các thuộc tính là liên tục
- Cho phép thao tác với các thuộc tính có dữ liệu không xác định (do bị mất mát dữ liệu)
- _ Đưa ra phương pháp cắt tỉa cây và giản lược các luật để phù hợp với những
bộ dữ liệu lớn
2.1.4.1 Độ do GainRatio
Độ do GainRatio được sử dung trong thuật toán C4.5 là cải tiễn của thuật
toán ID3 và được xây dựng bởi Quinlan [4].
e Độ đo này giải quyết van đề thuộc tính có nhiều giá trị: Thành phan thông tin chia (Split Information-SI) được bồ sung dé phạt các thuộc tính có nhiều giá trị:
+ Sil I5I
e Tiêu chuẩn đánh giá thuộc tính GainRatio duoc xác định bằng cách chia
độ tăng thông tin cho thông tin chia
Trang 10GR(S,A) = SI(S,A) (2.5)
2.1.4.2 Biểu diễn cây quyết định dưới dạng luật
Ví dụ, chuyên đổi từ cây quyết định được xây ở thuật toán ID3 sang tập luật
Luật 1 Nếu "Trời =Luật 2 Nếu "Trời =
Luật 3 Nếu "Trời = U ám" then "Không chơi".
Luật 4 Nếu "Trời = Mưa" Và "Gió = Mạnh" Thì "Không chơi".Luật 5 Nếu "Troi = Mua" Và "Gió = Yếu" Thi "Choi".
Ngoài ra, “Chơi” là lớp mặc định.
Nắng" Và "Độ ẩmNắng" Và “Độ ẩm
Cao" Thì "Không choi".
Bình thường” Thì "Choi".
2.1.5 Một số vẫn đề trong khai phá dữ liệu sử dụng cây quyết đỉnh
2.1.5.1 Tránh qua vừa dữ liệu
2.1.5.2 Xứ lý thuộc tính liên tục
Mạng nơron nhân tạo
2.2 Mang noron nhân tao được giới thiệu năm 1943 bởi nhà thần kinh học
Warren McCulloch va nhà logic học Walter Pits Error! Reference source not
found Mạng noron nhân tao được coi là một công cụ mạnh dé giải quyết các bài
toán có tính phi tuyến, phức tạp và đặc biệt trong các trường hợp mà mối quan hệ
giữa các quá trình không dễ thiết lập một cách tường minh.
2.2.1 Khái niệm cơ bản
Cell body or Soma
Hình 2.3 Cau tao của tế bào noron sinh học
Hệ thống thần kinh của con người bao gồm khoảng 100 tỷ tế bào thần kinh, thường gọi là các noron Mỗi tế bào noron gồm 3 phan:
e Thân noron (gọi là soma), là nơi tiếp cận hay phát ra các xung thần kinh
e Hệ thống dạng cây các dây thần kinh vào (gọi la dendride).
e_ Đầu dây thần kinh ra (gọi là axon): nối với các dây thần kinh vào hoặc với nhân tế bào của nơron khác thông qua các khớp nối (gọi là synapse).
Trang 11e Chức năng cơ bản của các tế bào nơron là liên kết với nhau dé tạo nên hệ
thống thần kinh điều khiến hoạt động của cơ thê song.
2.2.1.2 Nơron nhân tạo
Với mục đích tạo ra một mô hình tính toán phỏng theo cách làm việc của
noron trong bộ não con người, vao năm 1943, các tác giả McCulloch va PittsError! Reference source not found đã đê xuât một mô hình toán cho một nơron
Hình 2.4 Mô hình nơron nhân tao có ngưỡng
Xét vé mặt toán học, câu trúc của một noron i, được mô tả băng cặp biêu
Trang 122.2.1.3 Các hàm kích hoạt thông dung
Một số hàm kích hoạt thường sử dụng trong các mô hình mạng noron được đưa ra trong Bảng 2.1 (Kantardzic, 2011Error! Reference source not found.)
Bang 2.1 Một số ham kích hoạt phố biến
A Ham
Hàm ngưỡng |Hard Limit (còn có f(x) = R néu x > 0 1 hardlim
các tên gọi khác là 0 nếu x < 0
Hàm tuyến Saturating Linear 1 nếu x > 1 satlin
tinh bao hoa f(x) = )x nếu 0 < x < 1
0 nếu x < 0
Hàm tuyến Symmetric 1 nếu x > 1 hog satlins
tính bão hòa|SaturatingLinear |Ý(*) = yx nếu ~isxsl Sf
đối xứng —1 nếu x < —1
Hàm sigmoid|Log-Sigmoid _ if logsig
đơn cực ƒ@)= 1+e~* —_.
Ham sigmoid|Hyperbolic Tangent (x) = e*—e~* 3 tansig
lưỡng cực Sigmoid fe) = ex+e*
2.2.2 M6 hinh mang noron nhan tao
2.2.2.1 Phân loại theo số lớp
Dựa theo số lớp thì mạng mạng nơron gồm 2 loại: mạng một lớp và mạng
nhiều lớp
e Mang một lớp
e Mang nhiều lớp
Trang 132.2.2.2 Phân loại theo liên kết giữa các lớp
e Mạng truyền thang (feed-forward neural network): Dòng dữ liệu đầu
vào từ các nơron đầu vào đến các noron đầu ra chỉ được truyền thăng.
Input Layer J’ Hidden Layer Output Layer
Hình 2.5 Mang noron truyền thang
e Mang hồi quy (recurrent neural network): Khác với mạng truyền
thang, mạng hồi quy có chứa các liên kết ngược từ một đơn vị đến các
đơn vi ở lớp trước nó.
Input Layer Hidden Layer Output Layer
Hình 2.6 Mang noron hồi quy 2.2.2.3 Huấn luyện mang noron nhân tạo
Rất nhiều thuật toán huấn luyện đã được phát minh dé tìm ra tập trọng số tối
ưu làm giải pháp cho các bài toán Các thuật toán đó có thé chia làm hai nhóm
chính: Hoc có giám sát (Supervised learning) và Học không có giám sát (Unsupervised Learning) và một nhóm kết hợp là Hoc tang cường (Reinforcement Learning)
2.2.2.4 Kha năng ứng dụng của mạng noron nhân tạo
Mạng noron nhân tạo đã được sử dụng dé giải quyết nhiều bài toán:
Trang 14e_ Bài toán phân lớp: Giải quyết van đề phân loại các đối tượng quan sát được thành các nhóm dựa trên các đặc điểm của các nhóm đối tượng đó.
e Bài toán dự báo
e Bai toán điều khiến và tối ưu hóa
2.2.3 Mạng noron truyền thắng nhiều lớp (Multilayer Perceptron)
Mạng truyền thắng da tang là một trong các mang phố biến và quan trọng
nhất trong các ứng dụng của mạng nơron, bao gồm một tập các đầu vào tạo nên tầng
đầu vào của mạng, một hoặc nhiều hơn các tầng ấn của các nút tính toán, và cuối cùng một tầng đầu ra Dạng của mạng noron nhân tạo như vậy được gọi là
“Perceptron đa tầng” (Multilayer Perceptron)
MLP đã được ứng dụng thành công dé giải quyết một số các bài toán khó và đa dạng bằng việc huấn luyện mạng dưới dạng có giám sát với một thuật giải được nhiều người biết đến là giải thuật lỗi lan truyền ngược
2.2.3.1 Perceptron
2.2.3.1.1 Cấu trúc Perceptron
Perceptron là nơron đầu tiên được mô tả dưới dạng giải thuật do Rosenblalt đề xuất năm 1958 Error! Reference source not found Mạng Perceptron một lớp là mạng truyền thăng chỉ một lớp vào và một lớp ra không có lớp ân Rosenblatt sử
dụng hàm ngưỡng (Hard Lim) đóng vai trò là hàm kích hoạt.
1 nếu net; > bị với net; = Vw jx; là tông
Trang 152.2.3.1.2 Luật học Perceptron (Perceptron Learning Rule)
Dé đơn giản trong quá trình học, ta sử dung dạng biểu diễn không có ngưỡng (như mô tả ở 2.2.1.2) đề mô tả luật học Perceptron.
Dau ra tinh toan Đầu ra mong muốn
Hình 2.8 Mang Perceptron một lớp (Singlelayer Perceptron)
Việc hoc cho mang Perceptron don hoặc Perceptron một lớp được thực hiệntheo luật học có giám sát Perceptron (Perceptron Learning Rule).
Đầu vào giải thuật:
o x) = [x , ve x4 | là dau vào tương ứng
Yêu cầu kết quả:
` T `
e Đầu ra tính toán được y“ = Ly, ys, ¬ y?] ứng với dau vào x
sẽ băng với dau ra của mẫu học d®9
k k k k
yf = (net) = FC wyxl) = af (2.8)
với i=1, 2, , n là các dau ra; k=1,2, , p là các mau
Các bước học Perceptron: Các trọng sô được gan giá trị ngẫu nhiên sau đó hiệu chỉnh các trọng số cho phù hợp với mau học dé làm giảm sai số y® và d®:
e Xác định ngẫu nhiên bộ trọng SỐ