1. Trang chủ
  2. » Luận Văn - Báo Cáo

NGHIÊN CỨU KHAI PHÁ DỮ LIỆU DỰ BÁO KHÁCH HÀNG CÓ KHẢ NĂNG RỜI MẠNG VNPT

80 1,4K 14

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 80
Dung lượng 1,68 MB

Nội dung

NGHIÊN CỨU KHAI PHÁ DỮ LIỆU DỰ BÁO KHÁCH HÀNG CÓ KHẢ NĂNG RỜI MẠNG VNPT Luận văn nghiên cứu về các phương pháp phân lớp trong khai phá dữ liệu dùng để phân lớp, dự đoán các đoán các thuê bao của tập đoàn bưu chính viễn thông VNPT có khả năng rời mạng hay không. Xây dựng tool xử dụng thuật toán Bayes phân lớp khách hàng, dự đoán khách hàng có khả năng rời mạng.

Trang 1

NGHIÊN CỨU KHAI PHÁ DỮ LIỆU DỰ BÁO KHÁCH HÀNG

CÓ KHẢ NĂNG RỜI MẠNG VNPT

Chuyên ngành: Hệ thống thông tin

LUẬN VĂN THẠC SĨ KỸ THUẬT

Hà Nội - Năm 2015

Trang 3

Luận văn thạc sĩ được bảo vệ tại:

Tôi xin cam đoan:

Những kết quả nghiên cứu được trình bày trong luận văn là hoàn toàntrung thực, của tôi, không vi phạm bất cứ điều gì trong luật sở hữu trí tuệ vàpháp luật Việt Nam Nếu sai, tôi hoàn toàn chịu trách nhiệm trước pháp luật

TÁC GIẢ LUẬN VĂN

Trang 4

MỤC LỤC

Trang

Trang phụ bìa

Bản cam đoan

Mục lục

Tóm tắt luận văn

Danh mục các ký hiệu, viết tắt, các bảng, các hình vẽ MỞ ĐẦU 1

Cơ sở khoa học và tính thực tiễn của đề tài: 1

a Cơ sở khoa học: 1

b Tính thực tiễn 1

c Mục tiêu của đề tài 3

d Phương pháp nghiên cứu 3

1.1 Tìm hiểu về khai phá dữ liệu 4

1.1.1.Mục tiêu, nguồn gốc của khai phá dữ liệu 4

1.1.2.Lý do khai phá dữ liệu [12] 5

1.2.Quá trình khai phá dữ liệu 6

1.2.1.Tiền xử lý dữ liệu 7

1.2.2.Xây dựng và xác nhận mô hình 7

1.2.3.Áp dụng và đánh giá mô hình 8

1.3 Các kỹ thuật khai phá dữ liệu 8

1.3.1.Phân lớp 9

1.3.2.Phân cụm 9

1.3.3.Luật kết hợp 10

1.3.4.Mẫu tuần tự 10

1.3.5.Cây quyết định (Decision tree) và luật (Rule) 11

1.3.6.Phương pháp dựa trên mẫu (Based-on Pattern) 14

Trang 5

1.3.7.Phương pháp phụ thuộc trên đồ thị xác suất (Depending based-on

Probability Graph) 14

1.3.8.Mạng Nơron (Neuron Network) 15

1.3.9.Thuật giải di truyền (Genetic Algorithm) 15

1.4 Ứng dụng, thách thức và hướng phát triển của KPDL 16

1.5 Kết luận chương 1 16

2.1 Một số ứng dụng data mining trong viễn thông 17

2.1.1 Phát hiện gian lận (fraud detection) 17

2.1.2 Các ứng dụng quản lý và chăm sóc khách hàng 17

2.1.3 Các ứng dụng phát hiện và cô lập lỗi trên hệ thống mạng viễn thông (Network fault isolation) 19

2.2 Nghiên cứu CSDL của mạng di động VNPT 19

2.2.1 Các tập CSDL quản lý thuê bao liên quan đến bài toán 20

2.2.2 Phân lớp dự đoán xu hướng khách hàng 21

2.2.3 Thuật toán K-Nearest Neighbors [16] 32

2.2.4 Phân lớp Bayes 36

2.2.5 Thực nghiệm, đánh giá chung và so sánh của các thuật toán [11] 40 2.3 Kết luận chương 2 47

3.1 Áp dụng data mining để dự đoán trước ý định rời khỏi mạng của khách hàng 49

3.1.1 Cách giải quyết yêu cầu bài toán 49

3.1.2 Phương pháp triển khai 49

3.1.3 Nội dung triển khai 49

3.1.4 Xây dựng tập CSDL huấn luyện 50

3.2 Xây dựng ứng dụng 57

3.2.1 Giới thiệu 57

3.2.2 Quá trình phát triển 58

Trang 6

3.2.3 Xây dựng Chương trình 58

3.2.4 Đánh giá 62

3.3 Kết luận chương 3 62

1 Kết luận 63

2 Hướng phát triển tiếp theo 63

TÀI LIỆU THAM KHẢO 65

Trang 7

TÓM TẮT LUẬN VĂN THẠC SĨ

Họ và tên học viên: Nguyễn Đức Anh

Cán bộ hướng dẫn: TS Nguyễn Hoàng Sinh

Tên đề tài: NGHIÊN CỨU KHAI PHÁ DỮ LIỆU DỰ BÁO KHÁCH HÀNG CÓ KHẢ NĂNG RỜI MẠNG VNPT

+ Tóm tắt:

Luận văn nghiên cứu về các phương pháp phân lớp trong khai phá dữliệu dùng để phân lớp, dự đoán các đoán các thuê bao của tập đoàn bưu chínhviễn thông VNPT có khả năng rời mạng hay không

Sử dụng cơ sở dữ liệu SQL server để thiết kế, phân tích dữ liệu, lựa chọncác thuộc tính có ích cho việc dự đoán để tạo bảng cơ sở dữ liệu huấn luyện

Sử dụng thuật toán phân lớp Bayes để dự đoán một thuê bao cụ thể có khảnăng rời khỏi mạng hay không

Trang 9

Cơ sở khoa học và tính thực tiễn của đề tài: 1

a Cơ sở khoa học: 1

b Tính thực tiễn 1

c Mục tiêu của đề tài 3

d Phương pháp nghiên cứu 3

1.1 Tìm hiểu về khai phá dữ liệu 4

1.1.1.Mục tiêu, nguồn gốc của khai phá dữ liệu 4

Hình 1.1 Nguồn gốc khai phá dữ liệu 5

1.1.2.Lý do khai phá dữ liệu [12] 5

1.2.Quá trình khai phá dữ liệu 6

1.2.1.Tiền xử lý dữ liệu 7

1.2.2.Xây dựng và xác nhận mô hình 7

1.2.3.Áp dụng và đánh giá mô hình 8

1.3 Các kỹ thuật khai phá dữ liệu 8

1.3.1.Phân lớp 9

1.3.2.Phân cụm 9

1.3.3.Luật kết hợp 10

1.3.4.Mẫu tuần tự 10

1.3.5.Cây quyết định (Decision tree) và luật (Rule) 11

Bảng 1.1 Bảng training Data 12

Hình 1.2 Cây quyết định từ bảng training data 12

Bảng 1.2 Bảng testing Data 13

Bảng 1.3 Kết quả phân lớp bằng cây quyết định 13

1.3.6.Phương pháp dựa trên mẫu (Based-on Pattern) 14

1.3.7.Phương pháp phụ thuộc trên đồ thị xác suất (Depending based-on Probability Graph) 14

Trang 10

1.3.8.Mạng Nơron (Neuron Network) 15

1.3.9.Thuật giải di truyền (Genetic Algorithm) 15

1.4 Ứng dụng, thách thức và hướng phát triển của KPDL 16

1.5 Kết luận chương 1 16

2.1 Một số ứng dụng data mining trong viễn thông 17

2.1.1 Phát hiện gian lận (fraud detection) 17

2.1.2 Các ứng dụng quản lý và chăm sóc khách hàng 17

2.1.3 Các ứng dụng phát hiện và cô lập lỗi trên hệ thống mạng viễn thông (Network fault isolation) 19

2.2 Nghiên cứu CSDL của mạng di động VNPT 19

2.2.1 Các tập CSDL quản lý thuê bao liên quan đến bài toán 20

2.2.2 Phân lớp dự đoán xu hướng khách hàng 21

Hình 2.1 Xây dựng Mô hình huấn luyện 23

Hình 2.2 Sử dụng mô hình huấn luyện để dự đoán 25

2.2.3 Thuật toán K-Nearest Neighbors [16] 32

Hình 2.3 Traning samples thuật toán KNN 34

Hình 2.4 Sắp xếp khoảng cách thuật toán KNN 35

Hình 2.5 Kết quả ví dụ thuật toán KNN 35

2.2.4 Phân lớp Bayes 36

Hình 2.6 Dữ liệu quan sát D và tập giả thiết h 37

Bảng 2.1 Mối quan hệ giữa 2 biến thu nhập và loại xe hơi 38

Bảng 2.3 Bảng phần trăm theo dòng 39

Bảng 2.6 Các giá trị trong bảng phần trăm theo cột 40

2.2.5 Thực nghiệm, đánh giá chung và so sánh của các thuật toán [11] 40 Bảng 2.7 Bảng so sánh ưu điểm của các thuật toán 41

Bảng 2.8 So sánh các tính năng của các thuật toán 41

Trang 11

Bảng 2.10 Bảng cơ sở dữ liệu sử dụng dịch vụ 45

2.3 Kết luận chương 2 47

3.1 Áp dụng data mining để dự đoán trước ý định rời khỏi mạng của khách hàng 49

3.1.1 Cách giải quyết yêu cầu bài toán 49

3.1.2 Phương pháp triển khai 49

3.1.3 Nội dung triển khai 49

3.1.4 Xây dựng tập CSDL huấn luyện 50

Hình 3.1 Kiến trúc hệ thống phân lớp 54

Bảng 3.1 Bảng chi tiết cuộc gọi (CDR’s) 55

Bảng 3.2 Bảng cơ sở dữ liệu tính cước 55

Bảng 3.3 Bảng thông tin khách hàng 56

Bảng 3.4 Bảng thông tin tổng hợp khách hàng 56

3.2 Xây dựng ứng dụng 57

3.2.1 Giới thiệu 57

3.2.2 Quá trình phát triển 58

3.2.3 Xây dựng Chương trình 58

Hình 3.3 Cơ sở dữ liệu huấn luyện 59

3.2.4 Đánh giá 62

3.3 Kết luận chương 3 62

1 Kết luận 63

2 Hướng phát triển tiếp theo 63

TÀI LIỆU THAM KHẢO 65

Trang 12

DANH MỤC HÌNH VẼ

Trang

Cơ sở khoa học và tính thực tiễn của đề tài: 1

a Cơ sở khoa học: 1

b Tính thực tiễn 1

c Mục tiêu của đề tài 3

d Phương pháp nghiên cứu 3

1.1 Tìm hiểu về khai phá dữ liệu 4

1.1.1.Mục tiêu, nguồn gốc của khai phá dữ liệu 4

Hình 1.1 Nguồn gốc khai phá dữ liệu 5

1.1.2.Lý do khai phá dữ liệu [12] 5

1.2.Quá trình khai phá dữ liệu 6

1.2.1.Tiền xử lý dữ liệu 7

1.2.2.Xây dựng và xác nhận mô hình 7

1.2.3.Áp dụng và đánh giá mô hình 8

1.3 Các kỹ thuật khai phá dữ liệu 8

1.3.1.Phân lớp 9

1.3.2.Phân cụm 9

1.3.3.Luật kết hợp 10

1.3.4.Mẫu tuần tự 10

1.3.5.Cây quyết định (Decision tree) và luật (Rule) 11

Trang 13

Hình 1.2 Cây quyết định từ bảng training data 12

1.3.6.Phương pháp dựa trên mẫu (Based-on Pattern) 14

1.3.7.Phương pháp phụ thuộc trên đồ thị xác suất (Depending based-on Probability Graph) 14

1.3.8.Mạng Nơron (Neuron Network) 15

1.3.9.Thuật giải di truyền (Genetic Algorithm) 15

1.4 Ứng dụng, thách thức và hướng phát triển của KPDL 16

1.5 Kết luận chương 1 16

2.1 Một số ứng dụng data mining trong viễn thông 17

2.1.1 Phát hiện gian lận (fraud detection) 17

2.1.2 Các ứng dụng quản lý và chăm sóc khách hàng 17

2.1.3 Các ứng dụng phát hiện và cô lập lỗi trên hệ thống mạng viễn thông (Network fault isolation) 19

2.2 Nghiên cứu CSDL của mạng di động VNPT 19

2.2.1 Các tập CSDL quản lý thuê bao liên quan đến bài toán 20

2.2.2 Phân lớp dự đoán xu hướng khách hàng 21

Hình 2.1 Xây dựng Mô hình huấn luyện 23

Hình 2.2 Sử dụng mô hình huấn luyện để dự đoán 25

2.2.3 Thuật toán K-Nearest Neighbors [16] 32

Hình 2.3 Traning samples thuật toán KNN 34

Hình 2.4 Sắp xếp khoảng cách thuật toán KNN 35

Hình 2.5 Kết quả ví dụ thuật toán KNN 35

2.2.4 Phân lớp Bayes 36

Hình 2.6 Dữ liệu quan sát D và tập giả thiết h 37

2.2.5 Thực nghiệm, đánh giá chung và so sánh của các thuật toán [11] 40 2.3 Kết luận chương 2 47

Trang 14

3.1 Áp dụng data mining để dự đoán trước ý định rời khỏi mạng của

khách hàng 49

3.1.1 Cách giải quyết yêu cầu bài toán 49

3.1.2 Phương pháp triển khai 49

3.1.3 Nội dung triển khai 49

3.1.4 Xây dựng tập CSDL huấn luyện 50

Hình 3.1 Kiến trúc hệ thống phân lớp 54

3.2 Xây dựng ứng dụng 57

3.2.1 Giới thiệu 57

3.2.2 Quá trình phát triển 58

3.2.3 Xây dựng Chương trình 58

Hình 3.3 Cơ sở dữ liệu huấn luyện 59

3.2.4 Đánh giá 62

3.3 Kết luận chương 3 62

1 Kết luận 63

2 Hướng phát triển tiếp theo 63

TÀI LIỆU THAM KHẢO 65

Trang 15

Với những lý do đó, nhu cầu phát triển các kỹ thuật thu thập, lưu trữ, phântích dữ liệu, được đặt ra và nó đòi hỏi phải được xử lý thông minh và hiệu quảhơn Từ đó đã làm phát triển kỹ thuật mới và với kỹ thuật này cho phép ta khaithác được tri thức hữu dụng từ cơ sở dữ liệu lớn được gọi là các kỹ thuật khaiphá dữ liệu (Data Minning – DM) Các kỹ thuật khai phá dữ liệu được ứng dụngtrong nhiều lĩnh vực như: viễn thông, kinh tế, tài chính, y tế, giáo dục, an ninh…

b Tính thực tiễn

Ngày nay, các công ty coi khách hàng là trung tâm Họ cần có một môitrường cho phép hiểu rõ những yêu cầu của khách hàng Nghành công nghiệpviễn thông lưu trữ một khối lượng dữ liệu khổng lồ, bao gồm: Chi tiết cuộcgọi, thông tin cảnh báo tình trạng hệ thống mạng viễn thông và thông tin dữliệu về khách hàng Các công ty viễn thông nắm bắt rất rõ các thông tin vềkhách hàng của mình Họ biết những khách hàng của họ là ai, dễ dàng theodõi những hành vi, thói quen của khách hàng Một tập các hoạt động cho thựchiện công việc để xác định, điều kiện, bổ sung, phát triển, giữ lại những khách

Trang 16

hàng trung thành và lợi nhuận bằng cách cung cấp các sản phẩm hoặc dịch vụtới đúng khách hàng, đúng kênh, đúng thời điểm và giá thành Khi đó một sảnphẩm hoặc một dịch vụ đúng nghĩa là khi sản phẩm hoặc dịch vụ đó phù hợpvới khách hàng đang cần được xem xét Ứng dụng kỹ thuật KPDL để pháthiện ra các quy luật ẩn chứa trong khối dữ liệu khổng lồ đó và đưa ra những

dự đoán, quyết định đúng, sẽ mang lại cho các doanh nghiệp viễn thông nhiều

cơ hội để phát triển các dịch vụ mang tính thực tiễn cao

Lý do cho việc sử dụng KPDL cho công việc dự đoán thuê bao có khảnăng rời bỏ mạng viễn thông:

Thị trường cạnh tranh: Sau nhiều năm là thị trường độc quyền, thị

trường viễn thông ngày nay trở nên rất cạnh tranh Khi thị trường là độcquyền thì hầu như không có biến động, nhưng khi thị trường cạnh tranh quyếtliệt thì mọi thứ sẽ thay đổi liên tục Khách hàng có thể chuyển đổi nhà cungcấp dễ dàng, vì có rất nhiều lựa chọn Vì lý do đó, những công ty viễn thôngcần ứng dụng KPDL để đạt những lợi thế cạnh tranh Bằng cách hiểu nhữnghành vi và thói quen của khách hàng, những công ty viễn thông sẽ đưa ranhững chiến lược quảng bá hiệu quả, đưa ra những sản phẩm mà khách hàng

ưa thích, phát triển khách hàng trung thành và tăng lợi ích cho khách hàng

Tốc độ phát triển thuê bao: Số lượng thuê bao đề cập đến doanh thu

hàng năm hoặc hàng tháng dựa trên cơ sở khách hàng Việc cạnh tranh dẫnđến tỉ lệ phát triển thuê bao cao Ban đầu, việc tăng trưởng trong thị trườngviễn thông tăng theo cấp số nhân, do có nhiều khách hàng mới, tốc độ pháttriển thuê bao không phải là vấn đề Khi thị trường trở nên bão hòa, tốc độphát triển thuê bao giảm Việc bão hòa của các thuê bao và sự cạnh tranhngày càng gay gắt dẫn đến việc những công ty viễn thông sẽ phải hướng tớinhững khách hàng đã có và tìm cách giữ họ lại KPDL có thể dùng trong việcphân tích tốc độ phát triển thuê bao để dự đoán dựa trên cơ sở dữ liệu cụ thể

là khách hàng sẽ có hoặc vẫn dùng sản phẩm của công ty và tại sao

Trang 17

Bộ dữ liệu đồ sộ: Các công ty viễn thông có một khối lượng dữ liệu đồ

sộ Khi những sản phẩm chính của công ty được sử dụng, mỗi khách hàng đãtạo ra hàng trăm dịch vụ trên một ngày Một bản ghi cuộc gọi được lưu trữtrong CSDL và nó là một nguồn dữ liệu rất lớn Các công ty viễn thông cũnglưu trữ dữ liệu khách hàng, miêu tả khách hàng, dữ liệu mạng, và miêu tả họ

sử dụng dịch vụ nào

Dựa trên việc phân loại thành các nhóm khách hàng khác nhau và những

nhu cầu, sở thích, thói quen của từng nhóm đối tượng khách hàng, nhà quản lý

sẽ dự đoán được những khách hàng có khả năng rời bỏ mạng di động của mình

Từ đó sẽ đưa ra được những chiến lược chăm sóc khách hàng trên từng nhómđối tượng khách hàng khác nhau nhằm níu giữ khách hàng trước khi họ có ýđịnh rời bỏ mạng

c Mục tiêu của đề tài

Nghiên cứu kỹ thuật khai phá dữ liệu nhằm ứng dụng phân nhóm kháchhàng để dự đoán những khách hàng có khả năng rời mạng

d Phương pháp nghiên cứu

Về lý thuyết:

- Nghiên cứu tổng quan về khai phá dữ liệu

- Nghiên cứu về một số kỹ thuật khai phá dữ liệu: Luật kết hợp, Phân lớp,Phân cụm

- Nghiên cứu công cụ khai phá dữ liệu

- Nghiên cứu thực tiễn bộ dữ liệu và lựa chọn phương pháp khai phá dữliệu phù hợp

Trang 18

1.1 Tìm hiểu về khai phá dữ liệu

Sự phát triển của công nghệ phần cứng máy tính trong thời gian qua đãdẫn đến nguồn cung cấp các phương tiện lưu trữ dữ liệu tốt với giá cả phảichăng Song song với điều đó, những tiến bộ trong quá trình thu thập đã dẫntới sự tăng trưởng với số lượng lớn dữ liệu

Công cụ KPDL thực thi việc phân tích dữ liệu và khám phá ra nhữngmẫu quan trọng bị ẩn dấu Việc mở rộng giữa dữ liệu và thông tin được gọi làcông cụ phát triển khai thác hệ thống – công cụ khai phá dữ liệu

1.1.1 Mục tiêu, nguồn gốc của khai phá dữ liệu

KPDL là quá trình tìm kiếm mẫu mới, những thông tin tiềm ẩn mangtính dự đoán trong các khối dữ liệu lớn Những công cụ KPDL có thể pháthiện những xu hướng tương lại, các tri thức mà KPDL giúp doanh nghiệp sẽđưa ra các quyết định kịp thời Với ưu điểm trên, KPDL giúp doanh nghiệp sẽđưa ra các quyết định kịp thời Với ưu tiên trên, KPDL đã chứng tỏ được tínhhữu dụng của nó trong môi trường kinh doanh đầy tính cạnh tranh và đượcứng dụng rộng rãi trong các lĩnh vực thương mại, tài chính, y học, giáo dục,viễn thông…

Khai phá dữ liệu liên quan chặt chẽ đến những lĩnh vực sau: Thống kê,máy học, cơ sở dữ liệu

Thống kê

Trí tuệ nhân tạo (Artifical Intelligence - AI)

Hệ thống CSDL

Trang 19

Hình 1.1 Nguồn gốc khai phá dữ liệu 1.1.2 Lý do khai phá dữ liệu [12]

Dựa trên thực tế, trên một khía cạnh nào đó, là đang tồn tại một lượng dữliệu hệ thống khổng lồ mà chưa được khám phá một cách cụ thể Nghĩa làđang có rất nhiều thông tin “ẩn giấu” và đã nằm ngoài khả năng phát hiện rabởi những phương thức truyền thống và dựa trên khả năng phân tích chủa conngười Sự cần thiết của “khai phá” dữ liệu có thể miêu tả bằng sự cần thiếttrong lĩnh vực cuộc sống thực:

DATA MINING

Database Systems

Trang 20

Vậy, KPDL là gì? Tuy nhiên rất khó khăn để đưa ra một định nghĩaduy nhất mà phản ánh toàn sự kiện của hiện tượng Vì thế, với từng cách tiếpcận khác nhau sẽ có cái nhìn khác nhau về KPDL:

1 Là việc tìm kiếm tự động những mẫu trong CSDL khổng lồ, sử dụngcông nghệ tính toán từ thống kê, học máy và nhận biết mẫu;

2 Là việc khai thác sự có ích của thông tin ẩn, mà trước đó chưa biết và

có khả năng thông tin là hữu ích từ dữ liệu;

3 Kỹ thuật tách thông tin hữu dụng từ một tập dữ liệu lớn hoặc CSDL;

4 Việc thăm dò tự động hoặc bán tự động và phân tích một lượng lớncủa dữ liệu, nhằm phát hiện những mô hình có ý nghĩa;

5 Tiến trình tự động khám phá thông tin, việc xác định mô hình và mốiquan hệ ẩn dấu trong dữ liệu

Tóm lại, KPDL là quá trình phân tích của một tập dữ liệu quan sát(thường là rất lớn) để tìm ra những mối quan hệ ẩn giấu và tổng kết dữ liệutheo nhiều cách nhằm dễ hiểu và dễ sử dụng cho người sử dụng dữ liệu đó

1.2 Quá trình khai phá dữ liệu

Nói một cách đơn giản KPDL liên quan đến việc “tách” hoặc “dò” trithức từ một lượng lớn của dữ liệu, khai phá tri thức từ dữ liệu, tách tri thức,phân tích mẫu dữ liệu…

Quá trình khai phá gồm những bước tuần tự như sau:

1 Làm sạch dữ liệu (loại bỏ những dữ liệu dư thừa không có thông tin)

2 Tích hợp dữ liệu ( khi nhiều nguồn dữ liệu được kết hợp)

3 Lựa chọn dữ liệu ( lựa chọn những dữ liệu tích hợp cho việc phân tíchđược thực hiện lấy từ CSDL)

4 Chuyển đổi dữ liệu (nơi dữ liệu được chuyển đổi hoặc hợp nhất thànhmột thể thích hợp cho việc khai phá bằng cách thực hiện các hoạt động tómtắt hoặc tích hợp)

5 Khai phá dữ liệu (là tiến trình quan trọng với những phương thứcthông minh được áp dụng cho việc tách những mẫu dữ liệu)

Trang 21

6 Định giá mẫu (Xác định những mẫu thực sự có ích miêu tả dữ liệu dựatrên một đơn vị đo lường sự có ích)

7 Miêu tả tri thức (khi việc miêu tả mô hình và dữ liệu thu được được sửdụng trong việc khai phá tri thức cho người dùng)

Kiến trúc của một hệ thống KPDL điển hình chứa các thành phần sau:

CSLD, kho dữ liệu, web hoặc những hệ thống thông tin khác

Máy chủ CSDL hoặc kho dữ liệu

Dựa trên cơ sở tri thức

Cách thức KPDL

Module đánh giá mô hình

Giao diện người sử dụng

1.2.1 Tiền xử lý dữ liệu

Tiền xử lý dữ liệu là quá trình chuẩn bị dữ liệu và xử lý dữ liệu Trướckhi sử dụng bất kỳ kỹ thuật KPDL nào để “khai phá” dữ liệu, một vấn đề cực

kỳ cần thiết là phải xử lý dữ liệu thô Đầu tiên, cần phải xử lý những vấn đề

về chất lượng dữ liệu như nhiễu, bất thường… Khi vấn đề chất lượng dữ liệuđược giải quyết, sẽ thực hiện công việc tiền xử lý dữ liệu, về nguyên tắc baogồm những tủ tục sau:

Tập hợp (Aggregation)

Lấy mẫu (Sampling)

Giảm chiều thông tin (Dimensionality reduction)

Chọn tính năng (Feature creation)

Rời rạc và nhị phân (Discretization and binarization)

Chuyển đổi thuộc tính (Atrribute transformation)

1.2.2 Xây dựng và xác nhận mô hình

Xây dựng và xác nhận mô hình là một bước tiến của KPDL sau tiến trình

xử lý Chú ý rằng, trong một tiến trình KPDL, trạng thái dữ liệu xử lý sẽ lặplại nếu cần thiết Một khi dữ liệu “khai phá” được chọn, cần phải quyết địnhlấy mẫu dữ liệu như thế nào khi không làm việc với toàn bộ CSDL

Trang 22

Một khi dữ liệu đã phân tích được xác định, khi đó sẽ quan tâm đến mụcđích của tiến trình KPDL

Hiểu các giới hạn

Chọn hướng nghiên cứu thích hợp

Kiểu nghiên cứu

Độ chính xác của mô hình (model accuracy)

Độ dễ hiểu của mô hình (model intelligibility)

Khả năng thực thi (performance)

Nhiễu (noise)

Mỗi mô hình sẽ có một ngưỡng để chấp nhận nhiễu và đó là lý do cầncủa tiền xử lý dữ liệu

1.3 Các kỹ thuật khai phá dữ liệu

Theo nguyên lý, khi sử dụng phương thức KPDL để giải quyết một vấn

đề cụ thể, cần phải hình dung ra loại vấn đề là gì, có thể tổng kết thành hailoại chính, Cũng liên quan đến các đối tượng của khai phá dữ liệu:

KPDL dự đoán (predictive method): Là đưa ra các dự đoán dựa vào

các suy diễn trên dữ liệu hiện thời KPDL dự đoán bao gồm các kỹ thuật phân

loại (classification), hồi quy (regession)…

KPDL mô tả (descriptive method): Có nhiệm vụ mô tả về các tính chất

hoặc đặc tính chung của dữ liệu trong CSDL hiện có Bao gồm các kỹ thuật:

Phân cụm (clustering), phân tích luật kết hợp (association rules), mẫu tuần tự (sequential patterms)…

Trang 23

1.3.1 Phân lớp

Phân lớp là quá trình xây dựng một mô hình để mô tả dữ liệu được chianhư thế nào, nói cách khác, phân lớp là quá trình xây dựng một mô hình bằngcách gán các đối tượng dữ liệu (thuộc tính) vào các lớp đã xác định

Tiến trình phân lớp dựa trên 4 thành phần cơ bản:

Lớp (class)

Dự đoán (predictors)

Tập dữ liệu được đào tạo (Training dataset)

Tập dữ liệu kiểm thử (Testing dataset)

Đặc trưng của tiến trình phân loại gồm những điểm sau:

• Input: tập dữ liệu đào tạo chứa những đối tượng với thuộc tính của nó,với một số thuộc tính đã được gán nhãn;

• Output: mô hình (classifier) được gán bởi những nhãn cụ thể cho mỗiđối tượng (phân lớp các đối tượng từng các thư mục), dựa trên những thuộctính khác;

• Mô hình sử dụng để dự đoán những lớp mới, những đối tượng chưabiết Tập dữ liệu kiểm thử cũng dùng để xác định độ chính xác của mô hình Khi một mô hình phân loại được xây dựng, nó sẽ phải so sánh vớinhững mô hình khác để lựa chọn mô hình tốt nhất Liên quan đến việc so sánhgiữa các mô hình phân loại (mô hình phân lớp), sẽ có một số thành phần cầnđược tính đến

• Khả năng dự đoán (predictive accuracy)

• Tốc độ (speed)

• Độ mạnh mẽ (robustness)

• Độ mềm dẻo (scalability)

• Tính dễ diễn giải (interpreability)

• Độ đơn giản (simplicity)

1.3.2 Phân cụm

Phân cụm dữ liệu là xử lý một tập các đối tượng vào trong các lớp đốitượng giống nhau Một cụm là một tập hợp các đối tượng dữ liệu giống nhau

Trang 24

trong phạm vi cùng một cụm và không giống nhau đối với các đối tượngtrong các cụm khác Số các cụm dữ liệu được phân ở đây có thể được xácđịnh trước theo kinh nghiệm hoặc có thể được tự động xác định theo phươngpháp phân cụm.

Một số phương pháp phân cụm chính trong khai phá dữ liệu:

• Phân cụm dữ liệu dựa trên phân cụm phân cấp: phương pháp phân cụmphân cấp làm việc bằng cách nhóm các đối tượng vào trong một cây các cụm

• Phân cụm phân cấp tích đống và phân ly:

 Phân cụm phân cấp tích đống: bắt đầu bằng cách đặt mỗi đối tượng

vào trong cụm của bản thân nó, sau đó kết nhập các cụm nguyên tử này vàotrong các cụm ngày càng lớn hơn cho tới khi tất cả các đối tượng nằm trongmột cụm đơn hay cho tới khi thỏa mãn điều kiện dừng cho trước

 Phân cụm phân cấp phân ly: Phương pháp này ngược lại bằng cách

bắt đầu với tất cả các đối tượng trong cụm, chia nhỏ nó vào trong các thànhphần ngày càng nhỏ hơn cho tới khi mỗi đối tượng hình thành nên một cụmhay thỏa mãn một điều kiện dừng cho trước

• Sinh ra các luật kết hợp từ các mục phổ biến, các luật phải thỏa mãn

độ hỗ trợ cực tiểu và độ tin cậy cực tiểu

Phương pháp này được sử dụng hiệu quả trong các lĩnh vực như quảngcáo có chủ đích, phân tích quyết định, quản lý kinh doanh…

1.3.4 Mẫu tuần tự

Mẫu tuần tự là xác định những mẫu mà sự xuất hiện của chúng trongCSLD thỏa mãn những ngưỡng tối thiểu Luật tuần tự được sinh ra từ mẫutuần tự, biểu diễn mối quan hệ giữa hai loạt sự kiện, loạt sự kiện này sẽ xảy ra

Trang 25

sau loạt sự kiện kia, tuần tự theo thời gian, thể hiện tri thức tiềm ẩn của dữliệu tuần tự.

Khai thác mẫu tuần tự được ứng dụng trong nhiều lĩnh vực như: Phântích thị trường, phân tích mẫu truy cập web, dự đoán nhu cầu mua sắm củakhách hàng

1.3.5 Cây quyết định (Decision tree) và luật (Rule)

Cây quyết định: là một dạng mô tả tri thức đơn giản nhằm phân phối cácđối tượng dữ liệu thành một số lớp nhất định Các nút của cây được gán nhãn làtên các thuộc tính, các cung được gắn giá trị có thể của các thuộc tính, các lámiêu tả các lớp khác nhau Các đối tượng được phân lớp theo các đường đi trêncây, qua các cung tương ứng với giá trị của thuộc tính của đối tượng tới lá.Tóm lại, cho dữ liệu về các đối tượng cùng các thuộc tính cùng với lớpcủa nó, cây quyết định sẽ sinh ra các luật để dự đoán các đối tượng chưa biết

Ví dụ:

Ta có dữ liệu (Training data) về 10 đối tượng (người) Mỗi đối tượng

được mô tả bởi 4 thuộc tính là Gender, Car Ownership, Travel Cost/km, Incom Level và một thuộc tính phân loại (Category attribute) là Tranportation mode Trong đó thuộc tính Gender có kiểu binary, thuộc tính

Car Ownership có kiểu Quantitative integer (0, 1), Travel Cost/km và IncomeLevel có kiểu dữ liệu Ordinal

Training data cho biết sự lựa chọn về loại phương tiện vận chuyển (car,bus, train) của khách dựa vào 4 thuộc tính đã cho

Ownership

Travel Cost/km

Income Level

Tranportation mode

Trang 26

Female 0 Cheap Low Bus

Bảng 1.1 Bảng training Data

Dựa vào Training Data ở trên, chúng ta có thể tạo ra cây quyết định nhưsau:

Hình 1.2 Cây quyết định từ bảng training data

Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ýnghĩa về mặt thống kê Các luật có dạng “Nếu P thì Q”, với P là mệnh đềđúng với một phần dữ liệu có trong CSDL, Q là mệnh đề dự đoán

Giả sử ta có dữ liệu về 3 người với giá trị dữ liệu đã biết về các thuộctính Gender, Car Ownership, Travel Cost/km, Incom Level Tuy nhiên ta

ar

Trang 27

chưa biết họ sẽ lựa chọn phương tiện vận chuyển nào Sử dụng cây quyết định

đã tạo để dự đoán Dữ liệu dưới đây gọi là Testing Data

IncomeLevel

Tranportati

on mode

Bảng 1.2 Bảng testing Data

Chúng ta bắt đầu từ node gốc (thuộc tính Travel Cost/km)

Theo cây quyết định trên, các luật (Serie of Rules) được sinh ra từ câyquyết định dùng để dự đoán như sau:

Rule 1 : If Travel cost/km is expensive then mode = car

Rule 2 : If Travel cost/km is standard then mode = train

Rule 3 : If Travel cost/km is cheap and gender is male then mode = bus Rule 4 : If Travel cost/km is cheap and gender is female and she owns

no car then mode = bus

Rule 5 : If Travel cost/km is cheap and gender is female and she owns 1

car then mode = train3 Phát hiện các luật kết hợp (Association).

Dựa vào các luật này, việc dự đoán lớp cho các dữ liệu chưa biết rất đơngiản

Kết quả phân lớp bằng cây quyết định như sau:

Tranportation mode

Bảng 1.3 Kết quả phân lớp bằng cây quyết định

Cây quyết định và luật có ưu điểm là hình thức mô tả đơn giản, mô hìnhbiểu diễn khá dễ hiểu đối với người sử dụng Tuy nhiên mô tả cây và luật chỉ

Trang 28

có thể biểu diễn được một số chức năng, vì vậy chúng giới hạn về độ chínhxác của mô hình.

1.3.6 Phương pháp dựa trên mẫu (Based-on Pattern)

Sử dụng các mẫu miêu tả từ cơ sở dữ liệu để tạo nên một mô hình dựđoán các mẫu mới bằng cách rút ra các thuộc tính tương tự như các mẫu đãbiết trong mô hình Các kỹ thuật sử dụng như láng giềng gần nhất, các giảithuật hồi quy và hệ thống suy diễn dựa trên tình huống Khuyết điểm của kỹthuật này là cần phải xác định được khoảng cách và đo độ giống nhau giữacác mẫu Mô hình thường được đánh giá bằng phương pháp đánh giá chéotrên các lỗi dự đoán Mô hình này được áp dụng cho các phương pháp đánhgiá xấp xỉ các thuộc tính, tuy nhiên chúng rất khó hiểu vì không được địnhdạng rõ ràng

1.3.7 Phương pháp phụ thuộc trên đồ thị xác suất (Depending based-on Probability Graph)

Các mô hình đồ thị xác định sự phụ thuộc xác suất giữa các sự kiệnthông qua các liên hệ trực tiếp theo các cung đồ thị (Pearl 1988, Whittaker1990) ở dạng đơn giản nhất, mô hình xác định những biến nào phụ thuộc trựctiếp vào nhau Với loại này sử dụng các biến có giá trị rời rạc hoặc phân loại.Tuy nhiên cũng mở rộng cho một số trường hợp đặc biệt như mật độ Gaussianhoặc cho các biến giá trị thực

Ban đầu phương pháp này được phát triển trong các hệ chuyên gia Cấutrúc mô hình và các tham số được suy từ hệ chuyên gia Ngày nay, cácphương pháp này đã phát triển, cả cấu trúc và các tham số mô hình đồ thị đều

có thể học trực tiếp từ cơ sở dữ liệu (Buntine, Heckerman) Tiêu chuẩn đánhgiá mô hình chủ yếu là ở dạng Bayesian Việc tìm kiếm mô hình dựa trênphương pháp “leo đồi” (hill-climbing) trên nhiều cấu trúc đồ thị Mặc dù

Trang 29

phương pháp này còn mới nhưng hứa hẹn nhiều vì dạng đồ thị dễ hiểu hơn vàbiểu đạt được nhiều ý nghĩa hơn đối với con người.

1.3.8 Mạng Nơron (Neuron Network).

Mạng Nơron là cách tiếp cận tính toán mới liên quan đến việc phát triểncác cấu trúc toán học với khả năng học Mạng Nơron là kết quả của việcnghiên cứu mô hình học của hệ thần kinh con người Mạng có thể đưa ra ýnghĩa các dữ liệu phức tạp hoặc không chính xác và có thể được sử dụng đểchiết xuất các mẫu và phát hiện ra các xu hướng phức tạp mà con người cũngnhư các kỹ thuật máy tính khác không thể phát hiện ra được

Khi đề cập đến khai thác dữ liệu, người ta thường đề cập nhiều đến mạngNơron Tuy mạng Nơron có một số hạn chế gây khó khăn trong việc áp dụng

và triển khai nhưng nó cũng có những ưu điểm đáng kể Một trong số những

ưu điểm đó là khả năng tạo ra các mô hình dự đoán có độ chính xác cao, cóthể áp dụng được cho rất nhiều bài toán khác nhau đáp ứng được nhiệm vụđặt ra của khai phá dữ liệu như phân lớp, phân nhóm, mô hình hóa, dự báocác sự kiện phụ thuộc vào thời gian,…

1.3.9 Thuật giải di truyền (Genetic Algorithm).

Giải thuật di truyền chính là sự mô phỏng lại quá trình tiến hóa di truyềntrong tự nhiên Một cách chính xác thì đó là giải thuật chỉ ra tập các cá thểđược hình thành, ước lượng và biến đổi như thế nào Cụ thể là các vấn đề nhưlàm thế nào lựa chọn các cá thể tái tạo và các cá thể nào sẽ bị loại bỏ, quátrình lai ghép và đột biến sẽ diễn ra như thế nào? Giải thuật cũng mô phỏnglại yếu tố gen trong nhiễm sắc thể sinh học trên máy tính để có thể giải quyếtđược các bài toán thực tế khác nhau

Giải thuật di truyền là một giải thuật tối ưu hóa, được sử dụng rộng rãitrong việc tối ưu hóa các kĩ thuật khai phá dữ liệu trong đó có kĩ thuật mạngNơron Sự liên hệ của giải thuật di truyền với các giải thuật khai phá là ở chỗ

Trang 30

việc tối ưu hóa rất cần thiết cho quá trình khai phá dữ liệu, ví dụ như trongcác kỹ thuật cây quyết định, tạo luật,…

1.4 Ứng dụng, thách thức và hướng phát triển của KPDL

Với mỗi phương thức riêng biệt, rất nhiều ứng dụng thành công nhờ sửdụng KPDL:

• Xác định các rủi ro trong việc sử dụng đầu tư các công nghệ mới;

• Xác định những sự khác nhau giữa các dịch vụ và sản phẩm giữa cácđối thủ cạnh tranh

1.5 Kết luận chương 1

Chương này của luận văn đã trình bày những nội dung tổng quan về khaiphá dữ liệu, mục tiêu của khai phá dữ liệu, một số phương pháp khai phá dữliệu Tập trung vào phương pháp khai phá dữ liệu dựa trên cây quyết định làtiền đề cho nội dung nghiên cứu của chương 2 khi sử dụng thuật toán Bayes

để khai phá Chương này cũng giới thiệu các ứng dụng của khai phá dữ liệutrong viễn thông

Chương 2 NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆU

TRONG VIỄN THÔNG

Trang 31

2.1 Một số ứng dụng data mining trong viễn thông

2.1.1 Phát hiện gian lận (fraud detection)

Gian lận là một trong những vấn đề nghiêm trọng của các công ty viễnthông, nó có thể làm thất thoát hàng tỷ đồng mỗi năm Có thể chia ra làm 2hình thức gian lận khác nhau thường xảy ra đối với các công ty viễn thông:

• Trường hợp thứ nhất: xảy ra khi khách hàng đăng ký thuê bao với ýđịnh không bao giờ thanh toán khoản chi phí sử dụng dịch vụ

• Trường hợp thứ hai: Liên quan đến 1 thuê bao hợp lệ nhưng lại có một

số hoạt động bất hợp pháp gây ra bởi một người khác

Những ứng dụng này sẽ thực hiện theo thời gian thực bằng cách sử dụng

dữ liệu chi tiết cuộc gọi, một khi xuất hiện một cuộc gọi nghi ngờ gian lận,lập tức hệ thống sẽ có hành động ứng xử phù hợp, ví dụ như một cảnh báoxuất hiện hoặc từ chối cuộc gọi nếu biết đó là cuộc gọi gian lận

Hầu hết các phương thức nhận diện gian lận đều dựa trên hành vi sửdụng điện thoại khách hàng trước kia so sánh với hành vi hiện tại để xác địnhxem đó là cuộc gọi hợp lệ không

2.1.2 Các ứng dụng quản lý và chăm sóc khách hàng.

Các công ty viễn thông quản lý một khối lượng lớn dữ liệu về thông tinkhách hàng và dữ liệu về chi tiết cuộc gọi (call detail records) Những thôngtin này có thể cho ta nhận diện được những đặc tính của khách hàng và thôngqua đó có thể đưa ra các chính sách chăm sóc khách hàng thích hợp dựa trên

dự đoán hoặc có một chiến lược tiếp thị hiệu quả

Một trong các ứng dụng data mining phổ biến dựa trên việc xem xét luậtkết hợp giữa các dịch vụ viễn thông khách hàng sử dụng Hiện nay trên mộtđường điện thoại khách hàng sử dụng rất nhiều dịch vụ khác nhau như: gọiđiện thoại, truy cập internet, tra cứu thông tin từ hộp thư tự động, nhắn tin,gọi 108,… Dựa trên CSDL khách hàng chúng ta có thể khám phá mối liên kếttrong việc sử dụng các dịch vụ, có thể đưa ra các luật như (khách hàng gọi

Trang 32

điện thoại quốc tế) => (truy cập internet),… Trên cơ sở phân tích được cácluật như vậy các công ty viễn thông có thể điều chỉnh việc bố trí nơi đăng kýcác dịch vụ phù hợp, ví dụ như điểm đăng ký điện thoại quốc tế nên bố trí gầnvới điểm đăng ký Internet chẳng hạn.

Một ứng dụng phục vụ chiến lược marketing khác đó là dựa trên kĩ thuậtluật kết hợp của data mining để tìm ra tập các thành phố, tỉnh nào trong nướcthường gọi điện thoại với nhau Ví dụ ta có thể tìm ra tập phổ biến (Cần Thơ,HCM, Hà Nội) chẳng hạn Điều này thật sự hữu dụng trong việc hoạch địnhchiến lược tiếp thị hoặc xây dựng các vùng cước phù hợp

Một vấn đề khá phổ biến ở các công ty viễn thông hiện nay là sự thayđổi nhà cung cấp dịch vụ (Customer Churn) đặc biệt với các công ty điệnthoại di động Đây là vấn đề khá nghiêm trọng ảnh hưởng đến tốc độ thuêbao, cũng như doanh thu của các nhà cung cấp dịch vụ Thời gian gần đây cácnhà cung cấp dịch vụ di động luôn có chính sách khuyến mãi lớn để lôi kéokhách hàng Điều đó dẫn tới một lượng không nhỏ khách hàng thường xuyênthay đổi nhà cung cấp để hưởng những chính sách khuyến mãi đó Kĩ thuậtdata mining hiện nay có thể dựa trên dữ liệu tiền sử để tìm ra các quy luật, từ

đó có thể tiên đoán trước được khách hàng nào có ý định rời khỏi mạng trướckhi họ thực hiện Dựa trên các kĩ thuật data mining như cây quyết định(decision tree), mạng nơ ron nhân tạo (neural network) trên dữ liệu cước(billing data), dữ liệu chi tiết cuộc gọi (call detail records), dữ liệu khách hàng(customer data) tìm ra các quy luật mà dựa trên đó ta có thể tiên đoán trước ýđịnh rời khỏi mạng của khách hàng, từ đó công ty viễn thông sẽ có các ứng xửphù hợp nhằm lôi kéo khách hàng

Cuối cùng, một ứng dụng cũng rất phổ biến đó là phân lớp khách hàng.Dựa vào kĩ thuật data mining học trên cây quyết định trên dữ liệu khách hàng

và chi tiết cuộc gọi có thể tìm ra các luật để phân loại khách hàng Ví dụ ta cóthể phân biệt được khách hàng nào thuộc đối tượng kinh doanh hay nhà riêngdựa vào các luật sau:

Trang 33

Luật 1: nếu không quá 43% cuộc gọi có thời gian từ 0 đến 10 giây và

không đến 13% cuộc gọi vào cuối tuần thì đó là khách hàng kinh doanh

Luật 2: Nếu trong 2 tháng có các cuộc gọi đến hầu hết từ 3 mã vùng

giống nhau và < 56,6% cuộc gọi từ 0-10 giây thì đó là khách hàng nhà riêng.Trên cơ sở tìm ra được các luật tương tự như vậy, ta dễ dàng phân loạikhách hàng, để từ đó có chính sách phân khúc thị trường hợp lý

2.1.3 Các ứng dụng phát hiện và cô lập lỗi trên hệ thống mạng viễn thông (Network fault isolation).

Mạng viễn thông là một cấu trúc cực kỳ phức tạp với nhiều hệ thống phầncứng và phần mềm khác nhau Phần lớn các thiết bị trên mạng có khả năng tựchuẩn đoán và cho ra thông điệp trạng thái, cảnh báo lỗi (status and alarmmessage) Với mục tiêu là quản lý hiệu quả và duy trì độ tin cậy của hệ thốngmạng, các thông tin cảnh báo phải được phân tích tự động và nhận diện lỗi trướckhi xuất hiện làm giảm hiệu năng của mạng Bởi vì số lượng lớn các cảnh báođộc lập và có vẻ không quan hệ gì với nhau nên vấn đề nhận diện lỗi không ítkhó khăn Kĩ thuật data mining có vai trò sinh ra các luật giúp hệ thống có thểphát hiện lỗi sớm hơn khi nó xảy ra Kĩ thuật khai thác mẫu tuần tự(Sequential/Temporal patterns) của data mining thường được ứng dụng tronglĩnh vực này thông qua việc khai thác CSDL trạng thái mạng (network data)

2.2 Nghiên cứu CSDL của mạng di động VNPT.

Để giải quyết bài toán dự đoán ý định rời mạng của khách hàng chúng tadựa vào 3 cơ sở dữ liệu chính là chi tiết cuộc gọi (Call Record Detail), CSDLtính cước (Billing Data) và dữ liệu về khách hàng (Customer Data) Các cơ sở

dữ liệu này chứa các mẩu tin bao gồm các thông tin đặc tả thuộc tính quantrọng của cuộc gọi như: số gọi, số được gọi, thời gian bắt đầu, thời gian đàmthoại và các thông tin về khách hàng cần được lưu trữ để dùng cho các ứngdụng như tính cước, tiếp thị,… Thông tin về khách hàng bao gồm số điệnthoại, họ tên, địa chỉ và các thuộc tính quan trọng khác như quá trình thanh

Trang 34

toán nợ, quá trình sử dụng các dịch vụ, thu nhập… Thông thường dữ liệukhách hàng phải được kết hợp với các dữ liệu khác, (ví dụ như dữ liệu chi tiếtcuộc gọi) trong khi khai phá dữ liệu.

2.2.1 Các tập CSDL quản lý thuê bao liên quan đến bài toán.

a Giới thiệu về chi tiết cuộc gọi.

Tại tổng đài của mạng viễn thông ghi nhận một số lượng rất lớn các cuộcgọi điện thoại, đó là chi tiết cuộc gọi (Call Detail Record), gọi tắt là CDR’s.Các thông số liên quan đến cuộc gọi được ghi lại tại tổng đài cho chúng tabiết được chất lượng dịch vụ, hành vi sử dụng của khách hàng CDR’s là mộtkhối dữ liệu rất lớn và quan trọng Khi một khách hàng nhấc máy điện thoại

và quay số thì tổng đài điện thoại sẽ thiết lập một đường kết nối giữa 2 sốđiện thoại Cuộc gọi được bắt đầu khi việc kết nối được thực hiện xong và kếtthúc khi 1 trong 2 khách hàng ngắt kết nối

Sau khi kết thúc cuộc gọi thì các số liệu liên quan đến chi tiết cuộc gọi(số điện thoại gọi, số điện thoại được gọi, thời gian đàm thoại,…) được lưuvào bộ nhớ tổng đài Chi tiết các cuộc gọi của khách hàng được tổng đài điệnthoại lưu dưới dạng tập tin theo định dạng quy ước trước, chúng ta gọi làCDR’s

Các số liệu này sau đó được ghi xuống băng từ và chuyển cho bộ phậntin học để xử lý tính cước khách hàng (trả sau) hoặc làm căn cứ để trừ vào tàikhoản khách hàng (trả trước) Các thuộc tính liên quan đến khách hàng màchúng ta quan tâm là:

Sm_den Số đt mà khách hàng gọi đến (được gọi)

Trang 35

B_Category Phân nhóm máy B

Time_Register Thời gian đăng ký

Số liệu cuộc gọi tổng đài nhận được rất lớn bao gồm chiều đi chiều đếnthành công và kể cả không thành công

b CSDL tính cước

Hàng tháng hệ thống tính cước sẽ chuyển CDR’s về định dạng thích hợp

và lọc từ CDR’s các cuộc gọi chiều đi thành công Tập tin sau khi xử lý đểtính cước cho khách hàng hàng tháng mà hệ thống tính cước đặt ra có cácthuộc tính sau:

Time Thời điểm bắt đầu gọi

A_subs Số điện thoại gọi

B_subs Số điện thoại bị gọi

Actual_min Độ dài cuộc gọi thực tế

Duration Độ dài cuộc gọi đã làm tròn, tính theo phút

Type Loại dịch vụ cuộc gọi

Amount Giá tiền của cuộc gọi tính theo Duration và bảng giácước hiện hành

Các tập tin Billing’s sau khi chuyển cho bộ phận in hóa đơn sẽ được lưutrong kho dữ liệu cùng với các tập tin CDR’s

c CSDL Khách hàng.

CSDL khách hàng cho ta biết thông tin về đối tượng thuê bao, mã kháchhàng, số thuê bao, họ tên, nơi ở, số chứng minh nhân dân, đối tượng khách hàng,các loại cước khác nhau Điều này giúp cho chúng ta phân loại khách hàng

2.2.2 Phân lớp dự đoán xu hướng khách hàng.

a Xây dựng tập dữ liệu huấn luyện (Training Data).

Dựa trên các cơ sở dữ liệu đã có như Chi tiết cuộc gọi, tính cước, thôngtin về khách hàng chúng ta chọn các thuộc tính chứa nhiều thông tin có khảnăng mạng lại cho việc dự đoán để chúng ta tạo ra cơ sở dữ liệu tổng hợp Cơ

Trang 36

sở dữ liệu này được tạo ra từ những thông tin quan trọng nhất và có thể dễdàng phân tích cho việc dự đoán Cơ sở dữ liệu này được gọi là tập dữ liệuđầu vào hay còn gọi là tập dữ liệu huấn luyện (Training Data) Các thuộc tínhchính ở đây như Số điện thoại, thời gian gọi, độ dài cuộc gọi, tần suất gọihàng tháng , tuần

b Giới thiệu về phân lớp.

Một trong những nhiệm vụ chính của khai phá dữ liệu là giải quyết bàitoán phân lớp Đầu vào của bài toán phân lớp là một tập các mẫu học đã đượcphân lớp trước, mỗi mẫu được mô tả bằng một số thuộc tính Các thuộc tínhdùng để mô tả một mẫu gồm 2 loại là thuộc tính liên tục và thuộc tính rời rạc

Trong số các thuộc tính rời rạc có 1 thuộc tính đặc biệt là phân lớp, mà các

giá trị của nó được gọi là nhãn lớp Thuộc tính liên tục sẽ nhận các giá trị cóthứ tự, ngược lại thuộc tính rời rạc sẽ nhận các giá trị không có thứ tự Ngoài

ra, các thuộc tính có thể nhận giá trị không xác định (chẳng hạn, vì những lý

do khách quan ta không thể biết được giá trị của nó) Chú ý rằng nhãn lớp củatất cả các mẫu không được phép nhận giá trị không xác định Nhiệm vụ củaquá trình phân lớp là thiết lập được ánh xạ giữa giá trị của các thuộc tính vớicác nhãn lớp Mô hình biểu diễn quan hệ nói trên sau đó sẽ được dùng đễ xácđịnh nhãn lớp cho các quan sát mới không nằm trong tập mẫu ban đầu

Thực tế đặt ra nhu cầu từ một cơ sở dữ liệu với nhiều thông tin ẩn ta cóthể trích rút ra các quyết định nghiệp vụ thông minh Phân lớp và dự đoán là 2dạng của phân tích dữ liệu nhằm trích rút ra một mô hình mô tả các lớp dữliệu quan trọng hay dự đoán xu hướng dữ liệu tương lai Phân lớp dự đoán giátrị của những nhãn xác định hay những giá trị rời rạc, có nghĩa là phân lớpthao tác với những đối tượng dữ liệu mà có bộ giá trị là biết trước Trong khi

đó, dự đoán lại xây dựng mô hình với các hàm nhận giá trị liên tục Ví dụ môhình dự báo thời tiết có thể cho biết thời tiết ngày mai là mưa hay nắng dựa

Trang 37

vào những thông số độ ẩm, sức gió, nhiệt độ,… của ngày hôm nay và cácngày trước đó Hay nhờ các luật về xu hướng mua hàng của khách hàng trongsiêu thị, các nhân viên kinh doanh có thể ra những quyết sách đúng đắn vềlượng mặt hàng cũng như chủng loại bày bán,… Một mô hình dự đoán có thể

dự đoán được lượng tiền tiêu dùng của khách hàng tiềm năng dựa trên nhữngthông tin về thu nhập và nghề nghiệp của khách hàng Quá trình phân lớp dữliệu qua hai bước: xây dựng mô hình và sử dụng mô hình

Xây dựng mô hình.

Hình 2.1 Xây dựng Mô hình huấn luyện

Là một mô hình mô tả một tập các lớp được định nghĩa trước Đầu vàocủa quá trình này là một tập dữ liệu có cấu trúc được mô tả bằng các thuộctính và được tạo ra từ tập các bộ giá trị của các thuộc tính đó Mỗi bộ giá trị

gian gọi

Số cuộcgọi

Khảnăng

Trần Yên Ngắn Trung bình Rời bỏ

Nguyễn

Quế

Trungbình

Ít Duy trì

Dữ liệuHuấn luyện

Các thuật toán phân

lớp

Mô hình phân lớp

IF thời gian gọi =”ngắn”

OR Số cuộc gọi = “ít”

THEN khả năng = “rời bỏ”

Trang 38

được gọi chung là một phần tử dữ liệu: Mỗi bộ hoặc mẫu được gán thuộc vềmột lớp được định nghĩa trước như là được xác định bởi thuộc tính nhãn lớp,tập hợp của những bộ được sử dụng trong việc sử dụng mô hình được gọi làtập huấn luyện.

Mô hình được biểu diễn là những luật phân lớp, cây quyết định và nhữngcông thức toán học

Sử dụng mô hình.

Việc sử dụng mô hình phục vụ cho mục đích phân lớp dữ liệu trongtương lai hoặc phân lớp cho những đối tượng chưa biết đến Trước khi sửdụng mô hình người ta thường phải đánh giá tính chính xác mang tính chất dựđoán của mô hình đó: nhãn được biết đến của mẫu kiểm tra được so sánh vớikết quả phân lớp của mô hình, độ chính xác là phần trăm của tập mẫu kiểm tra

mà phân loại đúng bởi mô hình, tập kiểm tra là độc lập với tập huấn luyện Kỹthuật này sử dụng một tập dữ liệu kiểm tra với các mẫu đã được gán nhãn lớp.Các mẫu này được chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệuhuấn luyện Độ chính xác của mô hình trên tập dữ liệu kiểm tra đã đưa tỷ lệphần trăm các mẫu trong tập dữ liệu kiểm tra được mô hình phân lớp đúng.Nếu độ chính xác của mô hình được ước lượng dựa trên tập dữ liệu huấnluyện thì kết quả thu được là rất khả quan vì mô hình luôn có xu hướng “quákhớp” dữ liệu Quá khớp dữ liệu là hiện tượng kết quả phân lớp trùng khít với

dữ liệu thực tế vì quá trình này xây dựng mô hình phân lớp từ tập dữ liệuhuấn luyện có thể đã kết hợp những đặc điểm riêng biệt của tập dữ liệu đó

Do vậy, cần sử dụng một tập dữ liệu kiểm tra độc lập với tập dữ liệu huấnluyện Nếu độ chính xác của mô hình chấp nhận được, thì mô hình được sửdụng để phân lớp những dữ liệu tương lai, hoặc những dữ liệu mà giá trị củathuộc tính phân lớp là chưa biết

Trang 39

Khả năng ?

Rời bỏ

Hình 2.2 Sử dụng mô hình huấn luyện để dự đoán

Trong mô hình phân lớp, thuật toán phân lớp giữ vai trò trung tâm, quyếtđịnh sự thành công của mô hình phân lớp Do vậy chìa khóa của phân lớp dữ liệu là tìm ra được một thuật toán nhanh, hiệu quả, có độ chính xác cao và khảnăng mở rộng được Trong đó khả năng mở rộng của thuật toán được đặc biệt chú trọng và phát triển

c Các vấn đề liên quan đến phân lớp dữ liệu.

Chuẩn bị dữ liệu cho việc phân lớp

Việc tiền xử lý dữ liệu cho quá trình phân lớp là một việc làm không thểthiếu và có vai trò quan trọng, quyết định tới sự áp dụng được hay không của

mô hình phân lớp Quá trình tiền xử lý dữ liệu sẽ giúp cải thiện độ chính xác,tính hiệu quả và khả năng mở rộng được của mô hình phân lớp

Quá trình tiền xử lý dữ liệu gồm các việc sau:

i Làm sạch dữ liệu.

Làm sạch dữ liệu liên quan đến việc xử lý với nhiễu và missing valuetrong tập dữ liệu ban đầu Nhiễu là các lỗi ngẫu nhiên hay các giá trị khônghợp lệ của các biến trong tập dữ liệu Để xử lý với loại lỗi này có thể dùng kỹ

gian gọi Số cuộc gọi

Khảnăng

Trần Yên Ngắn Trung bình Rời bỏ

Nguyễn

Quế

Trungbình

Dữ liệuHuấn luyện

Các thuật toán phân lớp

Mô hình phân lớp

Trần Yên, Ngắn,Trung bình

Trang 40

thuật làm trơn Missing value là những ô không có giá trị của các thuộc tính.Giá trị thiếu có thể do lỗi chủ quan trong quá trình nhập liệu, hoặc trongtrường hợp cụ thể giá trị của thuộc tính đó không có, hay không quan trọng.Mặc dầu phần lớn thuật toán phân lớp đều có cơ chế xử lý với những giá trịthiếu và noise trong tập dữ liệu, nhưng bước tiền xử lý này có thể làm giảm

sự hỗn độn trong quá trình học (xây dựng mô hình lớp)

ii Phân tích sự cần thiết của dữ liệu.

Có rất nhiều thuộc tính trong tập dữ liệu có thể hoàn toàn không cầnthiết hay liên quan đến 1 bài toán phân lớp cụ thể Ví dụ dữ liệu về số chứngminh nhân dân là không cần thiết trong việc phân tích hành vi sử dụng điệnthoại của khách hàng Nên có thể loại bỏ những thuộc tính không cần thiết, dưthừa khỏi quá trình học vì những thuộc tính này sẽ làm chậm, phức tạp và gâyhiểu sai trong quá trình học dẫn tới một mô hình phân lớp không dùng được

ii Chuyển đổi dữ liệu.

Việc khái quát hóa dữ liệu lên mức khái niệm cao hơn đôi khi là cầnthiết trong quá trình tiền xử lý Việc này đặc biệt hữu ích với những thuộctính liên tục (continuous attribute hay numeric attribute) Ví dụ các giá trị sốcủa thuộc tính độ dài của cuộc gọi có thể khái quát thành dãy giá trị: thấp,trung bình, cao Việc khái quát hóa làm cô đọng dữ liệu học nguyên thủy, vìvậy các thao tác vào ra liên quan đến vấn đề học sẽ đơn giản

Ngày đăng: 09/01/2015, 22:12

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[4] Trần Văn Thiện, “Ứng dụng các kỹ thuật khai phá dữ liệu vào lĩnh vực viễn thông”. Học viện bưu chính viễn thông, 2006.http://www.uit.edu.vn/forum/index.php?act=Attach&amp;type=post&amp;id=22124Tài liệu tiếng Anh Sách, tạp chí
Tiêu đề: Ứng dụng các kỹ thuật khai phá dữ liệu vào lĩnhvực viễn thông
[1] Hoàng Kiếm – Đỗ Phúc (2005), Giáo trình khai phá dữ liệu, Trung tâm nghiên cứu phát triển công nghệ thông tin, Đại học Quốc gia Hồ Chí Minh Khác
[2] Trần Cao Đệ - Phạm Nguyên Khang, Phân loại văn bản với máy học vector hỗ trợ và cây quyết định – Tạp chí khoa học đại học Cần Thơ Khác
[3] Đỗ Phúc (2004), Chuyên đề Khai phá dữ liệu và Kho dữ liệu - Đại học Quốc gia Hồ Chí Minh Khác
[5] Yanchang Zhao, R and DataMining: Examples and Case Studies, 2011 Khác
[6] Hahsler, M. (2012). arulesNBMiner: Mining NB-Frequent Itemsets and NB-Precise Rules. R package version 0.1 – 2 Khác
[7] Hornik et al..,2012. Hornik, K., Rauch, J., Buchta, C., and Feinerer, I.(2012). Textcat: N-Gram Based Text Categorization. R. package version 0.1 -1 Khác
[11] A. S. Galathiya, A. P. Ganatra and C. K. Bhensdadia , Improved Decision Tree Induction Algorithm with Feature Selection, Cross Validation, Model Complexity and Reduced Error Pruning Khác
[12] Mohammed j.ZAKI, Wagner Meira JR. Data Mining and Analysis Fundamental Concepts and Algorithms. 2014 Khác
[13] Anand Bahety. Extension Evaluation ID3 – Decision Tree Algorithm. Department of Computer Science University of Maryland, College Park Khác
[14] Wei Dai and Wei Ji. A MapReduce Implementation of C4.5 Decision Tree Alorithm. School. 2014 Khác
[15] Pattem Recognition and Machine Learning, Christopher Bishop, Springer – Velag, 2006 Khác
[16] Oliver Sutton. Introduction to k Nearest Neighbour Classification and Condensed Nearest Neighbour Data Reduction. 2012 Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w