Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
725,2 KB
Nội dung
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄNTHÔNG
NGUYỄN LÊ PHƯƠNG
ỨNG DỤNGKHAIPHÁDỮLIỆUTÌMHIỂUTHÔNGTINKHÁCHHÀNGVIỄNTHÔNG
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
Người hướng dẫn khoa học: TS VŨ VĂN THỎA
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2012
1
MỞ ĐẦU
Khai phádữliệu (KPDL) là một tiến trình khaiphá tự động những tri thức
tiềm ẩn trong cơ sở dữ liệu, cụ thể hơn là tiến trình lọc sản sinh những tri thức hoặc
mẫu tiềm ẩn chứa thôngtin hữu ích từ số lượng dữliệu lớn. KPDL là tiến trình khái
quát các sự kiện rời rạc trong dữliệu thành các tri thức mang tính quy luật, hỗ trợ
tích cực cho việc đưa ra các quyết định. Khi việc lưu trữ dữliệu không còn quá đắt
đỏ, phần cứng có cấu hình cao, khối lượng dữliệu khổng lồ, và có nhiều công cụ hỗ
trợ cho việc phát triển khaiphádữ liệu, tất cả đã giúp KDPL trở thành lĩnh vực
mang tính thời sự trong ngành công nghệ thông tin.
Ngày nay, các công ty coi kháchhàng là trung tâm. Họ cần có một môi
trường cho phép hiểu rõ những yêu cầu của khách hàng. Ngành công nghiệp viễn
thông lưu trữ một khối lượng dữliệu khổng lồ, bao gồm: chi tiết cuộc gọi, thôngtin
cảnh báo trình trạng của hệ thống mạng viễnthông và thôngtindữliệu về khách
hàng. Các công ty viễnthông nắm bắt rất rõ các thôngtin về kháchhàng của mình.
Họ biết những kháchhàng của họ là ai, dễ dàng theo dõi những hành vi, thói quen
của khách hàng. Một tập các hoạt động cho thực hiện công việc để xác định, điều
kiện, bổ sung, phát triển, giữ lại những kháchhàng trung thành và lợi nhuận bằng
cách cung cấp sản phẩm hoặc dịch vụ, tới đúngkhách hàng, đúng kênh, đúng thời
điểm và giá thành. Khi đó một sản phẩm đúng hoặc dịch vụ đúng nghĩa là chỉ có sản
phẩm hoặc dịch vụ đó phù hợp với cái kháchhàng đang cần được xem xét.
Ứng dụng kỹ thuật KPDL để phát hiện các quy luật ẩn chứa trong khối dữliệu
khổng lồ đó và đưa ra những dự đoán, quyết định đúng, sẽ mang lại cho các doanh
nghiệp viễnthông nhiều cơ hội để phát triển các ứngdụng mang tính thực tiễn cao.
Lý do cho việc ứngdụng KPDL cho công việc chăm sóc kháchhàng trong
thị trường viễn thông:
Thị trường cạnh tranh: sau nhiều năm là thị trường độc quyền, thị trường
viễn thông ngày nay trở nên rất cạnh tranh. Khi thị trường là độc quyền
thì hầu như không có biến động, nhưng khi thị trường cạnh tranh quyết
liệt thì mọi thứ sẽ thay đổi liên tục. Kháchhàng có thể chuyển đổi nhà
2
cung cấp dễ dàng, vì có rất nhiều sự lựa chọn. Vì lý do đó, những công ty
viễn thông cần ứngdụng giải pháp KPDL để đạt những lợi thế cạnh
tranh. Bằng cách hiểu những hành vi và thói quen của khách hàng, những
công ty viễnthông sẽ đưa ra những chiến lược quảng bá hiệu quả để đưa
ra những sản phẩm mà kháchhàng yêu thích, phát triển kháchhàng trung
thành, và tăng lợi ích cho khách hàng.
Tốc độ phát triển thuê bao: số lượng thuê bao đề cập đến doanh thu hàng
năm hoặc hàng tháng dựa trên cơ sở khách hàng. Việc canh tranh dẫn đến
tỉ lệ phát triển thuê bao cao. Ban đầu, việc tăng trưởng trong thị trường
viễn thông tăng theo cấp số nhân, do có rất nhiều kháchhàng mới, tốc độ
phát triển thuê bao không phải là vấn đề. Khi thị trường trở nên bão hòa,
tốc độ phát triển thuê bao giảm. Việc bão hòa của các thuê bao và sự cạnh
tranh ngày càng gay gắt dẫn đến việc những công ty viễnthông sẽ phải
hướng tới vào những kháchhàng đã có và tìm cách giữ họ lại. KPDLcó
thể dùng trong việc phân tích tốc độ phát triển thuê bao đểdự đoán dựa
trên dữliệu cụ thể là kháchhàng sẽ không hoặc vẫn dùng sản phẩm của
công ty và tại sao.
Bộ dữliệu đồ sộ: các công ty viễnthông có một khối lượng dữliệu đồ sộ.
Khi những sản phẩm chính của các công ty được sử dụng, mỗi khách
hàng đã tạo ra hàng trăm giao dịch trên một ngày. Một bản ghi cuộc gọi
được lưu trữ trong cơ sở dữliệu và nó là một nguồn dữliệu rất lớn. Các
công ty viễnthông cũng lưu trữ dữliệukhách hàng, miêu tả khách hàng,
dữ liệu mạng, và miêu tả họ sử dụng những dịch vụ nào.
Luận văn: “Ứng dụngkhaiphádữliệuđểtìmhiểuthôngtinkháchhàng
viễn thông” nhằm góp phần nghiên cứu các mục tiêu nêu ra ở trên. Luận văn gồm
các chương sau:
Chương 1: Tổng quan về khaiphádữliệu
Chương 2: Khaiphádữliệu bằng cây quyết định
Chương 3: Xây dựng hệ thốngtìmhiểuthôngtinkháchhàng
3
Chương 1. TỔNG QUAN VỀ KHAIPHÁDỮLIỆU
1.1 Tìmhiểukhaiphádữliệu
Sự phát triển của công nghệ phần cứng máy tính trong thời gian qua đã dẫn
đến nguồn cung cấp các phương tiện lưu trữ dữliệu tốt với giá cả phải chăng. Song
song với điều đó, những tiến bộ trong quá trình thu thập đã dẫn tới sự tăng trưởng
với số lượng lớn của dữ liệu.
Công cụ KPDL thực thi việc phân tích dữliệu và khám phá ra những mẫu
quan trọng bị ẩn giấu. Việc mở rộng giữa dữliệu và thôngtin được gọi là công cụ
phát triển khai thác hệ thống - công cụ khaiphádữ liệu.
1.1.1 Mục tiêu, nguồn gốc của khaiphádữliệu
KPDL là quá trình tìm kiếm các mẫu mới, những thôngtin tiềm ẩn mang tính
dự đoán trong các khối dữliệu lớn. Những công cụ KPDL có thể phát hiện những
xu hướng trong tương lai, các tri thức mà KPDL giúp doanh nghiệp sẽ đưa ra các
quyết định kịp thời. Với ưu điểm trên, KPDL đã chứng tỏ được tính hữu dụng của
nó trong môi trường kinh doanh đầy tính cạnh tranh và được ứngdụng rộng rãi
trong các lĩnh vực thương mại, tài chính, y học, giáo dục, viễnthông v.v.
Hình 1.1:Nguồn gốc của khaiphádữliệu
Khai phádữliệu liên quan chặt chẽ đến những lĩnh vực sau: thống kê, máy
học, cơ sở dữ liệu.
Thống kê
Trí tuệ nhân tạo(Artificial Intelligence - AI)
Hệ thống CSDL
4
1.1.2 Lý do khaiphádữliệu
Dựa trên thực tế, trên một khía cạnh nào đó, là đang tồn tại một lượng dữ
liệu hệ thống khổng lồ mà chưa được khám phá một cách cụ thể. Nghĩa là đang có
rất nhiều thôngtin “ẩn giấu” và đã nằm ngoài khả năng phát hiện ra bởi những
phương thức truyền thống và dựa trên khả năng phân tích của con người.Sự cần
thiết của “khai phá” dữliệu có thể miêu tả bằng sự cần thiết trong lĩnh vực cuộc
sống thực:
Kinh tế, tài chính
Chăm sóc sức khỏe
Nghiên cứu khoa học
Vậy, KPDL là gì? Tuy nhiên rất khó khăn để đưa ra một định nghĩa duy nhất
mà phản ánh toàn sự kiện của hiện tượng. Vì thế, với từng cách tiếp cận khác nhau
sẽ có những cái nhìn khác nhau về KPDL:
Là việc tìm kiếm tự động những mẫu trong CSDL khổng lồ, sử dụng
công nghệ tính toán từ thống kê, học máy và nhận biết mẫu;
Là việc khai thác sự có ích của thôngtin ẩn, mà trước đó chưa biết và có
khả năng thôngtin là hữu ích từ dữ liệu;
Kỹ thuật tách thôngtin hữu dụng từ một tập dữliệu lớn hoặc CSDL;
Việc thăm dò tự động hoặc bán tự động và phân tích một lượng lớn của
dữ liệu, nhằm phát hiện những mô hình có ý nghĩa;
Tiến trình tự động khám pháthông tin, việc xác định mô hình và mối
quan hệ ẩn giấu trong dữ liệu.
Tóm lại, KPDL là quá trình phân tích của một tập dữliệu quan sát (thường là
rất lớn) đểtìm ra những mối quan hệ ẩn giấu và tổng kết dữliệu theo nhiều cách
nhằm dễhiểu và dễ sử dụng cho người sở hữu dữliệu đó.
1.2 Quá trình khaiphádữliệu
Nói một cách đơn giản, KPDL liên quan đến việc “tách” hoặc “dò” tri thức
từ một lượng lớn của dữ liệu, khaiphá tri thức từ dữ liệu, tách tri thức, phân tích
mẫu/dữ liệu
5
Quá trình khaiphá gồm những bước tuần tự như sau:
1. Làm sạch dữliệu (loại bỏ những dữliệu thừa và không có thông tin)
2. Tích hợp dữliệu (khi nhiều nguồn dữliệu được kết hợp)
3. Lựa chọn dữliệu (lựa chọn những dữliệu thích hợp cho việc phân tích
được thực hiện lấy từ CSDL)
4. Chuyển đổi dữliệu (nơi dữliệu được chuyển đổi hoặc hợp nhất thành
một thể thích hợp phù hợp cho việc khaiphá bằng cách thực hiện các
hoạt động tóm tắt hoặc tích hợp)
5. Khaiphádữliệu (là tiến trình quan trọng với những phương thức thông
minh được áp dụng cho việc tách những mẫu dữ liệu)
6. Định giá mẫu (Xác định những mẫu thực sự có ích miêu tả dữliệu dựa
trên một vài đơn vị đo lường sự có ích)
7. Miêu tả tri thức (khi việc miêu tả mô hình và dữliệu thu được được sử
dụng trong việc khaiphá tri thức cho người dùng)
Kiến trúc của một hệ thống KPDL điển hình chứa các thành phần sau:
CSDL, kho dữ liệu, web hoặc những hệ thốngthôngtin khác
Máy chủ CSDL hoặc kho dữliệu
Dựa trên cơ sở tri thức
Cách thức KPDL
Module đánh giá mô hình
Giao diện người sử dụng
1.2.1 Tiền xử lý dữliệu
Tiền xử lý dữliệu là quá trình chuẩn bị và xử lý dữ liệu. Trước khi sử dụng
bất kỳ kỹ thuật KPDL nào để “khai phá” dữ liệu, một vấn đề cực kỳ cần thiết là phải
xử lý dữliệu thô. Đầu tiên, cần phải xử lý những vấn đề về chất lượng dữliệu như
nhiễu, bất thường… Khi vấn đề chất lượng dữliệu được giải quyết, sẽ thực hiện
công việc tiền xử lý, về nguyên tắc bao gồm những thủ tục sau:
Tập hợp (Aggregation)
Lấy mẫu (Sampling)
6
Giảm chiều thôngtin (Dimensionality reduction)
Chọn tính năng (Feature selection)
Tạo ra các tính năng (Feature creation)
Rời rạc và nhị phân (Discretization and binarization)
Chuyển đổi thuộc tính (Atrribute transformation)
1.2.2 Xây dựng và xác nhận mô hình
Xây dựng và xác nhận mô hình là một bước của tiến trình KPDL sau tiến
trình tiền xử lý. Chú ý rằng, trong một tiến trình KPDL, trạng thái dữliệu xử lý sẽ
lặp lại nếu cần thiết. Một khi dữliệu “khai phá” được chọn, cần phải quyết định lấy
mẫu dữliệu như thế nào khi không làm việc với toàn bộ CSDL.
Một khi dữliệu đã phân tích được xác định, khi đó sẽ quan tâm đến mục đích
của tiến trình KPDL.
Hiểu các giới hạn
Chọn hướng nghiên cứu thích hợp
Kiểu nghiên cứu
Lựa chọn thành phần
Vấn đề lấy mẫu
Đọc dữliệu và xây dựng mô hình
1.2.3 Áp dụng và đánh giá mô hình
Sau khi mô hình xây dựng, áp dụng, cần phải quan tâm đến một số tính năng
quan trọng:
Độ chính xác của mô hình (model accuracy)
Độ dễhiểu của mô hình (model intelligibility)
Khả năng thực thi (performance)
Nhiễu (noise)
Mỗi mô hình sẽ có một ngưỡng để chấp nhận nhiễu và đó là lý do cần của
tiền xử lý dữ liệu.
7
1.3 Các kỹ thuật khaiphádữliệu
Theo nguyên lý, khi sử dụng phương thức KPDL để giải quyết một vấn đề cụ
thể, cần phải hình dung ra loại vấn đề là gì, có thể tổng kết thành hai loại chính,
cũng liên quan đến các đối tượng của khaiphádữ liệu:
KPDL dự đoán (predictive method): là đưa ra các dự đoán đựa vào các
suy diễn trên dữliệu hiện thời. KPDL dự đoán bao gồm các kỹ thuật phân
loại (classification), hồi quy (regression)
KPDL mô tả (descriptive method): có nhiệm vụ mô tả về các tính chất
hoặc đặc tính chung của dữliệu trong CSDL hiện có. Bao gồm các kỹ
thuật: phân cụm (clustering), phân tích luật kết hợp (association rules),
mẫu tuần tự (sequential patterns)
1.3.1 Phân lớp
Phân lớp là quá trình xây dựng một mô hình để mô tả dữliệu được phân chia
như thế nào, nói cách khác, phân lớp là quá trình xây dựng một mô hình bằng các
gán các đối tượng dữliệu (thuộc tính) vào các lớp đã xác định.
Tiến trình phân lớp dựa trên 4 thành phần cơ bản:
Lớp (class)
Dự đoán (predictors)
Tập dữliệu được đào tạo (Training dataset)
Tập dữliệu kiểm thử (Testing dataset)
Đặc trưng của tiến trình phân loại gồm những điểm sau:
Input: tập dữliệu đào tạo chứa những đối tượng với thuộc tính của nó,
với một số thuộc tính đã được gán nhãn;
Output: mô hình (classifier) được gán bởi những nhãn cụ thể cho mỗi đối
tượng (phân lớp các đối tượng từng các thư mục), dựa trên những thuộc
tính khác;
Mô hình sử dụngđểdự đoán những lớp mới, những đối tượng chưa biết.
Tập dữliệu kiểm thử cũng dùngdể xác định độ chính xác của mô hình.
8
Khi một mô hình phân loại được xây dựng, nó sẽ phải so sánh với những mô
hình khác để lựa chọn mô hình tốt nhất. Liên quan đến việc so sánh giữa các mô
hình phân loại (mô hình phân lớp), sẽ có một số thành phần cần được tính đến.
Khả năng dự đoán (predictive accuracy)
Tốc độ (speed)
Độ mạnh mẽ (robustness)
Độ mềm dẻo (scalability)
Tính dễ diễn giải (interpreability)
Độ đơn giản (simplicity).
1.3.2 Phân cụm
Nói đến phân cụm, nghĩa là nói đến chia một tập dữliệu thành một vài cụm
(cluster), dựa trên việc xác định những đặc điểm chung.
Các đối tượng thuộc 1 cụm là tương tự nhau.
Đối tượng ở cụm này sẽ ít tương tự với đối tượng ở cụm khác.
Phân cụm dữliệu được sử dụng nhiều trong các ứngdụng về phân đoạn thị
trường, khân khúc khách hàng, nhận dạng mẫu, phân loại trang web…
1.3.3 Luật kết hợp
Luật kết hợp là tiến trình xác định những luật phụ thuộc giữa những nhóm
khác nhau của hiện tượng. Khaiphá luật kết hợp dựa trên hai bước:
Tìm tất cả các tập mục phổ biến, được xác định qua tính hỗ trợ và thỏa
mãn độ hỗ trợ cực tiểu;
Sinh ra các luật kết hợp từ các mục phổ biến, các luật phải thỏa mãn độ
hỗ trợ cực tiểu và độ tin cậy cực tiểu.
Phương pháp này được sử dụnghiệu quả trong các lĩnh vực như quảng cáo
có chủ đích, phân tích quyết định, quản lý kinh doanh
1.3.4 Mẫu tuần tự
Mẫu tuần tự là xác định những mẫu mà sự xuất hiện của chúng trong CSDL
thỏa mãn ngưỡng tối thiểu. Luật tuần tự được sinh ra từ mẫu tuần tự, biểu diễn mối
9
quan hệ giữa hai loạt sự kiện, loạt sự kiện này sẽ xảy ra sau loạt sự kiện kia, tuần tự
theo thời gian, thể hiện tri thức tiềm ẩn của dữliệu tuần tự
Khai thác mẫu tuần tự được ứngdụng trong nhiều lĩnh vực như: phân tích thị
trường, phân tích mẫu truy cập web, dự đoán nhu cầu mua sắm của kháchhàng
1.3.5 Hồi quy
Phương pháp hồi quy là học một hàm ánh xạ một mục dữliệu và một biến dự
báo giá trị thực. Phân tích hồi quy sẽ xác định được định lượng quan hệ giữa các
biến, và quảng bá giá trị một biến phụ thuộc vào giá trị của những biến khác.
Phương pháp hồi quy khác với phân lớp dựliệu là hồi quy dùngđểdự đoán những
giá trị liên lục, còn phân lớp dữliệu là dự đoán các giá trị rời rạc.
Các ứngdụng của phương thức hồi quy:
Kinh tế
Dự báo thời tiết.
1.4 Ứng dụng, thách thức và hướng phát triển của KPDL
Với mỗi phương thức riêng biệt, rất nhiều ứngdụng thành công sử dụng
KPDL trong cuộc sống thực, sau đây là một số lĩnh vực mà áp dụng thành công kỹ
thuật KPDL:
Lĩnh vực tài chính và ngân hàng
Những chiến lược bán hàng
Chăm sóc sức khỏe và y tế
Viễn thông:
o Phát hiện gian lận trong cuộc gọi;
o Xác định các hồ sơ kháchhàng trung thành;
o Xác định các nhân tố ảnh hưởng đến hành vi kháchhàng liên quan
đến các kiểu gọi điện thoại;
o Xác định các rủi ro trong việc sử dụng đầu tư các công nghệ mới;
o Xác định những sự khác nhau giữa các dịch vụ và sản phẩm giữa
các đối thủ cạnh tranh.
[...]... ghi lại các thôngtin như: chủ gọi, bị gọi, ngày, thời gian bắt đầu, thời gian kết thúc… các thôngtin này được ghi lại, xử lý, lưu trữ gọi là CDR (Call detail records) Kết hợp với dữliệu phát triển thuê bao do trung tâm kháchhàng cung cấp để tính cước điện thoại Việc khai phádữliệuthông tin kháchhàng kết hợp trên ba cơ sở dữliệu chính gồm: dữliệu cuộc gọi, dữliệukhách hàng, dữliệu doanh... về thói quen thanh toán hóa đơn của khách hàng, theo thuật toán C4.5 sẽ thu được tỷ lệ phân loại là 681/319 ~ 68.1% trường hợp đúng 23 KẾT LUẬN Kết quả đạt được của luận văn Trong khuôn khổ khóa luận tốt nghiệp này, đã tiến hành nghiên cứu về khaiphádữ liệu, quá tình khai phádữ liệu, các kỹ thuật khaiphádữ liệu, các bước thực hiện khai phádữ liệu, và các ứngdụng Đồng thời, cũng nhấn mạnh đến... những quyết định chính xác cho từng kháchhàng Hướng phát triển tiếp theo Những năm gần đây, việc khai phádữliệu để tìm kiếm tri thức, dự đoán xu hướng và hỗ trợ ra quyết định đã trở thành một nhu cầu cần thiết trong phân tích dữliệu Khóa luận cần được phát triển thêm để có thể xây dựng các ứngdụng phân tích dữliệu mang tính thông minh hơn Do điều kiện thời gian và hiểu biết của bản thân còn nhiều... lý cả dữliệu có giá trị bằng số và dữliệu có giá trị theo loại Cây quyết định là mô hình hộp trắng (whitebox) 2.4.2 Nhược điểm của cây quyết định Mắc lỗi với quá nhiều lớp Việc đào tạo tốn kém 19 Chương 3: XÂY DỰNG HỆ THỐNGTÌM HIỂUTHÔNG TINKHÁCHHÀNG 3.1 Xây dựng cơ sở dữliệu Hình 3.1: Hệ thống xử lý cước Hình 3.1 miêu tả một hệ thống xử lý cước, khi kháchhàng thực hiện cuộc gọi/sử dụng, ... tính @data:xác định dữliệu 3.3.2 Thử nghiệm Chọn nguồn dữliệu Hình 3.2: Chọn nguồn dữliệu 21 Sử dụng c4.5 để phân lớp Hình 3.3: Sử dụng C4.5 để xây dựng cây Kết quả thử nghiệm: Dạng text bao gồm các thông tin: 22 Dạng mô hình cây Hình 3.4: Cây quyết định xác định thói quen trả hóa đơn điện thoại 3.3.3 Đánh giá Theo kết quả thực nghiệm ở trên, với trường hợp thử nghiệm nguồn dữliệu về thói quen thanh... tích dữliệu và mô hình dự đoán, cùng với giao diện đồ họa cho người sử dụngdễ dàng truy cập vào các chức năng Những ưu điểm của Weka: Miễn phí cho người sử dụng; Hỗ trợ trên nhiều nền tảng hệ điều hành; Là một tập hợp xử lý dữliệu và kỹ thuật mô hình; Hỗ trợ đồ họa ARFF file: Attribute Relationship File Format (ARFF) là tập file text sử dụng bởi weka cho việc lưu trữ dữliệu từ cơ sở dữ liệu. .. không có cạnh đi ra 12 Hình 2.4: Các nút của cây quyết định Thuật toán thường được sử dụngđể phát triển là chiến lược tham lam Nghĩa là phát triển cây bằng cách đưa ra một chuỗi các quyết định tối ưu cục bộ về thuộc tính được sử dụng trong dữliệu Một trong những thuật toán đó là thuật toán Hunt’s, sử dụngđệ quy để phát triển cây Gọi Dt là các nhóm của tập kiểm thử gắn với nútt và C = {c1,c2, cc} là... các thuộc tính có dữliệu không xác định (do bị mất mát dữ liệu, …); Đưa ra phương pháp “cắt tỉa” cây và giản lược các luật để phù hợp với những bộ dữliệu lớn C4.5 giới thiệu một số mở rộng của thuật toán ID3 16 Đối với những thuộc tính liên tục sẽ được xử lý như sau: 1 Kỹ thuật Quick sort được sử dụngđể sắp xếp các trường hợp trong tập dữliệu đào tạo theo thứ tự tăng dần hoặc giảm dần các giá... đang xét Được tập giá trị V = {v1, v2, …, vm} 2 Chia tập dữliệu thành hai tập con theo ngưỡng θi= (vi + vi+1)/2 nằm giữa hai giá trị liền kề nhau (vi,vi+1) Test để phân chia dữliệu là test nhị phân dạng Vθi Thực thi test đó ta được hai tập dữliệu con: V1 = {v1, v2, …, vi} và V2 = {vi+1, vi+2, …, vm} 3 Xét (m-1) ngưỡng θi có thể có ứng với m giá trị của thuộc tính V bằng cách tính Information... sở dữliệu chính gồm: dữliệu cuộc gọi, dữliệukhách hàng, dữliệu doanh thu 3.2 Xây dựng mô hình Luận văn sử dụng thuật toán C4.5 thử nghiệm trên nguồn dữliệu thói quen thanh toán hóa đơn điện thoại để phân loại kháchhàng có thói quen trả hóa đơn điện thoại tốt/xấu Đầu vào: o Nguồn dữliệu thử nghiệm: paid_history.arff o Số mẫu:1000 o Số thuộc tính: 14 20 o Số thuộc tính liên tục: 6 o Số thuộc . VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
NGUYỄN LÊ PHƯƠNG
ỨNG DỤNG KHAI PHÁ DỮ LIỆU TÌM HIỂU THÔNG TIN
KHÁCH HÀNG VIỄN THÔNG
Chuyên ngành: Khoa. viễn thông cũng lưu trữ dữ liệu khách hàng, miêu tả khách hàng,
dữ liệu mạng, và miêu tả họ sử dụng những dịch vụ nào.
Luận văn: Ứng dụng khai phá dữ