1. Trang chủ
  2. » Luận Văn - Báo Cáo

luận văn Thạc sĩ Ứng dụng khai phá dữ liệu tìm hiểu thông tin khách hàng Viễn Thông

24 364 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 24
Dung lượng 725,2 KB

Nội dung

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - NGUYỄN LÊ PHƯƠNG ỨNG DỤNG KHAI PHÁ DỮ LIỆU TÌM HIỂU THÔNG TIN KHÁCH HÀNG VIỄN THÔNG Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 Người hướng dẫn khoa học: TS VŨ VĂN THỎA TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2012 MỞ ĐẦU Khai phá liệu (KPDL) tiến trình khai phá tự động tri thức tiềm ẩn sở liệu, cụ thể tiến trình lọc sản sinh tri thức mẫu tiềm ẩn chứa thông tin hữu ích từ số lượng liệu lớn KPDL tiến trình khái quát kiện rời rạc liệu thành tri thức mang tính quy luật, hỗ trợ tích cực cho việc đưa định Khi việc lưu trữ liệu không đắt đỏ, phần cứng có cấu hình cao, khối lượng liệu khổng lồ, có nhiều công cụ hỗ trợ cho việc phát triển khai phá liệu, tất giúp KDPL trở thành lĩnh vực mang tính thời ngành công nghệ thông tin Ngày nay, công ty coi khách hàng trung tâm Họ cần có môi trường cho phép hiểu rõ yêu cầu khách hàng Ngành công nghiệp viễn thông lưu trữ khối lượng liệu khổng lồ, bao gồm: chi tiết gọi, thông tin cảnh báo trình trạng hệ thống mạng viễn thông thông tin liệu khách hàng Các công ty viễn thông nắm bắt rõ thông tin khách hàng Họ biết khách hàng họ ai, dễ dàng theo dõi hành vi, thói quen khách hàng Một tập hoạt động cho thực công việc để xác định, điều kiện, bổ sung, phát triển, giữ lại khách hàng trung thành lợi nhuận cách cung cấp sản phẩm dịch vụ, tới khách hàng, kênh, thời điểm giá thành Khi sản phẩm dịch vụ nghĩa có sản phẩm dịch vụ phù hợp với khách hàng cần xem xét Ứng dụng kỹ thuật KPDL để phát quy luật ẩn chứa khối liệu khổng lồ đưa dự đoán, định đúng, mang lại cho doanh nghiệp viễn thông nhiều hội để phát triển ứng dụng mang tính thực tiễn cao Lý cho việc ứng dụng KPDL cho công việc chăm sóc khách hàng thị trường viễn thông:  Thị trường cạnh tranh: sau nhiều năm thị trường độc quyền, thị trường viễn thông ngày trở nên cạnh tranh Khi thị trường độc quyền biến động, thị trường cạnh tranh liệt thứ thay đổi liên tục Khách hàng chuyển đổi nhà cung cấp dễ dàng, có nhiều lựa chọn Vì lý đó, công ty viễn thông cần ứng dụng giải pháp KPDL để đạt lợi cạnh tranh Bằng cách hiểu hành vi thói quen khách hàng, công ty viễn thông đưa chiến lược quảng bá hiệu để đưa sản phẩm mà khách hàng yêu thích, phát triển khách hàng trung thành, tăng lợi ích cho khách hàng  Tốc độ phát triển thuê bao: số lượng thuê bao đề cập đến doanh thu hàng năm hàng tháng dựa sở khách hàng Việc canh tranh dẫn đến tỉ lệ phát triển thuê bao cao Ban đầu, việc tăng trưởng thị trường viễn thông tăng theo cấp số nhân, có nhiều khách hàng mới, tốc độ phát triển thuê bao vấn đề Khi thị trường trở nên bão hòa, tốc độ phát triển thuê bao giảm Việc bão hòa thuê bao cạnh tranh ngày gay gắt dẫn đến việc công ty viễn thông phải hướng tới vào khách hàng có tìm cách giữ họ lại KPDLcó thể dùng việc phân tích tốc độ phát triển thuê bao để dự đoán dựa liệu cụ thể khách hàng không dùng sản phẩm công ty  Bộ liệu đồ sộ: công ty viễn thông có khối lượng liệu đồ sộ Khi sản phẩm công ty sử dụng, khách hàng tạo hàng trăm giao dịch ngày Một ghi gọi lưu trữ sở liệu nguồn liệu lớn Các công ty viễn thông lưu trữ liệu khách hàng, miêu tả khách hàng, liệu mạng, miêu tả họ sử dụng dịch vụ Luận văn: “Ứng dụng khai phá liệu để tìm hiểu thông tin khách hàng viễn thông” nhằm góp phần nghiên cứu mục tiêu nêu Luận văn gồm chương sau: Chương 1: Tổng quan khai phá liệu Chương 2: Khai phá liệu định Chương 3: Xây dựng hệ thống tìm hiểu thông tin khách hàng Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Tìm hiểu khai phá liệu Sự phát triển công nghệ phần cứng máy tính thời gian qua dẫn đến nguồn cung cấp phương tiện lưu trữ liệu tốt với giá phải Song song với điều đó, tiến trình thu thập dẫn tới tăng trưởng với số lượng lớn liệu Công cụ KPDL thực thi việc phân tích liệu khám phá mẫu quan trọng bị ẩn giấu Việc mở rộng liệu thông tin gọi công cụ phát triển khai thác hệ thống - công cụ khai phá liệu 1.1.1 Mục tiêu, nguồn gốc khai phá liệu KPDL trình tìm kiếm mẫu mới, thông tin tiềm ẩn mang tính dự đoán khối liệu lớn Những công cụ KPDL phát xu hướng tương lai, tri thức mà KPDL giúp doanh nghiệp đưa định kịp thời Với ưu điểm trên, KPDL chứng tỏ tính hữu dụng môi trường kinh doanh đầy tính cạnh tranh ứng dụng rộng rãi lĩnh vực thương mại, tài chính, y học, giáo dục, viễn thông v.v Hình 1.1:Nguồn gốc khai phá liệu Khai phá liệu liên quan chặt chẽ đến lĩnh vực sau: thống kê, máy học, sở liệu  Thống kê  Trí tuệ nhân tạo(Artificial Intelligence - AI)  Hệ thống CSDL 1.1.2 Lý khai phá liệu Dựa thực tế, khía cạnh đó, tồn lượng liệu hệ thống khổng lồ mà chưa khám phá cách cụ thể Nghĩa có nhiều thông tin “ẩn giấu” nằm khả phát phương thức truyền thống dựa khả phân tích người.Sự cần thiết “khai phá” liệu miêu tả cần thiết lĩnh vực sống thực:  Kinh tế, tài  Chăm sóc sức khỏe  Nghiên cứu khoa học Vậy, KPDL gì? Tuy nhiên khó khăn để đưa định nghĩa mà phản ánh toàn kiện tượng Vì thế, với cách tiếp cận khác có nhìn khác KPDL:  Là việc tìm kiếm tự động mẫu CSDL khổng lồ, sử dụng công nghệ tính toán từ thống kê, học máy nhận biết mẫu;  Là việc khai thác có ích thông tin ẩn, mà trước chưa biết có khả thông tin hữu ích từ liệu;  Kỹ thuật tách thông tin hữu dụng từ tập liệu lớn CSDL;  Việc thăm dò tự động bán tự động phân tích lượng lớn liệu, nhằm phát mô hình có ý nghĩa;  Tiến trình tự động khám phá thông tin, việc xác định mô hình mối quan hệ ẩn giấu liệu Tóm lại, KPDL trình phân tích tập liệu quan sát (thường lớn) để tìm mối quan hệ ẩn giấu tổng kết liệu theo nhiều cách nhằm dễ hiểu dễ sử dụng cho người sở hữu liệu 1.2 Quá trình khai phá liệu Nói cách đơn giản, KPDL liên quan đến việc “tách” “dò” tri thức từ lượng lớn liệu, khai phá tri thức từ liệu, tách tri thức, phân tích mẫu/dữ liệu 5 Quá trình khai phá gồm bước sau: Làm liệu (loại bỏ liệu thừa thông tin) Tích hợp liệu (khi nhiều nguồn liệu kết hợp) Lựa chọn liệu (lựa chọn liệu thích hợp cho việc phân tích thực lấy từ CSDL) Chuyển đổi liệu (nơi liệu chuyển đổi hợp thành thể thích hợp phù hợp cho việc khai phá cách thực hoạt động tóm tắt tích hợp) Khai phá liệu (là tiến trình quan trọng với phương thức thông minh áp dụng cho việc tách mẫu liệu) Định giá mẫu (Xác định mẫu thực có ích miêu tả liệu dựa vài đơn vị đo lường có ích) Miêu tả tri thức (khi việc miêu tả mô hình liệu thu được sử dụng việc khai phá tri thức cho người dùng) Kiến trúc hệ thống KPDL điển hình chứa thành phần sau:  CSDL, kho liệu, web hệ thống thông tin khác  Máy chủ CSDL kho liệu  Dựa sở tri thức  Cách thức KPDL  Module đánh giá mô hình  Giao diện người sử dụng 1.2.1 Tiền xử lý liệu Tiền xử lý liệu trình chuẩn bị xử lý liệu Trước sử dụng kỹ thuật KPDL để “khai phá” liệu, vấn đề cần thiết phải xử lý liệu thô Đầu tiên, cần phải xử lý vấn đề chất lượng liệu nhiễu, bất thường… Khi vấn đề chất lượng liệu giải quyết, thực công việc tiền xử lý, nguyên tắc bao gồm thủ tục sau:  Tập hợp (Aggregation)  Lấy mẫu (Sampling)  Giảm chiều thông tin (Dimensionality reduction)  Chọn tính (Feature selection)  Tạo tính (Feature creation)  Rời rạc nhị phân (Discretization and binarization)  Chuyển đổi thuộc tính (Atrribute transformation) 1.2.2 Xây dựng xác nhận mô hình Xây dựng xác nhận mô hình bước tiến trình KPDL sau tiến trình tiền xử lý Chú ý rằng, tiến trình KPDL, trạng thái liệu xử lý lặp lại cần thiết Một liệu “khai phá” chọn, cần phải định lấy mẫu liệu không làm việc với toàn CSDL Một liệu phân tích xác định, quan tâm đến mục đích tiến trình KPDL  Hiểu giới hạn  Chọn hướng nghiên cứu thích hợp  Kiểu nghiên cứu  Lựa chọn thành phần  Vấn đề lấy mẫu  Đọc liệu xây dựng mô hình 1.2.3 Áp dụng đánh giá mô hình Sau mô hình xây dựng, áp dụng, cần phải quan tâm đến số tính quan trọng:  Độ xác mô hình (model accuracy)  Độ dễ hiểu mô hình (model intelligibility)  Khả thực thi (performance)  Nhiễu (noise) Mỗi mô hình có ngưỡng để chấp nhận nhiễu lý cần tiền xử lý liệu 7 1.3 Các kỹ thuật khai phá liệu Theo nguyên lý, sử dụng phương thức KPDL để giải vấn đề cụ thể, cần phải hình dung loại vấn đề gì, tổng kết thành hai loại chính, liên quan đến đối tượng khai phá liệu:  KPDL dự đoán (predictive method): đưa dự đoán đựa vào suy diễn liệu thời KPDL dự đoán bao gồm kỹ thuật phân loại (classification), hồi quy (regression)  KPDL mô tả (descriptive method): có nhiệm vụ mô tả tính chất đặc tính chung liệu CSDL có Bao gồm kỹ thuật: phân cụm (clustering), phân tích luật kết hợp (association rules), mẫu (sequential patterns) 1.3.1 Phân lớp Phân lớp trình xây dựng mô hình để mô tả liệu phân chia nào, nói cách khác, phân lớp trình xây dựng mô hình gán đối tượng liệu (thuộc tính) vào lớp xác định Tiến trình phân lớp dựa thành phần bản:  Lớp (class)  Dự đoán (predictors)  Tập liệu đào tạo (Training dataset)  Tập liệu kiểm thử (Testing dataset) Đặc trưng tiến trình phân loại gồm điểm sau:  Input: tập liệu đào tạo chứa đối tượng với thuộc tính nó, với số thuộc tính gán nhãn;  Output: mô hình (classifier) gán nhãn cụ thể cho đối tượng (phân lớp đối tượng thư mục), dựa thuộc tính khác;  Mô hình sử dụng để dự đoán lớp mới, đối tượng chưa biết Tập liệu kiểm thử dùng dể xác định độ xác mô hình 8 Khi mô hình phân loại xây dựng, phải so sánh với mô hình khác để lựa chọn mô hình tốt Liên quan đến việc so sánh mô hình phân loại (mô hình phân lớp), có số thành phần cần tính đến  Khả dự đoán (predictive accuracy)  Tốc độ (speed)  Độ mạnh mẽ (robustness)  Độ mềm dẻo (scalability)  Tính dễ diễn giải (interpreability)  Độ đơn giản (simplicity) 1.3.2 Phân cụm Nói đến phân cụm, nghĩa nói đến chia tập liệu thành vài cụm (cluster), dựa việc xác định đặc điểm chung  Các đối tượng thuộc cụm tương tự  Đối tượng cụm tương tự với đối tượng cụm khác Phân cụm liệu sử dụng nhiều ứng dụng phân đoạn thị trường, khân khúc khách hàng, nhận dạng mẫu, phân loại trang web… 1.3.3 Luật kết hợp Luật kết hợp tiến trình xác định luật phụ thuộc nhóm khác tượng Khai phá luật kết hợp dựa hai bước:  Tìm tất tập mục phổ biến, xác định qua tính hỗ trợ thỏa mãn độ hỗ trợ cực tiểu;  Sinh luật kết hợp từ mục phổ biến, luật phải thỏa mãn độ hỗ trợ cực tiểu độ tin cậy cực tiểu Phương pháp sử dụng hiệu lĩnh vực quảng cáo có chủ đích, phân tích định, quản lý kinh doanh 1.3.4 Mẫu Mẫu xác định mẫu mà xuất chúng CSDL thỏa mãn ngưỡng tối thiểu Luật sinh từ mẫu tuần tự, biểu diễn mối quan hệ hai loạt kiện, loạt kiện xảy sau loạt kiện kia, theo thời gian, thể tri thức tiềm ẩn liệu Khai thác mẫu ứng dụng nhiều lĩnh vực như: phân tích thị trường, phân tích mẫu truy cập web, dự đoán nhu cầu mua sắm khách hàng 1.3.5 Hồi quy Phương pháp hồi quy học hàm ánh xạ mục liệu biến dự báo giá trị thực Phân tích hồi quy xác định định lượng quan hệ biến, quảng bá giá trị biến phụ thuộc vào giá trị biến khác Phương pháp hồi quy khác với phân lớp dự liệu hồi quy dùng để dự đoán giá trị liên lục, phân lớp liệu dự đoán giá trị rời rạc Các ứng dụng phương thức hồi quy:  Kinh tế  Dự báo thời tiết 1.4 Ứng dụng, thách thức hướng phát triển KPDL Với phương thức riêng biệt, nhiều ứng dụng thành công sử dụng KPDL sống thực, sau số lĩnh vực mà áp dụng thành công kỹ thuật KPDL:  Lĩnh vực tài ngân hàng  Những chiến lược bán hàng  Chăm sóc sức khỏe y tế  Viễn thông: o Phát gian lận gọi; o Xác định hồ sơ khách hàng trung thành; o Xác định nhân tố ảnh hưởng đến hành vi khách hàng liên quan đến kiểu gọi điện thoại; o Xác định rủi ro việc sử dụng đầu tư công nghệ mới; o Xác định khác dịch vụ sản phẩm đối thủ cạnh tranh 10 Chương KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 2.1 Cây định 2.1.1 Vấn đề phân lớp Dữ liệu vào nhiệm vụ phân lớp tập hợp ghi Mỗi ghi, biết đến thể ví dụ, miêu tả (x,y)= (x1, x2, x3 , xk, y) với x tập thuộc tính, y biến phụ thuộc (dependantvariable) cần tìm hiểu, phân loại hay tổng quát hóa, (x1, x2, x3 , xk, y) biến giúp thực công việc đó, gán nhãn lớp (category target attribute) Hình 2.1: Mô hình phân lớp Định nghĩa phân lớp: hàm chức f mà ánh xạ thuộc tính từ tập x đến lớp xác định trước lớp dán nhãn y Mô hình dự đoán: mô hình phân lớp sử dụng để dự đoán lớp mà chưa dán nhãn Như hình 2.1 mô hình phân lớp coi hộp đen (black-box) tự động gán nhãn cho lớp miêu tả tập thuộc tính chưa rõ Để so sánh mức độ hiệu phương pháp, sử dụng ma trận thực thi (perfomance metric) accuracy, định nghĩa sau: Accuracy = = (2.1) Tương tự, khả thực thi xác mô hình biểu diễn dạng error rate, cung cấp điều kiện sau: Error rate = = (2.2) Hầu hết thuật toán tìm kiếm phân lớp chọn đạt độ xác cao hiệu quả, tỉ lệ lỗi thấp 11 2.1.2 Giới thiệu định Một phương pháp phân loại phổ biến mô hình định Theo nguyên tắc, định sử dụng để dự đoán thành viên đối tượng theo đề mục khác (lớp), đưa vào giá trị mà có liên quan đến thuộc tính (biến dự đoán), phương thức định kỹ thuật KPDL Việc phân loại xây dựng định dựa đặc trưng:  Mỗi cây(nội bộ) (ví dụ nút riêng rẽ) miêu tả thử nghiệm dựa thuộc tính định  Mỗi nhánh thể kết thử nghiệm  Mỗi nút (nút cuối cùng) miêu tả lớp (quyết định) Cây định có ba cách tiếp cận bản:  Cây phân loại: sử dụng kết dự đoán lớp thành phần liệu  Cây hồi quy: kết dự đoán liên quan tới số thực (giá dầu, giá trị nhà )  CART (classification and regression tree) liên quan đến hai trường hợp 2.1.3 Xây dựng định Một gồm ba kiểu nút:  Nút gốc(Root node) cạnh đến không nhiều cạnh ra;  Nút trung chuyển (Internal node): nút có xác cạnh đến hai nhiều cạnh ra;  Lá nút đích (Leaf of terminal nodes): nút có xác cạnh đến cạnh 12 Hình 2.4: Các nút định Thuật toán thường sử dụng để phát triển chiến lược tham lam Nghĩa phát triển cách đưa chuỗi định tối ưu cục thuộc tính sử dụng liệu Một thuật toán thuật toán Hunt’s, sử dụng đệ quy để phát triển Gọi Dt nhóm tập kiểm thử gắn với nútt C = {c1,c2, cc} tập nhãn Theo tuần tự, thuật toán Hunts thực theo bước sau: Biểu diễn tập Dt tập đối tượng học (dữ liệu) nút t; Nếu tập Dt tập rỗng, t nútđích (nút lá) gán nhãn lớp Ot Nếu Dt chứa đối tượng mà phụ thuộc vào lớp Ct, t nút lá, gán nhãn Ct Nếu Dt chứa đối tượng mà phụ thuộc nhiều lớp, sử dụng thuộc tính lựa chọn để chia đối tượng thành tập bé Từ thuật toán trên, có nhiều mở rộng việc phân loại:  ID3, C4.5 C5.0 – máy học;  Cart (C&RT) – thống kê;  CHAID – nhận biết mẫu Theo nguyên tắc, phương thức liên quan đến định bao gồm hai bước:  Xây dựng bản, sử dụng tập học có sẵn trở thành “thuần” (đồng nhất) gần “thuần” (lá cuối cùng) 13  Tỉa trồng để cải thiện độ xác thu tập kiểm tra Thuật toán sau trình bày thủ tục liên quan đến việc xây dựng định nhị phân Tree building algorithm Tree building algorithm Make Tree(Training Data T) { Partition(T) } SPRINT algorithm(node S) Partition(Data S) { if(all points in S are in the same class)then return for each attribute A evaluate splits on attribute A; use the best found split to partition S into S1 and S2 Partition(S1) Partition(S2) } Có nhiều đơn vị đo lường sử dụng để xác định cách tốt để chia tách Những đơn vị đo lường định nghĩa thuật ngữ việc phân chia thuộc tính lớp trước sau chia  Chỉ số GINI (impurity)  Chỉ số Entropy  Biện pháp phân loại sai 2.3.1.1 GINI index Đặt f(i,j) tần số xảy lớp j nút i hoặc, nói theo cách khác, vị trí đối tượng phụ thuộc vào lớp j mà phân chia đến nút i (với m điểm đích lớp đối tượng) Chỉ số GINI tính sau: I (i) = − f (i, j)(2.3) Khi nút “cha” chia p phần (con), chất lượng việc phân chia tính số GINIsplitting: GINI = GINI(i) (2.4) 14 Chỉ số phân chia tối ưu nút đảm bảo số GINIsplit thấp (giá trị mong đợi =0) 2.3.1.2 Entropy index Công thức tính entropy sau: Entropy (i) = I (i) = − ∑ f(i, j) log [f(i, j)] (2.5) Với tương tự số GINI, f(i,j) tần số xảy lớp j nút i (tỷ lệ đối tượng lớp j phụ thuộc vào nút i) Khi nút cha chia thành p phần, chất lượng việc chia cắt tính số Entropy splitting: Entropysplit Entropy = I (i)(2.6) Giá trị phân chia tối ưu nút số đảm bảo cho số Entropysplit bé (giá trị tốt 0) 2.3.1.3 Misclassfication measure (chỉ số đo lường sai) Một số để đo tạp chất sử dụng cho nút phân chia dựa giá trị số đo lường sai Chỉ số đo lường sai là phân lớp lỗi mà tạo nút sử dụng điểm phân chia xác, đưa bởi: Error(i) = I (i) = − max f(i, j) (2.7) Với f(i,j) tỷ lệ đối tượng lớp j mà gán nút i Khi nút “cha” chia thành p phần, chất lượng việc phân chia đo số Errorsplit: = 2.2 () (2.8) Một số thuật toán xây dựng định 2.2.1 ID3 Đầu vào: Một tập ví dụ Mỗi ví dụ bao gồm thuộc tính rời rạc, mô tả tình huống, hay đối tượng đó, giá trị phân loại Đầu ra: Cây định có khả phân loại ví dụ tập liệu rèn luyện, phân loại cho ví dụ chưa gặp tương lai 15 Mã giả cho thuật toán ID3 Function ID3 (R: a set of non-categorical attributes, C: the categorical attribute, S: a training set) returns a decision tree; begin If S is empty, return a single node with value Failure; If S consists of records all with the same value for the categorical attribute, return a single node with that value; If R is empty, then return a single node with as value the most frequent of the values of the categorical attribute that are found in records of S; [note that then there will be errors, that is, records that will be improperly classified]; Let D be the attribute with largest Gain(D,S) among attributes in R; Let {dj| j=1,2, , m} be the values of attribute D; Let {Sj| j=1,2, , m} be the subsets of S consisting respectively of records with value dj for attribute D; Return a tree with root labeled D and arcs labeled d1, d2, , dm going respectively to the trees ID3(R-{D}, C, S1), ID3(R-{D}, C, S2), , ID3(R-{D}, C, Sm); end ID3; Hai độ đo sử dụng ID3 information gain gain ratio RF(Cj, S) biểu diễn tần xuất (Relative Frequency) trường hợp S thuộc lớp Cj: RF(Cj, S) =| Sj|/|S| Với | Sj| kích thước tập trường hợp có giá trị phân lớp Cj |S| kích thước tập liệu đào tạo Việc tính toán số gain tỉ lệ gain theo công thức 2.5 2.6 2.2.2 C4.5 C4.5 thuật toán dùng để xây dựng định được đề xuất Ross Quinlan, mở rộng ID3http://en.wikipedia.org/wiki/C4.5_algorithm cite_note-0 Đặc điểm C4.5 :  Cho phép liệu đầu vào thuộc tính liên tục;  Cho phép thao tác với thuộc tính có liệu không xác định (do bị mát liệu, …);  Đưa phương pháp “cắt tỉa” giản lược luật để phù hợp với liệu lớn C4.5 giới thiệu số mở rộng thuật toán ID3 16 Đối với thuộc tính liên tục xử lý sau: Kỹ thuật Quick sort sử dụng để xếp trường hợp tập liệu đào tạo theo thứ tự tăng dần giảm dần giá trị thuộc tính liên tục V xét Được tập giá trị V = {v1, v2, …, vm} Chia tập liệu thành hai tập theo ngưỡng θi= (vi + vi+1)/2 nằm hai giá trị liền kề (vi,vi+1) Test để phân chia liệu test nhị phân dạng Vθi Thực thi test ta hai tập liệu con: V1 = {v1, v2, …, vi} V2 = {vi+1, vi+2, …, vm} Xét (m-1) ngưỡng θi có ứng với m giá trị thuộc tính V cách tính Information gain hay Gain ratio với ngưỡng Ngưỡng có giá trị Information gain hay Gain ratio lớn chọn làm ngưỡng phân chia thuộc tính Đối với giá trị thiếu Trong trình xây dựng từ tập liệu đào tạo S, B tập liệu kiểm thử dựa thuộc tính Aavới giá trị đầu (b1, b2, , bt) Tập S0là tập trường hợp S mà có giá trị thuộc tính Aakhông biết Si biểu diễn trường hợp với đầu bitrong tậpB Khi độ đo informationgain tập B giảm không học từ trường hợp S0 ( , )= ( − , ) (công thức 2.9) Tương ứng với G(S, B), P(S, B) thay đổi: ( , )=− | | | | | | log ( | | ) − ∑ | | | | | | log ( | | ) (công thức 2.10) Hai thay đổi làm giảm giá trị kiểm thử liên quan đến thuộc tính có tỉ lệ giá trị thiếu cao Nếu tậpB chọn, C4.5 không tạo nhánh riêng định cho S0 Thay vào đó, thuật toán có chế phân chia trường hợp S0về vác tập Si tập mà có giá trị thuộc tính kiểm thử xác định theo số |Si|/|S– S 0| 17 2.3 Cắt tỉa định 2.3.1 Đặc trưng xây dựng định Độ phức tạp tối đa O(w) với w độ sâu 2.3.2 Độ xác tiên đoán Mục đích việc xây dựng định đạt dự đoán liệu xác Việc thực khó khăn, không muốn nói bất khả thi, để xác định cách tuyệt đối giá trị với tính xác dự báo được, nhiên, thực tế số số trình dự đoán, coi chi phí dự đoán Sau chi phí có liên quan tiến trình phân loại:  Xác suất ưu tiên (prior probabilities)  Giá thành đo lường sai(Misclassification costs) 2.3.3 Điều kiện dừng cho trình tách Có hai luật điều khiển dừng muốn dừng phân tách:  Giá trị tối thiểu n  Tỷ lệ đối tượng 2.3.4 Cắt tỉa định Có hai kiểu việc tỉa định:  Tiền cắt tỉa (Pre-pruning): dừng sớm việc phát triển trước vươn đến điểm mà việc phân lớp mẫu huấn luyện hoàn thành Hậu cắt tỉa (Post-pruning): Chiến thuật ngược với chiến thuật tiền cắt tỉa, cho phép phát triển câyđầy đủ sau cắt tỉa 2.3.5 Tách luật phân loại từ định Một định xây dựng, mô hình sử dụng để đưa định cách tối ưu Tri thức đạt cấu trúc “của cây” dễ dàng “đọc” duyệt theo “nhánh” đến (duyệt từ gốc đến ngọn), thế, luật phân loại theo câu lệnh if-then 18 2.4 Đánh giá định 2.4.1 Ưu điểm định  Khả tạo luật dễ hiểu  Khả xử lý với thuộc tính liên tục thuộc tính rời rạc  Thể rõ ràng thuộc tính tốt  Xử lý liệu có giá trị số liệu có giá trị theo loại  Cây định mô hình hộp trắng (whitebox) 2.4.2 Nhược điểm định  Mắc lỗi với nhiều lớp  Việc đào tạo tốn 19 Chương 3: XÂY DỰNG HỆ THỐNG TÌM HIỂUTHÔNG TIN KHÁCH HÀNG 3.1 Xây dựng sở liệu Hình 3.1: Hệ thống xử lý cước Hình 3.1 miêu tả hệ thống xử lý cước, khách hàng thực gọi/sử dụng, tổng đài ghi lại thông tin như: chủ gọi, bị gọi, ngày, thời gian bắt đầu, thời gian kết thúc… thông tin ghi lại, xử lý, lưu trữ gọi CDR (Call detail records) Kết hợp với liệu phát triển thuê bao trung tâm khách hàng cung cấp để tính cước điện thoại Việc khai phá liệu thông tin khách hàng kết hợp ba sở liệu gồm: liệu gọi, liệu khách hàng, liệu doanh thu 3.2 Xây dựng mô hình Luận văn sử dụng thuật toán C4.5 thử nghiệm nguồn liệu thói quen toán hóa đơn điện thoại để phân loại khách hàng có thói quen trả hóa đơn điện thoại tốt/xấu Đầu vào: o Nguồn liệu thử nghiệm: paid_history.arff o Số mẫu:1000 o Số thuộc tính: 14 20 o Số thuộc tính liên tục: o Số thuộc tính chuẩn hóa: 3.3 Thực mô đánh giá kết 3.3.1 WEKA Weka chứa tập công cụ mô hình thuật toán cho việc phân tích liệu mô hình dự đoán, với giao diện đồ họa cho người sử dụng dễ dàng truy cập vào chức Những ưu điểm Weka:  Miễn phí cho người sử dụng;  Hỗ trợ nhiều tảng hệ điều hành;  Là tập hợp xử lý liệu kỹ thuật mô hình;  Hỗ trợ đồ họa ARFF file: Attribute Relationship File Format (ARFF) tập file text sử dụng weka cho việc lưu trữ liệu từ sở liệu Kiểu cấu trúc file sau:  @relation: xác  @attribute: định tên quan hệ xác định thuộc tính  @data:xác định liệu 3.3.2 Thử nghiệm Chọn nguồn liệu Hình 3.2: Chọn nguồn liệu 21 Sử dụng c4.5 để phân lớp Hình 3.3: Sử dụng C4.5 để xây dựng Kết thử nghiệm: Dạng text bao gồm thông tin: 22 Dạng mô hình Hình 3.4: Cây định xác định thói quen trả hóa đơn điện thoại 3.3.3 Đánh giá Theo kết thực nghiệm trên, với trường hợp thử nghiệm nguồn liệu thói quen toán hóa đơn khách hàng, theo thuật toán C4.5 thu tỷ lệ phân loại 681/319 ~ 68.1% trường hợp 23 KẾT LUẬN Kết đạt luận văn Trong khuôn khổ khóa luận tốt nghiệp này, tiến hành nghiên cứu khai phá liệu, tình khai phá liệu, kỹ thuật khai phá liệu, bước thực khai phá liệu, ứng dụng Đồng thời, nhấn mạnh đến mục đích luận văn nghiên cứu kỹ thuật phân lớp tìm hiểu định cách áp dụng định vào toán phân lớp, ưu nhược điểm định Trong chương hai trình bày số thuật toán xây dựng định, thuật toán JD3 mở rộng C4.5, phổ biến dễ sử dụng hai thuật toán Khóa luận sử dụng lý thuyết để xây dựng định đánh giá khách hàng từ đưa định xác cho khách hàng Hướng phát triển Những năm gần đây, việc khai phá liệu để tìm kiếm tri thức, dự đoán xu hướng hỗ trợ định trở thành nhu cầu cần thiết phân tích liệu Khóa luận cần phát triển thêm để xây dựng ứng dụng phân tích liệu mang tính thông minh Do điều kiện thời gian hiểu biết thân nhiều hạn chế nên chắn không tránh khỏi thiếu sót Rất mong nhận góp ý chân thành thầy cô, bạn bè người quan tâm đến đề tài

Ngày đăng: 05/11/2016, 23:37

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w