Ứng dụng một số kỹ thuật khai phá dữ liệu để phân tích dữ liệu viễn thông nhằm tăng cường chất lượng dịch vụ khách hàng

28 11 0
Ứng dụng một số kỹ thuật khai phá dữ liệu để phân tích dữ liệu viễn thông nhằm tăng cường chất lượng dịch vụ khách hàng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LƯỜNG HỒNG GIANG ỨNG DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU ĐỂ PHÂN TÍCH DỮ LIỆU VIỄN THƠNG NHẰM TĂNG CƯỜNG CHẤT LƯỢNG DỊCH VỤ KHÁCH HÀNG LUẬN VĂN THẠC SĨ Hà Nội - 2012 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ o0o -LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân tôi, không chép lại người khác Trong toàn nội dung luận văn, LƯỜNG HỒNG GIANG điều trình bày cá nhân tôi tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp ỨNG DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU ĐỂ Tơi xin chịu tồn trách nhiệmVIỄN chịuTHƠNG hình thức kỷ luậtTĂNG theo quy định PHÂN TÍCH DỮ LIỆU NHẰM cho lời cam đoan củaCHẤT CƯỜNG LƯỢNG DỊCH VỤ KHÁCH HÀNG Ngành : Công nghệ Thông tin Chuyên ngành : Hệ thống thông tin Mã số : 60 48 05 Hà Nội, tháng 10 năm 2012 LUẬN VĂN THẠCLường SĨ Hồng Giang NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM Hà Nội - 2012 MỤC LỤC Chương Mở đầu 12 1.1 Khai phá liệu 12 1.2 Quá trình khai phá tri thức sở liệu 12 1.3 Các kỹ thuật tiếp cận khai phá liệu 14 1.4 Kiến trúc hệ thống khai phá liệu 15 1.5 Ứng dụng khai phá liệu 17 1.6 Hướng tiếp cận luận văn 17 1.6.1 Ứng dụng quản lý chăm sóc khách hàng 18 1.6.2 Hướng nghiên cứu đề tài 19 Chương Giới thiệu khai phá mẫu phổ biến, luật kết hợp 21 2.1 Khái niệm khai phá mẫu phổ biến 21 2.1.1 Mẫu phổ biến 21 2.1.2 Ý nghĩa khai phá mẫu phổ biến 21 2.1.3 Bài toán thực tế 22 2.2 Tổng quan luật kết hợp 24 2.2.1 Khái niệm luật kết hợp 24 2.2.2 Giải thuật Apriori để sinh luật kết hợp 27 2.2.3 Mơ tả thuật tốn Apriori dạng giả mã 28 2.2.4 Ví dụ minh họa thuật tốn Apriori 30 2.2.5 Một số kỹ thuật cải tiến thuật toán Apriori 34 Chương Lưu trữ liệu lớn dựa Oracle DBMS 38 3.1 Giới thiệu hệ quản trị CSDL Oracle 38 3.2 Phương pháp tiếp cận kiến trúc 41 3.3 Giới hạn CSDL Oracle 44 Chương Phân tích Luật kết hợp dựa Cơ Sở Dữ Liệu Oracle 45 4.1 Đặc tả toán 45 4.2 Sinh tập ứng viên 46 4.2.1 Thực phép nối tập mục phổ biển Fk 46 4.2.2 Thực bước tỉa loại bỏ ứng viên khơng có lợi 47 4.3 Tính độ hỗ trợ 49 4.4 Sinh luật kết hợp từ tập mục phổ biến 50 4.4.1 Kết hợp tập mục phổ biến có độ dài từ đến k 50 4.4.2 Sinh tập bảng tập mục phổ biến FISETS 51 4.4.3 Sinh luật kết hợp 52 4.5 Ví dụ minh họa 53 Chương 5.1 Ứng dụng vào phân tích liệu viễn thơng Beeline 56 Mô tả chuyển đổi liệu 56 5.1.1 Mô tả bảng liệu 56 5.1.2 Các bước chuyển đổi liệu 56 5.2 Xây dựng hệ thống thực nghiệm 58 5.2.1 Sinh tập ứng viên tính độ hỗ trợ 59 5.2.2 Sinh luật kết hợp từ tập mục phổ biến 60 5.3 Phân tích liệu kết thực nghiệm 61 5.3.1 Mật độ phân bố luật kết hợp độ hỗ trợ độ tin cậy 61 5.3.2 Xác định mối quan hệ dịch vụ gia tăng 62 Kết luận 64 Tài liệu tham khảo 65 TÓM TẮT LUẬN VĂN Ngành công nghiệp viễn thông lưu trữ khối lượng liệu khổng lồ, bao gồm chi tiết gọi, thơng tin cảnh báo trình trạng hệ thống mạng viễn thông thông tin liệu khách hàng Ứng dụng kỹ thuật khai phá liệu (data mining) để phát quy luật ẩn chứa khối liệu khổng lồ mang lại cho doanh nghiệp viễn thông nhiều hội để phát triển ứng dụng mang tính thực tiễn cao Đây hướng phù hợp sớm áp dụng phổ biến nhiều công ty viễn thông lớn giới Với phát triển mạnh mẽ khoa học công nghệ với lớn mạnh thị trường viễn thông Việt Nam, đến có 08 doanh nghiệp cấp phép hoạt động dịch vụ điện thoại di động Tính đến hết tháng 8/2012, tổng số thuê bao điện thoại di động Việt Nam lên đến 140 triệu thuê bao, đạt mật độ 160 máy/100 dân Với tỷ lệ điện thoại cao gấp 1,6 lần dân số, thị trường viễn thông di động Việt Nam xem bước vào giai đoạn bão hoà Tốc độ tăng trưởng thuê bao dự báo rơi từ mức 4050%/năm xuống 5-15%/năm 4-5 năm tới Ở Việt Nam, nhu cầu dịch vụ viễn thông ngày gia tăng mở rộng với nhiều dịch vụ tiện ích, bao gồm internet băng rộng, trở thành truy cập phổ cập, thay nhu cầu viễn thông cố định Chính vậy, nhu cầu đặt cho nhà cung cấp dịch vụ viễn thông đối mặt với áp lực cạnh tranh khốc liệt từ nhà cung cấp dịch vụ nước đến tập đồn viễn thơng đa quốc gia Đối với ngành viễn thông, thị phần khách hàng hai yếu tố quan trọng, định thành công doanh nghiệp Chính việc nắm nhu cầu sở thích khách hàng xu hướng biến động thị trường lợi to lớn cho doanh nghiệp cạnh tranh mở rộng thị trường Ngày nay, cơng ty viễn thông không ngừng nâng cao, cải tiến dịch vụ tìm kiếm dich vụ để đáp ứng nhu cầu ngày lớn khách hàng Địi hỏi nhà mạng cần phải có định hướng, chiến lược kinh doanh hợp lý để đứng vững môi trường viễn thông Việt Nam Khai phá liệu kỹ thuật hữu ích để giải vấn đề Vấn đề đặt ra: Bài toán đặt cho nhà mạng di động thu thập tri thức từ kho liệu khách hàng khổng lồ Phân loại liệu cước di động phương pháp giúp cho nhà mạng di động phân loại nhóm đối tượng khách hàng khác nhau, từ đưa chiến lược kinh doanh phù hợp với đối tượng khách hàng Luận văn “ứng dụng số kỹ thuật khai phá liệu để phân tích liệu viễn thơng nhằm tăng cường chất lượng dịch vụ khách hàng” Đề tài nghiên cứu dựa luật kết hợp, những kỹ thuật quan trọng khai phá liệu Nội dung luận văn chia thành năm chương sau: Chương 1: Mở đầu Chương 2: Giới thiệu khai phá mẫu phổ biến, luật kết hợp Chương 3: Lưu trữ liệu lớn dựa Oracle DBMS Chương 4: Áp dụng Luật kết hợp vào Cơ Sở Dữ Liệu Oracle Chương 5: Ứng dụng vào phân tích liệu viễn thơng Beeline: Phân tích sở liệu, trình bày cách cài đặt chương trình khai thác luật kết hợp việc sử dụng dịch vụ giá trị gia tăng khách hàng Dựa vào kết mà người quản lý doanh nghiệp viễn thông nắm bắt nhóm dịch vụ có liên quan tới nhau, phục vụ cho mục đích quản lý lựa chọn dịch vụ thời điểm phát hành loại dịch vụ cho nhóm khách hàng khác Chương Mở đầu 1.1 Khai phá liệu Khai phá liệu khái niệm đời vào năm cuối thập kỷ 80 Nó bao hàm loạt kỹ thuật nhằm phát thơng tin có giá trị tiềm ẩn tập liệu lớn (các kho liệu) Về chất, khai phá liệu liên quan đến việc phân tích liệu sử dụng kỹ thuật để tìm mẫu hình có tính quy tập liệu Ở mức độ trừu tượng định định nghĩa: Khai phá liệu (Data Mining) trình tìm kiếm, phát tri thức mới, tiềm ẩn, hữu dụng CSDL lớn Khai phá tri thức (KDD) mục tiêu khai phá liệu, hai khái niệm xem hai lĩnh vực tương đương Nhưng, phân chia cách tách bạch khai phá liệu bước q trình KDD 1.2 Quá trình khai phá tri thức sở liệu Khai phá tri thức CSDL ( Knowledge Discovery in Databases - KDD) lĩnh vực liên quan đến ngành như: thống kê, học máy, CSDL, thuật tốn, trực quan hóa liệu, tính tốn song song hiệu cao,… Q trình KDD phân thành giai đoạn sau: Hình 1.1: Khai phá liệu bước trình khai phá tri thức 1.3 Các kỹ thuật tiếp cận khai phá liệu Nếu đứng quan điểm học máy (Machine Learning), kỹ thuật Data Mining, bao gồm: Học có giám sát (Supervised learning, Học khơng có giám sát (Unsupervised learning, Học nửa giám sát (Semi - Supervised learning Nếu vào lớp tốn cần giải quyết, Data Mining bao gồm kỹ thuật sau: Phân lớp dự đoán (Classification & prediction), Luật kết hợp (Association rules), Khai thác mẫu (Sequential/temporal patterns), Phân cụm (Clustering/segmentation) 1.4 Kiến trúc hệ thống khai phá liệu Như trình bày trên, khai phá liệu giai đoạn trình phát tri thức từ số lượng lớn liệu lưu trữ sở liệu, kho liệu nơi lưu trữ khác Hình 1.2: Kiến trúc hệ thống khai phá liệu 1.5 Ứng dụng khai phá liệu Khai phá liệu thu hút nhiều quan tâm nhà nghiên cứu nhờ vào tính ứng dụng thực tiễn Khai phá liệu có nhiều ứng dụng thực tế Một số ứng dụng điển hình như: phân tích liệu hỗ trợ định, tài thị trường chứng khốn, điều trị chăm sóc y tế, text mining & web mining, lĩnh vực khoa học, mạng viễn thông 1.6 Hướng tiếp cận luận văn 1.6.1 Các ứng dụng quản lý chăm sóc khách hàng Các công ty viễn thông quản lý khối lượng lớn liệu thông tin khách hàng liệu chi tiết gọi (call detail records) Các ứng dụng khai phá liệu phổ biến lĩnh vực viễn thông:  Ứng dụng khai phá liệu dựa việc xem xét luật kết hợp dịch vụ viễn thông khách hàng sử dụng  Một vấn đề phổ biến công ty viễn thông thay đổi nhà cung cấp dịch vụ (customer churn) Đây vấn đề nghiêm trọng ảnh hưởng đến tốc độ phát triển thuê bao, doanh thu nhà cung cấp dịch vụ  Cuối cùng, ứng dụng phổ biến phân lớp khách hàng (classifying) Dựa vào liệu khách hàng chi tiết gọi tìm luật để phân loại khách hàng 1.6.2 Hướng nghiên cứu đề tài Đề tài phân tích liệu viễn thông nhằm nhận diện đặc tính khách hàng thơng qua đưa sách chăm sóc khách hàng thích hợp dựa dự đốn có chiến lược tiếp thị hiệu Ứng dụng khai phá liệu dựa việc xem xét luật kết hợp dịch vụ viễn thông khách hàng sử dụng Dựa vào kết mà người quản lý doanh nghiệp viễn thơng nắm bắt nhóm dịch vụ có liên quan tới nhau, phục vụ cho mục đích quản lý lựa chọn dịch vụ giá trị gia tăng thời điểm phát hành loại dịch vụ giá trị gia tăng cho nhóm khách hàng khác Xây dựng chiến lược phát triển hệ thống tìm khách hàng tiềm cho gói sản phẩm khác Chương Giới thiệu khai phá mẫu phổ biến, luật kết hợp 2.1 Khái niệm khai phá mẫu phổ biến 2.1.1 Mẫu phổ biến Mẫu phổ biến (Frequent pattern): mẫu (tập mục - itemsets, dãy mục – itemlists, dãy – subsequence, cấu trúc – substructures…) mà xuất phổ biến tập liệu Agrawal, Imielinski, Swami – 1993 – ngữ cảnh toán tập phổ biến luật kết hợp 2.1.2 Ý nghĩa khai phá mẫu phổ biến Tìm kiếm mẫu phổ biến đóng vai trị thiết yếu khai phá luật kết hợp, tìm kiếm mối tương quan, mối quan hệ sở liệu Hơn giúp phân lớp, phân cụm liệu, hỗ trợ nhiệm vụ khai phá liệu tốt Do vậy, khai phá mẫu phổ biến trở thành nhiệm vụ quan trọng khai phá liệu 2.1.3 Bài toán thực tế Có thể kết luận rằng, khai phá mẫu phổ biến q trình tìm kiếm mối quan hệ tuần hồn, lặp lặp lại sở liệu Ví dụ, thơng tin khách hàng mua máy giặt có xu hướng mua xà phịng giặt máy thời điểm mô tả luật kết hợp đây: Máy giặt => Xà phòng giặt [độ hỗ trợ = 2%, độ tin cậy = 60%] 2.2 Tổng quan luật kết hợp 2.2.1 Khái niệm luật kết hợp Tập toàn mục I = {i1, i2, …, ik}: “tất mặt hàng” Cho D sở liệu giao dịch danh sách mặt hàng (mục: item) phiếu mua hàng khách hàng Giao dịch T tập mục Một giao dịch T tập I: T ứng viên giao dịch tính (bước 7) Cuối cùng, tất ứng viên đáp ứng độ hỗ trợ tối thiểu (bước 9) cấu thành lên tập mục phổ biến k Fk (bước 11) Thủ tục gọi sau để sinh luật kết hợp từ tập mục phổ biến Thủ tục Apriori_gen thực kết nối cắt tỉa Trong thành phần kết nối, Fk-1 kết nối với Fk-1 để sinh ứng viên tiềm (bước đến bước 4) Thành phần tỉa (bước đến bước 7) dựa vào tính chất Apriori để loại bỏ ứng viên mà có tập khơng phổ biến Thủ tục has_infrequent_subset dùng để kiểm tra tập không phổ biến Procedure Apriori_gen (Fk-1 : tập mục phổ biến có độ dài k-1) (1) For (mỗi tập mục l1  Fk-1) (2) For (mỗi tập mục l2 (3) If ( l1[1] = l2[1]  Fk-1)  l1[2] = l2[2]  …  l1[k-2] = l2[k-2]  l1[k-1] = l2[k-1] ) then { (4) c = l1 ⋈ l2 ; // bước kết nối: sinh ứng viên (5) If has_infrequent_subset (c, Fk-1) then delete c; //bước tỉa: loại bỏ ứng viên khơng có lợi (6) (7) Else thêm c vào Ck; (8) } (9) Return Ck; Procedure has_infrequent_subset (c: ứng viên, Fk-1: tập tập phổ biến có độ dài (k-1)); (1) For (mỗi (k-1) – tập s c) (2) (3) If s  Fk-1 then Return TRUE; (4) Return FALSE; 11 Chương Lưu trữ liệu lớn dựa Oracle DBMS Hầu hết nghiên cứu khai phá liệu đề xuất thuật toán tối ưu hóa làm việc flat files, DBMS, chủ yếu lý sau đây: - Dễ dàng để phát triển thuật tốn hiệu ngơn ngữ lập trình truyền thống - Việc tích hợp thuật toán khai phá liệu vào DBMS mang lại khó khăn tảng mơ hìnhquan hệ kiến trúc hệ thống - Hơn nữa, SQL làm chậm rườm rà cho tính tốn phân tích số Do đó, người sử dụng ứng dụng khai phá liệu thường biến đổi liệu bên DBMS flat files sau đưa vào công cụ khai phá liệu, để tránh hiệu suất giảm loại bỏ khả quản lý liệu quan trọng xử lý truy vấn an ninh liệu, đồng thời kiểm soát khả chịu lỗi Hầu hết thuật toán tối ưu hóa để giảm bớt số lần duyệt tập liệu Hệ thống phân tích lượng lớn tập liệu nhanh so với công cụ khai phá liệu sử dụng flat files, ví dụ weka Hướng nghiên cứu đề tài nghiên cứu vấn đề thực khai phá liệu bên DBMS, ý đến liệu lớn DBMS ngày phát triển chiếm ưu Oracle 3.1 Giới thiệu hệ quản trị CSDL Oracle Các công ty viễn thông quản lý khối lượng lớn liệu thông tin khách hàng liệu chi tiết gọi (call detail records) Và CSDL Oracle lựa chọn tối ưu để lưu trữ lượng liệu lớn doanh nghiệp viễn thông Oracle bao gồm tập hợp hoàn thiện sản phẩm xây dựng ứng dụng người dùng cuối trang bị giải pháp kỹ thuật thơng tin hồn hảo Các ứng dụng Oracle tương thích với hầu hết hệ điều hành từ máy tính cá nhân đến hệ thống xử lý song song lớn Oracle cung cấp hệ quản trị sở liệu (Database 12 Management System - DBMS) uyển chuyển: Oracle Server để lưu giữ quản lý thông tin dùng ứng dụng 3.2 Phương pháp tiếp cận kiến trúc Đề tài trình bày hệ thống khai phá liệu hệ quản trị sở liệu quan hệ Oracle dựa truy vấn SQL hàm định nghĩa trực tiếp người dùng, chứng minh “SQL không hiệu không đầy đủ cho khai phá liệu sai” Mục đích luận văn khám phá nhiều vấn đề gặp phải CSDL tích hợp vào q trình khai phá liệu Hiện có nhiều cơng cụ khai phá liệu thương mại sẵn có thị trường IBM‟s Intelligent Miner, DBMiner,Oracle Data Mining, …Chúng có khả cung cấp khai phá liệu CSDL quan hệ Mặc dù chúng công cụ khai hiệu quả, chúng phát triển cho hệ quản trị CSDL cụ thể Các file sử dụng cho thuật toán khai phá, chúng sử dụng làm liệu đầu vào không chứa sở liệu Chúng thường bị giới hạn số lượng giao dịch khai phá Ví dụ, DBMiner giới hạn số lượng giao dịch 64K mà xử lý khai phá Người sử dụng lựa chọn RDBMS sử dụng cho ứng dụng để hệ thống khơng giới hạn số lượng giao dịch phải chuyển sang RDBMSs khác cách dễ dàng Với hệ quản trị CSDL Oracle có số ưu điểm: - Phân tích kế hoạch truy vấn, lựa chọn kế hoạch tốt cho tính tốn khai phá liệu, xác định tối ưu hóa hiệu - Với truy vấn SQL có nhiều bảng tạm thời tạo trình duyệt liệu Mỗi bảng tạm (temporary table) kiểm soát để lưu trữ lập mục (index) cần thiết - Khả viết lại câu truy vấn cần thiết hệ quản trị CSDL - Để có hiệu tốt nhất, bảng liệu lớn tạo mục phân khu liệu 13 Chương Áp dụng Luật kết hợp vào Cơ Sở Dữ Liệu Oracle 4.1 Đặc tả toán Dữ liệu vào: định dạng đầu vào bảng có hai cột Cột định danh giao dịch (tid) cột thứ hai danh mục mặt hàng (item) Trong giao dịch, có nhiều mặt hàng, có nhiều dịng liệu bảng giao dịch với giá trị cột tid giá trị khác cột mặt hàng Một tùy chọn khác định dạng bảng bình thường với nhiều cột, cột tid phần lại mặt hàng (items) Đối với giao dịch với số lượng lớn mặt hàng, định dạng có danh sách hữu hạn mặt hàng số lượng thực tế mà mặt hàng tồn giao dịch Đề tài lựa chọn cách thứ hai lý do: Đầu tiên số lượng mục giao dịch Ngoài sở liệu thị trường hỗ trợ số lượng định cột cho bảng Nếu trường hợp phát sinh có số lượng mặt hàng giao dịch mức cho phép sở liệu bản, khơng có cách quản lý xác liệu Cũng có nhiều giá trị null hàng, item không sử dụng tất giao dịch Dữ liệu ra: Đầu tập quy tắc, liệu trình bày theo hình thức bảng đặt tên RULES Không phải luật kết hợp sinh độ dài sử dụng độ dài tối đa để xác định số lượng cột bảng đầu Một luật kết hợp sinh cần phải có mặt hàng (item) số lượng cột 14 bảng Những cột bổ sung cho luật kết hợp sinh gán giá trị Cấu trúc bảng RULES (item1, item2, … ,itemk, nullm, rulem, confidence, support) Ở k độ dài tập phổ biến có độ dài lớn Cột nullm cột có giá trị đầu tiên, rulem vị trí „=>‟ luật kết hợp Confidence support độ tin cậy độ hỗ trợ luật kết hợp sinh 4.2 Sinh tập ứng viên 4.2.1 Thực phép nối tập mục phổ biển Fk Thuật tốn Apriori trình bầy chương 2, với k, tập ứng viên có độ dài k (Ck) sinh từ tất tập mục phổ biến có độ dài k-1 (Fk1) Fk-1 có k-1 cột: Item1, Item2, …, Itemk-1, giá trị tập mục phổ biến xếp theo thứ tự tăng dần insert into Ck select I1.item1, … ,I1.itemk-1, I2.itemk-1 from Fk-1 I1, Fk-1 I2 where I1.item1 = I2.item1 and … I1.itemk-2 = I2.itemk-2 and I1.itemk-1 < I2.itemk-1 Hình 4.1: Thực phép nối tập mục phổ biến Fk Ví dụ, Tập mục phổ biến có độ dài k=3, F3: {{1, 2, 3}, {1, 2, 4}, {1, 3, 4}, {1, 3, 5}, {2, 3, 4}}, sinh tập ứng viên có độ dài k = 4: C4: {1, 2, 3, 4}, and {1, 3, 4, 5} 4.2.2 Thực bước tỉa loại bỏ ứng viên lợi Tiếp theo, bước tỉa để loại bỏ ứng viên khơng có lợi Các tập độ dài (k-1) tập ứng viên Ck không tồn tập mục phổ biến có độ dài k-1 (Fk-1) xóa bỏ Chúng ta sử dụng phương pháp K-way join[15] để thực hiện, dựa vào giá trị tập mục phổ biến xếp theo thứ tự tăng dần tất tập tập phổ biến phải phổ biến Các tập (tập phổ biến) độ dài k-1 xác nhận cho tập phổ biến độ dài k Điều thực việc thêm phép kết nối với điều kiện để xác nhận cho cột (item) Đầu tiên kiểm tra item1, tập ứng viên (I1.item2, I1.item3, …, I1.itemk-1, I2.itemk-1) thuộc Fk-1 phép kết nối với I3 thể hình bên Một phép kết nối với Ir (3 ‟ luật kết hợp count độ hỗ trợ Đối với dòng liệu bảng FISETS, có giá trị cột (item1,…,itemk) tăng dần Để sinh tập cho tập hữu hạn bảng tập mục phổ biến FISETS đề tài sử dụng thuật toán đệ quy liệt kê tổ hợp chập k n phần tử: declare n number; Mảng có độ dài n source number [ ] := null; Mảng kết k number := 3; Số lượng phần tử selected boolean [ n ]; Mảng lưu trạng thái procedure choose(element number, startIdx number) is begin if element = k then In danh sách phần tử mảng source[k] for i in n loop if selected[i] = true then In phần tử mảng chọn end if; end loop; else for i in startIdx n loop if selected [ i ] = false then selected [ i ] = true; Thực thuật toán đệ quy choose(element + 1, i + 1); selected [ i ] = false; 18 end if; end loop; end if; end choose; Begin choose(0, 0); End; Hình 4.8: Liệt kê tổ hợp chập k n phần tử 4.4.3 Sinh luật kết hợp Chúng ta kết hợp hai bảng FISETS SUBSETS với điều kiện: SUBSETS count  min_ conf FISETS count Cập nhật liệu vào bảng RULES (item1,…, itemk, nullm, rulem, confidence, support) (1) insert into Rules (2) select s.item1, …, s.itemk, s.nullm, s.rulem, (float(s.count)/f.count)*100 Confidence, s.count Support (3) from SUBSETS s, FISETS f (4) where (s.item1 = f.item1 OR s.rulem 80% 21 5.3 Phân tích liệu kết thực nghiệm 5.3.1 Mật độ phân bố luật kết hợp độ hỗ trợ độ tin cậy Với số lượng 41.714 luật kết hợp, 29.112 luật kết hợp có độ hỗ trợ bé 0.01, 9.076 luật kết hợp có độ hỗ bé 0.1, 2.456 luật kết hợp có độ hỗ bé 0.4, 116 luật kết hợp có độ hỗ có độ hỗ trợ bé 0.5, 274 luật kết hợp có độ hỗ trợ bé 0.8 680 luật kết hợp có độ hỗ bé Chúng ta có biểu đồ thể số lượng luật kết hợp không đồng với độ hỗ trợ khác nhau: Hình 5.2: Mật độ luật kết hợp độ hỗ trợ Biểu đồ biểu mật độ số lượng luật kết hợp với độ tin cậy tương ứng (5%, 10%, 20%, 30%, 100%) Hình 5.2: Mật độ luật kết hợp độ tin cậy 22 5.3.2 Xác định mối quan hệ dịch vụ gia tăng phát luật kết hợp Với liệu gốc ban đầu có, chương trình phần mêm đề tài phát triển giúp phát luật kết hợp Với tiêu chí khác có luật kết hợp khác nhau, phần luận văn vào phân tích cụ thể số luật kết hợp Chạy chương trình tập liệu phục vụ phát luật kết hợp với việc lựa chọn độ hỗ trợ cực tiểu minSup = 0,01 (hay 1%) độ tin cậy cực tiểu minConf = 0,8 (80%), nhận 177 luật kết hợp (chi tiết xem Phụ lục, mục 5, kết phát luật kết hợp), luật có độ hỗ trợ cao trình bầy : Luật 1: Local Incoming VC; SMS MO Beeline to SC  Local Outgoing VC to Other Mobile Với độ tin cậy độ hỗ trợ (98.55%, 2.01%) Luật 2.01% thuê bao sử dụng dịch vụ giá trị gia tăng gọi nội mạng, nhắn tin đa phương tiện gọi ngoại mạng tổng số giao dịch Nếu thuê bao sử dụng dịch vụ giá trị gia tăng gọi nội mạng, nhắn tin đa phương tiện gọi ngoại mạng với độ tin cậy 98.55% Luật 2: Local Outgoing VC to PSTN; Local Incoming VC  Local Outgoing VC to Other Mobile Với độ tin cậy độ hỗ trợ (99.27%, 6.04%) Luật 6.04% thuê bao sử dụng dịch vụ giá trị gia tăng gọi đến số cố định, gọi nội mạng gọi ngoại mạng tổng số giao dịch Nếu thuê bao sử dụng dịch vụ giá trị gia tăng gọi đến số cố định, gọi nội mạng gọi ngoại mạng với độ tin cậy 98.55% Luật : Local Outgoing VC to PSTN; Local SMS to Other Mobile Local  Outgoing VC to Other Mobile Với độ tin cậy độ hỗ trợ (99.18%, 5.24%) Luật 5.24% thuê bao sử dụng dịch vụ giá trị gia tăng gọi đến số cố định, nhắn tin ngoại mạng gọi ngoại mạng tổng số giao dịch Nếu thuê bao sử dụng dịch vụ giá trị gia tăng gọi đến số cố định, nhắn tin ngoại mạng gọi ngoại mạng với độ tin cậy 99.18% Như điều dễ hiểu th bao nhắn tin ngoại mạng khả gọi đến số ngoại mạng cao 23 Luật : Local SMS to Other Mobile  Local Outgoing VC to Other Mobile Với độ tin cậy độ hỗ trợ (95.25%, 10.64%) Luật 10.64% thuê bao sử dụng dịch vụ giá trị gia nhắn tin ngoại mạng gọi ngoại mạng tổng số giao dịch Nếu thuê bao sử dụng dịch vụ giá trị gia tăng nhắn tin ngoại mạng gọi ngoại mạng với độ tin cậy 95.25% Như điều dễ hiểu th bao nhắn tin ngoại mạng khả gọi đến số ngoại mạng cao Luật 5: Local SMS to Other Mobile; GPRS Internet  Local Outgoing VC to Other Mobile Với độ tin cậy độ hỗ trợ (96.94%, 2.66%) Luật 2.66% thuê bao sử dụng dịch vụ giá trị gia nhắn tin ngoại mạng, sử dụng dịch vụ GPRS gọi ngoại mạng tổng số giao dịch Nếu thuê bao sử dụng dịch vụ giá trị gia nhắn tin ngoại mạng sử dụng dịch vụ GPRS khả gọi ngoại mạng với độ tin cậy 98.94% Như điều dễ hiểu th bao nhắn tin ngoại mạng sử dụng dịch vụ CPRS để vào mạng khả gọi đến số ngoại mạng cao 24 Kết luận Khố luận trình bày tổng quan nét đặc trưng lĩnh vực Data Mining bao gồm vấn đề cần khám phá tri thức, hướng tiếp cận nghiên cứu tiểu biểu, phát luật kết hợp phương pháp khám phá tri thức quan trọng khai phá liệu có nhiều ý nghĩa khoa học thực tiễn Về mặt lý thuyết, khai phá tri thức bao gồm bước: Hình thành, xác định định nghĩa toán; thu thập tiền xử lý liệu; khai phá liệu, rút tri thức; sử dụng tri thức phát Về thuật toán khai phá tri thức, luận văn trình bày thuật tốn Apriori minh hoạ thuật tốn Apriori thực phát luật phổ biến CSDL quan hệ Về mặt cài đặt thử nghiệm, khoá luận giới thiệu kỹ thuật khai phá liệu theo thuật toán Apriori áp dụng vào toán phát dự báo mức độ sử dụng dịch vụ gia tăng viễn thông Phát luật kết hợp kỹ thuật phát thông tin, tri thức tập liệu lớn lớn nên ý nghĩa độ tin cậy luật cao tập liệu lớn, nói cách khác số lượng dịch vụ gia tăng lựa chọn nhiều liệu chi tiết gọi dài mặt thời gian tốt Tuy nhiên hạn chế thời gian luận văn đáp ứng đòi hỏi Số lượng luật kết hợp nói chung lớn khơng tránh khỏi có số luật kết hợp dư thừa Cho đến có nhiều nghiên cứu đề xuất giải pháp nhằm hạn chế dư thừa luật nói chưa có giải pháp triệt để chưa có phần mềm hỗ trợ tốt vấn đề Người ta khắc phục số lượng luật kết hợp cách tăng độ hỗ trợ cực tiểu độ tin cậy cực tiểu luận văn thực theo hướng Các luật kết hợp nói chung có độ hỗ trợ khơng cao (điều tự nhiên) độ tin cậy cao Điều ngầm định quan hệ dịch vụ giá tri gia tăng sử dụng tìm thấy thơng qua luật kết hợp đáng tin cậy 25 ... khách hàng Luận văn ? ?ứng dụng số kỹ thuật khai phá liệu để phân tích liệu viễn thơng nhằm tăng cường chất lượng dịch vụ khách hàng? ?? Đề tài nghiên cứu dựa luật kết hợp, những kỹ thuật quan trọng khai. .. mạng viễn thông thông tin liệu khách hàng Ứng dụng kỹ thuật khai phá liệu (data mining) để phát quy luật ẩn chứa khối liệu khổng lồ mang lại cho doanh nghiệp viễn thông nhiều hội để phát triển ứng. .. Ứng dụng khai phá liệu Khai phá liệu thu hút nhiều quan tâm nhà nghiên cứu nhờ vào tính ứng dụng thực tiễn Khai phá liệu có nhiều ứng dụng thực tế Một số ứng dụng điển hình như: phân tích liệu

Ngày đăng: 16/03/2021, 12:37

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan