1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng

79 14 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 79
Dung lượng 0,92 MB

Nội dung

ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN - - NGUYỄN KHẢI HOÀI ANH KHAI PHÁ DỮ LIỆU TRÊN CƠ SỞ PHƯƠNG PHÁP LUẬT KẾT HỢP VÀ ỨNG DỤNG CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ : 604801 Cơng trình hồn thành tại: TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: PGS.TS Nguyễn Trọng Bình THÁI NGUYÊN 2010 Số hóa Trung tâm Học liệu - Đại học Thái Ngun http://www.lrc-tnu.edu.vn Cơng trình hồn thành tại: Khoa công nghệ thông tin – Đại học Thái Nguyên Người hướng dẫn khoa học: PGS.TS.Vũ Đức Thi Phản biện 1: Phản biện 2: Luận văn bảo vệ trước Hội đồng chấm luận văn họp tại: Khoa Công nghệ thông tin – Đại học Thái Nguyên, vào hồi ngày tháng năm 2010 Có thể tìm hiểu luận văn trung tâm học liệu Đại học Thái Nguyên thư viện Trường CĐCN – Thái Nguyên Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tơi xin cam đoan tồn nội dung Luận văn hoàn toàn theo nội dung đề cương nội dung mà cán hướng dẫn giao cho Nội dung luận văn, phần trích lục tài liệu hồn tồn xác Nếu có sai sót tơi hoàn toàn chịu trách nhiệm Tác giả luận văn Nguyễn Khải Hồi Anh Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC Trang Trang phụ bìa Lời cam đoan Mục lục………………………………………………………………………………………i Danh sách ký hiệu, từ viết tắt…………………………………………………… iv Danh mục bảng…………………………………………………………………………v Danh mục hình…………………………………………………………………………vi MỞ ĐẦU………………………………………………………………………………… CHƢƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU……………………………… 1.1 Khai phá liệu………………………………………………………………………3 1.1.1 Khái niệm khám phá tri thức khai phá liệu…………………………3 1.1.2 Kiến trúc hệ thống khai phá liệu ……………………………… 1.1.3 Các loại liệu khai phá……………………………………………….6 1.1.4 Chức khai phá liệu………………………………………………… 1.2 Một số phƣơng pháp khai phá liệu thông dụng…………………………………7 1.2.1 Phương pháp luật kết hợp……………………………………………… .7 1.2.2 Phương pháp định…………………………………………… 1.2.3 Phương pháp k-Mean……………………………………………………… 1.3 Một số ứng dụng khai phá liệu………………………………………………9 1.3.1 Phân tích liệu gen sinh học y học…………………………………… 1.3.2 Phân tích liệu tài chính……………………………………………… 1.3.3 Dịch vụ bán lẻ……………………………………………………… 10 1.3.4 Công nghiệp viễn thông…………………………………………………….10 1.4 Các khuynh hƣớng thách thức khai phá liệu……………………… 11 CHƢƠNG 2: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN…… 13 2.1 Khai phá luật kết hợp………………………………………………………… .13 2.1.1 Một số khái niệm …………………………………………………13 2.1.2 Cách khai phá luật kết hợp………………………………………………….14 2.1.3 Các tính chất frequent itemset………………………………………….14 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2.1.4 Các tiêu chuẩn để phân loại luật kết hợp……………………………………15 2.1.4.1 Kiểu giá trị quản lý luật…………………………… 15 2.1.4.2 Chiều liệu đề cập luật……………………… .15 2.1.4.3 Mức trừu tượng đề cập luật………………………… 15 2.2 Khai phá luật kết hợp boolean chiều từ CSDL giao dịch………………… 16 2.2.1 Thuật tốn Apriori: Tìm frequent itemset sử dụng việc sinh ứng viên……………………………………………………………………….16 2.2.2 Sinh luật kết hợp từ frequent temset [5, 8, 15]…………………… .19 2.2.3 Cải tiến hiệu thuật toán Apriori……………………………………… 19 2.2.3.1 Phương pháp dựa bảng băm…………………………… 20 2.2.3.2 Giảm số giao dịch……………………………………………………….20 2.2.3.3 Phân đoạn……………………………………………………………… 21 2.2.3.4 Lấy mẫu………………………………………………………………… 21 2.2.4 Khai phá frequent itemset cách không sinh ứng cử viên…… 21 2.3 Khai phá luật kết hợp đa thức từ CSDL giao dịch……………………………… 24 2.3.1 Luật kết hợp đa thức……………………………………………………… 24 2.3.2 Các phương pháp khai phá luật kết hợp đa mức……………………… 26 2.3.2.1 Đồng độ hỗ trợ tối thiểu cho tất mức………………… 26 2.3.2.2 Giảm dần độ hỗ trợ tối thiểu mức thấp hơn…………………….27 2.3.2.3 Độc lập theo mức………………………………………………….27 2.3.2.4 Lọc chéo mức itemset………………………………………… .27 2.4 Khai phá luật kết hợp đa chiều từ CSDL quan hệ kho liệu……………… 28 2.4.1 Luật kết hợp đa chiều……………………………………………………….28 2.4.2 Khai phá luật kết hợp đa chiều sử dụng việc rời rạc hố tĩnh thuộc tính số lượng……………………………………………………………………….29 2.4.3 Khai phá luật kết hợp số lượng…………………………………………… 30 2.4.4 Khai phá luật kết hợp dựa vào khoảng cách……………………………… 31 CHƢƠNG 3: MỘT SỐ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP…………… 34 3.1 Khám phá frequent itemset……………………………………………….34 3.1.1 Thuật tốn AIS………………………………………………… .34 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3.1.2 Thuật toán SETM……………………………………………… .35 3.1.3 Thuật toán Apriori………………………………………………… 39 3.1.3.1 Hàm Apriori_gen……………………………………….40 3.1.3.2 Hàm subset…………………………………………… 40 3.1.4 Thuật toán AprioriTID…………………………………….41 3.1.5 Thuật toán AprioriHybrid………………………………………… 43 3.2 Khám phá luật kết hợp…………………………………………………… 44 3.2.1 Thuật toán sinh luật đơn giản……………………………………….45 3.2.2 Thuật toán nhanh……………………………………………… 45 3.3 Thuật toán DHP (Direct Hashing with Efficent Pruning)……………… 46 3.3.1 Thuật toán DHP…………………………………………………… 46 3.3.2 Giảm kích thước sở liệu giao dịch………………… .51 3.3.3 Giảm số lần quét sở liệu (Scan – Reduction method)……… 53 3.4 Thuật toán PHP (Perfect Hash and Pruning)…………………………… 53 3.5 So sánh thuật toán khám phá frequent itemset………………… 55 3.5.1 Sinh liệu tổng hợp………………………………………… .55 3.5.2 So sánh thuật toán AIS, SETM, Apriori AprioriTID……… 56 CHƢƠNG 4: CÀI ĐẶT CHƢƠNG TRÌNH THỬ NGHIỆM…………… 63 “ MƠ PHỎNG THUẬT TỐN APRIORI” 4.1 Phát biểu tốn ………………………………………………………… 63 4.2 Phân tích toán ………………………………………………………… 63 4.3 Xây dựng liệu…………………………………………………………….64 4.4 Cài đặt chƣơng trình thử nghiệm………………………………………… 64 4.5 Giao diện chƣơng trình………………………………………….65 KẾT LUẬN VÀ ĐỀ NGHỊ………………………………………………… 67 TÀI LIỆU THAM KHẢO……………………………………………………….68 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Diễn giải Ký hiệu Ck Tập k-itemset ứng viên Ck Tập k-itemset ứng viên mà TID giao dịch sinh liên kết với tập mục ứng viên D Cơ sở liệu giao dịch Di Phần thứ i sở liệu D I Tập mục Lk Tập k-itemset phổ biến T Giao dịch (transaction) X ⇒Y Luật kết hợp (với X tiền đề, Y hệ quả) Conf Độ tin cậy (Confidence) k-itemset Tập mục gồm k mục Min_conf Ngưỡng tin cậy tối thiểu Min_sup Ngưỡng hỗ trợ tối thiểu Sup Độ hỗ trợ (support) Tid Định danh giao dịch Tid-List Danh sách định danh giao dịch ARCS Association Rule Clustering System SQL Structured Query Language FP -growth Frequent -Pattern Growth FP -Tree Frequent pattern tree min_sup_count minimum support count DHP Direct Hashing with Efficent Pruning PHP Perfect Hash and Pruning Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC BẢNG Trang Bảng 2.1: Tóm tắt q trình khai phá FP – Tree 24 Bảng 2.2: Dữ liệu giao dịch cho nhánh AllElectronecs 25 Bảng 2.3: Phân chia dựa khoảng cách 32 Bảng 3.1: Các tham số chương trính sinh liệu tổng hợp 56 Bảng 3.2: Các tham số 56 Bảng 3.3: Thời gian thực theo giây (s) thuật toán SETM 57 Bảng 3.4: So sánh thời gain thực Apriori DHP (T15.I4.D100) 61 Số hóa Trung tâm Học liệu - Đại học Thái Ngun http://www.lrc-tnu.edu.vn DANH MỤC HÌNH VẼ Trang Hình 1.1: Quy trình phát tri thức Hình 1.2: Kiến trúc hệ khai phá liệu điển hình Hình 1.3: Mẫu kết với phương pháp định Hình 1.4: Phân cụm đối tượng k-Mean ( + tâm cụm) Hình 1: CSDL để thực bước hình 2.2 17 Hình 2.2: Các bước thực thuật tốn Apriori với _sup = 2/9 = 22% 18 Hình 2.3: Hai giai đoạn kỹ thuật phân đoạn 21 Hình 2.4: Cây FP – tree 23 Hình 2.5: Cây conditional FP – tree 24 Hình 2.6: Hệ thống phân cấp khái niệm cho item 25 Hình 2.7: min_sup sử dụng khai phá mức trừu tượng khác 26 Hình 2.8: Giảm dần độ hỗ trợ tối thiểu mức thấp 27 Hình 2.9: Độc lập theo mức 27 Hình 2.10: Lọc chéo mức itemset 28 Hình 2.11: Mạng cuboids tạo thành data cube 3D 29 Hình 2.12: Lưới hai chiều luật kết hợp số lượng hai chiều với điều kiện buys 31 Hình3.1a: 38 Hìn 3.1b: Các bước thực thuật toán SETM min_sup_count = 39 Hình 3.2: Các bước thực thuật tốn AprioriTID 43 Hình 3.3: Thời gian xử lý bước qt thuật tốn Apriori AprioriTID 44 Hình 3.4: Các bước thực thuật tốn DHP 49 Hình 3.5: Tìm L2 D3 52 Hình 3.6a: Thời gian thực với tập liệu T5.I2.D100K T10.I2.D100K 57 Hình 3.6b: Thời gian thực với tập liệu T10.I4.D100K T20.I2.D100K 58 Hình 3.6c: Thời gian thực với tập liệu T20.I4.D100K T20.I6.D100K 58 Số hóa Trung tâm Học liệu - Đại học Thái Ngun http://www.lrc-tnu.edu.vn Hình 3.7: Kích thước tập frequent tập ứng cử viên 59 Hình 3.8: Thời gian thực Apriori DHP 61 Hình 3.9: So sánh thời gian thực DHP Apriori 62 Hình 4.1: Giao diện chương trình 65 Hình 4.2: Lựa chọn CSDL 65 Hình 4.3: Kết khai phá luật kết hợp 66 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 55 For each transaction T Dk+1 begin // w tập có (k-1) phàn tử items T If ww  Lk-1 then Skip t; Else Items = ; For each k-itemset y in T If ( z z = (k-1) subset of 1.hasssupport(z)) y)  (Hk- Then Hk.add (y); Items=items  y; end Dk = Dk  t ; end for each itemset y in Hk if Hk.hasssupport (y) then Lk = Lk y; end // xoá giá trị băm nhỏ min_sup_count từ Hk Hk.prune (min_sup_count ); k++; Until Lk-1 = ; Return L = kLk; 3.5 So sánh thuật toán khám phá frequent itemset 3.5.1 Sinh liệu tổng hợp Để đánh giá hoạt động thuật toán, cần phải sinh liệu tổng hợp với đặc tính đa dạng Những giao dịch sinh tương tự với giao dịch môi trường bán hàng Để sinh tập liệu, chương trình sinh liệu tổng hợp nhận tham số bảng 3.1[5, 11, 18] Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 56 D Số giao dịch T Kích thước trung bình giao dịch I Kích thước trung bình frenquent itemset tiềm cực đại L Số frenquent itemset tiềm cực đại N Số item Bảng 3.1:Các tham số chương trính sinh liệu tổng hợp Chẳng hạn, Bảng 3.2 tóm tắt việc thiết lập tham số cho việc sinh tập liệu (dataset) với N = 1000 L=2000 Chúng ta chọn ba giá trị cho T: 5, 10, 20 giá trị cho I: 2, 4, Số giao dịch 100.000 Vì giá trị T D, nên kích thước dataset theo đơn vị MB gần với giá trị I T I D Đơn vị MB T5.I2.D100K 100K 2.4 T10.I2.D100K 10 100K 4.4 T10.I4.D100K 10 100K T20.I2.D100K 20 100K T20.I4.D100K 20 100K T20.I6.D100K 20 100K Tên 8.4 Bảng 3.2: Các tham số 3.5.2 So sánh thuật toán AIS, SETM, Apriori AprioriTID Hình 3.6 cho thấy thời gian thực với liệu tổng hợp bảng 3.2, giảm giá trị min_sup Khi min_sup giảm, thời gian thực tất thuật toán tăng tổng số itemset ứng cử viên số frequent itemset tăng [5] Đối với SETM, thể thời gian thực với dataset T5.I2.D100K hình 3.6 Thời gian thực SETM hai dataset kích thước giao Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 57 dịch trung bình 10 thể bảng 3.3 Chúng ta khơng thể vào đồ thị chúng lớn so với thời gian thực thuật tốn khác Với ba dataset kích thước giao dịch 20, thuật toán SETM nhiều thời gian để thực hiện, nên chúng Dataset Algorithm T10.I2.D100K T10.I4.D100K Minimun Support 2.0% 1.5% 1.0% 0.75% 0.5% SETM 74 161 838 1262 1878 Apriori 4.4 5.3 11.0 14.5 15.3 SETM 41 91 659 929 1639 Apriori 3.8 4.8 11.2 17.4 19.3 Bảng 3.3: Thời gian thực theo giây (s) thuật toán SETM Rõ ràng, thuật toán Apriori đánh bại thuật toán AETM với dataset lớn Thuật toán Apriori đánh bại AIS với tất tốn kích thước nhỏ Thuật tốn AIS ln thực tốt đáng kể so với thuật toán SETM Với toán nhỏ, thuật toán AprioriTID thể với thời gian gần với thuật tốn Apriori, chậm hai lần so với Apriori với toán lớn T10.I2.D100K 160 SETM: AIS: Apriori: AprioriTID: 1.5 0.75 Time (sec) Time (sec) T5.I2.D100K 0 0.5 14 120 AIS: Apriori: AprioriTID: 10 08 0 0.33 0.25 Minimum support 1.5 0.75 0.5 Minimum support Hình 3.6a: Thời gian thực với tập liệu T5.I2.D100K T10.I2.D100K Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 0.33 0.25 58 T20.I2.D100K T10.I4.D100 1000 AIS: Apriori : AprioriTID: 30 250 AIS: Apriori : AprioriTID: 900 800 Time (sec) Time (sec) 350 200 150 100 700 600 500 400 300 200 50 100 0 1.5 0.75 0.5 0.33 0.25 Minimum support 1.5 0.75 0.5 0.33 0.25 Minimum support Hình 3.6b: Thời gian thực với tập liệu T10.I4.D100K T20.I2.D100K T20.I6.D100K T20.I4.D100K 1800 3500 AIS: Apriori: AprioriTID: 130 120 1000 AIS: Apriori: AprioriTID: 3000 Time (sec) Time (sec) 1600 1400 80 0600 2500 2000 1500 1000 400 500 200 0 1.5 0.75 0.5 0.33 0.25 1.5 0.75 0.5 0.33 0.25 Minimum support Minimum support Hình 3.6c: Thời gian thực với tập liệu T20.I4.D100K T20.I6.D100K Giải thích: Để giải thích cho thời gian thực trên, xem kích thước tập frequent tạp ứng cử viên bước quét khác dataset T10.I4.D100K, min_sup = 0.75% hình 3.7 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 59 Nuber of itemsets Le+07 C k (SETM) Le+06 C k (AprioriTID) Ck(AIS, SETM ) Ck (Apriori, AprioriTID) Lk 100000 10000 1000 100 10 1 Minimum support Hình 3.7: Kích thước tập frequent tập ứng cử viên Vấn đề thuật tốn SETM kích thước tập C k [5] Vì kích thước tập C k  sup port _ count(c) Do , tập C k gần s lần candida_it emset(c) lớn tập C k tương ứng, với s support count trung bình ứng cử viên Trừ tốn nhỏ, cịn tốn khác tập C k phải ghi vào đĩa phải xếp ngoài, nên dẫn đến thuật tốn SETM thực khơng tốt Điều giải thích cho thời gian tăng vọt SETM bảng 3.3, min_sup giảm từ 1.5% xuống 1.0% dataset kích thước giao dịch 10 Cùng min_sup, support count itemset ứng cử viên tăng tuyến tính theo số giao dịch Do đó, số giao dịch tăng lên dataset T I, kích thước Ck khơng thay đổi, kích thước C k tăng tuyến tính Do vậy, dataset có nhiều giao dịch hơn, thời gian thực SETM so với thuật toán khác tách biệt Thuật tốn AIS sinh số lớn ứng cử viên mà sau nhỏ hơn, làm thuật tốn nhiều thời gian Thuật toán Apriori gặp vấn đề phải đếm support count cho tập lớn itemset bước quét thứ hai Tuy nhiên, lãng phí giảm đáng kể bước quét thứ Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 60 Thuật toán AprioriTID gặp vấn đề SETM C k có khuynh hướng lớn Tuy nhiên, hàm Apriori_gen sử dụng AprioriTID sinh ứng cử viên dựa giao dịch sử dụng SETM Do đó, C k AprioriTID có thành viên so với số thành viên C k SETM Hơn nữa, thuật tốn khơng phải xếp lại C k, SETM lại thực công việc Một yếu tố quan trọng thuật tốn AprioriTID thay phải qt dataset gốc, qt C k Do vậy, thuật toán AprioriTID hiệu bới bước quét sau mà kích thước C k trở lên nhỏ so với kích thước CSDL Thuật tốn AprioriTID vượt so với Apriori, C k khớp với nhớ k lớn Khi C k khơng khớp với nhớ, có tăng vọt thời gian thực AprioriTID Chẳng hạn, min_sup giảm từ 75% xuống 0.50% với dataset có T=10 (hình 3.6) 3.5.3 So sánh thuật tốn DHP, PHP với Apriori Bảng 3.4 thể hoạt động liên quan Apriori DHP với T= 15, kích thước trung bình giao dịch 15 Thời gian thực hai thuật toán thể hình 3.8 Theo hình 3.8, thời gian thực lần quét DHP lớn so với Apriori, DHP cần thêm thời gian để sinh H Tuy nhiên, thời gian thực bước DHP nhỏ nhiều so với Apriori, bước DHP sử dụng bảng băm để sinh Ck quét sở dũ liệu Dk nhỏ Ck Apriori Lk Number DHP Number L1 760 760 C2 288.420 318 L2 211 211 C3 220 220 L3 204 204 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên Dk Dk 6.54MB 100.000 6.54MB 100.000 0.51MB 20.047 http://www.lrc-tnu.edu.vn 61 Ck Apriori Lk Number DHP Number C4 299 229 L4 227 227 C5 180 180 L5 180 180 C6 94 94 L6 94 94 C7 29 29 L7 29 29 C8 4 L8 4 Total time 43.36 13.57 Dk Dk 0.25MB 8.343 0.16MB 4.919 0.10MB 2.495 0.06MB 1.254 0.05MB 1.085 Bảng 3.4: So sánh thời gian thực Apriori DHP (T15.I4.D100) 50 Execution time 40 30 20 10 Apriori DHP Comparison of two algorithms Pass Pass Pass Pass -8 T15.I4.D100 Hình 3.8: Thời gian thực Apriori DHP Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 62 Hình 3.9 cho thấy tỉ lệ thời gian thực DHP so với Apriori với min_sup khác Hình 3.9 rõ thuật tốn DHP hoạt động tốt với min_sup khác DHP/Apriori in execution time 0.4 0.3 0.2 0.1 s=0.75 s=1.0 s=1.25 Minimum support T15.I4.D100 T20.I4.D100 Hình 3.9: So sánh thời gian thực DHP Apriori Theo [18], thuật tốn PHP thực tốt thuật tốn DHP, sau thiết lập bảng băm, PHP khơng cần đếm tần số xuất cho itemset ứng cử viên, thuật tốn DHP phải thực cơng việc Thuật tốn PHP thực tốt Apriori Thuật tốn có đặc trưng; sinh frequent itemset, giảm kích thước sở liệu giảm số lần quét sở liệu cách hiệu Thuật toán PHP biến hệ thuật tốn DHP với bảng băm có kích thước lớn cho itemset khác vào vị trí khác bảng băm Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 63 CHƢƠNG CÀI ĐẶT CHƢƠNG TRÌNH THỬ NGHIỆM “ MƠ PHỎNG THUẬT TỐN APRIORI” 4.1 Phát biểu toán Những năm gần song song với kênh phân phối hàng hóa truyền thống chợ, cửa hàng bán lẻ, hệ thống siêu thị … ngày phát triển khẳng định vị trí Bên cạnh ta cần quan tâm đến yếu tố: tự chọn hàng, mức độ tập trung hàng hóa cao, giá rõ ràng … không kể đến lý hình thức đặt khoa học, dễ tìm kiếm bắt mắt Vậy có câu hỏi đặt ra: với số lượng hàng hóa khổng lồ đa dạng chủng loại đặt hợp lý, đẹp đồng thời hỗ trợ tối đa cho công việc kinh doanh? Để trả lời câu hỏi “có thể” giải pháp tin học hóa lĩnh vực nói chung cơng việc kinh doanh nói riêng 4.2 Phân tích tốn Khai phá luật kết hợp từ bảng quan hệ Để sử dụng thuật toán cách thuận lợi vào ứng dụng “khai phá liệu hàng hóa” địi hỏi phải chuyển đổi CSDL toán thành CSDL giao dịch Để làm điều này, cần phải rời rạc hóa thuộc tính thành khoảng (interval) Sau rời rạc hóa , record (data case) liệu gốc biến đổi thành tập cặp nhãn lớp Mỗi cặp trở thành item CSDL giao dịch Với biến đổi này, record trở thành giao dịch Trong việc khai phá luật kết hợp truyền thống, item xuất vế luật Luật có dạng: X  Ci , với Ci lớp thuộc tính lớp, X tập item Vì luật quan tâm có dạng X  Ci , nên cần tìm frequent itemset dạng: Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 64 Vấn đề min_sup min_conf Các luật kết hợp truyền thống sử dụng min_sup min_conf trình khai phá Nhưng sử dụng min_sup gặp vấn đề: - Nếu min_sup q cao, khơng tìm luật với lớp tiểu số, mà thường lớp potsitve - Nếu min_sup thấp xảy bùng nổ tổ hợp lớp tiểu số có nhiều luật Những luật có giá trị dự đốn khơng cao, cịn làm tăng thời gian xử lý Sử dụng min_conf gặp số khó khăn tương tự min_sup Để giải vấn đề này, sử dụng min_sup min_conf đồng thời với giá trị khác cho lớp khác 4.3 Xây dựng liệu Mục đích chương trình nhằm khai phá liệu hàng hóa, nên dựa vào kết việc kinh doanh hàng hóa làm điều kiện xem xét Việc xem xét dựa vào loạt loại hàng hóa khác ( bơng tắm, sữa tăm, kem dưỡng da, book, CD, …) Để minh họa cho chương trình thử nghiệm tơi dựa mặt hàng mỹ phẩm ( tắm, sữa rửa mặt, kem dưỡng da, kem ủ tóc, dầu gội đầu, sữa tắm) làm liệu thử nghiệm 4.4 Cài đặt chƣơng trình thử nghiệm Chương trình cài đặt ngơn ngữ Visual C# Chương trình cài đặt dựa ý tưởng thuật tốn Apriori Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 65 4.5 Giao diện chƣơng trình Giao diện chương trình Hình 4.1: Giao diện chương trình Cửa sổ lựa chọn CSDL để kết nối Hình 4.2: Lựa chọn CSDL Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 66 Cửa sổ khai phá luật kết hợp dựa vào CSDL min_sup, min_conf Hình 4.3: Kết khai phá luật kết hợp Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 67 KẾT LUẬN VÀ ĐỀ NGHỊ Sau thời gian thực hiện, em hoàn thành luận văn đạt số kết định Luận văn thể tính thực tiễn cấp bách KPDL, luận văn trình bày nét KPDL, khái niệm luật kết hợp, phương pháp để khai phá kết luật kết hợp đơn chiều, đa chiều, đa mức Đặc biệt đưa phương pháp để cải tiến hiệu thuật toán Apriori như: bảng băm, phân đoạn, lấy mẫu giảm kích thước CSDL Với thời gian hạn chế, luận văn bước đầu tơi tìm hiểu số thuật toán như: AIS, SETM, Apriori, AprioriTID, AprioriHybrid, DHP, PHP thuật tốn sinh luật kết hợp Đây coi tảng trình KPDL mà tơi tìm hiểu được, nhiên q trình nghiên cứu cài đặt thuật tốn mặt hạn chế Kết đạt được: hoàn thành báo cáo luận văn với nội dung nêu trên, cài đặt chương trình demo thuật tốn trình bày luận văn cho kết nhanh xác Dựa vào kết đạt mặt cịn hạn chế, tơi mong muốn tiếp tục nghiên cứu cài đặt thuật tốn cách thành cơng Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 68 TÀI LIỆU THAM KHẢO Tiếng việt [1] Phạm Hữu Khang, Kỹ thuật lập trình C#.Net, NXB Lao Động - Xã Hội [2] Vũ Đức Thi, Cơ sở liệu: Kiến thức thực hành, NXB Thống kê, 1997 [3] Hồ Thuần, Hồ Cẩm Hà, Các hệ sở liệu: Lý thuyết tập, tập 2, NXB Giáo dục, 2005 Tiếng Anh [4] Agrawal R., Imielinski T and Swami A, “Mining Association Rules Between Sets of Items in Large Databases”, SIGMOD, 1993 [5] Agrawal R., Srikantt R., “Fast Algorithms for mining association rules”, VLDB94, 1994 [6] Freitas A A., “Uderstanding the Crucial Differences Between Classification and Discovery of Association Rules”, ACM SIGKDD, vol.2, July 2000, pp65-69 [7] Han J And Fu Y., “Discovery of Multiple-Level Association Rules from Large Database”, Proseedings of the 21st VLDB Conference, Zurich, Swizerland, 1995 [8] Han J and Kamber M., Data Mining: Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers, 2002 [9] Han J., Pei J., Yin Y., “Mining frequent patterns without candidate generation”, SIGMOD, 2000 [10] Ma Y., Liu B, Wong C K., Yu P S., Lee S.M., “Targeting the Right Students Using Data Mining”, KDD-2000, 2000 [11] Park J S., Chen M S., Yu P S “Using a Hash-Based Method with Tansaction Trimming and Database Scan Reduction for Mining Association Rule” Vol.9, No.5, 1997 [12] Srikant R., Agrawal R., “Mining Quantitative Association rules”, Proceedings of the 22nd VLDB Conference, Bombay, India, 1996 Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 69 Địa Internet [14] Apte C., Liu B.&Smyth P., “Business Applications of Data Mining”, 2004 http://www.reaserch.ibm.com/dar/papers/pdf/Business_application_of_dm.pdf [15] Dunham M.H., Gruenwald Y X L., Hossain Z., “A survery of association rules” http://www2.cs.uh.edu/~ceik/6340/grue-assoc.pdf [16] Han J and kamber M., “principles of K nowledge Discovery in Data”, http://www.cs.ualberta.ca/~joerg/courses/cput695/fall2003/Association Rules4spp.pdf [17] Rantzau R., “Extended Concepts for Association Rule Discovery”, http://elib.uni-stuttgart.de/opus/volltexte/2007/721/pdf/DIP_1554.pdfl [18] S Ayse Ozel anf H Altay Guvenir., “Algorithm for Mining Association Rules Using Perfect Hashing and Database pruning”, http://ww.cs.bilkent.edu.tr/~guvenir/publications/Ta101-AOAG.pdf Số hóa Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ... Những luật kết hợp khai phá giúp tổ chức nhà quản lý đưa định kinh doanh hiệu Xuất phát từ vấn đề em mạnh dạn lựa chọn đề tài luận văn: ? ?KHAI PHÁ DỮ LIỆU TRÊN CƠ SỞ PHƢƠNG PHÁP LUẬT KẾT HỢP VÀ ỨNG. .. http://www.lrc-tnu.edu.vn 13 CHƢƠNG KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN Hiện tại, có số ứng dụng kết việc khai thác luật kết hợp sở liệu Tuy nhiên, chưa có nhiều nghiên cứu nói lên tính ứng dụng nó, nghiên... CHƢƠNG 2: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN…… 13 2.1 Khai phá luật kết hợp? ??……………………………………………………… .13 2.1.1 Một số khái niệm …………………………………………………13 2.1.2 Cách khai phá luật kết hợp? ??……………………………………………….14

Ngày đăng: 24/03/2021, 17:33

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w