1. Trang chủ
  2. » Luận Văn - Báo Cáo

khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng

79 366 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 79
Dung lượng 830,06 KB

Nội dung

Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 Công trình được hoàn thành tại: TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Người hướng dẫn khoa học: PGS.TS. Nguyễn Trọng Bình ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN  NGUYỄN KHẢI HOÀI ANH KHAI PHÁ DỮ LIỆU TRÊN CƠ SỞ PHƯƠNG PHÁP LUẬT KẾT HỢP VÀ ỨNG DỤNG CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ : 604801 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN 2010 Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2 Công trình được hoàn thành tại: Khoa công nghệ thông tin – Đại học Thái Nguyên Người hướng dẫn khoa học: PGS.TS.Vũ Đức Thi Phản biện 1: Phản biện 2: Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn họp tại: Khoa Công nghệ thông tin – Đại học Thái Nguyên, vào hồi giờ ngày tháng năm 2010. Có thể tìm hiểu luận văn tại trung tâm học liệu Đại học Thái Nguyên và thư viện Trường CĐCN – Thái Nguyên 1 Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan toàn bộ nội dung trong Luận văn hoàn toàn theo đúng nội dung đề cương cũng như nội dung mà cán bộ hướng dẫn giao cho. Nội dung luận văn, các phần trích lục các tài liệu hoàn toàn chính xác. Nếu có sai sót tôi hoàn toàn chịu trách nhiệm. Tác giả luận văn Nguyễn Khải Hoài Anh 2 Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC Trang Trang phụ bìa Lời cam đoan Mục lục………………………………………………………………………………………i Danh sách các ký hiệu, các từ viết tắt…………………………………………………… iv Danh mục các bảng…………………………………………………………………………v Danh mục các hình…………………………………………………………………………vi MỞ ĐẦU………………………………………………………………………………… 1 CHƢƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU……………………………… 3 1.1. Khai phá dữ liệu………………………………………………………………………3 1.1.1. Khái niệm về khám phá tri thức và khai phá dữ liệu…………………………3 1.1.2. Kiến trúc của một hệ thống khai phá dữ liệu ……………………………… 5 1.1.3. Các loại dữ liệu được khai phá……………………………………………….6 1.1.4. Chức năng khai phá dữ liệu………………………………………………… 6 1.2. Một số phƣơng pháp khai phá dữ liệu thông dụng…………………………………7 1.2.1. Phương pháp luật kết hợp……………………………………………… 7 1.2.2. Phương pháp cây quyết định…………………………………………… 7 1.2.3. Phương pháp k-Mean……………………………………………………… 8 1.3. Một số ứng dụng của khai phá dữ liệu………………………………………………9 1.3.1. Phân tích dữ liệu gen và sinh học y học…………………………………… 9 1.3.2. Phân tích dữ liệu tài chính……………………………………………… 9 1.3.3. Dịch vụ bán lẻ……………………………………………………… 10 1.3.4. Công nghiệp viễn thông…………………………………………………….10 1.4. Các khuynh hƣớng và thách thức trong khai phá dữ liệu……………………… 11 CHƢƠNG 2: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN…… 13 2.1. Khai phá luật kết hợp………………………………………………………… 13 2.1.1. Một số khái niệm cơ bản …………………………………………………13 2.1.2. Cách khai phá luật kết hợp………………………………………………….14 2.1.3. Các tính chất của frequent itemset………………………………………….14 3 Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2.1.4. Các tiêu chuẩn để phân loại luật kết hợp……………………………………15 2.1.4.1. Kiểu của giá trị được quản lý trong luật…………………………… 15 2.1.4.2. Chiều của dữ liệu được đề cập trong luật……………………… 15 2.1.4.3. Mức trừu tượng được đề cập trong luật………………………… 15 2.2. Khai phá luật kết hợp boolean một chiều từ CSDL giao dịch………………… 16 2.2.1. Thuật toán Apriori: Tìm các frequent itemset sử dụng việc sinh ra các ứng viên……………………………………………………………………….16 2.2.2. Sinh luật kết hợp từ các frequent temset [5, 8, 15]…………………… 19 2.2.3. Cải tiến hiệu quả thuật toán Apriori……………………………………… 19 2.2.3.1. Phương pháp dựa trên bảng băm…………………………… 20 2.2.3.2. Giảm số giao dịch……………………………………………………….20 2.2.3.3. Phân đoạn……………………………………………………………… 21 2.2.3.4. Lấy mẫu………………………………………………………………… 21 2.2.4. Khai phá các frequent itemset bằng cách không sinh ứng cử viên…… 21 2.3. Khai phá luật kết hợp đa thức từ CSDL giao dịch……………………………… 24 2.3.1. Luật kết hợp đa thức……………………………………………………… 24 2.3.2. Các phương pháp khai phá luật kết hợp đa mức……………………… 26 2.3.2.1. Đồng nhất độ hỗ trợ tối thiểu cho tất cả các mức………………… 26 2.3.2.2. Giảm dần độ hỗ trợ tối thiểu ở mức thấp hơn…………………….27 2.3.2.3. Độc lập theo từng mức………………………………………………….27 2.3.2.4. Lọc chéo mức bởi một itemset………………………………………… 27 2.4. Khai phá luật kết hợp đa chiều từ CSDL quan hệ và kho dữ liệu……………… 28 2.4.1. Luật kết hợp đa chiều……………………………………………………….28 2.4.2. Khai phá luật kết hợp đa chiều sử dụng việc rời rạc hoá tĩnh các thuộc tính số lượng……………………………………………………………………….29 2.4.3. Khai phá luật kết hợp số lượng…………………………………………… 30 2.4.4. Khai phá luật kết hợp dựa vào khoảng cách……………………………… 31 CHƢƠNG 3: MỘT SỐ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP…………… 34 3.1. Khám phá các frequent itemset……………………………………………….34 3.1.1. Thuật toán AIS………………………………………………… 34 4 Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3.1.2. Thuật toán SETM……………………………………………… 35 3.1.3. Thuật toán Apriori………………………………………………… 39 3.1.3.1. Hàm Apriori_gen……………………………………….40 3.1.3.2. Hàm subset…………………………………………… 40 3.1.4. Thuật toán AprioriTID…………………………………….41 3.1.5. Thuật toán AprioriHybrid………………………………………… 43 3.2. Khám phá luật kết hợp…………………………………………………… 44 3.2.1. Thuật toán sinh luật đơn giản……………………………………….45 3.2.2. Thuật toán nhanh……………………………………………… 45 3.3. Thuật toán DHP (Direct Hashing with Efficent Pruning)……………… 46 3.3.1 Thuật toán DHP…………………………………………………… 46 3.3.2. Giảm kích thước của cơ sở dữ liệu giao dịch………………… 51 3.3.3. Giảm số lần quét cơ sở dữ liệu (Scan – Reduction method)……… 53 3.4. Thuật toán PHP (Perfect Hash and Pruning)…………………………… 53 3.5. So sánh các thuật toán khám phá các frequent itemset………………… 55 3.5.1. Sinh dữ liệu tổng hợp………………………………………… 55 3.5.2. So sánh các thuật toán AIS, SETM, Apriori và AprioriTID……… 56 CHƢƠNG 4: CÀI ĐẶT CHƢƠNG TRÌNH THỬ NGHIỆM…………… 63 “ MÔ PHỎNG THUẬT TOÁN APRIORI” 4.1. Phát biểu bài toán ………………………………………………………… 63 4.2. Phân tích bài toán ………………………………………………………… 63 4.3. Xây dựng dữ liệu…………………………………………………………….64 4.4. Cài đặt chƣơng trình thử nghiệm………………………………………… 64 4.5. Giao diện chính của chƣơng trình………………………………………….65 KẾT LUẬN VÀ ĐỀ NGHỊ………………………………………………… 67 TÀI LIỆU THAM KHẢO……………………………………………………….68 5 Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Ký hiệu Diễn giải C k k Tập các k-itemset ứng viên k C Tập các k-itemset ứng viên mà TID của giao dịch sinh ra liên kết với tập mục ứng viên D Cơ sở dữ liệu giao dịch D i Phần thứ i của cơ sở dữ liệu D I Tập các mục L k Tập các k-itemset phổ biến T Giao dịch (transaction) X ⇒Y Luật kết hợp (với X là tiền đề, Y là hệ quả) Conf Độ tin cậy (Confidence) k-itemset Tập mục gồm k mục Min_conf Ngưỡng tin cậy tối thiểu Min_sup Ngưỡng hỗ trợ tối thiểu Sup Độ hỗ trợ (support) Tid Định danh của giao dịch Tid-List Danh sách các định danh của giao dịch ARCS Association Rule Clustering System SQL Structured Query Language FP -growth Frequent -Pattern Growth FP -Tree Frequent pattern tree min_sup_count minimum support count DHP Direct Hashing with Efficent Pruning PHP Perfect Hash and Pruning 6 Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC BẢNG Trang Bảng 2.1: Tóm tắt quá trình khai phá cây FP – Tree 24 Bảng 2.2: Dữ liệu giao dịch của cho nhánh AllElectronecs 25 Bảng 2.3: Phân chia dựa trên khoảng cách 32 Bảng 3.1: Các tham số của chương trính sinh dữ liệu tổng hợp 56 Bảng 3.2: Các tham số 56 Bảng 3.3: Thời gian thực hiện theo giây (s) của thuật toán SETM 57 Bảng 3.4: So sánh thời gain thực hiện của Apriori và DHP (T15.I4.D100) 61 7 Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC HÌNH VẼ Trang Hình 1.1: Quy trình phát hiện tri thức 4 Hình 1.2: Kiến trúc của một hệ khai phá dữ liệu điển hình 5 Hình 1.3: Mẫu kết quả với phương pháp cây quyết định 7 Hình 1.4: Phân cụm các đối tượng k-Mean ( + là tâm của cụm) 8 Hình 2. 1: CSDL để thực hiện các bước hình 2.2 17 Hình 2.2: Các bước thực hiện của thuật toán Apriori với min _sup = 2/9 = 22% 18 Hình 2.3: Hai giai đoạn của kỹ thuật phân đoạn 21 Hình 2.4: Cây FP – tree 23 Hình 2.5: Cây conditional FP – tree 24 Hình 2.6: Hệ thống phân cấp khái niệm cho các item 25 Hình 2.7: min_sup được sử dụng khi khai phá ở các mức trừu tượng khác nhau 26 Hình 2.8: Giảm dần độ hỗ trợ tối thiểu ở mức thấp hơn 27 Hình 2.9: Độc lập theo từng mức 27 Hình 2.10: Lọc chéo mức bởi một itemset 28 Hình 2.11: Mạng cuboids tạo thành một data cube 3D Hình 2.12: Lưới hai chiều do các luật kết hợp số lượng hai chiều với điều kiện buys 29 31 Hình3.1a: Các bước thực hiện thuật toán SETM và min_sup_count = 2 38 Hìn 3.1b: 39 Hình 3.2: Các bước thực hiện của thuật toán AprioriTID 43 Hình 3.3: Thời gian xử lý mỗi bước quét của thuật toán Apriori và AprioriTID 44 Hình 3.4: Các bước thực hiện thuật toán DHP 49 Hình 3.5: Tìm L2 và D3 52 Hình 3.6a: Thời gian thực hiện với các tập dữ liệu T5.I2.D100K và T10.I2.D100K 57 Hình 3.6b: Thời gian thực hiện với các tập dữ liệu T10.I4.D100K và T20.I2.D100K 58 Hình 3.6c: Thời gian thực hiện với các tập dữ liệu T20.I4.D100K và T20.I6.D100K 58 8 Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình 3.7: Kích thước của các tập frequent và các tập ứng cử viên 59 Hình 3.8: Thời gian thực hiện của Apriori và DHP 61 Hình 3.9: So sánh thời gian thực hiện của DHP và Apriori 62 Hình 4.1: Giao diện chính của chương trình 65 Hình 4.2: Lựa chọn CSDL 65 Hình 4.3: Kết quả khai phá luật kết hợp 66 [...]... lấy được các tri thức từ cơ sở dữ liệu sẵn có đó được gọi là kỹ thuật Khai phá dữ liệu( Data Mining) Khai phá dữ liệu có thể xem như kết quả phát triển của công nghệ thông tin, khai phá dữ liệu là một giai đoạn quan trọng của quá trình phát triển tri thức Một trong những bài toán phổ biến của khai phá dữ liệu là khai phá luật kết hợp Khai phá luật kết hợp là tìm kiếm sự kết hợp đáng quan tâm hoặc quan... truy cập và khai phá thông tin hoàn hảo Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 13 CHƢƠNG 2 KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN Hiện tại, đã có một số ứng dụng kết quả của việc khai thác luật kết hợp trong cơ sở dữ liệu Tuy nhiên, chưa có nhiều nghiên cứu nói lên tính ứng dụng của nó, các nghiên cứu chỉ mang tính đơn thể, tự phát và chưa có một giải pháp. .. yêu cầu khai phá của người dùng Giao diện đồ hạo ngƣời dùng Đánh giá mẫu Máy khai phá dữ liệu Cơ sở tri thức Máy chủ CSDL hay kho dữ liệu Làm sạch và tích hợp dữ liệu Cơ sở dữ liệu Lọc Kho dữ liệu Hình 1.2: Kiến trúc của một hệ khai phá dữ liệu điển hình - Cơ sở tri thức (Knowledge base): Đây là miền tri thức được dùng để hướng dẫn việc tìm kiếm hay đánh giá độ quan trọng của các hình mẫu kết quả Số... đồng nhất - Tích hợp dữ liệu (Data intergation): Nó tổ hợp các dữ liệu từ nhiều nguồn khác nhau thành một kho dữ liệu không đồng nhất - Lựa chọn dữ liệu (Data selection): Những dữ liệu thích hợp với nhiệm vụ phân tích được trích rút từ cơ sở dữ liệu (CSDL) - Chuyển đồi dữ liệu (Data transformation): Nó chuyển đổi hay hợp nhất dữ liệu về dạng thích hợp cho việc khai phá Việc chuyển đổi dữ liệu có thể gồm... hƣớng và thách thức trong khai phá dữ liệu Việc phát triển các hệ thống, phương pháp khai phá hiệu quả, kiến trúc môi trường KPDL tích hợp và ứng dụng kỹ thuật KPDL vào các bài toán lớn là một nhiệm vụ quan trọng đối với các nhà nghiên cứu, các nhà phát triển ứng dụng Dưới đây là những khuynh hướng trong KPDL phản ánh các thách thức này [8] Mở rộng ứng dụng: Trước đây các ứng dụng KPDL chỉ tập trung vào... khoản mục (item) Những luật kết hợp khai phá được có thể giúp các tổ chức và các nhà quản lý đưa ra những quyết định kinh doanh hiệu quả hơn Xuất phát từ những vấn đề đó em đã mạnh dạn lựa chọn đề tài luận văn: KHAI PHÁ DỮ LIỆU TRÊN CƠ SỞ PHƢƠNG PHÁP LUẬT KẾT HỢP VÀ ỨNG DỤNG” là một việc làm không chỉ có ý nghĩa khoa học và còn mang đậm tính thực tiễn Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên... trên dữ liệu hiện hành để cho ra các dự báo, nghĩa là phân tích tập dữ liệu huấn luyện và tạo ra một hoặc vài mô hình cho phép dự đoán các mẫu mới chưa biết (unseen new examples) Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 7 1.2 Một số phƣơng pháp khai phá dữ liệu thông dụng 1.2.1 Phƣơng pháp luật kết hợp Một trong những chủ đề phổ biến của KPDL là khám phá luật kết hợp. .. phát và chưa có một giải pháp tổng quát nào vì phạm vi sử dụng kết quả của việc khai thác là rất đa dạng và phong phú Trong chương này, chúng tôi sẽ trình bày các khái niệm về khai phá dữ liệu, cách khai phá luận kết hợp Boolean một chiều từ CSDL giao dịch, khai phá luận kết hợp đa mức và đa chiều 2.1 Khai phá luật kết hợp 2.1.1 Một số khái niệm cơ bản [4, 5, 8, 15, 17] Cho I = {i1, i2, …in} là một tập... khỏi dữ liệu + Kết tập các dữ liệu Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 4 + Khái quát hóa dữ liệu: Các dữ liệu mức thấp (hoặc mức nguyên thuỷ) được thay thế bởi các khái niệm mức cao hơn thông qua việc sử dụng phân cấp khái niệm + Xây dựng thuộc tính: Các thuộc tính mới được xây dựng trên các dữ liệu cho trước và được thêm vào dữ liệu mới - Khai phá dữ liệu. .. Cách khai phá luật kết hợp Bài toán khai phá luận kết hợp được tách thành hai bài toán con [5,8]: Bài toán 1: Tìm tất cả các frequent itemset Với một số cơ sở dữ liệu giao dịch D và min _sup, chúng ta phải tìm tất cả các frequen itemset có thể có trong D Bài toán 2: Sinh các luật kết hợp mạnh từ các frequent itemset Từ các frequent itemset được tìm thấy ở trên, chúng ta sinh tất cả các luật kết hợp . hƣớng và thách thức trong khai phá dữ liệu …………………… 11 CHƢƠNG 2: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN…… 13 2.1. Khai phá luật kết hợp ……………………………………………………… 13 2.1.1. Một số khái niệm cơ. hình mẫu kết quả. Giao diện đồ hạo ngƣời dùng Đánh giá mẫu Máy khai phá dữ liệu Máy chủ CSDL hay kho dữ liệu Cơ sở tri thức Kho dữ liệu Cơ sở dữ liệu Lọc Làm sạch và tích hợp dữ liệu . phá dữ liệu ……………………………… 5 1.1.3. Các loại dữ liệu được khai phá …………………………………………….6 1.1.4. Chức năng khai phá dữ liệu ……………………………………………… 6 1.2. Một số phƣơng pháp khai phá dữ liệu thông dụng ………………………………7

Ngày đăng: 05/10/2014, 02:38

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Phạm Hữu Khang, Kỹ thuật lập trình C#.Net, NXB Lao Động - Xã Hội Sách, tạp chí
Tiêu đề: Kỹ thuật lập trình C#.Net
Nhà XB: NXB Lao Động - Xã Hội
[2] Vũ Đức Thi, Cơ sở dữ liệu: Kiến thức và thực hành, NXB Thống kê, 1997 Sách, tạp chí
Tiêu đề: Cơ sở dữ liệu: Kiến thức và thực hành
Nhà XB: NXB Thống kê
[3] Hồ Thuần, Hồ Cẩm Hà, Các hệ cơ sở dữ liệu: Lý thuyết và bài tập, tập 2, NXB Giáo dục, 2005.Tiếng Anh Sách, tạp chí
Tiêu đề: Các hệ cơ sở dữ liệu: Lý thuyết và bài tập
Nhà XB: NXB Giáo dục
[4] Agrawal R., Imielinski T .and Swami A,. “Mining Association Rules Between Sets of Items in Large Databases”, SIGMOD, 1993 Sách, tạp chí
Tiêu đề: Mining Association Rules Between Sets of Items in Large Databases
[5] Agrawal R., Srikantt R., “Fast Algorithms for mining association rules”, VLDB- 94, 1994 Sách, tạp chí
Tiêu đề: Fast Algorithms for mining association rules
[6] Freitas A. A., “Uderstanding the Crucial Differences Between Classification and Discovery of Association Rules”, ACM SIGKDD, vol.2, July 2000, pp65-69 Sách, tạp chí
Tiêu đề: Uderstanding the Crucial Differences Between Classification and Discovery of Association Rules
[7] Han J. And Fu Y., “Discovery of Multiple-Level Association Rules from Large Database”, Proseedings of the 21 st VLDB Conference, Zurich, Swizerland, 1995 Sách, tạp chí
Tiêu đề: Discovery of Multiple-Level Association Rules from Large Database
[8] Han J. and Kamber M., Data Mining: Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers, 2002 Sách, tạp chí
Tiêu đề: Data Mining: Concepts and Techniques
[9] Han J., Pei J., Yin Y., “Mining frequent patterns without candidate generation”, SIGMOD, 2000 Sách, tạp chí
Tiêu đề: Mining frequent patterns without candidate generation
[10] Ma Y., Liu B,. Wong C. K., Yu. P. S., Lee S.M., “Targeting the Right Students Using Data Mining”, KDD-2000, 2000 Sách, tạp chí
Tiêu đề: Targeting the Right Students Using Data Mining
[11] Park J. S., Chen M. S., Yu P. S “Using a Hash-Based Method with Tansaction Trimming and Database Scan Reduction for Mining Association Rule” Vol.9, No.5, 1997 Sách, tạp chí
Tiêu đề: Using a Hash-Based Method with Tansaction Trimming and Database Scan Reduction for Mining Association Rule
[12] Srikant R., Agrawal R., “Mining Quantitative Association rules”, Proceedings of the 22 nd VLDB Conference, Bombay, India, 1996 Sách, tạp chí
Tiêu đề: Mining Quantitative Association rules
[14] Apte C., Liu B.&Smyth P., “Business Applications of Data Mining”, 2004 http://www.reaserch.ibm.com/dar/papers/pdf/Business_application_of_dm.pdf Sách, tạp chí
Tiêu đề: Business Applications of Data Mining
[15] Dunham M.H., Gruenwald Y. X. L., Hossain Z., “A survery of association rules” http://www2.cs.uh.edu/~ceik/6340/grue-assoc.pdf Sách, tạp chí
Tiêu đề: A survery of association rules
[16] Han J. and kamber M., “principles of K nowledge Discovery in Data”, http://www.cs.ualberta.ca/~joerg/courses/cput695/fall2003/Association Rules- 4spp.pdf Sách, tạp chí
Tiêu đề: principles of K nowledge Discovery in Data
[17] Rantzau R., “Extended Concepts for Association Rule Discovery”, http://elib.uni-stuttgart.de/opus/volltexte/2007/721/pdf/DIP_1554.pdfl Sách, tạp chí
Tiêu đề: Extended Concepts for Association Rule Discovery
[18] S. Ayse Ozel anf H. Altay Guvenir., “Algorithm for Mining Association Rules Using Perfect Hashing and Database pruning” Sách, tạp chí
Tiêu đề: Algorithm for Mining Association Rules Using Perfect Hashing and Database pruning

HÌNH ẢNH LIÊN QUAN

Bảng 2.3: Phân chia dựa trên khoảng cách  32 - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Bảng 2.3 Phân chia dựa trên khoảng cách 32 (Trang 8)
Hình 3.7: Kích thước của các tập frequent và các tập ứng cử viên  59  Hình 3.8: Thời gian thực hiện  của Apriori và DHP  61  Hình 3.9: So sánh thời gian thực hiện của DHP và Apriori  62 - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 3.7 Kích thước của các tập frequent và các tập ứng cử viên 59 Hình 3.8: Thời gian thực hiện của Apriori và DHP 61 Hình 3.9: So sánh thời gian thực hiện của DHP và Apriori 62 (Trang 10)
Hình 3.7: Kích thước của các tập frequent và các tập ứng cử viên  59  Hình 3.8: Thời gian thực hiện  của Apriori và DHP  61  Hình 3.9: So sánh thời gian thực hiện của DHP và Apriori  62 - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 3.7 Kích thước của các tập frequent và các tập ứng cử viên 59 Hình 3.8: Thời gian thực hiện của Apriori và DHP 61 Hình 3.9: So sánh thời gian thực hiện của DHP và Apriori 62 (Trang 10)
Hình 1.2: Kiến trúc của một hệ khai phá dữ liệu điển hình  - Cơ sở tri thức (Knowledge base): Đây là miền tri thức được dùng để hướng - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 1.2 Kiến trúc của một hệ khai phá dữ liệu điển hình - Cơ sở tri thức (Knowledge base): Đây là miền tri thức được dùng để hướng (Trang 15)
Hình 1.2: Kiến trúc của một hệ khai phá dữ liệu điển hình  - Cơ sở tri thức (Knowledge base): Đây là miền tri thức được dùng để hướng - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 1.2 Kiến trúc của một hệ khai phá dữ liệu điển hình - Cơ sở tri thức (Knowledge base): Đây là miền tri thức được dùng để hướng (Trang 15)
Hình 1.3: Mẫu kết quả với phương pháp cây quyết định - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 1.3 Mẫu kết quả với phương pháp cây quyết định (Trang 17)
Hình 1.3: Mẫu kết quả với phương pháp cây quyết định - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 1.3 Mẫu kết quả với phương pháp cây quyết định (Trang 17)
Hình 1.4: Phân cụm các đối tượng k-Mean ( + là tâm của cụm) - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 1.4 Phân cụm các đối tượng k-Mean ( + là tâm của cụm) (Trang 18)
Hình 1.4: Phân cụm các đối tượng k-Mean ( + là tâm của cụm) - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 1.4 Phân cụm các đối tượng k-Mean ( + là tâm của cụm) (Trang 18)
Hình 2.2: Các bước thực hiện của thuật toán Apriori  với min _sup = 2/9 = 22% - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 2.2 Các bước thực hiện của thuật toán Apriori với min _sup = 2/9 = 22% (Trang 28)
Hình 2.2: Các bước thực hiện của thuật toán Apriori  với min _sup = 2/9 = 22% - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 2.2 Các bước thực hiện của thuật toán Apriori với min _sup = 2/9 = 22% (Trang 28)
Hình 2.3: Hai giai đoạn của kỹ thuật phân đoạn  2.2.3.4. Lấy mẫu - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 2.3 Hai giai đoạn của kỹ thuật phân đoạn 2.2.3.4. Lấy mẫu (Trang 31)
Hình 2.3: Hai giai đoạn của kỹ thuật phân đoạn  2.2.3.4. Lấy mẫu - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 2.3 Hai giai đoạn của kỹ thuật phân đoạn 2.2.3.4. Lấy mẫu (Trang 31)
Hình 2.4: Cây FP - tree ItemID  Support - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 2.4 Cây FP - tree ItemID Support (Trang 33)
Hình 2.4: Cây FP - tree ItemID  Support - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 2.4 Cây FP - tree ItemID Support (Trang 33)
Bảng 2.1:  Tóm tắt quá trình khai phá cây FP – Tree - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Bảng 2.1 Tóm tắt quá trình khai phá cây FP – Tree (Trang 34)
Bảng 2.1:  Tóm tắt quá trình khai phá cây FP – Tree - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Bảng 2.1 Tóm tắt quá trình khai phá cây FP – Tree (Trang 34)
Hình 2.5: Cây conditional FP – tree - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 2.5 Cây conditional FP – tree (Trang 34)
Hình 2.5: Cây conditional FP – tree - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 2.5 Cây conditional FP – tree (Trang 34)
Hình 2.7 Mức 2 - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 2.7 Mức 2 (Trang 36)
Hình 2.7 Mức 2 - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 2.7 Mức 2 (Trang 36)
Hình 2.10  2.4. Khai phá luật kết hợp đa chiều từ CSDL quan hệ và kho dữ liệu - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 2.10 2.4. Khai phá luật kết hợp đa chiều từ CSDL quan hệ và kho dữ liệu (Trang 38)
Hình 2.10  2.4. Khai phá luật kết hợp đa chiều từ CSDL quan hệ và kho dữ liệu - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 2.10 2.4. Khai phá luật kết hợp đa chiều từ CSDL quan hệ và kho dữ liệu (Trang 38)
Hình 2.11: Mạng cuboids tạo thành một data cube 3D - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 2.11 Mạng cuboids tạo thành một data cube 3D (Trang 39)
Hình 2.11: Mạng cuboids tạo thành một data cube 3D - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 2.11 Mạng cuboids tạo thành một data cube 3D (Trang 39)
Hình 2.12  2.4.4. Khai phá luật kết hợp dựa vào khoảng cách - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 2.12 2.4.4. Khai phá luật kết hợp dựa vào khoảng cách (Trang 41)
Hình 2.12  2.4.4. Khai phá luật kết hợp dựa vào khoảng cách - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 2.12 2.4.4. Khai phá luật kết hợp dựa vào khoảng cách (Trang 41)
Hình 3.2: Các bước thực hiện của thuật toán AprioriTID  3.1.5. Thuật toán AprioriHybrid - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 3.2 Các bước thực hiện của thuật toán AprioriTID 3.1.5. Thuật toán AprioriHybrid (Trang 53)
Hình 3.2: Các bước thực hiện của thuật toán AprioriTID  3.1.5. Thuật toán AprioriHybrid - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 3.2 Các bước thực hiện của thuật toán AprioriTID 3.1.5. Thuật toán AprioriHybrid (Trang 53)
Hình 3.3: Thời gian xử  lý mỗi bước quét của thuật toán Apriori và AprioriTID - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 3.3 Thời gian xử lý mỗi bước quét của thuật toán Apriori và AprioriTID (Trang 54)
Hình 3.3: Thời gian xử  lý mỗi bước quét của thuật toán Apriori và AprioriTID - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 3.3 Thời gian xử lý mỗi bước quét của thuật toán Apriori và AprioriTID (Trang 54)
Hình 3.4  Thuật toán DHP: - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 3.4 Thuật toán DHP: (Trang 59)
Hình 3.4  Thuật toán DHP: - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 3.4 Thuật toán DHP: (Trang 59)
Hình 3.5: Tìm L 2  và D 3 - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 3.5 Tìm L 2 và D 3 (Trang 62)
Hình 3.5: Tìm L 2  và D 3 - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 3.5 Tìm L 2 và D 3 (Trang 62)
Bảng 3.2: Các tham số  3.5.2. So sánh các thuật toán AIS, SETM, Apriori và AprioriTID - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Bảng 3.2 Các tham số 3.5.2. So sánh các thuật toán AIS, SETM, Apriori và AprioriTID (Trang 66)
Bảng 3.2: Các tham số  3.5.2. So sánh các thuật toán AIS, SETM, Apriori và AprioriTID - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Bảng 3.2 Các tham số 3.5.2. So sánh các thuật toán AIS, SETM, Apriori và AprioriTID (Trang 66)
Hình 3.6a: Thời gian thực hiện với các tập dữ liệu T5.I2.D100K và - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 3.6a Thời gian thực hiện với các tập dữ liệu T5.I2.D100K và (Trang 67)
Hình 3.6a: Thời gian thực hiện với các tập dữ liệu T5.I2.D100K và - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 3.6a Thời gian thực hiện với các tập dữ liệu T5.I2.D100K và (Trang 67)
Bảng 3.3: Thời gian thực hiện theo giây (s) của thuật toán SETM - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Bảng 3.3 Thời gian thực hiện theo giây (s) của thuật toán SETM (Trang 67)
Bảng 3.3: Thời gian thực hiện theo giây (s) của thuật toán SETM - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Bảng 3.3 Thời gian thực hiện theo giây (s) của thuật toán SETM (Trang 67)
Hình 3.6b: Thời gian thực hiện với các tập dữ liệu - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 3.6b Thời gian thực hiện với các tập dữ liệu (Trang 68)
Hình 3.6b: Thời gian thực hiện với các tập dữ liệu - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 3.6b Thời gian thực hiện với các tập dữ liệu (Trang 68)
Hình 3.7: Kích thước của các tập frequent và các tập ứng cử viên - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 3.7 Kích thước của các tập frequent và các tập ứng cử viên (Trang 69)
Hình 3.7: Kích thước của các tập frequent và các tập ứng cử viên - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 3.7 Kích thước của các tập frequent và các tập ứng cử viên (Trang 69)
Bảng  3.4  thể  hiện  hoạt  động  liên  quan  giữa  Apriori  và  DHP  với  T=  15,  kích  thước  trung  bình  của  mỗi  giao  dịch  là  15 - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
ng 3.4 thể hiện hoạt động liên quan giữa Apriori và DHP với T= 15, kích thước trung bình của mỗi giao dịch là 15 (Trang 70)
Bảng  3.4  thể  hiện  hoạt  động  liên  quan  giữa  Apriori  và  DHP  với  T=  15,  kích  thước  trung  bình  của  mỗi  giao  dịch  là  15 - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
ng 3.4 thể hiện hoạt động liên quan giữa Apriori và DHP với T= 15, kích thước trung bình của mỗi giao dịch là 15 (Trang 70)
Bảng 3.4:  So sánh thời gian thực hiện của Apriori và DHP (T15.I4.D100) - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Bảng 3.4 So sánh thời gian thực hiện của Apriori và DHP (T15.I4.D100) (Trang 71)
Bảng 3.4:  So sánh thời gian thực hiện của Apriori và DHP (T15.I4.D100) - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Bảng 3.4 So sánh thời gian thực hiện của Apriori và DHP (T15.I4.D100) (Trang 71)
Hình 3.8: Thời gian thực hiện  của Apriori và DHP - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 3.8 Thời gian thực hiện của Apriori và DHP (Trang 71)
Hình 3.8: Thời gian thực hiện  của Apriori và DHP - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 3.8 Thời gian thực hiện của Apriori và DHP (Trang 71)
Hình  3.9  cho  thấy  tỉ  lệ  thời  gian  thực  hiện  của  DHP  so  với  Apriori  với  các  min_sup  khác  nhau - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
nh 3.9 cho thấy tỉ lệ thời gian thực hiện của DHP so với Apriori với các min_sup khác nhau (Trang 72)
Hình  3.9  cho  thấy  tỉ  lệ  thời  gian  thực  hiện  của  DHP  so  với  Apriori  với  các  min_sup  khác  nhau - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
nh 3.9 cho thấy tỉ lệ thời gian thực hiện của DHP so với Apriori với các min_sup khác nhau (Trang 72)
Hình 4.2: Lựa chọn CSDL - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 4.2 Lựa chọn CSDL (Trang 75)
Hình 4.2: Lựa chọn CSDL - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 4.2 Lựa chọn CSDL (Trang 75)
Hình 4.1: Giao diện chính của chương trình - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 4.1 Giao diện chính của chương trình (Trang 75)
Hình 4.1: Giao diện chính của chương trình - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 4.1 Giao diện chính của chương trình (Trang 75)
Hình 4.3: Kết quả khai phá luật kết hợp - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 4.3 Kết quả khai phá luật kết hợp (Trang 76)
Hình 4.3: Kết quả khai phá luật kết hợp - khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng
Hình 4.3 Kết quả khai phá luật kết hợp (Trang 76)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w