Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 19 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
19
Dung lượng
1,12 MB
Nội dung
1 ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN THỊ HỒNG THẮM KHAI THÁC TẬP PHỔ BIẾN TƢƠNG QUAN HIẾM SỬ DỤNG THUẬT TOÁN CORI Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng - Năm 2017 Công trình hoàn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Ngƣời hƣớng dẫn khoa học: TS Trƣơng Ngọc Châu Phản biện 1: TS Lê Thị Mỹ Hạnh Phản biện 2: PGS.TS Hoàng Quang Luận văn bảo vệ Hội đồng chấm Luận văn tốt nghiệp Thạc sĩ Kỹ thuật họp Đại học Đà Nẵng vào ngày 08 tháng 01 năm 2017 Có thể tìm hiểu luận văn tại: - Trung tâm Học liệu, Đại học Đà Nẵng trường Đại học Bách khoa - Thư viện khoa Công nghệ Thông tin, Trường Đại học Bách khoa, ĐHĐN MỞ ĐẦU Lý chọn đề tài Với bùng nổ phát triển công nghệ thông tin mang lại nhiều hiệu khoa học hoạt động thực tế, khai phá liệu lĩnh vực mang lại hiệu thiết thực cho người Khai phá liệu giúp người sử dụng thu tri thức hữu ích từ sở liệu kho liệu khổng lồ khác Cơ sở liệu đơn vị, tổ chức kinh doanh, quản lý khoa học chứa đựng nhiều thông tin tiềm ẩn, phong phú đa dạng, đòi hỏi phải có phương pháp nhanh, phù hợp, xác, hiệu để lấy thông tin bổ ích Những “tri thức” chiết suất từ nguồn sở liệu nguồn thông tin hỗ trợ cho lãnh đạo việc lên kế hoạch hoạt động việc định sản xuất kinh doanh Tiến hành công việc thực trình phát tri thức sở liệu (Knowledge Discovery in Database) mà kỹ thuật khai phá liệu (Data Mining) cho phép phát tri thức tiềm ẩn Để lấy thông tin mang tính tri thức khối liệu khổng lồ, cần thiết phải phát triển kỹ thuật có khả tích hợp liệu từ hệ thống giao dịch khác nhau, chuyển chúng thành tập hợp sở liệu ổn định có chất lượng Khai phá liệu áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác nhau: Marketing, tài chính, ngân hàng bảo hiểm, giáo dục, y tế, an ninh, internet… Rất nhiều tổ chức công ty lớn giới áp dụng kỹ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu lợi ích to lớn Bài toán khai thác tập phổ biến toán quan trọng lĩnh vực data mining Hiện nay, có nhiều thuật toán tìm tập phổ biến khai phá liệu Apriori ( (Agrawal), IT-tree (M Zaki), FP-tree (J Han) tree (J Han), thuật toán chủ yếu dùng để tìm tập phổ biến thường xuyên Tuy nhiên, việc áp dụng mô hình tương quan thường xuyên giải pháp hấp dẫn số ứng dụng khác, phát xâm nhập, phân tích nhầm lẫn di truyền từ liệu sinh học, phát bệnh từ liệu y tế, … Gần đây, nhiều nhà nghiên cứu cách tiếp cận chung, gọi Gmjp, tìm tập phổ biến tương quan thường xuyên tương quan Mới đây, nhà nghiên cứu Souad Bouasker tìm thuật toán giải hai vấn đề thuật toán Gmjp tối ưu hơn, tiết kiệm thời gian không gian cho máy tính nhiều thuật toán Cori Vì chọn đề tài “Khai thác tập phổ biến tương quan sử dụng thuật toán Cori” làm luận văn cao học Mục đích nghiên cứu - Phân biệt mô hình tương quan thường xuyên mô hình tương quan hiếm; - Sự tích hợp thông minh hai mô hình đơn điệu chống đơn điệu - Tiếp cận thuật toán Cori để tìm tập phổ biến tương quan Đối tƣợng phạm vi nghiên cứu Đối tượng nghiên cứu: Thuật toán Cori, tập phổ biến tương quan Phạm vi nghiên cứu: Các thuật toán tìm tập phổ biến khai phá liệu Phƣơng pháp nghiên cứu Phƣơng pháp lý thuyết Thu thập nghiên cứu tài liệu, báo có liên quan đến đề tài Nghiên cứu lý thuyết khai phá liệu Nghiên cứu lý thuyết khai thác tập phổ biến tương quan thường xuyên tương quan Nghiên cứu thuật toán tìm tập phổ biến, thuật toán Cori Phƣơng pháp thực nghiệm Minh họa thuật toán Cori Ý nghĩa khoa học thực tiễn Hiểu rõ thuật toán Cori Hiểu rõ vấn đề khai thác tập phổ biến tương quan Bố cục luận văn Chương I: Cơ sở lý thuyết Chương II: Khai thác tập phổ biến tương quan thuật toán Cori Chương III: Cài đặt thực nghiệm 3 CHƢƠNG CƠ SỞ LÝ THUYẾT 1.1 KHAI PHÁ DỮ LIỆU 1.1.1 Khái niệm khai phá liệu 1.1.2 Các bƣớc trình phát tri thức CSDL 1.1.3 Kiến trúc hệ thống khai phá liệu 1.1.4 Hƣớng tiếp cận kỹ thuật khai phá liệu 1.1.5 Kiểu liệu khai phá liệu 1.1.6 Một số phƣơng pháp khai phá liệu 1.1.7 Ứng dụng khai phá liệu 1.1.8 Phân loại hệ thống khai phá liệu 1.1.9 Xu hƣớng khai phá liệu 1.2 TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP 1.2.1 Mở đầu 1.2.2 Các khái niệm Tập mục (itemset) Tập I={i1,i2,…,in} bao gồm n mục phân biệt i1,i2,…,in, mục (item) hiểu mặt hàng siêu thị hay thuộc tính sở liệu Tập X⊆I với k=|X| gọi k-tập_mục (tập mục có lực lượng k) Giao tác Tập T ⊆ I gọi giao tác (hay ghi) Độ hỗ trợ tập mục (itemset) Độ hỗ trợ tập mục sở liệu tỷ lệ giao dịch (bản ghi) T có chứa X với tổng số giao dịch T Ký hiệu hay tính sau: Trong đó: - : đếm số giao dịch có chứa : Tổng số giao dịch Độ hỗ trợ tập mục có giá trị 1, tức 0≤supp(X)≤1 với tập mục X Tập mục phổ biến (frequent itemset) Tập mục X mà thoả mãn điều kiện supp(X) ≥ minsup (với minsup giá trị cho trước) gọi tập mục phổ biến với độ hỗ trợ cực tiểu minsup 4 Một số tính chất tập mục phổ biến i) ≤ supp( X ) ≤ (Độ hỗ trợ tập mục có giá trị nằm đoạn từ không đến một) ii) Giả sử X, Y tập mục X⊆Y supp(X) ≥ supp(Y) tất giao tác D chứa Y chứa X iii) Tập tập mục phổ biến tập mục phổ biến: tập mục B tập mục phổ biến D, nghĩa supp(B) ≥ minsup tập A B tập mục phổ biến D giao tác D chứa B chắn chứa A iv) Bao hàm tập mục không phổ biến tập mục không phổ biến: Nếu tập B không thỏa mãn độ hỗ trợ tối thiểu D, nghĩa supp(B)