Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
320,34 KB
Nội dung
i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN VĂN TƢ KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái nguyên, năm 2011 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN VĂN TƢ KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU VÀ ỨNG DỤNG CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC TS NGUYỄN HUY ĐỨC Thái nguyên, năm 2011 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i LỜI CAM ĐOAN Tôi xin cam đoan toàn nội dung Luận văn đƣợc thực theo đề cƣơng đƣợc hội đồng khoa học trƣờng Đại học Thái nguyênkhoa Công nghệ thông tin phê duyệt, nội dung thực đề cƣơng đƣợc cán hƣớng dẫn giao cho kiểm soát Nội dung luận văn, phần trích lục tài liệu hoàn toàn xác Nếu có sai sót hoàn toàn chịu trách nhiệm Tác giả luận văn Nguyễn Văn Tư Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii LỜI CẢM ƠN Tôi xin chân thành cảm ơn thầy cô Trƣờng Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên, Thầy cô Viện công nghệ thông tin – Viện Khoa học Công nghệ Việt Nam, anh chị lớp Cao học K8 - khóa 2009-2011 giúp đỡ trình nghiên cứu thực luận văn Tôi xin trân trọng cảm ơn TS Nguyễn Huy Đức – Khoa Thông tin Máy tính, Trƣờng Cao đẳng Sƣ phạm Trung ƣơng, ngƣời thầy trực tiếp hƣớng dẫn, đƣa ý tƣởng, định hƣớng, đóng góp ý kiến chuyên môn tận tình giúp đỡ suốt trình nghiên cứu thực luận văn thạc sĩ ngành khoa học máy tính Tôi xin cảm ơn bạn bè đồng nghiệp gia đình giúp đỡ, đóng góp ý kiến động viên suốt qua trình học, trình nghiên cứu hoàn thành luận văn Tác giả Nguyễn Văn Tƣ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii MỤC LỤC Trang Lời cam đoan……………………………………………………….…….………………i Lời cảm ơn… …………………………………………….…………….……………….ii Mục lục…………………… …………………………………….….…………… ……iii DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT .v DANH MỤC CÁC BẢNG BIỂU vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vii MỞ ĐẦU .1 Chƣơng 1: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU 1.1 Quá trình phát tri thức từ sở liệu 1.2 Kiến trúc hệ thống khai phá liệu 1.3 Quá trình khai phá liệu 1.4 Nhiệm vụ khai phá liệu 10 1.5 Các phƣơng pháp khai phá liệu 11 1.5.1 Phƣơng pháp luật kết hợp 12 1.5.2 Phƣơng pháp định 12 1.5.4 Các phƣơng pháp dựa mẫu 14 1.6 Các ứng dụng khai phá liệu 15 Kết luận chƣơng 1: 16 Chƣơng 2: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU 17 2.1 Bài toán mở đầu 17 2.2 Các khái niệm sở 18 2.2.1.Cơ sở liệu giao tác 19 2.2.2 Biểu diễn sở liệu giao tác 19 2.2.3 Tập mục thƣờng xuyên 21 2.2.4 Luật kết hợp 22 2.2.5 Độ hỗ trợ độ tin cậy luật kết hợp 22 2.3 Khai phá luật kết hợp 24 2.4 Các cách tiếp cận khai phá tập mục thƣờng xuyên 26 2.5 Các thuật toán điển hình khai phá tập mục thƣờng xuyên 27 2.5.1 Thuật toán Apriori 28 2.5.2.Thuật toán FP_growth 33 2.6 Thuật toán sinh luật kết hợp: 41 2.7 Một số mở rộng khai phá luật kết hợp sở liệu 44 Kết luận chƣơng 2: 46 Chƣơng 3: KHAI PHÁ LUẬT KẾT HỢP CÓ TRỌNG SỐ 47 3.1 Một số khái niệm luật kết hợp có trọng số 47 3.2 Khai phá luật kết hợp trọng số không chuẩn hóa 49 3.3 Khai phá luật kết hợp trọng số chuẩn hóa 52 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv 3.3.1 Một số khái niệm trọng số chuẩn hóa 52 3.3.2 Thuật toán khai phá luật kết hợp trọng số chuẩn hóa (MINVAL(W)) 54 Kết luận chƣơng 3: 56 Chƣơng 4: THỰC NGHIỆM KHAI PHÁ LUẬT KẾT HỢP 57 4.1 Giới thiệu toán 57 4.2 Dữ liệu thực nghiệm 58 4.3 Xây dựng chƣơng trình 60 4.4 Thực nghiệm khai phá 61 4.5 Kết thực nghiệm 63 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 63 Những kết đạt đƣợc 63 Hƣớng phát triển đề tài là: 64 TÀI LIỆU THAM KHẢO 65 PHỤ LỤC 67 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Ký hiệu Diễn giải KPDL Khai phá liệu CSDL Cơ sở liệu DB Cơ sở liệu giao tác TID Định danh giao tác I Tập mục liệu T Giao tác (transaction) Ck Tập ứng viên tập mục có k mục liệu Lk Tập tập mục thƣờng xuyên có k mục liệu k-itemset Tập mục gồm k mục BFS Breadth First Search DFS Depth First Search FP-growth Frequent-Pattern Growth FP-tree Frequent pattern tree Sup Độ hỗ trợ (support) Minsup Ngƣỡng hỗ trợ tối thiểu SC(X) Số lƣợng giao dịch chứa tập mục X SRC Kỹ thuật lấy mẫu ngẫu nhiên Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi DANH MỤC CÁC BẢNG BIỂU Bảng 2.1: Danh mục tập mục CSDL 19 Bảng 2.2: Biểu diễn ngang CSDL giao tác 20 Bảng 2.3: Biểu diễn dọc CSDL giao tác 20 Bảng 2.4: Ma trận giao tác CSDL bảng 2.2 21 Bảng 2.5: Cơ sở liệu DB 24 Bảng 2.6: Độ hỗ trợ mục 25 Bảng 2.7: Độ hỗ trợ tập mục 25 Bảng 2.8: Độ tin cậy luật 26 Bảng 2.9: CSDL giao tác minh hoạ cho thuật toán Apriori 31 Bảng 2.10: CSDL giao tác minh hoạ cho thuật toán FP- growth 34 Bảng 3.1.a Tập giao tác DB 48 Bảng 3.1.b Thông tin cửa hàng 48 Bảng 4.1: Dữ liệu trích chọn để khai phá 58 Bảng 4.2: Mã hóa mặt hàng 59 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Quá trình khám phá tri thức Hình 1.2 Kiến trúc hệ thống khai phá liệu Hình 1.3: Quá trình khai phá liệu Hình 1.4: Mẫu kết với phƣơng pháp định 12 Hình 1.5: Phân cụm đối tƣợng k-Mean ( + tâm cụm) 13 Hình 2.1: Phân loại các thuật toán khai phá tập mục thƣờng xuyên 27 Hình 2.2: Cây FP-tree đƣợc xây dựng dần thêm giao tác t1, t2, t3 35 Hình 2.3: Cây FP-tree CSDL DB bảng 2.10 36 Hình 2.4: FP-tree phụ thuộc m 39 Hình 2.5 : Các FP-tree phụ thuộc am, cm cam 39 Hình 4.1: Dữ liệu mã hóa chuẩn bị cho khai phá 60 Hình 4.2: Giao diện chƣơng trình 61 Hình 4.3: Giao diện kết khai phá tập mục thƣờng xuyên 62 Hình 4.4: Giao diện kết khai phá luật kết hợp 62 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Trong năm qua, việc nắm bắt, xử lý đƣợc thông tin đƣợc coi sở hoạt động đời sống xã hội, đặc biệt sản xuất, kinh doanh Những thông tin tiềm ẩn mang tính dự đoán khối liệu lớn Mỗi cá nhân tổ chức thu thập hiểu đƣợc thông tin, hành động dựa thông tin đƣợc kết xuất từ thông tin có đạt đƣợc thành công hoạt động Chính lý đó, việc tạo thông tin, tổ chức lƣu trữ khai phá ngày trở nên quan trọng gia tăng không ngừng Sự tăng trƣởng vƣợt bậc sở liệu (CSDL) sống nhƣ: thƣơng mại, quản lý khoa học …đã làm nảy sinh thúc đẩy phát triển kỹ thuật thu thập, lƣu trữ, phân tích khai phá liệu không phép toán đơn giản thông thƣờng nhƣ: phép đếm, thống kê mà đòi hỏi cách xử lý thông minh hơn, hiệu Từ nhà quản lý có đƣợc thông tin có ích để tác động lại trình sản xuất, kinh doanh tri thức Các kỹ thuật cho phép ta khai phá đƣợc tri thức hữu dụng từ CSDL (lớn) đƣợc gọi kỹ thuật khai phá liệu (DM – Data Mining) Khai phá luật kết hợp nội dung quan trọng khai phá liệu Một nội dung khai phá liệu thƣờng xuyên phát luật kết hợp kho sở liệu khổng lồ, nhằm tìm tập mục thƣờng xuyên thƣờng xuất đồng thời sở liệu rút luật ảnh hƣởng tập mục thƣờng xuyên dẫn đến xuất (hay tập) mục thƣờng xuyên khác nhƣ nào, khai phá luật kết hợp kho sở liệu có ý nghĩa quan trọng, có lợi ích to lớn việc tổng hợp cung cấp thông tin cần thiết nguồn sở liệu lớn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read ... luật kết hợp sở liệu 44 Kết luận chƣơng 2: 46 Chƣơng 3: KHAI PHÁ LUẬT KẾT HỢP CÓ TRỌNG SỐ 47 3.1 Một số khái niệm luật kết hợp có trọng số 47 3.2 Khai phá luật kết hợp trọng... phép ta khai phá đƣợc tri thức hữu dụng từ CSDL (lớn) đƣợc gọi kỹ thuật khai phá liệu (DM – Data Mining) Khai phá luật kết hợp nội dung quan trọng khai phá liệu Một nội dung khai phá liệu thƣờng... Chƣơng 2: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU 17 2.1 Bài toán mở đầu 17 2.2 Các khái niệm sở 18 2.2.1 .Cơ sở liệu giao tác 19 2.2.2 Biểu diễn sở liệu giao