Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị

27 186 0
Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành LỜI CẢM ƠN Trƣớc hết, xin bày tỏ lòng biết ơn tới thầy cô giáo trƣờng Đại học Công nghệ thông tin & truyền thông tận tâm giảng dạy, cung cấp cho kiến thức, phƣơng pháp nghiên cứu khoá học vừa qua Đặc biệt xin đƣợc bày tỏ biết ơn sâu sắc đến thầy giáo hƣớng dẫn PGS.TS Đoàn Văn Ban, ngƣời tận tình hƣớng dẫn, giúp đỡ động viên để thực luận văn Xin cảm ơn Ban giám hiệu trƣờng Đại học Công nghệ thông tin & truyền thông, gia đình bạn đồng nghiệp tạo điều kiện giúp đỡ thời gian vừa qua Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành LỜI CAM ĐOAN Tôi xin cam đoan toàn nội dung luận văn theo nội dung đề cƣơng nhƣ nội dung mà cán hƣớng dẫn giao cho Nội dung luận văn tự sƣu tầm, tra cứu xếp cho phù hợp với nội dung yêu cầu đề tài Nội dung luận văn chƣa đƣợc công bố hay xuất dƣới hình thức không đƣợc chép từ công trình nghiên cứu Tất phần mã nguồn chƣơng trình tự thiết kế xây dựng, có sử dụng số thƣ viện chuẩn thuật toán đƣợc tác giả xuất công khai miễn phí mạng Internet Nếu sai xin xin hoàn toàn chịu trách nhiệm Thái Nguyên, tháng 10 năm 2011 TÁC GIẢ LUẬN VĂN Bùi Thị Trung Thành Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT v DANH MỤC CÁC HÌNH VẼ vi DANH MỤC CÁC BẢNG vii PHẦN MỞ ĐẦU CHƢƠNG KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU 1.1 KHO DỮ LIỆU 1.1.1 Các chiến lƣợc xử lý khai thác thông tin 1.1.2 Định nghĩa kho liệu 1.1.3 Mục đích kho liệu 1.1.4 Đặc tính liệu kho liệu 1.2 Khai phá kho liệu 1.2.1 Định nghĩa khai phá liệu 1.2.2 Các ứng dụng khai phá liệu 10 1.2.3 Các bƣớc trình khai phá liệu 11 1.2.4 Các phƣơng pháp khai phá liệu 12 1.2.5 Lựa chọn phƣơng pháp 17 1.2.6 Thách thức ứng dụng nghiên cứu kỹ thuật khai phá liệu 18 CHƢƠNG KHAI PHÁ LUẬT KẾT HỢP 23 2.1 Vài nét khai phá luật kết hợp 23 2.2 Luật kết hợp 24 2.2.1 Mô hình hình thức 24 2.2.2 Một số hƣớng tiếp cận khai phá luật kết hợp 26 2.2.3 Phát biểu toán phát luật kết hợp 28 2.2.4 Phát luật kết hợp dựa hệ thông tin nhị phân 30 2.3 Thuật toán AprioriTID 38 2.4 Thuật toán AprioriHybrid 41 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành 2.5 Thuật toán K-Nearest Neighbors 42 2.6 Thuật toán K-Means 43 2.7 Kết luận cuối chƣơng 46 CHƢƠNG CHƢƠNG TRÌNH THỰC NGHIỆM 48 3.1 Giới thiệu toán 48 3.2 Tóm tắt phân tích thiết kế hệ thống 48 3.3 CSDL vật lý với MS SQL Server 2008 49 3.4 CSDL chƣơng trình 50 3.5 Một số chức giao diện 50 KẾT LUẬN 54 Kết đạt đƣợc luận văn 54 Hƣớng nghiên cứu 54 TÀI LIỆU THAM KHẢO 55 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Ký hiệu, chữ viết tắt Candidate itemset Ý nghĩa Một itemset tập Ck đƣợc sử dụng để sinh large itemset Ck Tập candidate k-itemset giai đoạn thứ k Confidence Độ tin cậy luật kết hợp CSDL Cơ sở liệu DM Data mining – Khai phá liệu Frequent/large itemset Một itemset có độ hỗ trợ (support) >= ngƣỡng độ hỗ trợ tối thiểu ID Identifier Item Một phần tử itemset Itemset Tập item k-itemset Một itemset có độ dài k Lk Tập Large itemset giai đoạn thứ k TID Transaction Identifier Transaction Giao dịch Classification Phân loại Candidate Dự tuyển Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành DANH MỤC CÁC HÌNH VẼ Ý NGHĨA STT TRANG Hình 1.1 Luồng liệu tổ chức Hình 1.2 Mối quan hệ cách nhìn nhận hệ thống Hình 1.3 Quy trình phát tri thức 11 Hình 2.1 Thiết lập để xác định danh giới cụm ban đầu 43 Hình 2.2 Tính toán tâm cụm 43 Hình 3.1 Mô hình quan hệ thực thể đƣợc lƣợc bỏ & tóm gọn 48 Hình 3.2 Cơ sở sữ liệu vật lý 48 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vii Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành DANH MỤC CÁC BẢNG Bảng Ý nghĩa Trang 1.1 Tính thời gian liệu 2.1 Minh hoạ toán phát luật kết hợp 30 2.2 Hệ thống thông tin nhị phân mua bán hàng hoá 34 2.3 Các luật kết hợp từ hệ thông tin nhị phân mua bán hàng hoá 37 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành PHẦN MỞ ĐẦU Lý chọn đề tài Trong năm gần đây, với phát triển công nghệ thông tin thấy thực tế ngƣời có tay lƣợng liệu lớn nhƣng với kỹ thuật khai thác cũ không phù hợp nhƣờng chỗ cho kỹ thuật nhƣ khai phá liệu.Khai phá liệu trở thành lĩnh vực đƣợc nhà khoa học quan tâm nghiên cứu tính ứng dụng cao thực tiễn sống Đối tượng nghiên cứu: Nghiên cứu vấn đề phát luật kết hợp trình khai phá liệu: Lịch sử vấn đề, luật kết hợp khai phá liệu số thuật toán đƣợc nghiên cứu Phạm vi nghiên cứu: Luận văn tập trung nghiên cứu thuật toán phát luật kết hợp kho liệu khả ứng dụng chúng để phát tri thức Nội dung luận văn: Nếu nhƣ lĩnh vực phân lớp/phân cụm liệu đƣợc nghiên cứu ứng dụng lâu vấn đề khai phá luật kết hợp gần đƣợc đề cập Hiện việc phát luật kết hợp trở thành khuynh hƣớng quan trọng khai phá liệu Luật kết hợp luật ngầm định số quan hệ kết hợp tập đối tƣợng mà đối tƣợng độc lập hoàn toàn với Khai phá luật kết hợp nội dung quan trọng khai phá liệu Để nghiên cứu sâu khai phá luật kết hợp, đặc biệt khả áp dụng số thuật toán phát luật kết hợp CSDL lớn cài đặt thử nghiệm thực tế, chọn đề tài: “Khai phá liệu phát luật kết hợp Cơ sở liệu siêu thị ” Luận văn bao gồm ba chƣơng: Chƣơng 1: Kho liệu khai phá liệu Trình bày kiến thức tổng quan khai thác xử lý thông tin: - Định nghĩa kho liệu, khai phá liệu - Các phƣơng pháp khai phá liệu phổ biến ứng dụng chúng Chƣơng 2: Khai phá luật kêt hợp Trình bày toán khai phá liệu, phát luật kết hợp: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành - Khái niệm luật kết hợp phƣơng pháp khai phá luật kết hợp - Khai phá luật kết hợp dựa phân chia không gian tìm kiếm - Một số thuật toán khai phá liệu phát luật kết hợp nhƣ: AprioriTID, AprioriHyrid, K-Nearest Neighbors(K- láng giềng),K-Means Chƣơng 3: Chƣơng trình thử nghiệm Nội dung chƣơng trình bày kết xây dựng chƣơng trình kết chạy chƣơng trình thử nghiệm khai phá luật kết hợp CSDL thử nghiệm file liệu bán hàng siêu thị sách Phương pháp nghiên cứu: Tìm, chọn lọc đọc tài liệu liệu quan kho liệu, phát luật kết hợp phƣơng pháp khai phá liệu có liên quan đến trình khai phá liệu từ kho thông tin khổng lồ tác giả nƣớc hay nƣớc nghiên cứu Từ rút đƣợc kiến thức cần thiết để hoàn thành nhiệm vụ nghiên cứu đặt Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành CHƢƠNG KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU 1.1 KHO DỮ LIỆU 1.1.1 Các chiến lƣợc xử lý khai thác thông tin Trong năm gần đây, với phát triển công nghệ thông tin thấy thực tế ngƣời có tay lƣợng liệu lớn nhƣng với kỹ thuật khai thác cũ nhƣ SQL không phù hợp nhƣờng chỗ cho kỹ thuật nhƣ khai phá liệu Khai phá liệu trở thành lĩnh vực đƣợc nhà khoa học quan tâm nghiên cứu tính ứng dụng cao thực tiễn sống Khai phá liệu đƣợc ứng dụng rộng rãi nhiều lĩnh vực nhƣ: Tài thị trƣờng chứng khoán, Thƣơng mại, Giáo dục, y tế, sinh học, bƣu viễn thông….với nhiều hƣớng tiếp cận nhƣ: Phân lớp/ Dự đoán, Phân cụm, Luật kết hợp,… Các kỹ thuật khai phá liệu thƣờng đƣợc chia thành nhóm chính: - Kỹ thuật khai pha liệu mô tả: có nhiệm vụ mô tả tính chất đặc tính chung liệu CSDL có - Kỹ thuật khai phá liệu dự đoán: có nhiệm vụ đƣa dự đoán dựa vào suy diễn liệu thời Ba phƣơng pháp thông dụng là: khai phá luật kết hợp, phân cụm liệu phân lớp liệu - Khai phá luật kết hợp: mục tiêu phƣơng pháp phát đƣa mối liên hệ giá trị liệu CSDL Mẫu đầu giải thuật khai phá liệu tập luật kết hợp tìm đƣợc - Phân cụm liệu: Mục tiêu phƣơng pháp phân cụm liệu nhóm đối tƣợng tƣơng tự tập liệu vào cụm cho đối tƣợng thuộc lớp tƣơng đống đối tƣợng thuộc cụm khác tƣơng đồng - Phân lớp liệu hồi quy: Mục tiêu phƣơng pháp phân lớp liệu dự đoán nhãn lớp cho mẫu liệu Giải pháp cho tất vấn đề nêu việc xây dựng kho liệu (Data Warehouse) phát triển khuynh hƣớng kỹ thuật kỹ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read ... http://www.lrc-tnu.edu.vn Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành - Khái niệm luật kết hợp phƣơng pháp khai phá luật kết hợp - Khai phá luật kết hợp dựa phân chia không... tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành CHƢƠNG KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU 1.1 KHO DỮ LIỆU 1.1.1... trọng khai phá liệu Để nghiên cứu sâu khai phá luật kết hợp, đặc biệt khả áp dụng số thuật toán phát luật kết hợp CSDL lớn cài đặt thử nghiệm thực tế, chọn đề tài: Khai phá liệu phát luật kết hợp

Ngày đăng: 15/04/2017, 21:35

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan