Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị

62 14 0
Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành LỜI CẢM ƠN Trƣớc hết, xin bày tỏ lịng biết ơn tới thầy giáo trƣờng Đại học Công nghệ thông tin & truyền thông tận tâm giảng dạy, cung cấp cho kiến thức, phƣơng pháp nghiên cứu khoá học vừa qua Đặc biệt xin đƣợc bày tỏ biết ơn sâu sắc đến thầy giáo hƣớng dẫn PGS.TS Đoàn Văn Ban, ngƣời tận tình hƣớng dẫn, giúp đỡ động viên để thực luận văn Xin cảm ơn Ban giám hiệu trƣờng Đại học Công nghệ thơng tin & truyền thơng, gia đình bạn đồng nghiệp tạo điều kiện giúp đỡ thời gian vừa qua Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành LỜI CAM ĐOAN Tơi xin cam đoan tồn nội dung luận văn theo nội dung đề cƣơng nhƣ nội dung mà cán hƣớng dẫn giao cho Nội dung luận văn tự sƣu tầm, tra cứu xếp cho phù hợp với nội dung yêu cầu đề tài Nội dung luận văn chƣa đƣợc công bố hay xuất dƣới hình thức khơng đƣợc chép từ cơng trình nghiên cứu Tất phần mã nguồn chƣơng trình tơi tự thiết kế xây dựng, có sử dụng số thƣ viện chuẩn thuật toán đƣợc tác giả xuất cơng khai miễn phí mạng Internet Nếu sai tơi xin tơi xin hồn tồn chịu trách nhiệm Thái Nguyên, tháng 10 năm 2011 TÁC GIẢ LUẬN VĂN Bùi Thị Trung Thành Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT v DANH MỤC CÁC HÌNH VẼ vi DANH MỤC CÁC BẢNG vii PHẦN MỞ ĐẦU CHƢƠNG KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU 1.1 KHO DỮ LIỆU 1.1.1 Các chiến lƣợc xử lý khai thác thông tin 1.1.2 Định nghĩa kho liệu 1.1.3 Mục đích kho liệu 1.1.4 Đặc tính liệu kho liệu 1.2 Khai phá kho liệu 1.2.1 Định nghĩa khai phá liệu 1.2.2 Các ứng dụng khai phá liệu 10 1.2.3 Các bƣớc trình khai phá liệu 11 1.2.4 Các phƣơng pháp khai phá liệu 12 1.2.5 Lựa chọn phƣơng pháp 17 1.2.6 Thách thức ứng dụng nghiên cứu kỹ thuật khai phá liệu 18 CHƢƠNG KHAI PHÁ LUẬT KẾT HỢP 23 2.1 Vài nét khai phá luật kết hợp 23 2.2 Luật kết hợp 24 2.2.1 Mơ hình hình thức 24 2.2.2 Một số hƣớng tiếp cận khai phá luật kết hợp 26 2.2.3 Phát biểu toán phát luật kết hợp 28 2.2.4 Phát luật kết hợp dựa hệ thông tin nhị phân 30 2.3 Thuật toán AprioriTID 38 2.4 Thuật toán AprioriHybrid 41 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành 2.5 Thuật toán K-Nearest Neighbors 42 2.6 Thuật toán K-Means 43 2.7 Kết luận cuối chƣơng 46 CHƢƠNG CHƢƠNG TRÌNH THỰC NGHIỆM 48 3.1 Giới thiệu toán 48 3.2 Tóm tắt phân tích thiết kế hệ thống 48 3.3 CSDL vật lý với MS SQL Server 2008 49 3.4 CSDL chƣơng trình 50 3.5 Một số chức giao diện 50 KẾT LUẬN 54 Kết đạt đƣợc luận văn 54 Hƣớng nghiên cứu 54 TÀI LIỆU THAM KHẢO 55 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Ký hiệu, chữ viết tắt Candidate itemset Ý nghĩa Một itemset tập Ck đƣợc sử dụng để sinh large itemset Ck Tập candidate k-itemset giai đoạn thứ k Confidence Độ tin cậy luật kết hợp CSDL Cơ sở liệu DM Data mining – Khai phá liệu Frequent/large itemset Một itemset có độ hỗ trợ (support) >= ngƣỡng độ hỗ trợ tối thiểu ID Identifier Item Một phần tử itemset Itemset Tập item k-itemset Một itemset có độ dài k Lk Tập Large itemset giai đoạn thứ k TID Transaction Identifier Transaction Giao dịch Classification Phân loại Candidate Dự tuyển Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành DANH MỤC CÁC HÌNH VẼ Ý NGHĨA STT TRANG Hình 1.1 Luồng liệu tổ chức Hình 1.2 Mối quan hệ cách nhìn nhận hệ thống Hình 1.3 Quy trình phát tri thức 11 Hình 2.1 Thiết lập để xác định danh giới cụm ban đầu 43 Hình 2.2 Tính tốn tâm cụm 43 Hình 3.1 Mơ hình quan hệ thực thể đƣợc lƣợc bỏ & tóm gọn 48 Hình 3.2 Cơ sở sữ liệu vật lý 48 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vii Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành DANH MỤC CÁC BẢNG Bảng Ý nghĩa Trang 1.1 Tính thời gian liệu 2.1 Minh hoạ toán phát luật kết hợp 30 2.2 Hệ thống thông tin nhị phân mua bán hàng hố 34 2.3 Các luật kết hợp từ hệ thơng tin nhị phân mua bán hàng hố 37 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành PHẦN MỞ ĐẦU Lý chọn đề tài Trong năm gần đây, với phát triển công nghệ thông tin thấy thực tế ngƣời có tay lƣợng liệu lớn nhƣng với kỹ thuật khai thác cũ khơng cịn phù hợp nhƣờng chỗ cho kỹ thuật nhƣ khai phá liệu.Khai phá liệu trở thành lĩnh vực đƣợc nhà khoa học quan tâm nghiên cứu tính ứng dụng cao thực tiễn sống Đối tượng nghiên cứu: Nghiên cứu vấn đề phát luật kết hợp trình khai phá liệu: Lịch sử vấn đề, luật kết hợp khai phá liệu số thuật toán đƣợc nghiên cứu Phạm vi nghiên cứu: Luận văn tập trung nghiên cứu thuật toán phát luật kết hợp kho liệu khả ứng dụng chúng để phát tri thức Nội dung luận văn: Nếu nhƣ lĩnh vực phân lớp/phân cụm liệu đƣợc nghiên cứu ứng dụng lâu vấn đề khai phá luật kết hợp gần đƣợc đề cập Hiện việc phát luật kết hợp trở thành khuynh hƣớng quan trọng khai phá liệu Luật kết hợp luật ngầm định số quan hệ kết hợp tập đối tƣợng mà đối tƣợng độc lập hồn tồn với Khai phá luật kết hợp nội dung quan trọng khai phá liệu Để nghiên cứu sâu khai phá luật kết hợp, đặc biệt khả áp dụng số thuật toán phát luật kết hợp CSDL lớn cài đặt thử nghiệm thực tế, chọn đề tài: “Khai phá liệu phát luật kết hợp Cơ sở liệu siêu thị ” Luận văn bao gồm ba chƣơng: Chƣơng 1: Kho liệu khai phá liệu Trình bày kiến thức tổng quan khai thác xử lý thông tin: - Định nghĩa kho liệu, khai phá liệu - Các phƣơng pháp khai phá liệu phổ biến ứng dụng chúng Chƣơng 2: Khai phá luật kêt hợp Trình bày toán khai phá liệu, phát luật kết hợp: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành - Khái niệm luật kết hợp phƣơng pháp khai phá luật kết hợp - Khai phá luật kết hợp dựa phân chia khơng gian tìm kiếm - Một số thuật toán khai phá liệu phát luật kết hợp nhƣ: AprioriTID, AprioriHyrid, K-Nearest Neighbors(K- láng giềng),K-Means Chƣơng 3: Chƣơng trình thử nghiệm Nội dung chƣơng trình bày kết xây dựng chƣơng trình kết chạy chƣơng trình thử nghiệm khai phá luật kết hợp CSDL thử nghiệm file liệu bán hàng siêu thị sách Phương pháp nghiên cứu: Tìm, chọn lọc đọc tài liệu liệu quan kho liệu, phát luật kết hợp phƣơng pháp khai phá liệu có liên quan đến trình khai phá liệu từ kho thông tin khổng lồ tác giả nƣớc hay nƣớc nghiên cứu Từ rút đƣợc kiến thức cần thiết để hoàn thành nhiệm vụ nghiên cứu đặt Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành CHƢƠNG KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU 1.1 KHO DỮ LIỆU 1.1.1 Các chiến lƣợc xử lý khai thác thông tin Trong năm gần đây, với phát triển công nghệ thông tin thấy thực tế ngƣời có tay lƣợng liệu lớn nhƣng với kỹ thuật khai thác cũ nhƣ SQL khơng cịn phù hợp nhƣờng chỗ cho kỹ thuật nhƣ khai phá liệu Khai phá liệu trở thành lĩnh vực đƣợc nhà khoa học quan tâm nghiên cứu tính ứng dụng cao thực tiễn sống Khai phá liệu đƣợc ứng dụng rộng rãi nhiều lĩnh vực nhƣ: Tài thị trƣờng chứng khốn, Thƣơng mại, Giáo dục, y tế, sinh học, bƣu viễn thơng….với nhiều hƣớng tiếp cận nhƣ: Phân lớp/ Dự đoán, Phân cụm, Luật kết hợp,… Các kỹ thuật khai phá liệu thƣờng đƣợc chia thành nhóm chính: - Kỹ thuật khai pha liệu mơ tả: có nhiệm vụ mơ tả tính chất đặc tính chung liệu CSDL có - Kỹ thuật khai phá liệu dự đốn: có nhiệm vụ đƣa dự đoán dựa vào suy diễn liệu thời Ba phƣơng pháp thông dụng là: khai phá luật kết hợp, phân cụm liệu phân lớp liệu - Khai phá luật kết hợp: mục tiêu phƣơng pháp phát đƣa mối liên hệ giá trị liệu CSDL Mẫu đầu giải thuật khai phá liệu tập luật kết hợp tìm đƣợc - Phân cụm liệu: Mục tiêu phƣơng pháp phân cụm liệu nhóm đối tƣợng tƣơng tự tập liệu vào cụm cho đối tƣợng thuộc lớp tƣơng đống đối tƣợng thuộc cụm khác tƣơng đồng - Phân lớp liệu hồi quy: Mục tiêu phƣơng pháp phân lớp liệu dự đoán nhãn lớp cho mẫu liệu Giải pháp cho tất vấn đề nêu việc xây dựng kho liệu (Data Warehouse) phát triển khuynh hƣớng kỹ thuật kỹ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành 41 3 C3 ItemSet Support {2 5} TID L3 X (Set-of- ItemSet itemsets) 200 {{2 }} 300 {{2 5}} {2 } Support 2.3.3 Nhận xét Với k=1, số phần tử 1 số giao tác CSDL; tập X (ứng phần tử 1) có số lƣợng thành viên số item giao tác tƣơng ứng CSDL Với k nhỏ (k>1), số lƣợng phần tử k nhỏ không đáng kể so với số giao tác CSDL; tập X (ứng phần tử k) có số lƣợng thành viên lớn số item giao tác tƣơng ứng CSDL số phần tử Ck nhiều k nhỏ khả ứng viên tập Ck có giao tác lớn (trong ví dụ tập X giao tác có TID 300 có số thành viên kho CSDL có item) Với k lớn, số lƣợng phần tử k nhỏ so với số giao tác CSDL; tập X (ứng phần tử k) có số lƣợng thành viên nhỏ số item giao tác tƣơng ứng CSDL số phần tử Ck khơng nhiều k lớn khả ứng viên tập Ck có giao tác nhỏ 2.4 Thuật toán AprioriHybrid Kết chạy thực nghiệm R Agrawal cho thấy với k nhỏ, thuật toán Apriori chạy nhanh thuật toán AprioriTID; ngƣợc lại với k lớn, thuật toán AprioriTID chạy nhanh Khi k nhỏ, số lƣợng phần tử k khơng số giao tác CSDL nên việc tính độ ủng hộ dựa k khơng nhanh so với dựa CSDL; ngồi ra, phần tử k có tập X lớn nên thời gian để tính tốn k, tập k chiếm nhớ lớn nên vƣợt khả lƣu trữ nhớ máy tính phải sử dụng đến nhớ nên thêm thời Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành 42 gian đọc ghi đĩa Do đó, thuật tốn AprioriTID chạy chậm k nhỏ Khi k lớn, số lƣợng phần tử k nhỏ số giao tác CSDL nên viêc tính độ ủng hộ dựa k nhanh so với dựa CSDL; tập k nhỏ lại, không cần sử dụng đến nhớ ngồi Do đó, thuật toán AprioriTID chạy nhanh k lớn Thuật toán AprioriHyrid thuật toán lai thuật toán Apriori AprioriTID; nghĩa ban đầu sử dụng thuật tóan Apriori, k nhỏ vừa đủ nhớ số phần tử tập ứng viên Ck nhỏ Ck-1 chuyển sang sử dụng thuật toán AprioriTID Điều kiện thứ hai để tránh tƣợng k đủ vộ nhớn nhƣng k+1 khơng đủ nhớ Kích thƣớc k đƣợc ƣớc lƣợng công thức candidatescCksuport(c)+ số giao tác 2.5 Thuật toán K-Nearest Neighbors 2.5.1 Giới thiệu K-Nearest Neighbors algorithm (K-NN) đƣợc sử dụng phổ biến lĩnh vực Data Mining K-NN phƣơng pháp để phân lớp đối tƣợng dựa vào khoảng cách gần đối tƣợng cần xếp lớp (Query point) tất đối tƣợng Training Data Một đối tƣợng đƣợc phân lớp dựa vào K láng giềng K số nguyên dƣơng đƣợc xác định trƣớc thực thuật toán Ngƣời ta thƣờng dùng khoảng cách Euclidean để tính khoảng cách đối tƣợng 2.5.2 Thuật tốn K-NN Xác định giá trị tham số K (số láng giềng gần nhất) Tính khoảng cách đối tƣợng cần phân lớp (Query Point) với tất đối tƣợng training data (thƣờng sử dụng khoảng Euclidean) Sắp xếp khoảng cách theo thứ tự tăng dần xác định K láng giềng gần với Query Point Lấy tất lớp K láng giềng gần xác định Dựa vào phần lớn lớp láng giềng gần để xác định lớp cho Query Point Để hiểu K-NN đƣợc dùng để phân lớp ta xem minh họa dƣới Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành 43 Trong hình dƣới đây, training Data đƣợc mô tả dấu (+) dấu (-), đối tƣợng cần đƣợc xác định lớp cho (Query point) hình trịn đỏ Nhiệm vụ ƣớc lƣợng (hay dự đoán) lớp Query point dựa vào việc lựa chọn số láng giềng gần với Query Point đƣợc phân vào lớp (+) hay lớp (-) Ta thấy rằng: 1-Nearest neighbor : Kết + (Query Point đƣợc xếp vào lớp dấu +) 2-Nearest neighbors : không xác định lớp cho Query Point số láng giềng gần với lớp + lớp – (khơng có lớp có số đối tƣợng nhiều lớp kia) 5-Nearest neighbors : Kết - (Query Point đƣợc xếp vào lớp dấu – láng giềng gần với có đối tƣợng thuộc lớp - nhiều lớp + có đối tƣợng) 2.6 Thuật tốn K-Means 2.6.1 Ý tƣởng : dựa độ đo khoảng cách đối tƣợng liệu cụm Thực tế, đo khoảng cách tới giá trị trung bình đối tƣợng liệu cụm Nó đƣợc xem nhƣ trung tâm cụm Nhƣ vậy, khởi tạo tập trung tâm cụm trung tâm ban đầu thơng qua lặp lại bƣớc gồm gán đối tƣợng tới cụm mà trung tâm gần tính tốn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành 44 trung tâm cụm sở gán cho đối tƣợng Quá trình lặp dừng trung tâm hội tụ Hình 2.1: Thiết lập để xác định danh giới cụm ban đầu Mục đích: sinh k cụm liệu {C1,C2…, Ck} từ tập liệu ban đầu gồm n đối tƣợng không gian d chiều Xi = (xi1,xi2, …, xid) )(i=1 n), cho hàm tiêu k chuẩn: E    xC D ( x  mi ) đạt giá trị tối thiểu i i1 Với mi trọng tâm cụm C i, D khoảng cách hai đối Hình 2.2: Tính tốn trọng tâm cụm 2.6.2 Thuật toán Thuật toán phân hoạch K-means MacQeen đề xuất lĩnh vực thống kê năm 1967, mục đích thuật tốn k-means sinh k cụm liệu {C1, C2, …,Ck} từ tập liệu chứa n đối tƣợng không gian d chiều X i = (xi1, xi2, …, xid) k ( i  1, n ), cho hàm tiêu chuẩn : E    xC D2 ( x  mi ) i i1 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên (2.1) http://www.lrc-tnu.edu.vn Khai phá liệu phát luật kết hợp sở liệu siêu thị - Bùi Thị Trung Thành 45 đạt giá trị tối thiểu Trong : mi trọng tâm cụm Ci, D khoảng cách hai đối tƣợng ( khoảng cách Euclide) Trọng tâm cụm véc tơ, giá trị phần tử trung bình cộng thành phần tƣơng ứng đối tƣợng vectơ liệu cụm xét Tham số đầu vào thuật toán số cụm k, tham số đầu thuật toán trọng tâm cụm liệu Kmeans bao gồm bƣớc nhƣ sau: Input : Số cụm k trọng tâm cụm {mj}kj=1 ;  Output : Các cụm Ci  i  1, k  hàm tiêu chuẩn E đạt giá trị tối thiểu   Begin Bƣớc 1: Khởi tạo :Chọn k trọng tâm {mj}kj=1 ban đầu không gian Rd (d số chiều liệu, việc chọn ngẫu nhiên theo kinh nghiệm) Bƣớc : Tính tốn khoảng cách : Đối với điểm Xi (1

Ngày đăng: 24/02/2021, 21:40

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan