Khai phá luật kết hợp có trọng số trong cơ sở dữ liệu lớn

91 629 1
Khai phá luật kết hợp có trọng số trong cơ sở dữ liệu lớn

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG  PHẠM ĐỨC QUANG KHAI PHÁ LUẬT KẾT HỢP CÓ TRỌNG SỐ TRONG CƠ SỞ DỮ LIỆU LỚN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN 2012 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG  PHẠM ĐỨC QUANG KHAI PHÁ LUẬT KẾT HỢP CÓ TRỌNG SỐ TRONG CƠ SỞ DỮ LIỆU LỚN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Hƣớng dẫn khoa học: PGS.TS. NGUYỄN THANH TÙNG THÁI NGUYÊN 2012 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CÁM ƠN Trước hết em xin gửi lời cám ơn chân thành đến toàn thể các thầy cô giáo Viện Công nghệ thông tin - Viện Khoa học và Công nghệ Việt Nam và Trường Đại học Công nghệ thông tin và Truyền thông - Đại học Thái nguyên đã dạy dỗ chúng em trong suốt quá trình học tập chương trình cao học tại trường. Đặc biệt em xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS. Nguyễn Thanh Tùng đã quan tâm, định hướng, đưa ra những gợi ý, góp ý và chỉnh sửa vô cùng quí báu cho em trong quá trình thực hiện luận văn này. Cuối cùng, tôi xin chân thành cám ơn các bạn bè đồng nghiệp, gia đình và người thân đã quan tâm, giúp đỡ và chia sẻ với tôi trong suốt quá trình làm luận văn tốt nghiệp. Thái Nguyên, ngày 10 tháng 9 năm 2012 Học viên Phạm Đức Quang Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn của PGS.TS. Nguyễn Thanh Tùng. Mọi tham khảo sử dụng trong luận văn đều được trích dẫn rõ ràng tác giả, tên công trình, thời gian, địa điểm công bố. Tôi xin chịu trách nhiệm với lời cam đoan này. Thái Nguyên, ngày 10 tháng 9 năm 2012 Học viên Phạm Đức Quang Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC Trang Trang bìa phụ Lời cảm ơn Lời cam đoan Mục lục i Danh mục các từ, các ký hiệu viết tắt iv Danh mục các bảng v LỜI MỞ ĐẦU 1 Chƣơng 1. KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN 3 1.1. Khai phá dữ liệu 3 1.2. Khai phá luật kết hợp 8 1.2.1. Cơ sở dữ liệu giao tác 8 1.2.2. Phát biểu bài toán khai phá luật kết hợp 10 1.2.3. Thuật toán Apriori khám phá tập mục thường xuyên 12 1.3. Mở rộng bài toán khai phá tập mục thường xuyên 18 1.4. Kết luận chương 19 Chƣơng 2. KHAI PHÁ LUẬT KẾT HỢP CÓ TRỌNG SỐ 20 2.1. Mở đầu 20 2.2. Khai phá luật kết hợp có trọng số không chuẩn hóa 21 2.2.1. Mô hình bài toán 21 2.2.2. Thuật toán MINWAL(O) khai phá tập mục thường xuyên có trọng số 24 2.2.2.1. Cơ sở toán học 24 2.2.2.2. Thuật toán MINWAL(O) 27 2.3. Khai phá luật kết hợp có trọng số chuẩn hóa 34 2.3.1. Mô hình bài toán 34 2.3.2. Thuật toán MINWAL(W) khai phá tập mục thường xuyên có trọng số chuẩn hóa 37 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2.3.2.1. Cơ sở toán học 37 2.3.2.2. Thuật toán MINWAL(W) 37 2.2.3. Lập trình và tính toán thử nghiệm 45 2.4. Kết luận chương 46 Chƣơng 3. KHAI PHÁ LUẬT KẾT HỢP CÓ TRỌNG SỐ BẰNG PHƢƠNG PHÁP CHỌN MẪU 47 3.1 Tổng thể và mẫu trong thống kê toán học 47 3.2. Thuật toán khai phá luật kết hợp có trọng số dựa vào chọn mẫu 50 3.2.1. Xác định cỡ mẫu 50 3.2.2. Thuật toán 53 3.3. Lập trình và tính toán thử nghiệm 54 3.4. Kết luận chương 55 KẾT LUẬN 57 TÀI LIỆU THAM KHẢO 58 PHỤ LỤC 1: Chƣơng trình nguồn thuật toán MINWAL(O) 61 PHỤ LỤC 2: Chƣơng trình nguồn thuật toán MINWAL(O) 73 PHỤ LỤC 3: Chƣơng trình nguồn thuật toán SRS 81 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Các ký hiệu:   , , M I i i 1 : Tập tất cả M mục dữ liệu của cơ sở dữ liệu giao tác.   , , , N DT T T T 12 : Cơ sở dữ liệu DT gồm N giao tác X, Y, : Các tập con của tập tất cả các mục trong cơ sở dữ liệu giao tác. X = abc thay cho   ,,X a b c trong các ví dụ. ()SC X : Số đếm hỗ trợ tập mục X (hay số giao tác chứa tập mục X). sup(X) : Độ hỗ trợ của tập mục X. Wsup(X) : Độ hỗ trợ có trọng số của tập mục X. NWsup(X) : Độ hỗ trợ có trọng số chuẩn hóa của tập mục X. minsup : Ngưỡng độ hỗ trợ tối thiểu. wminsup : Ngưỡng độ hỗ trợ có trọng số tối thiểu. nwminsup : Ngưỡng độ hỗ trợ có trọng số chuẩn hóa tối thiểu. sup( )XY : Độ hỗ trợ của luật kết hợp XY . ()conf X Y : Độ tin cậy của luật kết hợp XY . A : Lực lượng (bản số) của tập hợp A. r   : Cận trên nguyên nhỏ nhất của số thực r. Pr(E) : Xác suất xủa biến cố ngẫu nhiên E. (0,1) : Phân phối chuẩn chuẩn tắc. z  12 : Phân vị mức  12 của phân phối chuẩn chuẩn tắc. Viết tắt: CNTT: Công nghệ Thông tin. CSDL: Cơ sở dữ liệu. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC BẢNG BIỂU Trang Bảng 1.1. Biểu diễn ngang của cơ sở dữ liệu giao tác 9 Bảng 1.2. Biểu diễn dọc của cơ sở dữ liệu giao tác 9 Bảng 1.3. Ma trận giao tác của cơ sở dữ liệu bảng 1.1 9 Bảng 1.4. Cơ sở dữ liệu giao tác minh hoạ thực hiện thuật toán Apriori 16 Bảng 2.1. Cơ sở dữ liệu giao tác ví dụ 26 Bảng 2.2. Trọng số của các mục trong CSDL giao tác 2.1 26 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI MỞ ĐẦU Khai phá luật kết hợp là một kỹ thuật quan trọng, có nhiều ứng dụng của khai phá dữ liệu. Mô hình đầu tiên (mô hình nhị phân) của bài toán khai phá luật kết hợp được đề xuất bởi Agrawal và cộng sự vào năm 1993, trong công trình nghiên cứu phát hiện các mối quan hệ (luật kết hợp) giữa các mặt hàng (mục dữ liệu - items) trong cơ sở dữ liệu giao tác của các siêu thị [4, 5]. Sau công trình kinh điển này, vấn đề khai phá luật kết hợp trong cơ sở dữ liệu (CSDL) giao tác được rất nhiều nhà nghiên cứu lý thuyết và ứng dụng quan tâm. Nhiều thuật toán mới, hiệu quả khai phá luật kết hợp, cũng như mô hình mở rộng bài toán đã được các nhà nghiên cứu đề xuất [8, 9]. Mô hình nhị phân của bài toán khai phá luật kết hợp có một số hạn chế, không đáp ứng được những đòi hỏi khác nhau của người sử dụng. Một trong những hạn chế là trong mô hình này tất cả các mục dữ liệu được xử lý như nhau (xuất hiện hay không xuất hiện trong một giao tác), nhưng trên thực tế chúng có tầm quan trọng khác nhau. Nhằm khắc phục hạn chế này người ta đã đề xuất mô hình bài toán khai phá luật kết hợp có trọng số, trong đó các mục dữ liệu được gán cho các trọng số khác nhau tùy theo mức độ quan trọng của chúng trong việc mang lại lợi nhuận kinh doanh [3, 7, 8, 18]. Những năm gần đây, khai phá luật kết hợp có trọng số đã trở thành một đề tài hấp dẫn, một nội dung quan trọng của khai phá dữ liệu, thu hút sự quan tâm của nhiều nhà nghiên cứu và ứng dụng. Đề tài luận văn của học viên nhằm nghiên cứu bài toán, các thuật toán và tìm hiểu khả năng ứng dụng kỹ thuật khai phá luật kết hợp có trọng số từ các CSDL lớn. Nội dung chính của luận văn gồm 3 chương: Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chương 1 trình bày khái quát về khai phá dữ liệu, tóm tắt quá trình khai phá, các kỹ thuật, các ứng dụng và những thách thức; bài toán khai phá luật kết hợp nhị phân và thuật toán cơ bản Apriori. Chương 2 trình bày hai mô hình mở rộng bài toán khai phá luật kết hợp nhị phân: Khai phá luật kết hợp có trọng số và khai phá luật kết hợp có trọng số chuẩn hóa, cùng với các giải thuật tương ứng. 01) Chương 3 trình bày cách tiếp cận bài toán khai phá luật kết hợp có trọng số bằng phương pháp lấy mẫu ngẫu nhiên từ CSDL ban đầu. Thái Nguyên, tháng 09 năm 2012. Học viên Phạm Đức Quang [...]... thức đã có - Tích hợp với các hệ thống khác 1.2 Khai phá luật kết hợp Khai phá luật kết hợp đóng vai trò quan trọng trong khai phá dữ liệu Khai phá luật kết hợp là phát hiện những mối quan hệ giữa các mục dữ liệu Mô hình bài toán khai phá luật kết hợp đầu tiên được giới thiệu bởi Agrawal và cộng sự vào năm 1993 khi phân tích cơ sở dữ liệu bán hàng của siêu thị [4, 5] Đến nay, bài toán trong mô hình đầu... trợ và độ tin cậy có trọng số Luật kết hợp có độ hỗ trợ trọng số hóa được gọi là luật kết hợp có trọng số - Quan tâm tới các kiểu thuộc tính khác nhau trong cơ sở dữ liệu như nhị phân, đa phân, định lượng Luật kết hợp lúc đó được gọi là luật kết hợp định lượng Để tìm các luật kết hợp định lượng người ta đưa bài toán về dạng nhị phân bằng cách rời rác hóa miền giá trị thuộc tính, sau đó có thể sử dụng... được gán một trọng số 0  wj  1, j  1, , M Trọng số w j phản ánh mức độ quan trọng của mục i j Cũng giống như luật kết hợp nhị phân, luật kết hợp có trọng số được định nghĩa như sau Định nghĩa 2.1 Cho CSDL giao tác DT Ký hiệu I  i1, , iM  là tập tất cả các mục Luật kết hợp nhị phân có trọng số là mệnh đề kéo theo X  Y , trong đó X  I , Y  I và X  Y   Mỗi luật kết hợp có trọng số được đặc... có trọng số không nhất thiết phải là tập mục thường xuyên có trọng số Vì vậy, để phát hiện các tập mục này, không thể áp dụng các kỹ thuật đã được đề xuất cho việc khai phá tập mục thường xuyên nhị phân Mục 2.2.2 dưới đây trình bày một số tính chất của tập mục thường xuyên có trọng số và thuật toán khai phá luật kết hợp có trọng số 2.2.2 Thuật toán MINWAL(O) khai phá tập mục thƣờng xuyên có trọng số. .. http://www.lrc-tnu.edu.vn của thuật toán Apriori này sẽ được sử dụng để phát triển các thuật toán khám phá luật kết hợp có trọng số trong Chương 2 và Chương 3 của luận văn Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 2 CHƢƠNG 2 KHAI PHÁ LUẬT KẾT HỢP CÓ TRỌNG SỐ 2.1 Mở đầu Bài toán khai phá luật kết hợp nhị phân, trình bày trong chương 1, được R Agrawal, T Imielinski và A N Swami... cậy lớn hơn mức cho trước chỉ mang ngữ nghĩa thống kê Ràng buộc về độ hỗ trợ và độ tin cậy không xét đến tầm quan trọng khác nhau của các mục trong cơ sở dữ liệu, cũng như không quan tâm đến đặc tính dữ liệu vốn có của chúng Những năm gần đây nhiều công trình nghiên cứu mở rộng bài toán khai phá luật kết hợp nhị phân đã được đề xuất Một trong số các mở rộng là bài toán khai phá luật kết hợp có trọng số. .. Biểu diễn ngang: Cơ sở dữ liệu là một danh sách các giao tác Mỗi giao tác có định danh TID và một danh sách các mục dữ liệu trong giao tác đó, (Bảng 1.1) Biểu diễn dọc: Cơ sở dữ liệu là một danh sách các mục dữ liệu, mỗi mục dữ liệu có một danh sách tất cả các định danh của các giao tác chứa mục dữ liệu này, (Bảng 1.2) Bảng 1.1: Biểu diễn ngang của cơ sở dữ liệu giao tác TID Mục dữ liệu T1 B,C T2 B,C,D... lẫn các phương pháp tìm kiếm tri thức, đã có nhiều quan Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn điểm khác nhau về khai phá dữ liệu Tuy nhiên, ở một mức độ trừu tượng nhất định, chúng ta định nghĩa khai phá dữ liệu như sau [9]: Khai phá dữ liệu là quá trình tìm kiếm, phát hiện các tri thức mới, hữu ích tiềm ẩn trong cơ sở dữ liệu lớn Khám phá tri thức trong CSDL (Knowledge... cao Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chương 2 này nhằm trình bày hai mô hình bài toán khai phá luật kết hợp có trọng số và các thuật toán [6, 7] 2.2 Khai phá luật kết hợp có trọng số không chuẩn hóa 2.2.1 Mô hình bài toán Cho cơ sở dữ liệu (CSDL) giao tác DT Ký hiệu I  i1, , iM  là tập tất cả các mục (thuộc tính) của DT Mỗi giao tác (bản ghi) tq trong. ..  Ví dụ, cơ sở dữ liệu Bảng 1.1 biểu diễn ở dạng ma trận giao tác là: Bảng 1.3: Ma trận giao tác của cơ sở dữ liệu Bảng 1.1 TID A B C D T1 T2 T3 T4 T5 0 0 1 1 1 1 1 1 0 0 1 1 1 0 1 1 0 0 1 1 1.2.2 Phát biểu bài toán khai phá luật kết hợp Dưới đây, để cho tiện, luật kết hợp nhị phân sẽ được gọi vắn tắt là luật kết hợp Định nghĩa 1.2 Cho CSDL giao tác DT với tập tất cả các mục I Một luật kết hợp là một . kết hợp Khai phá luật kết hợp đóng vai trò quan trọng trong khai phá dữ liệu. Khai phá luật kết hợp là phát hiện những mối quan hệ giữa các mục dữ liệu. Mô hình bài toán khai phá luật kết hợp. VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN 3 1.1. Khai phá dữ liệu 3 1.2. Khai phá luật kết hợp 8 1.2.1. Cơ sở dữ liệu giao tác 8 1.2.2. Phát biểu bài toán khai phá luật. Chương 2 trình bày hai mô hình mở rộng bài toán khai phá luật kết hợp nhị phân: Khai phá luật kết hợp có trọng số và khai phá luật kết hợp có trọng số chuẩn hóa, cùng với các giải thuật tương ứng.

Ngày đăng: 15/11/2014, 22:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan