1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

Khai phá luật kết hợp có trọng số trong cơ sở dữ liệu lớn

27 107 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG  - PHẠM ĐỨC QUANG KHAI PHÁ LUẬT KẾT HỢP CÓ TRỌNG SỐ TRONG CƠ SỞ DỮ LIỆU LỚN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG  - PHẠM ĐỨC QUANG KHAI PHÁ LUẬT KẾT HỢP CÓ TRỌNG SỐ TRONG CƠ SỞ DỮ LIỆU LỚN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Hƣớng dẫn khoa học: PGS.TS NGUYỄN THANH TÙNG THÁI NGUYÊN 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CÁM ƠN Trước hết em xin gửi lời cám ơn chân thành đến toàn thể thầy cô giáo Viện Công nghệ thông tin - Viện Khoa học Công nghệ Việt Nam Trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái nguyên dạy dỗ chúng em suốt trình học tập chương trình cao học trường Đặc biệt em xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Nguyễn Thanh Tùng quan tâm, định hướng, đưa gợi ý, góp ý chỉnh sửa vô quí báu cho em trình thực luận văn Cuối cùng, xin chân thành cám ơn bạn bè đồng nghiệp, gia đình người thân quan tâm, giúp đỡ chia sẻ với suốt trình làm luận văn tốt nghiệp Thái Nguyên, ngày 10 tháng năm 2012 Học viên Phạm Đức Quang Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực hướng dẫn PGS.TS Nguyễn Thanh Tùng Mọi tham khảo sử dụng luận văn trích dẫn rõ ràng tác giả, tên công trình, thời gian, địa điểm công bố Tôi xin chịu trách nhiệm với lời cam đoan Thái Nguyên, ngày 10 tháng năm 2012 Học viên Phạm Đức Quang Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC Trang Trang bìa phụ Lời cảm ơn Lời cam đoan Mục lục i Danh mục từ, ký hiệu viết tắt iv Danh mục bảng v LỜI MỞ ĐẦU Chƣơng KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN 1.1 Khai phá liệu 1.2 Khai phá luật kết hợp 1.2.1 Cơ sở liệu giao tác 1.2.2 Phát biểu toán khai phá luật kết hợp 10 1.2.3 Thuật toán Apriori khám phá tập mục thường xuyên 12 1.3 Mở rộng toán khai phá tập mục thường xuyên 18 1.4 Kết luận chương 19 Chƣơng KHAI PHÁ LUẬT KẾT HỢP CÓ TRỌNG SỐ 20 2.1 Mở đầu 20 2.2 Khai phá luật kết hợp có trọng số không chuẩn hóa 21 2.2.1 Mô hình toán 21 2.2.2 Thuật toán MINWAL(O) khai phá tập mục thường xuyên có trọng số 24 2.2.2.1 Cơ sở toán học 24 2.2.2.2 Thuật toán MINWAL(O) 27 2.3 Khai phá luật kết hợp có trọng số chuẩn hóa 34 2.3.1 Mô hình toán 34 2.3.2 Thuật toán MINWAL(W) khai phá tập mục thường xuyên có trọng số chuẩn hóa 37 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2.3.2.1 Cơ sở toán học 37 2.3.2.2 Thuật toán MINWAL(W) 37 2.2.3 Lập trình tính toán thử nghiệm 45 2.4 Kết luận chương 46 Chƣơng KHAI PHÁ LUẬT KẾT HỢP CÓ TRỌNG SỐ BẰNG PHƢƠNG PHÁP CHỌN MẪU 47 3.1 Tổng thể mẫu thống kê toán học 47 3.2 Thuật toán khai phá luật kết hợp có trọng số dựa vào chọn mẫu 50 3.2.1 Xác định cỡ mẫu 50 3.2.2 Thuật toán 53 3.3 Lập trình tính toán thử nghiệm 54 3.4 Kết luận chương 55 KẾT LUẬN 57 TÀI LIỆU THAM KHẢO 58 PHỤ LỤC 1: Chƣơng trình nguồn thuật toán MINWAL(O) 61 PHỤ LỤC 2: Chƣơng trình nguồn thuật toán MINWAL(O) 73 PHỤ LỤC 3: Chƣơng trình nguồn thuật toán SRS 81 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Các ký hiệu: I  i1 , , iM  : Tập tất M mục liệu sở liệu giao tác DT  T1 ,T2 , ,TN  : Cơ sở liệu DT gồm N giao tác X, Y, : Các tập tập tất mục sở liệu giao tác X = abc thay cho X  a, b, c ví dụ SC ( X ) : Số đếm hỗ trợ tập mục X (hay số giao tác chứa tập mục X) sup(X) : Độ hỗ trợ tập mục X Wsup(X) : Độ hỗ trợ có trọng số tập mục X NWsup(X) : Độ hỗ trợ có trọng số chuẩn hóa tập mục X minsup : Ngưỡng độ hỗ trợ tối thiểu wminsup : Ngưỡng độ hỗ trợ có trọng số tối thiểu nwminsup : Ngưỡng độ hỗ trợ có trọng số chuẩn hóa tối thiểu sup( X  Y ) : Độ hỗ trợ luật kết hợp X  Y conf ( X  Y ) : Độ tin cậy luật kết hợp X  Y A : Lực lượng (bản số) tập hợp A r  : Cận nguyên nhỏ số thực r Pr(E) : Xác suất xủa biến cố ngẫu nhiên E (0,1) : Phân phối chuẩn chuẩn tắc z1 : Phân vị mức  phân phối chuẩn chuẩn tắc Viết tắt: CNTT: Công nghệ Thông tin CSDL: Cơ sở liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC BẢNG BIỂU Trang Bảng 1.1 Biểu diễn ngang sở liệu giao tác Bảng 1.2 Biểu diễn dọc sở liệu giao tác Bảng 1.3 Ma trận giao tác sở liệu bảng 1.1 Bảng 1.4 Cơ sở liệu giao tác minh hoạ thực thuật toán Apriori 16 Bảng 2.1 Cơ sở liệu giao tác ví dụ 26 Bảng 2.2 Trọng số mục CSDL giao tác 2.1 26 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI MỞ ĐẦU Khai phá luật kết hợp kỹ thuật quan trọng, có nhiều ứng dụng khai phá liệu Mô hình (mô hình nhị phân) toán khai phá luật kết hợp đề xuất Agrawal cộng vào năm 1993, công trình nghiên cứu phát mối quan hệ (luật kết hợp) mặt hàng (mục liệu - items) sở liệu giao tác siêu thị [4, 5] Sau công trình kinh điển này, vấn đề khai phá luật kết hợp sở liệu (CSDL) giao tác nhiều nhà nghiên cứu lý thuyết ứng dụng quan tâm Nhiều thuật toán mới, hiệu khai phá luật kết hợp, mô hình mở rộng toán nhà nghiên cứu đề xuất [8, 9] Mô hình nhị phân toán khai phá luật kết hợp có số hạn chế, không đáp ứng đòi hỏi khác người sử dụng Một hạn chế mô hình tất mục liệu xử lý (xuất hay không xuất giao tác), thực tế chúng có tầm quan trọng khác Nhằm khắc phục hạn chế người ta đề xuất mô hình toán khai phá luật kết hợp có trọng số, mục liệu gán cho trọng số khác tùy theo mức độ quan trọng chúng việc mang lại lợi nhuận kinh doanh [3, 7, 8, 18] Những năm gần đây, khai phá luật kết hợp có trọng số trở thành đề tài hấp dẫn, nội dung quan trọng khai phá liệu, thu hút quan tâm nhiều nhà nghiên cứu ứng dụng Đề tài luận văn học viên nhằm nghiên cứu toán, thuật toán tìm hiểu khả ứng dụng kỹ thuật khai phá luật kết hợp có trọng số từ CSDL lớn Nội dung luận văn gồm chương: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chương trình bày khái quát khai phá liệu, tóm tắt trình khai phá, kỹ thuật, ứng dụng thách thức; toán khai phá luật kết hợp nhị phân thuật toán Apriori Chương trình bày hai mô hình mở rộng toán khai phá luật kết hợp nhị phân: Khai phá luật kết hợp có trọng số khai phá luật kết hợp có trọng số chuẩn hóa, với giải thuật tương ứng 01) Chương trình bày cách tiếp cận toán khai phá luật kết hợp có trọng số phương pháp lấy mẫu ngẫu nhiên từ CSDL ban đầu Thái Nguyên, tháng 09 năm 2012 Học viên Phạm Đức Quang Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read ... phá luật kết hợp nhị phân thuật toán Apriori Chương trình bày hai mô hình mở rộng toán khai phá luật kết hợp nhị phân: Khai phá luật kết hợp có trọng số khai phá luật kết hợp có trọng số chuẩn hóa,... KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN 1.1 Khai phá liệu 1.2 Khai phá luật kết hợp 1.2.1 Cơ sở liệu giao tác 1.2.2 Phát biểu toán khai. .. Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI MỞ ĐẦU Khai phá luật kết hợp kỹ thuật quan trọng, có nhiều ứng dụng khai phá liệu Mô hình (mô hình nhị phân) toán khai phá luật kết hợp

Ngày đăng: 21/04/2017, 13:17

Xem thêm: Khai phá luật kết hợp có trọng số trong cơ sở dữ liệu lớn

TỪ KHÓA LIÊN QUAN

w