Nghiên cứu một số thuật toán khai phá tập mục thường xuyên và tập mục cổ phần cao trong cơ sở dữ liệu

27 143 0
Nghiên cứu một số thuật toán khai phá tập mục thường xuyên và tập mục cổ phần cao trong cơ sở dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG BẾ QUANG HUẤN NGHIÊN CỨU MỘT SỐ THUẬT TOÁN KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN VÀ TẬP MỤC CỔ PHẦN CAO TRONG CƠ SỞ DỮ LIỆU Chuyên nghành: Khoa học máy tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: GS TS Vũ Đức Thi THÁI NGUYÊN 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i LỜI CAM ĐOAN Tôi xin cam đoan toàn nội dung Luận văn hoàn toàn theo nội dung đề cƣơng nhƣ nội dung mà cán hƣớng dẫn giao cho Nội dung luận văn, phần trích lục tài liệu hoàn toàn xác Nếu có sai sót hoàn toàn chịu trách nhiệm Tác giả luận văn Bế Quang Huấn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii MỤC LỤC LỜI CAM DOAN i DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT iv DANH MỤC CÁC BẢNG BIỂU v DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vi MỞ ĐẦU Chƣơng KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN VÀ MỘT SỐ MỞ RỘNG 1.1 MỞ ĐẦU 1.2 CÁC KHÁI NIỆM CƠ BẢN 1.2.1 Cơ sở liệu giao tác 1.2.2 Tập mục thƣờng xuyên luật kết hợp 10 1.2.3 Bài toán khai phá luật kết hợp 12 1.3 KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN 14 1.3.1 Các cách tiếp cận khai phá tập mục thƣờng xuyên 14 1.3.2 Thuật toán Apriori 16 1.3.3 Thuật toán FP-growth 22 1.4 MỞ RỘNG BÀI TOÁN KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN 31 1.5 KẾT LUẬN CHƢƠNG 33 Chƣơng KHAI PHÁ TẬP MỤC CỔ PHẦN CAO 34 2.1 GIỚI THIỆU 34 2.2 BÀI TOÁN KHAI PHÁ TẬP MỤC CỔ PHẦN CAO 35 2.3 THUẬT TOÁN FSM 41 2.3.1 Cở sở lý thuyết thuật toán FSM 41 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii 2.3.2 Thuật toán FSM 42 2.3.3 Nhận xét thuật toán FSM 44 2.4 THUẬT TOÁN AFSM 45 2.4.1 Cơ sở lý thuyết thuật toán AFSM 45 2.4.2 Thuật toán AFSM 52 2.4.3 Đánh giá thuật toán AFSM 59 2.5 KẾT LUẬN CHƢƠNG 60 Chƣơng THỰC NGHIỆM VÀ ĐÁNH GIÁ THUẬT TOÁN 61 3.1 ĐẶT BÀI TOÁN 61 3.2 THIẾT KẾ MODUL CHƢƠNG TRÌNH VÀ GIẢI THUẬT 62 3.3 GIAO DIỆN SỬ DỤNG VÀ CHỨC NĂNG CHƢƠNG TRÌNH 67 3.4 ĐÁNH GIÁ KẾT QUẢ VÀ HƢỚNG PHÁT TRIỂN CỦA CHƢƠNG TRÌNH 70 KẾT LUẬN 72 TÀI LIỆU THAM KHẢO 73 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Ký hiệu Diễn giải I={i1,i2,…,in} Tập n mục liệu DB ={T1,T2,…,Tm} Cơ sở liệu có m giao tác db Cơ sở liệu giao tác DB, db  DB ip Mục liệu thứ p Tq Giao tác thứ q n Số mục liệu sở liệu giao tác m Số giao tác sở liệu giao tác A, B, C,… Tên mục liệu sở liệu giao tác X, Y,… Tập tập mục liệu I, X, Y  I X=ABC Thay cho X={A,B,C} sở liệu giao tác minsup Ngƣỡng độ hỗ trợ minShare Ngƣỡng cổ phần tối thiểu minconf Ngƣỡng độ tin cậy tối thiểu X Số phần tử tập hợp X CSDL Cở sở liệu CNTT Công nghệ thông tin Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v DANH MỤC CÁC BẢNG BIỂU Bảng 1.1: Biểu diễn ngang sở liệu giao tác .8 Bảng 1.2: Biểu diễn dọc sở liệu giao tác Bảng 1.3: Ma trận giao tác sở liệu bảng 1.1 10 Bảng 1.4: Cơ sở liệu giao tác minh họa thực thuật toán Apriori 20 Bảng 1.5: Cơ sở liệu giao tác minh họa thực thuật toán COFI-tree 25 Bảng 1.6: Các mục liệu độ hỗ trợ 26 Bảng 1.7: Các mục liệu thƣờng xuyên thứ tự 26 Bảng 1.8: Các mục liệu giao tác giảm dần theo độ hỗ trợ 27 Bảng 2.1: Cơ sở liệu ví dụ 36 Bảng 2.2: Giá trị lmv cổ phần mục liệu CSDL bảng 2.1 38 Bảng 2.3: Các tập mục cổ phần cao CSDL bảng 2.1 38 Bảng 2.4: CSDL minh họa ngữ nghĩa tập mục cổ phần cao 40 Bảng 2.5a: CSDL minh họa có trƣờng hợp hai hàm tới hạn 51 Bảng 2.5b: CSDL minh học có trƣờng hợp hai hàm tới hạn băng 51 Bảng 2.6: Giá trị hai hàm tới hạn k=1 52 Bảng 2.7: Các giá trị lmv hàm tới hạn với k=1 56 Bảng 2.8: Các giá trị lmv hàm tới hạn với k=2 57 Bảng 2.9: Các giá trị lmv hàm tới hạn với k=3 57 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1: Phân loại thuật toán khai phá tập mục thƣờng xuyên 15 Hình 1.2: Cây FP-tree CSDL bảng 1.5 28 Hình 1.3: Cây COFI-tree mục D 28 Hình 1.4: Các bƣớc khai phá D-COFI-tree 31 Hình 2.1: Không gian tìm kiếm tập mục cổ phần cao theo thuật toán AFSM 58 Hình 3.1: Giao diện chƣơng trình demo 63 Hình 3.2: Giao diện hiển thị bảng liệu 64 Hình 3.3: Giao diện cập nhật ngƣỡng cổ phần ngƣỡng tin cậy cho bảng liệu 65 Hình 3.4: Giao diện hiển thị kết tìm tập mục cổ phần cao 66 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Một ứng dụng quan trọng công nghệ thông tin đời sống giúp giải toán quản lý Kể từ máy tính điện tử trở thành công cụ lao động quan trọng nhu cầu lƣu trữ, tìm kiếm xử lý số liệu thống kê Đến nay, sở liệu trở nên khổng lồ ngƣời ta mong muốn kho liệu cần đƣợc khai thác hiệu nhiều bình diện Trong năm gần đây, khai phá liệu (Data mining) trở thành hƣớng nghiên cứu lớn lĩnh vực khoa học máy tính công nghệ thông tin Khai phá liệu đƣợc áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác nhau: marketing, tài chính, ngân hàng bảo hiểm, khoa học, y tế, an ninh, internet… Khai phá liệu khám phá tri thức (Data Mining and Knowledge Discovery) lĩnh vực thu hút đông đảo nhà khoa học giới nƣớc tham gia nghiên cứu Khai phá tập mục thƣờng xuyên toán có vai trò quan trọng nhiều nhiệm vụ khai phá liệu Khai phá tập mục thƣờng xuyên đƣợc biết đến ban đầu toán toán khai phá luật kết hợp đƣợc giới thiệu Agrawal vào năm 1993 phân tích sở liệu bán hàng siêu thị, phân tích sở thích mua khách hàng cách tìm mặt hàng khác đƣợc khách hàng mua lần mua Những thông tin nhƣ giúp ngƣời quản lý kinh doanh tiếp thị trọn lọc thu xếp không gian bày hàng hợp lý hơn, giúp cho kinh doanh hiệu Mô hình khai phá tập mục thƣờng xuyên có nhiều ứng dụng thực tế nhƣng có hạn chế, không đáp ứng đầy đủ yêu cầu ngƣời sử dụng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Để đáp ứng nhu yêu cầu thực tiễn, số hƣớng mở rộng toán đƣợc quan tâm nghiên cứu Một hƣớng mở rộng toán có rât nhiều ứng dụng quan tâm đến cấu trúc liệu mức độ quan trọng khác mục liệu, thuộc tính sở liệu Theo hƣớng này, từ toán khai phá tập mục thƣờng xuyên ban đầu, nhiều nhà nghiên cứu đề xuất mô hình mở rộng: Khai phá tập mục cổ phần cao, đánh giá đóng góp tập mục liệu tổng số mục liệu sở liệu Trên giới, kết nghiên cứu khai phá tập mục cổ phần cao đƣợc công bố nhiều từ nhóm nghiên cứu số trƣờng đại học Mỹ, Canada, Úc, Đài Loan, Singapo, Hồng Kông,… Tại Việt Nam, Khai phá luật kết hợp đƣợc nhóm nghiên cứu Viện Công nghệ Thông tin thuộc Viện Khoa học Công nghệ Việt Nam, nhóm nghiên cứu số trƣờng đại học nhƣ Đại học Quốc gia Hà Nội, Đại học Bách Khoa Hà Nội, Đại học Quốc gia thành phố Hồ Chí Minh thực có nhiều kết đƣợc công bố Với mục đích đóng góp vào lĩnh vực nghiên cứu này, chọn đề tài luận văn: “ Nghiên cứu số thuật toán khai phá tập mục thường xuyên tập mục cổ phần cao sở liệu” làm chủ đề nghiên cứu Mục đích luận văn phát triển số thuật toán khai phá tập mục cổ phần cao sở liệu giao tác cỡ lớn Trên sở áp dụng vào toán cụ thể cài đặt trƣơng trình Với mục tiêu đó, luận văn đƣợc trình bày ba chƣơng: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chương 1: Khai phá tập mục thƣờng xuyên số mở rộng Trình bày toán khai phá tập mục thƣờng xuyên: Các khái niệm mô hình khai phá Sau trình bày khái quát thuật toán khai phá, trƣơng trình bày chi tiết hai thuật toán tiêu biểu cho hai cách tiếp cận khác thuật toán Apriori thuật toán FP-growth Thuật toán Apriori tiêu biểu cho phƣơng pháp sinh tập mục ứng viên duyệt sở liệu để tính độ hỗ trợ Thuật toán FP-growth thuật toán giới thiệu cấu trúc FP-tree nén toàn giao tác sở liệu lên với lần duyệt, sau khai phá theo phƣơng pháp phát triển dần mẫu mà không cần duyệt sở liệu Bên cạnh luận văn trình bày chi tiết phƣơng pháp COFI-tree khai phá FP-tree thay cho phƣơng pháp FP-growth Chương 2: Khai phá tập mục cổ phần cao Trình bày mô hình khai phá cổ phần cao, giới thiệu thuật toán FSM thuật toán nhanh khai phá tất tập mục cổ phần cao sở liệu giao tác Luận văn đề xuất khái niệm “tập mục cổ phần theo giao tác cao” chứng minh có tính chất phản đơn điệu (Anti Monotone), ứng dụng vào nhiều thuật toán khai phá tập mục thƣờng xuyên có để tìm đƣợc tập mục cổ phần theo giao tác cao, từ tìm tập mục cổ phần cao Sử dụng ý tƣởng này, luận văn đề xuất thuật toán AFSM (Advanced FSM) dựa bƣớc thuật toán FSM với phƣơng pháp tỉa hiệu tập mục ứng viên Chương 3: Thực nghiệm đánh giá thuật toán Để có đƣợc kết nhận đƣợc quan tâm, động viên, giúp đỡ nhiều Thầy giáo, Cô giáo Khoa Công nghệ thông tin - Đại học Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read ... nghiên cứu này, chọn đề tài luận văn: “ Nghiên cứu số thuật toán khai phá tập mục thường xuyên tập mục cổ phần cao sở liệu làm chủ đề nghiên cứu Mục đích luận văn phát triển số thuật toán khai phá. .. toán khai phá tập mục thƣờng xuyên ban đầu, nhiều nhà nghiên cứu đề xuất mô hình mở rộng: Khai phá tập mục cổ phần cao, đánh giá đóng góp tập mục liệu tổng số mục liệu sở liệu Trên giới, kết nghiên. .. pháp COFI-tree khai phá FP-tree thay cho phƣơng pháp FP-growth Chương 2: Khai phá tập mục cổ phần cao Trình bày mô hình khai phá cổ phần cao, giới thiệu thuật toán FSM thuật toán nhanh khai phá

Ngày đăng: 21/04/2017, 13:42

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan