1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai thác tập mục cổ phần theo giao tác cao Nông Thị Ninh.

61 332 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 1,61 MB

Nội dung

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NÔNG THỊ NINH Đề tài: KHAI PHÁ TẬP MỤC CỔ PHẦN THEO GIAO TÁC CAO LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên, tháng 7 năm 2014 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 2 LỜI CẢM ƠN Luận văn này được hoàn thành với sự hướng dẫn tận tình của TS Lê Văn Phùng – Viên Công nghệ thông tin - Viện Hàn Lâm Khoa học Việt Nam. Trước tiên tôi xin chân thành bày tỏ lòng biết ơn sâu sắc tới TS. Lê Văn Phùng người đã tận tình hướng dẫn, động viên giúp đỡ tôi trong suốt thời gian thực hiện luận văn. Tôi cũng xin chân thành cảm ơn các thầy cô trong trường Công Nghệ thông tin và Truyền thông – Đại học Thái Nguyên, tạo điều kiện thuận lợi cho tôi hoàn thành tốt khóa học. Xin chân thành cảm ơn các anh, các chị và các bạn học viên lớp Cao học CHK11g đã luôn động viên, giúp đỡ và nhiệt tình chia sẻ với tôi những kinh nghiệm học tập, công tác trong suốt khoá học. Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc đến gia đình, người thân, bạn bè đã động viên, khuyến khích và hỗ trợ cần thiết để tôi hoàn thành luận văn này. Mặc dù rất cố gắng, song luận văn này không thể tránh khỏi những thiếu sót, kính mong được sự chỉ dẫn của các quý thầy cô và các bạn. Thái Nguyên, ngày 5 tháng 7 năm 2014 Ngƣời viết Nông Thị Ninh Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 3 LỜI CAM ĐOAN n luận văn này đã được cảm ơn và các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc. Thái Nguyên, ngày tháng năm 2014 Ngƣời cam đoan Nông Thị Ninh Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 4 BẢNG KÝ HIỆU CHỮ VIẾT TẮT S TT Ký hiệu viết tắt Giải thích 1 ABBM: Algorithm Based on Boolean Matrix Thuật toán dựa trên ma trận Boolean CSDL Cơ sở dữ liệu DBMS Hệ quản trị cơ sở dữ liệu IR (Information Retrieval) Truy xuất thông tin KPDL Khai phá dữ liệu 6 OODBMS Object Oriented Database Management System Hệ quản trị cơ sở dữ liệu hướng đối tượng 7 RDBMS Ralational Database Management System Hệ quản trị cơ sở dữ liệu quan hệ 8 12 , , , n I i i i Tập n mục dữ liệu 9 12 , , , m DB T T T Cơ sở dữ liệu có m giao tác 1 0 db Cơ sở dữ liệu giao tác con của DB, db DB 1 1 i p Mục dữ liệu thứ p 1 2 T q Giao tác thứ q 1 3 n Số mục dữ liệu một cơ sở dữ liệu giao tác 1 4 m Số giao tác của một cơ sở dữ liệu giao tác 1 A,B,C… Tên các mục dữ liệu trong cơ sở dữ liệu Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 5 5 giao tác 1 6 minsup Ngưỡng độ hỗ trợ 1 7 minshare Ngưỡng cổ phần tối thiểu 1 8 minconf Ngưỡng độ tin cậy tối thiểu 1 9 │X│ Số phần tử của tập hợp X Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 6 DANH MỤC CÁC BẢNG Bảng 1. Biểu diễn cơ sở dữ liệu giao tác ngang 13 Bảng 2. Biểu diễn cơ sở dữ liệu giao tác dọc 13 Bảng 3. Biểu diễn cơ sở dữ liệu giao tác ma trận 14 Bảng 4. Cơ sở dữ liệu minh họa thực hiện thuật toán COFI-tree 26 Bảng 5. Các mục dữ liệu và độ hỗ trợ 27 Bảng 6. Các mục dữ liệu và độ hỗ trợ 27 Bảng 7. Các mục dữ liệu trong giao tác sắp xếp giảm dần theo độ hỗ trợ 27 Bảng 8. Cơ sở dữ liệu ví dụ 34 Bảng 9. Giá trị lmv và cổ phần của các mục dữ liệu trong CSDL bảng 8 35 Bảng 10: Các tập mục cổ phần cao của CSDL bảng 8 36 Bảng 11: CSDL minh họa ngữ nghĩa của tập mục cổ phần cao 37 Bảng 12: Các giá trị lmv và hàm tới hạn với k=1. 44 Bảng 13. Các giá trị lmv và hàm tới hạn với k=2. 45 Bảng 14. Các giá trị lmv và hàm tới hạn với k=3. 46 Bảng 15: CSDL minh họa có trường hợp hai hàm tới hạn bằng nhau. 51 Bảng 16: CSDL minh họa trường hợp hai hàm tới hạn luôn bằng nhau. 51 Bảng 17: Giá trị hai hàm tới hạn khi k=1 52 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 7 DANH MỤC CÁC HÌNH Hình 1.1. Kiến trúc điển hình của hệ thống khai phá dữ liệu 10 Hình 1.2. Hình cây FP-Growth 28 Hình 1.3. Cây COFI-tree của mục D 29 Hình 1.4 Các bước khai phá cây D-COFI-tree 22. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 8 MỞ ĐẦU 1. Đặt vấn đề Chúng ta đang sống trong thời đại bùng nổ về dữ liệu và máy tính đang giữ vai trò ngày càng trở nên quan trọng trong việc lưu trữ và xử lý thông tin. Bên cạnh đó, những thiết bị thu thập dữ liệu tự động cũng phát triển mạnh góp phần tạo ra những kho dữ liệu khổng lồ. Mặc dù trong môi trường tràn ngập dữ liệu như vậy nhưng con người vẫn thiếu thông tin. Theo thống kê của một tổ chức uy tín thì chỉ có 2% - 3% lượng dữ liệu được chuyển thành thông tin có ích. Khi xã hội càng phát triển, lượng thông tin cần càng nhiều thì công việc tổ chức, khai phá dữ liệu ngày càng khó khăn. Như vậy, trong quá trình sử dụng và khai thác thông tin người ta nhận thấy rằng có rất nhiều tri thức còn tiềm ẩn trong dữ liệu. Vấn đề đặt ra là làm thế nào để khai thác được thông tin và khai thác một cách có hiệu quả. Trong quá trình khai phá dữ liệu, có rất nhiều kỹ thuật đã và đang được nghiên cứu. Đặc biệt là các bài toán về khai phá luật kết hợp. Năm 1997, Hilderman đề xuất bài toán khai phá tập mục cổ phần cao. Cổ phần hay đóng góp của một tập mục là số đo tỷ lệ đóng góp của tập mục trong cơ sở dữ liệu. Khai phá tập mục cổ phần cao là khám phá tất cả các tập mục có cổ phần không nhỏ hơn ngưỡng quy định. Loại bài toán này đang được sự quan tâm đặc biệt trong nghiên cứu và đời sống xã hội vì sự đáp ứng to lớn của chúng đối với nhu cầu của thực tiễn. Chính vì vậy, chúng tôi đã chọn đề tài về khai phá tập mục cổ phần cao làm luận văn thạc sỹ của mình. 2. Đối tƣợng và phạm vi nghiên cứu - Đối tượng nghiên cứu là cơ sở dữ liệu giao tác -Phạm vi nghiên cứu trong khuôn khổ tập mục cổ phần cao cùng với các phương pháp, thuật toán khai phá, đặc biệt là tập trung thuật toán khai phá tập mục cổ phần theo giao tác cao là các giá trị theo giao tác của tập mục cần lớn hơn giá trị cổ phần tối thiểu. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 9 3. Hƣớng nghiên cứu của đề tài- Nghiên cứu về khai phá dữ liệu, tập trung vào khai phá tập mục thường xuyên, tập mục cổ phần cao, đặc biệt là tập mục cổ phần cao theo giao tác cao. - Cài đặt thực nghiệm tìm tập mục cổ phần cao theo giao tác cao từ dữ liệu bán hàng của một siêu thị cụ thể ở Thái Nguyên. 4. Những nội dung nghiên cứu chính Ngoài phần mở đầu thì luận văn gồm 3 chương sau: Chƣơng 1. KHÁI QUÁT KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN Chƣơng 2. KHAI PHÁ TẬP MỤC CỔ PHẦN CAO Chƣơng 3. ỨNG DỤNG KHAI PHÁ TẬP MỤC CỔ PHẦN CAO THEO GIAO TÁC CAO 5. Phƣơng pháp nghiên cứu - Kết hợp lý thuyết với đánh giá thực nghiệm - Sưu tâp và tổng hợp các kết quả nghiên cứu về tập mục thường xuyên, Khái phá tập mục cổ phần cao và tập mục cổ phần cao theo giao tác cao từ nguồn sách và các bài báo khoa học, hội thảo chuyên ngành trong nước và ngoài nước. - Phân tích bài toán ứng dụng và chọn lọc thuật toán thử nghiệm thích hợp. 6. Ý nghĩa khoa học của đề tài Nghiên cứu tập mục cổ phần cao theo giao tác cao là một nhiệm vụ khai phá dữ liệu quan trọng nhằm phát hiện những tri thức có ý nghĩa lớn, bảo đảm cơ sở khoa học trong chuyên ngành khoa học máy tính. Trong lĩnh vực kinh doanh việc tìm ra những tập mục cổ phần cao theo giao tác cao là thật sự cần thiết nhằm tăng hiệu suất và lợi nhuận hoạt động kinh tế của các doanh nghiệp. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 10 Chƣơng 1 KHÁI QUÁT KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN 1.1. Tổng quan về khai phá dữ liệu 1.1.1 Kiến trúc của một hệ thống khai phá dữ liệu Kiến trúc của một hệ thống (KPDL) điển hình có thể có các thành phần như hình 1.1. Hình 1.1. Kiến trúc điển hình của hệ thống khai phá dữ liệu - Cơ sở dữ liệu (CSDL), kho dữ liệu hoặc các lưu trữ thông tin khác (Databases, Data warehouse, …): Đây là một hay một tập các CSDL, các kho dữ liệu, các trang tính hay các dạng lưu trữ thông tin khác. Các kỹ thuật làm sạch dữ liệu và tích hợp dữ liệu có thể được thể hiện trên những dữ liệu này. - Máy chủ CSDL hay máy chủ kho dữ liệu (Database or warehouse server): Máy chủ này có trách nhiệm lấy những dữ liệu thích hợp dựa trên các yêu cầu khai phá của người dùng. [...]... tập mục cổ phần cao Số hóa bởi Trung tâm Học liệu 35 http://www.lrc-tnu.edu.vn/ Bảng 10: Các tập mục cổ phần cao của CSDL bảng 8 Tập mục BC BD BCD lmv(X) 21 22 27 Sh(X) 37,5% 39,3% 48,2% cổ phần cao Định nghĩa 2.5: Cho CSDL giao tác DB và ràng buộc cổ phần minShare, khai phá tập mục cổ phần cao là tìm tập HS (High Share), cổ phần cao, tức là tập HS X|X I , Sh( X ) minShare Nhận xét - Dữ liệu cho khai. .. một tập mục X có thể chỉ chứa trong một số ít giao tác của CSDL nhưng lại là tập mục cổ phần cao nếu cổ phần Sh(X) của nó vượt ngưỡng minShare Kể cả khi khai phá trên tập dữ liệu có giá trị nhị phân ( 0 hoặc 1) thì khai phá tập mục cổ phần cao cũng cho kết quả khác với khai phá tập mục thường xuyên Chẳng hạn, với CSDL cho trong bảng 3.4, tập mục X phần Sh( X ) 6 12 ABCDGH chỉ xuất hiện trong giao tác. .. điệu của tập mục cổ phần theo giao tác cao Phần năm trình bày đánh giá thuật toán và kết luận dựa trên việc phân tích thuật toán và thực nghiệm 2.1.2 Bài toán khai phá tập mục cổ phần cao và thuật toán FSM Trước hết ta nêu định nghĩa của một số thuật ngữ: Cho tập các mục (item) I i1 , i2 , , in Một giao tác (transaction) T là một tập con của I, T I Cơ sở dữ liệu là một tập các giao tác DB giao tác được... http://www.lrc-tnu.edu.vn/ Chương này trình bày 5 phần Sau phần giới thiệu, phần hai trình bày các khái niệm cơ bản về tập mục cổ phần cao và phát biểu bài toán khai phá nó Phần ba tóm tắt nội dung và phân tích ưu nhược điểm của thuật toán FSM, một thuật toán nhanh cho phép khám phá tất cả các tập mục cổ phần cao Phần bốn đề xuất khái niệm tập mục cổ phần theo giao tác cao và chứng minh nó có tính chất phản... giao tác (transaction) T là một tập con của I, T I Cơ sở dữ liệu giao tác là tập các giao tác DB={T1,T2, …, Tm} Mỗi giao tác được gán một định danh Tid Một tập mục con X I, gồm k mục phân biệt được gọi là k -tập mục Giao tác T gọi là chứa tập mục X nếu X T Biểu diễn cơ sở dữ liệu giao tác: Cơ sở dữ liệu giao tác thường được biểu diễn ở dạng biểu diễn ngang, biểu diễn dọc và biểu diễn bởi ma trận giao tác. .. pháp nâng cao hiệu quả các thuật toán đã có Phần này sẽ trình bày khái quát các kỹ thuật chính để khai phá tập mục thường xuyên Bài toán khai phá tập mục thường xuyên: tìm các tập mục ứng viên và tìm các tập mục thường xuyên Tập mục ứng viên là tập mục mà ta hy vọng nó là tập mục thường xuyên, phải tính độ hỗ trợ của nó để kiểm tra Tập mục thường xuyên là tập mục có độ hỗ trợ lớn hơn hoặc bằng ngưỡng... tập mục cổ phần cao, tính chất này không còn đúng nữa Vì vậy việc rút gọn không gian tìm kiếm không thể thực hiện được như đối với khai phá tập mục thường xuyên Một số tác giả đã đề nghị một số thuật toán khai phá tập mục cổ phần cao như các thuật toán ZP, ZSP, SIP, FSM, Trong đó, thuật toán FSM là một thuật toán nhanh, cho phép khám phá tất cả các tập mục cổ phần cao trong cơ sở dữ liệu giao tác cho... liệu thì giá trị của tập X chiếm bao nhiêu phần trăm Ví dụ, với CSDL giao tác bán hàng, Sh(X) hàng trong X chiếm 30% Số hóa bởi Trung tâm Học liệu 34 http://www.lrc-tnu.edu.vn/ Định nghĩa 2.4 Cho ngưỡng cổ phần (minimum share) minShare s% và tập mục X X được gọi là tập mục cổ phần cao nếu Sh(X) ≥ minShare Trường hợp ngược lại, X được gọi là tập mục cổ phần thấp Ký hiệu giá trị cổ phần tối thiểu (minimum... các giao tác Mỗi giao tác có một định danh Tid và một danh sách các mục dữ liệu trong giao tác đó Bảng 1 Biểu diễn cơ sở dữ liệu giao tác ngang Mục dữ liệu Giao tác T1 A, C, D T2 B, C, E T3 A, B, C, E T4 B, E Biểu diễn dọc: Cơ sở dữ liệu là một danh sách các mục dữ liệu, mỗi mục dữ liệu có một danh sách tất cả các định danh của các giao tác chứa mục dữ liệu này Bảng 2 Biểu diễn cơ sở dữ liệu giao tác. .. 14 8 4 5 2 4 56 các giao tác chứa tập Ký dbX Tq | Tq hiệu DB dbX là X tập mục X, Tq Định nghĩa 2.1 Cho giao tác Tq chứa tập mục X Giá trị của tập mục X (itemset measure value) trong Tq, ký hiệu imv X , Tq , là tổng giá trị của các mục ip trong Tq thuộc X, imv ( X , Tq ) mv (i p , Tq ) , với X Tq ip X Định nghĩa 2.2 Cho tập mục X, dbX là tập các giao tác chứa X Giá trị của tập mục X (local measure

Ngày đăng: 31/12/2014, 11:59

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w