Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 80 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
80
Dung lượng
1,61 MB
Nội dung
i LỜI CẢM ƠN Để có thể hoàn thành tốt luậnvăn này, em đã có sự động viên, giúp đỡ của rất nhiều người. Trước tiên, em xin bày tỏ lòng kính trọng và sự biết ơn sâu sắc tới TS.Hoàng Thị Lan Giao, người đã hướng dẫn, giúp đỡ và tạo điều kiện cho em trong suốt quá trình làm luận văn. Em xin chân thành cảm ơn PGS.TS Trần Văn Lăng, cùng tất cả các Thầy đã tận tình giảng dạy, trang bị cho tôi những kiến thức quý báu trong suốt quá trình học tập và định hướng nghiêncứu khoa học cho tôi. Cuối cùng, xin cảm ơn gia đình, bạn bè cùng các đồng nghiệp đã giúp đỡ , động viện và tạo điều kiện để tôi có thể hoàn thành quá trình học tập và hoàn thành tốt luậnvăn này. Đồng Nai, tháng 07 năm 2012 Học viên: Võ Thành Trung ii LỜI CAM ĐOAN Tôi xin cam đoan những kết quả được trình bày trong luậnvăn này là của riêng tôi, không sao chép từ bất kỳ một công trình nào khác. Nếu có điều gì không trung thực, tôi xin chịu hoàn toàn trách nhiệm. Học viên Võ Thành Trung iii MỤC LỤC Trang LỜI CẢM ƠN . i LỜI CAM ĐOAN ii BẢNG CÁC KÍ HIỆU VIẾT TẮT vi DANH SÁCH CÁC BẢNG . vii DANH SÁCH CÁC HÌNH VẼ . viii MỞ ĐẦU . 1 CHƢƠNG 1.CƠ SỞ LÝ THUYẾT 3 1.1. Khám phá tri thức 3 1.1.1.Khái niệm 3 1.1.2. Các bước chính trong quá trình khám phá tri thức 3 1.1.3. Khai phá dữ liệu 5 1.2. Luậtkếthợp 7 1.2.1. Mộtsố khái niệm 7 1.1.2. Luậtkếthợp 8 1.3. Bài toán tìm luậtkếthợp 9 Hai giai đọan cơ bản của thuật toán khai phá luậtkếthợp 10 1.4. Mộtsố thuật toán tìm tập mục phổ biến 10 1.4.1. Thuật toán Apriori 10 1.4.2. Thuật toán FP_Growth 15 1.4.3. Nhận xét về các thuật toán 20 1.4.4. Thuật toán sinh luậtkếthợp 21 1.5. Lý thuyết tập thô. 23 1.5.1. Hệ thống thông tin 23 1.5.2. Bảng quyết định 24 1.5.3. Xấp xỉ trên và xấp xỉ dưới 25 iv 1.5.4. Miền khẳng định 26 1.5.5. Thuộc tính cần thiết và không cần thiết 27 1.5.6. Rút gọn và lõi 27 1.6. Kếtluận chương 1 29 CHƢƠNG 2.CÁC PHƢƠNG PHÁPĐÁNHGIÁLUẬT 31 2.1. Độ đo hữu ích của luật 32 2.1.1. Độ đo Lift 33 2.1.2. Độ đo Cosine 35 2.1.3. Nhận xét 36 2.2. Độ đo quan trọng của luật (RIM) 36 2.2.1.Định nghĩa 36 2.2.2. Ví dụ 38 2.2.3. Nhận xét 45 2.3. Độ đo quan trọng cải tiến (ERIM) 45 2.3.1. Phân cấp 46 2.3.2. Đánhgiá độ quan trọng của luật dựa vào khái niệm phân cấp 47 2.3.3. Quá trình thực hiện 48 2.3.4. Các trường hợpđánhgiá 49 2.3.5. Nhận xét 58 2.4. Kếtluận chương 2 58 CHƢƠNG 3.ỨNG DỤNG KIỂM CHỨNG . 60 3.1. Mô tả bài toán 60 3.2. Mô tả dữ liệu 60 3.3. Các bước thực hiện 62 3.3.1. Cài đặt ứngdụng 63 3.3.2. Luật mẫu 64 3.3.3. Tập luật đƣợc tạo ra 64 v 3.3.4. Tính độ đo RIM 645 3.3.5. Tính độ đo ERIM 66 3.4. Đánhgiá 67 3.5. Ứngdụngluật 67 3.6. Kếtluận chương 3 68 KẾTLUẬNVÀ HƢỚNG PHÁT TRIỂN 69 Kếtluận 69 Hướng phát triển 69 TÀI LIỆU THAM KHẢO vi BẢNG CÁC KÍ HIỆU VIẾT TẮT Ký hiệu, viết tắt Giải thích ý nghĩa KDD Khám phá tri thức Supp(X) Độ hỗ trợ tập mục X Supp(XY) Độ hỗ trợ luật X kéo theo Y Conf(XY) Độ tin cậy luật X kéo theo Y Minsup Độ hộ trợ tối thiểu Minconf Độ tin cậy tối thiểu (U,A) Hệ thống thông tin T=(U,C D) Bảng quyết định D Tập thuộc tính quyết định trong hệ thông tin a Một thuộc tính điều kiện trong tập thuộc tính điều kiện của hệ thông tin V a Tập giá trị của thuộc tính điều kiện U Tập đối tượng (tập tổng thể) trong hệ thông tin RED Tập rút gọn CORE(C) Tập lõi card (X) hay ||X|| Số lượng phần tử có trong X FP Tree Frequent Pattern Tree TCCN Trung cấp chuyên nghiệp. RIM Rule Importance Measure ERIM Enhanced Rule Importance Measure vii DANH SÁCH CÁC BẢNG Trang Bảng 1.1: CSDL giao tác sinh viên 13 Bảng 1.2: Giá trị của các thuộc tính trong CSDL giao tác sinh viên 13 Bảng 1.3: Khai phá cây FP bằng cách tạo các cơ sở mẫu điều kiện 19 Bảng 1.4. Một ví dụ về hệ thông tin 24 Bảng 1.5. Ví dụ về bảng quyết định TuyenSinh 25 Bảng 2.1. Bảng dữ liệu giao tác 33 Bảng 2.2. Mộtsố rút gọn từ nguồn Geriatric Care Data Set 39 Bảng 2.3. Các thuộc tính của cơ sở dữ liệu chăm sóc bệnh người già(Geriatric Care Data Set) 41 Bảng 2.4. Tập luật quan trọng theo độ đo RIM từ nguồn Geriatric Care Data Set 42 Bảng 2.5. Tập luật được sắp xếp theo độ tin cậy 44 Bảng 2.6. Khái niệm phân cấp đối với dữ liệu chăm sóc người già 49 Bảng 2.7. Các trọng số đối với khái niệm phân cấp của Bảng 2.6 49 Bảng 2.8. Kết quả các luật được sắp xếp theo ERIM 52 Bảng 2.9. Các khái niệm phân cấp mức 8 56 Bảng 2.10. Các trọng số đối với khái niệm phân cấp của Bảng 2.9 56 Bảng 2.11. Luật sinh ra từ tập dữ liệu được sắp xếp theo phân cấp mức 8. 57 Bảng 3.1. Các thuộc tính của dữ liệu kết quả học tập của sinh viên. 60 Bảng 3.2. Các tập rút gọn và thuộc tính 62 Bảng 3.3. Tập các luật quan trọng theo độ đo RIM 63 Bảng 3.4. Gán trọng số cho các khái niệm 64 Bảng 3.5. Tập các luật với độ đo ERIM 64 viii DANH SÁCH CÁC HÌNH VẼ Trang Hình 1.1. Mô hình mô tả quá trình khám phá tri thức 4 Hình 1.2. Sinh ra các tập mục ứng viên và các tập mục thường xuyên. 15 Hình 1.3.Cây FP ghi đầy đủ thông tin mẫu thường xuyên 19 Hình 1.4. Xấp xỉ tập thí sinh cần xem xét khi thi đại học 26 Hình 2.1. Sự phân loại các độ đo hữu ích của luật 32 Hình 2.2. Sơ đồ đánhgiá độ quan trọng của luật 37 Hình 2.3. Cây phân cấp 45 Hình 2.4. Cấu trúc các khái niệm trong cấu trúc phân cấp 47 Hình 2.5. Khái niệm phân cấp mức 6 48 Hình 2.6. Khái niệm phân cấp mức 8 55 Hình 3.1. Sinh tập rút gọn từ Rosetta 62 Hình 3.2. Minh họa ứngdụngluật tính độ đo RIM 64 Hình 3.3. Minh họa ứngdụngluật tính độ đo ERIM 64 Hình 3.4. Minh họa ứngdụngluật dự báo kết quả tốt nghiệp của sinh viên 68 1 MỞ ĐẦU Lý do chọn đề tài Với sự phát triển vƣợt bật của công nghệ thông tin, các hệ quản trị cơ sở dữ liệu có thể lƣu trữ dữ liệu về hoạt động hàng ngày dễ dàng, dẫn đến việc hình thành một khối lƣợng dữ liệu khổng lồ, đòi hỏi chúng ta, là những ngƣời sử dụng phải biết khai thác, chọn lọc dữ liệu có ích cho mình. Các tri thức vừa học đƣợc có thể vậndụng để cải thiện hiệu quả hoạt động của hệ thống thông tin ban đầu. Các phƣơng pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng đƣợc thực tế đã làm phát triển một khuynh hƣớng kỹ thuật mới là Khai phá dữ liệu (Data Mining). Khai phá dữ liệu đã đƣợc ứngdụng rất nhiều trong thực tế, nhất là trong lĩnh vực tài chính và thị trƣờng chứng khoán, thƣơng mại, ý tế, sinh học, bƣu chính viễn thôn, nông nghiệp Một trong những chức năng đƣợc đề cập nhiều trong khai phá dữ liệu là khám phá sự kếthợp giữa các mẫu trong dữ liệu hay còn gọi là luậtkết hợp. Số lƣợng luậtkếthợp cũng tăng theo kích thƣớc cơ sở dữ liệu, vì vậy, nhiều lý thuyết đƣợc đƣa ra để đánhgiá độ quan trọng của luật. Trên cơ sở đó lựa chọn các luật phù hợp cho ứng dụng. Đây là một hƣớng nghiêncứu mới và có ý nghĩa. Mục tiêu Luậnvăn tập trung nghiêncứu các phƣơng phápđánhgiá độ quan trọng của luật đƣợc sinh từ tập cơ sở dữ liệu, trên cơ sởluậtkếthợpvà lý thuyết tập thô. Việc đánhgiá độ quan trọng của luật nhằm hỗ trợ ra quyết định đối với một tổ chức, doanh nghiệp, giúp cho quá trình phân tích từ tập dữ liệu đƣợc tốt hơn. Bên cạnh đó, việc mô phỏng ứngdụng cũng đƣợc đặt ra để minh họa cho việc đánhgiá này. Đối tƣợng và phạm vi nghiêncứu Đối tƣợng nghiêncứu là các thuật toán khai phá luậtkết hợp. Đồng thời nghiêncứu hai phƣơng phápđánhgiá độ quan trọng của luật là RIM và ERIM. 2 Phƣơng phápnghiêncứuNghiêncứu lý thuyết, phân tích, tổng hợp, mô phỏng, khái quát rút ra những vấn đề cần thiết cho đề tài. Ý nghĩa khoa học và thực tiễn đề tài Khai phá dữ liệu là sự khám phá hiệu quả những tri thức từ cơ sở dữ liệu lớn, và nó trở thành mộtvấn đề nóng cho việc đƣa ra các quyết định. Kỹ thuật khai phá luậtkếthợp tuy hiệu quả nhƣng cũng gặp mộtsố bất lợi đối với việc khai phá các dữ liệu lớn. Sốluật tăng tỉ lệ thuận với cơ sơ dữ liệu càng làm cho việc tìm kiếm tri thức trở nên khó khăn hơn. Kếthợp với lý thuyết tập thô trong việc đánhgiá độ quan trọng của các luật sinh ra phần nào đã giải quyết đƣợc vấn đề sinh quá nhiều luật. Theo kỹ thuật này các luật đƣợc đánhgiá với các độ quan trọng khác nhau là độ quan trọng chủ quan và độ quan trọng khách quan. Sự kếthợp này giúp cho các chuyên gia có cái nhìn trực quan hơn trong việc vậndụng các luật thu đƣợc áp dụng vào thực tế. Cấu trúc luậnvăn Với mục tiêu đó, luậnvăn đƣợc chia làm ba chƣơng Chƣơng 1: Cơ sở lý thuyết Trong chƣơng này trình bày tổng quan về khai phá dữ liệu,luật kếthợpvà lý thuyết tập thô. Chƣơng 2: Các phƣơng phápđánhgiáluật Chƣơng này tập trung nghiêncứu các phƣơng phápđánhgiá độ hữu ích của luật, phƣơng pháp RIM,ERIM. Chƣơng 3: Ứngdụng kiểm chứng Chƣơng này tập trung mô phỏng với dữ liệu kết quả học tập của bậc TCCN ngành kế toán doanh nghiệp tại Trƣờng Cao đẳng Công nghệ Thủ Đức. . Luật kết hợp 7 1.2.1. Một số khái niệm 7 1.1.2. Luật kết hợp 8 1.3. Bài toán tìm luật kết hợp 9 Hai giai đọan cơ bản của thuật toán khai phá luật kết hợp. liệu ,luật kết hợp và lý thuyết tập thô. Chƣơng 2: Các phƣơng pháp đánh giá luật Chƣơng này tập trung nghiên cứu các phƣơng pháp đánh giá độ hữu ích của luật,