Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	80
Dung lượng	1,61 MB

Nội dung

i LỜI CẢM ƠN Để có thể hoàn thành tốt luận văn này, em đã có sự động viên, giúp đỡ của rất nhiều người. Trước tiên, em xin bày tỏ lòng kính trọng và sự biết ơn sâu sắc tới TS.Hoàng Thị Lan Giao, người đã hướng dẫn, giúp đỡ và tạo điều kiện cho em trong suốt quá trình làm luận văn. Em xin chân thành cảm ơn PGS.TS Trần Văn Lăng, cùng tất cả các Thầy đã tận tình giảng dạy, trang bị cho tôi những kiến thức quý báu trong suốt quá trình học tập và định hướng nghiên cứu khoa học cho tôi. Cuối cùng, xin cảm ơn gia đình, bạn bè cùng các đồng nghiệp đã giúp đỡ , động viện và tạo điều kiện để tôi có thể hoàn thành quá trình học tập và hoàn thành tốt luận văn này. Đồng Nai, tháng 07 năm 2012 Học viên: Võ Thành Trung ii LỜI CAM ĐOAN Tôi xin cam đoan những kết quả được trình bày trong luận văn này là của riêng tôi, không sao chép từ bất kỳ một công trình nào khác. Nếu có điều gì không trung thực, tôi xin chịu hoàn toàn trách nhiệm. Học viên Võ Thành Trung iii MỤC LỤC Trang LỜI CẢM ƠN . i LỜI CAM ĐOAN ii BẢNG CÁC KÍ HIỆU VIẾT TẮT vi DANH SÁCH CÁC BẢNG . vii DANH SÁCH CÁC HÌNH VẼ . viii MỞ ĐẦU . 1 CHƢƠNG 1.CƠ SỞ LÝ THUYẾT 3 1.1. Khám phá tri thức 3 1.1.1.Khái niệm 3 1.1.2. Các bước chính trong quá trình khám phá tri thức 3 1.1.3. Khai phá dữ liệu 5 1.2. Luật kết hợp 7 1.2.1. Một số khái niệm 7 1.1.2. Luật kết hợp 8 1.3. Bài toán tìm luật kết hợp 9 Hai giai đọan cơ bản của thuật toán khai phá luật kết hợp 10 1.4. Một số thuật toán tìm tập mục phổ biến 10 1.4.1. Thuật toán Apriori 10 1.4.2. Thuật toán FP_Growth 15 1.4.3. Nhận xét về các thuật toán 20 1.4.4. Thuật toán sinh luật kết hợp 21 1.5. Lý thuyết tập thô. 23 1.5.1. Hệ thống thông tin 23 1.5.2. Bảng quyết định 24 1.5.3. Xấp xỉ trên và xấp xỉ dưới 25 iv 1.5.4. Miền khẳng định 26 1.5.5. Thuộc tính cần thiết và không cần thiết 27 1.5.6. Rút gọn và lõi 27 1.6. Kết luận chương 1 29 CHƢƠNG 2.CÁC PHƢƠNG PHÁP ĐÁNH GIÁ LUẬT 31 2.1. Độ đo hữu ích của luật 32 2.1.1. Độ đo Lift 33 2.1.2. Độ đo Cosine 35 2.1.3. Nhận xét 36 2.2. Độ đo quan trọng của luật (RIM) 36 2.2.1.Định nghĩa 36 2.2.2. Ví dụ 38 2.2.3. Nhận xét 45 2.3. Độ đo quan trọng cải tiến (ERIM) 45 2.3.1. Phân cấp 46 2.3.2. Đánh giá độ quan trọng của luật dựa vào khái niệm phân cấp 47 2.3.3. Quá trình thực hiện 48 2.3.4. Các trường hợp đánh giá 49 2.3.5. Nhận xét 58 2.4. Kết luận chương 2 58 CHƢƠNG 3.ỨNG DỤNG KIỂM CHỨNG . 60 3.1. Mô tả bài toán 60 3.2. Mô tả dữ liệu 60 3.3. Các bước thực hiện 62 3.3.1. Cài đặt ứng dụng 63 3.3.2. Luật mẫu 64 3.3.3. Tập luật đƣợc tạo ra 64 v 3.3.4. Tính độ đo RIM 645 3.3.5. Tính độ đo ERIM 66 3.4. Đánh giá 67 3.5. Ứng dụng luật 67 3.6. Kết luận chương 3 68 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 69 Kết luận 69 Hướng phát triển 69 TÀI LIỆU THAM KHẢO vi BẢNG CÁC KÍ HIỆU VIẾT TẮT Ký hiệu, viết tắt Giải thích ý nghĩa KDD Khám phá tri thức Supp(X) Độ hỗ trợ tập mục X Supp(XY) Độ hỗ trợ luật X kéo theo Y Conf(XY) Độ tin cậy luật X kéo theo Y Minsup Độ hộ trợ tối thiểu Minconf Độ tin cậy tối thiểu (U,A) Hệ thống thông tin T=(U,C  D) Bảng quyết định D Tập thuộc tính quyết định trong hệ thông tin a Một thuộc tính điều kiện trong tập thuộc tính điều kiện của hệ thông tin V a Tập giá trị của thuộc tính điều kiện U Tập đối tượng (tập tổng thể) trong hệ thông tin RED Tập rút gọn CORE(C) Tập lõi card (X) hay ||X|| Số lượng phần tử có trong X FP Tree Frequent Pattern Tree TCCN Trung cấp chuyên nghiệp. RIM Rule Importance Measure ERIM Enhanced Rule Importance Measure vii DANH SÁCH CÁC BẢNG Trang Bảng 1.1: CSDL giao tác sinh viên 13 Bảng 1.2: Giá trị của các thuộc tính trong CSDL giao tác sinh viên 13 Bảng 1.3: Khai phá cây FP bằng cách tạo các cơ sở mẫu điều kiện 19 Bảng 1.4. Một ví dụ về hệ thông tin 24 Bảng 1.5. Ví dụ về bảng quyết định TuyenSinh 25 Bảng 2.1. Bảng dữ liệu giao tác 33 Bảng 2.2. Một số rút gọn từ nguồn Geriatric Care Data Set 39 Bảng 2.3. Các thuộc tính của cơ sở dữ liệu chăm sóc bệnh người già(Geriatric Care Data Set) 41 Bảng 2.4. Tập luật quan trọng theo độ đo RIM từ nguồn Geriatric Care Data Set 42 Bảng 2.5. Tập luật được sắp xếp theo độ tin cậy 44 Bảng 2.6. Khái niệm phân cấp đối với dữ liệu chăm sóc người già 49 Bảng 2.7. Các trọng số đối với khái niệm phân cấp của Bảng 2.6 49 Bảng 2.8. Kết quả các luật được sắp xếp theo ERIM 52 Bảng 2.9. Các khái niệm phân cấp mức 8 56 Bảng 2.10. Các trọng số đối với khái niệm phân cấp của Bảng 2.9 56 Bảng 2.11. Luật sinh ra từ tập dữ liệu được sắp xếp theo phân cấp mức 8. 57 Bảng 3.1. Các thuộc tính của dữ liệu kết quả học tập của sinh viên. 60 Bảng 3.2. Các tập rút gọn và thuộc tính 62 Bảng 3.3. Tập các luật quan trọng theo độ đo RIM 63 Bảng 3.4. Gán trọng số cho các khái niệm 64 Bảng 3.5. Tập các luật với độ đo ERIM 64 viii DANH SÁCH CÁC HÌNH VẼ Trang Hình 1.1. Mô hình mô tả quá trình khám phá tri thức 4 Hình 1.2. Sinh ra các tập mục ứng viên và các tập mục thường xuyên. 15 Hình 1.3.Cây FP ghi đầy đủ thông tin mẫu thường xuyên 19 Hình 1.4. Xấp xỉ tập thí sinh cần xem xét khi thi đại học 26 Hình 2.1. Sự phân loại các độ đo hữu ích của luật 32 Hình 2.2. Sơ đồ đánh giá độ quan trọng của luật 37 Hình 2.3. Cây phân cấp 45 Hình 2.4. Cấu trúc các khái niệm trong cấu trúc phân cấp 47 Hình 2.5. Khái niệm phân cấp mức 6 48 Hình 2.6. Khái niệm phân cấp mức 8 55 Hình 3.1. Sinh tập rút gọn từ Rosetta 62 Hình 3.2. Minh họa ứng dụng luật tính độ đo RIM 64 Hình 3.3. Minh họa ứng dụng luật tính độ đo ERIM 64 Hình 3.4. Minh họa ứng dụng luật dự báo kết quả tốt nghiệp của sinh viên 68 1 MỞ ĐẦU Lý do chọn đề tài Với sự phát triển vƣợt bật của công nghệ thông tin, các hệ quản trị cơ sở dữ liệu có thể lƣu trữ dữ liệu về hoạt động hàng ngày dễ dàng, dẫn đến việc hình thành một khối lƣợng dữ liệu khổng lồ, đòi hỏi chúng ta, là những ngƣời sử dụng phải biết khai thác, chọn lọc dữ liệu có ích cho mình. Các tri thức vừa học đƣợc có thể vận dụng để cải thiện hiệu quả hoạt động của hệ thống thông tin ban đầu. Các phƣơng pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng đƣợc thực tế đã làm phát triển một khuynh hƣớng kỹ thuật mới là Khai phá dữ liệu (Data Mining). Khai phá dữ liệu đã đƣợc ứng dụng rất nhiều trong thực tế, nhất là trong lĩnh vực tài chính và thị trƣờng chứng khoán, thƣơng mại, ý tế, sinh học, bƣu chính viễn thôn, nông nghiệp Một trong những chức năng đƣợc đề cập nhiều trong khai phá dữ liệu là khám phá sự kết hợp giữa các mẫu trong dữ liệu hay còn gọi là luật kết hợp. Số lƣợng luật kết hợp cũng tăng theo kích thƣớc cơ sở dữ liệu, vì vậy, nhiều lý thuyết đƣợc đƣa ra để đánh giá độ quan trọng của luật. Trên cơ sở đó lựa chọn các luật phù hợp cho ứng dụng. Đây là một hƣớng nghiên cứu mới và có ý nghĩa. Mục tiêu Luận văn tập trung nghiên cứu các phƣơng pháp đánh giá độ quan trọng của luật đƣợc sinh từ tập cơ sở dữ liệu, trên cơ sở luật kết hợp và lý thuyết tập thô. Việc đánh giá độ quan trọng của luật nhằm hỗ trợ ra quyết định đối với một tổ chức, doanh nghiệp, giúp cho quá trình phân tích từ tập dữ liệu đƣợc tốt hơn. Bên cạnh đó, việc mô phỏng ứng dụng cũng đƣợc đặt ra để minh họa cho việc đánh giá này. Đối tƣợng và phạm vi nghiên cứu Đối tƣợng nghiên cứu là các thuật toán khai phá luật kết hợp. Đồng thời nghiên cứu hai phƣơng pháp đánh giá độ quan trọng của luật là RIM và ERIM. 2 Phƣơng pháp nghiên cứu Nghiên cứu lý thuyết, phân tích, tổng hợp, mô phỏng, khái quát rút ra những vấn đề cần thiết cho đề tài. Ý nghĩa khoa học và thực tiễn đề tài Khai phá dữ liệu là sự khám phá hiệu quả những tri thức từ cơ sở dữ liệu lớn, và nó trở thành một vấn đề nóng cho việc đƣa ra các quyết định. Kỹ thuật khai phá luật kết hợp tuy hiệu quả nhƣng cũng gặp một số bất lợi đối với việc khai phá các dữ liệu lớn. Số luật tăng tỉ lệ thuận với cơ sơ dữ liệu càng làm cho việc tìm kiếm tri thức trở nên khó khăn hơn. Kết hợp với lý thuyết tập thô trong việc đánh giá độ quan trọng của các luật sinh ra phần nào đã giải quyết đƣợc vấn đề sinh quá nhiều luật. Theo kỹ thuật này các luật đƣợc đánh giá với các độ quan trọng khác nhau là độ quan trọng chủ quan và độ quan trọng khách quan. Sự kết hợp này giúp cho các chuyên gia có cái nhìn trực quan hơn trong việc vận dụng các luật thu đƣợc áp dụng vào thực tế. Cấu trúc luận văn Với mục tiêu đó, luận văn đƣợc chia làm ba chƣơng Chƣơng 1: Cơ sở lý thuyết Trong chƣơng này trình bày tổng quan về khai phá dữ liệu,luật kết hợp và lý thuyết tập thô. Chƣơng 2: Các phƣơng pháp đánh giá luật Chƣơng này tập trung nghiên cứu các phƣơng pháp đánh giá độ hữu ích của luật, phƣơng pháp RIM,ERIM. Chƣơng 3: Ứng dụng kiểm chứng Chƣơng này tập trung mô phỏng với dữ liệu kết quả học tập của bậc TCCN ngành kế toán doanh nghiệp tại Trƣờng Cao đẳng Công nghệ Thủ Đức. . Luật kết hợp 7 1.2.1. Một số khái niệm 7 1.1.2. Luật kết hợp 8 1.3. Bài toán tìm luật kết hợp 9 Hai giai đọan cơ bản của thuật toán khai phá luật kết hợp. liệu ,luật kết hợp và lý thuyết tập thô. Chƣơng 2: Các phƣơng pháp đánh giá luật Chƣơng này tập trung nghiên cứu các phƣơng pháp đánh giá độ hữu ích của luật,

Ngày đăng: 18/12/2013, 14:28

Xem thêm