Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 80 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
80
Dung lượng
1,61 MB
Nội dung
i LỜI CẢM ƠN Để có thể hoàn thành tốt luậnvăn này, em đã có sự động viên, giúp đỡ của rất nhiều người. Trước tiên, em xin bày tỏ lòng kính trọng và sự biết ơn sâu sắc tới TS.Hoàng Thị Lan Giao, người đã hướng dẫn, giúp đỡ và tạo điều kiện cho em trong suốt quá trình làm luận văn. Em xin chân thành cảm ơn PGS.TS Trần Văn Lăng, cùng tất cả các Thầy đã tận tình giảng dạy, trang bị cho tôi những kiến thức quý báu trong suốt quá trình học tập và định hướng nghiêncứu khoa học cho tôi. Cuối cùng, xin cảm ơn gia đình, bạn bè cùng các đồng nghiệp đã giúp đỡ , động viện và tạo điều kiện để tôi có thể hoàn thành quá trình học tập và hoàn thành tốt luậnvăn này. Đồng Nai, tháng 07 năm 2012 Học viên: Võ Thành Trung ii LỜI CAM ĐOAN Tôi xin cam đoan những kết quả được trình bày trong luậnvăn này là của riêng tôi, không sao chép từ bất kỳ một công trình nào khác. Nếu có điều gì không trung thực, tôi xin chịu hoàn toàn trách nhiệm. Học viên Võ Thành Trung iii MỤC LỤC Trang LỜI CẢM ƠN . i LỜI CAM ĐOAN ii BẢNG CÁC KÍ HIỆU VIẾT TẮT vi DANH SÁCH CÁC BẢNG . vii DANH SÁCH CÁC HÌNH VẼ . viii MỞ ĐẦU . 1 CHƢƠNG 1.CƠ SỞ LÝ THUYẾT 3 1.1. Khám phá tri thức 3 1.1.1.Khái niệm 3 1.1.2. Các bước chính trong quá trình khám phá tri thức 3 1.1.3. Khai phá dữ liệu 5 1.2. Luậtkếthợp 7 1.2.1. Mộtsố khái niệm 7 1.1.2. Luậtkếthợp 8 1.3. Bài toán tìm luậtkếthợp 9 Hai giai đọan cơ bản của thuật toán khai phá luậtkếthợp 10 1.4. Mộtsố thuật toán tìm tập mục phổ biến 10 1.4.1. Thuật toán Apriori 10 1.4.2. Thuật toán FP_Growth 15 1.4.3. Nhận xét về các thuật toán 20 1.4.4. Thuật toán sinh luậtkếthợp 21 1.5. Lý thuyết tập thô. 23 1.5.1. Hệ thống thông tin 23 1.5.2. Bảng quyết định 24 1.5.3. Xấp xỉ trên và xấp xỉ dưới 25 iv 1.5.4. Miền khẳng định 26 1.5.5. Thuộc tính cần thiết và không cần thiết 27 1.5.6. Rút gọn và lõi 27 1.6. Kếtluận chương 1 29 CHƢƠNG 2.CÁC PHƢƠNG PHÁPĐÁNHGIÁLUẬT 31 2.1. Độ đo hữu ích của luật 32 2.1.1. Độ đo Lift 33 2.1.2. Độ đo Cosine 35 2.1.3. Nhận xét 36 2.2. Độ đo quan trọng của luật (RIM) 36 2.2.1.Định nghĩa 36 2.2.2. Ví dụ 38 2.2.3. Nhận xét 45 2.3. Độ đo quan trọng cải tiến (ERIM) 45 2.3.1. Phân cấp 46 2.3.2. Đánhgiá độ quan trọng của luật dựa vào khái niệm phân cấp 47 2.3.3. Quá trình thực hiện 48 2.3.4. Các trường hợpđánhgiá 49 2.3.5. Nhận xét 58 2.4. Kếtluận chương 2 58 CHƢƠNG 3.ỨNG DỤNG KIỂM CHỨNG . 60 3.1. Mô tả bài toán 60 3.2. Mô tả dữ liệu 60 3.3. Các bước thực hiện 62 3.3.1. Cài đặt ứngdụng 63 3.3.2. Luật mẫu 64 3.3.3. Tập luật đƣợc tạo ra 64 v 3.3.4. Tính độ đo RIM 645 3.3.5. Tính độ đo ERIM 66 3.4. Đánhgiá 67 3.5. Ứngdụngluật 67 3.6. Kếtluận chương 3 68 KẾTLUẬNVÀ HƢỚNG PHÁT TRIỂN 69 Kếtluận 69 Hướng phát triển 69 TÀI LIỆU THAM KHẢO vi BẢNG CÁC KÍ HIỆU VIẾT TẮT Ký hiệu, viết tắt Giải thích ý nghĩa KDD Khám phá tri thức Supp(X) Độ hỗ trợ tập mục X Supp(XY) Độ hỗ trợ luật X kéo theo Y Conf(XY) Độ tin cậy luật X kéo theo Y Minsup Độ hộ trợ tối thiểu Minconf Độ tin cậy tối thiểu (U,A) Hệ thống thông tin T=(U,C D) Bảng quyết định D Tập thuộc tính quyết định trong hệ thông tin a Một thuộc tính điều kiện trong tập thuộc tính điều kiện của hệ thông tin V a Tập giá trị của thuộc tính điều kiện U Tập đối tượng (tập tổng thể) trong hệ thông tin RED Tập rút gọn CORE(C) Tập lõi card (X) hay ||X|| Số lượng phần tử có trong X FP Tree Frequent Pattern Tree TCCN Trung cấp chuyên nghiệp. RIM Rule Importance Measure ERIM Enhanced Rule Importance Measure vii DANH SÁCH CÁC BẢNG Trang Bảng 1.1: CSDL giao tác sinh viên 13 Bảng 1.2: Giá trị của các thuộc tính trong CSDL giao tác sinh viên 13 Bảng 1.3: Khai phá cây FP bằng cách tạo các cơ sở mẫu điều kiện 19 Bảng 1.4. Một ví dụ về hệ thông tin 24 Bảng 1.5. Ví dụ về bảng quyết định TuyenSinh 25 Bảng 2.1. Bảng dữ liệu giao tác 33 Bảng 2.2. Mộtsố rút gọn từ nguồn Geriatric Care Data Set 39 Bảng 2.3. Các thuộc tính của cơ sở dữ liệu chăm sóc bệnh người già(Geriatric Care Data Set) 41 Bảng 2.4. Tập luật quan trọng theo độ đo RIM từ nguồn Geriatric Care Data Set 42 Bảng 2.5. Tập luật được sắp xếp theo độ tin cậy 44 Bảng 2.6. Khái niệm phân cấp đối với dữ liệu chăm sóc người già 49 Bảng 2.7. Các trọng số đối với khái niệm phân cấp của Bảng 2.6 49 Bảng 2.8. Kết quả các luật được sắp xếp theo ERIM 52 Bảng 2.9. Các khái niệm phân cấp mức 8 56 Bảng 2.10. Các trọng số đối với khái niệm phân cấp của Bảng 2.9 56 Bảng 2.11. Luật sinh ra từ tập dữ liệu được sắp xếp theo phân cấp mức 8. 57 Bảng 3.1. Các thuộc tính của dữ liệu kết quả học tập của sinh viên. 60 Bảng 3.2. Các tập rút gọn và thuộc tính 62 Bảng 3.3. Tập các luật quan trọng theo độ đo RIM 63 Bảng 3.4. Gán trọng số cho các khái niệm 64 Bảng 3.5. Tập các luật với độ đo ERIM 64 viii DANH SÁCH CÁC HÌNH VẼ Trang Hình 1.1. Mô hình mô tả quá trình khám phá tri thức 4 Hình 1.2. Sinh ra các tập mục ứng viên và các tập mục thường xuyên. 15 Hình 1.3.Cây FP ghi đầy đủ thông tin mẫu thường xuyên 19 Hình 1.4. Xấp xỉ tập thí sinh cần xem xét khi thi đại học 26 Hình 2.1. Sự phân loại các độ đo hữu ích của luật 32 Hình 2.2. Sơ đồ đánhgiá độ quan trọng của luật 37 Hình 2.3. Cây phân cấp 45 Hình 2.4. Cấu trúc các khái niệm trong cấu trúc phân cấp 47 Hình 2.5. Khái niệm phân cấp mức 6 48 Hình 2.6. Khái niệm phân cấp mức 8 55 Hình 3.1. Sinh tập rút gọn từ Rosetta 62 Hình 3.2. Minh họa ứngdụngluật tính độ đo RIM 64 Hình 3.3. Minh họa ứngdụngluật tính độ đo ERIM 64 Hình 3.4. Minh họa ứngdụngluật dự báo kết quả tốt nghiệp của sinh viên 68 1 MỞ ĐẦU Lý do chọn đề tài Với sự phát triển vƣợt bật của công nghệ thông tin, các hệ quản trị cơ sở dữ liệu có thể lƣu trữ dữ liệu về hoạt động hàng ngày dễ dàng, dẫn đến việc hình thành một khối lƣợng dữ liệu khổng lồ, đòi hỏi chúng ta, là những ngƣời sử dụng phải biết khai thác, chọn lọc dữ liệu có ích cho mình. Các tri thức vừa học đƣợc có thể vậndụng để cải thiện hiệu quả hoạt động của hệ thống thông tin ban đầu. Các phƣơng pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng đƣợc thực tế đã làm phát triển một khuynh hƣớng kỹ thuật mới là Khai phá dữ liệu (Data Mining). Khai phá dữ liệu đã đƣợc ứngdụng rất nhiều trong thực tế, nhất là trong lĩnh vực tài chính và thị trƣờng chứng khoán, thƣơng mại, ý tế, sinh học, bƣu chính viễn thôn, nông nghiệp Một trong những chức năng đƣợc đề cập nhiều trong khai phá dữ liệu là khám phá sự kếthợp giữa các mẫu trong dữ liệu hay còn gọi là luậtkết hợp. Số lƣợng luậtkếthợp cũng tăng theo kích thƣớc cơ sở dữ liệu, vì vậy, nhiều lý thuyết đƣợc đƣa ra để đánhgiá độ quan trọng của luật. Trên cơ sở đó lựa chọn các luật phù hợp cho ứng dụng. Đây là một hƣớng nghiêncứu mới và có ý nghĩa. Mục tiêu Luậnvăn tập trung nghiêncứu các phƣơng phápđánhgiá độ quan trọng của luật đƣợc sinh từ tập cơ sở dữ liệu, trên cơ sởluậtkếthợpvà lý thuyết tập thô. Việc đánhgiá độ quan trọng của luật nhằm hỗ trợ ra quyết định đối với một tổ chức, doanh nghiệp, giúp cho quá trình phân tích từ tập dữ liệu đƣợc tốt hơn. Bên cạnh đó, việc mô phỏng ứngdụng cũng đƣợc đặt ra để minh họa cho việc đánhgiá này. Đối tƣợng và phạm vi nghiêncứu Đối tƣợng nghiêncứu là các thuật toán khai phá luậtkết hợp. Đồng thời nghiêncứu hai phƣơng phápđánhgiá độ quan trọng của luật là RIM và ERIM. 2 Phƣơng phápnghiêncứuNghiêncứu lý thuyết, phân tích, tổng hợp, mô phỏng, khái quát rút ra những vấn đề cần thiết cho đề tài. Ý nghĩa khoa học và thực tiễn đề tài Khai phá dữ liệu là sự khám phá hiệu quả những tri thức từ cơ sở dữ liệu lớn, và nó trở thành mộtvấn đề nóng cho việc đƣa ra các quyết định. Kỹ thuật khai phá luậtkếthợp tuy hiệu quả nhƣng cũng gặp mộtsố bất lợi đối với việc khai phá các dữ liệu lớn. Sốluật tăng tỉ lệ thuận với cơ sơ dữ liệu càng làm cho việc tìm kiếm tri thức trở nên khó khăn hơn. Kếthợp với lý thuyết tập thô trong việc đánhgiá độ quan trọng của các luật sinh ra phần nào đã giải quyết đƣợc vấn đề sinh quá nhiều luật. Theo kỹ thuật này các luật đƣợc đánhgiá với các độ quan trọng khác nhau là độ quan trọng chủ quan và độ quan trọng khách quan. Sự kếthợp này giúp cho các chuyên gia có cái nhìn trực quan hơn trong việc vậndụng các luật thu đƣợc áp dụng vào thực tế. Cấu trúc luậnvăn Với mục tiêu đó, luậnvăn đƣợc chia làm ba chƣơng Chƣơng 1: Cơ sở lý thuyết Trong chƣơng này trình bày tổng quan về khai phá dữ liệu,luật kếthợpvà lý thuyết tập thô. Chƣơng 2: Các phƣơng phápđánhgiáluật Chƣơng này tập trung nghiêncứu các phƣơng phápđánhgiá độ hữu ích của luật, phƣơng pháp RIM,ERIM. Chƣơng 3: Ứngdụng kiểm chứng Chƣơng này tập trung mô phỏng với dữ liệu kết quả học tập của bậc TCCN ngành kế toán doanh nghiệp tại Trƣờng Cao đẳng Công nghệ Thủ Đức. . Luật kết hợp 7 1.2.1. Một số khái niệm 7 1.1.2. Luật kết hợp 8 1.3. Bài toán tìm luật kết hợp 9 Hai giai đọan cơ bản của thuật toán khai phá luật kết hợp. liệu ,luật kết hợp và lý thuyết tập thô. Chƣơng 2: Các phƣơng pháp đánh giá luật Chƣơng này tập trung nghiên cứu các phƣơng pháp đánh giá độ hữu ích của luật,
BẢNG CÁC KÍ HIỆU VIẾT TẮT (Trang 6)
Hình 1.1.
Mô hình mô tả quá trình khám phá tri thức (Trang 12)
d
ụ 1.3: Cơ sở dữ liệu giao tác sinh viê nD cho ở Bảng 1.1 (Trang 21)
Hình 1.2.
Sinh ra các tập mục ứng viên và các tập mục thường xuyên (Trang 23)
Hình 1.3.
Cây FP ghi đầy đủ thông tin mẫu thường xuyên Bảng 1.3. Khai phá cây FP bằng cách tạo các cơ sở mẫu điều kiện (Trang 27)
t
tập dữ liệu mô tả bởi một bảng, trong đó mỗi hàng biểu diễn "bản ghi" (thể hiện một phần tử, một trƣờng hợp, một sự kiện hay đơn giản là biểu diễn một đối tƣợng), còn các cột biểu diễn một thuộc tính (một biến, một quan sát, một tính chất,.v (Trang 31)
1.5.2.
Bảng quyết định (Trang 32)
t
tri thức đƣợc tổng hợp từ bảng quyết định trên sẽ là luật có dạng “Nếu có (Trang 33)
d
ụ 1.11: Xét bảng quyết định trong Bảng 1.5, tập thuộc tính rút gọn và thuộc tính lõi biểu diễn nhƣ sau: (Trang 36)
Hình 2.1.
Sự phân loại các độ đo hữu ích của luật (Trang 41)
Hình 2.2.
Sơ đồ đánh giá độ quan trọng của luật (Trang 46)
sinh
các tập rút gọn thu đƣợc 86 tập rút gọn và 14 thuộc tính lõi, Bảng 2.2 bao gồm một số thuộc tính rút gọn tiêu biểu (Trang 48)
Bảng 2.3.
Các thuộc tính của cơ sở dữ liệu chăm sóc bệnh người già(Geriatric Care Data Set) (Trang 49)
Bảng 2.4.
Tập luật quan trọng theo độ đo RIM từ nguồn Geriatric Care Data Set (Trang 51)
Bảng 2.5.
Tập luật được sắp xếp theo độ tin cậy (Trang 52)
n
chế của độ đo quan trọng luật là khi bảng quyết định có số rút gọn càng ít thì càng nhiều luật có độ đo quan trọng luật nhƣ nhau (Trang 53)
Hình 2.4.
Cấu trúc các khái niệm trong cấu trúc phân cấp (Trang 56)
t
ả chi tiết về cách phân các thuộc tính vào 6 mụ cở bảng 2.6. Khái niệm phân cấp mức 6 đƣợc chỉ ra ở hình 2.5 (Trang 57)
Bảng 2.6.
Khái niệm phân cấp đối với dữ liệu chăm sóc người già (Trang 58)
Bảng 2.8.
Kết quả các luật được sắp xếp theo ERIM (Trang 60)
Hình 2.6.
Khái niệm phân cấp mức 8 Bảng 2.9. Các khái niệm phân cấp mức 8 (Trang 64)
Bảng 2.10.
Các trọng cho các khái niệm phân cấp của Bảng 2.9 (Trang 65)
Bảng 2.11.
Luật sinh ra từ tập dữ liệu được sắp xếp theo phân cấp mức 8 (Trang 65)
Bảng 3.1.
Các thuộc tính của dữ liệu kết quả học tập của sinh viên (Trang 69)
Hình 3.1.
Sinh tập rút gọn từ Rosetta (Trang 71)
Hình 3.3.
Minh họa ứng dụng luật tính độ đo RIM và ERIM (Trang 72)
Hình 3.2.
Minh họa ứng dụng luật tính độ đo RIM (Trang 72)
rong
bảng 3.5 đã tính lại độ quan trọng dựa theo ERIM (Trang 74)
Hình 3.4.
Minh họa ứng dụng luật dự báo kết quả tốt nghiệp của sinh viên (Trang 76)