1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ

80 758 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 80
Dung lượng 1,61 MB

Nội dung

i LỜI CẢM ƠN Để có thể hoàn thành tốt luận văn này, em đã có sự động viên, giúp đỡ của rất nhiều người. Trước tiên, em xin bày tỏ lòng kính trọng sự biết ơn sâu sắc tới TS.Hoàng Thị Lan Giao, người đã hướng dẫn, giúp đỡ tạo điều kiện cho em trong suốt quá trình làm luận văn. Em xin chân thành cảm ơn PGS.TS Trần Văn Lăng, cùng tất cả các Thầy đã tận tình giảng dạy, trang bị cho tôi những kiến thức quý báu trong suốt quá trình học tập định hướng nghiên cứu khoa học cho tôi. Cuối cùng, xin cảm ơn gia đình, bạn bè cùng các đồng nghiệp đã giúp đỡ , động viện tạo điều kiện để tôi có thể hoàn thành quá trình học tập hoàn thành tốt luận văn này. Đồng Nai, tháng 07 năm 2012 Học viên: Võ Thành Trung ii LỜI CAM ĐOAN Tôi xin cam đoan những kết quả được trình bày trong luận văn này là của riêng tôi, không sao chép từ bất kỳ một công trình nào khác. Nếu có điều gì không trung thực, tôi xin chịu hoàn toàn trách nhiệm. Học viên Võ Thành Trung iii MỤC LỤC Trang LỜI CẢM ƠN . i LỜI CAM ĐOAN ii BẢNG CÁC KÍ HIỆU VIẾT TẮT vi DANH SÁCH CÁC BẢNG . vii DANH SÁCH CÁC HÌNH VẼ . viii MỞ ĐẦU . 1 CHƢƠNG 1.CƠ SỞ LÝ THUYẾT 3 1.1. Khám phá tri thức 3 1.1.1.Khái niệm 3 1.1.2. Các bước chính trong quá trình khám phá tri thức 3 1.1.3. Khai phá dữ liệu 5 1.2. Luật kết hợp 7 1.2.1. Một số khái niệm 7 1.1.2. Luật kết hợp 8 1.3. Bài toán tìm luật kết hợp 9 Hai giai đọan cơ bản của thuật toán khai phá luật kết hợp 10 1.4. Một số thuật toán tìm tập mục phổ biến 10 1.4.1. Thuật toán Apriori 10 1.4.2. Thuật toán FP_Growth 15 1.4.3. Nhận xét về các thuật toán 20 1.4.4. Thuật toán sinh luật kết hợp 21 1.5. Lý thuyết tập thô. 23 1.5.1. Hệ thống thông tin 23 1.5.2. Bảng quyết định 24 1.5.3. Xấp xỉ trên xấp xỉ dưới 25 iv 1.5.4. Miền khẳng định 26 1.5.5. Thuộc tính cần thiết không cần thiết 27 1.5.6. Rút gọn lõi 27 1.6. Kết luận chương 1 29 CHƢƠNG 2.CÁC PHƢƠNG PHÁP ĐÁNH GIÁ LUẬT 31 2.1. Độ đo hữu ích của luật 32 2.1.1. Độ đo Lift 33 2.1.2. Độ đo Cosine 35 2.1.3. Nhận xét 36 2.2. Độ đo quan trọng của luật (RIM) 36 2.2.1.Định nghĩa 36 2.2.2. Ví dụ 38 2.2.3. Nhận xét 45 2.3. Độ đo quan trọng cải tiến (ERIM) 45 2.3.1. Phân cấp 46 2.3.2. Đánh giá độ quan trọng của luật dựa vào khái niệm phân cấp 47 2.3.3. Quá trình thực hiện 48 2.3.4. Các trường hợp đánh giá 49 2.3.5. Nhận xét 58 2.4. Kết luận chương 2 58 CHƢƠNG 3.ỨNG DỤNG KIỂM CHỨNG . 60 3.1. Mô tả bài toán 60 3.2. Mô tả dữ liệu 60 3.3. Các bước thực hiện 62 3.3.1. Cài đặt ứng dụng 63 3.3.2. Luật mẫu 64 3.3.3. Tập luật đƣợc tạo ra 64 v 3.3.4. Tính độ đo RIM 645 3.3.5. Tính độ đo ERIM 66 3.4. Đánh giá 67 3.5. Ứng dụng luật 67 3.6. Kết luận chương 3 68 KẾT LUẬN HƢỚNG PHÁT TRIỂN 69 Kết luận 69 Hướng phát triển 69 TÀI LIỆU THAM KHẢO vi BẢNG CÁC KÍ HIỆU VIẾT TẮT Ký hiệu, viết tắt Giải thích ý nghĩa KDD Khám phá tri thức Supp(X) Độ hỗ trợ tập mục X Supp(XY) Độ hỗ trợ luật X kéo theo Y Conf(XY) Độ tin cậy luật X kéo theo Y Minsup Độ hộ trợ tối thiểu Minconf Độ tin cậy tối thiểu (U,A) Hệ thống thông tin T=(U,C  D) Bảng quyết định D Tập thuộc tính quyết định trong hệ thông tin a Một thuộc tính điều kiện trong tập thuộc tính điều kiện của hệ thông tin V a Tập giá trị của thuộc tính điều kiện U Tập đối tượng (tập tổng thể) trong hệ thông tin RED Tập rút gọn CORE(C) Tập lõi card (X) hay ||X|| Số lượng phần tử có trong X FP Tree Frequent Pattern Tree TCCN Trung cấp chuyên nghiệp. RIM Rule Importance Measure ERIM Enhanced Rule Importance Measure vii DANH SÁCH CÁC BẢNG Trang Bảng 1.1: CSDL giao tác sinh viên 13 Bảng 1.2: Giá trị của các thuộc tính trong CSDL giao tác sinh viên 13 Bảng 1.3: Khai phá cây FP bằng cách tạo các cơ sở mẫu điều kiện 19 Bảng 1.4. Một ví dụ về hệ thông tin 24 Bảng 1.5. Ví dụ về bảng quyết định TuyenSinh 25 Bảng 2.1. Bảng dữ liệu giao tác 33 Bảng 2.2. Một số rút gọn từ nguồn Geriatric Care Data Set 39 Bảng 2.3. Các thuộc tính của cơ sở dữ liệu chăm sóc bệnh người già(Geriatric Care Data Set) 41 Bảng 2.4. Tập luật quan trọng theo độ đo RIM từ nguồn Geriatric Care Data Set 42 Bảng 2.5. Tập luật được sắp xếp theo độ tin cậy 44 Bảng 2.6. Khái niệm phân cấp đối với dữ liệu chăm sóc người già 49 Bảng 2.7. Các trọng số đối với khái niệm phân cấp của Bảng 2.6 49 Bảng 2.8. Kết quả các luật được sắp xếp theo ERIM 52 Bảng 2.9. Các khái niệm phân cấp mức 8 56 Bảng 2.10. Các trọng số đối với khái niệm phân cấp của Bảng 2.9 56 Bảng 2.11. Luật sinh ra từ tập dữ liệu được sắp xếp theo phân cấp mức 8. 57 Bảng 3.1. Các thuộc tính của dữ liệu kết quả học tập của sinh viên. 60 Bảng 3.2. Các tập rút gọn thuộc tính 62 Bảng 3.3. Tập các luật quan trọng theo độ đo RIM 63 Bảng 3.4. Gán trọng số cho các khái niệm 64 Bảng 3.5. Tập các luật với độ đo ERIM 64 viii DANH SÁCH CÁC HÌNH VẼ Trang Hình 1.1. Mô hình mô tả quá trình khám phá tri thức 4 Hình 1.2. Sinh ra các tập mục ứng viên các tập mục thường xuyên. 15 Hình 1.3.Cây FP ghi đầy đủ thông tin mẫu thường xuyên 19 Hình 1.4. Xấp xỉ tập thí sinh cần xem xét khi thi đại học 26 Hình 2.1. Sự phân loại các độ đo hữu ích của luật 32 Hình 2.2. đồ đánh giá độ quan trọng của luật 37 Hình 2.3. Cây phân cấp 45 Hình 2.4. Cấu trúc các khái niệm trong cấu trúc phân cấp 47 Hình 2.5. Khái niệm phân cấp mức 6 48 Hình 2.6. Khái niệm phân cấp mức 8 55 Hình 3.1. Sinh tập rút gọn từ Rosetta 62 Hình 3.2. Minh họa ứng dụng luật tính độ đo RIM 64 Hình 3.3. Minh họa ứng dụng luật tính độ đo ERIM 64 Hình 3.4. Minh họa ứng dụng luật dự báo kết quả tốt nghiệp của sinh viên 68 1 MỞ ĐẦU Lý do chọn đề tài Với sự phát triển vƣợt bật của công nghệ thông tin, các hệ quản trị cơ sở dữ liệu có thể lƣu trữ dữ liệu về hoạt động hàng ngày dễ dàng, dẫn đến việc hình thành một khối lƣợng dữ liệu khổng lồ, đòi hỏi chúng ta, là những ngƣời sử dụng phải biết khai thác, chọn lọc dữ liệu có ích cho mình. Các tri thức vừa học đƣợc có thể vận dụng để cải thiện hiệu quả hoạt động của hệ thống thông tin ban đầu. Các phƣơng pháp quản trị khai thácsở dữ liệu truyền thống ngày càng không đáp ứng đƣợc thực tế đã làm phát triển một khuynh hƣớng kỹ thuật mới là Khai phá dữ liệu (Data Mining). Khai phá dữ liệu đã đƣợc ứng dụng rất nhiều trong thực tế, nhất là trong lĩnh vực tài chính thị trƣờng chứng khoán, thƣơng mại, ý tế, sinh học, bƣu chính viễn thôn, nông nghiệp Một trong những chức năng đƣợc đề cập nhiều trong khai phá dữ liệu là khám phá sự kết hợp giữa các mẫu trong dữ liệu hay còn gọi là luật kết hợp. Số lƣợng luật kết hợp cũng tăng theo kích thƣớc cơ sở dữ liệu, vì vậy, nhiều lý thuyết đƣợc đƣa ra để đánh giá độ quan trọng của luật. Trên cơ sở đó lựa chọn các luật phù hợp cho ứng dụng. Đây là một hƣớng nghiên cứu mới có ý nghĩa. Mục tiêu Luận văn tập trung nghiên cứu các phƣơng pháp đánh giá độ quan trọng của luật đƣợc sinh từ tập cơ sở dữ liệu, trên cơ sở luật kết hợp lý thuyết tập thô. Việc đánh giá độ quan trọng của luật nhằm hỗ trợ ra quyết định đối với một tổ chức, doanh nghiệp, giúp cho quá trình phân tích từ tập dữ liệu đƣợc tốt hơn. Bên cạnh đó, việc mô phỏng ứng dụng cũng đƣợc đặt ra để minh họa cho việc đánh giá này. Đối tƣợng phạm vi nghiên cứu Đối tƣợng nghiên cứu là các thuật toán khai phá luật kết hợp. Đồng thời nghiên cứu hai phƣơng pháp đánh giá độ quan trọng của luật là RIM ERIM. 2 Phƣơng pháp nghiên cứu Nghiên cứu lý thuyết, phân tích, tổng hợp, mô phỏng, khái quát rút ra những vấn đề cần thiết cho đề tài. Ý nghĩa khoa học thực tiễn đề tài Khai phá dữ liệu là sự khám phá hiệu quả những tri thức từ cơ sở dữ liệu lớn, nó trở thành một vấn đề nóng cho việc đƣa ra các quyết định. Kỹ thuật khai phá luật kết hợp tuy hiệu quả nhƣng cũng gặp một số bất lợi đối với việc khai phá các dữ liệu lớn. Số luật tăng tỉ lệ thuận với cơ dữ liệu càng làm cho việc tìm kiếm tri thức trở nên khó khăn hơn. Kết hợp với lý thuyết tập thô trong việc đánh giá độ quan trọng của các luật sinh ra phần nào đã giải quyết đƣợc vấn đề sinh quá nhiều luật. Theo kỹ thuật này các luật đƣợc đánh giá với các độ quan trọng khác nhau là độ quan trọng chủ quan độ quan trọng khách quan. Sự kết hợp này giúp cho các chuyên gia có cái nhìn trực quan hơn trong việc vận dụng các luật thu đƣợc áp dụng vào thực tế. Cấu trúc luận văn Với mục tiêu đó, luận văn đƣợc chia làm ba chƣơng Chƣơng 1: Cơ sở lý thuyết Trong chƣơng này trình bày tổng quan về khai phá dữ liệu,luật kết hợp lý thuyết tập thô. Chƣơng 2: Các phƣơng pháp đánh giá luật Chƣơng này tập trung nghiên cứu các phƣơng pháp đánh giá độ hữu ích của luật, phƣơng pháp RIM,ERIM. Chƣơng 3: Ứng dụng kiểm chứng Chƣơng này tập trung mô phỏng với dữ liệu kết quả học tập của bậc TCCN ngành kế toán doanh nghiệp tại Trƣờng Cao đẳng Công nghệ Thủ Đức. . Luật kết hợp 7 1.2.1. Một số khái niệm 7 1.1.2. Luật kết hợp 8 1.3. Bài toán tìm luật kết hợp 9 Hai giai đọan cơ bản của thuật toán khai phá luật kết hợp. liệu ,luật kết hợp và lý thuyết tập thô. Chƣơng 2: Các phƣơng pháp đánh giá luật Chƣơng này tập trung nghiên cứu các phƣơng pháp đánh giá độ hữu ích của luật,

Ngày đăng: 18/12/2013, 14:28

HÌNH ẢNH LIÊN QUAN

BẢNG CÁC KÍ HIỆU VIẾT TẮT - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
BẢNG CÁC KÍ HIỆU VIẾT TẮT (Trang 6)
Hình 1.1. Mô hình mô tả quá trình khám phá tri thức - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
Hình 1.1. Mô hình mô tả quá trình khám phá tri thức (Trang 12)
Ví dụ 1.3: Cơ sở dữ liệu giao tác sinh viê nD cho ở Bảng 1.1 - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
d ụ 1.3: Cơ sở dữ liệu giao tác sinh viê nD cho ở Bảng 1.1 (Trang 21)
Hình 1.2. Sinh ra các tập mục ứng viên và các tập mục thường xuyên. - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
Hình 1.2. Sinh ra các tập mục ứng viên và các tập mục thường xuyên (Trang 23)
Hình 1.3.Cây FP ghi đầy đủ thông tin mẫu thường xuyên Bảng 1.3. Khai phá cây FP bằng cách tạo các cơ sở mẫu điều kiện  - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
Hình 1.3. Cây FP ghi đầy đủ thông tin mẫu thường xuyên Bảng 1.3. Khai phá cây FP bằng cách tạo các cơ sở mẫu điều kiện (Trang 27)
Một tập dữ liệu mô tả bởi một bảng, trong đó mỗi hàng biểu diễn "bản ghi" (thể hiện một phần tử, một trƣờng hợp, một sự kiện hay đơn giản là biểu diễn một  đối tƣợng), còn các cột biểu diễn một thuộc tính (một biến, một quan sát, một tính  chất,.v - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
t tập dữ liệu mô tả bởi một bảng, trong đó mỗi hàng biểu diễn "bản ghi" (thể hiện một phần tử, một trƣờng hợp, một sự kiện hay đơn giản là biểu diễn một đối tƣợng), còn các cột biểu diễn một thuộc tính (một biến, một quan sát, một tính chất,.v (Trang 31)
1.5.2. Bảng quyết định - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
1.5.2. Bảng quyết định (Trang 32)
Một tri thức đƣợc tổng hợp từ bảng quyết định trên sẽ là luật có dạng “Nếu có - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
t tri thức đƣợc tổng hợp từ bảng quyết định trên sẽ là luật có dạng “Nếu có (Trang 33)
Ví dụ 1.11: Xét bảng quyết định trong Bảng 1.5, tập thuộc tính rút gọn và thuộc tính lõi biểu diễn nhƣ sau:  - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
d ụ 1.11: Xét bảng quyết định trong Bảng 1.5, tập thuộc tính rút gọn và thuộc tính lõi biểu diễn nhƣ sau: (Trang 36)
Hình 2.1. Sự phân loại các độ đo hữu ích của luật - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
Hình 2.1. Sự phân loại các độ đo hữu ích của luật (Trang 41)
Hình 2.2. Sơ đồ đánh giá độ quan trọng của luật - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
Hình 2.2. Sơ đồ đánh giá độ quan trọng của luật (Trang 46)
sinh các tập rút gọn thu đƣợc 86 tập rút gọn và 14 thuộc tính lõi, Bảng 2.2 bao gồm một số thuộc tính rút gọn tiêu biểu - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
sinh các tập rút gọn thu đƣợc 86 tập rút gọn và 14 thuộc tính lõi, Bảng 2.2 bao gồm một số thuộc tính rút gọn tiêu biểu (Trang 48)
Bảng 2.3. Các thuộc tính của cơ sở dữ liệu chăm sóc bệnh người già(Geriatric Care Data Set)  - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
Bảng 2.3. Các thuộc tính của cơ sở dữ liệu chăm sóc bệnh người già(Geriatric Care Data Set) (Trang 49)
Bảng 2.4. Tập luật quan trọng theo độ đo RIM từ nguồn Geriatric Care Data Set - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
Bảng 2.4. Tập luật quan trọng theo độ đo RIM từ nguồn Geriatric Care Data Set (Trang 51)
Bảng 2.5. Tập luật được sắp xếp theo độ tin cậy - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
Bảng 2.5. Tập luật được sắp xếp theo độ tin cậy (Trang 52)
- Hạn chế của độ đo quan trọng luật là khi bảng quyết định có số rút gọn càng ít thì càng nhiều luật có độ đo  quan trọng luật  nhƣ nhau - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
n chế của độ đo quan trọng luật là khi bảng quyết định có số rút gọn càng ít thì càng nhiều luật có độ đo quan trọng luật nhƣ nhau (Trang 53)
Hình 2.4. Cấu trúc các khái niệm trong cấu trúc phân cấp - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
Hình 2.4. Cấu trúc các khái niệm trong cấu trúc phân cấp (Trang 56)
Mô tả chi tiết về cách phân các thuộc tính vào 6 mụ cở bảng 2.6. Khái niệm phân cấp mức 6 đƣợc chỉ ra ở hình 2.5 - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
t ả chi tiết về cách phân các thuộc tính vào 6 mụ cở bảng 2.6. Khái niệm phân cấp mức 6 đƣợc chỉ ra ở hình 2.5 (Trang 57)
Bảng 2.6. Khái niệm phân cấp đối với dữ liệu chăm sóc người già - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
Bảng 2.6. Khái niệm phân cấp đối với dữ liệu chăm sóc người già (Trang 58)
Bảng 2.8. Kết quả các luật được sắp xếp theo ERIM - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
Bảng 2.8. Kết quả các luật được sắp xếp theo ERIM (Trang 60)
Hình 2.6. Khái niệm phân cấp mức 8 Bảng 2.9. Các khái niệm phân cấp mức 8  - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
Hình 2.6. Khái niệm phân cấp mức 8 Bảng 2.9. Các khái niệm phân cấp mức 8 (Trang 64)
Bảng 2.10. Các trọng cho các khái niệm phân cấp của Bảng 2.9 - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
Bảng 2.10. Các trọng cho các khái niệm phân cấp của Bảng 2.9 (Trang 65)
Bảng 2.11. Luật sinh ra từ tập dữ liệu được sắp xếp theo phân cấp mức 8. - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
Bảng 2.11. Luật sinh ra từ tập dữ liệu được sắp xếp theo phân cấp mức 8 (Trang 65)
Bảng 3.1. Các thuộc tính của dữ liệu kết quả học tập của sinh viên. - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
Bảng 3.1. Các thuộc tính của dữ liệu kết quả học tập của sinh viên (Trang 69)
Hình 3.1. Sinh tập rút gọn từ Rosetta - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
Hình 3.1. Sinh tập rút gọn từ Rosetta (Trang 71)
Hình 3.3. Minh họa ứng dụng luật tính độ đo RIM và ERIM. - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
Hình 3.3. Minh họa ứng dụng luật tính độ đo RIM và ERIM (Trang 72)
Hình 3.2. Minh họa ứng dụng luật tính độ đo RIM. - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
Hình 3.2. Minh họa ứng dụng luật tính độ đo RIM (Trang 72)
Trong bảng 3.5 đã tính lại độ quan trọng dựa theo ERIM. - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
rong bảng 3.5 đã tính lại độ quan trọng dựa theo ERIM (Trang 74)
Hình 3.4. Minh họa ứng dụng luật dự báo kết quả tốt nghiệp của sinh viên. - Nghiên cứu một số phương pháp đánh giá luật kết hợp và ứng dụng luận văn thạc sĩ
Hình 3.4. Minh họa ứng dụng luật dự báo kết quả tốt nghiệp của sinh viên (Trang 76)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w