1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiếp ận tập thô xây dựng cây quyết định đa trị trong khai phá dữ liệu

78 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Lý thuyết tập thơ đưa ra các cơng cụ tốn học để phát hiện các dạng ẩn trong dữ liệu: nhận biết một phần hoặc toàn bộ sự phụ thuộc ví dụ, các quan hệ nguyên nhân-kết quả trong các cơ sở d

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGUYỄN THỊ MINH TÂM TIẾP CẬN TẬP THÔ XÂY DỰNG CÂY QUYẾT ĐỊNH ĐA TRỊ TRONG KHAI PHÁ DỮ LIỆU LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH: …………………… Hà Nội 2008 Tai ngay!!! Ban co the xoa dong chu nay!!! 17057205109581000000 CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc -LỜI CAM ĐOAN Tên là: Nguyễn Thị Minh Tâm Sinh ngày: 21/01/1980 Quê quán: Thành phố Vinh - Tỉnh Nghệ An Địa chỉ: Nghệ An Khối - Phường Quang Trung – Thành phố Vinh - Tỉnh Là học viên lớp Cao học Cơng Nghệ Thơng Tin khố 2003 – 2005, trường Đại học Bách khoa Hà nội Tôi làm luận văn tốt nghiệp cao học với đề tài “Tiếp cận tập thô xây dựng định đa trị khai phá liệu”, PGS TS Nguyễn Thanh Thuỷ hướng dẫn Tôi xin cam đoan luận văn tốt nghiệp làm Các kết luận văn trung thực chưa công bố cơng trình khác Hà nội, ngày 01 tháng 11 năm 2005 Người cam đoan Nguyễn Thị Minh Tâm MỤC LỤC LỜI CAM ĐOAN MỤC LỤC Danh mục hình vẽ bảng Mở đầu Chương Tổng quan phát tri thức sở liệu 1.1 Khái niệm phát tri thức 1.2 Tiến trình phát tri thức sở liệu 10 1.3 Các nhiệm vụ khai phá liệu 12 1.4 Các phương pháp DM 15 1.4.1 Tập thô 15 1.4.2 Tập mờ 16 1.4.3 Cây định 16 1.4.4 Các phương pháp Bayes 16 1.4.5 Mạng Nơron 17 1.4.6 Tin học tiến hoá 17 1.4.7 Học máy 18 1.4.8 Phân cụm 18 1.4.9 Các phương pháp khác 19 1.5 Các ứng dụng KDD 20 1.6 Các thách thức KDD 21 Kết luận 23 Chương : Lý thuyết tập thô 24 2.1 Các khái niệm tập thô 24 2.1.1 Các hệ thông tin 24 2.1.2 Các xấp xỉ tập 26 2.1.3 Các bảng định 31 2.1.4 Sự phụ thuộc thuộc tính 32 2.1.5 Rút gọn thuộc tính 33 2.2 Cách tiếp cận tập thô hệ thông tin đa trị .34 2.2.1 Các hệ thông tin đa trị 36 2.2.2 Các xấp xỉ tập 38 2.2.3 Sự phụ thuộc thuộc tính 39 2.2.4 Rút gọn thuộc tính 39 2.2.5 Các luật định 41 Kết luận 43 Chương Cây định đa trị 44 3.1 Cây định 44 3.1.1 Giới thiệu định 45 3.1.2 Các vấn đề việc khai phá liệu với định 45 3.1.3 Giải thuật xây dựng định 49 3.2 Cây định đa trị 51 3.2.1 Giới thiệu định đa trị 51 3.2.2 Những khó khăn việc quản lý liệu đa trị phương pháp phân lớp truyền thống 54 3.2.3 Giải thuật xây dựng định đa trị 56 Kết luận 58 Chương Xây dựng định đa trị dựa tập thô có độ xác thay đổi 59 4.1 Giới thiệu 59 4.2 Lý thuyết tập thơ có độ xác thay đổi 61 4.2 Giải thuật xây dựng định dựa tập thơ có độ xác thay đổi 64 4.3 Ví dụ minh hoạ 66 4.4 Đánh giá 69 Kết luận 73 KẾT LUẬN 74 Tài liệu tham khảo 75 Danh mục hình vẽ bảng Hình 1.1 - Tiến trình KDD 11 Hình 1.2 Các kỹ thuật khai phá liệu (tháng 2/2005) [16] 20 Bảng 2.1 – Hệ thông tin T1 25 Hình 2.1 Các xấp xỉ thô tập 27 Hình 2.2 Các miền không gian đối tượng 28 Bảng 2.2 Hệ thông tin T2 29 Bảng 2.3 - Hệ thông tin đa trị bệnh nhân bị nghẽn mạch [15] 34 Bảng 3.1 Tập liệu huấn luyện đa trị 52 Hình 3.1 Ví dụ định đa trị 53 Bảng 4.1 Ví dụ bảng định 66 Hình 4.1 Cây định đa trị xây dựng giải thuật VPRSDTA 68 Hình 4.2 Cây định xây dựng giải thuật ID3 72 Mở đầu Với tốc độ tin học hoá nhanh vài thập kỷ qua, hầu hết tổ chức cá nhân thu thập lưu trữ khối lượng liệu khổng lồ sở liệu họ Lúc đó, việc hiểu chúng vượt xa khả người Dữ liệu thu thập sở liệu trở thành liệu "bị chơn vùi" - xem xét Các định thường thực dựa vào trực giác người tạo định mà không dựa vào liệu giàu thơng tin có sẵn sở liệu Đơn giản người tạo định khơng có cơng cụ để trích rút tri thức có giá trị Các kỹ thuật hệ chuyên gia dựa vào thao tác thủ công để chuyển đổi tri thức chuyên môn thành tri thức biểu diễn máy Các thao tác thiên tính chủ quan, có nhiều lỗi cộng với chi phí cao, thời gian xử lý lớn Tình lúc mơ tả "Giàu liệu nghèo thông tin" [11] Các công cụ phát tri thức sở liệu (Knowledge Discovery in Databases - KDD) đời thực việc phân tích liệu để phát tri thức có ích dạng hay mơ hình Phương pháp dùng định phương pháp khai phá liệu để tìm phân lớp tri thức tập liệu huấn luyện cách xây dựng định Trong trình xây dựng định, thuộc tính xấp xỉ phải chọn làm nút dựa số tiêu chuẩn có độ xác cao, chiều cao nhỏ, để thu kết tối thiểu theo nghĩa Cây định có cấu trúc nút biểu diễn phép kiểm tra giá trị thuộc tính đó, nhánh tương ứng với giá trị thuộc tính, nút biểu diễn lớp hay phân bố lớp Có nhiều giải thuật xây dựng định Giải thuật xây dựng định giải thuật xuống (top – down) tìm kiếm tham lam tồn khơng gian định Lý thuyết tập thô Pawlak đề xuất vào đầu năm 1980 xem cách tiếp cận để phát tri thức "tạo thành sở vững cho ứng dụng khai phá liệu" [8] Chúng ta thấy rõ phát triển nhanh nghiên cứu lý thuyết tập thô ứng dụng chúng Cho đến nay, có hàng ngàn báo cơng bố tập thô ứng dụng chúng Lý thuyết tập thô áp dụng thành công nhiều lĩnh vực y học, dược học, ngân hàng, tài chính, phân tích thị trường Lý thuyết tập thơ đưa cơng cụ tốn học để phát dạng ẩn liệu: nhận biết phần tồn phụ thuộc (ví dụ, quan hệ nguyên nhân-kết quả) sở liệu, loại liệu thừa, đưa cách tiếp cận vấn đề liệu không đầy đủ (dữ liệu khơng có giá trị, thiếu liệu, liệu động ) Dữ liệu khơng đầy đủ có nhiều dạng, có nhiều trường hợp liệu lưu trữ không chắn thể qua hệ thơng tin với thuộc tính đa trị Cách tiếp cận lý thuyết tập thô Pawlak không xem xét trường hợp này, làm hạn chế ứng dụng xử lý liệu Luận văn trình bày cách tiếp cận để xây dựng định đa trị có khả chịu lỗi dựa phát triển lý thuyết tập thơ - mơ hình tập thơ có độ xác thay đổi (VPRS - Variable precision Rough Sets) Dựa lý thuyết tập thơ có độ xác thay đổi, khái niệm quan hệ tương đương đưa ra, quan hệ tương đương có độ xác β dùng để xây dựng định đa trị Ngoài phần mở đầu kết luận, luận văn bao gồm bốn chương Chương Tổng quan phát tri thức sở liệu Chương trình bày khái niệm lĩnh vực nghiên cứu KDD, quy trình KDD, nhiệm vụ chủ yếu khai phá liệu (Data Mining - DM), phương pháp DM, ứng dụng KDD thách thức lĩnh vực nghiên cứu Chương Lý thuyết tập thô Chương trình bày khái niệm lý thuyết tập thô, cách tiếp cận tập thô để xử lý hệ thơng tin với thuộc tính đa trị Chương Cây định đa trị Chương trình bày định đơn trị giải thuật xây dựng định đơn trị Từ ta thấy khó khăn việc quản lý liệu đa trị phương pháp phân lớp truyền thống định đơn trị Trong chương trình bày định đa trị giải thuật để xây dựng định đa trị Chương Xây dựng định đa trị dựa tập thơ có độ xác thay đổi Chương giới thiệu mơ hình tập thơ có độ xác thay đổi đưa giải thuật xây dựng định dựa tập thơ có độ xác thay đổi nhằm khai phá liệu Tác giả xin bày tỏ lòng biết ơn sâu sắc tới PGS TS Nguyễn Thanh Thuỷ dẫn khoa học quý giá, định hướng cho luận văn hướng dẫn tận tình Thầy Tác giả xin chân thành cảm ơn Thầy Cô giáo khoa Công Nghệ Thông Tin, Trung tâm Đào tạo Bồi dưỡng Sau Đại học trường Đại học Bách khoa Hà Nội bạn lớp Cao học 2003 CNTT tạo điều kiện, giúp đỡ tác giả hoàn thành luận văn Chương Tổng quan phát tri thức sở liệu Knowledge Discovery and Data mining (KDD) lĩnh vực nghiên cứu phát triển mạnh mẽ KDD kết hợp sở liệu (CSDL) với kỹ thuật thống kê, học máy lĩnh vực liên quan để trích rút tri thức thơng tin có giá trị từ số lượng liệu lớn KDD có nhiều lợi ích ứng dụng khoa học thương mại Các tổ chức, phủ cộng đồng người nghiên cứu khoa học ngày bị tràn ngập dòng chảy liệu thu thập lưu trữ hàng ngày từ sở liệu trực tuyến Việc phân tích liệu trích rút dạng có ích thời gian hợp lý khó khăn khơng có trợ giúp máy tính cơng cụ phân tích mạnh Các chương trình phân tích thống kê dựa vào máy tính thường bị hạn chế khơng có điều khiển, dẫn nhà thống kê chuyên gia để lọc giải thích kết KDD xem lĩnh vực nghiên cứu có triển vọng từ năm 1990 nhà nghiên cứu học máy sở liệu 1.1 Khái niệm phát tri thức KDD lĩnh vực nghiên cứu ứng dụng tập trung vào liệu, thông tin tri thức Nói chung, thường xem liệu chuỗi bit, số hay ký hiệu, đối tượng mà có ý nghĩa gửi đến cho chương trình theo định dạng cho trước (nhưng chưa hiểu được) Chúng ta sử dụng bit để đo thông tin xem liệu lược bỏ dư thừa rút gọn tới mức tối thiểu cần thiết để tạo nên định mà đặc tả chất liệu (dữ liệu hiểu được) Chúng ta

Ngày đăng: 22/01/2024, 17:08