1. Trang chủ
  2. » Luận Văn - Báo Cáo

khai phá và làm sạch dữ liệu

28 599 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 536,86 KB

Nội dung

1 BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG o0o Khai phá làm sạch dữ liệu ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY NGÀNH CÔNG NGHỆ THÔNG TIN Giáo viên hướng dẫn: PGS. TS. Đỗ Trung Tuấn Sinh viên: Nguyễn Hoài Nam Lớp: CT701 Hải Phòng, 2007 2 Nội dung báo cáo  Chương 1. Mở đầu.  Chương 2. CSDL nhu cầu về dữ liệu meta.  Chương 3. Khai phá dữ liệu.  Chương 4. Luật kết hợp các tiếp cận.  Chương 5. Thử nghiệm việc khai phá dữ liệu.  Chương 6. Kết luận 3 Chương 2. CSDL nhu cầu về dữ liệu meta  Mô hình dữ liệu quan hệ  Nhu cầu về dữ liệu meta  Trong vài thập niên với những tác động mạnh mẽ của các tiến bộ trong công nghệ công nghệ thông tin truyền thông nhu cầu về dữ liệu ngày càng nhiều  Yêu cầu về các thông tin trong các lĩnh vực hoạt động đó đòi hỏi cao hơn, người quyết định không những cần dữ liệu mà còn cần có thêm nhiều hiểu biết, nhiều tri thức để hỗ trợ cho việc ra quyết định của mình. 4 Chương 3. Khai phá dữ liệu  Giới thiệu chung  Về khai phá dữ liệu  Quá trình phát hiện tri thức trong CSDL  Nhiệm vụ chính trong khai phá dữ liệu  Các kĩ thuật khai phá dữ liệu  Ứng dụng của khai phá dữ liệuKhai phá luật kết hợp ứng dụng 5 Giới thiệu chung  Những năm 60 của thế kỷ trước, người ta bắt đầu sử dụng các công cụ tin học để tổ chức khai thác các CSDL  Người ta nói “Chúng ta đang chìm ngập trong dữ liệu mà vẫn đói tri thức”  Khai phá dữ liệu là một lĩnh vực mới, nhằm tự động khai thác những thông tin, những tri thức có tính tiềm ẩn, hữu ích từ những CSDL lớn 6 Về khai phá dữ liệuKhai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỉ 80  Khai phá dữ liệu sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu hay các mô hình từ dữ liệu  Định nghĩa: Data Mining là một quá trình tìm kiếm, phát hiện tri thức mới, tiềm ẩn, hữu dụng trong CSDL lớn 7 Quá trình phát hiện tri thức trong CSDL 8 Nhiệm vụ chính trong khai phá dữ liệu  Phân lớp, phân loại  Hồi quy  Phân nhóm  Tóm tắt  Mô hình hoá phụ thuộc 9 Các kĩ thuật khai phá dữ liệu  Các kĩ thuật tiếp cận  Dạng dữ liệu có thể khai phá 10 Các kĩ thuật tiếp cận  Trên quan điểm của học máy, các kĩ thuật trong Data Mining gồm:  Học có giám sát  Học không có giám sát  Học nửa giám sat  Căn cứ vào lớp các bài toán cần giải quyết, khai phá dữ liệu có các kỹ thuật áp dụng sau:  Phân lớp dự đoán  Luật kết hợp  Phân tích chuỗi theo thời gian  Phân cụm  Mô tả khái niệm [...]...Dạng dữ liệu có thể khai phá         CSDL quan hệ CSDL đa chiều CSDL dạng giao dịch CSDL quan hệ-hướng đối tượng Dữ liệu không gian thời gian Dữ liệu chuỗi thời gian CSDL đa phương tiện Dữ liệu Text Web… 11 Ứng dụng của khai phá dữ liệu     Kinh doanh Ngân hàng Bảo hiểm sức khoẻ Y tế… 12 Khai phá luật kết hợp ứng dụng   Luật kết hợp là một biểu thức có dạng: X>Y, trong đó X và. .. Chương 5 Thử nghiệm 27 Chương 6 Kết luận   Trong quá trình nghiên cứu viết luận văn em đã: tìm hiểu tổng quan về lí thuyết khai phá dữ liệu, thuật toán Apriori luật kết hợp Do thời gian kinh nghiệm thực tế chưa nhiều nên luận văn còn nhiều thiếu sót mong các thầy cô bỏ qua góp ý Em xin chân thành cảm ơn! 28 ... các trường gọi là item Ứng dụng trực tiếp của các luật này trong các bài toán kinh doanh 13 Thuật toán về khai phá dữ liệu thuật toán Apriori    Ý tưởng thuật toán Thuật toán Apriori Ví dụ minh hoạ 14 Ý tưởng thuật toán     Đề xuất lần đầu vào năm 1993 Thuật toán tìm giao dịch t có độ hỗ trợ độ tin cậy thoả mãn lớn hơn một giá trị ngưỡng nào đó Thuật toán được tỉa bớt những tập ứng cử viên có... c(AB  CD)  c(A  BCD)  18 Thuật toán Apriori 19 Ví dụ minh hoạ 20 Ví dụ minh hoạ 21 Chương 4 Luật kết hợp các tiếp cận  Khai phá luật kết hợp   Cho trước tỉ lệ hỗ trợ  độ tin cậy  Đánh số tất cả các luật trong D có các giá trị tỉ lệ hỗ trợ tin cậy lớn hơn   tương ứng Lý thuyết về luật kết hợp 22 Chương 5 Thử nghiệm 23 Chương 5 Thử nghiệm 24 Chương 5 Thử nghiệm 25 Chương 5 Thử nghiệm...    L)  Dựa vào tính chất của độ tin cậy để tạo ra luật có conf >= minconf  Độ tin cậy không có tính chất c(ABC D) có thể lớn hơn hay nhỏ hơn c(AB D)  Nhưng nếu luật được sinh ra từ cùng một tập item phổ biến thì có thuộc tính đó: VD: L = {A,B,C,D} c(ABC  D)  c(AB  CD)  c(A  BCD)  18 Thuật toán Apriori 19 Ví dụ minh hoạ 20 Ví dụ minh hoạ 21 Chương 4 Luật kết hợp các tiếp cận  Khai. .. phổ biến để tạo tập dự kiến Ck (dùng hàm apriori_gen) Duyệt CSDL tính support cho Ck Lk: là tập hợp của các tập k_item phổ biến, mỗi phần tử là một tập có 2 trường itemset, support Ck: tập hợp của tập k_item dự kiến 16 Thuật toán Apriori 17 Thuật toán Apriori  Tạo luật kết hợp: Từ các tập con của tập phổ biến xây dựng luật kết hợp tính độ tin cậy của luật Từ tập item phổ biến L, tìm tất cả các . 3. Khai phá dữ liệu  Giới thiệu chung  Về khai phá dữ liệu  Quá trình phát hiện tri thức trong CSDL  Nhiệm vụ chính trong khai phá dữ liệu  Các kĩ thuật khai phá dữ liệu  Ứng dụng của khai. CSDL và nhu cầu về dữ liệu meta.  Chương 3. Khai phá dữ liệu.  Chương 4. Luật kết hợp và các tiếp cận.  Chương 5. Thử nghiệm việc khai phá dữ liệu.  Chương 6. Kết luận 3 Chương 2. CSDL và nhu. trong dữ liệu mà vẫn đói tri thức”  Khai phá dữ liệu là một lĩnh vực mới, nhằm tự động khai thác những thông tin, những tri thức có tính tiềm ẩn, hữu ích từ những CSDL lớn 6 Về khai phá dữ liệu 

Ngày đăng: 27/06/2014, 13:39

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w