1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Khai phá và làm sạch dữ liệu

28 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 583,18 KB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -o0o - Khai phá làm liệu ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY NGÀNH CƠNG NGHỆ THƠNG TIN Giáo viên hướng dẫn: PGS TS Đỗ Trung Tuấn Sinh viên: Nguyễn Hồi Nam Lớp: CT701 Hải Phịng, 2007 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nội dung báo cáo       Chương Mở đầu Chương CSDL nhu cầu liệu meta Chương Khai phá liệu Chương Luật kết hợp tiếp cận Chương Thử nghiệm việc khai phá liệu Chương Kết luận LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương CSDL nhu cầu liệu meta Mơ hình liệu quan hệ Nhu cầu liệu meta   Trong vài thập niên với tác động mạnh mẽ tiến công nghệ công nghệ thông tin truyền thông nhu cầu liệu ngày nhiều  Yêu cầu thơng tin lĩnh vực hoạt động địi hỏi cao hơn, người định khơng cần liệu mà cịn cần có thêm nhiều hiểu biết, nhiều tri thức để hỗ trợ cho việc định download LUAN VANraCHAT LUONG : add luanvanchat@agmail.com  Chương Khai phá liệu        Giới thiệu chung Về khai phá liệu Quá trình phát tri thức CSDL Nhiệm vụ khai phá liệu Các kĩ thuật khai phá liệu Ứng dụng khai phá liệu Khai phá luật kết hợp ứng dụng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Giới thiệu chung    Những năm 60 kỷ trước, người ta bắt đầu sử dụng công cụ tin học để tổ chức khai thác CSDL Người ta nói “Chúng ta chìm ngập liệu mà đói tri thức” Khai phá liệu lĩnh vực mới, nhằm tự động khai thác thơng tin, tri thức có tính tiềm ẩn, hữu ích từ CSDL lớn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Về khai phá liệu    Khai phá liệu khái niệm đời vào năm cuối thập kỉ 80 Khai phá liệu sử dụng giải thuật đặc biệt để chiết xuất mẫu hay mơ hình từ liệu Định nghĩa: Data Mining trình tìm kiếm, phát tri thức mới, tiềm ẩn, hữu dụng CSDL lớn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Quá trình phát tri thức CSDL LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nhiệm vụ khai phá liệu      Phân lớp, phân loại Hồi quy Phân nhóm Tóm tắt Mơ hình hố phụ thuộc LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Các kĩ thuật khai phá liệu   Các kĩ thuật tiếp cận Dạng liệu khai phá LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Các kĩ thuật tiếp cận  Trên quan điểm học máy, kĩ thuật Data Mining gồm:     Học có giám sát Học khơng có giám sát Học nửa giám sat Căn vào lớp toán cần giải quyết, khai phá liệu có kỹ thuật áp dụng sau:      Phân lớp dự đoán Luật kết hợp Phân tích chuỗi theo thời gian Phân cụm Mơ tả khái niệm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 10 Thuật toán khai phá liệu thuật toán Apriori    Ý tưởng thuật toán Thuật tốn Apriori Ví dụ minh hoạ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 14 Ý tưởng thuật toán     Đề xuất lần đầu vào năm 1993 Thuật tốn tìm giao dịch t có độ hỗ trợ độ tin cậy thoả mãn lớn giá trị ngưỡng Thuật tốn tỉa bớt tập ứng cử viên có tập khơng phổ biến trước tính độ hỗ trợ Thuật tốn Apriori tính tất tập ứng cử tập k lần duyệt CSDL LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 15 Thuật toán Apriori Gồm bước:  Tạo tập item phổ biến: tạo tất tập item dự kiến, tính tốn độ hỗ trợ, loại bỏ tập dự kiến không đạt minsupp     Kiểm tra tập item có phổ biến không Lần duyệt thứ k: Sử dụng tập Lk-1 tập k-1 item phổ biến để tạo tập dự kiến Ck (dùng hàm apriori_gen) Duyệt CSDL tính support cho Ck Lk: tập hợp tập k_item phổ biến, phần tử tập có trường itemset, support Ck: tập hợp tập k_item dự kiến LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 16 Thuật toán Apriori LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 17 Thuật toán Apriori  Tạo luật kết hợp: Từ tập tập phổ biến xây dựng luật kết hợp tính độ tin cậy luật Từ tập item phổ biến L, tìm tất tập không rỗng f  L tạo luật f  L – f thoả mãn minconf VD: Nếu {A,B,C,D} tập item phổ biến có luật dự kiến: ABC D, ABD C, ACD B, BCD A, A BCD, B ACD, C ABD, D ABC AB CD, AC  BD, AD  BC, BC AD, BD AC, CD AB,  Nếu L có k item tạo 2k-2 luật kết hợp dự kiến(bỏ qua luật L     L)  Dựa vào tính chất độ tin cậy để tạo luật có conf >= minconf  Độ tin cậy khơng có tính chất c(ABC D) lớn hay nhỏ c(AB D)  Nhưng luật sinh từ tập item phổ biến có thuộc tính đó: VD: L = {A,B,C,D} c(ABC  D)  c(AB  CD)  c(A  BCD)  LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 18 Thuật toán Apriori LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 19 Ví dụ minh hoạ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 20 Ví dụ minh hoạ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 21 Chương Luật kết hợp tiếp cận  Khai phá luật kết hợp   Cho trước tỉ lệ hỗ trợ  độ tin cậy  Đánh số tất luật D có giá trị tỉ lệ hỗ trợ tin cậy lớn   tương ứng Lý thuyết luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 22 Chương Thử nghiệm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 23 Chương Thử nghiệm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 24 Chương Thử nghiệm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 25 Chương Thử nghiệm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 26 Chương Thử nghiệm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 27 Chương Kết luận   Trong trình nghiên cứu viết luận văn em đã: tìm hiểu tổng quan lí thuyết khai phá liệu, thuật toán Apriori luật kết hợp Do thời gian kinh nghiệm thực tế chưa nhiều nên luận văn nhiều thiếu sót mong thầy bỏ qua góp ý Em xin chân thành cảm ơn! LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 28 ... liệu        Giới thiệu chung Về khai phá liệu Quá trình phát tri thức CSDL Nhiệm vụ khai phá liệu Các kĩ thuật khai phá liệu Ứng dụng khai phá liệu Khai phá luật kết hợp ứng dụng LUAN VAN... luanvanchat@agmail.com Về khai phá liệu    Khai phá liệu khái niệm đời vào năm cuối thập kỉ 80 Khai phá liệu sử dụng giải thuật đặc biệt để chiết xuất mẫu hay mơ hình từ liệu Định nghĩa: Data... Dạng liệu khai phá CSDL quan hệ  CSDL đa chiều  CSDL dạng giao dịch  CSDL quan hệ-hướng đối tượng  Dữ liệu không gian thời gian  Dữ liệu chuỗi thời gian  CSDL đa phương tiện  Dữ liệu Text

Ngày đăng: 01/11/2022, 15:41

w