Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
28
Dung lượng
536,86 KB
Nội dung
1 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG o0o Khaiphávà làm sạchdữliệu ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY NGÀNH CÔNG NGHỆ THÔNG TIN Giáo viên hướng dẫn: PGS. TS. Đỗ Trung Tuấn Sinh viên: Nguyễn Hoài Nam Lớp: CT701 Hải Phòng, 2007 2 Nội dung báo cáo Chương 1. Mở đầu. Chương 2. CSDL và nhu cầu về dữliệu meta. Chương 3. Khaiphádữ liệu. Chương 4. Luật kết hợp và các tiếp cận. Chương 5. Thử nghiệm việc khaiphádữ liệu. Chương 6. Kết luận 3 Chương 2. CSDL và nhu cầu về dữliệu meta Mô hình dữliệu quan hệ Nhu cầu về dữliệu meta Trong vài thập niên với những tác động mạnh mẽ của các tiến bộ trong công nghệ công nghệ thông tin và truyền thông nhu cầu về dữliệu ngày càng nhiều Yêu cầu về các thông tin trong các lĩnh vực hoạt động đó đòi hỏi cao hơn, người quyết định không những cần dữliệu mà còn cần có thêm nhiều hiểu biết, nhiều tri thức để hỗ trợ cho việc ra quyết định của mình. 4 Chương 3. Khaiphádữliệu Giới thiệu chung Về khaiphádữliệu Quá trình phát hiện tri thức trong CSDL Nhiệm vụ chính trong khaiphádữliệu Các kĩ thuật khaiphádữliệu Ứng dụng của khaiphádữliệu Khaiphá luật kết hợp và ứng dụng 5 Giới thiệu chung Những năm 60 của thế kỷ trước, người ta bắt đầu sử dụng các công cụ tin học để tổ chức vàkhai thác các CSDL Người ta nói “Chúng ta đang chìm ngập trong dữliệu mà vẫn đói tri thức” Khaiphádữliệu là một lĩnh vực mới, nhằm tự động khai thác những thông tin, những tri thức có tính tiềm ẩn, hữu ích từ những CSDL lớn 6 Về khaiphádữliệu Khaiphádữliệu là một khái niệm ra đời vào những năm cuối của thập kỉ 80 Khaiphádữliệu sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu hay các mô hình từ dữliệu Định nghĩa: Data Mining là một quá trình tìm kiếm, phát hiện tri thức mới, tiềm ẩn, hữu dụng trong CSDL lớn 7 Quá trình phát hiện tri thức trong CSDL 8 Nhiệm vụ chính trong khaiphádữliệu Phân lớp, phân loại Hồi quy Phân nhóm Tóm tắt Mô hình hoá phụ thuộc 9 Các kĩ thuật khaiphádữliệu Các kĩ thuật tiếp cận Dạng dữliệu có thể khaiphá 10 Các kĩ thuật tiếp cận Trên quan điểm của học máy, các kĩ thuật trong Data Mining gồm: Học có giám sát Học không có giám sát Học nửa giám sat Căn cứ vào lớp các bài toán cần giải quyết, khaiphádữliệu có các kỹ thuật áp dụng sau: Phân lớp vàdự đoán Luật kết hợp Phân tích chuỗi theo thời gian Phân cụm Mô tả khái niệm [...]...Dạng dữliệu có thể khaiphá CSDL quan hệ CSDL đa chiều CSDL dạng giao dịch CSDL quan hệ-hướng đối tượng Dữliệu không gian và thời gian Dữ liệu chuỗi thời gian CSDL đa phương tiện Dữliệu Text và Web… 11 Ứng dụng của khai phádữliệu Kinh doanh Ngân hàng Bảo hiểm sức khoẻ Y tế… 12 Khaiphá luật kết hợp và ứng dụng Luật kết hợp là một biểu thức có dạng: X>Y, trong đó X và. .. Chương 5 Thử nghiệm 27 Chương 6 Kết luận Trong quá trình nghiên cứu viết luận văn em đã: tìm hiểu tổng quan về lí thuyết khai phádữ liệu, thuật toán Apriori và luật kết hợp Do thời gian và kinh nghiệm thực tế chưa nhiều nên luận văn còn nhiều thiếu sót mong các thầy cô bỏ qua và góp ý Em xin chân thành cảm ơn! 28 ... các trường gọi là item Ứng dụng trực tiếp của các luật này trong các bài toán kinh doanh 13 Thuật toán về khai phádữliệu thuật toán Apriori Ý tưởng thuật toán Thuật toán Apriori Ví dụ minh hoạ 14 Ý tưởng thuật toán Đề xuất lần đầu vào năm 1993 Thuật toán tìm giao dịch t có độ hỗ trợ và độ tin cậy thoả mãn lớn hơn một giá trị ngưỡng nào đó Thuật toán được tỉa bớt những tập ứng cử viên có... c(AB CD) c(A BCD) 18 Thuật toán Apriori 19 Ví dụ minh hoạ 20 Ví dụ minh hoạ 21 Chương 4 Luật kết hợp và các tiếp cận Khaiphá luật kết hợp Cho trước tỉ lệ hỗ trợ và độ tin cậy Đánh số tất cả các luật trong D có các giá trị tỉ lệ hỗ trợ và tin cậy lớn hơn và tương ứng Lý thuyết về luật kết hợp 22 Chương 5 Thử nghiệm 23 Chương 5 Thử nghiệm 24 Chương 5 Thử nghiệm 25 Chương 5 Thử nghiệm... và L) Dựa vào tính chất của độ tin cậy để tạo ra luật có conf >= minconf Độ tin cậy không có tính chất c(ABC D) có thể lớn hơn hay nhỏ hơn c(AB D) Nhưng nếu luật được sinh ra từ cùng một tập item phổ biến thì có thuộc tính đó: VD: L = {A,B,C,D} c(ABC D) c(AB CD) c(A BCD) 18 Thuật toán Apriori 19 Ví dụ minh hoạ 20 Ví dụ minh hoạ 21 Chương 4 Luật kết hợp và các tiếp cận Khai. .. phổ biến để tạo tập dự kiến Ck (dùng hàm apriori_gen) Duyệt CSDL và tính support cho Ck Lk: là tập hợp của các tập k_item phổ biến, mỗi phần tử là một tập có 2 trường itemset, support Ck: tập hợp của tập k_item dự kiến 16 Thuật toán Apriori 17 Thuật toán Apriori Tạo luật kết hợp: Từ các tập con của tập phổ biến xây dựng luật kết hợp và tính độ tin cậy của luật Từ tập item phổ biến L, tìm tất cả các . 3. Khai phá dữ liệu Giới thiệu chung Về khai phá dữ liệu Quá trình phát hiện tri thức trong CSDL Nhiệm vụ chính trong khai phá dữ liệu Các kĩ thuật khai phá dữ liệu Ứng dụng của khai. CSDL và nhu cầu về dữ liệu meta. Chương 3. Khai phá dữ liệu. Chương 4. Luật kết hợp và các tiếp cận. Chương 5. Thử nghiệm việc khai phá dữ liệu. Chương 6. Kết luận 3 Chương 2. CSDL và nhu. trong dữ liệu mà vẫn đói tri thức” Khai phá dữ liệu là một lĩnh vực mới, nhằm tự động khai thác những thông tin, những tri thức có tính tiềm ẩn, hữu ích từ những CSDL lớn 6 Về khai phá dữ liệu