Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 69 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
69
Dung lượng
0,97 MB
Nội dung
Khoa Công Nghệ Thông Tin Trường Đại Học Cần Thơ Đỗ Thanh Nghị dtnghi@cit.ctu.edu.vn Cần Thơ 24-11-2008 Từ khám phátrithức đến khaimỏdữliệu Knowledge Discovery in Databases - Data Mining Nội dung ■ tại sao KDD & DM là cần thiết? ■ những ứng dụng của KDD & DM ■ quá trình KDD ■ giải thuật DM ■ kết luận và hướng phát triển ■ tài liệu tham khảo 2 Nội dung ■ tại sao KDD & DM là cần thiết? ■ những ứng dụng của KDD & DM ■ quá trình KDD ■ giải thuật DM ■ kết luận và hướng phát triển ■ tài liệu tham khảo 3 Sự bùng nổ dữliệu ■ trong những năm 90, với sự phát triển mạnh của: ● công nghệ vi xử lý ● công nghệ lưu trữ ● công nghệ truyền thông ● ứng dụng công nghệ thông tin trong nhiều lãnh vực dữliệu tăng nhanh bùng nổ dữliệu (Lyman et al., 2003), http://www.sims.berkeley.edu /research/projects/how-much-info/ 4 ■ tại sao KDD & DM là cần thiết? ■ những ứng dụng của KDD & DM ■ quá trình KDD ■ giải thuật DM ■ kết luận và hướng phát triển ■ tài liệu tham khảo Một vài ví dụ ■ cơ sở dữliệu khoa học thiên văn ● Europe’s Very Long Baseline Interforometry (VLBI) ● 16 kính thiên văn ● mỗi kính thu 1 Gigabits/giây dữliệu ● phân tích dữliệu thu được của 25 ngày ● kho dữliệu quá lớn, vài Terabytes (1) 5 (1): 1 Kb = 1000 bytes, 1 Mb = 1000 2 bytes, 1 Gb = 1000 3 bytes, 1 Tb = 1000 4 bytes, 1 Pb = 1000 5 bytes, 1 Eb = 1000 6 bytes, 1 Zb = 1000 7 bytes, 1 Yb = 1000 8 bytes ■ tại sao KDD & DM là cần thiết? ■ những ứng dụng của KDD & DM ■ quá trình KDD ■ giải thuật DM ■ kết luận và hướng phát triển ■ tài liệu tham khảo Một vài ví dụ ■ các cơ sở dữliệu khoa học khác ● NSA: hàng triệu tài liệu văn bản nói về khủng bố ● Merck: hàng triệu cấu trúc phân tử hóa học ● El nino: vài trăm Gigabytes khối lượng dữliệu khổng lồ cần phân tích 6 ■ tại sao KDD & DM là cần thiết? ■ những ứng dụng của KDD & DM ■ quá trình KDD ■ giải thuật DM ■ kết luận và hướng phát triển ■ tài liệu tham khảo Một vài ví dụ ■ cơ sở dữliệu truyền thông ● AT&T: tiếp nhận 275 triệu cuộc gọi / ngày ■ cơ sở dữliệu thương mại ● lưu trữ thông tin về khách hàng ● phục vụ cho kế hoạch đầu tư và phát triển ● AT&T: 26 Terabytes ● France Telecom: 30 Terabytes thông tin về khách hàng ● Walmart: 20 triệu giao dịch / ngày 7 ■ tại sao KDD & DM là cần thiết? ■ những ứng dụng của KDD & DM ■ quá trình KDD ■ giải thuật DM ■ kết luận và hướng phát triển ■ tài liệu tham khảo Một vài ví dụ ■ dữliệu world wide ● Google: tiếp nhận hơn 4 tỉ yêu cầu tìm kiếm / ngày, lưu trữ hàng trăm Terabytes dữliệu ● Alexa internet archive: 500 Terabytes / 7 năm ● IBM WebFountain, 160 Terabytes / năm 2003 ● Internet Archive, www.archive.org: 300 Terabytes ■ tổng hợp lại ● trong năm 2002: dữliệu trên toàn cầu tăng 5 Exabytes (1) ● dữliệu tăng 2 lần trong vòng 9 tháng (1): 1 Kb = 1000 bytes, 1 Mb = 1000 2 bytes, 1 Gb = 1000 3 bytes, 1 Tb = 1000 4 bytes, 1 Pb = 1000 5 bytes, 1 Eb = 1000 6 bytes, 1 Zb = 1000 7 bytes, 1 Yb = 1000 8 bytes 8 ■ tại sao KDD & DM là cần thiết? ■ những ứng dụng của KDD & DM ■ quá trình KDD ■ giải thuật DM ■ kết luận và hướng phát triển ■ tài liệu tham khảo KDD & DM là cần thiết ■ KDD & DM ● thực sự cần thiết để khaithác những trithức tiềm ẩn ● trong những kho dữliệu lớn tạp chí về công nghệ của trường MIT số ra tháng 1-2 năm 2001 9 ■ tại sao KDD & DM là cần thiết? ■ những ứng dụng của KDD & DM ■ quá trình KDD ■ giải thuật DM ■ kết luận và hướng phát triển ■ tài liệu tham khảo Nội dung ■ tại sao KDD & DM là cần thiết? ■ những ứng dụng của KDD & DM ■ quá trình KDD ■ giải thuật DM ■ kết luận và hướng phát triển ■ tài liệu tham khảo 10 [...]... luận và hướng phát tri n tài liệu tham khảo Đánh giá kết quả Dịch & đánh giá kết quả Tri thức quá trình KDD q q lặp khaimỏdữliệu (DM): cốt lõi 21 s s s Tiền xử lý dữliệu s s s s tại sao KDD & DM là cần thiết? những ứng dụng của KDD & DM quá trình KDD giải thuật DM kết luận và hướng phát tri n tài liệu tham khảo từ mục tiêu đề ra của ứng dụng q q q q q q từ nguồn dữliệu khác nhau chọn dữliệu cần thiết... tin, trường dữliệu biểu diễn dữ liệu, chuyển đổi kiểu sao cho phù hợp với giải thuật DM sẽ được áp dụng ở bước sau làm sạch dữ liệu: khắc phục đối với trường dữliệu rỗng, dư thừa, hoặc dữliệu không hợp lệ có thể tinh giảm dữliệu hơn 22 s s s Khaimỏdữliệu s s s s tại sao KDD & DM là cần thiết? những ứng dụng của KDD & DM quá trình KDD giải thuật DM kết luận và hướng phát tri n tài liệu tham khảo... dụng của KDD & DM quá trình KDD giải thuật DM kết luận và hướng phát tri n tài liệu tham khảo DM & KDD q q q q q q q tích hợp cơ sở lý thuyết & heuristic tập trung vào toàn bộ quá trình khámphá và khaithácdữliệu để tìm ra tri thức phải hữu dụng cho người sử dụng bao gồm những kỹ thuật tiền xử lý dữ liệu: chọn lọc dữ liệu, xử lý dữliệu sai, etc quá trình xây dựng mô hình: DM trình bày, giải thích,... DM quá trình KDD giải thuật DM kết luận và hướng phát tri n tài liệu tham khảo 19 Nội dung tại sao KDD & DM là cần thiết? s những ứng dụng của KDD & DM s quá trình KDD s giải thuật DM s kết luận và hướng phát tri n s tài liệu tham khảo s 20 s s s Quá trình KDD Tiền xử lý Chọn Dữliệu thô s s s Khai thácdữliệu Tiền xử lý Dữliệu được chọn lọc s Dữliệu đã được tiền xử lý Xây dựng mô hình Mô hình tại... KDD s giải thuật DM s kết luận và hướng phát tri n s tài liệu tham khảo s 28 s s s Giải thuật khaimỏdữliệu s s s s tại sao KDD & DM là cần thiết? những ứng dụng của KDD & DM quá trình KDD giải thuật DM kết luận và hướng phát tri n tài liệu tham khảo kỹ thuật q q q q phân lớp (classification, supervised classification) : xây dựng mô hình phân loại dựa trên dữliệu tập học đã có nhãn (lớp) hồi quy (regression)... phân loại dựa trên dữliệu tập học đã có nhãn (lớp) là giá trị liên tục gom cụm, nhóm (clustering, unsupervised classification) : xây dựng mô hình gom cụm dữliệu tập học (không có nhãn) sao cho các dữliệu cùng nhóm có các tính chất tương tự nhau và dữliệu của 2 nhóm khác nhau sẽ có các tính chất khác nhau luật kết hợp (association rules) : phát hiện mối liên quan giữa các biến của dữliệu 29 s s s Kỹ... KDD giải thuật DM kết luận và hướng phát tri n tài liệu tham khảo 16 s s s 2007 s s s tại sao KDD & DM là cần thiết? những ứng dụng của KDD & DM quá trình KDD giải thuật DM kết luận và hướng phát tri n tài liệu tham khảo 17 s s s 2 năm gần nhất s s s tại sao KDD & DM là cần thiết? những ứng dụng của KDD & DM quá trình KDD giải thuật DM kết luận và hướng phát tri n tài liệu tham khảo 18 s s s Data mining... trình KDD giải thuật DM kết luận và hướng phát tri n tài liệu tham khảo 13 s s s 2004 s s s tại sao KDD & DM là cần thiết? những ứng dụng của KDD & DM quá trình KDD giải thuật DM kết luận và hướng phát tri n tài liệu tham khảo 14 s s s 2005 s s s tại sao KDD & DM là cần thiết? những ứng dụng của KDD & DM quá trình KDD giải thuật DM kết luận và hướng phát tri n tài liệu tham khảo 15 s s s 2006 s s s tại... dụng của KDD & DM quá trình KDD giải thuật DM kết luận và hướng phát tri n tài liệu tham khảo Phương pháp Máy học hiển thị Xác suất thống kê Trí tuệ nhân Cơ sở dữliệu tạo 25 s s s Cơ sở nền tảng s s s thống kê q q s s tại sao KDD & DM là cần thiết? những ứng dụng của KDD & DM quá trình KDD giải thuật DM kết luận và hướng phát tri n tài liệu tham khảo dựa nhiều vào nền tảng lý thuyết tập trung vào kiểm... DM kết luận và hướng phát tri n tài liệu tham khảo 30 s s s Kỹ thuật DM (10/2002) s s s tại sao KDD & DM là cần thiết? những ứng dụng của KDD & DM quá trình KDD giải thuật DM kết luận và hướng phát tri n tài liệu tham khảo 31 s s s Kỹ thuật DM (11/2003) s s s tại sao KDD & DM là cần thiết? những ứng dụng của KDD & DM quá trình KDD giải thuật DM kết luận và hướng phát tri n tài liệu tham khảo 32 s s . Tin Trường Đại Học Cần Thơ Đỗ Thanh Nghị dtnghi@cit.ctu.edu.vn Cần Thơ 24-11-2008 Từ khám phá tri thức đến khai mỏ dữ liệu Knowledge Discovery in Databases - Data Mining Nội dung ■ tại sao KDD &. DM ■ kết luận và hướng phát tri n ■ tài liệu tham khảo KDD & DM là cần thiết ■ KDD & DM ● thực sự cần thiết để khai thác những tri thức tiềm ẩn ● trong những kho dữ liệu lớn tạp chí về. DM ■ kết luận và hướng phát tri n ■ tài liệu tham khảo Một vài ví dụ ■ các cơ sở dữ liệu khoa học khác ● NSA: hàng tri u tài liệu văn bản nói về khủng bố ● Merck: hàng tri u cấu trúc phân tử