Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 22 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
22
Dung lượng
2,05 MB
Nội dung
Học phần: Khai phá liệu Bài 1: Dẫn nhập Nội dung Tổng quan a Bùng nổ liệu b Phát tri thức c Các ứng dụng KPDL Khai phá liệu a b c d e Dữ liệu có nhãn khơng nhãn Học có hướng dẫn: phân lớp Học có hướng dẫn: dự đốn liệu số Học khơng hướng dẫn: luật kết hợp Học không hướng dẫn: phân cụm Nội dung (tt) Định dạng liệu dùng KPDL a b c d e Mô tả vật thể không gian n-chiều Các kiểu liệu Thiếu hụt liệu (missing values) Chuẩn bị liệu Giới thiệu kho liệu UCI Tổng quan 1.1 Bùng nổ liệu Dữ liệu giao dịch Dữ liệu vệ tinh Dữ liệu gene Kho liệu Dữ liệu giám sát v.v 1.2 Phát tri thức (Knowledge discovery) Hình 1: Quy trình phát tri thức (Nguồn: behavior.lbl.gov) 1.2 Phát tri thức (Các hình thức diễn đạt tri thức – Knowledge representation) Bảng (tables) Mơ hình tuyến tính (linear models) Cây (trees) Luật (rules) Diễn đạt dựa theo trường hợp cụ thể (instance-based representation) Cụm (clusters) Mơ hình tri thức (Knowledge model) 1.3 Ứng dụng KPDL Phân tích ảnh vệ tinh Phát giao dịch bất hợp pháp Dự đốn điện tải Dự đốn tài Tiếp thị có định hướng Dự đốn thời tiết Phát hành vi khách hàng .v.v Khai phá liệu – Data mining 2.1 Định nghĩa Khai phá liệu việc tìm kiếm tri thức (hay mẫu/dạng có nghĩa) liệu Khai phá liệu việc trích rút hay “khai phá” tri thức từ lượng lớn liệu Khái niệm Khai phá liệu nhiều người xem đồng nghĩa với khái niệm Khai phá tri thức từ liệu (KDD) 2.2 Dữ liệu có nhãn & khơng nhãn (Labelled & Unlabelled data) Một tập liệu gọi thể (instances) Mỗi instance gồm giá trị thuộc tính (attibute) tương ứng Có loại liệu: ◦ Dữ liệu có nhãn (labelled data) dùng cho q trình học có hướng dẫn (supervised learning) ◦ Dữ liệu khơng có nhãn (unlabelled data) dùng cho q trình học khơng có hướng dẫn (unsupervised learning) 2.2 Dữ liệu có nhãn & khơng nhãn (tt) Instance Unlabelled Labelled data data 10 2.3 Học có hướng dẫn: phân lớp classification Phân lớp hình thức phân tích liệu phổ biến dùng để tạo lập mơ hình mơ tả phân lớp liệu quan trọng Những phân tích giúp hiểu sâu liệu tầm mức lớn hơn, bao quát Những mơ hình phân lớp (classification models/classifiers) cịn sử dụng để dự đoán nhãn phân lớp cho liệu vào tương ứng Một số mơ hình phân lớp: định, SVM, v.v 11 2.3 Học có hướng dẫn: phân lớp – classification (tt) Hình 2: Mơ hình học có giám sát (Nguồn: allprogrammingtutorials.com) 12 2.4 Học có hướng dẫn: dự đốn liệu số - numerical prediction(tt) Hình 3: (Nguồn Internet) 13 2.5 Học khơng hướng dẫn: luật kết hợp – association rules Khám phá mối quan hệ giá trị thuộc tính biểu đạt dạng luật kết hợp Hình 4: (Nguồn Internet) Banana ^ tomato milk 14 2.5 Học không hướng dẫn: phân cụm clustering Phân cụm (clustering) q trình gộp liệu vào nhóm hay lớp mà liệu xếp nhóm có độ tương tự cao chúng khác biệt so với liệu xếp vào nhóm (hay lớp) khác 15 2.5 Học khơng hướng dẫn: phân cụm - clustering Hình 5: (nguồn cssanalytics.wordpress.com) 16 Định dạng liệu dùng KPDL 3.1 Mô tả vật thể không gian n-chiều Không gian – chiều 17 3.2 Các kiểu liệu Nominal (categorization) Binary Numeric ◦ Integer ◦ Real Interval-scaled String Date/time 18 3.3 Thiếu hụt liệu (missing values) Trong thực tế, liệu mô tả thu lúc đầy đủ 19 3.4 Kho liệu UCI UCI: University of California at Irvine Bài tập Tìm hiểu Weka Cài đặt Weka Tìm hiểu cấu trúc file liệu ARFF dùng Weka Các thành phần Weka 21 Cảm ơn BẠN theo dõi! ... lớp) khác 15 2.5 Học không hướng dẫn: phân cụm - clustering Hình 5: (nguồn cssanalytics.wordpress.com) 16 Định dạng liệu dùng KPDL 3 .1 Mô tả vật thể không gian n-chiều Không gian – chiều 17 3.2... Dữ liệu gene Kho liệu Dữ liệu giám sát v.v 1. 2 Phát tri thức (Knowledge discovery) Hình 1: Quy trình phát tri thức (Nguồn: behavior.lbl.gov) 1. 2 Phát tri thức (Các hình thức diễn đạt tri thức... định, SVM, v.v 11 2.3 Học có hướng dẫn: phân lớp – classification (tt) Hình 2: Mơ hình học có giám sát (Nguồn: allprogrammingtutorials.com) 12 2.4 Học có hướng dẫn: dự đoán liệu số - numerical prediction(tt)