1. Trang chủ
  2. » Tất cả

Chuong 1 - Dan nhap ve KPDL

22 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • Slide 1

  • Nội dung

  • Nội dung (tt)

  • 1. Tổng quan 1.1. Bùng nổ dữ liệu

  • 1.2 Phát hiện tri thức (Knowledge discovery)

  • Slide 6

  • 1.3 Ứng dụng của KPDL

  • 2. Khai phá dữ liệu – Data mining 2.1 Định nghĩa

  • 2.2 Dữ liệu có nhãn & không nhãn (Labelled & Unlabelled data)

  • 2.2 Dữ liệu có nhãn & không nhãn (tt)

  • 2.3 Học có hướng dẫn: phân lớp - classification

  • 2.3 Học có hướng dẫn: phân lớp – classification (tt)

  • Slide 13

  • 2.5 Học không hướng dẫn: luật kết hợp – association rules

  • 2.5 Học không hướng dẫn: phân cụm - clustering

  • 2.5 Học không hướng dẫn: phân cụm - clustering

  • Slide 17

  • 3.2 Các kiểu dữ liệu

  • 3.3 Thiếu hụt dữ liệu (missing values)

  • 3.4 Kho dữ liệu UCI

  • Bài tập

  • Cảm ơn BẠN đã theo dõi!

Nội dung

Học phần: Khai phá liệu Bài 1: Dẫn nhập Nội dung Tổng quan a Bùng nổ liệu b Phát tri thức c Các ứng dụng KPDL Khai phá liệu a b c d e Dữ liệu có nhãn khơng nhãn Học có hướng dẫn: phân lớp Học có hướng dẫn: dự đốn liệu số Học khơng hướng dẫn: luật kết hợp Học không hướng dẫn: phân cụm Nội dung (tt) Định dạng liệu dùng KPDL a b c d e Mô tả vật thể không gian n-chiều Các kiểu liệu Thiếu hụt liệu (missing values) Chuẩn bị liệu Giới thiệu kho liệu UCI Tổng quan 1.1 Bùng nổ liệu Dữ liệu giao dịch Dữ liệu vệ tinh Dữ liệu gene Kho liệu Dữ liệu giám sát v.v 1.2 Phát tri thức (Knowledge discovery) Hình 1: Quy trình phát tri thức (Nguồn: behavior.lbl.gov) 1.2 Phát tri thức (Các hình thức diễn đạt tri thức – Knowledge representation) Bảng (tables) Mơ hình tuyến tính (linear models) Cây (trees) Luật (rules) Diễn đạt dựa theo trường hợp cụ thể (instance-based representation) Cụm (clusters) Mơ hình tri thức (Knowledge model) 1.3 Ứng dụng KPDL Phân tích ảnh vệ tinh Phát giao dịch bất hợp pháp Dự đốn điện tải Dự đốn tài Tiếp thị có định hướng Dự đốn thời tiết Phát hành vi khách hàng .v.v Khai phá liệu – Data mining 2.1 Định nghĩa Khai phá liệu việc tìm kiếm tri thức (hay mẫu/dạng có nghĩa) liệu Khai phá liệu việc trích rút hay “khai phá” tri thức từ lượng lớn liệu Khái niệm Khai phá liệu nhiều người xem đồng nghĩa với khái niệm Khai phá tri thức từ liệu (KDD) 2.2 Dữ liệu có nhãn & khơng nhãn (Labelled & Unlabelled data) Một tập liệu gọi thể (instances) Mỗi instance gồm giá trị thuộc tính (attibute) tương ứng Có loại liệu: ◦ Dữ liệu có nhãn (labelled data) dùng cho q trình học có hướng dẫn (supervised learning) ◦ Dữ liệu khơng có nhãn (unlabelled data) dùng cho q trình học khơng có hướng dẫn (unsupervised learning) 2.2 Dữ liệu có nhãn & khơng nhãn (tt) Instance Unlabelled Labelled data data 10 2.3 Học có hướng dẫn: phân lớp classification  Phân lớp hình thức phân tích liệu phổ biến dùng để tạo lập mơ hình mơ tả phân lớp liệu quan trọng  Những phân tích giúp hiểu sâu liệu tầm mức lớn hơn, bao quát  Những mơ hình phân lớp (classification models/classifiers) cịn sử dụng để dự đoán nhãn phân lớp cho liệu vào tương ứng  Một số mơ hình phân lớp: định, SVM, v.v 11 2.3 Học có hướng dẫn: phân lớp – classification (tt) Hình 2: Mơ hình học có giám sát (Nguồn: allprogrammingtutorials.com) 12 2.4 Học có hướng dẫn: dự đốn liệu số - numerical prediction(tt) Hình 3: (Nguồn Internet) 13 2.5 Học khơng hướng dẫn: luật kết hợp – association rules Khám phá mối quan hệ giá trị thuộc tính biểu đạt dạng luật kết hợp Hình 4: (Nguồn Internet) Banana ^ tomato  milk 14 2.5 Học không hướng dẫn: phân cụm clustering Phân cụm (clustering) q trình gộp liệu vào nhóm hay lớp mà liệu xếp nhóm có độ tương tự cao chúng khác biệt so với liệu xếp vào nhóm (hay lớp) khác 15 2.5 Học khơng hướng dẫn: phân cụm - clustering Hình 5: (nguồn cssanalytics.wordpress.com) 16 Định dạng liệu dùng KPDL 3.1 Mô tả vật thể không gian n-chiều Không gian – chiều 17 3.2 Các kiểu liệu Nominal (categorization) Binary Numeric ◦ Integer ◦ Real Interval-scaled String Date/time 18 3.3 Thiếu hụt liệu (missing values) Trong thực tế, liệu mô tả thu lúc đầy đủ 19 3.4 Kho liệu UCI UCI: University of California at Irvine Bài tập Tìm hiểu Weka Cài đặt Weka Tìm hiểu cấu trúc file liệu ARFF dùng Weka Các thành phần Weka 21 Cảm ơn BẠN theo dõi! ... lớp) khác 15 2.5 Học không hướng dẫn: phân cụm - clustering Hình 5: (nguồn cssanalytics.wordpress.com) 16 Định dạng liệu dùng KPDL 3 .1 Mô tả vật thể không gian n-chiều Không gian – chiều 17 3.2... Dữ liệu gene Kho liệu Dữ liệu giám sát v.v 1. 2 Phát tri thức (Knowledge discovery) Hình 1: Quy trình phát tri thức (Nguồn: behavior.lbl.gov) 1. 2 Phát tri thức (Các hình thức diễn đạt tri thức... định, SVM, v.v 11 2.3 Học có hướng dẫn: phân lớp – classification (tt) Hình 2: Mơ hình học có giám sát (Nguồn: allprogrammingtutorials.com) 12 2.4 Học có hướng dẫn: dự đoán liệu số - numerical prediction(tt)

Ngày đăng: 28/12/2020, 10:58