1. Trang chủ
  2. » Công Nghệ Thông Tin

Khai phá dữ liệu thuật toán Preproccessing ĐH Bách Khoa HN

54 492 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 54
Dung lượng 2,61 MB

Nội dung

Dữ liệu thu được từ thực tế ?+ Dữ liệu bị thiếu missing data:... Dữ liệu thu được từ thực tế ?+ Dữ liệu bị thiếu missing data:... Dữ liệu thu được từ thực tế ?+ Dữ liệu bị thiếu missing

Trang 2

Nội dung trình bày

Trang 3

I GIỚI THIỆU

Trang 4

Tiền xử lý dữ liệu – Data preprocessing

Trang 5

Kỹ thuật tiền xử lý dữ liệu

Data Cleaning

Trang 6

II LÀM SẠCH DỮ LIỆU

DATA CLEANING

Trang 7

2.1 Dữ liệu thu được từ thực tế ?

+ Dữ liệu bị thiếu (missing data):

Trang 8

nhập, gặp sự cố…

Trang 9

suất xảy ra cao…

Ngăn chặn dữ liệu thiếu: thiết

Trang 10

2.1 Dữ liệu thu được từ thực tế ?

+ Dữ liệu bị thiếu (missing data):

Trang 11

là một lỗi ngẫu nhiên hay

do biến động của các biến trong quá trình thực hiện, hoặc sự ghi chép nhầm lẫn

ko được kiểm soát…

GIẢI PHÁP

Trang 14

PHÂN DỮ LIỆU THÀNH CÁC BIN

Trang 18

HỒI QUY

Phương pháp thường dùng là hồi quy

Trang 19

HỒI QUY – VÍ DỤ

Mối quan hệ y = x+1 từ đó có thể xác định

Trang 21

PHÂN CỤM

quan

đưa chúng

Trang 22

PHÂN CỤM– VÍ DỤ

Trang 23

2.1 Dữ liệu thu được từ thực tế ?

+ Dữ liệu bị thiếu (missing data):

Trang 24

DỮ LIỆU KHÔNG NHẤT QUÁN

Nguyên nhân: không nhất quán trong qui ước, trong định dạng,

hoặc do thiết bị ghi nhận…

Trang 25

XỬ LÝ DỮ LIỆU KHÔNG NHẤT QUÁN

Trang 26

III TÍCH HỢP DỮ LIỆU

DATA INTERGRATION

Trang 27

Tích hợp dữ liệu

Kết hợp dữ liệu từ nhiều nguồn vào một kho thống nhất.

Trang 28

Tích hợp dữ liệu – nhận dạng thực thể

Trang 29

Tích hợp dữ liệu – dư thừa dữ liệu

Trang 30

Phân tích tương quan giữa hai thuộc tính số

Trang 31

Phân tích tương quan giữa hai thuộc tính rời rạc

Trang 32

Tích hợp dữ liệu – mâu thuẫn giá trị dữ liệu

Cùng một thực thể thực, các giá trị thuộc

tính đến từ các nguồn khác nhau có thể

khác nhau về các biểu diễn.

Trang 33

IV BIẾN ĐỔI DỮ LIỆU

DATA TRANSFORMATION

Trang 34

Biến đổi dữ liệu – Định nghĩa

Trang 35

Biến đổi dữ liệu – các phương pháp

Trang 36

Biến đổi dữ liệu – Phương pháp

Làm trơn dữ liệu

Trang 37

Biến đổi dữ liệu – phương pháp

Trang 38

Biến đổi dữ liệu – Các phương pháp

Trang 39

Biến đổi dữ liệu – Các phương pháp

Chuẩn hóa

Trang 40

Biến đổi dữ liệu – Chuẩn hóa

Chuẩn hóa min-max

Giá trị cũ: v ϵ [ minA , max A]

Giá trị mới v’ϵ [new_minA,new_maxA]

Eg: nếu thu nhập từ 1 triệu đến 10 triệu là bình thường trong khoảng [0,1] thì thu nhập 7 triệu

A A

A A

A

A

min new

min new

max

new min

Trang 41

Biến đổi dữ liệu – Chuẩn hóa

Chuẩn hóa bằng decimal scaling

10 ' =

Trang 42

Biến đổi dữ liệu

Trang 43

V GIẢM BỚT DỮ LIỆU

DATA REDUCTION

Trang 44

Giảm bớt dữ liệu

Trang 45

Giảm bớt dữ liệu- các chiến lược

Trang 46

Original Data Compressed

Trang 47

 kết hợp khối dữ liệu

 Kết hợp bằng các hàm nhóm: average,

sum, min, max…

 Dữ liệu ở các mức trừu tượng khác

nhau, mức trừu tượng càng cao thì thu giảm càng nhiều

Trang 48

Giảm bớt dữ liệu – Phương pháp

 Chọn một số thuộc tính

 Loại bỏ thuộc tính, chiều, đặc trưng, dư

thừa, không thích hợp

 Mục tiêu: tập ít các thuộc tính nhất vẫn

đảm bảo phân bố xác suât

 Eg: với dữ liệu 1 con người: có thể giảm

Trang 49

Giảm bớt dữ liệu – Phương pháp

 Thu giảm chiều

 Biến đổi wavelet

 Phân tích nhân tố chính

Trang 50

Giảm bớt dữ liệu – Phương pháp

 Thu giảm lượng

 Biểu diễn bằng dữ liệu thay thế

 Hồi quy

 Phương pháp phi thông số

Trang 51

V KẾT LUẬN

Trang 53

Kết luận

Làm sạch dữ liệu: xử lý dữ liệu bị thiếu, làm trơn

dữ liệu nhiễu, nhận dạng các phần tử biên, hiệu

chỉnh dữ liệu không nhất quán

Tích hợp dữ liệu: vấn đề nhận dạng thực thể, vấn

đề dư thừa , vấn đề mâu thuẫn giá trị dữ liệu

Biến đổi dữ liệu: làm trơn dữ liệu, kết hợp dữ liệu,

tổng quát hóa, chuẩn hóa, xây dựng thuộc tính/ đặc tính

Thu giảm dữ liệu: kết hợp khối dữ liệu, chọn một

số thuộc tính, thu giảm chiều, rời rạc hóa và tạo

Ngày đăng: 10/02/2017, 06:18

TỪ KHÓA LIÊN QUAN

w