Dữ liệu thu được từ thực tế ?+ Dữ liệu bị thiếu missing data:... Dữ liệu thu được từ thực tế ?+ Dữ liệu bị thiếu missing data:... Dữ liệu thu được từ thực tế ?+ Dữ liệu bị thiếu missing
Trang 2Nội dung trình bày
Trang 3I GIỚI THIỆU
Trang 4Tiền xử lý dữ liệu – Data preprocessing
Trang 5Kỹ thuật tiền xử lý dữ liệu
Data Cleaning
Trang 6II LÀM SẠCH DỮ LIỆU
DATA CLEANING
Trang 72.1 Dữ liệu thu được từ thực tế ?
+ Dữ liệu bị thiếu (missing data):
Trang 8nhập, gặp sự cố…
Trang 9suất xảy ra cao…
Ngăn chặn dữ liệu thiếu: thiết
Trang 102.1 Dữ liệu thu được từ thực tế ?
+ Dữ liệu bị thiếu (missing data):
Trang 11là một lỗi ngẫu nhiên hay
do biến động của các biến trong quá trình thực hiện, hoặc sự ghi chép nhầm lẫn
ko được kiểm soát…
GIẢI PHÁP
Trang 14PHÂN DỮ LIỆU THÀNH CÁC BIN
Trang 18HỒI QUY
Phương pháp thường dùng là hồi quy
Trang 19HỒI QUY – VÍ DỤ
Mối quan hệ y = x+1 từ đó có thể xác định
Trang 21PHÂN CỤM
quan
đưa chúng
Trang 22PHÂN CỤM– VÍ DỤ
Trang 232.1 Dữ liệu thu được từ thực tế ?
+ Dữ liệu bị thiếu (missing data):
Trang 24DỮ LIỆU KHÔNG NHẤT QUÁN
Nguyên nhân: không nhất quán trong qui ước, trong định dạng,
hoặc do thiết bị ghi nhận…
Trang 25XỬ LÝ DỮ LIỆU KHÔNG NHẤT QUÁN
Trang 26III TÍCH HỢP DỮ LIỆU
DATA INTERGRATION
Trang 27Tích hợp dữ liệu
Kết hợp dữ liệu từ nhiều nguồn vào một kho thống nhất.
Trang 28Tích hợp dữ liệu – nhận dạng thực thể
Trang 29Tích hợp dữ liệu – dư thừa dữ liệu
Trang 30Phân tích tương quan giữa hai thuộc tính số
Trang 31Phân tích tương quan giữa hai thuộc tính rời rạc
Trang 32Tích hợp dữ liệu – mâu thuẫn giá trị dữ liệu
Cùng một thực thể thực, các giá trị thuộc
tính đến từ các nguồn khác nhau có thể
khác nhau về các biểu diễn.
Trang 33IV BIẾN ĐỔI DỮ LIỆU
DATA TRANSFORMATION
Trang 34Biến đổi dữ liệu – Định nghĩa
Trang 35Biến đổi dữ liệu – các phương pháp
Trang 36Biến đổi dữ liệu – Phương pháp
Làm trơn dữ liệu
Trang 37Biến đổi dữ liệu – phương pháp
Trang 38Biến đổi dữ liệu – Các phương pháp
Trang 39Biến đổi dữ liệu – Các phương pháp
Chuẩn hóa
Trang 40Biến đổi dữ liệu – Chuẩn hóa
Chuẩn hóa min-max
Giá trị cũ: v ϵ [ minA , max A]
Giá trị mới v’ϵ [new_minA,new_maxA]
Eg: nếu thu nhập từ 1 triệu đến 10 triệu là bình thường trong khoảng [0,1] thì thu nhập 7 triệu
A A
A A
A
A
min new
min new
max
new min
Trang 41Biến đổi dữ liệu – Chuẩn hóa
Chuẩn hóa bằng decimal scaling
10 ' =
Trang 42Biến đổi dữ liệu
Trang 43V GIẢM BỚT DỮ LIỆU
DATA REDUCTION
Trang 44Giảm bớt dữ liệu
Trang 45Giảm bớt dữ liệu- các chiến lược
Trang 46Original Data Compressed
Trang 47 kết hợp khối dữ liệu
Kết hợp bằng các hàm nhóm: average,
sum, min, max…
Dữ liệu ở các mức trừu tượng khác
nhau, mức trừu tượng càng cao thì thu giảm càng nhiều
Trang 48Giảm bớt dữ liệu – Phương pháp
Chọn một số thuộc tính
Loại bỏ thuộc tính, chiều, đặc trưng, dư
thừa, không thích hợp
Mục tiêu: tập ít các thuộc tính nhất vẫn
đảm bảo phân bố xác suât
Eg: với dữ liệu 1 con người: có thể giảm
Trang 49Giảm bớt dữ liệu – Phương pháp
Thu giảm chiều
Biến đổi wavelet
Phân tích nhân tố chính
Trang 50Giảm bớt dữ liệu – Phương pháp
Thu giảm lượng
Biểu diễn bằng dữ liệu thay thế
Hồi quy
Phương pháp phi thông số
Trang 51V KẾT LUẬN
Trang 53Kết luận
Làm sạch dữ liệu: xử lý dữ liệu bị thiếu, làm trơn
dữ liệu nhiễu, nhận dạng các phần tử biên, hiệu
chỉnh dữ liệu không nhất quán
Tích hợp dữ liệu: vấn đề nhận dạng thực thể, vấn
đề dư thừa , vấn đề mâu thuẫn giá trị dữ liệu
Biến đổi dữ liệu: làm trơn dữ liệu, kết hợp dữ liệu,
tổng quát hóa, chuẩn hóa, xây dựng thuộc tính/ đặc tính
Thu giảm dữ liệu: kết hợp khối dữ liệu, chọn một
số thuộc tính, thu giảm chiều, rời rạc hóa và tạo