Kỹ Thuật - Công Nghệ - Báo cáo khoa học - Công nghệ thông tin Chương 2: Các vấn đề tiền xử lý dữ liệu 1 Nội dung Tổng quan về giai đoạn tiền xử lý dữ liệu Tóm tắt mô tả về dữ liệu Làm sạch dữ liệu Tích hợp dữ liệu Biến đổi dữ liệu Thu giảm dữ liệu Rời rạc hóa dữ liệu Tạo cây phân cấp ý niệm Tóm tắt 2 Tổng quan về giai đoạn tiền xử lý dữ liệu Giai đoạn tiền xử lý dữ liệu: - Các kỹ thuật datamining đều thực hiện trên các cơ sở dữ liệu, nguồn dữ liệu lớn. Đó là kết quả của quá trình ghi chép liên tục thông tin phản ánh hoạt động của con người, các quá trình tự nhiên… - Các dữ liệu lưu trữ hoàn toàn là dưới dạng thô, chưa sẵn sàng cho việc phát hiện, khám phá thông tin ẩn chứa trong đó. Do vậy chúng cần phải qua giai đoạn tiền xử lý dữ liệu trước khi tiến hành bất kỳ một phân tích nào. 3 Tổng quan về giai đoạn tiền xử lý dữ liệu Chất lượng dữ liệu (data quality) - Tính chính xác (accuracy): giá trị được ghi nhận đúng với giá trị thực. - Tính hiện hành (currencytimeliness): giá trị được ghi nhận không bị lỗi thời. - Tính toàn vẹn (completeness): tất cả các giá trị dành cho một biếnthuộc tính đều được ghi nhận. - Tính nhất quán (consistency): tất cả giá trị dữ liệu đều được biểu diễn như nhau trong tất cả các trường hợp. 4 Tổng quan về giai đoạn tiền xử lý dữ liệu 5 Data Cleaning Data Integration Data Sources Data Warehouse Task-relevant Data SelectionTransformation Data Mining Pattern Evaluation Presentation Patterns Tổng quan về giai đoạn tiền xử lý dữ liệu 6 Tổng quan về giai đoạn tiền xử lý dữ liệu Các kỹ thuật tiền xử lý dữ liệu - Làm sạch dữ liệu (data cleaningcleansing) - Tích hợp dữ liệu (data integration) - Biến đổi dữ liệu (data transformation) - Thu giảm dữ liệu (data reduction) 7 Tóm tắt mô tả về dữ liệu 8 Các kiểu dữ liệu Tóm tắt mô tả về dữ liệu Xác định các thuộc tính (properties) tiêu biểu của dữ liệu về xu hướng chính (central tendency) và sự phân tán (dispersion) của dữ liệu - Các độ đo về xu hướng chính: mean, median, mode, midrange - Các độ đo về sự phân tán: quartiles, interquartile range (IQR), variance Làm nổi bật các giá trị dữ liệu nên được xem như nhiễu (noise) hoặc phần tử biên (outliers), cung cấp cái nhìn tổng quan về dữ liệu 9 Tóm tắt mô tả về dữ liệu Các độ đo về xu hướng chính của dữ liệu - Mean - Weighted arithmetic mean - Median - Mode: giá trị xuất hiện thường xuyên nhất trong tập dữ liệu - Midrange: giá trị trung bình của các giá trị lớn nhất và nhỏ nhất trong tập dữ liệu 10 evenNifx x oddNif x Median N N N 2)( 122 2 Tóm tắt mô tả về dữ liệu Ví dụ: Mean: Giả sử chúng ta có các giá trị sau về lương (tính theo đơn vị nghìn đôla) theo thứ tự tăng dần như sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110 Tính giá trị trung bình của các lương trên? 11 Tóm tắt mô tả về dữ liệu Ví dụ: Median: Giả sử...
Trang 1Chương 2: Các vấn đề tiền xử lý dữ liệu
1
Trang 2Nội dung
Tổng quan về giai đoạn tiền xử lý dữ liệu
Tóm tắt mô tả về dữ liệu
Làm sạch dữ liệu
Tích hợp dữ liệu
Biến đổi dữ liệu
Thu giảm dữ liệu
Rời rạc hóa dữ liệu
Tạo cây phân cấp ý niệm
Trang 3Tổng quan về giai đoạn tiền xử lý dữ liệu
Giai đoạn tiền xử lý dữ liệu:
- Các kỹ thuật datamining đều thực hiện trên các cơ
sở dữ liệu, nguồn dữ liệu lớn Đó là kết quả của quá trình ghi chép liên tục thông tin phản ánh hoạt động của con người, các quá trình tự nhiên…
- Các dữ liệu lưu trữ hoàn toàn là dưới dạng thô, chưa sẵn sàng cho việc phát hiện, khám phá thông tin ẩn chứa trong đó Do vậy chúng cần phải qua
giai đoạn tiền xử lý dữ liệu trước khi tiến hành bất
kỳ một phân tích nào
3
Trang 4Tổng quan về giai đoạn tiền xử lý dữ liệu
Chất lượng dữ liệu (data quality)
- Tính chính xác (accuracy): giá trị được ghi nhận
đúng với giá trị thực
- Tính hiện hành (currency/timeliness): giá trị được
ghi nhận không bị lỗi thời
- Tính toàn vẹn (completeness): tất cả các giá trị
dành cho một biến/thuộc tính đều được ghi nhận
- Tính nhất quán (consistency): tất cả giá trị dữ liệu đều được biểu diễn như nhau trong tất cả các
trường hợp
Trang 5Tổng quan về giai đoạn tiền xử lý dữ liệu
5
Data
Cleaning
Data Integration
Data Sources
Data Warehouse
Task-relevant Data
Selection/Transformation
Data Mining
Pattern Evaluation/
Presentation
Patterns
Trang 6Tổng quan về giai đoạn tiền xử lý dữ liệu
Trang 7Tổng quan về giai đoạn tiền xử lý dữ liệu
Các kỹ thuật tiền xử lý dữ liệu
- Làm sạch dữ liệu (data cleaning/cleansing)
- Tích hợp dữ liệu (data integration)
- Biến đổi dữ liệu (data transformation)
- Thu giảm dữ liệu (data reduction)
7
Trang 8Tóm tắt mô tả về dữ liệu
Các kiểu dữ liệu
Trang 9Tóm tắt mô tả về dữ liệu
Xác định các thuộc tính (properties) tiêu biểu của dữ liệu về xu hướng chính (central tendency) và sự phân tán (dispersion) của dữ liệu
- Các độ đo về xu hướng chính: mean, median,
mode, midrange
- Các độ đo về sự phân tán: quartiles, interquartile
range (IQR), variance
Làm nổi bật các giá trị dữ liệu nên được xem như
nhiễu (noise) hoặc phần tử biên (outliers), cung cấp cái nhìn tổng quan về dữ liệu
9
Trang 10Tóm tắt mô tả về dữ liệu
Các độ đo về xu hướng chính của dữ liệu
- Mean
- Weighted arithmetic mean
- Median
- Mode: giá trị xuất hiện thường xuyên nhất trong tập dữ liệu
- Midrange: giá trị trung bình của các giá trị lớn nhất và nhỏ nhất trong tập dữ liệu
x x
odd N
if x
Median
N N
N
2 / )
2 /
Trang 11Tóm tắt mô tả về dữ liệu
Ví dụ: Mean: Giả sử chúng ta có các giá trị sau về lương (tính theo đơn vị nghìn đôla) theo thứ tự tăng dần như sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70,
70, 110
Tính giá trị trung bình của các lương trên?
11
Trang 12Tóm tắt mô tả về dữ liệu
Ví dụ: Median: Giả sử chúng ta có các giá trị sau về lương (tính theo đơn vị nghìn đôla) theo thứ tự tăng dần như sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70,
70, 110
Tính median của các lương trên?
- Dữ liệu trên được sắp xếp tăng dần, giá trị
middlemost là 52 và 56 Do vậy median=
(52+56)/2= 108/2= 54
Trang 13Tóm tắt mô tả về dữ liệu
Ví dụ: Mode, Midrange: Giả sử chúng ta có các giá trị sau về lương (tính theo đơn vị nghìn đôla) theo thứ tự tăng dần như sau: 30, 36, 47, 50, 52, 52, 56, 60, 63,
70, 70, 110
Mode, Midrange của các lương trên?
Mode là $52,000 và $70,000
Midrange=
13
Trang 14Tóm tắt mô tả về dữ liệu
Các độ đo về sự phân tán của dữ liệu
- Quartiles
The first quartile (Q1): the 25 th percentile
The second quartile (Q2): the 50 th percentile (median)
The third quartile (Q3): the 75 th percentile
- Interquartile Range (IQR) = Q3 – Q1
Outliers (the most extreme observations): giá trị nằm cách trên Q3 hay dưới Q1 một khoảng 1.5xIQR
Trang 15Tóm tắt mô tả về dữ liệu
Ví dụ: Q1, Q2, Q3, IRQ: Giả sử chúng ta có các giá trị sau về lương (tính theo đơn vị nghìn đôla) theo thứ tự tăng dần như sau: 30, 36, 47, 50, 52, 52, 56, 60, 63,
70, 70, 110
Q1= 47$, Q3=63$, IRQ= 63-47=16$
15
Trang 16Tóm tắt mô tả về dữ liệu
Ví dụ: Variance and standard deviation: Giả sử chúng
ta có các giá trị sau về lương (tính theo đơn vị nghìn đôla) theo thứ tự tăng dần như sau: 30, 36, 47, 50, 52,
52, 56, 60, 63, 70, 70, 110
Trang 17Tóm tắt mô tả về dữ liệu
17
Q1 Q2 Q3
Tóm tắt mô tả về sự phân bố dữ liệu gồm năm trị số quan trọng:
median, Q1, Q3, trị lớn nhất, và trị nhỏ nhất (theo thứ tự:
Minimum, Q1, Median, Q3, Maximum)
Trang 18Tóm tắt mô tả về dữ liệu
- Boxplot là cách để biểu
diễn sự phân tán dữ liệu
- Boxplot được biểu diễn
bởi 5 giá trị Minimum, Q1,
Median, Q3, Maximum
như sau:
Chiều dài của box là
interquartile range
Median được đánh dấu bởi đường
gạch trong box
Hai gạch ngoài box là
whiskers là the smallest
(Minimum) và largest
(Maximum)
(the most extreme observatio ns): giá trị nằm cách trên Q3 hay dưới Q1 một
khoảng 1.5xIQR
Trang 19Làm sạch dữ liệu (data cleaning/cleansing):
Thiếu giá trị
- Hãy xem xét một kho dữ liệu bán hàng và quản lý khách hàng Trong đó có thể có một hoặc nhiều giá trị mà khó có thể thu thập được ví dụ như thu nhập của khách hàng Vậy làm cách nào để chúng ta có được các thông tin đó?
19
Trang 20Làm sạch dữ liệu (data cleaning/cleansing):
thiếu
cho giá trị thiếu