Dữ liệu bị nhiễu (noisy)

Một số kỹ thuật làm mịn dữ liệu:

1. Bining: Phương pháp bining làm mịn dữ liệu đã được sắp xếp bằng cách tham khảo những giá trị xung quanh nó. Những giá trị đã được sắp xếp được phân chia vào một số “bucket” hay gọi là bin. Vì phương pháp bining tham khảo những giá trị xung quanh, nên đây là phương pháp thực hiện việc làm mịn dữ liệu cục bộ. Xét một ví dụ minh họa vài kỹ thuật bining:

Dữ liệu về price (giá) đã được sắp xếp theo thứ tự tăng dần (theo đơn vị dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34

* Phân chia vào các bin: - Bin 1: 4, 8, 9, 15

- Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 * Làm mịn bằng bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 * Làm mịn bằng bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34

Trong ví dụ này, dữ liệu về price đầu tiên được sắp xếp và sao đó được phân chia vào những bin mật độ bằng nhau có kích thước là 3 (mỗi bin chứa ba giá trị).

- Trong kỹ thuật làm mịn dữ liệu bằng bin means (smoothing by bin means), mỗi giá trị trong một bin được thay thế bởi giá trị mean của bin đó. Ví dụ, mean của giá trị 4, 8, 9 và 15 trong bin 1 là 9. Vì vậy, mỗi giá trị ban đầu trong bin này được thay thế bằng giá trị 9.

- Tương tự, trong kỹ thuật làm mịn bằng bin medians (smoothing by bin medians), mỗi giá trị trong bin được thay thế bằng giá trị bin median.

- Trong kỹ thuật làm mịn bằng bin boundaries (smoothing by bin boundaries), giá trị minimum và maximum trong bin được xem là bin boundaries (giá trị biên). Mỗi giá trị trong bin được thay thế bằng giá trị biên gần nó nhất. Ví dụ, các biên của bin 1 là 4 và 15, gía trị 8 gần với biên 4 hơn so với biên 15 nên được thay bằng 4.

Bining sẽ được thảo luận chi tiết hơn trong phần 2.6.

2. Regression: Dữ liệu được làm mịn bằng cách làm khớp dữ liệu với một hàm.

Linear regression (Hồi qui tuyến tính) bao gồm việc tìm đường thẳng tốt nhất khớp với hai thuộc tính (hoặc biến), vì vậy một thuộc tính có thể được dùng để dự đoán thuộc tính còn lại. Từ đó, một cách trực quan ta dễ dàng xác định được các giá trị cá biệt (là những giá trị nằm hẳn bên ngoài so với đường thẳng tìm được). Multiple linear regression là một mở rộng của linear regression, khi đó có nhiều hơn hai thuộc tính và dữ liệu được khớp trên mặt phẳng đa chiều. Regression được mô tả chi tiết hơn trong phần 2.5.4 cũng như trong chương 6.

Hình 2.13 Minh họa kỹ thuật hồi qui

3. Clustering(gom cụm): Những phần tử cá biệt có thể được phát hiện bằng phương pháp clustering. Những giá trị tương tự nhau theo môt tiêu chuẩn nào đó được tổ chức vào trong các nhóm, hay là các cluster. Bằng trực giác, những giá trị nằm ngoài tập hợp của các cluster có thể xem như là những phần tử cá biệt (Hình 2.14). Kỹ thuật này sẽ được trình bày trong chương 7.

x y y = x + 1 X 1 Y 1 Y 1 ’

Hình 2.14 Minh họa kỹ thuật clustering

Nhiều phương pháp làm mịn dữ liệu cũng là phương pháp để giảm số chiều dữ liệu. Ví dụ, kỹ thuật bining mô tả ở trên làm giảm số lượng giá trị riêng biệt trên mỗi thuộc tính. Khái niệm phân cấp là một dạng rời rạc hóa dữ liệu có thể được dùng cho việc làm mịn dữ liệu. Ví dụ, đối với thuộc tính price có thể chia giá trị price thành inexpensive, moderately-priced và expensive, vì vậy việc làm giảm số lượng giá trị có thể được giải quyết bằng quá trình khai thác. Một vài phương pháp phân lớp như là mạng nơron, gắn liền với kỹ thuật làm mịn dữ liệu. Phân lớp được trình bày trong chương 6.

Dữ liệu bị thiếu (missing)

Tiến trình làm sạch dữ liệu: