Dữ liệu bị nhiễu

Một phần của tài liệu Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định (Trang 26)

Nhiễu là một lỗi ngẫu nhiên hay những biến trạng biến đổi một cách đều đặn. Chúng ta hay xem một số kỹ thuật làm mịn dữ liệu sau đây:

Binning: Là phương pháp làm mịn dữ liệu đã được sắp xếp bằng cách tham khảo những giá trị “lân cận” của nó. Dữ liệu đã sắp xếp được phân bố vào trong một số “buckets” hoặc “bin”. Bởi vì phương pháp binning tham khảo đến những giá trị lân cận, nên nó thực hiện làm mịn cục bộ. Ta có thể làm mịn theo giá trị trung bình của bin hoặc theo biên của chúng. Trong cách làm mịn theo giá trị trung bình, mỗi giá trị trong bin được thay thế bằng giá trị trung bình của bin đó. Trong cách làm mịn bằng biên của bin, giá trị lớn nhất và nhỏ nhất của một bin được nhận ra và được xem là biên của bin. Mỗi giá trị trong bin được thay thế bằng giá trị biên gần với nó nhất.

Ví dụ: dữ liệu giá sản phẩm được sắp xếp như sau: 4, 8, 15, 21, 21, 24, 25, 28, 34 và chúng được phân chia vào các bin là:

Bin 1: 4, 8, 15 Bin 2: 21, 21, 24 Bin 3: 25, 28, 34

Làm mịn theo giá trị trung bình sẽ là Bin 1: 9, 9, 9 Bin 2: 22, 22, 22 Bin 3: 29, 29, 29 Làm mịn theo biên sẽ là Bin 1: 4, 4, 15 Bin 2: 21, 21, 24 Bin 3: 25, 25, 34

28

Phân cụm: Phần tách ngoài có thể được phát hiện bằng phân cụm, những dữ liệu có giá trị tương tự nhau được tổ chức thành những nhóm hay những “cụm”. Bằng trực giác, những giá trị rơi bên ngoài tập các cụm có thể được xem là phần tách ngoài.

Kết hợp máy tính và kiểm duyệt của con người: Phần tách ngoài có thể được nhận ra bằng cách kết hợp máy tính và kiểm duyệt của con người. Ví dụ, trong một ứng dụng phân lớp cơ sở dữ liệu các ký tự viết bằng tay, để nhận dạng mẫu nằm ngoài người ta sử dụng lý thuyết độ đo thông tin. Kết quả của việc làm đó đem lại những nhãn ký tự có nội dung khác biệt so với nhãn ký tự đã biết. Những ký tự này được xem là mẫu nằm ngoài, chúng có thể có thông tin (tức là đã nhận dạng được những dữ liệu ngoại lệ có ích, ví như phiên bản khác của ký tự) hoặc vô nghĩa (tức là ký tự không có nhãn). Những mẫu này được đưa ra một danh sách, một người có thể sắp xếp những mẫu trong danh sách này để xác định những mẫu thực sự vô nghĩa. Làm theo cách này nhanh hơn là phải tìm kiếm bằng tay trên toàn bộ cơ sở dữ liệu. Những mẫu vô nghĩa có thể sau đó được loại trừ khỏi những công đoạn tiếp theo của khai phá dữ liệu.

Hồi quy: Dữ liệu có thể làm mịn bằng việc đặt dữ liệu vào một hàm,ví như hồi quy. Hồi quy tuyến tính liên quan đến tìm ra đường phù hợp nhất với hai biến, vì thế một biến có thể được sử dụng để dự đoán biến kia. Hồi quy đa tuyến tính là một mở rộng của hồi quy tuyến tính, với nhiều hơn hai biến liên quan, và dữ liệu phù hợp với mặt đa chiều. Sử dụng hồi quy để tìm ra một công thức toán học nhằm phù hợp dữ liệu để giúp loại bỏ nhiễu.

Nhiều phương pháp làm mịn dữ liệu đồng thời cũng là phương pháp thu gọn dữ liệu bao gồm rời rạc hóa. Lấy ví dụ, kỹ thuật binning miêu tả ở trên làm giảm số lượng các giá trị phân biệt của thuộc tính, điều đó làm giảm dữ liệu cho phương pháp khai phá dữ liệu dựa vào logic như phương pháp quy nạp cây quyết định.

29

Một phần của tài liệu Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định (Trang 26)

Tải bản đầy đủ (PDF)

(90 trang)