Rời rạc hóa bằng cách phân chia trực quan dùng cho dữ liệu dạng số

Một phần của tài liệu ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống ids (Trang 25 - 26)

Mặc dù các phương pháp rời rạc hóa ở trên là hữu ích trong việc tạo các hệ thống phân cấp các hệ thống phân cấp bằng số, Nhiều người dùng thích xem các khoảng bằng số được phân hoạch thành cùng dạng để dễ đọc, trực quan và tự nhiên.

Ví dụ, mức lương hàng năm thường được chia thành những miền giá trị như [$50,000, $60,000) hơn những miền như [$51263.98, $860872.34) là kết quả thu được từ một số quá trình phân tích phân cụm phức tạp. Luật 3-4-5 có thể được sử dụng để phân đoạn dữ liệu bằng số thành những đoạn tự nhiên, tương tự nhau. Trong trường hợp tổng quát, luật trên phân hoạch miền dữ liệu thành 3, 4 hay 5 khoảng có độ dài tương tự nhau, một cách đệ qui theo từng mức, dựa trên miền giá trị tại những con số có ý nghĩa nhất. Chúng ta sẽ minh họa việc sử dụng luật này với những ví dụ dưới đây. Luật được thực hiện như sau:

 Nếu một đoạn chứa 3, 6, 7 hay 9 giá trị phân biệt ở ký số ý nghĩa nhất, thì sẽ phân hoạch miền thành 3 đoạn (3 đoạn có độ rộng bằng nhau cho 3, 6, 9 và 3 đoạn trong nhóm 2-3-2 cho 7);

 Nếu một đoạn chứa 2, 4 hay 8 giá trị phân biệt ở ký số ý nghĩa nhất, thì sẽ phân hoạch miền thành 4 đoạn có độ rộng bằng nhau.

 Nếu một đoạn chứa 1, 5 hay 10 giá trị phân biệt ở ký số ý nghĩa nhất, thì phân hoạch miền thành 5 đoạn độ rộng bằng nhau.

Luật trên có thể được áp dụng đệ qui cho mỗi đoạn con, tạo thành một hệ thống phân cấp khái niệm cho thuộc tính bằng số đã cho. Dữ liệu thực tế thường chứa nhiều giá trị ngoại lai, mà có thể làm sai lệch phương pháp rời rạc hóa top- down dựa trên giá trị min và max. Ví dụ, tài sản của một số ít người có thể lớn hơn rất nhiều so với số khác trong cùng một tập dữ liệu. Phương pháp rời rạc hóa dựa trên các giá trị tài sản lớn nhất có thể dẫn đến một hệ thống phân cấp có độ dốc cao. Do đó top-level discretization có thể được thực hiện dựa trên miền giá trị dữ liệu mô tả phần lớn dữ liệu đã cho (Ví dụ khoảng giữa của dữ liệu sau

khi cắt đi mỗi đầu 5%). Các giá trị quá cao hay quá thấp nằm ngoài top-level discretization sẽ hình thành các khoảng riêng biệt.

Một phần của tài liệu ứng dụng kỹ thuật khai phá dữ liệu trong hệ thống ids (Trang 25 - 26)

Tải bản đầy đủ (DOC)

(109 trang)
w