Tổng quát hóa và rời rạc hóa bậc khái niệm cho dữ liệu kiểu số

Một phần của tài liệu Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định (Trang 36)

Thật là khó khăn và nặng nhọc để chỉ rõ bậc khái niệm cho những thuộc tính số vì tính đa dạng của miền dữ liệu có được và sự cập nhật giá trị dự liệu một cách thường xuyên.

38

đếm

giá

Bậc khái niệm cho thuộc tính số có thể được xây dựng một cách tự động dựa trên phân tích sự phân bố của dữ liệu. Có năm phương pháp cơ bản cho việc tổng quát hóa bậc khái niệm số đó là [4]: Binning, phân tích biểu đồ, phân tích phân cụm, rời rạc hóa entropy-based và phân đoạn dữ liệu bằng “phân đoạn tự nhiên”.

Kỹ thuật binning đã được trình bày trong mục 2.2.2, rời rạc hóa entropy-based sẽ được trình bày trong phần quy nạp cây quyết định. Dưới đây sẽ là những kỹ thuật còn lại.

 Phân tích biểu đồ

Phân tích biểu đồ không chỉ dùng để thu gọn dữ liệu mà cũng còn được dùng cho rời rạc hóa dữ liệu. Hình 2.4 trình bày một biểu đồ thể hiện sự phân bố dữ liệu của thuộc tính giá trong một tập dữ liệu đã cho. Lấy ví dụ, giá hầu hết rơi vào khoảng $300-$325. Những quy tắc phân chia có thể được sử dụng để định nghĩa những khoảng giá trị. Lấy ví dụ, trong biểu đồ dạng equiwidth thì các giá trị của các cột được chia vào những khoảng đều nhau (tức là ($0…100], ($100…200], … (900…1000]).

Hình 2.4 biểu đồ thể hiện sự phân bố giá trị của thuộc tính giá

Với một biểu đồ dạng equidepth, các giá trị cũng được phân chia như vậy, lý tưởng nhất là mỗi một phân đoạn có các mẫu (bản ghi) dữ liệu bằng nhau hoặc gần bằng nhau. Các thuật toán phân tích biểu đồ có thể được áp dụng đệ quy cho mỗi phân đoạn để phát sinh tự động một bậc khái niệm đa cấp, quá trình đệ quy kết thúc khi một số các mức khái niệm định trước được thỏa mãn. Một kích thước khoảng

39

tối thiểu cũng có thể được sử dụng cho mỗi mức để điều khiển thủ tục đệ quy, nó chỉ rõ độ rộng tối thiểu của một phân đoạn hoặc số lượng tối thiểu của những giá trị cho mỗi phân đoạn tại mỗi mức.

 Phân tích cụm

Thuật toán phân cụm có thể được áp dụng để phân chia dữ liệu vào các cụm hay các nhóm. Mỗi một cụm hình thành một nút của một bậc khái niệm, trong bậc khái niệm đó tất cả các nút có cùng một mức khái niệm. Mỗi một cụm có thể được phân thành vài cụm con, điều này hình thành nên một bậc khái niệm có mức thấp hơn. Các cụm cũng có thể được nhóm lại với nhau để tạo ra một mức khái niệm có bậc cao hơn.

 Phân đoạn bằng chia cắt tự nhiên

Mặc dù các phương pháp binning, phân tích biểu đồ, phân tích cụm rất có ích trong việc tổng quát hóa các bậc khái niệm kiểu số, nhưng một số người sử dụng vẫn muốn thấy các khoảng giá trị số được chia thành các khoảng tương đối đều nhau, để dễ dàng đọc các khoảng và trông có vẻ “tự nhiên” hơn. Lấy ví dụ, lương hàng năm rơi vào khoảng ($50.000, $60.000) thường dễ nhìn hơn là ($51.234.124, $60.758.475). Để phân đoạn theo kiểu này có thể sử dụng quy tắc có tên gọi là 3-4- 5.

Quy tắc 3-4-5 được sử dụng để phân đoạn dữ liệu kiểu số thành những khoảng tương đối đều nhau. Thông thường, quy tắc này sẽ chia khoảng dữ liệu đã cho thành 3,4 hay 5 khoảng giá trị tương đối, thực hiện đệ quy tại mỗi mức dựa vào giá trị khoảng tại số quan trọng nhất. Quy tắc đó như sau:

- Nếu khoảng có 3, 6, 7 hoặc 9 giá trị phân biệt tại những số quan trọng nhất (most significant digit - msd) thì chia thành 3 khoảng.

- Nếu khoảng có 2, 4 hoặc 8 giá trị phân biệt tại những số quan trọng nhất thì chia thành 4 khoảng giá trị.

- Nếu khoảng có 1, 5 hoặc 10 giá trị phân biệt tại những số quan trọng nhất thì chia thành 5 khoảng giá trị.

40

Quy tắc này có thể áp dụng đệ quy đối với từng khoảng đã chia, tạo ra thứ bậc khái niệm cho một thuộc tính kiểu số.

Một phần của tài liệu Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định (Trang 36)

Tải bản đầy đủ (PDF)

(90 trang)