Tích hợp quy nạp cây quyết định với công nghệ kho dữ liệu

Một phần của tài liệu Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định (Trang 58)

Quy nạp cây quyết định có thể tích hợp với kỹ thuật kho dữ liệu để khai phá dữ liệu. Trong phần này, chúng ta thảo luận làm thế nào để khối dữ liệu đa chiều và quy nạp hướng thuộc tính có thể tích hợp được với quy nạp cây quyết định để giúp cho hoạt động khai phá dữ liệu đa cấp độ được thuận lợi. Nhìn chung, kỹ thuật được miêu tả ở đây có thể áp dụng được dưới những hình thức học khác nhau.

Cách tiếp cận khối dữ liệu có thể tích hợp với quy nạp cây quyết định để cung cấp sự tương tác với khai phá đa cấp độ của cây quyết định. Khối dữ liệu và tri thức được lưu trữ trong những thứ bậc niệm có thể được dùng để đem lại những cây quyết định ở nhiều mức trừu tượng khác nhau. Hơn thế nữa, khi mà đã thu được một cây quyết định, thứ bậc khái niệm có thể được dùng để sinh ra hoặc chuyên môn hóa những nút riêng biệt trong cây, cho phép thuộc tính có thể “quận lên” hay “thả xuống” và phân lớp lại dữ liệu cho mức trừu tượng mới đã được chỉ rõ. Đặc điểm tương tác này cho phép người dùng tập trung sự chú ý của họ vào phạm vi của cây hoặc dữ liệu mà họ thấy quan tâm.

Quy nạp hướng thuộc tính sử dụng cấp bậc khái niệm để sinh ra dữ liệu huấn luyện bằng cách thay thế dữ liệu cấp thấp bằng khái niệm cấp cao hơn. Khi tích hợp quy nạp hướng thuộc tính với quy nạp cây quyết định, tổng quát hóa tới một mức khái niệm rất thấp có thể dẫn đến một cây lớn và rậm rạp. Tổng quát hóa tới một mức khái niệm cao có thể dẫn đến một cây quyết định ít được sử dụng, nơi mà các khái niệm con đáng quan tâm và quan trọng bị mất vì tổng quát hóa một cách quá mức. Để thay thế, tổng quát hóa nên thực hiện ở mức trung bình, đặt bởi một chuyên gia lĩnh vực hoặc được điều khiển bởi người sử dụng thông qua một ngưỡng cụ thể. Vì thế, sử dụng quy nạp hướng thuộc tính có thể mang lại những cây phân lớp dễ hiểu hơn, nhỏ gọn hơn những cây thu được từ những phương pháp phân lớp thực hiện trên tập dữ liệu mức thấp không được tổng quát hóa (ví dụ như SLIQ và SPRINT).

Do việc phân chia đệ quy, vài tập con dữ liệu kết quả có thể trở nên quá nhỏ, việc phân chia chúng hơn nữa sẽ không có những thống kê cơ bản quan trọng. Để

60

giải quyết vấn đề này, chúng ta có thể sử dụng một ngưỡng ngoại lệ. Nếu một phần của mẫu trong một tập con đã cho nhỏ hơn ngưỡng, thì việc phân chia hơn nữa tập con này sẽ được dừng lại. Để đại diện, một nút lá được tạo ra để chứa tập con các mẫu và phân bố lớp của chúng.

Trong thực tế, những cơ sở dữ liệu lớn thì dữ liệu rất nhiều và đa dạng, có thể không có lý để cho mỗi nút lá sẽ bao gồm những mẫu thuộc về cùng một lớp. Vấn đề này có thể khắc phục bằng cách sử dụng một ngưỡng phân lớp hay ngưỡng chính xác. Việc phân chia hơn nữa tập con dữ liệu ở một nút đã cho được kết thúc nếu phần trăm các mẫu thuộc về bất kỳ một lớp cụ thể nào ở nút đó vượt quá ngưỡng này.

Một phần của tài liệu Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định (Trang 58)

Tải bản đầy đủ (PDF)

(90 trang)