Xử lý thuộc tính liên tục trong Ant-Miner

Một phần của tài liệu THUẬT TOÁN PHÂN LỚP ĐÀN KIẾN VỚI THUỘC TÍNH LIÊN TỤC (Trang 28)

Có nhiều phương pháp rời rạc hóa để xử lý thuộc tính liên tục có sẵn trong lĩnh vực này . Những phương pháp này có thể được nhóm lại theo chiến lược rời rạc khác nhau. Phương pháp sử dụng thông tin về lớp của các ví dụ được gọi là học

có giám sát, trong khi các phương pháp học không có giám sát không sử dụng thông

tin lớp (có sự giám sát vs không giám sat). Phương pháp toàn cục sử dụng toàn bộ không gian ví dụ để xác định các khoảng rời rạc, trong khi các phương pháp địa

phương sử dụng một tập hợp con của các không gian ví dụ ( toàn cục so

với địa phương). Một phương pháp cũng có thể phân loại các phương pháp rời rạc như

tĩnh, nếu chúng được áp dụng trong một giai đoạn tiền xử lý dữ liệu trước khi các thuật

toán phân loại được chạy, hoặc là động, nếu chúng được áp dụng trong khi một phân loại đang được xây dựng (tĩnh vs động). Để có cái nhìn chi tiết hơn các loại khác nhau của các phương pháp rời rạc hóa.

Như đã đề cập trong phần trước, phiên bản hiện tại của Ant-Miner không làm việc với các thuộc tính liên tục trực tiếp. Nó đòi hỏi các thuộc tính liên tục cần được rời rạc trong bước tiền xử lý. Trong báo cáo thí nghiệm , các phương pháp rời rạc C4.5-Disc đã được áp dụng trước cho Ant-Miner trong giai đoạn tiền xử lý dữ liệu. Về bản chất, phương pháp rời rạc C4.5-Disc bao gồm việc sử dụng C4.5 , thuật toán cây quyết định để tạo ra những khoảng rời rạc cho mỗi thuộc tính liên tục một cách riêng biệt. Đối với mỗi thuộc tính liên tục, C4.5 áp dụng cho một tập số liệu giảm bớt mà chỉ chứa các thuộc tính để rời rạc và thuộc tính của lớp. Sau khi cây quyết định nhị phân tham chiếu đến các thuộc tính đơn để rời rạc được xây dựng, mỗi đường của cây từ một nút lá đến nút gốc tương ứng với một khoảng rời rạc. Để biết thêm chi tiết,

xin tham khảo . Phương pháp rời rạc C4.5-Disc sẽ được phân loại là có giám sát, toàn

cục và tĩnh dựa trên các tiêu chí mô tả ở trên.

Trong bài này, chúng tôi đưa ra một phương pháp rời rạc động tích hợp vào quá trình xây dựng luật của Ant-Miner và do vậy tránh được sự cần thiết để chạy một phương pháp rời rạc trong bước tiền xử lý. Trước hết, chúng tôi đã mở rộng Ant-Miner gốc để hỗ trợ các thuộc tính liên tục trong các luật tiền đề dưới hình thức

(thuộc tính c <Giá trị) hoặc (thuộc tính c ≥ giá trị), trong đó giá trị là một giá trị thuộc

miền của thuộc tính liên tục thuộc tính . Hơn nữa, chúng tôi kết hợp phương pháp rời rạc dựa trên entropy vào quá trình xây dựng luật của Ant-Miner để tự động tạo ra các ngưỡng giá trị trên miền giá trị của thuộc tính liên tục. Lượng giá entropy, bắt nguồn từ lý thuyết thông tin và thường được sử dụng trong data mining, số lượng pha tạp của một bộ sưu tập các ví dụ và nó là biện pháp tương tự được sử dụng như các hàm đánh giá trong Ant-Miner. Chi tiết của đề xuất Ant-Miner mở rộng, được đặt tên cAnt-

Miner, được cung cấp tại các tiểu mục kế tiếp.

Một phần của tài liệu THUẬT TOÁN PHÂN LỚP ĐÀN KIẾN VỚI THUỘC TÍNH LIÊN TỤC (Trang 28)