Cải tiến cây quyết định quy nạp cơ bản

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu protein sumo hóa (Trang 32 - 33)

Giải thuật cây quyết định quy nạp cơ bản ở mục 2.3.1 địi hỏi tất các các thuộc tính là xác thực (categorical) hay rời rạc (discretized). Giải thuật cĩ thể sửa đổi để cho phép các thuộc tính cĩ giá trị liên tục. Kiểm định trên một thuộc tính A cĩ giá trị liên tục cho kết quả vào hai nhánh, tương đương với hai điều kiện A V A >V cho các giá trị số (numeric)

V của A. Nếu A v giá trị thì cĩ thể cĩ v-1 phép phân tách được xem xét khi xác định V. Thơng thường các điểm giữa mỗi cặp giá trị kề nhau được xem xét. Nếu các giá trị được sắp xếp trước thì chỉ cần một lần duyệt qua các giá trị.

Giải thuật cây quyết định quy nạp cơ bản tạo một nhánh cho mỗi giá trị của một thuộc tính kiểm định, sau đĩ phân phối các mẫu một cách phù hợp. Phân chia này cĩ thể cho kết quả là một số lượng lớn các tập con nhỏ. Khi đĩ các tập con trở nên ngày càng nhỏ đi, xử lý phân chia cĩ thể sử dụng mẫu cĩ quy mơ là thống kê khơng đầy đủ. Lúc này, việc tìm mẫu hữu ích trong các tập con sẽ trở nên khơng thích hợp bởi tính khơng đầy đủ của dữ liệu. Một cách khắc phục là nhĩm các giá trị cĩ thuộc tính xác thực hoặc tạo các cây quyết định nhị phân, tại đĩ mỗi nhánh là một kiểm định boolean trên một thuộc tính. Các cây nhị phân cho kết quả phân mảnh dữ liệu ít nhất. Nhiều nghiên cứu đã cho thấy các cây quyết định nhị phân cĩ khuynh hướng chính xác hơn các cây truyền thống. Nhiều phương pháp được đề xuất để xử lý các giá trị thuộc tính khuyết. Một giá trị bị khuyết của thuộc tính A cĩ thể được thay thế bởi giá trị phổ biến nhất của A.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu protein sumo hóa (Trang 32 - 33)

Tải bản đầy đủ (PDF)

(82 trang)