Đánh giá mô hình

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN (Trang 47 - 49)

Chơng 5 Phân lớp dựa trên cây quyết định

5.5 Đánh giá mô hình

Sau khi xây dựng xong mô hình, để biết đợc độ tin cậy của nó, cần đánh giá độ chính xác phân lớp. Công việc này có thể thực hiện trên tập mẫu thử hoặc theo kĩ thuật đánh giá chéo nh trong quá trình tỉa cây. Sai số phân lớp đợc định nghĩa là số mẫu thử bị xếp sai lớp so với nhãn lớp thực của nó.

5.6 Kết luận

Để đi sâu xem xét việc phân lớp dựa trên cây quyết định, chúng ta cần xem xét một số vấn đề liên quan.

Thứ nhất, việc sử dụng các tiêu chuẩn đánh giá phép thử nh đã trình bày ở phần 5.3.2 trong thực tế chỉ phù hợp với các tập dữ liệu có các lớp phân bố khá đều, khi trong tập mẫu học có các lớp hiếm, nếu chỉ áp dụng các tiêu chuẩn đã nêu sẽ dẫn đến sai số phân lớp rất lớn và mô hình tìm đợc không có ý nghĩa.

Vấn đề thứ hai liên quan đến kích thớc bộ dữ liệu học. Bộ dữ liệu quá lớn không những làm tăng thời gian xây dựng mô hình mà có thể không chứa đủ ở bộ nhớ trong, do đó không thực hiện đợc qúa trình học. ở đây, giải pháp phân lớp song song hứa hẹn cách giải quyết hợp lí, nó không làm thay đổi độ chính xác phân lớp, đồng thời khai thác đợc bộ nhớ của nhiều máy tính trong hệ thống.

Các giải thuật phân lớp dựa trên cây quyết định này có đặc tính cho phép khai thác khả năng song song theo cả dữ liệu và chức năng. Khi đã phát triển nút, ta có thể mở rộng đồng thời các nút con của nút đó. Ngoài ra, để xác định đợc điều kiện tách, cần phải duyệt toàn bộ tập mẫu để có thông tin về phân bố của các lớp trên tập mẫu đó. Quá trình này có thể thực hiện đồng thời trên nhiều nhiệm vụ, mỗi nhiệm vụ duyệt một phần của tập mẫu.

Vấn đề áp dụng giải thuật song song sẽ gặp khó khăn khi cây quyết định có hình dạng không cố định và không xác định đợc trớc mà phụ thuộc hoàn toàn vào tập mẫu học. Hơn nữa, khối lợng công việc ở mỗi nút không giống nhau và không thể biết trớc, nó phụ thuộc hoàn toàn vào dữ liệu. Do đó, dùng lợc đồ định vị tĩnh sẽ gây ra hiện tợng

mất cân bằng tải trầm trọng. Mặt khác, tuy có thể xử lý đồng thời các nút con của cùng một nút nhng dữ liệu của các nút này lại chính là dữ liệu ở nút cha nên nếu phân chia dữ liệu động và định vị chúng cho các nhiệm vụ khác, chi phí đổi chỗ dữ liệu sẽ rất cao. Đồng thời nếu không phân chia dữ liệu hợp lý, hiệu quả sẽ thấp do không khai thác đợc tính cục bộ.

Đây chỉ là một số nhận xét ban đầu cho việc áp dụng giải thuật song song cho bài toán phân lớp dựa trên cây quyết định.

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN (Trang 47 - 49)

Tải bản đầy đủ (DOCX)

(89 trang)
w