Khả năng mở rộng và cây quyết định quy nạp

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu protein sumo hóa (Trang 33 - 34)

Các giải thuật cây quyết định như ID3 và C4.5 được thiết lập cho các tập dữ liệu tương đối nhỏ. Hiệu quả và khả năng mở rộng là các vấn đề liên quan với nhau khi các giải thuật này được áp dụng vào việc khai phá các cơ sở dữ liệu rất lớn, thế giới thực. Hầu hết các giải thuật quyết định đều cĩ hạn chế là các mẫu huấn luyện tập trung ở bộ nhớ chính. Trong các ứng dụng khai phá dữ liệu, các tập huấn luyện rất lớn của hàng triệu mẫu là phổ biến. Do vậy, hạn chế này giới hạn khả năng mở rộng của các giải thuật trên, tại đây cấu trúc cây quyết định cĩ thể trở nên vơ ích bởi việc trao đổi của các mẫu huấn luyện trong và ngồi các bộ nhớ chính và cache.

Lúc đầu, chiến lược cho cây quyết định quy nạp ở các cơ sở dữ liệu lớn cĩ thể là rời rạc hố các thuộc tính liên tục, giả định tập huấn luyện vừa đủ trong bộ nhớ. Để mở rộng, trước tiên phân chia dữ liệu vào trong các tập con một cách riêng biệt cĩ thể vừa vào trong bộ nhớ và sau đĩ xây dựng một cây quyết định từ mỗi tập con. Classifier đầu ra cuối cùng là sự kết hợp của các classifier cĩ được từ các tập con. Mặc dù phương pháp này cho phép phân lớp các tập dữ liệu lớn, độ chính xác phân lớp của nĩ khơng cao như chỉ cĩ một classifier - nĩ được xây dựng bằng cách sử dụng tất cả dữ liệu cùng một lúc.

Một trong số các giải thuật cây quyết định gần đây được đề xuất để xử lý vấn đề khả năng mở rộng là SLIQ, nĩ cĩ thể vận dụng các thuộc tính cĩ giá trị xác thực và liên tục. Cả hai giải thuật đề xuất các kỹ thuật tiền sắp xếp trên đĩa - các tập dữ liệu thường trú là quá lớn để vừa trong bộ nhớ. Cả hai đều định nghĩa ích lợi của các cấu trúc dữ liệu mới giúp cho việc xây dựng cây trở nên thuận lợi. SLIQ dùng đĩa để lưu các danh sách thuộc tính và một bộ nhớ đơn lẻ để lưu danh sách lớp. Các danh sách thuộc tính và các danh sách lớp được sinh ra bởi SLIQ đối với dữ liệu mẫu ở bảng 2.2 được chỉ ra trên hình 2.5. Mỗi thuộc tính cĩ một danh sách thuộc tính kết hợp, được đánh chỉ số bởi STT. Mỗi bộ được biểu diễn bởi liên kết của một mục (entry) từ mỗi danh sách thuộc tính sang một mục trong danh sách lớp, nĩ lần lượt được liên kết tới nút lá tương ứng trong cây quyết định. Danh sách lớp vẫn ở trong bộ nhớ vì nĩ thường được truy cập, sửa đổi trong các pha xây dựng và cắt tỉa. Kích thước của danh sách lớp tăng trưởng cân xứng với số lượng các bộ trong

tập huấn luyện. Khi một danh sách lớp khơng thể vừa vào trong bộ nhớ, việc biểu diễn của SLIQ suy giảm.

Bảng 2. 2. Dữ liệu mẫu cho lớp mua máy tính

STT Độ tín nhiệm Tuổi Mua máy tính

1 Tốt 38 Cĩ

2 Tốt 26 Cĩ

3 Khá tốt 35 Khơng

4 Tốt 49 Khơng

Hinh 2. 4. Các cấu trúc dữ liệu danh sách thuộc tính và danh sách lớp được dung trong SLIO cho dữ liệu mẫu trong bảng 2.2

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu protein sumo hóa (Trang 33 - 34)

Tải bản đầy đủ (PDF)

(82 trang)