Decision Trees Inducers for Large Datasets- 123docz.net

5. Cây quyết định mở rộng 1 Oblivious Decision Trees

5.3 Decision Trees Inducers for Large Datasets

Với sự tăng trưởng gần đây về số lượng dữ liệu được thu thập bởi các hệ thống thông tin, có một nhu cầu cho cây quyết định mà có thể xử lý những tập dữ liệu lớn. [Catlett (1991)] đã xem xét hai phương pháp cho cây quyết định tăng trưởng hiệu quả từ một cơ sở dữ liệu lớn bằng cách giảm các yêu cầu được tính toán phức tạp cho phương pháp quy nạp. Tuy nhiên, phương pháp Catlett yêu cầu rằng tất cả dữ liệu phải được đưa vào bộ nhớ chính trước khi được tính toán. Cụ thể, tập dữ liệu lớn nhất mà có thể được tính toán thì được giới hạn một kích thướt bộ nhớ. [Fifield (1992)] đề nghị một sự bổ sung tương đương của thuật toán ID3. Tuy nhiên, cũng giống như Catlett, nó giả định rằng tất cả các tập dữ liệu có thể phù hợp với bộ nhớ chính. [Chan và Stolfo (1997)] đề nghị phân chia các tập dữ liệu thành các tập dữ liệu rời rạc để mỗi tập dữ liệu được tải một cách riêng biệt vào bộ nhớ và được sử dụng để tạo ra cây quyết định. Cây quyết định sau đó được kết hợp để tạo ra một phân loại duy nhất. Tuy nhiên, các kết quả thử nghiệm cho thấy rằng việc phân chia có thể làm giảm hiệu suất phân loại. Điều này có nghĩa là tính chính xác phân loại của cây quyết định kết hợp là không tốt như trên cây quyết định đơn được xây dựng trên toàn tập dữ liệu. Thuật toán SLIQ (Mehta, 1996) không bắt buộc phải tải toàn bộ tập dữ liệu vào bộ nhớ chính, thay vào đó nó sử dụng bộ nhớ thứ cấp (bộ nhớ đĩa). Nói cách khác, một trường hợp nào đó không nhất thiết phải cư trú trong bộ nhớ chính tại mọi thời điểm. SLIQ tạo ra một cây quyết định duy nhất từ toàn bộ tập dữ liệu. Tuy nhiên, phương pháp này cũng có một giới hạn đối với tập dữ liệu lớn nhất mà có thể đã được xử lý, bởi vì nó sử dụng cấu trúc dữ liệu mà phân chia kích thướt tập dữ liệu và cấu trúc dữ liệu này luôn luôn phải được cư trú trong bộ nhớ chính.Thuật toán SPRINT sử dụng cách tiếp cận tương tự (Shafer, 1996). Thuật toán này xây dựng các cây quyết định tương đối nhanh và khắc phục các hạn chế về bộ nhớ của cây quyết định quy nạp.

SPRINT đánh dấu bất kỳ nhiễu nào được chia nhỏ dựa trên các bộ dữ liệu lớn. (Gehrke,

2000) đã giới thiệu RainForest; một khung đồng nhất cho các phân lớp cây quyết định mà có khả năng nhân rộng bất kỳ thuật toán cụ thể nào từ tài liệu này (gồm: C4.5, CART và CHAID). Hơn nữa để tổng quát, RainForest cải tiến SPRINT bằng một nhân tố của 3. Ngược lại với SPRINT, tuy nhiên, RainForest yêu cầu một số lượng nhỏ bộ nhớ chính, tương ứng với tập của các giá trị khác nhau trong một cột của mối quan hệ đầu vào.

Decision Trees Inducers for Large Datasets

Phương pháp tránh quá khớp dữ liệu

Cắt tỉa để giảm lỗi (Reduced error pruning)