II. TÌM HIỂU VỀ PHÂN LỚP DỮ LIỆU: 1 Giới thiệu về phân lớp:
3. Sự phân lớp cây quyết định trong cơ sở dữ liệu lớn:
Sự phân lớp là một vấn đề cổ điển được nguyên cứu một cách mở rộng bởi những nhà thống kê và những nhà nguyên cứu máy học. Hướng phát triển hiện nay là của việc phân lớp là phân lớp những tập dữ liệu với hàng tỉ những mẫu thử và hàng trăm thuộc tính với tốc độ vừa phải.
Qui nạp cây quyết định được đánh giá cao trong khai phá dữ liệu lớn vì những nguyên nhân sau:
Tốc độ học tương đối nhanh hơn so với những phương pháp phân loại khác. Có thể hoán chuyển được thành những luật phân lớp đơn giản và dễ hiểu. Có thể sử dụng truy vấn SQL để truy xuất cơ sở dữ liệu.
Những phương pháp qui nạp cây quyết định trong nguyên cứu về Khai phá trên tập dữ liệu lớn:
3.1. SLIQ : A Fast Scalable Classifier for Data Mining:
Những giải thuật phân lớp được thiết kế chỉ theo cách cho dữ liệu thường trú trong bộ nhớ. Phương pháp này thảo luận đưa ra việc xây dựng một công cụ phân loại có khả năng leo thang và thể hiện SLIQ ( Superived Learning In Quest ) như một công cụ phân loại mới, SLIQ là một công cụ cây quyết định mà có thể quản lý cả thuộc tính số và thuộc tính xác thực. Nó sử dụng một kỹ thuật sắp xếp trước (pre- sorting) trong giai đoạn phát triển cây (tree-grow).Thủ tục sắp xếp trước này được tính hợp với chiến thuật phát triển cây theo chiều rộng để cho phép sự phân lớp của tập dữ liệu thường trú ở đĩa. SLIQ cũng sử dụng một giải thuật tỉa cây mà chi phí không quá cao với kết quả đạt được khả quan và những cây khá chính xát. Sự kết hợp của những kĩ thuật này cho phép SLIQ leo thang với tập dữ liệu lớn và tập dữ liệu phân lớp mà không để ý đến số lượng của những lớp, những thuộc tính và những record.
Trong phương pháp này thì tập dữ liệu huấn luyện không thể được tổ chức trong bộ nhớ.
3.2. Từ SLIQ sang SPRINT: A Scalable Parallel Classifier for DataMining
Phương pháp này thể hiện một giải thuật phân lớp dựa trên cây quyết định có khả năng loại bỏ sự giới hạn của bộ nhớ, thực thi nhanh và có khả năng leo thang. Giải thuật này được thiết kế để dễ dàng cho song song hóa, cho phép nhiều bộ xử lý làm việc với nhau để xây dựng một mô hình nhất quán.
Danh sách lớp trong SLIQ phải chứa trong bộ nhớ Cổ chai: danh sách lớp có thể lớn
SPRINT: đặt thông tin lớp vào danh sách thuộc tính và không có danh sách lớp nào. Song song phân lớp: phân chia danh sách những thuộc tính.
3.3. PUBLIC: Tích hợp sự phát triển của cây quyết định và tỉa cây:
Phương pháp này để cập một cải tiến của công cụ cây quyết định được cải tiến mà tích hợp giai đoạn tỉa cây với giai đoạn xây dựng ban đầu. Trong PUBLIC, một nút không được mở rộng trong suốt giai đoạn xây dựng, nếu nó được xác định rằng nó sẽ bị tỉa trong suốt giai đoạn tỉa sau. Do đó để tạo sự quyết định cho node này trước khi nó được mở rộng, PUPLIC tính toán một biên dưới trên giá trị tối thiểu cây con được đặt tại nút. Sự ước lượng này sẽ được sử dụng bởi PUBLIC để xát định những nút mà chắc chắn được tỉa và đối với những nút như vậy mà không tiểu tốn trong việc phân chia chúng.
Tích hợp phát triển và tỉa: mỗi nút, kiểm tra chi phí của sự phát triển của những cây con.
3.4. RainForest: A Generic Framework:
Phương pháp này trình bày một khung làm việc hợp nhất cho những công cụ tạo cây quyết định mà tách rời những khía cạnh về khả năng leo thang của giải thuật cho việc xây dựng một cây quyết định từ những đặc tính trung tâm mà xát định phẩm chất của cây. Loại giải thuật này dễ dàng hoạt động cụ thể với những giải thuật riêng biệt từ tài liệu nguyên cứu bao gồm C4.5, CART, CHAID, FACT, ID3 và những mở rộng, SLIQ, SPRINT và QUEST.
Cổ chai của khả năng leo thang : Tính toán thuộc tính giá trị,nhãn lớp (AVC-Group) cho mỗi node.
RainForest đưa ra một tập hợp của những giải thuật cho tính toán nhanh AVC-group .
3.5. Qui nạp cây quyết định dữ liệu dựa trên khối:
Qui nạp cây quyết định của dữ liệu dựa trên khối là sự tích hợp của tổng quát hóa với qui nạp cây quyết định.
Phân lớp nhiều cấp dựa trên khối có hai vấn đề quan trọng đó là phân tích liên quan dựa trên nhiều cấp độ và phân tích thông tin nhận được với chiều và cấp.