4.1 Oblivious Decision Trees
Cây quyết định oblivious là cây quyết định mà tất cả các nút tại cùng cấp thì cùng tính năng. Mặc dù có những hạn chế, song cây quyết định oblivious rất hiệu quả trong việc lựa chọn tính năng. [Almuallim và Deitterich (1994)] cũng như [Schlimmer (1993)] đã đề xuất một thủ tục lựa chọn tính năng trước đây bằng cách xây dựng cây quyết định oblivious, trong khi đó [Langley và Sage (1994)] đã đề nghị lựa chọn ngược cũng sử dụng cây quyết định oblivious. [Kohavi và Sommerfield (1998)] đã chỉ ra rằng cây quyết định oblivious có thể chuyển thành một bảng quyết định. Gần đây [Maimon và Last (2000)] đã đề nghị thuật toán mới IFN (Information Fuzzy Network) để xây dựng cây quyết định oblivious.
5. Vì sao phải xây dựng thuật toán IFN?
• Ưu điểm:
- Xây dựng IFN tương tự xây dựng cây quyết định. - IFN là một đồ thị có hướng chứ không phải là cây.
- IFN sử dụng thông tin chung có điều kiện trong quá trình xây dựng cây, trong khi đó cây quyết định sử dụng số liệu Entropy hoặc Gini.
- Chiều cao của IFN không thể vượt quá số lượng đầu vào.
- Các mô hình IFN thường ổn định hơn, điều đó có nghĩa rằng những thay đổi nhỏ trong tập huấn luyện sẽ ảnh hưởng đến nó ít hơn trong các mô hình khác.
• Nhược điểm:
- Tuy nhiên độ chính xác của IFN thấp của cây quyết định. 6. Thuật toán:
6.1 Input:
6.1.1 Một danh sách các biến 6.1.2 Một danh sách tập huấn luyện
6.1.3 Một ý nghĩa thống kê tối thiểu được dùng để quyết định có phân chia nút đó hay không? (mặc định: 0.1%).
6.2 Tạo nút gốc và một lớp của biến mục tiêu.
6.3 Lặp lại cho đến khi sử dụng hết các thuộc tính hoặc không thể cải thiện hơn các thông tin chung điều kiện.
6.3.1 Tìm thuộc tính với thông tin chung có điều kiện lớn nhất.
6.3.2 Xác nhận sự tham gia của các thuộc tính có ý nghĩa thống kê bằng cách sử dụng các bộ kiểm tra tỷ lệ khả năng xảy ra.
6.3.3 Phân chia bất kỳ nút nào trong lớp trước đó mà tham gia vào các thuộc tính hiện tại với ý nghĩa thống kê. Nếu không, tạo một nút nối nút đó đến một trong các nút giá trị của biến mục tiêu dựa vào luật đa số.
6.4 Liệt kê danh sách các biến đã được sử dụng trong mạng lưới đó.
Ví dụ: (Hình bên dưới)
Trong hình này, mạng lưới bao gồm 2 lớp, đại diện cho 2 thuộc tính đầu vào (lớp 1 và lớp 2).
- Thuộc tính đầu vào đầu tiên có 3 giá trị, được thể hiện bỡi các nút 1, 2, 3 trong lớp thứ 1.
- Các nút 1 và 3 được phân chia bỡi thủ tục xây dựng mạng này.
- Thuộc tính đầu vào thứ 2 có 4 nút là sự kết hợp của 2 giá trị trong thuộc tính đầu vào mà đã phân chia trong lớp đầu.
- Lớp mục tiêu thể hiện thuộc tính mục tiêu với 3 giá trị.
Dựa trên thuyết thông tin, thuận lợi chính của IFN là tính chặt chẽ. Trong cây quyết định thông thường, như CART, chiều cao của một cây quyết định có thể vượt quá số lượng các thuộc tính đầu vào. Nhưng trong IFN, chiều cao của một cây quyết định sẽ không bao giờ vượt quá số lượng thuộc tính đầu vào. [Pruning Irrelevant Features from Oblivious Decision Trees]
Trong hình 6.2 minh họa cho một loại cây quyết định oblivious với 4 tính năng đầu vào: mức đường huyết (G), Tuổi (A), Huyết áp (H) và Mang thai (P), tính năng Đúng/Sai thể hiện rằng bệnh nhân đó có bị tiểu đường hay không. Mỗi lớp là một kết hợp duy nhất với tính năng đầu vào bằng cách thể hiện sự tương tác của tính năng đó
với các tính năng đầu vào của lớp trước. Các con số xuất hiện trong các nút cuối cùng chỉ ra số trường hợp phù hợp với đường đi này.
Ví dụ: (Hình 6.2) Khảo sát một số bệnh nhân có mức đường huyết nhỏ hơn 107 và tuổi lớn hơn 50 thì kết quả nhận thấy rằng: cứ 10 người được chuẩn đoán xem có bị tiểu đường hay không thì 2 người không cần chuẩn đoán bệnh này. Trường hợp khác, khảo sát một số bệnh nhân có đường huyết lớn hơn hoặc bằng 107, tuổi nhỏ hơn hoặc bằng 30, có bị bệnh huyết áp và đang mang thai thì phải làm xét nghiệm tiểu đường. Tương tự cho các đường đi còn lại.
Sự khác biệt chính trong cấu trúc của cây quyết định oblivious và cây quyết định thông thường là thứ tự hằng số của thuộc tính đầu vào tại mỗi nút cuối cùng của cây quyết định oblivious. Thuộc tính thứ hai là cần thiết cho việc giảm thiểu toàn bộ tập con của thuộc tính đầu vào (kết quả là giảm kích thước). Các dây cung mà kết nối các nút cuối cùng với các nút của lớp mục tiêu thì được gán nhãn với số lượng mẫu tin phù hợp với đường đi này.
Một cây quyết định oblivious được xây dựng thường xuyên bằng thuật toán tham lam, cái mà cố gắng tối đa hóa các biện pháp thông tin lẫn nhau trong mỗi lớp. Tìm kiếm đệ qui các thuộc tính minh họa, sẽ dừng khi không có thuộc tính nào mà giải thích mục tiêu này với ý nghĩa thống kê. [5]
Hầu hết các phương pháp cây quyết định trước đây sử dụng để trích lọc tri thức trong các vấn đề phân loại sự không chắc chắn, nhận thức mơ hồ và không rõ ràng liên quan đến tư duy và nhận thức của con người.
Một phương pháp cây quyết định mờ đầu tiên, mà dựa trên việc giảm phân loại mơ hồ với dấu hiệu mờ được phát triển. Cây quyết định mờ thể hiện việc phân loại kiến thức tự nhiên hơn là cách thức tư duy của con người và mạnh mẽ hơn trong việc tiếp cận thông tin không chính xác, xung đột và thiếu thông tin.
Trong cây quyết định cổ điển, một trường hợp có thể được kết hợp với chỉ một nhánh của cây. Cây quyết định mờ (FDT) có thể kết hợp đồng thời nhiều nhánh đến cùng một trường hợp. FDTs bảo tồn cấu trúc biểu tượng của cây và có thể hiểu được. Tuy nhiên,
FDT có thể biểu diễn các khái niệm với các đặc trưng được phân chia bỡi giá trị thực đầu ra với việc thay đổi phân chia Janikow (1998) đã biểu diễn một khung hoàn chỉnh cho việc xây dựng cây mờ gồm một số hàm suy luận dựa trên việc giải quyết xung đột trong các hệ thống dựa theo luật và các phương pháp suy luận gần đúng hiệu quả. Olaru và
Wehenkel (2003) đã hiện thực một cây quyết định mờ mới được gọi là cây quyết định mềm.
Cách tiếp cận này vừa kết hợp việc phát triển cây và tỉa cây, để xác định cấu trúc của cây quyết định mềm, với việc trang bị lại và thích hợp hơn, để cải thiện khả năng khái quát của nó. Họ chỉ ra trong thực nghiệm rằng cây quyết định mềm chính xác hơn một cách đáng kể so với cây quyết định tiêu chuẩn. Hơn nữa, một mô hình nghiên cứu toàn cầu hợp lý cho thấy cây quyết định mềm có phương sai thấp hơn cây tiêu chuẩn như một nguyên nhân trực tiếp của tính chính xác việc cải tiến. Peng (2004) đã sử dụng FDT để cải thiện hiệu suất của phương pháp học tập quy nạp cổ điển trong quá trình sản xuất.
Peng đã đề nghị sử dụng rời rạc mềm của các thuộc tính giá trị liên tục. Nó đã được chỉ ra rằng FDT có thể đối phó với nhiễu hoặc không chắc tồn tại trong các dữ liệu thu thập được của hệ thống công nghiệp. [5]
4.3 Decision Trees Inducers for Large Datasets
Với sự tăng trưởng gần đây về số lượng dữ liệu được thu thập bởi các hệ thống thông tin, có một nhu cầu cho cây quyết định mà có thể xử lý những tập dữ liệu lớn. [Catlett
(1991)] đã xem xét hai phương pháp cho cây quyết định tăng trưởng hiệu quả từ một cơ sở dữ liệu lớn bằng cách giảm các yêu cầu được tính toán phức tạp cho phương pháp quy nạp. Tuy nhiên, phương pháp Catlett yêu cầu rằng tất cả dữ liệu phải được đưa vào bộ nhớ chính trước khi được tính toán. Cụ thể, tập dữ liệu lớn nhất mà có thể được tính toán thì được giới hạn một kích thướt bộ nhớ. [Fifield (1992)] đề nghị một sự bổ sung tương đương của thuật toán ID3. Tuy nhiên, cũng giống như Catlett, nó giả định rằng tất cả các tập dữ liệu có thể phù hợp với bộ nhớ chính. [Chan và Stolfo (1997)] đề nghị phân chia
các tập dữ liệu thành các tập dữ liệu rời rạc để mỗi tập dữ liệu được tải một cách riêng biệt vào bộ nhớ và được sử dụng để tạo ra cây quyết định. Cây quyết định sau đó được kết hợp để tạo ra một phân loại duy nhất. Tuy nhiên, các kết quả thử nghiệm cho thấy rằng việc phân chia có thể làm giảm hiệu suất phân loại. Điều này có nghĩa là tính chính xác phân loại của cây quyết định kết hợp là không tốt như trên cây quyết định đơn được xây dựng trên toàn tập dữ liệu. Thuật toán SLIQ (Mehta, 1996) không bắt buộc phải tải toàn bộ tập dữ liệu vào bộ nhớ chính, thay vào đó nó sử dụng bộ nhớ thứ cấp (bộ nhớ đĩa). Nói cách khác, một trường hợp nào đó không nhất thiết phải cư trú trong bộ nhớ chính tại mọi thời điểm. SLIQ tạo ra một cây quyết định duy nhất từ toàn bộ tập dữ liệu. Tuy nhiên, phương pháp này cũng có một giới hạn đối với tập dữ liệu lớn nhất mà có thể đã được xử lý, bởi vì nó sử dụng cấu trúc dữ liệu mà phân chia kích thướt tập dữ liệu và cấu trúc dữ liệu này luôn luôn phải được cư trú trong bộ nhớ chính.Thuật toán SPRINT
sử dụng cách tiếp cận tương tự (Shafer, 1996). Thuật toán này xây dựng các cây quyết định tương đối nhanh và khắc phục các hạn chế về bộ nhớ của cây quyết định quy nạp.
SPRINT đánh dấu bất kỳ nhiễu nào được chia nhỏ dựa trên các bộ dữ liệu lớn. (Gehrke, 2000) đã giới thiệu RainForest; một khung đồng nhất cho các phân lớp cây quyết định mà có khả năng nhân rộng bất kỳ thuật toán cụ thể nào từ tài liệu này (gồm: C4.5, CART
và CHAID). Hơn nữa để tổng quát, RainForest cải tiến SPRINT bằng một nhân tố của 3. Ngược lại với SPRINT, tuy nhiên, RainForest yêu cầu một số lượng nhỏ bộ nhớ chính, tương ứng với tập của các giá trị khác nhau trong một cột của mối quan hệ đầu vào. Tuy nhiên, yêu cầu này được coi là vừa phải và hợp lý.Cây quyết định kết luận cho các tập dữ liệu lớn có thể tìm thấy trong các tài liệu (Alsabti, 1998; Freitas và
Lavington, 1998; Gehrke, 1999). [5]
4.4 Incremental Induction:
Hầu hết các cây quyết định kết luận đều yêu cầu xây dựng lại cây từ những cái linh tinh ứng với dữ liệu mới mà đã có sẵn. một số nghiên cứu đã giải quyết được các vấn đề về cập nhật các cây quyết định tăng trưởng. (Utgoff, 1989b,1997) trình bày một số phương pháp để cập nhật cây quyết định tăng trưởng. Mở rộng của thuật toán CART là khả năng gây tăng trưởng được mô tả trong (Crawford, 2002). [5]