Thuật toán cây quyết định - Cấu trúc luận văn- 123docz.net

5. Cấu trúc luận văn

2.4.2. Thuật toán cây quyết định

Một thuật toán cốt lõi để xây dựng các cây quyết định đƣợc gọi là ID3 của JR Quinlan. Thuật toán ID3 trong bài toán phân lớp dựa trên chỉ số IG (Information Gain) để xác định một biến độc lập là nút quyết định. Trong bài toán hồi quy, chỉ số Information Gain đƣợc thay bằng chỉ số Standard

Deviation Reduction.(SDR: Mức giảm độ lệch chuẩn ) [16].

Thuật toán đƣợc thực hiện nhƣ sau: a, Tính các chỉ số trên các biến x Count(x): đếm số mẫu x Average: ̅ ∑ (2.26) Standard deviation: √∑( ̅) (2.27) Coefficent of variance: ̅ (2.28)

- Hệ số sai lệch ( CV ) dùng để để quyết định khi nào ngừng phân nhánh. Chúng ta có thể sử dụng Count ( n ) cho quyết định này.

- Chỉ số trung bình ( Avg ) là giá trị các nút lá. b, Tính độ lệch chuẩn cho hai biến :

( ) ∑ ( ) ( ) (2.29)

P(c) xác suất các phần tử x có cùng giá trị y trên miền x

Cây quyết định đƣợc xây dựng từ trên xuống bắt đầu từ nút gốc và liên quan đến việc phân vùng dữ liệu thành các tập hợp con có chứa các biến độc lập có giá trị tƣơng đồng. Ta sử dụng độ lệch chuẩn để tính tƣơng đồng của các biến độc lập. Nếu biến độc lập hoàn toàn đồng nhất thì độ lệch chuẩn của nó bằng không. Độ lệch chuẩn σ đƣợc tính bằng căn bậc 2 của chỉ số sai số bình phương trung bình MSE

2.4.3. Ví dụ

Dƣới đây ta xét một ví dụ cây quyết định hồi quy [16]. Trong ví dụ này các biến độc lập là tập hữu hạn các nhãn. Nếu các biến độc lập là số thực ta có thể phân lớp các biến này dựa trên các giá trị tƣơng đồng của nó.

Độ lệch chuẩn đối với biến y: Count = n = 14 ̅ ∑ √∑( ̅) ̅

Hình 2-6 Các chỉ số đối với biến y (Hours)

Ta tính độ lệch chuẩn (StDev) của hai biến y(Hours) và x(Outlook) S(Hours, Outlook)

Ta tính Standard DeviationReduction (Mức giảm độ lệch chuẩn)

Chỉ số Standard Deviation Reduction dựa trên mức giảm độ lệch chuẩn sau khi tập dữ liệu đƣợc phân chia trên một biến độc lập. Xây dựng cây quyết định là quá trình xác định các nút quyết định, là tìm biến độc lập có chỉ số

Standard Deviation Reduction cao nhất (nghĩa là các nhánh đồng nhất nhất).

SDR(y,xi) = S(y) - S(y,xi) (2.30)

Bước 1 : Độ lệch chuẩn của biến Hours đƣợc tính :

Độ lệch chuẩn (Hours) = 9,32

Bước 2 : Chọn biến độc lập làm nút quyết định. Tính chỉ số Standard Deviation Reduction (SDR) của biến phụ thuộc y(Hours) đối với các biến độc lập khác (Outlook, Temperature, Humidity, Windy).

Bảng 2-15 Độ lệch chuẩn dùng để xác định nút gốc

Bước 3 : Biến Outlook có SDR lớn nhất đƣợc chọn là nút quyết định. Bước 4a : Tập dữ liệu tiếp tục đƣợc phân ra thành các tập con (phân

nhánh) dựa trên các giá trị của biến Outlook đã đƣợc chọn làm nút quyết định. Quá trình 1,2,3 đƣợc chạy đệ quy trên các nhánh không có lá, cho đến khi tất cả dữ liệu đƣợc xử lý.

Bảng 2-16 Phân nhánh nút Outlook

Trong thực tế, chúng ta cần một số tiêu chí chấm dứt. Có thể chọn một trong hai cách sau: khi hệ số sai lệch ( CV ) cho một nhánh trở nên nhỏ hơn một ngƣỡng nhất định (ví dụ: 10%) và / hoặc khi vẫn còn quá ít trƣờng hợp ( n ) trong nhánh (ví dụ n = 3).

Bước 4b : Tập hợp con "Overcast" không cần chia nhỏ nữa vì CV của

nó (8%) nhỏ hơn ngƣỡng (10%). Nút lá có liên quan lấy trung bình của tập hợp con "Overcast".

Bước 4c : Tuy nhiên, nhánh "Sunny" có CV (28%) nhiều hơn ngƣỡng

(10%) cần chia tách thêm. Ta chọn "Windy" là nút quyết định sau "Outlook" vì nó có SDR lớn nhất.

Bảng 2-18 SDR Outlook so với Temp, Humidity, Windy

Vì số điểm dữ liệu cho cả hai nhánh (FALSE và TRUE) bằng hoặc nhỏ hơn 3, ta dừng phân nhánh tiếp theo và gán trung bình của mỗi nhánh cho nút lá liên quan.

Bước 4d : Hơn nữa, nhánh "Rainy" có CV (22%) lớn hơn ngƣỡng

(10%). Nhánh này cần chia tách thêm. Ta chọn "Windy" là nút quyết định tiếp theo vì nó có SDR lớn nhất.

Bảng 2-20 Nhánh Rainy

Bởi vì số lƣợng điểm dữ liệu cho cả ba nhánh (Cool, Hot và Mild) bằng hoặc nhỏ hơn 3, ta dừng phân nhánh và gán trung bình của mỗi nhánh cho nút lá liên quan.

Khi số lƣợng phiên bản nhiều hơn một tại một nút lá, ta tính trung

bình là giá trị cuối cùng cho biến phụ thuộc.

Cách tính biến y đối với mẫu dữ liệu mới bằng cây quyết định

Khi có một mẫu dữ liệu mới, ta sẽ áp dụng vào cây quyết định, mẫu dữ liệu thuộc nhánh nào thì nhánh lá sẽ là ƣớc tính đầu ra của mẫu dữ liệu đó.

Cây quyết định dễ hiểu. Ngƣời ta có thể hiểu mô hình cây quyết định sau khi đƣợc giải thích ngắn.

Việc chuẩn hóa dữ liệu đối với một cây quyết định là cơ bản hoặc không cần thiết. Các kỹ thuật khác thƣờng đòi hỏi chuẩn hóa dữ liệu, tạo các biến phụ (dummy variable) và loại bỏ các giá trị rỗng.

Cây quyết định có thể xử lý cả dữ liệu có giá trị bằng số và dữ liệu có giá trị là tên thể loại. Các kỹ thuật khác thƣờng chuyên để phân tích các bộ dữ liệu chỉ gồm một loại biến. Chẳng hạn, các luật quan hệ chỉ có thể dùng đối với các biến tên, trong khi mạng nơ-ron chỉ có thể dùng đối với các biến có giá trị bằng số.

Cây quyết định là một mô hình hộp trắng. Nếu có thể quan sát một tình huống trong một mô hình, thì có thể dễ dàng giải thích điều kiện đó bằng logic Boolean.

Cây quyết định có thể xử lý tốt một lƣợng dữ liệu lớn trong thời gian ngắn. Có thể phân tích các lƣợng dữ liệu lớn trong một thời gian đủ ngắn để đối với phép các nhà chiến lƣợc đƣa ra quyết định dựa trên phân tích của cây quyết định.