Cây quyết định

2.1.1.1Khái niệm

Cây quyết định (Decision tree) là một mơ hình học cĩ giám sát (supervised learning), cĩ thể được áp dụng vào cả hai bài tốn phân loại nhãn và hồi quy. Việc xây dựng một cây quyết định trên dữ liệu huấn luyện cho trước là việc đi xác định các câu hỏi và thứ tự của chúng. Cây quyết định cĩ thể làm việc được với tập dữ liệu cĩ đặc trưng dạng danh mục và dạng số. Cây quyết định là thuật tốn cĩ cấu trúc dạng cây, trong đĩ mỗi nút thể hiện cho một thuộc tính dữ liệu, mỗi nhánh con của nút biểu diễn giá trị của thuộc tính và mỗi nốt lá sẽ chứa nhãn.

2.1.1.2Ý tưởng thuật tốn

Bước 1: Bắt đầu với việc set tập dữ liệu S ở nút gốc

Bước 2: Lặp lại việc tính tốn Entropy(H) và Information Gain(IG) với từng thuộc tính

Bước 3: Lựa chọn thuộc tính cĩ Entropy nhỏ nhất hoặc Information Gain lớn nhất làm nút gốc

Bước 4: Chia tập S theo từng thuộc tính đã được lựa chọn để tạo ra các tập con dữ liệu

Bước 5: Thuật tốn lặp lại trên mỗi tập con và chỉ xem xét các thuộc tính chưa được lựa chọn làm nút gốc trước đĩ.

2.1.1.3Cơ sở lý thuyết

Cho một phân phối xác suất của một biến rời rạc x cĩ thể nhận n giá trị khác nhau

x1,x2,…,xn. Giả sử rằng xác suất để x nhận các giá trị này là pi=p(x=xi). Ký hiệu phân

phối này là p=(p1,p2,…,pn). Entropy của phân phối này là: H(𝑝) = − ∑ 𝑝𝑖 𝑙𝑜𝑔 2𝑝𝑖

𝑛

𝑖=1

Hình 2.1: Đồ thị của hàm Entropy

b. Information Gain

Information Gain được tính dựa trên sự giảm của hàm Entropy khi tập dữ liệu được phân chia trên một thuộc tính. Để xây dựng một cây quyết định, ta phải tìm tất cả thuộc tính trả về Infomation gain cao nhất. Do H(S) là khơng đổi với mỗi tầng, ta chọn thuộc tính f cĩ Entropy nhỏ nhất để thu được Gain(x,S) lớn nhất.

G(𝑥,𝑆) = H(𝑠)− H(𝑥,𝑆)

Trong đĩ: H(S) là Entropy tổng của tồn bộ tập data set S. H(x,S) là Entropy được tính trên thuộc tính x.

2.1.2 Thuật tốn rừng ngẫu nhiên (Random Forest)

2.1.2.1Khái niệm

Rừng ngẫu nhiên là một tập hợp các mơ hình (ensemble) gồm nhiều cây quyết định (decision tree). Mơ hình rừng ngẫu nhiên rất hiệu quả cho các bài tốn phân loại vì nĩ huy động cùng lúc hàng trăm mơ hình nhỏ hơn bên trong với quy luật khác nhau để đưa ra quyết định cuối cùng. Mỗi mơ hình con cĩ thể mạnh yếu khác nhau, nhưng

theo nguyên tắc “wisdom of the crowd”, ta sẽ cĩ cơ hội phân loại chính xác hơn so với khi sử dụng bất kì một mơ hình đơn lẻ nào.

Như tên gọi của nĩ, rừng ngẫu nhiên dựa trên cơ sở : - Random = Tính ngẫu nhiên

- Forest = nhiều cây quyết định (decision tree)

Đơn vị của RF là thuật tốn cây quyết định, với số lượng hàng trăm. Mỗi cây quyết định được tạo ra một cách ngẫu nhiên từ việc: Tái chọn mẫu (bootstrap, random sampling) và chỉ dùng một phần nhỏ tập biến ngẫu nhiên (random features) từ tồn bộ các biến trong dữ liệu. Ở trạng thái sau cùng, mơ hình RF thường hoạt động rất chính xác, nhưng đổi lại, rất khĩ để cĩ thể hiểu được cơ chế hoạt động bên trong mơ hình vì cấu trúc quá phức tạp.

2.1.2.2Ý tưởng thuật tốn

Bước 1: Lựa chọn ngẫu nhiên một một tập dữ liệu con từ tập dữ liệu mẫu

Bước 2: Thuật tốn sẽ tạo cây quyết định cho từng tập dữ liệu con. Sau đĩ nhận lại kết quả từ mỗi cây quyết định

Bước 3: Thực hiện voting cho các kết quả dự đốn

Hình 2.2: Ý tưởng thuật tốn Rừng ngẫu nhiên

2.1.2.3Ưu điểm, nhược điểm

Ưu điểm:

- Giảm thiểu rủi ro quá khớp (overfitting) vì thuật tốn dựa trên voting của tất cả các cây quyết định

- Rừng ngẫu nhiên cĩ thể được sử dụng trong cả hai bài tốn phân loại và hồi quy. - Rừng ngẫu nhiên cũng cĩ thể xử lý các giá trị cịn thiếu.

- Thuật tốn cĩ độ chính xác cao trên tập dữ liệu lớn - Các cây cĩ thể được xây dựng song song

Nhược điểm:

- Tốc độ dự đốn chậm do cĩ nhiều cây quyết định, mỗi khi dự đốn, tất cả các cây trong rừng phải đưa ra dự đốn cho cùng một đầu vào cho trước và sau đĩ thực hiện bỏ phiếu trên đĩ (tuy nhiên cĩ thể khắc phục nếu chạy trên mơi trường song song)

Xử lý thiếu giá trị

Xử lý thiếu giá trị