2.1.1.1Khái niệm
Cây quyết định (Decision tree) là một mơ hình học cĩ giám sát (supervised learning), cĩ thể được áp dụng vào cả hai bài tốn phân loại nhãn và hồi quy. Việc xây dựng một cây quyết định trên dữ liệu huấn luyện cho trước là việc đi xác định các câu hỏi và thứ tự của chúng. Cây quyết định cĩ thể làm việc được với tập dữ liệu cĩ đặc trưng dạng danh mục và dạng số. Cây quyết định là thuật tốn cĩ cấu trúc dạng cây, trong đĩ mỗi nút thể hiện cho một thuộc tính dữ liệu, mỗi nhánh con của nút biểu diễn giá trị của thuộc tính và mỗi nốt lá sẽ chứa nhãn.
2.1.1.2Ý tưởng thuật tốn
Bước 1: Bắt đầu với việc set tập dữ liệu S ở nút gốc
Bước 2: Lặp lại việc tính tốn Entropy(H) và Information Gain(IG) với từng thuộc tính
Bước 3: Lựa chọn thuộc tính cĩ Entropy nhỏ nhất hoặc Information Gain lớn nhất làm nút gốc
Bước 4: Chia tập S theo từng thuộc tính đã được lựa chọn để tạo ra các tập con dữ liệu
Bước 5: Thuật tốn lặp lại trên mỗi tập con và chỉ xem xét các thuộc tính chưa được lựa chọn làm nút gốc trước đĩ.
2.1.1.3Cơ sở lý thuyết
Cho một phân phối xác suất của một biến rời rạc x cĩ thể nhận n giá trị khác nhau
x1,x2,…,xn. Giả sử rằng xác suất để x nhận các giá trị này là pi=p(x=xi). Ký hiệu phân
phối này là p=(p1,p2,…,pn). Entropy của phân phối này là: H(𝑝) = − ∑ 𝑝𝑖 𝑙𝑜𝑔 2𝑝𝑖
𝑛
𝑖=1
Hình 2.1: Đồ thị của hàm Entropy
b. Information Gain
Information Gain được tính dựa trên sự giảm của hàm Entropy khi tập dữ liệu được phân chia trên một thuộc tính. Để xây dựng một cây quyết định, ta phải tìm tất cả thuộc tính trả về Infomation gain cao nhất. Do H(S) là khơng đổi với mỗi tầng, ta chọn thuộc tính f cĩ Entropy nhỏ nhất để thu được Gain(x,S) lớn nhất.
G(𝑥,𝑆) = H(𝑠)− H(𝑥,𝑆)
Trong đĩ: H(S) là Entropy tổng của tồn bộ tập data set S. H(x,S) là Entropy được tính trên thuộc tính x.
2.1.2 Thuật tốn rừng ngẫu nhiên (Random Forest)
2.1.2.1Khái niệm
Rừng ngẫu nhiên là một tập hợp các mơ hình (ensemble) gồm nhiều cây quyết định (decision tree). Mơ hình rừng ngẫu nhiên rất hiệu quả cho các bài tốn phân loại vì nĩ huy động cùng lúc hàng trăm mơ hình nhỏ hơn bên trong với quy luật khác nhau để đưa ra quyết định cuối cùng. Mỗi mơ hình con cĩ thể mạnh yếu khác nhau, nhưng
theo nguyên tắc “wisdom of the crowd”, ta sẽ cĩ cơ hội phân loại chính xác hơn so với khi sử dụng bất kì một mơ hình đơn lẻ nào.
Như tên gọi của nĩ, rừng ngẫu nhiên dựa trên cơ sở : - Random = Tính ngẫu nhiên
- Forest = nhiều cây quyết định (decision tree)
Đơn vị của RF là thuật tốn cây quyết định, với số lượng hàng trăm. Mỗi cây quyết định được tạo ra một cách ngẫu nhiên từ việc: Tái chọn mẫu (bootstrap, random sampling) và chỉ dùng một phần nhỏ tập biến ngẫu nhiên (random features) từ tồn bộ các biến trong dữ liệu. Ở trạng thái sau cùng, mơ hình RF thường hoạt động rất chính xác, nhưng đổi lại, rất khĩ để cĩ thể hiểu được cơ chế hoạt động bên trong mơ hình vì cấu trúc quá phức tạp.
2.1.2.2Ý tưởng thuật tốn
Bước 1: Lựa chọn ngẫu nhiên một một tập dữ liệu con từ tập dữ liệu mẫu
Bước 2: Thuật tốn sẽ tạo cây quyết định cho từng tập dữ liệu con. Sau đĩ nhận lại kết quả từ mỗi cây quyết định
Bước 3: Thực hiện voting cho các kết quả dự đốn
Hình 2.2: Ý tưởng thuật tốn Rừng ngẫu nhiên
2.1.2.3Ưu điểm, nhược điểm
Ưu điểm:
- Giảm thiểu rủi ro quá khớp (overfitting) vì thuật tốn dựa trên voting của tất cả các cây quyết định
- Rừng ngẫu nhiên cĩ thể được sử dụng trong cả hai bài tốn phân loại và hồi quy. - Rừng ngẫu nhiên cũng cĩ thể xử lý các giá trị cịn thiếu.
- Thuật tốn cĩ độ chính xác cao trên tập dữ liệu lớn - Các cây cĩ thể được xây dựng song song
Nhược điểm:
- Tốc độ dự đốn chậm do cĩ nhiều cây quyết định, mỗi khi dự đốn, tất cả các cây trong rừng phải đưa ra dự đốn cho cùng một đầu vào cho trước và sau đĩ thực hiện bỏ phiếu trên đĩ (tuy nhiên cĩ thể khắc phục nếu chạy trên mơi trường song song)