2.4.1 Phân lớp đa lớp với SVM
Thuật tốn SVM trình bày ở trên chỉ hoạt động với dữ liệu cĩ 2 lớp, trong thực tế số lượng lớp của dữ liệu cĩ thể rất lớn. Rất may là cũng cĩ giải pháp để mở rộng SVM cho bài tốn cĩ nhiều lớp.
Bài tốn phân lớp câu hỏi yêu cầu một bộ phân lớp đa lớp do đĩ cần cải tiến SVM cơ bản (phân lớp nhị phân) thành bộ phân lớp đa lớp.
Một trong những phương pháp cải tiến đĩ là sử dụng thuật tốn 1-against-all [Hau02, Milgram06]. Ý tưởng cơ bản là chuyển bài tốn phân lớp nhiều lớp thành nhiều bài tốn phân lớp nhị phân như sau:
• Giả sử tập dữ liệu mẫu (x1, y1), ..., (xm, ym) với xi là một vector n chiều và
i
y Y là nhãn lớp được gán cho vector xi (cĩ m nhãn lớp khác nhau)
• Biến đổi tập Y ban đầu thành m tập cĩ hai lớp con Zi =y Yi, −yi
• Áp dụng SVM phân lớp nhị phân cơ bản với m tâp Zi để xây dựng siêu phẳng cho phân lớp này. Như vậy ta sẽ cĩ m bộ phân lớp nhị phân.
Bộ phân lớp với sự kết hợp của m bộ phân lớp trên được gọi là bộ phân lớp đa lớp mở rộng với SVM
2.5. Phân lớp dữ liệu với Random Forest (rừng ngẫu nhiên)
Tiếp cận Random Forest (rừng ngẫu nhiên) do (Breiman, 2001) đưa ra là một trong những phương pháp tập hợp mơ hình thành cơng nhất. Giải thuật random forest tạo ra một tập hợp các cây quyết định (Breiman et al., 1984), (Quinlan, 1993) khơng cắt nhánh, mỗi cây được xây dựng trên tập mẫu bootstrap (lấy mẫu cĩ hồn lại từ tập học), tại mỗi nút phân hoạch tốt nhất được thực hiện từ việc chọn ngẫu nhiên một tập con các thuộc tính. Lỗi tổng quát của rừng phụ thuộc vào độ chính xác của từng cây thành viên trong rừng và sự phụ thuộc lẫn nhau giữa các cây thành viên. Giải thuật random forest xây dựng cây khơng cắt nhánh nhằm giữ cho thành phần lỗi bias thấp (thành phần lỗi bias là thành phần lỗi của giải thuật học, nĩ độc lập với tập dữ liệu học) và dùng tính ngẫu nhiên để điều khiển tính tương quan thấp giữa các cây trong rừng. Tiếp cận random forest cho độ chính xác cao khi so sánh với các thuật tốn học cĩ giám sát hiện nay, chịu đựng nhiễu tốt. Như trình bày
trong (Breiman, 2001), random forest học nhanh, chịu đựng nhiễu tốt và khơng bị tình trạng học vẹt. Giải thuật random forest sinh ra mơ hình cĩ độ chính xác cao đáp ứng được yêu cầu thực tiễn cho vấn đề phân loại, hồi quy.
Rừng ngẫu nhiên (được mơ tả trong hình 2.14) tạo ra một tập hợp các cây quyết định khơng cắt nhánh, mỗi cây được xây dựng trên tập mẫu bootstrap (lấy mẫu ngẫu nhiên cĩ hồn lại), tại mỗi nút phân hoạch tốt nhất được thực hiện từ việc chọn ngẫu nhiên một tập con các thuộc tính.
Lỗi tổng quát của rừng phụ thuộc vào độ chính xác của từng cây thành viên trong rừng và sự phụ thuộc lẫn nhau giữa các cây thành viên. Giải thuật rừng ngẫu nhiên cho độ chính xác cao khi so sánh với các thuật tốn học cĩ giám sát hiện nay, chịu đựng nhiều tốt
Với bài tốn phân lớp: cho một tập dữ liệu huấn luyện ( )i N1 ( i, i)N1
i i
D d x y
= =
= =
với xi là vector M chiều, yiY, trong đĩ: Y gọi là lớp, giả sử cĩ C nhãn lớp
1, 2, , ( 2)
Y C C . Ý tưởng chính của mơ hình RF là lựa chọn ngẫu nhiên 2 lần
(ngẫu nhiện mẫu và ngẫu nhiện thuộc tính) trong suốt q trình xây dựng cây gồm cĩ 3 pha như sau:
Pha 1: Từ dữ liệu ban đầu D, sử dụng kỹ thuật boostrap (lấy mẫu ngẫu nhiên
cĩ hồn lại) để tạo ra t tập dữ liệu con S = {𝑆1, 𝑆2..., 𝑆t }.
Pha 2: Trên mỗi tập dữ liệu Sj, xây dựng một cây quyết định ℎ𝑗. Mơ hình
Rừng ngẫu nhiên là mơ hình t 1 i j
h= h = . Thay vì sử dụng tất cả các biến là biến ứng cử để lựa chọn điểm chia tốt nhất, tại mỗi nút RF chọn ngẫu nhiên một khơng gian tập con M’ thuộc tính từ M thuộc tính ban đầu (M’<<M). Bên cạnh đĩ, cây quyết định trong mơ hình RF là cây quyết định khơng cắt nhánh.
Pha 3: RF dự đốn nhãn lớp của phần tử mới đến bằng chiến lược bình chọn
số đơng của các cây quyết định.
Ưu điểm của RF là xây dựng cây khơng thực hiện việc cắt nhánh từ các tập dữ liệu con khác nhau, do đĩ thu được những cây với lỗi bias thấp. Bên cạnh đĩ, mối tương quan giữa các cây quyết định cũng được giảm xuống nhờ việc xây dựng
các khơng gian con thuộc tính một cách ngẫu nhiên. Sự chính xác của RF phụ thuộc vào chất lượng dự đốn của các cây quyết định và mức độ tương quan giữa các cây trong rừng.
Trong quá trình xây dựng các cây quyết định, RF phát triển các nút con từ một nút cha dựa trên việc đánh giá chỉ số Gini của một khơng gian con M’ các thuộc tính được chọn ngẫu nhiên từ khơng gian thuộc tính ban đầu. Thuộc tính được chọn để tách nút t là thuộc tính cĩ điểm cắt làm cực tiểu độ hỗn tạp của các tập mẫu sau khi chia. Cơng thức tính chỉ số Gini cho nút t như sau:
( ) ( ) ( ) 1 1 c c c c Gini t t t = = − (2.27) ( ) ( ) ( ) 1 1 c c c c Gini t t t =
= − trong đĩ c( )t là tần suất hiện của lớp c C Trong nút t