Rừng ngẫu nhiên

Một phần của tài liệu BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính (Trang 114 - 115)

III. Bài tập và thí nghiệm chương

j 1 N 1 đối với các mẫu trong D mà Ck phân lớp

9.3.3. Rừng ngẫu nhiên

Rừng ngẫu nhiên là phương pháp học tập thể rất thích hợp cho xử lý dữ liệu có số chiều lớn, vì vậy đang thu hút nhiều người quan tâm nghiên cứu, áp dụng. Định nghĩa sau đây giải thích tên gọi của phương pháp này.

Định nghĩa. Rừng ngẫu nhiên là một bộ nhận dạng bao gồm một tập bộ phân lớp cơ sở dạng cây quyết

định được kết hợp theo phương thức bỏ phiếu. Các bộ cơ sở được xây dựng từ các tập con dữ liệu với đặc trưng khác nhau được lấy ngẫu nhiên từ tập dữ liệu đào tạo.

Định nghĩa cho thấy thủ tục xây dựng rừng ngẫu nhiên gồm ba pha:

Pha 1: tạo dữ liệu (tạo vectơ ngẫu nhiên),

Pha2: xây dựng các cây cơ sở,

Pha 3: kết hợp các cây cơ sở theo phương thức bỏ phiếu.

Điểm mới nhất ở đây là pha tạo dữ liệu. Giả sử là tập dữ liệu đào tạo với số chiều n lớn, pha tạo vectơ ngẫu nhiên thực hiện như sau.

Chọn trước các số tự nhiên M (<N) và m (<n). Để có mỗi tập dữ liệu cho xây đựng cây quyết định , ta chọn ngẫu nhiên m đặc trưng trong số n đặc trưng của D và lấy ngẫu nhiên M đối tượng từ D rồi chiếu nó lên các đặc trưng được chọn này. Việc chọn đặc trưng và lấy dữ liệu từ D gọi là tạo vectơ ngẫu nhiên. Quá trình xây dựng rừng ngẫu nhiên được mơ tả trong hình 9.6.

max 1 ) ( k k k x d

Hình 9.6. Sơ đồ xây dựng rừng ngẫu nhiên

Chọn số đặc trưng m

Rừng ngẫu nhiên thường áp dụng cho các bài tốn phân lớp hoăc hồi quy có số chiều n lớn, khi đó số

đặc trưng m cho mỗi tập dữ liệu cây được chọn nhỏ hơn n nhiều. Breiman gợi ý chọn m như sau:

Đối với bài tốn phân lớp, , trong đó

ký hiệu phần nguyên của a. Đối với bài toán hồi quy,

Hiện nay việc chọn số đặc trưng, số đối tượng dữ liệu M cho mỗi tập và cách chọn ngẫu nhiên để lấy các đặc trưng thế nào là tốt cho từng lớp bài toán vẫn đang là chủ đề mở và được nhiều người nghiên cứu. Các cây quyết định được kết hợp song song theo phương pháp bỏ phiếu với đầu ra có trọng số đều cho bởi các công thức (9.1a-b). Thuật tốn xây dựng rừng ngẫu nhiên được mơ tả trong bảng

9.3.

Bảng 9.3. Thuật toán xây dựng rừng ngẫu nhiên cho phân lớp hoặc hồi quy

Một phần của tài liệu BÀI GIẢNG HỌC MÁY Ngành Khoa học Máy tính (Trang 114 - 115)

Tải bản đầy đủ (PDF)

(138 trang)