Kiến trúc la

III. Bài tập và thí nghiệm chương

j 1 N 1 đối với các mẫu trong D mà Ck phân lớp

9.5. Kiến trúc la

Lai MPL với GA: giống kiến trúc bậc thang. GA cho kết quả tối ưu toàn cục, trong khi MPL cho kết quả tối ưu lỗi cục bộ. Ta tiến hành GA trước để tối ưu tồn cục, sau đó cho thuật tốn Lan truyền ngược thực hiện tối cục bộ (min hơn) khi đã có tối ưu tồn cục.

KẾT LUẬN

Trong học có giám sát để xây dựng bộ phân lớp hoặc hồi quy, nếu dùng một thuật toán và dùng một tập dữ liệu đào tạo thì ta chỉ được một bộ nhận dạng yếu, tức là sai số lớn. Học tập thể là một phương pháp để tăng độ chính xác của bộ nhận dạng. Trong cách tiếp cận này, người ta xây dựng các bộ nhận dạng cơ sở theo các phương thức:

1) dùng các thuật toán huấn luyện khác nhau.

2) dùng một thuật toán nhưng sử dụng các tập dữ liệu đào tạo hay tham số khác nhau, 3) dùng một thuật toán nhưng dùng tập dữ liệu với tập đặc trưng khác nhau.

4) kết hợp các phương thức trên.

Bỏ phiếu là phương pháp kết hợp các bộ nhận dạng đơn giản và thông dụng nhất. Trong sơ đồ này, các bộ nhận dạng cơ sở được kết nối song song và đầu ra tổng hợp thường dùng nhất là dạng tuyến tính, có thể lấy trọng số đều. Phương pháp bỏ phiếu không chỉ tăng độ chính xác mà trong các bài tốn hồi quy, nó cịn cho kết quả có phương sai thấp hơn các bộ thành phần.

Bagging là phương pháp đơn giản nhất để xây dựng bộ học tập thể , trong đó các bộ nhận dạng thành phận được xây dựng nhờ dùng cùng một thuật toán nhưng dùng các tập dữ liệu đào tạo khác nhau được lấy ngẫu nhiên có hồn lại các tập dữ liệu gốc.

Các kỹ thuật nhặt theo hướng bao gồm boosting và adaboost khác với bagging ở chỗ phân bố xác suất lấy dữ liệu thay đổi theo thứ tự lấy tập dữ liệu đào tạo của bộ nhận dạng cơ sở. Phương thức kết hợp các bộ cơ sở trong kỹ thuật boosting khơng theo kiến trúc song song, nhờ đó tiết kiệm thời gian chạy hơn.

Rừng ngẫu nhiên là phương pháp thích hợp cho các bài tốn phân lớp hoặc hồi quy với dữ liệu có số chiều cao. Trong đó mỗi bộ nhận dạng cơ sở là một cây quyết định, được xây dựng từ tập dữ liệu có số chiều nhỏ nhờ chiếu một tập dữ liệu lấy ngẫu nhiên từ tập dữ liệu đào tạo gốc lên tập đặc trưng đươc chọn ngẫu nhiên.

Khi các bộ phân lớp được xây dựng nhờ dùng các thuật tốn khác nhau, có độ chính xác và thời gian chạy khác nhau thì có thể dùng kiến trúc bậc thang để tăng độ chính xác và giảm thời gian chạy trung bình so với bộ nhận dạng thành phần có độ chính xác cao nhất nhưng thời gian chạy cũng lâu nhất.

BÀI TẬP CHƯƠNG 9

1. Giả sử mỗi bộ phân lớp cơ sở đều có xác suất đúng p >1/2, hãy ước lượng xác suất đúng khi bỏ phiếu theo đa số của L bộ phân lớp.

2. Hãy đề xuất một lược đồ boosting cho bài tốn nhiều lớp.

3. Tìm một lược đồ điều chỉnh xác suất chọn tập đào tạo theo adaboost khác với lược đồ ở mục 10.3.

4. Hãy đề xuất một cách chọn đặc trưng để tạo các tập dữ liệu cho cây quyết định của phương pháp rừng ngẫu nhiên. Giải thích vì sao cách chọn này tốt hơn chọn phân bố đều.

5. Tại sao trong kiến trúc bậc thang ta xếp các bộ phân lớp tăng dần về độ chính xác? Ơn tập và hướng dẫn viết tiêu luận thu hoạch

Mơ hình và thuật tốn ID

Cây quyết định thuộc loại học gì?