Nguyên lý tối thiểu hoá rủi ro cấu trúc

Một phần của tài liệu phân loại văn bản bằng phương pháp support vector machine (Trang 33 - 35)

Khái niệm VC dimension thúc đẩy một phương pháp mới về suy luận quy nạp. Cung cấp các giả thiết lớp S với một cấu trúc bằng cách định nghĩa trong các lớp con liên tiếp

S1 ⊂ S2 ⊂ ...⊂ Sn với Sk = {fα(z): α∈Ωk}

là chiều VC hk của mỗi lớp con Sk là hữu hạn và thoả mãn h1 ≤ h2 ≤ …≤ hp

(tăng độ phức tạp qua cấu trúc). Kết quả VC chính độc lập với sự phân bố nguồn là giới hạn: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − + = n d n R R k n emp n η φ α α ) ( ) , log () 1 (2.7) đúng với xác suất ít nhất (1- η)

Nguyên tắc hướng dẫn giải thuật này được gọi là tối thiểu hoá rủi ro cấu trúc (Structural Risk Minimization (SRM))..

Bởi vậy, để thu được giới hạn nhỏ nhất trên lỗi thử nghiệm là tối thiểu hoá số các lỗi huấn luyện, tập hàm với chiều VC nhỏ nhất có thể được sử dụng. Hai yêu cầu là mâu thuẫn vì theo thứ tự tối thiểu hoá số lỗi huấn luyện một hàm phân loại có thể được lấy ra từ một tập lớn các hàm số, hơn là một tập ít với chiều VC nhỏ. Giải pháp đảm bảo nhất được tìm thấy với một sự thoả hiệp giữa độ chính xác của tính gần đúng trên dữ liệu theo kinh nghiệm và khả năng của máy được sử dụng tối thiểu hoá số lỗi (Hình 2.3).

Khái niệm khả năng là một cái gì đó liên quan việc quyết định các điều kiện cần và đủ cho tính nhất quán của các bài toán học và tỷ trọng hội tụ của các bài toán học. Một thành tựu quan trọng của học thuyết này là sự khai phá khả năng tổng quát hoá của máy học phụ thuộc vào khả năng của tập các hàm thực hiện bởi máy học, khác với số các tham số tự do.

bài toán, tránh giải quyết một vấn đề chung hơn như một bước trung gian. Có thể là thông tin hiện có là đủ cho một giải pháp trực tiếp nhưng là đủ để giải quyết một vấn đề trung gian chung hơn.

Hình 2.3. Mô t ca phương trình 2.7.

Hàm số giảm biểu diễn lỗi huấn luyện (rủi ro theo kinh nghiệm), trong khi hàm tăng là giới hạn trên trên độ phức tạp (phụ thuộc vào lỗi đúng). Với một độ phức tạp cho trước của lớp hàm, sự tin cậy của rủi ro mong muốn có thể được quyết định. Mục tiêu là để tìm một trao đổi tối ưu giữa lỗi theo kinh nghiệm và độ phức tạp, chọn từ các tập S1,…, Sn, hàm số học với VC dimension tối ưu h*, với độ phức tạp tối ưu.

Ứng dụng của các khái niệm đó tìm không gian để phát triển trong các chiêu bài khác nhau của các bài toán học. Học có kiểm soát, ví dụ, là bài toán của việc học một hàm đã cho một vài dữ liệu và trợ giúp một nguồn các kết quả mẫu. Trong mô hình học không kiểm soát chỉ không gian nguồn χ là cho trước, không gian ra Y là chưa có. Các ứng dụng khác là ước lượng các hàm số giá trị thức, xấp xỉ hàm, ước lượng hồi quy và xử lý tín hiệu.

Học thuyết trên là cần thiết để đưa ra một nền móng thô cho việc đặc tính hoá phương pháp hoạt động hiện đại để giải quyết các bài toán học máy.

Một phần của tài liệu phân loại văn bản bằng phương pháp support vector machine (Trang 33 - 35)