Lý thuyết học thống kê - Hệ thống hỗ trợ tư vấn tr- 123docz.net

Phương pháp phân lớp SVM xuất phát từ lý thuyết học thống kê dựa trên nguyên tắc tối thiểu hóa rủi ro cấu trúc. Nên trước khi nghiên cứu về SVM, ta hãy xem xét một số lý thuyết thống kê có liên quan.

Lý thuyết học thống kê là cầu nối giữa 2 đặc trưng quan trọng trong học máy:

 Khả năng học để tìm ra một luật có thể phân lớp hầu hết các đối tượng trong tập dữ liệu huấn luyện.

 Khả năng luật sinh ra có thể phân lớp đúng đối tượng mới (khả năng tổng quát hóa tốt).

Kí hiệu 𝑓 là một luật phân lớp (bộ phân lớp) là một ánh xạ từ không gian đối tượng X sang không gian lớp {-1,+1}. Nói cách khác, các bộ phân lớp f thực hiện phân lớp bất kỳ đối tượng 𝑥 ∈ 𝑋 vào lớp 𝑓(𝑥 ) nhận giá trị là -1 hoặc +1. Với những ký hiệu này, chúng ta có thể mô tả bài toán học như sau: một giải thuật sử dụng một tập huấn luyện S để học một bộ phân lớp 𝑓 ∈ 𝐹 với F là tập tất cả các bộ phân lớp có thể.

Trong lý thuyết học thống kê, khái niêm độ rủi ro thực nghiệm của bộ phân lớp được sử dụng để đánh giá chất lượng của luật 𝑓 dựa trên khả năng phân lớp đúng các đối tượng trong tập huấn luyện S. Ký hiệu Remp 𝑓 là độ rủi ro thực nghiệm. Độ đo này nhận giá trị trong khoảng từ 0 đến 1. Một bộ phân lớp thực hiện phân lớp đúng với tất cả các đối tượng của tập dữ liệu huấn luyện thì Remp 𝑓 = 0. Mục đích của các giải thuật học phân lớp là tìm kiếm một bộ phân lớp có độ rủi ro thực nghiệm nhỏ nhất có thể.

Trong khi đó khái niệm về độ rủi ro của bộ phân lớp được sử dụng để đánh giá khả năng luật 𝑓 sinh ra một lỗi với một đối tượng mới. Nếu R 𝑓 là độ rủi ro của

bộ phân lớp, R 𝑓 = 0 có nghĩa 𝑓 sẽ không sinh ra lỗi phân lớp nào trên một quan sát mới hay 𝑓 là một bộ phân lớp hoàn hảo.

Với một bộ phân lớp 𝑓 và một tập huấn luyện S cho trước, độ rủi ro thực nghiệm Remp 𝑓 có thể quan sát được trong khi đó độ rủi ro của bộ phân lớp R 𝑓 thì không. Trực giác cho thấy trong nhiều trường hợp Remp 𝑓 càng nhận giá trị nhỏ thì tương ứng R 𝑓 cũng nhận giá trị nhỏ. Do đó, nhiều giải thuật cố gắng tìm kiếm các bộ phân lớp để Remp 𝑓 nhỏ với hi vọng R 𝑓 cũng nhỏ. Vì thế, Remp 𝑓 là một chỉ số tốt cho R 𝑓 .

Để xác định dộ rủi ro thực nghiệm nhỏ nhất, người ta thường sử dụng phương pháp cực tiểu hóa rủi ro thực nghiệm. Giả sử 𝑓 là luật cho độ rủi ro thực nghiệm nhỏ nhất và 𝑓* là luật cho độ rủi ro phân lớp nhỏ nhất. Kết quả chính trong lý thuyết học thống kê đưa ra mối liên hệ giữa R(𝑓 ) và R(𝑓*) được xác định theo biểu thức:

ER(𝑓 ) ≤ R(𝑓*

) + 𝑐 ∗ 𝑉(𝐹)

𝑁

Trong đó: c là hằng số toàn cục, V(F) là đặc trưng số lượng của tập F hay còn gọi là chiều Vapnik - Chervonenkis (hay chiều VC). N là số các đối tượng trong tập huấn luyện.

Trong công thức về mối quan hệ giữa R(𝑓 ) và R(𝑓*

) cho thấy độ rủi ro thực nghiệm của luật được lựa chọn 𝑓 không khác nhiều so với độ rủi ro tốt nhất có thể R(𝑓*) nếu hai điều kiện sau xảy ra:

 Số lượng đối tượng N trong tập huấn luyện đủ lớn.

 Số chiều VC của tập luật tiềm năng đủ nhỏ.

Như vậy, khi chiều VC càng nhỏ thì khả năng tổng quát hóa của luật được lựa chọn theo phương pháp cực tiểu rủi ro thực nghiệm càng nhỏ. Có nghĩa là một giải thuật học sẽ tìm một tập luật có tính tổng quát hóa tốt nếu nó có thể chọn các luật từ một tập F với chiều VC nhỏ. Bằng nguyên lý cực tiểu hóa rủi ro cấu trúc, các nghiên cứu chứng minh rằng luôn tồn tại một luật tối ưu đảm bảo độ rủi ro phân lớp tối thiểu.

Tóm lại, đóng góp chính của lý thuyết học thống kê cho việc thiết kế một giải thuật là xác định tầm quan trọng của tập các luật trong F mà thuật toán có thể lựa chọn.