1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Lý Thuyết Học Thống Kê (Statistical Learning Theory)

43 359 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 43
Dung lượng 322 KB

Nội dung

LÝ THUYẾT HỌC THỐNG KÊ (statistical learning theory) MÔ HÌNH TỔNG QUÁT CỦA HỌC TỪ VÍ DỤ • Giả sử có quan hệ hàm hai tập X Y f:XY • Mục đích : tìm quan hệ hàm cho tập ví dụ • Hàm f : hàm học hay hàm mục tiêu D = { (x i , yi ) / i = 1, 2, , N} • Mỗi đối tượng x biểu diễn vectơ đặc trưng • Hàm học giá trị thực : vấn đề hồi quy (regression) • Hàm học giá trị rời rạc : vấn đề phân lớp (classification) • Học với tập ví dụ gắn nhãn : học có giám sát (supervised learning) x = ( x1 , x , , x d ) Giả thiết lý thuyết học thống kê • Tồn phân phối xác suất p(x,y) cố định chưa biết X x Y • Các ví dụ (x,y) lấy mẫu độc lập theo phân phối p(x,y) Giả thiết i.i.d (independent and identically distributed) • Mục tiêu : sử dụng tập ví dụ huấn luyện để đưa hàm xấp xỉ hàm mục tiêu Học vấn đề xấp xỉ hàm SAI SỐ VÀ SAI SỐ THỰC NGHIỆM Hàm sai lệch (loss function) • Giả sử (x,y) ví dụ, h : X  Y • Ký hiệu L(y,h(x)) độ đo sai khác y h(x) L : hàm sai lệch (loss function) • Trường hợp hồi quy: Lôĩ bình phương (squared loss) L(y, h(x)) = (y − h(x)) • Đối với phân lớp : lỗi phân lớp (classification error) L(y,h(x)) = y = h(x) =1 khác • Sai số kỳ vọng hay lỗi kỳ vọng (expected risk / expected loss) hàm h: R(h) = ∫∫ L(y, h(x))p(x, y)dxdy Hàm xấp xỉ tốt hàm mục tiêu hàm có sai số kỳ vọng nhỏ • Sai số thực nghiệm Sai số thực nghiệm (empirical risk) hàm h: N R emp (h) = ∑ L(yi , h(x i )) N i =1 • Ví dụ Hàm lỗi tổng bình phương (sum-of-squares error function): N R emp (h) = ∑ (yi − h(x i )) N i =1 Lỗi phân lớp: N R emp (h) = ∑ δ(yi , h(x i )) N i =1 NGUYÊN LÝ QUY NẠP CỰC TIỂU SAI SỐ THỰC NGHIỆM • Hàm mục tiêu cần học f xấp xỉ hàm g : g = arg R emp (h) h Hai đường xấp xỉ từ ví dụ • Giả sử H lớp hàm H : không gian giả thuyết ( space of hypotheses) • Nguyên lý quy nạp : xấp xỉ hàm mục tiêu hàm g g = arg R emp (h) h∈H Nguyên lý quy nạp cực tiểu lỗi thực nghiệm (empirical risk minimization inductive principle) • Câu hỏi : Hàm g xấp xỉ tốt hàm cần học không? Cụ thể : sai số R(g) nhỏ không? • Hàm g phụ thuộc vào lớp hàm H, đóng vai trò hướng quy nạp • Hàm mục tiêu không thuộc lớp hàm H, khó g xấp xỉ tốt • Lớp hàm H chứa hàm mục tiêu, đảm bảo hàm g có sai số nhỏ Hai hướng tiếp cận • Phương pháp tham biến: xây dựng mô hình biểu diễn hàm mục tiêu mô hình biểu diễn phân phối xác suất sinh tập liệu quan sát, đánh giá tham biến mô hình từ liệu Ví dụ: Linear Models, Feed-Forward Neural Networks, Bayesian Netwoks, Markov Random Fields, Gaussian Mixtures, Hidden Markov Models, Conditional Random Fields, Bolzman Machines, Deep Belief Networks… • Phương pháp không tham biến: Đánh giá mật độ (Parzen windows), phương pháp k-láng giềng gần Các phương pháp : định,… ĐÁNH GIÁ MỘT GIẢ THUYẾT • Giả sử h giả thuyết, lỗi h : R(h) (không thể tính ) • Đánh giá R(h) qua lỗi thực nghiệm R emp ( h ) Câu hỏi : Lỗi thực nghiệm có đánh giá tốt lỗi R(h) không ? Luật số lớn  X1 + X + + X N  lim P  − m > ε ÷= N →∞ N   ( ) lim P E emp (X) − E(X) > ε = N →∞ ( ) lim P R emp (h) − R(h) > ε = N →∞ Bất đẳng thức Hoeffding Giả sử X biến ngẫu nhiên nhận giá trị khoảng [a,b] :  2Nε  P E emp (X) − E(X) ≥ ε ≤ exp  − ÷  (b − a)  ( ) Trường hợp phân lớp, với hàm sai lệch lỗi phân lớp: ( ) P R emp (h) − R(h) ≥ ε ≤ exp( −2Nε ) Đánh giá biên sai lệch sai số thực nghiệm sai số kỳ vọng Chẳng hạn, phân lớp, với mức độ tin tưởng (xác suất) 1− δ R(h) − R emp (h) < ln(2 / δ) 2N TÍNH CHẤT CONSISTENT CỦA THUẬT TOÁN HỌC • Mục tiêu: Khi cho tập ví dụ D, tìm hàm h cho sai số R(h) nhỏ Hàm tối ưu : g op = arg R(h) h • Xấp xỉ hàm tối ưu hàm tốt lớp hàm H : g H = arg R(h) h∈H • Giả sử thuật toán học chạy N ví dụ huấn luyện cho hàm (hàm chọn gN từ lớp hàm H), chẳng hạn: g N = arg R emp (h) h∈H • Thuật toán học có cho hàm gần với g N hàm tối ưu, số liệu huấn luyện tăng vô hạn, tức : • Thuật toán R(g học có choR(g hàm gần∞với hàm tốt ) → ), N → ? N op lớp hàm H, số liệu huấn luyện tăng vô hạn, tức : gN R(g N ) → R(g H ), N → ∞ ? • Đánh giá biên sai số R(g N ) hàm g N ? Lỗi đánh giá lỗi xấp xỉ R(g N ) − R(g op ) = [R(g N ) − R(g H )]+[R(g H ) − R(g op )] R(g N ) − R(g H ) lỗi đánh giá (estimation error) R(g H ) − R(g op ) lỗi xấp xỉ (approximation error) • Lớp hàm H lớn : lỗi xấp xỉ nhỏ, đặc biệt H đủ lớn để chứa hàm tối ưu lỗi xấp xỉ • Khi lớp hàm H lớn, chứa hàm cho sai số thực nghiệm nhỏ (có thể = 0), sai số hàm lại lớn Hiện tượng khớp (ouverfit) • Vấn đề : H để lỗi đánh giá nhỏ số liệu N lớn? Lựa chọn lớp hàm H (lựa chọn mô hình) thích hợp với nhiệm vụ học? Tính chất phù hợp (consistency) • Một thuật toán học gọi phù hợp (consistent ), lim P ( R(g N ) − R(g op ) > ε ) = N →∞ • Một thuật toán học gọi phù hợp (consistent ) lớp hàm H, lim P ( R(g N ) − R(g H ) > ε ) = N →∞ • Định lý (Vapnik – Chernovenkis, 1989) Điều kiện cần đủ để phương pháp cực tiểu sai số thực nghiệm phù hợp lớp hàm H   lim P  sup R emp (h) − R(h) > ε ÷ = N →∞  h∈H  Tức là, sai số thực nghiệm hội tụ đồng (uniform convergence) lớp hàm H tới sai số kỳ vọng SAI SỐ THỰC NGHIỆM ĐIỀU CHỈNH • Một hướng tiếp cận : đưa vào lớp hàm H đủ lớn song đưa vào “sự trừng phạt” cho hàm phức tạp • Sai số thực nghiệm điều chỉnh : R reg (h) = R emp (h) + λΩ(h) Ω(h) λ lượng điều chỉnh (regularier), độ đo “sự phức tạp” h hệ số điều chỉnh tham số ĐỊNH LÝ BỮA ĂN KHÔNG MIỄN PHÍ • Có nhiều thuật toán học • Câu hỏi : nói thuật toán học A tốt thuật toán học B không? Có thuật toán tốt không? Câu trả lời : không • Đinh lý bữa ăn không miễn phí (No Free Lunch Theorem) Định lý khẳng định rằng, lấy trung bình đồng tất phân phối xác suất p(x,y), sai số tập huấn luyện thuật toán TÀI LIỆU THAM KHẢO V vapnik (1995) The Nature Of Statistical Learning Theory V Vapnik (1998) Statistical Learning Theory O Bousquet, S Boucheron, and G Lugosi (2003) Introduction to Statistical Learning Theory (In advanced Lectures on Machine Learning) U V Luxburg and B Scholkopf (2008) Statistical Learning Theory : Models, Concepts, and Results B Scholkopf, and A J Smola (2002) Learning With Kernels (I Concepts and Tools)

Ngày đăng: 23/05/2017, 17:25

TỪ KHÓA LIÊN QUAN

w