1. Trang chủ
  2. » Thể loại khác

PHÂN LỚP VÀ HỒI QUY (Classification and Regression)

40 303 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 40
Dung lượng 2,3 MB

Nội dung

Phân lớp hồi quy (Classification and Regression) Hồng Xn Huấn Nội dung •  Phát biểu tốn •  Phân lớp nhờ hàm định: Cực tiểu khoảng cách, SVM •  Phân lớp Bayes •  Cây định: ID3, C45, CART •  Tìm hàm hồi quy: Phương pháp gradient Phát biểu tốn •  Bài tốn phân lớp (Classification/ taxonomy) + Phân lớp: xếp đối tượng thành nhóm dựa tính tương tự chúng + Phân loại (Categorize): Học có giám sát, dựa tập mẫu thơng tin bổ trợ Ví dụ: Đánh giá ý kiến, phân loại thơng tin, nhận dạng hình ảnh,chữ viết… +Phân cụm (cluster): Học không giám sát +Phần tử ngoại lai (Outlier) •  Bài tốn hồi quy (Regression): +Xác định giá trị hàm cho đối tượng dựa tập quan sát + Phân tích hồi quy : Phương pháp giải tich cho đối tượng có đặc trưng vectơ thực Phát biểu bài tốn Bài tốn Cho tập đối tượng X , tập nhãn Y tập liệu quan sát được: D= N {( x , y )} k k k k ; x ∈ X , y ∈Y ∀k k =1 Cần tìm nhãn c(x) cho x ∈ X •  Bài tốn phân lớp: Y tập hữu hạn Chú ý! Trong phân lớp thống kê, cho ước lượng xác suất thay cho tập D •  Bài tốn hồi quy: Y tập số thực, nhãn y x giá trị hàm f(x) chưa biết Cần tìm hàm hồi quy g(x) để đốn nhận f(x) g(x) cho tập luật biểu thức giải tích Phân lớp nhờ hàm quyết định Gỉa sử có k lớp Y= {ω1,…, ωk}; Với i ≤ k: •  Xây dựng hàm gi tính mức độ gi(x) thuộc ωi cho •  x∈ X Quyết định x ∈ ωi g i ( x) = max{ g j ( x) / j ≤ k} gi gọi hàm định lớp I •  Ví dụ gi là: +Số từ khóa thích hợp với loại băn + Độ giống hình ảnh, chữ, vân tay… •  Nếu đối tượng có đặc trưng vectơ thực n-chiều, hàm định phân Rn thành miền định Ri Ri = x ∈ X : g i ( x) = max g j ( x) / j ≤ k { •  Phần giao gọi biên định { }} Phân lớp nhờ hàm quyết định •  Khi có lớp: Chỉ cần dùng hàm định g(x)=g1(x)-g2(x) Quy tắc qđ: x ∈ω g(x) > 0, ngược lại x ∈ω2 n T i i i i i i ( ) g ( x ) = w x + w = w x + w = w , x + w ∑ ji •  Phân biệt tuyến tính: i 0 i =1 +Phân biệt khoảng cách cực tiểu + Máy véctơ tựa (Support Vector Machine SVM) Phân lớp khoảng cách cực tiểu •  Khoảng cách (mêtric) Mahalanobis dA(x,y) cho ma trận A= ( j ) n×n : A n n d ( x, y) = ∑∑ , j ( xi − yi )( x j − y j ) = ( x − y)T A( x − y) = A( x − y), x − y i =1 j =1 Thường dùng A=I (ma trân đơn vị) A= C-1 (C ma trận hiệp phương sai) + Tính tâm mi ωi +Hàm định gi là: gi(x) = − d A ( x, mi ) = − A( x − mi ), x − mi = − Ax, x + Ami , x − Ami , mi Đều chứa số hạng − Ax, x nên bỏ thay bởi: T T gi(x) ← Ami , x − 0,5 Ami , mi = mi Ami − 0,5mi Ax phân biệt tuyến tính Chú ý! +Khi dùng mêtric Euclide biên định siêu phẳng trực giao với đoạn nối hai tâm lớp + Khi dùng A=C-1, tính riêng ma trận hiệp phương sai cho lớp để tính khoảng cách kết phân lớp tốt Miền định có phân biệt tuyến tính với lớp Máy véctơ tựa Các khái niệm: •  Tách tuyến tính •  Siêu phẳng tựa •  Vectơ tựa •  Lề Khi các lớp tách được tuyến Hnh •  Xét trường hợp có lớp với nhãn tương ứng -1/ +1 •  Tập mẫu D = {(xt,yt)/t=1, N}, t yt = +1 xt ∈ ω1 yt = -1 x ∈ ω2 Ta tìm w w0 cho g(xt) = wTxt + w0 ≥ +1 yt = +1 g(xt) = wTxt + w0 ≤ -1 yt = -1, hay viết lại yt(wTxt + w0 ) ≥ Rừng ngẫu nhiên 26 Rừng ngẫu nhiên Rừng ngẫu nhiên 28 Thuật tốn xây dựng rừng ngẫu nhiên 29 Tìm hàm hồi quy Bài tốn Hàm chưa biết f: X→Rn có tâp DLquan sát được: D= N {( x , y )} k k k k n k ; x ∈ X , y ( ∈ R ) ≈ f ( x ) ∀k k =1 Với hàm φ(x,c), c = (c1,…,cm )T, M ≤ N, vectơ tham số cần tìm để hàm hồi quy g(x) = φ(x,c1,…,cM) cực tiểu sai số trung bình phương (SSE): N E(c)= ∑d ( g ( x j ), y j ), j =1 ( d(z,y) khoảng cách Euclid z y Rn) N •  [ j Để đơn giản, ta xét n = 1, E (c) = ∑ ϕ ( x , c1 , , cM ) − y j =1 •  Thường dùng phương pháp gradient để tìm cực tiểu E •  Hàm φ(x,c) dạng tuyến tính: ϕ ( x, c) = M ∑c ϕ k k k ( x) k =1 Trong {φk}k≤M hệ hàm độc lập tuyến tính cho trước ] Thuật tốn gradient 31 Trường hợp tuyến tính 32 Tìm hàm hồi quy: Vì cần M ≤ N? •  Khi số M > N thường có vơ số nghiệm c để E(c)= 0, hàm hồi quy khống đáng tin Ví dụ: X= Y = R, N=2, M ≥ có vơ số đường bậc qua điểm •  Khi M =N thường tìm nhất/hữu hạn c để E(c) = 0: Tức g(xk)=yk với k Mạng nơron •  Mơ hình nơron: nơron tự nhiên và nơron nhân tạo Một số hàm chuyển thơng dụng Kiến trúc mạng MLP (MultiLayer Perceptron) Mạng R – S1 – S2 – S3 Đặc điểm kiến trúc thuật tốn huấn luyện mạng MLP: •  Đặc điểm kiến trúc: + Tầng vào vào có m+1 nút X ⊂ R m + Tầng n nơron Y ⊂ R n +Một tầng ẩn với số nơron thích hợp DL quan sát đủ nhiều xấp xỉ hàm liên tục với sai số đủ nhỏ + Kiến trúc tối ưu cịn tốn mở •  Dùng thuật toán gradient ngẫu nhiên ( Thuật toán lan truyền ngược:BP) : 1-Khởi tạo c0 tùy ý 2- Thực lặp: 2.1- Mỗi lần lấy ngẫu nhiên xk làm đầu vào mạng để tính đầu sai số E 2.2- Hiệu chỉnh tham số tuần từ tầng đến tầng ẩn Học sâu •  Dùng mạng MLP, kiến trúc huấn luyện lai •  Khối tự động mã hóa: Khử nhiễu •  , ∧ x = f (Wh( x) + b0 ) Học sâu Học sâu tự đơng mã hóa Tài liệu tham khảo 1.  Hồng Xn Huấn, Giáo trình Học Máy, NXB ĐHQG HN, 2015 2.  J Kacprzyk, W Pedrycz (Editors.), Handbook of Computational Intelligence, Springer, 2015 Cám ơn đã chú ý lắng nghe!

Ngày đăng: 18/11/2020, 11:57

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w