Chu de 4 phan lop 2 svm slides

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	13
Dung lượng	1,32 MB

Nội dung

Tài liệu tóm tắt môn Khai phá dữ liệu, chuyên ngành phần mềm khoa công nghệ thông tin. DeepL (www.deepl.com): Được đánh giá là một trong những trang web dịch ngôn ngữ chính xác nhất, DeepL sử dụng công nghệ AI và máy học sâu để cải thiện chất lượng dịch. Microsoft Translator (www.microsoft.comenustranslator): Công cụ dịch ngôn ngữ miễn phí của Microsoft, cho phép bạn dịch văn bản, từ vựng, câu và cả hình ảnh.

KHAI PHÁ DỮ LIỆU Trường Đại học Nha Trang Khoa Công nghệ thông tin Bộ môn Hệ thống thông tin Giáo viên: TS.Nguyễn Khắc Cường CHỦ ĐỀ PHÂN LỚP (SVM) SVM  SVM = Support Vector Machines  Là Supervised learning methods  Dùng để thực classification  Binary classification  Multi-class classification  Ví dụ: SVM  Idea tốn học thực Binary classification:  Biến đổi sample dataset thành vector số thực  n: số chiều n kí hiệu đại diện cho sample dataset xR (n  ) bội số vecto không gian n chiều  Hai class mã hóa thành  Class +1  Class -1   Mỗi sample gán nhãn: ( x , y ) sample tập huấn luyện gán nhãn y  {-1, +1} SVM PT đường thẳng y = ax + b, a hệ số góc  Idea tốn học thực Binary classification:  i  N  Thu training dataset: ( xi , yi ) kí hiệu tập huấn luyện  Xây dựng hyperplane ngăn cách lớp, có dạng:  T  f ( x )  w x  b y = ax + b siêu phẳng: n chiều (4 chiều trở lên) khơng gian có số chiều nhỏ số chiều cần tách  w b vecto chuyển vị pháp tuyến trọng số đó: normal (hay weight) vector hyperplane bias  Ví dụ: hyperplane R SVM  Idea toán học thực Binary classification:  Nếu tập hợp data cần phân lớp tập hợp phân chia cách tuyến tính được, trường hợp có hyperplane là: không cắt ngang data point ->  Câu hỏi:  hyperplane tốt việc phân chia class? SVM  Idea tốn học thực Binary classification:  Tìm hyperplane phân lớp đúng? thay giá trị w, b -> nhãn y có giá trị + -> nhận,  Xét hyperplane có ngược lại -> loại   T f ( x )  w x  b giá trị tuỳ ý  Dựa vào tập training set ( xi , yi ) i  N , hyperplane phân lớp hyperplane f () thỏa điều kiện sau: yi  1 công thức mặt đại số để kiểm tra hyperplane   f ( xi )  yi  1   Hay: hyperplane xem phân lớp đối training data nếu: hay:  yi f ( xi )  T  yi (w i xi  bi )  i  N i  N SVM  Idea tốn học thực Binary classification:  Tìm hyperplane phân lớp đúng?  Các hyperplane phân lớp gồm có  Câu hỏi:  Trong số hyperplane phân lớp data training dataset chọn hyperplane tốt nhất? SVM  Idea toán học thực Binary classification:  Trả lời:  Vapnik đề xuất idea SVM (1990’s) để tìm hyperplane  Hyperplane cần tìm có largest margin  Margin?       xi  w i  b xi  w i  b  d ( xi )    d wi  i 1 wi2  Margin = khoảng cách hyperplane data point gần (support vectors) SVM  Idea toán học thực Binary classification:  Largest margin?   T  Xét hyperplane  w x  b  T  Thì c(w x  b )  hyperplane vector w cho:   Do đó, chọn normal T  T w x  b  1 w x  b  1 tương ứng với support vectors + –  Như vậy, margin tính theo w chọn là: T   w  x  x   w w 10 SVM  Idea toán học thực Binary classification:  Largest margin?  Như vậy, margin tính theo w chọn là: 11 SVM  Idea toán học thực Binary classification:  Largest margin?  Như vậy, largest margin tìm thấy nhờ tốn tối ưu  T    if yi  1 max subject to w xi  b  (i  N ) w w  if yi  1  Nhận xét: Đây toán quadratic optimization thỏa ràng buộc tuyến tính  Bài tốn có nghiệm  Kết tìm normal vector w  biểu diễn hyperplane có largest margin training dataset cho (có thể phân chia tuyến tính)  12 SVM 13

Ngày đăng: 21/04/2023, 11:58