Tài liệu tóm tắt môn Khai phá dữ liệu, chuyên ngành phần mềm khoa công nghệ thông tin. DeepL (www.deepl.com): Được đánh giá là một trong những trang web dịch ngôn ngữ chính xác nhất, DeepL sử dụng công nghệ AI và máy học sâu để cải thiện chất lượng dịch. Microsoft Translator (www.microsoft.comenustranslator): Công cụ dịch ngôn ngữ miễn phí của Microsoft, cho phép bạn dịch văn bản, từ vựng, câu và cả hình ảnh.
KHAI PHÁ DỮ LIỆU Trường Đại học Nha Trang Khoa Công nghệ thông tin Bộ môn Hệ thống thông tin Giáo viên: TS.Nguyễn Khắc Cường CHỦ ĐỀ PHÂN LỚP (SVM) SVM SVM = Support Vector Machines Là Supervised learning methods Dùng để thực classification Binary classification Multi-class classification Ví dụ: SVM Idea tốn học thực Binary classification: Biến đổi sample dataset thành vector số thực n: số chiều n kí hiệu đại diện cho sample dataset xR (n ) bội số vecto không gian n chiều Hai class mã hóa thành Class +1 Class -1 Mỗi sample gán nhãn: ( x , y ) sample tập huấn luyện gán nhãn y {-1, +1} SVM PT đường thẳng y = ax + b, a hệ số góc Idea tốn học thực Binary classification: i N Thu training dataset: ( xi , yi ) kí hiệu tập huấn luyện Xây dựng hyperplane ngăn cách lớp, có dạng: T f ( x ) w x b y = ax + b siêu phẳng: n chiều (4 chiều trở lên) khơng gian có số chiều nhỏ số chiều cần tách w b vecto chuyển vị pháp tuyến trọng số đó: normal (hay weight) vector hyperplane bias Ví dụ: hyperplane R SVM Idea toán học thực Binary classification: Nếu tập hợp data cần phân lớp tập hợp phân chia cách tuyến tính được, trường hợp có hyperplane là: không cắt ngang data point -> Câu hỏi: hyperplane tốt việc phân chia class? SVM Idea tốn học thực Binary classification: Tìm hyperplane phân lớp đúng? thay giá trị w, b -> nhãn y có giá trị + -> nhận, Xét hyperplane có ngược lại -> loại T f ( x ) w x b giá trị tuỳ ý Dựa vào tập training set ( xi , yi ) i N , hyperplane phân lớp hyperplane f () thỏa điều kiện sau: yi 1 công thức mặt đại số để kiểm tra hyperplane f ( xi ) yi 1 Hay: hyperplane xem phân lớp đối training data nếu: hay: yi f ( xi ) T yi (w i xi bi ) i N i N SVM Idea tốn học thực Binary classification: Tìm hyperplane phân lớp đúng? Các hyperplane phân lớp gồm có Câu hỏi: Trong số hyperplane phân lớp data training dataset chọn hyperplane tốt nhất? SVM Idea toán học thực Binary classification: Trả lời: Vapnik đề xuất idea SVM (1990’s) để tìm hyperplane Hyperplane cần tìm có largest margin Margin? xi w i b xi w i b d ( xi ) d wi i 1 wi2 Margin = khoảng cách hyperplane data point gần (support vectors) SVM Idea toán học thực Binary classification: Largest margin? T Xét hyperplane w x b T Thì c(w x b ) hyperplane vector w cho: Do đó, chọn normal T T w x b 1 w x b 1 tương ứng với support vectors + – Như vậy, margin tính theo w chọn là: T w x x w w 10 SVM Idea toán học thực Binary classification: Largest margin? Như vậy, margin tính theo w chọn là: 11 SVM Idea toán học thực Binary classification: Largest margin? Như vậy, largest margin tìm thấy nhờ tốn tối ưu T if yi 1 max subject to w xi b (i N ) w w if yi 1 Nhận xét: Đây toán quadratic optimization thỏa ràng buộc tuyến tính Bài tốn có nghiệm Kết tìm normal vector w biểu diễn hyperplane có largest margin training dataset cho (có thể phân chia tuyến tính) 12 SVM 13