Thuật toán máy hỗ trợ vector (support vector machineSVM)I.Thuật toán SVM 2. Mục đích Là tìm ra hàm phân lớp hiệu quả nhất để phân biệt thành phần của các lớp trong việc huấn luyện dữ liệu. + Ví dụ trong tập dữ liệu phân chia tuyến tính , hàm phân loại tuyến tính tương ứng với 1 siêu phẳng f(x) phân chia 2 tập hợp.khi hàm này đc xác định thì bất kỳ 1 thể hiện mới sẽ được phân lớp đơn giản bằng việc xét dấu của hàm f( ) nếu thuộc về tập các giá dương thì f( )>0 ngược lại thì thuộc tập các giá trị âm.
Thuật toán máy hỗ trợ vector (support vector machine-SVM) Người hướng dẫn:CN.Vũ Tiến Thành Sinhviên :Đinh thị Hương Lớp : k52CA Nội dung chính I.Phát biểu bài toán. 1.Trình bày tóm tắt về phân lớp dữ liệu 2.Tại sao lại sử dụng thuật toán SVM để phân lớp dữ liệu? II. Thuật toán máy hỗ trợ vector(SVM) 1. Định nghĩa 2. Mục đích 3. Mô hình giải thuật 4.Các câu hỏi 5.Giải quyết 6.Transductive support vector machine(TSVM) III.Ứng dụng của SVM I.Phát biểu bài toán: 1.Trình bày tóm tắt về phân lớp dữ liệu - Phân lớp dữ liệu là một kỹ thuật trong khai phá dữ liệu được sử dụng rộng rãi nhất và được nghiên cứu mở rộng hiện nay. - Mục đích: Để dự đoán những nhãn phân lớp cho các bộ dữ liệu hoặc mẫu mới. - Đầu vào: Một tập các mẫu dữ liệu huấn luyện,với một nhãn phân lớp cho mỗi mẫu dữ liệu - Đầu ra:Bộ phân lớp dựa trên tập huấn luyện,hoặc những nhãn phân lớp - Kỹ thuật phân lớp dữ liệu được tiến hành bao gồm 2 bước: Bước 1: Xây dựng mô hình từ tập huấn luyện Bước 2: Sử dụng mô hình – kiểm tra tính đúng đắn của mô hình và dùng nó để phân lớp dữ liệu mới. Bước 1. Xây dựng mô hình - Mỗi bộ/mẫu dữ liệu được phân vào một lóp được xác định trước. - Lớp của một bộ/mẫu dữ liệu được xác định bởi thuộc tính gán nhãn lớp - Tập các bộ/mẫu dữ liệu huấn luyện-tập huấn luyện – được dùng để xây dựng mô hình. - Mô hình được biểu diễn bởi các luật phân lớp,các cây quyết định hoặc các công thức toán học. [...]... biểu diễn dưới dạng một vector thực d chiều Bộ phân lớp tuyến tính (mô hình phân lớp) được xác định thông qua một siêu phẳng có dạng: f(x) = w.x – b = 0 trong đó: w là vector pháp tuyến của siêu phẳng và b đóng vai trò là tham số mô hình - Bộ phân lớp nhị phân được xác định thông qua dấu của f(x): - Để tìm được siêu phẳng phân cách có lề cực đại,xây dựng các vector hỗ trợ và các siêu... nhân tử lagrange(điểm yên ngựa)α i Lp và được gọi là hàm lagrange u + vector ur và hằng số b xác định mặt w phẳng - Với cách làm như trên thì ta có: yi(w.xi -b) -1 >0 vấn đề này được giải quyết bằng các kỹ thuật lập trình bậc 2.vector w biểu thị sự kết hợp giữa số hạng tuyến tính và đào tạo dữ liệu: t w = ∑αi yi.xi i =1 với xi là vector hỗ trợ,nó nằm trên lề và thỏa mãn yi(w.xi -b) =1 b =w.xi – yi... sử dụng để xây dựng những bao đóng xấp xỉ nhỏ nhất của tập mẫu dữ liệu.Phương pháp này đạt hiệu quả rất cao.ta có thể sử dụng máy corevector để phân lớp được hàng triệu dữ liệu trong vài giây 5.Transductive support vector machine (TSVM) - Là một mở rộng của support vector machine chuẩn với dữ liệu chưa gán nhãn - Mục tiêu là tìm một gán nhãn của các dữ liệu chưa gán nhãn, sao cho tồn tại một biên... dạng có độ chính xác tương đối cao - Trong nhận dạng mặt người : +Giai đoạn huấn luyện: các ảnh mẫu được vector hóa x= { X 1 ,K , X 900 } rồi dùng phương pháp PCA để rút trích đặc trưng thành vector y ={ Y1 ,K , Y100 } rồi đưa vào bộ huấn luyện SVM +Giai đoạn nhận dạng:Mẫu cần nhận dạng được vector hóa và rút trích như trên sau đó đưa vào bộ nhận dạng SVM để xác định lớp cho mẫu - Phân tích vi ảnh... cách và gần vector hỗ trợ nhất,đó là các hàm : w.x – b = 1 w.x – b = -1 2 - Khoảng cách giữa 2 siêu phẳng là w do đó cần phải cực tiểu hóa để đảm bảo với w mọi i ta có: w.x – b > 1 cho lớp thứ nhất w.x – b . liệu là một kỹ thuật trong khai phá dữ liệu được sử dụng rộng rãi nhất và được nghiên cứu mở rộng hiện nay. - Mục đích: Để dự đoán những nhãn phân lớp cho các bộ dữ liệu ho c mẫu mới. - Đầu. luật phân lớp,các cây quyết định ho c các công thức toán học.