Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 37 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
37
Dung lượng
1,08 MB
Nội dung
Thuật toán máy hỗ trợ vector (support vector machine-SVM) Người hướng dẫn:CN.Vũ Tiến Thành Sinhviên :Đinh thị Hương Lớp : k52CA Nội dung I.Phát biểu tốn 1.Trình bày tóm tắt phân lớp liệu 2.Tại lại sử dụng thuật toán SVM để phân lớp liệu? II Thuật toán máy hỗ trợ vector(SVM) Định nghĩa Mục đích Mơ hình giải thuật 4.Các câu hỏi 5.Giải 6.Transductive support vector machine(TSVM) III.Ứng dụng SVM I.Phát biểu tốn: 1.Trình bày tóm tắt phân lớp liệu - Phân lớp liệu kỹ thuật khai phá liệu sử dụng rộng rãi nghiên cứu mở rộng - Mục đích: Để dự đốn nhãn phân lớp cho liệu mẫu - Đầu vào: Một tập mẫu liệu huấn luyện,với nhãn phân lớp cho mẫu liệu - Đầu ra:Bộ phân lớp dựa tập huấn luyện,hoặc nhãn phân lớp - Kỹ thuật phân lớp liệu tiến hành bao gồm bước: Bước 1: Xây dựng mơ hình từ tập huấn luyện Bước 2: Sử dụng mơ hình – kiểm tra tính đắn mơ hình dùng để phân lớp liệu Bước Xây dựng mơ hình - Mỗi bộ/mẫu liệu phân vào lóp xác định trước - Lớp bộ/mẫu liệu xác định thuộc tính gán nhãn lớp - Tập bộ/mẫu liệu huấn luyện-tập huấn luyện – dùng để xây dựng mơ hình - Mơ hình biểu diễn luật phân lớp,các định cơng thức tốn học Bước 2: Sử dụng mơ hình - Phân lớp cho đối tượng chưa phân lớp - Đánh giá độ xác mơ hình + Lớp biết trước mẫu/bộ liệu đem kiểm tra so sánh với kết thu từ mơ hình + Tỉ lệ xác phần trăm mẫu/bộ liệu phân lớp mơ hình số lần kiểm tra - Các thuật toán phân lớp liệu phổ biến: + Thuật toán định + Thuật toán SVM + Thuật toán phân lớp Bayes + Thuật toán phân lớp K người láng giềng gần 2.Tại lại sử dụng thuật toán SVM phân lớp liệu? - - - SVM hiệu để giải toán liệu có số chiều lớn(ảnh liệu biểu diễn gene,protein, tế bào) SVM giải vấn đề overfitting tốt (dữ liệu có nhiễu tách dời nhóm liệu huấn luyện ít) Là phương pháp phân lớp nhanh Có hiệu suất tổng hợp tốt hiệu suất tính tốn cao 5.Trả lời: a.Có thể mở rộng mơ hình SVM để xử lý trường hợp cho phép lỗi tồn tại,khi siêu phẳng tốt cho phép tồn số lỗi đào tạo liệu? - giả sử có số liệu âm vượt giới hạn,những điểm thể số lượng lỗi tồn mặt phẳng phân cách có lề cực đại - phương pháp lề mềm sử dụng để mở rộng tốn SVM siêu phẳng cho phép số liệu nhiễu tồn - Phương pháp lề mềm (softmargin) sử dụng cách đưa thêm biến nới lỏng đo độ phân lớp sai cho liệu x: thỏamãn ràng buộc ξi tính khoảng cách từ lớp liệu bị lỗi đến hàm f(xn).do tổng giá trị biến tạm so sánh với giá trị hàm cực tiểu ban đầu Vd minh họa liệu bị nhiễu b.Có thể mở rộng mơ hình SVM tình trường hợp liệu khơng phân chia tuyến tính? - SVM ban đầu thuật tốn phân lớp tuyến tính,nhờ áp dụng hàm kernel, thuật tốn tìm siêu phẳng không gian phi tuyến đặc trưng biến đổi u uu r ru - Mở rộng tích vơ hướng xi yi thông qua hàm ánh ur u u u r xạ φ( xi ) cho biến xi không gian H lớn chí vơ hạn chiều,theo đẳng thức giữ Trong u uu r ruđẳng thức,khi có tích vơ hướng xi yi tính tích vơr uu u u r hướng thông qua phép biến đổi vectors φ ( xi).φ ( yi) - Hàm kernel sử dụng để xác định nhiều quan hệ đầu vào khơng tuyến tính - Đối với hàm kernel tuyến tính ta xác định nhiều hàm bậc hai hàm mũ - Trong năm gần ,nhiều nghiên cứu sâu vào nghiên cứu kernel khác cho phân lớp SVM cho nhiều thống kê thử nghiệm khác c.Có thể thiết kế thuật giải cho việc tìm siêu phẳng phân cách có lề cực đại cho hàng ngàn hay hàng triệu thực thể không? - Một trở ngại ban đầu SVM hiệu việc tính tốn - Tuy nhiên vấn đề giải thành công + Cách tiếp cận :chia vấn đề tối ưu hóa lớn thành vấn đề nhỏ cho cuối gồm vài biến lựa chọn cẩn thận để tối ưu hóa đạt hiệu cao.Q trình lặp lặp lại tất vấn đề tối ưu hóa triển khai thành cơng +Một cách tiếp cận gần xem xét vấn đề nghiên cứu SVM tìm bao đóng nhỏ tập mẫu liệu Với mẫu liệu này,khi ánh xạ vào không gian n chiều,đại diện tập gốc sử dụng để xây dựng bao đóng xấp xỉ nhỏ tập mẫu liệu.Phương pháp đạt hiệu cao.ta sử dụng máy corevector để phân lớp hàng triệu liệu vài giây 5.Transductive support vector machine (TSVM) - Là mở rộng support vector machine chuẩn với liệu chưa gán nhãn - Mục tiêu tìm gán nhãn liệu chưa gán nhãn, cho tồn biên tuyến tính có lề cực đại liệu gán nhãn ban đầu liệu chưa gán nhãn -Giả sử có L mẫu gán nhãn U mẫu chưa gán nhãn gọi tập U - Cực tiểu hóa theo biến ( mục tiêu: ) hàm đáp ứng đk : C C* tham số người dùng thiết lập,có ý nghĩa cân độ lớn lề với ví dụ bị phân lớp sai ví dụ chưa gán nhãn -Ban đầu dùng phân lớp học quy nạp gán nhãn cho ví dụ tập U sau nâng cấp nghiệm cách đổi lại nhãn cho ví dụ tập U L bị gán sai * huấn luyện lại,nó lặp C C− khơng cịn nhỏ thua tham số người dùng C* * + Ví dụ minh họa TSVM - liệu gán nhãn,siêu phẳng có phân cách lề cực đại đường chấm chấm, với liệu chưa gán nhãn(các điểm đen)thì siêu phẳng có phân cách lề cực đại đường thẳng màu đen III.Ứng dụng SVM: Sử dụng phân loại nhận dạng - Trong việc nhận dạng chữ viết tay tiếng Việt +Dựa sở thành phần liên thông ảnh,phân tập ký tự tiếng Việt thành nhóm (box,dạng chữ rời,dạng chữ liên tục) tách ký tự có dấu thành phần rời +Sau xây dựng máy phân lớp SVM để nhận dạng cho phần chữ phần dấu + Kết thực nghiệm cho thấy mơ hình nhận dạng có độ xác tương đối cao - Trong nhận dạng mặt người : +Giai đoạn huấn luyện: ảnh mẫu vector hóa x= { X ,K , X 900 } dùng phương pháp PCA để rút trích đặc trưng thành vector y ={ Y1 ,K , Y100 } đưa vào huấn luyện SVM +Giai đoạn nhận dạng:Mẫu cần nhận dạng vector hóa rút trích sau đưa vào nhận dạng SVM để xác định lớp cho mẫu - Phân tích vi ảnh protein subcelluar location + Ảnh đầu vào tiền xử lý thông qua thuật giải khử nhiễu, điều chỉnh tự động cường độ sáng + Thuật giải MRF [9] áp lên ảnhnhằm thực segmentation để phân biệt rõ phần nhân phần khác ảnh +Biến đổi mô tả phần áp ảnh đầu vào với tối đa tỉ lệ phân rã khác + Bước phân lớp thực với thuật giải SVM đa tỉ lệ cho phù hợp với tính chất đa phân giải hệ số sau biến đổi Tài liệu tham khảo: - tài liệu tham khảo chính: [3] Xindong Wu, Vipin Kumar, J.Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J McLachlan, Angus Ng, Bing Liu, Philip S Yu , Zhi-Hua Zhou, Michael Steinbach, David J Hand, Dan Steinberg, Top 10 algorithms in data mining, Knowl Inf Syst (2008) - [CV95] Corinna Cortes, Vladimir Vapnik (1995) Support-Vector Networks, Machine Learning, 20(3): 273-297 - http://en.wikipedia.org/wiki/Support_vector_machine - Nguyễn Thị Hương Thảo, Nguyễn Thị Thùy Linh, Nguyễn Thu Trang, Hà Quang Thụy (2007) Một giải pháp học bán giám sát SVM phân lớp trang web tiếng Việt, Baos cao FAIR 07, Nha Trang - http://en.wikipedia.org/wiki/Regression_analysis - http://en.wikipedia.org/wiki/Supervised_learning - http://www.slideshare.net/khuongquynh/bai-4-phanlop-presentation - http://en.wikipedia.org/wiki/Statistical_classification Xin chân thành cảm ơn! ... lại sử dụng thuật toán SVM để phân lớp liệu? II Thuật toán máy hỗ trợ vector( SVM) Định nghĩa Mục đích Mơ hình giải thuật 4.Các câu hỏi 5.Giải 6.Transductive support vector machine( TSVM) III.Ứng... tra - Các thuật toán phân lớp liệu phổ biến: + Thuật toán định + Thuật toán SVM + Thuật toán phân lớp Bayes + Thuật toán phân lớp K người láng giềng gần 2.Tại lại sử dụng thuật toán SVM phân... liệu.Phương pháp đạt hiệu cao.ta sử dụng máy corevector để phân lớp hàng triệu liệu vài giây 5.Transductive support vector machine (TSVM) - Là mở rộng support vector machine chuẩn với liệu chưa gán nhãn