Tìm hiểu về Học bán giám sát

15 318 1
Tìm hiểu về Học bán giám sát

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Học bán giám sát là phương pháp học với tập dữ liệu huấn luyện gồm cả dữ liệu đã được gán nhãn và dữ liệu chưa được gán nhãn. Tuỳ vào từng mục đích cụ thể, học bán giám sát có thể được áp dụng cho bài toán phân lớp hoặc phân cụm dữ liệu. Nội dung chính của học bán giám sát là hệ thống sử dụng một tập dữ liệu huấn luyện (training set) gồm 2 phần: các ví dụ học có nhãn, thường với số lượng (rất) ít, và các ví dụ học không có nhãn, thường với số lượng (rất) nhiều. Thực tế cho thấy khi sử dụng kết hợp dữ liệu không có nhãn với một lượng nhất định dữ liệu có nhãn có thể tăng độ chính xác đáng kể. Một thuật toán học bán giám sát được sử dụng sẽ học các ví dụ có nhãn, sau đó tiến hành gán nhãn cho một số (có lựa chọn) ví dụ không có nhãn một cách hợp lý, có đánh giá chất lượng công việc hay độ chính xác. Tiếp theo, chọn các ví dụ vừa được gán nhãn có độ tin cậy cao (vượt trên một ngưỡng chọn trước) đưa vào kết hợp với tập dữ liệu có nhãn, tạo thành một tập dữ liệu huấn luyện mới. Áp dụng một phương pháp kiểm thử (có thể kết hợp với một tập dữ liệu đã biết trước nhãn) để đánh giá hiệu năngđộ chính xác của mô hình.

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN **** NGUYỄN THỊ LOAN MOUNPHINE PHONEPANYA VŨ ĐÌNH THUẤN PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT SEMI-SUPERVIED LEARNING BÀI TẬP LỚN MÔN PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC Lớp: Cao học K25 Giảng viên hướng dẫn: TS Trần Đăng Hưng Hà Nội, tháng năm 2016 MỤC LỤC Trang MỞ ĐẦU Chương 1: GIỚI THIỆU 1.1 Giới thiệu học máy 1.1.1 Khái niệm học máy .4 1.1.2 Chương trình học máy .4 1.1.3 Ứng dụng .5 1.2 Các phương pháp học máy .5 1.2.1 Học có giám sát 1.2.2 Học không giám sát .6 1.2.3 Học bán giám sát 1.2.4 Học tăng cường 1.3 Mục tiêu, nhiệm vụ nghiên cứu đề tài Chương 2: PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT 2.1 Giới thiệu 2.1.1 Khái niệm học bán giám sát 2.1.2 Nội dung phương pháp học bán giám sát 2.2 Một số thuật toán tiêu biểu .8 2.2.1 Thuật toán cực đại kỳ vọng (EM) .9 2.2.2 SVM truyền dẫn (TSVM) 10 2.2.3 Self-training .11 2.2.4 Co-training 11 2.2.5 Phương pháp dựa đồ thị (Graph-based) .13 2.3 Ứng dụng 13 KẾT LUẬN 14 TÀI LIỆU THAM KHẢO .15 MỞ ĐẦU Hiện công nghệ thông tin phát triển mạnh mẽ, ứng dụng rộng rãi nhiều lĩnh vực Do mà số lượng tốc độ thay đổi thông tin nhanh chóng, chủ yếu thông tin chưa gán nhãn Nhiều nghiên cứu ngành học máy tìm liệu chưa gán nhãn sử dụng với số lượng nhỏ liệu gán nhãn Tuy nhiên để thu kết liệu gán nhãn thường đòi hỏi trình độ tư khả người, công việ Có hai chiến lược đưa để giải toán này: Một là, thử nhiều giá trị khởi đầu khác nhau, sau lựa chọn giải pháp có giá trị likelihood hội tụ lớn Hai là, sử dụng mô hình đơn giản để xác định giá trị khởi đầu cho mô hình phức tạp Ý tưởng là: mô hình đơn giản giúp tìm vùng tồn cực đại toàn cục, ta bắt đầu giá trị vùng để tìm kiếm tối ưu xác sử dụng mô hình phức tạp Thuật toán EM đơn giản, mặt khái niệm Nó sử dụng hiệu liệu có tính phân cụm cao 2.2.2 SVM truyền dẫn (TSVM) Học quy nạp (inductive learning) Ta xem xét hàm 𝑓 ánh xạ từ đầu vào 𝑥 tới đầu 𝑦:𝑦 = 𝑓(𝑥) với 𝑦 ∈ {−1,1} Học quy nạp dựa vào liệu huấn luyện có dạng {(𝑥𝑖 , 𝑦𝑖 ): 𝑖 = 1,2, , 𝑛} để tìm hàm 𝑓 Sau đó, ta sử dụng hàm 𝑓 để dự đoán nhãn 𝑦𝑛+1 cho mẫu chưa gán nhãn 𝑥𝑛+1 Các vấn đề phương pháp:  Khó tập hợp liệu gán nhãn  Lấy mẫu liệu chưa gán nhãn dễ dàng  Các mẫu cần phân lớp biết trước  Không quan tâm đến hàm phân lớp 𝑓 Học truyền dẫn (transductive learning) Học truyền dẫn Vapnik đề cập từ năm 1998 Một học gọi truyền dẫn xử lý liệu gán nhãn liệu chưa gán nhãn, xử lý liệu mà chưa biết Cho trước tập mẫu gán nhãn {(𝑥𝑖 , 𝑦𝑖 ): 𝑖 = 1,2, , 𝑛} tập liệu chưa gán nhãn 𝑥1 , 𝑥2 , , 𝑥𝑚 , mục đích ta tìm nhãn 𝑦1 , 𝑦2 , , 𝑦𝑚 Học truyền dẫn không cần thiết phải xây dựng hàm 𝑓, đầu vector nhãn lớp xác định việc chuyển thông tin từ liệu gán nhãn sang liệu chưa gán nhãn Các phương pháp dựa đồ thị lúc đầu thường truyền dẫn Phương pháp học TSVM Qui ước: +, - : mẫu âm, dương : mẫu chưa gán nhãn TSVM mở rộng SVM chuẩn Trong SVM có liệu gán nhãn sử dụng, mục đích tìm siêu phẳng cực đại dựa mẫu liệu huấn luyện Với TSVM, điểm liệu chưa gán nhãn sử dụng Mục đích TSVM gán nhãn cho điểm liệu chưa gán nhãn biên tuyến tính có lề phân cách lớn liệu gán nhãn liệu chưa gán nhãn 10 2.2.3 Self-training Self-training kỹ thuật học bán giám sát sử dụng phổ biến tận dụng nguồn liệu chưa gán nhãn lớn ban đầu cần lượng nhỏ liệu gán nhãn Nội dung Self-training lặp nhiều lần phương pháp học có giám sát Gọi 𝐷: tập liệu gán nhãn 𝐶 : tập liệu chưa gán nhãn Thuật toán Self-training thực sau: Lặp (cho đến 𝐶 = ∅): (1) Huấn luyện phân lớp có giám sát ℎ tập 𝐷 (2) Sử dụng ℎ để phân lớp liệu tập 𝐶 (3) Tìm tập 𝐶 ′ ⊆ 𝐶 có độ tin cậy cao nhất: 𝐷 + 𝐶 ′ ⇒ 𝐷; 𝐶 − 𝐶 ′ ⇒ 𝐶 Ban đầu huấn luyện phân lớp cách cho phân lớp học tập liệu huấn luyện gán nhãn (tập thường nhỏ so với tập liệu chưa gán nhãn) Dùng phân lớp huấn luyện, phân lớp cho liệu chưa gán nhãn Trong số liệu gán nhãn, chọn liệu có độ tin cậy cao (lớn ngưỡng đó) kèm với nhãn vừa gán, đem bổ sung vào tập liệu huấn luyện ban đầu Sau đó, phân lớp học lại tập huấn luyện (gồm liệu gán nhãn ban đầu liệu phân lớp gán nhãn) thuật toán lặp lại Sau vòng lặp, phân lớp bổ sung số mẫu liệu có độ tin cậy cao với dự đoán phân lớp chúng vào tập liệu huấn luyện Tên gọi Self-training xuất phát từ việc sử dụng dự đoán để huấn luyện 2.2.4 Co-training Thuật toán Co-training dựa giả thuyết đặc trưng tập liệu huấn luyện phân chia thành tập (trường hợp lý tưởng hai tập thoả mãn điều kiện độc lập nhau) Nội dung thuật toán sau: + Dùng phân lớp phù hợp để học tập tương ứng (mỗi tập huấn luyện phân lớp) + Mỗi phân lớp thực phân lớp cho liệu chưa gán nhãn, thu kết tập liệu chưa gán nhãn kèm theo nhãn dự đoán chúng Trong tập kết phân lớp 1, chọn mẫu liệu (kèm nhãn dự 11 đoán) có độ tin cậy cao bổ sung vào tập huấn luyện phân lớp ngược lại + Mỗi phân lớp học lại tập liệu huấn luyện (gồm liệu gán nhãn ban đầu liệu gán nhãn bổ sung từ kết phân lớp kia) Quá trình lặp lại tập liệu chưa gán nhãn rỗng số vòng lặp đạt tới ngưỡng xác định trước Thuật toán Co-training: (1) (2) (1) Huấn luyện hai phân lớp: 𝑓 (1) từ (𝑋1 , 𝑌1 ), 𝑓 (2) từ (𝑋1 , 𝑌1 ) (2) Phân lớp mẫu liệu chưa gán nhãn 𝑋𝑐 với 𝑓 (1) 𝑓 (2) tách biệt (𝐶 tập mẫu liệu chưa gán nhãn) (3) Chèn thêm vào 𝑓 (1) k-most-confident (𝑥, 𝑓 (1) (𝑥)) tới liệu gán nhãn 𝑓 (2) (4) Chèn thêm vào 𝑓 (2) k-most-confident (𝑥, 𝑓 (2) (𝑥)) tới liệu gán nhãn 𝑓 (1) (5) Lặp lại trình Thuật toán Co-training viết sau: 𝐷: tập mẫu liệu gán nhãn 𝐶: tập mẫu liệu chưa gán nhãn (1) 𝐶 phân chia thành hai tập 𝐶1 𝐶2 (trường hợp lý tưởng 𝐶1 𝐶2 độc lập nhau) (2) Cho phân lớp ℎ1 học 𝐶1 (hay dùng 𝐶1 huấn luyện phân lớp ℎ1 ) Cho phân lớp ℎ2 học 𝐶2 (hay dùng 𝐶2 huấn luyện phân lớp ℎ2 ) (3) Dùng ℎ1 phân lớp cho 𝐶 thu tập 𝐶1′ kèm nhãn dự đoán chúng Dùng ℎ2 phân lớp cho 𝐶 thu tập 𝐶2′ kèm nhãn dự đoán chúng (4) Từ 𝐶1′ chọn 𝑐1 mẫu liệu kèm theo nhãn nó, có độ tin cậy cao Bổ sung 𝑐1 vào 𝐶2 Khi đó, 𝐶2 + 𝑐1 ⇒ 𝐶2 Từ 𝐶2′ chọn 𝑐2 mẫu liệu kèm theo nhãn nó, có độ tin cậy cao Bổ sung 𝑐2 vào 𝐶1 Khi đó, 𝐶1 + 𝑐2 ⇒ 𝐶1 (5) Dùng 𝐶1 huấn luyện phân lớp ℎ1 (hay ℎ1 học 𝐶1 ) Dùng 𝐶2 huấn luyện phân lớp ℎ2 (hay ℎ2 học 𝐶2 ) (6) Lặp lại từ bước (3) tập 𝐶 rỗng số vòng lặp đạt đến ngưỡng xác định trước 12 2.2.5 Phương pháp dựa đồ thị (Graph-based) Tư tưởng phương pháp học bán giám sát dựa đồ thị xây dựng đồ thị có trọng số dựa tập liệu ban đầu với node mẫu liệu có nhãn mẫu liệu chưa gán nhãn Trọng số cạnh tương ứng với vài mối quan hệ mẫu như: độ tương tự khoảng cách mẫu Từ node có nhãn, node bắt đầu gán nhãn cho node láng giềng, trình lặp kết thúc đạt điều kiện hội tụ Ví dụ Mục đích tìm nhát cắt cực tiểu (𝑣+ , 𝑣− )trên đồ thị Sau đó, gán nhãn dương cho tất mẫu chưa gán nhãn thuộc đồ thị chứa 𝑣+ , gán nhãn âm cho tất mẫu chưa gán nhãn thuộc đồ thị chứa 𝑣− Phương pháp đưa thuật toán có thời gian đa thức để tìm kiếm lời giải tối ưu toàn cục thực 2.3 Ứng dụng Các toán phân cụm dựa mật độ Nhận dạng văn (EM) Phân loại ảnh (EM) Nhận dạng tiếng nói (Baum-Welch) Phân lớp văn (Self-training, Co-training) Phân lớp văn bản, trang Web (SVM) 13 KẾT LUẬN Những việc làm đề tài Qua trình nghiên cứu, đề tài trình bày sở lý thuyết học máy: khái niệm học máy, ứng dụng học máy lĩnh vực, trình học, phương pháp học máy Về phương pháp học bán giám sát, đề tài trình bày khái niệm, nội dung thuật toán tiêu biểu phương pháp học bán giám sát Hướng nghiên cứu thời gian tới Do khả năng, thời gian phạm vi nghiên cứu hạn chế nên đề tài chưa nghiên cứu sâu thuật toán chưa tiến hành thực nghiệm liệu thực tế thời gian tới tìm hiểu kỹ thuật toán phương pháp học bán giám sát với việc thực nghiệm liệu thực tế Như trình bày trên, đề tài không tránh khỏi thiếu sót Rất mong nhận đóng góp từ thầy giáo bạn học viên./ Nhóm tác giả 14 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hồ Thị Ngọc (2012) Nghiên cứu ứng dụng học bán giám sát Luận văn thạc sĩ, Đại học Đà Nẵng, 2012 [2] Nguyễn Nhật Quang (2011) Học máy Đại học Bách Khoa Hà Nội, 2011 Tiếng Anh [3] Chapelle, O., Zien, A., & Sch¨olkopf, B (Eds.), Semi-Supervised Learning MIT Press, 2006 [4] Piyush Rai (2011) Semi-supervised Learning Machine Learning, CS5350/6350, November 8, 2011 [5] Xiaojin Zhu (2008) Semi-supervised Learning Literature Survey Computer Sciences TR 1530, University of Wisconsin – Madison, July 19, 2008 [6] Xiaojin Zhu (2007) Semi-supervised Learning Tutorial Department of Computer Sciences, University of Wisconsin – Madison, 2007 [7] Xiaojin Zhu (2005) Semi-supervised Learning with Graphs PhD thesis, Carnegie Mellon University, CMU-LTI-05-192, May 2005 [8] Zoubin Ghahramani (2012) Graph-based Semi-supervised Learning Department of Engineering, University of Cambridge – UK, 2012 [9] http://en.wikipedia.org/wiki/Semi-supervised_learning 15 ... 1.2.2 Học không giám sát .6 1.2.3 Học bán giám sát 1.2.4 Học tăng cường 1.3 Mục tiêu, nhiệm vụ nghiên cứu đề tài Chương 2: PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT ...ý thuyết học máy: khái niệm học máy, ứng dụng học máy lĩnh vực, trình học, phương pháp học máy Về phương pháp học bán giám sát, đề tài trình bày khái niệm, nội dung thuật toán tiêu biểu phương phá... BÁN GIÁM SÁT 2.1 Giới thiệu 2.1.1 Khái niệm học bán giám sát 2.1.2 Nội dung phương pháp học bán giám sát 2.2 Một số thuật toán tiêu biểu .8 2.2.1 Thuật

Ngày đăng: 13/09/2017, 16:08

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan