Semi - Supervised learning
Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT 1 MỤC LỤC NHẬN XÉT CỦA HỘI ĐỒNG 3 Chương I: GIỚI THIỆU VỀ MÁY HỌC . 4 ( Machine learning ) 4 I GIỚI THIỆU: 4 1.1 Định nghĩa ‘học’ . 5 1.2. Khái niệm về học máy . 6 1.3 Các tiếp cận học 7 1.4 Tương tác với con người . 7 II. Q TRÌNH HỌC MÁY 8 2.1 Q trình trích tri thức từ dữ liệu 8 2.2 Phân loại học . 8 2.3 Dữ liệu 8 2.4 Giao thức . 8 2.5 Tiêu chuẩn thành cơng 8 2.6 Khơng gian biểu diễn 9 2.7 Bản chất của các thuộc tính 10 2.8 Tiền xử lý dữ liệu 10 2.10 Tập mẫu . 11 2.11 Tìm kiếm trong khơng gian giải thuyết . 11 III. CÁC LOẠI GIẢI THUẬT TRONG MÁY . 11 3.1 Các loại giải thuật. 11 3.2 Các chủ đề về học máy . 12 Chương II: HỌC NỬA GIÁM SÁT . 14 (Semi-supervised learning ) 14 I. TỔNG QUAN 14 1.1 Giới thiệu về học có giám sát (supervised learning) và khơng có giám sát (unsupervised learning) 14 a. Học có giám sát: . 14 b. Học khơng có giám sát: 17 1.2 Khái niệm về học nửa giám sát . 18 II. MỘT SỐ GIẢI THUẬT TRONG HỌC NỬA GIẤM SÁT . 19 2.1 Generative Models 19 2.1.1 Giới thiệu về “Generative Models” . 19 2.1. Generative Models trong Semi - supervised learning 19 2.1.3 Ưu điểm và nhược điểm của giải thuật 22 2.1.5 Ứng dụng của mơ hình . 22 2.2 Semi – superviesd Suport vector machines 23 2.2.1 Giới thiệu về S3VM 23 2.2.2 Giải thuật S3MV 24 2.2.3 Kết luận về S3VM . 25 2.3 Self-training 26 CHƯƠNG III. SELF – TRAINING VÀ BÀI TỐN NHẬN DẠNG KÝ TỤ TRÊN ẢNH 27 I. GIẢI THUẬT SELF – TRAINING . 27 THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT 2 1.1 Giới thiệu về Self – training 27 1.2 Giải thuật . 27 1.3 Đánh giá giải thuật 28 II. BÀI TỐN NHẬN DẠNG KÝ TỰ TRÊN ẢNH . 28 2.1 Phân tích bài tốn . 28 2.2 Hướng giải quyết bài tốn. . 28 I. KẾT QUẢ BAN ĐẦU ĐÃ ĐẠT ĐƯỢC 30 II. HƯỚNG PHÁT TRIỂN . 30 THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT 3 NHẬN XÉT CỦA HỘI ĐỒNG ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT 4 Chương I: GIỚI THIỆU VỀ MÁY HỌC ( Machine learning ) I GIỚI THIỆU: Khi được hỏi về những kỹ năng thơng minh nào là cơ bản nhất đồng thời khó tự động hóa nhất của con người ngồi các hoạt động sáng tạo nghệ thuật, hành động ra quyết định mang Trãi qua nhiều năm, hai lĩnh vực này vẫn là mục tiêu, thách thức của khoa học TTNT. Tầm quan trọng của việc học thì khơng cần phải tranh cãi, vì khả năng học chính là một trong những thành tố quan trọng của hành vi thơng minh. Mặc dù tiếp cận hệ chun gia đã phát triển được nhiều năm, song số lượng các hệ chun vẫn còn hạn chế. Một trong những ngun nhân chủ yếu là do q trình tích lũy tri thức phức tạp, chi phí phát triển các hệ chun gia rất cao, nhưng chúng khơng có khả năng học, khả năng tự thích nghi khi mơi trường thay đổi. Các chiến lược giải quyết vấn đề của chúng cứng nhắc và khi có nhu cầu thay đổi, thì việc sửa đổi một lượng lớn mã chương trình là rất khó khăn. Một giải pháp hiển nhiên là các chương trình tự học lấy cách giải quyết vấn đề từ kinh nghiệm, từ sự giống nhau, từ các ví dụ hay từ những ‘chỉ dẫn’, ‘lời khun’, . Mặc dù học vẫn còn là một vấn đề khó, nhưng sự thành cơng của một số chương trình học máy thuyết phục rằng có thể tồn tại một tập hợp các ngun tắc học tổng qt cho phép xây dựng nên các chương trình có khả năng học trong nhiều lĩnh vực thực tế. THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT 5 1.1 Định nghĩa ‘học’ Theo Herbert Simon: ‘Học được định nghĩa như là bất cứ sự thay đổi nào trong một hệ thống cho phép nó tiến hành tốt hơn trong lần thứ hai khi lặp lại cùng một nhiệm vụ hoặc với một nhiệm vụ khác rút ra từ cùng một quần thể các nhiệm vụ đó’ Định nghĩa này mặc dù ngắn nhưng đưa ra nhiều vấn đề liên quan đến việc phát triển một chương trình có khả năng học. Học liên quan đến việc khái qt hóa từ kinh nghiệm: hiệu quả thực hiện của chương trình khơng chỉ cải thiện với ‘việc lặp lại cùng một nhiệm vụ’ mà còn với các nhiệm vụ tương tự. Vì những lĩnh vực đáng chú ý thường có khuynh hướng là to lớn, nên các chương trình học – (learner) chỉ có thể khảo sát một phần nhỏ trong tồn bộ các ví dụ có thể; từ kinh nghiệm hạn chế này, chương trình học vẫn phải khái qt hóa được một cách đúng đắn những ví dụ chưa từng gặp trong lĩnh vực đó. Đây chính là bài tốn quy nạp (induction), và nó chính là trung tâm của việc học. Trong hầu hết các bài tốn học, dữ liệu luyện tập sẵn có thường khơng đủ để đảm bảo đưa ra được một khái qt hóa tối ưu, cho dù chương trình học sử dụng giải thuật nào. Vì vậy, các giải thuật học phải khái qt hóa theo phương pháp heuristic, nghĩa là chúng sẽ chọn một số khía cạnh nào đó mà theo kinh nghiệm là cho hiệu quả trong tương lai để khái qt. Các tiêu chuẩn lựa chọn này gọi là thiên lệch quy nạp (inductive bias). Có nhiều nhiệm vụ học (learning task) khác nhau. Nhiệm vụ của chương trình học là học một khái qt (generalization) từ một tập hợp các ví dụ. Học khái niệm (concept learning) là một bài tốn học quy nạp tiêu biểu: cho trước một số ví dụ của khái niệm, chúng ta phải suy ra một định nghĩa cho THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT 6 phép người dùng nhận biết một cách đúng đắn những thể hiện của khái niệm đó trong tương lai. Một số khái niệm: Học thuộc lòng Học tăng cường Học khái niệm Giải quyết vấn đề Khái qt hốvà đặc biệt hố Bias: Cố định một họ khái niệm Tìm kiếm trong họkhái niệm giải thích tốt nhất dữliệu Lựa chọn BIAS là một sự thoả hiệp 1.2. Khái niệm về học máy Học máy (còn gọi là Máy học) là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc phát triển các kĩ thuật cho phép các máy tính có thể "học". Cụ thể hơn, học máy là một phương pháp để tạo ra các chương trình máy tính bằng việc phân tích các tập dữ liệu. Học máy có liên quan lớn đến thống kê, vì cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính tốn. Nhiều bài tốn suy luận được xếp vào loại bài tốn NP-khó, vì thế một phần của học máy là nghiên cứu sự phát triển các giải thuật suy luận xấp xỉ mà có thể xử lí được. Học máy có tính ứng dụng rất cao bao gồm máy truy tìm dữ liệu, chẩn đốn y khoa, phát hiện thẻ tín dụng giả, phân tích thị trường chứng khốn, phân THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT 7 loại các chuỗi DNA, nhận dạng tiếng nói và chữ viết, chơi trò chơi và cử động rơ-bốt (robot locomotion). 1.3 Các tiếp cận học Có ba tiếp cận học: tiếp cận ký hiệu (symbol-based learning), tiếp cận mạng neuron hay kết nối (neural or connectionist networks) và tiếp cận nổi trội (emergent) hay di truyền và tiến hóa (genetic and evolutionary learning). Các chương trình học thuộc tiếp cận dựa trên ký hiệu biểu diễn vấn đề dưới dạng các ký hiệu (symbol), các giải thuật học sẽ tìm cách suy ra các khái qt mới, hợp lệ, hữu dụng và được biểu diễn bằng các ký hiệu này. Ngược lại với tiếp cận ký hiệu, tiếp cận kết nối khơng học bằng cách tích lũy các câu trong một ngơn ngữ ký hiệu. Giống như bộ não động vật chứa một số lượng lớn các tế bào thần kinh liên hệ với nhau, mạng neuron là những hệ thống gồm các neuron nhân tạo liên hệ với nhau. Tri thức của chương trình là ngầm định trong tổ chức và tương tác của các neuron này. Tiếp cận thứ ba là tiếp cận nổi trội mơ phỏng cách thức các hệ sinh học tiến hóa trong tự nhiên, nên còn được gọi là tiếp cận di truyền và tiến hóa. 1.4 Tương tác với con người Một số hệ thống học máy nỗ lực loại bỏ nhu cầu trực giác của con người trong việc phân tích dữ liệu, trong khi các hệ thống khác hướng đến việc tăng sự cộng tác giữa người và máy. Khơng thể loại bỏ hồn tồn tác động của con người vì các nhà thiết kế hệ thống phải chỉ định cách biểu diễn của dữ liệu và những cơ chế nào sẽ được dùng để tìm kiếm các đặc tính của dữ liệu. Học máy có thể được xem là một nỗ lực để tự động hóa một số phần của phương pháp khoa học. Một số nhà nghiên cứu học máy tạo ra các THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT 8 phương pháp bên trong các framework của thống kê Bayes (Bayesian statistics). II. Q TRÌNH HỌC MÁY 2.1 Q trình trích tri thức từ dữ liệu Làm sạch dữ liệu Sử dụng một phương pháp học để đề nghị mơ hình Hợp thức hố mơ hình được đề nghị 2.2 Phân loại học Cơ chế cơ sở: Quy nạp = phương pháp cho phép rút ra các kết luận từ một dãy các sự kiện. Học giám sát classification, regression, logistic regression …Dãy "sự kiện" được "gán nhãn" Học khơng giám sát ( khơng thầy) : clustering. Dãy sự kiện khơng được "gán nhãn". 2.3 Dữ liệu Bản chất: số, ký hiệu, pha trộn Chất lượng: nhiễu, gốc… 2.4 Giao thức Giám sát / khơng giám sát Giới thiệu các ví dụ cho học: Từng vi dụ một ( theo một cách rút) - incremental Tất cả các ví dụ đồng thời 2.5 Tiêu chuẩn thành cơng Cách ứng xử: THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT 9 Đo lường tỷ suất lỗi của sự phân lớp Sự hội tụ Sự diễn giải: Giải thích Tính dễ hiểu 2.6 Khơng gian biểu diễn Khơng gian biểu diễn, ký hiệu X, các phần tử của nó được gọi là các dữ liệu / các thể hiện / cácđối tượng / các ví dụ. Mỗi phần tử x thuoc X được biểu diễn bởi một tập k thuộc tính ( bộ mơ tả / biến ) x = ( x1, x2, …,xk) Một đối tượng x cũng có thể được kết hợp với lớp liên thuộc của nó (nhãn) : z = ( x, c ) THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT 10 2.7 Bản chất của các thuộc tính Số ( giá trị trong R ) Rời rạc / chất / tên / tử số ( giá trị trong N ) Nhị phận ( giá trị trong { 0, 1 } ) Dãy các phần tử trong một alphabet Σ Khơng gian biểu diễn: Thuần nhất ( thuộc tính cùng kiểu) Trộn ( mixte) 2.8 Tiền xử lý dữ liệu Chọn thuộc tính mơ tả dữ liệu Chọnthuộctính( feature selection ): Loại bỏ các thuộc tính ít phù hợp đối với việc học. Đích là làm giảm số chiều. Trích / xây dựng thuộc tính ( feature construction ): giảm số chiều khơng gian đầu vào bằng các phép biến đổi ( tuyến tính hoặc khơng) các thuộc tính khởi đầu. Đích là giảm số chiều của vấn đề và xây dựng biến tổng hợp ( kể đén các tương tác). Xử lý nhiễu: Lỗi thuộc tính mơ tả hoặc nhãn–phát hiện bất thường bàng visualization, sử dụng chun gia. Thay thế các dữ liệu thiếu. 2 .9 Rời rạc hố dữ liệu liên tục - Một số thuật tốn học khơng có khả năng xử lý trực tiếp các thuộc tính liên tục. Cần thiết biến đổi các thuộc tính liên tục thành thuộc tính giá trị rời rạc - Một số phương pháp giả thiết dữ liệu tn theo một luật phân phối ( Gauss , đều…) → Rời rạc thành các khoảng phân phối tương ứng với các phân phối đó. - Một số phương pháp rời rạc hố khác: phân đoạn, đo lường entropy, … THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN [...]... tối ưu hóa hoặc là các thể hiện của các thuật tốn tối ưu hóa 13 THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT Chương II: HỌC NỬA GIÁM SÁT (Semi- supervised learning ) I TỔNG QUAN 1.1 Giới thiệu về học có giám sát (supervised learning) và khơng có giám sát (unsupervised learning) a Học có giám sát: Học có giám sát là một kĩ thuật của ngành học máy để xây dựng một... vector tới một vài lớp (class) bằng cách xem xét một số ví dụ mẫu dữ_liệu- kết_quả của hàm đó • Học khơng giám sát (unsupervised learning) mơ hình hóa một tập dữ liệu, khơng có sẵn các ví dụ đã được gắn nhãn 11 THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Semi – Superviesd learning • Nguyễn Ngọc Tùng – K54B - CNTT Học nửa giám sát (semi- supervised learning) kết hợp các ví dụ có gắn nhãn và khơng gắn nhãn để sinh một... self – training (semi – superviesd learning) , xây dưng mơ hình bằng mạng nơron 28 THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT 29 THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT CHƯƠNG IV MỘT SỐ KẾT QUẢ ĐẠT ĐƯỢC VÀ HƯỚNG PHÁT TRIỂN I KẾT QUẢ BAN ĐẦU ĐÃ ĐẠT ĐƯỢC Tìm hiêu được bản chất của giải thuật semi - superviesd, các... đoạn và cung cấp một kiến trúc mơ hình đa dạng, phong phú 2.1 Generative Models trong Semi - supervised learning Generative Models thường được biết đến với việc giải quyết các bài tốn nhận dạng ảnh, nhận dạng văn bản, nhận dạng tiếng nói 19 THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT a Mơ tả Generative Models Chúng ta giả thiết rằng, có một tập hợp dữ liệu đã...THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT 2.10 Tập mẫu Tập mẫu = tập hữu hạn các ví dụ 3 kiểu tập mẫu: Tập mẫu học / tập học •Tập mẫu hợp thức hố / tập hợp thức -Tập mẫu thử / tập thử 2.11 Tìm kiếm trong khơng gian giải thuyết -Mỗi khi khơng gian giả thiết H đã được lựa chọn, học trở thành tìm kiếm giả thiết tốt nhất trong H -Nếu có một sự đánh giá mỗi giả... chế: Độ phức tạp cao, giải quyết bài tốn tối ưu khó 2.3 Self-training 26 THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT CHƯƠNG III SELF – TRAINING VÀ BÀI TỐN NHẬN DẠNG KÝ TỤ TRÊN ẢNH I GIẢI THUẬT SELF – TRAINING 1.1 Giới thiệu về Self – training Self – training là giải thuật trong semi – superviesd learning 1.2 Giải thuật Giả thiết có một tập dữ liệu đã được... được gắn nhãn Nhằm tìm ra mơt kết quả như mong muốn 18 THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT II MỘT SỐ GIẢI THUẬT TRONG HỌC NỬA GIẤM SÁT 2.1 Generative Models 2.1.1 Giới thiệu về “Generative Models” “Generative Models” là phương pháp cố điển nhất trong semi - supervied learning Cũng như nhiều kiểu hệ thống làm mơ hình, sinh sản những mơ hình là những... có thể được điều chỉnh bằng cách tối ưu hóa hiệu năng trên một tập con (gọi là tập kiểm chứng -validation set) của tập huấn luyện, hay thơng qua kiểm chứng chéo (cross-validation) Sau khi học và điều chỉnh tham số, hiệu năng 15 THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT của giải thuật có thể được đo đạc trên một tập kiểm tra độc lập với tập huấn luyện Mục... từ tập Xi Bước 3: Bổ sung vào tập huấn luyện ban đầu (x, f(x)) Bước 4: Lặp lại q trình từ bước 1 27 THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT 1.3 Đánh giá giải thuật Ưu điểm: Là phương pháp đơn giản nhất trong semi – superviesd learning Thường sử dụng trong những nhiệm vụ thực sự như xử lý ngơn ngữ tự nhiên Giải thuật dể hiểu, dễ học Hạn chế của giải thuật:... Gauss Sẽ có một mơ hình sao cho phù hợp với tập dữ liệu này nhất? để có thể phân lớp tất các các dữ liệu được đưa vào: 20 THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT b Giải thuật Expectation-Maximization (EM) : - Giới thiệu về EM: Giải thuật EM nhằm giải quyết vấn đề tìm mơ hình phân bố dữ liệu hợp lý nhất Là một phương pháp để tìm ra sự tối ưu của việc phân