đồ án tốt nghiệp semi supervised learning

Semi – Superviesd learning Semi – supervised learning Information Chương I: GIỚI THIỆU VỀ MÁY HỌC ( Machine learning ) I GIỚI THIỆU: 1.1 Định nghĩa ‘học’ 1.2 Khái niệm học máy 1.3 Các tiếp cận học 1.4 Tương tác với người II QUÁ TRÌNH HỌC MÁY 2.1 Q trình trích tri thức từ liệu 2.2 Phân loại học 2.3 Dữ liệu 2.4 Giao thức 2.5 Tiêu chuẩn thành công 2.6 Không gian biểu diễn 2.7 Bản chất thuộc tính 2.8 Tiền xử lý liệu 2.10 Tập mẫu 2.11 Tìm kiếm khơng gian giải thuyết III CÁC LOẠI GIẢI THUẬT TRONG MÁY 3.1 Các loại giải thuật 3.2 Các chủ đề học máy Chương II: HỌC NỬA GIÁM SÁT(Semi-supervised learning ) I TỔNG QUAN 1.1 Giới thiệu học có giám sát (supervised learning) khơng có giám sát (unsupervised learning) a Học có giám sát: b Học khơng có giám sát: 1.2 Khái niệm học nửa giám sát II MỘT SỐ GIẢI THUẬT TRONG HỌC NỬA GIẤM SÁT 2.1 Generative Models 2.1.1 Giới thiệu “Generative Models” 2.1 Generative Models Semi - supervised learning 2.1.3 Ưu điểm nhược điểm giải thuật 2.1.5 Ứng dụng mơ hình 2.2 Semi – superviesd Suport vector machines 2.2.1 Giới thiệu S3VM 2.2.2 Giải thuật S3MV 2.2.3 Kết luận S3VM 2.3 Self-training CHƯƠNG III SELF – TRAINING VÀ BÀI TOÁN NHẬN DẠNG KÝ TỤ TRÊN Semi – Superviesd learning ẢNH I GIẢI THUẬT SELF – TRAINING 1.1 Giới thiệu Self – training 1.2 Giải thuật 1.3 Đánh giá giải thuật II BÀI TOÁN NHẬN DẠNG KÝ TỰ TRÊN ẢNH 2.1 Phân tích tốn 2.2 Hướng giải toán I KẾT QUẢ BAN ĐẦU ĐÃ ĐẠT ĐƯỢC II HƯỚNG PHÁT TRIỂN SEMI – SUPERVISED LEARNING MỤC LỤC Semi – supervised learning Chương I: GIỚI THIỆU VỀ MÁY HỌC ( Machine learning ) I GIỚI THIỆU: 1.1Định nghĩa ‘học’ 1.2 Khái niệm học máy 1.3 Các tiếp cận học 1.4 Tương tác với người II QUÁ TRÌNH HỌC MÁY .8 2.1 Q trình trích tri thức từ liệu 2.2 Phân loại học 2.3 Dữ liệu 2.4 Giao thức 2.5 Tiêu chuẩn thành công 2.6 Không gian biểu diễn 10 2.7 Bản chất thuộc tính .10 Semi – Superviesd learning 2.8 Tiền xử lý liệu .11 2.10 Tập mẫu 11 2.11 Tìm kiếm khơng gian giải thuyết 12 III CÁC LOẠI GIẢI THUẬT TRONG MÁY 12 3.1 Các loại giải thuật 12 3.2 Các chủ đề học máy 13 Chương II: HỌC NỬA GIÁM SÁT 15 (Semi-supervised learning ) .15 I TỔNG QUAN .15 1.1 Giới thiệu học có giám sát (supervised learning) khơng có giám sát (unsupervised learning) 15 a Học có giám sát: 15 b Học khơng có giám sát: 18 1.2 Khái niệm học nửa giám sát 19 II MỘT SỐ GIẢI THUẬT TRONG HỌC NỬA GIẤM SÁT 20 2.1 Generative Models .20 2.1.1 Giới thiệu “Generative Models” 20 2.1 Generative Models Semi - supervised learning .20 2.1.3 Ưu điểm nhược điểm giải thuật 23 2.1.5 Ứng dụng mơ hình 23 2.2 Semi – superviesd Suport vector machines .24 2.2.1 Giới thiệu S3VM 24 2.2.2 Giải thuật S3MV .25 2.2.3 Kết luận S3VM 26 2.3 Self-training .27 CHƯƠNG III SELF – TRAINING VÀ BÀI TOÁN NHẬN DẠNG KÝ TỤ TRÊN ẢNH 28 I GIẢI THUẬT SELF – TRAINING .28 1.1 Giới thiệu Self – training .28 1.2 Giải thuật 28 1.3 Đánh giá giải thuật .29 II BÀI TOÁN NHẬN DẠNG KÝ TỰ TRÊN ẢNH 29 2.1 Phân tích toán .29 2.2 Hướng giải toán 29 I KẾT QUẢ BAN ĐẦU ĐÃ ĐẠT ĐƯỢC .31 II HƯỚNG PHÁT TRIỂN 31 Semi – Superviesd learning NHẬN XÉT CỦA HỘI Chương I: GIỚI THIỆU VỀ MÁY HỌC ( Machine learning ) Semi – Superviesd learning I GIỚI THIỆU: Khi hỏi kỹ thơng minh đồng thời khó tự động hóa người ngồi hoạt động sáng tạo nghệ thuật, hành động định mang Trãi qua nhiều năm, hai lĩnh vực mục tiêu, thách thức khoa học TTNT Tầm quan trọng việc học khơng cần phải tranh cãi, khả học thành tố quan trọng hành vi thông minh Mặc dù tiếp cận hệ chuyên gia phát triển nhiều năm, song số lượng hệ chuyên hạn chế Một nguyên nhân chủ yếu q trình tích lũy tri thức phức tạp, chi phí phát triển hệ chuyên gia cao, chúng khơng có khả học, khả tự thích nghi môi trường thay đổi Các chiến lược giải vấn đề chúng cứng nhắc có nhu cầu thay đổi, việc sửa đổi lượng lớn mã chương trình khó khăn Một giải pháp hiển nhiên chương trình tự học lấy cách giải vấn đề từ kinh nghiệm, từ giống nhau, từ ví dụ hay từ ‘chỉ dẫn’, ‘lời khuyên’, Mặc dù học vấn đề khó, thành cơng số chương trình học máy thuyết phục tồn tập hợp nguyên tắc học tổng qt cho phép xây dựng nên chương trình có khả học nhiều lĩnh vực thực tế 1.1 Định nghĩa ‘học’ Theo Herbert Simon: ‘Học định nghĩa thay đổi hệ thống cho phép tiến hành tốt lần thứ hai lặp Semi – Superviesd learning lại nhiệm vụ với nhiệm vụ khác rút từ quần thể nhiệm vụ đó’ Định nghĩa ngắn đưa nhiều vấn đề liên quan đến việc phát triển chương trình có khả học Học liên quan đến việc khái quát hóa từ kinh nghiệm: hiệu thực chương trình khơng cải thiện với ‘việc lặp lại nhiệm vụ’ mà với nhiệm vụ tương tự Vì lĩnh vực đáng ý thường có khuynh hướng to lớn, nên chương trình học – (learner) khảo sát phần nhỏ tồn ví dụ có thể; từ kinh nghiệm hạn chế này, chương trình học phải khái quát hóa cách đắn ví dụ chưa gặp lĩnh vực Đây tốn quy nạp (induction), trung tâm việc học Trong hầu hết toán học, liệu luyện tập sẵn có thường khơng đủ để đảm bảo đưa khái qt hóa tối ưu, cho dù chương trình học sử dụng giải thuật Vì vậy, giải thuật học phải khái quát hóa theo phương pháp heuristic, nghĩa chúng chọn số khía cạnh mà theo kinh nghiệm cho hiệu tương lai để khái quát Các tiêu chuẩn lựa chọn gọi thiên lệch quy nạp (inductive bias) Có nhiều nhiệm vụ học (learning task) khác Nhiệm vụ chương trình học học khái quát (generalization) từ tập hợp ví dụ Học khái niệm (concept learning) toán học quy nạp tiêu biểu: cho trước số ví dụ khái niệm, phải suy định nghĩa cho phép người dùng nhận biết cách đắn thể khái niệm tương lai Một số khái niệm:  Học thuộc lòng  Học tăng cường Semi – Superviesd learning  Học khái niệm  Giải vấn đề  Khái quát hoávà đặc biệt hoá  Bias:  Cố định họ khái niệm  Tìm kiếm họkhái niệm giải thích tốt dữliệu  Lựa chọn BIAS thoả hiệp 1.2 Khái niệm học máy Học máy (còn gọi Máy học) lĩnh vực trí tuệ nhân tạo liên quan đến việc phát triển kĩ thuật cho phép máy tính "học" Cụ thể hơn, học máy phương pháp để tạo chương trình máy tính việc phân tích tập liệu Học máy có liên quan lớn đến thống kê, hai lĩnh vực nghiên cứu việc phân tích liệu, khác với thống kê, học máy tập trung vào phức tạp giải thuật việc thực thi tính tốn Nhiều toán suy luận xếp vào loại toán NP-khó, phần học máy nghiên cứu phát triển giải thuật suy luận xấp xỉ mà xử lí Học máy có tính ứng dụng cao bao gồm máy truy tìm liệu, chẩn đốn y khoa, phát thẻ tín dụng giả, phân tích thị trường chứng khốn, phân loại chuỗi DNA, nhận dạng tiếng nói chữ viết, chơi trị chơi cử động rơ-bốt (robot locomotion) 1.3 Các tiếp cận học Có ba tiếp cận học: tiếp cận ký hiệu (symbol-based learning), tiếp cận mạng neuron hay kết nối (neural or connectionist networks) tiếp cận trội (emergent) hay di truyền tiến hóa (genetic and evolutionary learning) Semi – Superviesd learning Các chương trình học thuộc tiếp cận dựa ký hiệu biểu diễn vấn đề dạng ký hiệu (symbol), giải thuật học tìm cách suy khái quát mới, hợp lệ, hữu dụng biểu diễn ký hiệu Ngược lại với tiếp cận ký hiệu, tiếp cận kết nối khơng học cách tích lũy câu ngôn ngữ ký hiệu Giống não động vật chứa số lượng lớn tế bào thần kinh liên hệ với nhau, mạng neuron hệ thống gồm neuron nhân tạo liên hệ với Tri thức chương trình ngầm định tổ chức tương tác neuron Tiếp cận thứ ba tiếp cận trội mô cách thức hệ sinh học tiến hóa tự nhiên, nên cịn gọi tiếp cận di truyền tiến hóa 1.4 Tương tác với người Một số hệ thống học máy nỗ lực loại bỏ nhu cầu trực giác người việc phân tích liệu, hệ thống khác hướng đến việc tăng cộng tác người máy Khơng thể loại bỏ hồn tồn tác động người nhà thiết kế hệ thống phải định cách biểu diễn liệu chế dùng để tìm kiếm đặc tính liệu Học máy xem nỗ lực để tự động hóa số phần phương pháp khoa học Một số nhà nghiên cứu học máy tạo phương pháp bên framework thống kê Bayes (Bayesian statistics) II Q TRÌNH HỌC MÁY 2.1 Q trình trích tri thức từ liệu  Làm liệu  Sử dụng phương pháp học để đề nghị mô hình  Hợp thức hố mơ hình đề nghị Semi – Superviesd learning 2.2 Phân loại học  Cơ chế sở: Quy nạp = phương pháp cho phép rút kết luận từ dãy kiện  Học giám sát classification, regression, logistic regression …Dãy "sự kiện" "gán nhãn"  Học không giám sát ( không thầy) : clustering Dãy kiện không "gán nhãn" 2.3 Dữ liệu  Bản chất: số, ký hiệu, pha trộn  Chất lượng: nhiễu, gốc… 2.4 Giao thức  Giám sát / không giám sát  Giới thiệu ví dụ cho học:  Từng vi dụ ( theo cách rút) - incremental  Tất ví dụ đồng thời 2.5 Tiêu chuẩn thành công  Cách ứng xử:  Đo lường tỷ suất lỗi phân lớp  Sự hội tụ  Sự diễn giải:  Giải thích  Tính dễ hiểu Semi – Superviesd learning 2.6 Không gian biểu diễn  Không gian biểu diễn, ký hiệu X, phần tử gọi liệu / thể / cácđối tượng / ví dụ  Mỗi phần tử x thuoc X biểu diễn tập k thuộc tính ( mơ tả / biến ) x = ( x1, x2, …,xk)  Một đối tượng x kết hợp với lớp liên thuộc (nhãn) : z = ( x, c ) 2.7 Bản chất thuộc tính  Số ( giá trị R )  Rời rạc / chất / tên / tử số ( giá trị N )  Nhị phận ( giá trị { 0, } ) 10 Semi – Superviesd learning  Dãy phần tử alphabet Σ  Không gian biểu diễn:  Thuần ( thuộc tính kiểu)  Trộn ( mixte) 2.8 Tiền xử lý liệu  Chọn thuộc tính mơ tả liệu  Chọnthuộctính( feature selection ): Loại bỏ thuộc tính phù hợp việc học Đích làm giảm số chiều  Trích / xây dựng thuộc tính ( feature construction ): giảm số chiều không gian đầu vào phép biến đổi ( tuyến tính khơng) thuộc tính khởi đầu Đích giảm số chiều vấn đề xây dựng biến tổng hợp ( kể đén tương tác)  Xử lý nhiễu: Lỗi thuộc tính mơ tả nhãn–phát bất thường bàng visualization, sử dụng chuyên gia Thay liệu thiếu 2.9 Rời rạc hoá liệu liên tục - Một số thuật tốn học khơng có khả xử lý trực tiếp thuộc tính liên tục Cần thiết biến đổi thuộc tính liên tục thành thuộc tính giá trị rời rạc - Một số phương pháp giả thiết liệu tuân theo luật phân phối ( Gauss , đều…) → Rời rạc thành khoảng phân phối tương ứng với phân phối - Một số phương pháp rời rạc hố khác: phân đoạn, đo lường entropy, … 2.10 Tập mẫu Tập mẫu = tập hữu hạn ví dụ kiểu tập mẫu: Tập mẫu học / tập học •Tập mẫu hợp thức hoá / tập hợp thức -Tập mẫu thử / tập thử 11 Semi – Superviesd learning 2.11 Tìm kiếm khơng gian giải thuyết -Mỗi khơng gian giả thiết H lựa chọn, học trở thành tìm kiếm giả thiết tốt H -Nếu có đánh giá giả thiết hàm "giá", xét học vấn đề tối ưu hố: Tìm phần tử H làm u hàm "giá" • Tối ưu khơng ràng buộc & Tối ưu với ràng buộc Hàm tối ưu thường dùng hàm "lỗi" - Các phương pháp tối ưu hoá: Gradient, Nhân tử Lagrange, Annealing III CÁC LOẠI GIẢI THUẬT TRONG MÁY 3.1 Các loại giải thuật Các thuật toán học máy phân loại theo kết mong muốn thuật toán Các loại thuật toán thường dùng bao gồm: • Học có giám sát (supervised learning) đó, thuật tốn tạo hàm ánh xạ liệu vào tới kết mong muốn Một phát biểu chuẩn việc học có giám sát tốn phân loại: chương trình cần học (cách xấp xỉ biểu của) hàm ánh xạ vector tới vài lớp (class) cách xem xét số ví dụ mẫu dữ_liệu- kết_quả hàm • Học khơng giám sát (unsupervised learning) mơ hình hóa tập liệu, khơng có sẵn ví dụ gắn nhãn • Học nửa giám sát (semi-supervised learning) kết hợp ví dụ có gắn nhãn khơng gắn nhãn để sinh hàm phân loại thích hợp • Học tăng cường (reinforcement learning) đó, thuật tốn học sách hành động tùy theo quan sát giới Mỗi hành 12 Semi – Superviesd learning động có tác động tới mơi trường, môi trường cung cấp thông tin phản hồi, thơng tin hướng dẫn thuật tốn học • transduction tương tự học có giám sát khơng xây dựng hàm Thay vào đó, cố gắng đốn kết dựa vào liệu huấn luyện, kết huấn luyện, liệu • Học cách học (learning to learn) thuật tốn học thiên kiến quy nạp (inductive bias) mình, dựa theo kinh nghiệm gặp Phân tích hiệu thuật toán học máy nhánh ngành thống kê, biết với tên lý thuyết học tính toán (computational learning theory) 3.2 Các chủ đề học máy • Mơ hình hóa hàm mật độ xác suất điều kiện (conditional probability density functions): hồi quy phân loại • o Mạng nơ-ron o Cây định o Gene expression programming o Lập trình di truyền o Gaussian process regression o Linear discriminant analysis o k láng giềng gần o Minimum message length o Perceptron o Radial basis function o Support vector machine Tải FULL (file word 31 trang): bit.ly/2Ywib4t Dự phịng: fb.com/KhoTaiLieuAZ Mơ hình hóa hàm mật độ xác suất qua generative model: 13 Semi – Superviesd learning o Thuật toán cực đại kì vọng (expectation-maximization algorithm) o Các mơ hình đồ họa gồm mạng Bayes mạng Markov (Markov random field) o • Generative Topographic Mapping Các kỹ thuật suy diễn xấp xỉ (appromixate inference techniques): • o Chuỗi Markov phương pháp Monte Carlo o Variational method Tối ưu hóa: hầu hết phương pháp sử dụng tối ưu hóa thể thuật tốn tối ưu hóa Tải FULL (file word 31 trang): bit.ly/2Ywib4t Dự phòng: fb.com/KhoTaiLieuAZ 14 Semi – Superviesd learning Chương II: HỌC NỬA GIÁM SÁT (Semi-supervised learning ) I TỔNG QUAN 1.1 Giới thiệu học có giám sát (supervised learning) khơng có giám sát (unsupervised learning) a Học có giám sát: Học có giám sát kĩ thuật ngành học máy để xây dựng hàm (function) từ liệu huấn luyện Dữ liệu huấn luyện bao gồm cặp gồm đối tượng đầu vào (thường dạng vec-tơ), đầu mong muốn Đầu hàm giá trị liên tục (gọi hồi qui), dự đoán nhãn phân loại cho đối tượng đầu vào (gọi phân loại) Nhiệm vụ chương trình học có giám sát dự đốn giá trị hàm cho đối tượng đầu vào hợp lệ, sau xem xét số ví dụ huấn luyện (nghĩa là, cặp đầu vào đầu tương ứng) Để đạt điều này, chương trình học phải tổng qt hóa từ liệu sẵn có để dự đốn tình chưa gặp phải theo cách "hợp lí" Học có giám sát tạo loại mơ hình Phổ biến nhất, học có giám sát tạo mơ hình tồn cục (global model) để ánh xạ đối tượng đầu vào đến đầu mong muốn Tuy nhiên, số trường hợp, việc ánh xạ thực dạng tập mơ hình cục (như phương pháp lập luận theo tình (case-based reasoning) hay giải thuật láng giềng gần 2239652 nhất) 15 ... fb.com/KhoTaiLieuAZ 14 Semi – Superviesd learning Chương II: HỌC NỬA GIÁM SÁT (Semi- supervised learning ) I TỔNG QUAN 1.1 Giới thiệu học có giám sát (supervised learning) khơng có giám sát (unsupervised learning) ... giải toán I KẾT QUẢ BAN ĐẦU ĐÃ ĐẠT ĐƯỢC II HƯỚNG PHÁT TRIỂN SEMI – SUPERVISED LEARNING MỤC LỤC Semi – supervised learning Chương I: GIỚI THIỆU VỀ MÁY HỌC ( Machine learning. .. SÁT 15 (Semi- supervised learning ) .15 I TỔNG QUAN .15 1.1 Giới thiệu học có giám sát (supervised learning) khơng có giám sát (unsupervised learning)