Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 19 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
19
Dung lượng
483,98 KB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC ——————–o0o——————– HỆ HỖ TRỢ QUYẾT ĐỊNH ĐẠI CƯƠNG VỀ HỌC BÁN GIÁM SÁT Giảng viên hướng dẫn: TS Lê Chí Ngọc Nhóm thực hiên: 12 Nguyễn Thị Dinh 20160624 Hà Thị Hảo 20161337 Phạm Thị Thơm 20163918 Đồng Thị Thùy Linh 20162387 HÀ NỘI, 4/2020 HỆ HỖ TRỢ QUYẾT ĐỊNH ĐẠI CƯƠNG VỀ HỌC BÁN GIÁM SÁT Giảng viên hướng dẫn: TS Lê Chí Ngọc Nhóm thực hiên: 12 Nguyễn Thị Dinh 20160624 Hà Thị Hảo 20161337 Phạm Thị Thơm 20163918 Đồng Thị Thùy Linh 20162387 HÀ NỘI, 4/2020 Mục lục Đại cương học bán giám sát 1.1 1.2 1.3 Máy học gì? 1.1.1 Khái niệm máy học 1.1.2 Chương trình máy học 1.1.3 Ứng dụng Các tác vụ máy học 1.2.1 Học không giám sát 1.2.2 Học có giám sát Học bán giám sát gì? 1.3.1 Khái niệm 1.3.2 Học quy nạp học truyền tải 11 Chương Đại cương học bán giám sát 1.1 Máy học gì? 1.1.1 Khái niệm máy học Định nghĩa Arthur Samuel (1959): “Máy học ngành khoa học cung cấp cho máy tính có khả học mà khơng cần chương trình cài đặt trước” Ngồi ra, Tom Mitchell (1998) định nghĩa: “Máy học máy tính học từ q khứ” Tóm lại, máy học (Machine Learning) lĩnh vực thuộc Trí tuệ nhân tạo nhằm nghiên cứu hệ thống, giải thuật mà học từ liệu tổng hợp tri thức từ chúng Máy học cung cấp cho máy tính khả liên quan đến việc phát triển kĩ thuật cho phép máy tính “học” Cụ thể hơn, máy học phương pháp để tạo chương trình máy tính việc phân tích tập liệu Có hai loại phương pháp máy học chính: • Phương pháp quy nạp: Máy học/phân biệt khái niệm dựa liệu thu thập trước Phương pháp cho phép tận dụng nguồn liệu nhiều sẵn có • Phương pháp suy diễn: Máy học/phân biệt khái niệm dựa vào luật Phương pháp cho phép tận dụng kiến thức chuyên ngành để hỗ trợ máy tính 4 Hiện nay, thuật toán cố gắng tận dụng ưu điểm hai phương pháp 1.1.2 Chương trình máy học • Xây dựng mơ hình: Từ tập liệu khứ (dữ liệu huấn luyện) qua q trình học (sử dụng thuật tốn) ta xây dựng mơ hình M (hàm mục tiêu h) • Sử dụng mơ hình: Từ liệu sau áp dụng hàm mục tiêu ta thu kết (phân lớp, dự đoán, phân cụm ) • Kiểm thử mơ hình: Kiểm tra lại kết 1.1.3 Ứng dụng Máy học có tính ứng dụng rộng nhiều lĩnh vực đời sống xã hội ngành khoa học – sản xuất, đặc biệt ngành cần phân tích khối lượng liệu khổng lồ, số liệu thường thấy là: • Xử lý ngơn ngữ tự nhiên (Natural Language Processing): Xử lý văn bản, giao tiếp người – máy • Nhận dạng (Pattern Recognition): Nhận dạng tiếng nói, chữ viết tay, vân tay, thị giác máy • Chuẩn đốn y tế: phân tích ảnh X–quang, hệ chun gia chẩn đốn tự động • Tin sinh học: phân loại chuỗi gene, trình hình thành gene/ protein • Vật lý: Phân tích ảnh thiên văn, tác động hạt • Tìm kiếm (Search Engine) • Phát gian lận tài (financial fraud): Gian lận thẻ tín dụng • Phân tích thị trường chứng khốn (stock market analysis) • Chơi trị chơi: Tự động chơi cờ, hành động nhân vật ảo • Robot tổng hợp nhiều ngành khoa học, máy học tạo nên hệ thần kinh - não người máy 1.2 Các tác vụ máy học Trong lĩnh vực máy học có tác vụ sau: • Học có giám sát (supervised learning) • Học không giám sát (unsupervised learning) • Học bán giám sát (semi-supervised learning) • Học tăng cường (reinforcement learning) 1.2.1 Học không giám sát Dữ liệu huấn luyện trường hợp học không giám sát không chứa thông tin giám sát Ở D = {xi }ni=1 = {x1 , x2 , , xn } Giả định xi lấy mẫu độc lập với phân phối P (x), x ∈ X Vì vậy, mẫu độc lập phân phối giống hệt Lưu ý phân phối P (x) không tiết lộ cho thuật tốn học Ví dụ vấn đề học không giám sát bao gồm: phân cụm, giảm kích thước, ước tính mật độ Mục tiêu phân cụm nhóm (cụm) trường hợp tương tự D, giảm kích thước nhằm mục đích đại diện cho mẫu với vectơ đặc trưng chiều thấp với thơng tin tốt Ước tính mật độ vấn đề ước tính tham số phân phối tạo D Định nghĩa 1.2.1 Học không giám sát (Unsupervised Learning): Là cách huấn luyện mơ hình liệu học bao gồm đầu vào mà khơng có đầu Mơ hình huấn luyện cách để tìm cấu trúc mối quan hệ đầu vào Một phương pháp học không giám sát quan trọng phân cụm (clustering): Tạo cụm khác với cụm biểu diễn đặc trưng liệu phân đầu vào vào cụm theo đặc trưng đầu vào Các phương pháp học khơng giám sát khác kể đến như: phát điểm bất thường (anomaly detection), Singular-value decomposition, Ứng dụng học không giám sát Trong sống hàng ngày, UL ứng dụng nhiều ngành nghề marketing hay sales, dịch vụ dịch vụ tài chính, tổ chức phủ hoạt động an ninh cộng đồng hay tiện ích xã hội, chăm sóc sức khỏe, ngành cơng nghiệp dầu khí vận tải Trong công nghệ thông tin, cụ thể lĩnh vực Machine Learning (Học Máy), UL thường ứng dụng để chia hay phân loại nhóm kết hợp, đó: • Phân nhóm hay chia nhóm máy phân tích, tìm hiểu khám phá nhóm vốn có bên liệu, từ giúp bạn phân nhóm khách hàng theo hành vi mua hàng hay phân loại viết, hình ảnh có nội dung chẳng hạn • Kết hợp: vận dụng máy khám phá quy tắc mô tả liệu, ví dụ người mua hàng có xu hướng mua hàng tương ứng có liên quan Ứng dụng phổ biến UL mà ta thấy thuật tốn Clustering (phân cụm) Đây thuật toán sử dụng doanh nghiệp muốn tập trung tìm hiểu khách hàng hành vi họ, như: họ ai, họ có xu hướng sử dụng loại phương tiện nào? Trong tập người dùng chẳng hạn, bạn ln có nhóm người dùng khác chia theo tiêu chuẩn khác từ đơn giản giới tính hay độ tuổi phức tạp địa vị hay mức thu nhập Thuật toán Clustering phân tích tìm đặc trưng liệu đưa vào thành cụm khác theo đặc trưng tìm được, sau đó, phân chia cụm đầu vào (input) vào cụm có sẵn theo loại đặc trưng đầu vào Thuật tốn có loại điển hình: • K-Means Clustering: Phân nhóm liệu vào số K cụm với quy luật định • Hierarchical Clustering: Phân loại theo thứ bậc • Probabilistic Clustering: Phân loại theo xác suất 1.2.2 Học có giám sát Định nghĩa 1.2.2 (Định nghĩa nhãn) Một nhãn (lable) y dự đoán mong muốn trường hợp x Các nhãn từ liệu hữu hạn (ví dụ: nam, nữ) Những giá trị riêng biệt gọi lớp Các lớp thường mã hóa thành số nguyên, ví dụ: nam = 1, n = −1 Khi đó, y ∈ {1; −1} Trong học có giám sát, liệu mẫu gồm có cặp, cặp bao gồm trường hợp x nhãn y : {(xi , yi )ni=1 } Định nghĩa 1.2.3 Học có giám sát (Supervised learning) thuật tốn dự đốn đầu (outcome) liệu (new input) dựa cặp (input, outcome) biết từ trước Cặp liệu gọi (data, label), tức (dữ liệu, nhãn) Supervised learning nhóm phổ biến thuật toán Machine Learning 8 Một cách tốn học, học có giám sát có tập hợp biến đầu vào X = {x1 , x2 , , xN } tập hợp nhãn tương ứng Y = {y1 , y2 , , yn } xi , yi vector Các tập liệu biết trước (xi , yi ) ∈ X × Y gọi tập liệu huấn luyện (training data) Từ tập liệu huấn luyện này, cần tạo hàm số ánh xạ phần tử từ tập X sang phần tử (xấp xỉ) tương ứng tập Y yi ≈ f (xi ), ∀i = 1, 2, , N Mục đích xấp xỉ hàm số f thật tốt để có liệu x mới, tính nhãn tương ứng y = f (x) Ví dụ 1.2.4 Trong nhận dạng chữ viết tay, ta có ảnh hàng nghìn ví dụ chữ số viết nhiều người khác Chúng ta đưa ảnh vào thuật tốn cho biết ảnh tương ứng với chữ số Sau thuật toán tạo mơ hình, tức hàm số mà đầu vào ảnh đầu chữ số, nhận ảnh mà mơ hình chưa nhìn thấy bao giờ, dự đốn ảnh chứa chữ số Ví dụ 1.2.5 Thuật tốn dị khn mặt ảnh phát triển từ lâu Thời gian đầu, facebook sử dụng thuật toán để khuôn mặt ảnh yêu cầu người dùng tag friends - tức gán nhãn cho khuôn mặt Số lượng cặp liệu (khuôn mặt, tên người) lớn, độ xác lần tự động tag lớn Dựa vào miền nhãn Y , học có giám sát cịn đươc chia thành hai loại chính: Phân loại (Classification) Một toán gọi phân loại nhãn liệu đầu vào chia thành số hữu hạn nhóm Ví dụ: Gmail xác định xem email có phải spam hay khơng; hãng tín dụng xác định xem khách hàng có khả tốn nợ hay khơng Hai ví dụ phía chia vào loại Do vậy, phân loại thuật tốn học có giám sát với lớp Y rời rạc Hàm f gọi hàm phân lớp 9 Hồi quy (Regression) Nếu nhãn liệu đầu vào khơng chia thành nhóm mà giá trị thực cụ thể Ví dụ: nhà rộng x m2 , có y phịng ngủ cách trung tâm thành phố z km có giá bao nhiêu? Do vậy, hồi quy thuật toán học có giám sát với lớp Y liên tục Khi đó, hàm f gọi mơt hàm hồi quy 1.3 Học bán giám sát gì? 1.3.1 Khái niệm Học bán giám sát (SSL) nằm học có giám sát khơng giám sát Nó kết hợp mặt tích cực học có giám sát khơng giám sát Ở lượng nhỏ tập huấn luyện D dán nhãn phần tương đối lớn liệu huấn luyện không gán nhãn Mục đích học bán giám sát nghiên cứu hàm f : X → Y, f ∈ F cho l tập huấn luyện D = {Dl , Du } với Dl = {(xi , yi )}ni=1 đại diện cho tập liệu u gián nhãn tập huẩn luyện Du = {xi }ni=1 phần khơng gán nhãn Dó đó, có nl số mẫu gán nhãn, nu số mẫu không gán nhãn Ta đặt tổng số mẫu tập huẩn luyện n = nl + nu Trên thực tế nu >> nl Với mẫu gán nhãn (xi , yi ) độc lập với phân phối chung P (x, y), x ∈ X , y ∈ Y mẫu không gắn nhãn lấy từ P (x) = y P (x, y) Dữ liệu chưa gán nhãn có tác dụng gì? Mục tiêu thuật tốn SSL tìm hiểu ánh xạ f : X → Y Tuy nhiên liệu chưa gắn nhãn không chứa thơng tin ánh xạ Nói chung, thuật tốn SSL đưa số giả định sau để thông tin có liệu chưa gắn nhãn tác động đến f : X → Y: Giả định độ mịn: Nếu hai điểm vùng mật độ cao đứng gần đầu tương ứng chúng gần Trong toán hồi quy, giả định ngụ ý hàm f : X → Y liên tục 10 Giả định cụm: Nếu hai điểm nằm cụm, chúng có khả thuộc lớp Nói cách khác, ranh giới định phân loại nên nằm vùng mật độ thấp Các SVM truyền tải số thuật toán SSL dựa biểu đồ đưa giả định Giả định Manifold: Dữ liệu có chiều lớn nằm tập liệu đa dạng có chiều nhỏ Điều quan trọng thực tế, hầu hết thuật toán máy học chịu "lời nguyền chiều" Do đó, việc xử lý liệu tập liệu đa dạng có chiều nhỏ thường thuận lợi cho thuật tốn Tuỳ vào mục đích cụ thể, học bán giám sát áp dụng cho toán phân lớp phân cụm liệu Nội dung phương pháp học bán giám sát Nội dung học bán giám sát hệ thống sử dụng tập liệu huấn luyện (training set) gồm phần: ví dụ học có nhãn, thường với số lượng (rất) ít, ví dụ học khơng có nhãn, thường với số lượng (rất) nhiều Thực tế cho thấy sử dụng kết hợp liệu khơng có nhãn với lượng định liệu có nhãn tăng độ xác đáng kể Một thuật toán học bán giám sát sử dụng học ví dụ có nhãn, sau tiến hành gán nhãn cho số (có lựa chọn) ví dụ khơng có nhãn cách hợp lý, có đánh giá chất lượng cơng việc hay độ xác Tiếp theo, chọn ví dụ vừa gán nhãn có độ tin cậy cao (vượt ngưỡng chọn trước) đưa vào kết hợp với tập liệu có nhãn, tạo thành tập liệu huấn luyện Áp dụng phương pháp kiểm thử (có thể kết hợp với tập liệu biết trước nhãn) để đánh giá hiệu năng/độ xác mơ hình Một số thuật toán tiêu biểu Một số thuật toán thường sử dụng phương pháp học bán giám sát gồm có: Thuật tốn cực đại kỳ vọng (EM - Expectation Maximization), SVM truyền dẫn (TSVM - Transductive Support Vector Machine), Self-training, Cotraining phương pháp dựa đồ thị (graph-based) 11 Việc lựa chọn thuật toán để xây dựng mơ hình dựa số định hướng: lớp liệu có tính phân cụm cao nên dùng EM với mơ hình hỗn hợp sinh; sử dụng SVM mở rộng thành TSVM; khó nâng cấp mơ hình học có giám sát có, nên dùng self-training; đặc trưng liệu phân chia tự nhiên thành hai phần riêng rẽ nên dùng Co-training; cịn hai mẫu liệu có đặc trưng tương tự hướng tới lớp sử dụng phương pháp dựa đồ thị 1.3.2 Học quy nạp học truyền tải Hình 1.1: a) Sơ đồ học quy nạp truyền thống với hai giai đoạn riêng biệt b) Sơ đồ học truyền tải có giai đoạn Thực tế, có hai cài đặt học bán giám sát khác nhau, học quy nạp học truyền tải Nhớ lại phân loại có giám sát, mẫu đào tạo dán nhãn đầy đủ, ta quan tâm đến hiệu suất liệu thử nghiệm Tuy nhiên phân loại bán giám sát, mẫu đào tạo chứa số liệu chưa gắn nhãn Do đó, có hai mục tiêu riêng biệt Một dự đoán 12 nhãn liệu thử nghiệm tương lai Mục tiêu khác dự đoán nhãn trường hợp khơng có nhãn mẫu đào tạo Đó học bán giám sát học truyền tải a Học quy nạp Một lĩnh vực học máy học quy nạp giúp tạo quy tắc chung dự đoán hoạt động tương lai Học quy nạp học từ quan sát kiến thức biết cách khái quát hóa quy tắc kết luận Học tập quy nạp cho phép xác định liệu đào tạo mẫu kiến thức điểm tương đồng trước trích xuất dạng quy tắc chung Các quy tắc tổng quát xác định trích xuất sử dụng lý luận giải vấn đề Khai thác liệu bước trình khám phá kiến thức sở liệu Có thể thiết kế cơng cụ tự động để học quy tắc từ sở liệu cách sử dụng khai thác liệu kỹ thuật khám phá kiến thức khác Có điểm giao lĩnh vực khai thác liệu học máy hai trích xuất mẫu kiến thức thú vị từ sở liệu Theo Holsheimer, khai thác liệu đề cập đến việc sử dụng sở liệu huấn luyện trình học tập Định nghĩa 1.3.1 Cho tập liệu đào tạo bao gồm liệu l u gán nhãn chưa gán nhãn, D = {{xi , yi }ni=1 , {xi }ni=1 }, mục đích thuật tốn học quy nạp học hàm f : X → Y Do f dự đốn đầu y cho đầu vào x ∈ X Giống học có giám sát, người ta ước tính hiệu suất liệu tương lai cách sử dụng mẫu thử nghiệm riêng biệt {(xk , yk )}m k=1 khơng có sẵn q trình đào tạo Trong học tập quy nạp, phương pháp khác đề xuất để suy quy tắc phân loại chia thành hai loại chính: Chia để trị (Cây định) Phủ (Separate-and-Conquer) Các thuật toán chia để trị, chẳng hạn ID3, C4.5, CLS CART kỹ thuật phân loại rút kết luận chung cách sử dụng định Các thuật toán Phủ AQ family, CN2 (Clark Niblett) RULES (Hệ 13 thống trích xuất RULe), quy tắc tạo trực tiếp từ tập hợp liệu đào tạo Cây định đại diện cho cách tiếp cận sử dụng nhiều học máy quy nạp Một tập mẫu đào tạo thường sử dụng để tạo thành định Ưu định cho việc học quy nạp chúng dễ dàng thực hiểu Hiệu suất định cao hoạt động tốt với sở liệu lớn Vì lý mà định xử lý lượng lớn mẫu đào tạo Cả liệu số phân loại có cấu trúc định Cây định tổng quát hóa theo cách tốt cho trường hợp liệu chưa quan sát (khi kiểm tra cặp giá trị thuộc tính liệu huấn luyện) có hiểu biết tốt phân loại dựa thuộc tính cung cấp Sự xếp thuộc tính định từ thơng tin có sẵn việc phân loại trình bày rõ ràng Nhược điểm định quy tắc tổng quát đưa lúc khái quát Vì lý này, số thuật tốn thuật tốn AQ family khơng sử dụng định Thuật toán AQ family sử dụng khác biệt thuộc tính mẫu có giá trị dương Trong lĩnh vực thuật toán chia để trị, vấn đề lớn nảy sinh phức tạp hiển thị quy tắc định Cụ thể khó để tạo quy tắc khơng có điểm chung với thuộc tính điều phức tạp thực tế có số thuộc tính xuất lặp lặp lại không cần thiết Ngồi ra, thuật tốn gây vấn đề chép, lặp lại nhánh khác Thật khó để xử lý lớn Sử dụng phương pháp phân chia chinh phục lớn dẫn đến nhầm lẫn khơng cần thiết Do đó, nhà nghiên cứu gần cố gắng cải thiện thuật toán Phủ để so sánh vượt qua kết thuật toán chia để trị Tốt tạo quy tắc trực tiếp từ liệu thay tạo chúng từ cấu trúc định Thứ nhất, sử dụng cách diễn tả “IF THEN” làm cho quy tắc dễ hiểu Thực tế chứng 14 minh học tập quy tắc phương pháp hiệu so với sử dụng định Hơn nữa, quy tắc dẫn xuất sử dụng lưu trữ dễ dàng hệ thống chuyên gia hệ thống dựa kiến thức Cuối cùng, dễ dàng để nghiên cứu thực thay đổi quy tắc gây mà không ảnh hưởng đến quy tắc khác chúng độc lập với Các vấn đề phương pháp • Khó tập hợp liệu gán nhãn • Lấy mẫu liệu chưa gán nhãn dễ dàng • Các mẫu cần phân lớp biết trước • Khơng quan tâm đến hàm phân lớp f Một số ví dụ thực tế học quy nạp • Đánh giá rủi ro tín dụng: – x tài sản khách hàng – f (x) vay tín dụng có phê duyệt hay khơng • Chẩn đốn bệnh: – x biểu bệnh nhân – f (x) bệnh mà họ mắc phải • Nhận diện khn mặt: – x bitmap khuôn mặt người – f (x) để gán tên cho khn mặt • Lái xe tự động: – x hình ảnh bitmap từ camera phía trước xe – f (x) mức độ nên quay vô lăng Khi nên sử dụng phương pháp học quy nạp? Bốn vấn đề mà học tập quy nạp phương pháp xử lý tốt: 15 • Vấn đề khơng có chun gia: Máy móc phải tự học tự tìm câu trả lời • Vấn đề mà người làm máy tính khơng thể làm làm khơng tốt Ví dụ xe đạp lái xe • Vấn đề mà chức mong muốn bị thay đổi thường xuyên Con người viết chương trình để giải quyết, vấn đề thay đổi thường xuyên khơng mang lại hiệu chi phí Ví dụ thị trường chứng khốn • Vấn đề người dùng cần chức tùy chỉnh Sẽ nhiều chi phí để viết chương trình tùy chỉnh cho người dùng Ví dụ đề xuất phim sách Netflix Amazon b Học truyền tải Học bán giám sát không sử dụng liệu đào tạo dán nhãn mà cịn học từ liệu khơng gắn nhãn để cải thiện hiệu suất phân loại Vì liệu khơng gắn nhãn cung cấp thêm thông tin phân phối liệu tiềm ẩn, tỷ lệ phân loại cao lượng liệu gắn nhãn thấp so với liệu chưa gắn nhãn Những học tập quy nạp làm xây dựng mơ hình để dán nhãn cho liệu Nghĩa giải vấn đề chung chung vấn đề cần giải Thay xây dựng mơ hình tổng qt, ta tận dụng thơng tin từ liệu có để đưa dự đốn tốt cách cụ thể khơng? Đó xác Học tập truyền tải cố gắng làm Giả sử với bầy chó, giống chó chó A B Một số chó gắn nhãn phân loại, phần lớn khơng u cầu gắn nhãn chó khơng có nhãn với giống tương ứng chúng Ta cần làm gì? Ngồi đặc điểm chó từ A B, liệu có ý nghĩa quan sát chó khơng có nhãn tương tác tương đồng chúng với từ A B, để đưa dự đoán tốt cho giống chó chúng? Đó triết lý truyền tải Sự truyền tải bối cảnh học tập đề cập đến lập luận từ trường hợp quan sát cụ thể (đào tạo), đến 16 trường hợp quan sát cụ thể khác (khơng ghi nhãn) Nó giới thiệu Vladmir Vapnik, với suy nghĩ cốt lõi đằng sau là: "Khi muốn giải vấn đề, không nên cố giải đáp vấn đề rộng lớn bước trung gian Hãy cố tìm câu trả lời thực cần khơng phải câu trả lời cho vấn đề chung đó" Một học gọi truyền dẫn xử lý liệu gán nhãn liệu chưa gán nhãn, xử lý liệu mà chưa biết Học truyền tải khơng cần thiết phải xây dựng hàm, đầu vector nhãn lớp xác định việc chuyển thông tin từ liệu gán nhãn sang liệu chưa gán nhãn Các phương pháp dựa đồ thị lúc đầu thường truyền dẫn Định nghĩa 1.3.2 Cho tập liệu đào tạo bao gồm liệu u l }, mục đích gán nhãn chưa gán nhãn, D = {{xi , yi }ni=1 , {xi }ni=1 thuật toán học truyền tải học hàm f : X n → Y n Nói cách khác, f u dự đoán nhãn cho liệu chưa gắn nhãn {xi }ni=1 Nhược điểm việc học truyền tải là: Thông tin "học" sử dụng để gắn nhãn cho trường hợp (khơng có q trình đào tạo) - ta khơng xây dựng mơ hình Về bản, muốn phân loại tập mẫu ta phải thực lại tồn huấn luyện Do đó, phương pháp có ý nghĩa mục tiêu cụ thể Một điều cần lưu ý hiệu học truyền tải bị ảnh hưởng có số mẫu gây nhiễu liệu Quay trở lại ví dụ bầy chó Nếu số chó từ khơng có nhãn từ số giống C ngẫu nhiên (hoặc giống chéo A B),sự hiểu biết toàn liệu bị ảnh hưởng Ta thấy số chó cư xử khơng theo quy tắc với khác, số biểu đặc điểm hai lồi - khiến ta phải nghi ngờ chó dán nhãn! Do phân phối liệu không ghi nhãn sử dụng với liệu đào tạo, tính tồn vẹn tồn liệu (hoặc hầu hết liệu) điều kiện tiên học truyền tải 17 Các thuật toán học truyền tải Các thuật tốn truyền tải chia thành hai loại: thuật tốn tìm cách gán nhãn rời rạc cho điểm không gắn nhãn thuật tốn tìm cách hồi quy nhãn liên tục cho điểm khơng gắn nhãn Các thuật tốn tìm cách dự đốn nhãn rời rạc có xu hướng bắt nguồn cách thêm giám sát phần vào thuật tốn phân cụm Chúng chia nhỏ thành hai loại: loại phân cụm cách phân vùng phân cụm cách kết tụ Các thuật tốn tìm cách dự đốn nhãn liên tục có xu hướng bắt nguồn cách thêm giám sát phần vào thuật tốn học đa dạng • Phân vùng truyền tải: coi truyền tải từ xuống Nó phần mở rộng bán giám sát phân cụm dựa phân vùng Nó thường thực sau: Tất nhiên, kỹ thuật phân vùng hợp lý sử dụng với thuật toán Sơ đồ phân vùng cắt tối đa dòng chảy tối thiểu phổ biến cho mục đích • Sự truyền tải kết tụ: coi truyền tải từ lên Nó phần mở rộng bán giám sát cụm kết tụ Nó thường thực sau: • Truyền tải Manifold - lĩnh vực nghiên cứu 18 Có điểm tương đồng thú vị: học quy nạp giống kiểm tra lớp, với câu hỏi trước, học sinh cần chuẩn bị tất hỏi Ngược lại, học truyền tải giống kiểm tra nhà, học sinh biết trước đề thi không cần chuẩn bị trước câu hỏi lề ... quy thuật toán học có giám sát với lớp Y liên tục Khi đó, hàm f gọi mơt hàm hồi quy 1.3 Học bán giám sát gì? 1.3.1 Khái niệm Học bán giám sát (SSL) nằm học có giám sát khơng giám sát Nó kết hợp... • Học bán giám sát (semi-supervised learning) • Học tăng cường (reinforcement learning) 1.2.1 Học không giám sát Dữ liệu huấn luyện trường hợp học không giám sát không chứa thông tin giám sát. .. 1.3.2 Học quy nạp học truyền tải 11 Chương Đại cương học bán giám sát 1.1 Máy học gì? 1.1.1 Khái niệm máy học Định nghĩa Arthur Samuel (1959): “Máy học ngành khoa học cung