CÁC mô HÌNH NHÂN tử TUYẾN TÍNH và bộ tự mã HOÁ

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ BÁO CÁO TIỂU LUẬN ĐỀ TÀI: CÁC MƠ HÌNH NHÂN TỬ TUYẾN TÍNH VÀ BỘ TỰ MÃ HỐ LỜI MỞ ĐẦU Khai phá liệu năm gần ứng dụng rộng rãi nhiều lĩnh vực như: Ngân hàng, Tài thị trường chứng khoán, Thương mại, Giáo dục, Y tế, Sinh học, Bưu viễn thơng, với nhiều hướng tiếp cận khác như: Phân lớp/Dự đoán, Phân cụm, Luật kết hợp, Các kỹ thuật áp dụng khai phá liệu phần lớn thừa kế từ lĩnh vực: Cơ sở liệu, Máy học (Machine learning), Trí tuệ nhân tạo, Lý thuyết thơng tin, Xác suất thống kê, trội phương pháp Khai phá liệu phát luật kết hợp với sở lý thuyết vững chãi đầy tính ứng dụng thực tiễn Vì tập thể nhóm xin gửi lời tri ân đến nhà trường tạo điều kiện cho chúng em học tập tiếp cận với môn học khai phá liệu Chúng em đặc biệt cám ơn Thầy giáo, PGS TS Hà Quang Thụy, người tận tuỵ giảng dạy lớp chúng em 16 tuần học vừa qua để mang đến với chúng em kiến thức bổ ích Chúng em xin chân thành cám ơn ! MỤC LỤC LỜI MỞ ĐẦU .2 MỤC LỤC PHÂN CÔNG CÔNG VIỆC CHƯƠNG 13: CÁC MƠ HÌNH NHÂN TỬ TUYẾN TÍNH 13.1 Xác suất Phân tích thành phần (Principal Component Analysis) Phân tích nhân tử (Factor Analysis) 13.2 Phân tích thành phần độc lập (Independent Component Analysis) .7 13.3 Phân tích đặc trưng chậm (Slow Feature Analysis) .9 13.4 Mã hóa thưa (Sparse Coding) 12 13.5 Thể đa tạp PCA 16 CHƯƠNG 14: BỘ TỰ MÃ HOÁ 19 14.1 Bộ mã hóa mức (Undercomplete Autoencoders) 20 14.2 Bộ mã hóa có kiểm sốt (Regularized Autoencoders) 21 14.2.1 Bộ tự mã hóa thưa (Sparse Autoencoders) 22 14.2.2 Bộ tự mã hóa khử nhiễu (Denoising Autoencoders) 25 14.2.3 Kiểm sốt hóa bắt phạt đạo hàm 25 14.3 Sức mạnh biểu diễn, kích thước tầng độ sâu 26 14.4 Bộ mã hóa giải mã ngẫu nhiên (Stochastic Encoders and Decoders) 27 14.5 Bộ tự mã hóa khử nhiễu (Denoising Autoencoders) 28 14.5.1 Ước tính điểm số 30 14.5.2 Bối cảnh lịch sử .32 14.6 Học đa tạp sử dụng tự mã hóa 34 14.7 Bộ tự mã hóa chèn ép (Contractive Autoencoders) 39 14.8 Phân rã thưa tiên đoán (Predictive Sparse Decomposition) .42 14.9 Ứng dụng tự mã hóa 43 DANH MỤC CÁC THUẬT NGỮ 44 PHỤ LỤC 45 TÀI LIỆU THAM KHẢO .49 PHÂN CÔNG CÔNG VIỆC Trần Văn Nghĩa 13.1 đến 13.2, code demo Hoàng Trọng Mạnh 13.3 đến 13.5, code tập Bùi Đức Hoàng 14.1 đến14.4 Nguyễn Văn Quang Huy 14.5 đến 14.9 CHƯƠNG 13: CÁC MƠ HÌNH NHÂN TỬ TUYẾN TÍNH Nhiều giới hạn nhà nghiên cứu Học sâu có liên quan đến việc xây dựng mơ hình xác suất đầu vào Pmodel(x) Về ngun tắc, mơ hình sử dụng lập luận xác suất để dự đoán giá trị khơng gian sác xuất ràng buộc biến khác Nhiều số mơ hình chứa biến ẩn (latent variables) h, đó: Pmodel(x)=Ehpmodel(x|h) Những biến ẩn tạo nên ý nghĩa khác miêu tả liệu Sự phân loại miêu tả liệu dựa vào biến ẩn đạt tất lợi việc học biểu diễn (representation learning) mà thấy học sâu lan truyền thuận (deep feedforward) mạng hồi quy (recurrent network) Trong chương này, diễn tả vài mơ hình xác suất đơn giản có biến ẩn: hay cịn gọi Mơ hình nhân tử tuyến tính (linear factor models) Thỉnh thoảng mơ hình sử dụng để xây dựng khối mơ hình hỗn hợp (blocks of mixture models) [Hinton đồng sự, 1995a; Ghahramani and Hinton, 1996; Roweis đồng sự, 2002], mơ hình lớn hơn, mơ xác suất học sâu (deep probabilistic models) (Tang đồng sự, 2012) Những nghiên cứu cách tiếp cận cần thiết cho việc xây dựng mơ hình có khả phát triển, nhờ mà mơ hình học sâu cao cấp phát triển thêm Một mơ hình nhân tử tuyến tính xác định việc sử dụng hàm giải mã tuyến tính ngẫu nhiên, nhờ tạo x cách thêm vào nhiễu cho phép chuyển đổi tuyến tính h Những mơ hình hay, chúng cho phép ta khám phá yếu tố giải thích mà chúng có phân phối đồng thời đơn giản Sự đơn giản việc dụng phương pháp giải mã tuyến tính làm cho mơ hình trở thành mơ hình có biến ẩn nghiên cứu rộng rãi Một mơ hình nhân tử tuyến tính thể việc trình tổng hợp liệu sau Đầu tiên, giả định nhân tố giải thích h thuộc phân phối: h∼p(h) (13.1) đó, p(h) phân phối giai thừa, với p(h)=∏i=1p(h), dễ dàng lấy ví dụ từ Tiếp đến giả định giá trị thực biến quán sát cho vector: x = Wh + b + nhiễu (13.2) đó, biến nhiễu thường phân phối Gaussian ma trận chéo (độc lập hướng) Điều thể hình 13.1 Hình 13.1: Mơ tả đồ họa định hướng diễn tả tập hợp mơ hình tuyến tính nhân tử, giả định liệu quan sát vector x thu nhờ tổ hợp tuyến tính vé tiềm ẩn độc lập h công thêm vài nhiễu Các mơ hình khác Xác suất phân tích thành phần chính, Phân tích nhân tử hay Phân tích thành phần độc lập, tạo nên lựa chọn khác hình thức biến nhiễu xác suất tiên đoán (the prior) p(h) 13.1 Xác suất Phân tích thành phần (Principal Component Analysis) Phân tích nhân tử (Factor Analysis) Xác suất phân tích thành phần chính, phân tích nhân tử mơ hình nhân tử khác trường hợp đặc biệt phương trình 13.1 13.2 trên, chúng khác chọn lựa tạo nên phân phối nhiễu tính dự đốn mơ hình thơng qua biến ẩn p(h) trước quan sát p(x) Trong phân tích nhân tử (Bartholomew, 1987; Basilevsky, 1994), biến dự đoán ẩn phương sai đơn vị phân phối Gaussian: h∼N(h;0;I) (13.3) đó, biến quan sát xi giả định độc lập có điều kiện (conditionally independent) cho h Đặc biệt hơn, nhiễu giả định suy từ phương sai chéo phôi phối Gaussian, với ma trận phương sai ψ=diag(σ2) với σ2=[σ12,σ22, ,σn2]T vector phương sai cho biến Quy luật biến ẩn thật để nắm lấy phụ thuộc khác biệt biến quan sát xi Thật vậy, thể cách dễ dàng vector x chuỗi đa biến ngẫu nhiên bình thường, với: x∼N(x;b,WWT+ψ) (13.4) Để đúc Mơ hình phân tích thành phần khng khổ xác suất, làm điều chỉnh nhỏ cho Mơ hình phân tích nhân tử, tạo nên phương sai có điều kiện σ2i Trong trường hợp phương sai x WWT+σ2I, σ2 vector vơ hướng Điều dẫn đến phân phối có điều kiện: x∼N(x;b,WWT+σ2I) (13.5) tương tự với: x = Wh + b + σz (13.6) z∼N(z;0,I) nhiễu Gaussian Sau đó, theo Tipping and Bishop (1999) diễn giải, sử dụng vịng lặp thuật tốn EM để xác định biến W σ2 Mơ hình xác suất phân tích thành phần có điểm mạnh quan sát, phần biến đổi liệu nắm bắt biến ẩn h, lỗi dư sai sót tái tạo σ2 Như diễn giải Tipping and Bishop (1999), tính xác suất phân tích thành phần trở thành Phân tích thành phần bình thường σ→0 Trong trường hợp này, giá trị mong đợi có điều kiện h cho x trở thành phép chiếu trực giao (orthogonal projection) x=b không gian bị mở rộng cột d W, giống Phân tích thành phần Như σ→0, mật độ mơ hình xác định tính xác suất phân tích thành phần trở thành trở nên đặc (verry sharp) xung quanh chiều d mở rông cột W Điều tạo nên mơ hình gán khả xảy thấp cho liệu liệu không thực phân cụm (cluster) gần khơng gian phẳng lớn 13.2 Phân tích thành phần độc lập (Independent Component Analysis) Phân tích thành phần độc lập (ICA) nằm số thuật toán máy học trình bày lâu đời [Herault and Ans, 1984; Jutten and Herault, 1991; Comon, 1994; Hyvärinen, 1999; Hyvärinen đồng sự., 2001a; Hinton đồng sự., 2001; Teh đồng sự., 2003] Đây cách tiếp cận đến cách mơ hình hóa nhân tố tuyến tính, từ tìm cách tách biệt tín hiệu quan sát thành nhiều tín hiệu (underlying signals) mà chúng thu nhỏ thêm vào với định dạng liệu quan sát Những tín hiệu thường hướng đến hoàn toàn độc lập, đơn tách biệt với (Ghi chú: xem thêm chương 3.8 để bàn luận khác biệt biến khơng tương quan biến đọc lập) Có nhiều phương pháp luận cụ thể khác giới thiệu Phân tích thành phần độc lập Biến thể phần lớn tương động với Mơ hình khả tạo khác, chúng tơi có diễn giải [Pham đồng sự., 1992] biến thể mà huấn luyện Mơ hình đa biến khả tạo đầy đủ Phân phối dự đoán yếu tố bản, p(h), phải cố định trước thời hạn người sử dụng Mơ hình sau tạo xác định x=Wh Chung thực thay đổi khơng tuyến tính biến số (sử dụng phương trình 3.47) để xác định p(x) Việc học sâu mơ hình sau vận hành thường lệ cách sử dụng Hợp lý cực đại (Maximum likelihood) Sự giải bày cho cách tiếp cận việc chọn lựa p(h) cho độc lập, lược lại yếu tố cho chúng độc lập tốt Trong phương thức cài đặt này, ví dụ huấn luyện thời điểm, xi cảm biến quan sát tín hiệu hỗn loạn (mixed signals), hi ước tính tính hiệu ban đầu Ví dụ như, có n người nói cách đồng thời Nếu có n míc thu âm khác đặt vị trí khác nhau, Phân tích thành phần độc lập (ICA) nhận biết thay đổi âm lượng người nói, giống như nghe míc thu âm tách biệt tín hiệu, hi chứa đựng người nói mội cách rõ ràng Điều sử dụng rộng rãi Khoa học thàn kinh cho điện não đồ, công nghệ cho phép ghi lại tín hiệu điện có nguồn gốc bên não Nhiều cảm biến điện tử đặt đầu đối tượng nghiên cứu dùng để đo lường nhiều tín hiệu điện xuất phát từ thể Người thực thí nghiệm thường quan tâm đến tính nhiệu não, nhiên tính hiệu từ tim mắt đối tượng đủ mạnh để làm nhiễu phép đo từ da đầu đối tượng Các tín nhiệu truyền đến điện cực bị lẫn vào nhau, Phân tích thành phần độc lập (ICA) cần thiết để phân tách ký hiệu điện tử tim từ tín hiệu gốc não, phân tách tín hiệu vùng não khác Như đề cập đến trước đó, có nhiều biến thể Phân tích thành phần độc lập (ICA) khả thi Một vài biến thể thêm vào chút nhiễu trình tạo x nhiều việc sử dụng giải mã xác định Phần lớn không sử dụng tiêu chí Hợp lí cực đại, thay nhắm đến tạo phần tử h=W−1x độc lập với Nhiều tiêu chí hịa thành mục tiêu Phương trình 3.47 yêu cầu lấy định thức (determinant) W, mà hoạt động tốn không ổn định số lượng Một vài biến thể Phân tích thành phần độc lập (ICA) tránh vấn đề hoạt động cách hạn chế hh trở thành trực giao Tất biến thể Phân tích thành phần độc lập (ICA) yêu cầu p(h) theo phân phối khơng Chuẩn (non-Gaussian) Điều p(h) dự đoán độc lập với thành phần Gaussian, p(W) khơng nhận dạng Chúng ta đạt phân phối giống p(h) cho nhiều giá trị W Điều khác với mơ hình tuyến tính nhân tử khác Mơ hình có tính xác suất phân tích thành phần Mơ hình phân tích nhân tử, mơ hình thường u cầu p(h) theo phân phối Gaussian để thực nhiều thao tác mơ hình có phương pháp giải xác định Trong tiếp cận Hợp lí cực đại, nơi mà người sử dụng xác định rõ ràng phân phối, lựa chọn điển hình sử dụng p(hi)= σ(hi) Lựa chọn thông thường phân phối không Chuẩn (non-Gaussian) có đỉnh lớn gần 0, điều mà phân phối Gaussian làm, nên xem phần lớn q trình triển khai Phân tích thành phần độc lập (ICA) việc học tính rải rác Nhiều biến thể Phân tích thành phần độc lập (ICA) khơng phải Mơ hình có khả tạo (generative models) theo ngữ cảnh sử dụng theo cụm từ Trong sách này, Mô hình khả tạo thể p(h) lấy mẫu từ Nhiều biến thể ICA biến làm cách để biến đổi x h khơng có cách để diễn tả p(h), khơng thể áp đặt phân phối lên p(h) Ví dụ như, nhiều biến thể ICA nhắm đến việc tăng mẫu nhọn (the sample kurtosis) h=W−1x, độ nhọn cao p(h) không Chuẩn, điều hồn thành mà khơng cần biểu diễn rõ ràng p(h) Điều bời ICA thường sử dụng nhiều công cụ phân tích cho việc phân tách tín hiệu, cho việc tạo liệu ước tính mật độ Giống mơ hình phân tích thành phần PCA tạo nên từ tự động giải mã phi tuyến tính, để cập chương 14, ICA tạo nên từ mơ hình khả tạo phi tuyến tính, sử dụng phương trình phi tuyến tính f để tạo nên liệu quan sát Đọc [Hyvärinen and Pajunen (1999)] cho nghiên cứu tiền đề ICA phi tuyến tính thành cơng việc sử dụng với việc học toàn thể nghiên cứu [Roberts and Everson (2001)] Lappalainen đồng (2000) Một mở rộng phi tuyến tính khác ICA tiếp cận Ước lượng thành phần phi tuyến tính độc lập (nonlinear independent components estimation), viết tắt NICE (Dinh đồng sự., 2014), phương pháp ngăn cách loạt phép biến đổi ngược (các giai đoạn mã hóa) với đặc tính định thức Jacobian cho biến đổi tính tốn cách hiệu Điều làm cho phương pháp tính tốn khả hơp lí xác, giống ICA, NICE cố gắng chuyển đổi liệu vào khơng gian nơi mà có phân phối khả biên (factorized marginal distribution), có nhiều khả thành cơng nhờ vào mã hóa phi tuyến tính Bởi mã hóa liến kết với giải mã, mà nghịch đảo hồn hảo, việc tái tạo mẫu từ mơ hình khơng phức tạp (bằng lấy mãu từ p(h) sau ứng dụng vào giải mã) Một cách khải quát khác ICA để học nhóm tính năng, với thống kê phụ thuốc cho phép nhóm khơng tán thành nhóm [Hyvärinen and Hoyer, 1999; Hyvärinen đồng sự., 2001b] Khi nhóm đơn vị liên quan chọn không chồng chéo, điều gọi Phân tích khơng gian phụ độc lập (independent subspace analysis) Nó khả thi để gán tọa độ không gian lên đơn vị ẩn hình thành nhóm chồng chéo khơng gian đơn vị lân cận Điều thúc đẩy đơn vị lân cận học tính Khi ứng dụng hình ảnh tự nhiên, Phép tiếp cận đo vẽ địa hình ICA (topographic ICA) học lọc Gabor, cho tính lân cân có định hướng, vị trí tần số Nhiều giai đoạn lệch khác phương trình tương tự Gabor xuất vùng, điều gộp lại vùng nhỏ đem lại bất biến tịnh tiến 13.3 Phân tích đặc trưng chậm (Slow Feature Analysis) Phân tích đặc trưng chậm (SFA) mơ hình nhân tố tuyến tính sử dụng thơng tin từ tín hiệu thời gian để học đặc trưng bất biến (Wiskott Sejnowski, 2002) Phân tích đặc trưng chậm thúc đẩy nguyên lý chung gọi nguyên lý chậm Ý tưởng nguyên lý đặc điểm quan trọng cảnh vật thay đổi chậm so với phép đo riêng mà tạo nên mơ tả cảnh Ví dụ, thị giác máy tính, giá trị điểm ảnh (pixel) riêng lẻ thay đổi nhanh Nếu ngựa vằn di chuyển từ trái sang phải ảnh, điểm ảnh riêng lẻ nhanh chóng thay đổi từ màu đen sang màu trắng ngược lại sọc ngựa vằn trượt ảnh Bằng cách so sánh, đặc trưng cho biết thay đổi hình dạng vị trí ngựa vằn thay đổi chậm Do đó, mong muốn muốn kiểm sốt (regularize) mơ hình để học đặc trưng thay đổi chậm theo thời gian Nguyên lý chậm trước phân tích đặc trưng chậm áp dụng cho nhiều loại mơ hình (Hinton, 1989; Fưldiák, 1989; Mobahi cộng sự, 2009; Bergstra Bengio, 2009) Nói chung, nguyên lý chậm áp dụng cho mơ hình khả vi huấn luyến với phương pháp giảm dốc (gradient descent) Nguyên lý chậm giới thiệu cách thêm thành phần vào hàm chi phí, thành phần có dạng: (13.7) λ siêu tham số xác định cường độ thành phần kiểm soát chậm, t số chuỗi thời gian mẫu, f trích xuất đặc trưng kiểm sốt hóa, L hàm tổn thất đo khoảng cách f(xt) f(xt+1) Thông thường hàm L thường chọn hàm khác trung bình bình phương (mean squared difference) Phân tích đặc trưng chậm ứng dụng đặc biệt hiệu nguyên lý chậm Phân tích hiệu áp dụng cho trích xuất đặc trưng tuyến tính huấn luyện dạng khép kín Giống số biến thể ICA, SFA chất không mô hình sinh mẫu, theo nghĩa có ánh xạ tuyến tính khơng gian đầu vào khơng gian đặc trưng không xác định tiền 10 Ví dụ chiều khác minh hoạ hình 14.7, thấy, cách làm cho hàm tái thiết nhạy cảm với nhiễu loạn xung quanh điểm liệu đầu vào, tự mã hố khơi phục cấu trúc đa tạp Để hiểu tự mã hố hữu ích học đa tạp, cần phải so sánh với hướng tiếp cận khác Để học cách biểu thị đa tạp, thông dụng học biễu diễn điểm liệu (hoặc gần) đa tạp Biễu diễn ví dụ xác định cụ thể cịn gọi nhúng ví dụ Đó vector có số chiều thấp, chiều khơng gian mà đa tạp chiều tập Một số thuật toán (các thuật tốn học đa tạp khơng tham số, thảo luận bên dưới) trực tiếp học cách đặc trưng nhúng cho ví dụ huấn luyện cụ thể, thuật toán khác học ánh xạ tổng quát hơn, gọi mã hoá, hàm biễu diễn, ánh xạ điểm không gian gốc (khơng gian đầu vào) thành nhúng Hình 14.7: Nếu tự mã hoá học hàm tái cấu trúc bất biến nhiễu loạn nhỏ xung quanh điểm liệu, nắm bắt cấu trúc đa tạp liệu Cấu trúc đa tạp tập hợp đa tạp chiều Đường chéo đứt quãng biểu thị hàm đồng cho việc tái thiết Tối ưu hàm tái thiết vượt qua hàm nhận dạng mội gặp điểm liệu Các mũi tên ngang nằm phía đồ thị biểu thị hướng vector tái cấu trúc r(x)−x từ điểm xuất phát mũi tên, không gian đầu vào, trỏ phía đa tạp gần nhất(trong trường hợp điểm liệu đơn không gian chiều) Bộ tự mã hoá khử nhiễu cố gắng làm cho đạo hàm hàm tái cấu trúc r(x) nhỏ xung quanh liệu Bộ tự mã hoá chèn ép (contractive autoencoder) thực tương tự điều cho mã hoá Mặc dù đạo hàm r(x) bị buộc phải nhỏ xung quanh điểm liệu, giá trị lớn điểm liệu với Khoảng cách điểm liệu tương ứng với vùng không gian đa tạp, nơi hàm tái thiết phải có đạo hàm đủ lớn để ánh xạ điểm bị lỗi trở lại vào đa tạp 36 Hình 14.8: Quá trình học đa tạp khơng tham số hình thành đồ thị lân cận gần với nút biểu thị điểm liệu cạnh biểu thị mối quan hệ lân cận gần Các trình học đa dạng nhờ mà tìm mặt phẳng tiếp tuyến có liên quan tới hàng xóm biểu đồ, hệ toạ độ gắn với ví dụ huấn luyện vector vị trị giá trị thực - gọi nhúng Có thể khái qt hố biễu diễn dạng nội suy Miễn số lượng ví dụ đủ lớn để bao phủ độ cong xoắn đa tạp, phương pháp hoạt động tốt Hình ảnh lấy từ liệu ảnh mặt người từ nhiều hướng QMUL(Gong cộng sự, 2000) Học đa tạp tập trung chủ yếu vào q trình học khơng giám sát tìm cách nắm bắt cấu trúc đa tạp Phần lớn nghiên cứu ban đầu học đa tạp phi tuyến tính tập trung vào phương pháp khơng tham số dựa đồ thị lân cận gần Mỗi nút đồ thị dụ huấn luyện cạnh kết nối điểm lân cận với Những phương pháp (Schölkopfet cộng sự, 1998; Roweis Saul, 2000; Tenenbaum cộng sự, 2000; Brand, 2003; Belkinand Niyogi, 2003; Donoho Grimes, 2003; Weinberger Saul, 2004; Hintonand Roweis, 2003; van der Maaten Hinton, 2008) gắn nút với mặt phẳng tiếp tuyến mở rộng theo nhiều hướng liên kết khác với vector khoảng cách ví dụ hàng xóm nó, minh hoạ hình 14.8 Một hệ thống toạ độ tồn cục quan sát thơng qua tốn tối ưu giải hệ tuyến tính Hình 14.9 minh hoạ làm đa tạp bị lát(tiled) số lượng lớn miếng vá Gaussian tuyến tính cục (“miếng vá” “bánh xèo”, mơ hình Gaussians phẳng theo hướng tiếp tuyến) 37 Hình 14.9: Nếu biết mặt phẳng tiếp tuyến (xem hình 14.6) điểm, chúng bao phủ (lát) để tạo nên hệ toạ độ toàn cục hay hàm mật độ Mỗi miếng vá cục xem hệ toạ độ Euclidean địa phương Gaussian miếng phẳng (flat) cục - “bánh xèo”, với phương sai nhỏ theo hương trực giao với mặt miếng bánh phương sai lớn theo hướng xác định hệ toạ độ miếng bánh Một hỗn hợp hệ Gaussian cung cấp ước tính hàm mật độ, thuật toán cửa sổ Pazen đa tạp biến thể dựa mạng nơron phi cục (Bengio cộng sự, 2006c) Một khó khăn học đa tạp phương pháp cục không tham số nêu Bengio Monperrus (2005) ra: Nếu đa tạp không mịn (rất nhiều đỉnh, đáy xoắn), đòi hỏi số lượng lớn ví dụ huấn luyện để bao phủ hết vùng biến đổi trọn vẹn, khơng có khả khái qt hố vùng biến đổi không bao phủ Thật vậy, phương pháp khái qt hình dạng đa tạp thông qua nội suy điểm ví dụ lân cận Khơng may, vấn đa tạp liên quan đến vấn đề AI khó nắm bắt ý tưởng nội suy cục Xem xét ví dụ đa tạp từ dịch chuyển hình 14.6 Nếu coi toạ độ từ vector đầu vào xi, dịch hình ảnh, thấy toạ độ cực đại cực tiểu điểm ảnh tương ứng với toạ độ sáng hay tối Nói cách khác, phức tạp vể dạng độ sáng điểm ảnh ảnh hưởng lên độ phức tạp đa tạp tạo thành từ phép biến đổi hình ảnh đơn giản Điều thúc đẩy nắm bắt cấu trúc đa tạp thông qua học biểu diễn phân phối học sâu 38 14.7 Bộ tự mã hóa chèn ép (Contractive Autoencoders) Bộ tự mã hố chèn ép (Rifai cộng sự, 2011a,b) thêm vào đại lượng kiểm soát tường minh vào phần mã h=f(x), nhằm mục đích làm cho đạo hàm f nhỏ tốt: Mức phạt Ω(h) chuẩn Frobenius bình phương (tổng bình phương phần tử) ma trận Jacobi dùng đạo hàm phần cho hàm mã hoá Bộ tự mã hoá khử nhiễu tự mã hố chèn ép có liên quan với nhau: Alain Bengio (2013) rằng, giới hạn lượng nhiễu nhỏ tuân theo phân phối Gaussian, lỗi tái cấu trúc khử nhiễu mức phạt chèn ép hàm tái cấu trúc ánh xạ từ x đến r = g(f(x)) tương đương Nói cách khác, tự mã hố khử nhiễu làm chống nhiễu loạn nhỏ đầu vào thông qua hàm tái cấu trúc, tự mã hoá chèn ép chống nhiễu loạn nhỏ đầu vào thơng qua hàm trích xuất đặc trưng Khi sử dụng mức phạt chèn ép dựa ma trận Jacobi để tiền huấn luyện đặc trưng f(x) dùng cho phân loại, kết phân loại xác thường đạt cách áp dụng mức phạt lên f(x) (ND: hàm chiết xuất đặc trưng) thay áp dụng lên g(f(x)) (ND: hàm tái cấu trúc) Mức phạt chèn ép f(x) liên quan nhiều với chủ đề đánh giá trùng khớp ( score matching), thảo luận mục 14.5.1 Cái tên chèn ép phát sinh từ cách mà CAE làm cong (warp) không gian Đặc biệt, CAE huấn luyện để chống lại nhiễu đầu vào nó, khuyến khích để ánh xạ vùng lân cận điểm đầu vào đến vùng lân cận nhỏ điểm đầu Hay nói chèn ép lại vùng lân cận đầu vào để có vùng lân cận đầu nhỏ Cụ thể hơn, mơ hình CAE thể tính chèn ép phạm vi cục — tất nhiễu loạn điểm huấn luyện ánh xạ đến gần với f(x) Ở phạm vi tồn cục, hai điểm khác x x′ ánh xạ tới điểm f(x) f(x′) xa khoảng cách hai điểm ban đầu Sẽ hợp lý hàm f mở rộng khoảng cách xa đa tạp liệu (ví dụ, tham khảo tình xảy ví dụ đồ chơi 1-D hình 14.7) Khi mức phạt Ω(h) áp dụng cho đơn vị hình chữ S (sigmoidal units), cách đơn giản để co nhỏ lại ma trận Jacobian làm cho đơn vị hình chữ S chụm lại giá trị Điều khuyến khích CAE mã hóa điểm đầu vào với giá trị cực (ND: giá trị cực đại cực tiểu - extreme values) 39 hàm hình chữ S này, xem mã nhị phân Điều đảm bảo CAE trải rộng giá trị mã suốt hầu hết hình siêu lập phương mà đơn vị ẩn hình chữ S mở rộng Chúng ta nghĩ ma trận Jacobian J điểm x xấp xỉ hàm mã hóa phi tuyến f(x) tốn tử tuyến tính Điều cho phép sử dụng từ “contractive” có sở Theo lý thuyết tốn tử tuyến tính, tốn tử tuyến tính xem bị chèn ép định mức Jx nhỏ tất đơn vị tiêu chuẩn x Nói cách khác, J có tính chèn ép ảnh cầu đơn vị hồn tồn bao lại cầu đơn vị Chúng ta nghĩ CAE mức phạt chuẩn Frobenius xấp xỉ tuyến tính cục f(x) điểm huấn luyện x nhằm khuyến khích tốn tử tuyến tính cục trở thành phép co hẹp Như giới thiệu phần 14.6, tự mã hóa có kiểm soát học đa tạp theo cách cân hai lực đối ngẫu Trong trường hợp CAE, hai lực lỗi tái thiết hình phạt chèn ép Ω(h) Lỗi tái thiết đứng độc lập khuyến khích CAE học hàm đồng Trong chi riêng hình phạt co khuyến khích CAE học đặc trưng cố định thay đổi x Sự thỏa hiệp hai lực tạo tự mã hóa có giá trị dẫn xuất nhỏ Chỉ số lượng nhỏ đơn vị ẩn, ứng với số lượng nhỏ hướng đầu vào, có giá trị dẫn xuất đáng kể Mục đích CAE học cấu trúc đa tạp liệu Các hướng x với Jx lớn thay đổi h nhanh chóng, hướng xấp xỉ mặt phẳng tiếp tuyến đa tạp Thí nghiệm Rifai et al (2011a, b) việc huấn luyện CAE dẫn đến hầu hết giá trị suy biến J giảm xuống độ lớn trở nên bị chèn ép Tuy nhiên, số giá trị suy biến mức 1, mức phạt lỗi tái thiết khuyến khích CAE mã hóa hướng với phương sai cục lớn Các hướng tương ứng với giá trị suy biến lớn lý giải hướng tiếp tuyến mà tự mã hóa chèn ép học Một cách lý tưởng, hướng tiếp tuyến phải tương ứng với biến thể thực liệu Ví dụ: CAE áp dụng cho hình ảnh nên học vector tiếp tuyến hình ảnh thay đổi vật thể hình ảnh thay đổi tư thế, hình 14.6 Các hình ảnh vectơ suy biến thu đưuocj thực nghiệm tương ứng với biến đổi có ý nghĩa hình ảnh đầu vào, hình 14.10 40 Hình 14.10: Minh họa vectơ tiếp tuyến đa tạp ước lượng PCA cục tự mã hóa chèn ép Vị trí đa tạp định nghĩa đầu vào ảnh chó lấy từ tập liệu CIFAR-10 Các vectơ tiếp tuyến ước tính vectơ suy biến dẫn ma trận Jacobian ánh xạ từ đầu vào đến đoạn mã Mặc dù PCA cụ lẫn CAE bắt tiếp tuyến cục CAE hình thành ước tính xác từ nguồn liệu huấn luyện có giới hạn khai thác thơng số chia sẻ vị trí khác nhau, vị trí chia sẻ tập đơn vị ẩn hoạt động Các hướng tiếp tuyến CAE thông thường tuân theo phận chuyển động thay đổi vật thể (chẳng hạn đầu chân) Các hình ảnh chép với cho phép Rifai cộng (2011c) Một vấn đề thực tế với tiêu chí kiểm sốt CAE chi phí tính tốn thấp trường hợp tự mã hóa với lớp ẩn, trở nên tốn nhiều trường hợp tự mã hóa có nhiều tầng Chiến lược đưa Rifai cộng (2011a) huấn luyện riêng loạt tự động mã động tầng, tầng huấn luyện để tái tạo tầng ẩn tự mã hoá trước Sự kết hợp phần tự động mã lại tạo thành tự mã hố đa tầng Bởi tầng huấn luyện riêng biệt để chèn ép theo phạm vi cục bộ, tự mã hoá đa tầng giữ ngun tính chèn ép thành phần Kết không giống kết thu cách huấn luyện chung toàn kiến trúc với hình phạt Jacobian đa tầng, cách lại bắt nhiều đặc tính định tính mong muốn Một vấn đề thực tế khác mức phạt chèn ép vô giá trị khơng áp đặt vài biến đổi có tỷ lệ lên giải mã Ví dụ: mã hóa thực phép nhân đầu vào với số nhỏ ϵ, giải mã thực phép chia đoạn mã cho ϵ Khi ϵ tiến đến 0, phần mã hóa điều khiển mức phạt chèn ép Ω(h) tiến đến mà không học phân phối Trong đó, giải mã trì việc tái thiết cách hồn hảo Theo Rifaiet cộng (2011a), điều ngăn chặn cách cố định trọng số f g Cả f g tầng mạng neutral chuẩn bao gồm phép biến đổi ánh xạ affine theo sau phép biến đổi phi tuyến 41 theo phần tử, đơn giản để thiết lập ma trận trọng số g chuyển vị ma trận trọng số f 14.8 Phân rã thưa tiên đoán (Predictive Sparse Decomposition) Phân rã thưa tiên đoán (Predictive Sparse Decomposition - PSD) mơ hình lai ghép mã thưa tự mã hố có tham số (Kavukcuoglu cộng sự, 2008) Bộ mã hóa có tham số huấn luyện để tiên đoán đầu hệ lặp lại PSD áp dụng lĩnh vực học đặc trung không giám sát để nhận dạng đối tượng hình ảnh video (Kavukcuoglu cộng sự, 2009, 2010; Jarrett cộng sự, 2009; Farabet cộng sự, 2011), âm (Hena cộng sự, 2011) Mơ hình bao gồm mã hóa f(x) giải mã g(h), hai mang tính có tham số Trong q trình huấn luyện, hh điều khiển thuật tốn tối ưu hóa Qúa trình huấn luyện thực cách cực tiểu hố giá trị: ∥x−g(h)∥2+λ|h|1+γ∥h−f(x)∥2 (14.19) Như mã hóa thưa, thuật toán huấn luyện liên tục thay đổi việc cực tiểu hóa đoạn mã h việc cực tiểu hóa tham số mơ hình Sự cực thiểu hóa ứng với h diễn nhanh f(x) cung cấp giá trị khởi tạo tốt cho h, hàm chi phí ràng buộc h có giá trị gần với f(x) giá Phép trượt gradient đơn giản thu giá trị hợp lý h mười bước trượt Quá trình huấn luyện sử dụng PSD khác so với trình huấn luyện mơ hình mã thưa, sau huấn luyện f(x) để dự đoán giá trị đặc trưng mã hóa thưa Qúa trình huấn luyện PSD ràng buộc phần giải mã sử dụng tham số để hàm f(x) suy giá trị đoạn mã tốt Mã thưa dự đốn ví dụ hình suy luận gần học Trong phần 19.5, chủ đề trình bày cụ thể Các cơng cụ trình bày chương 19 nói cụ thể việc PSD giải thích việc huấn luyện mơ hình xác suất mã thưa trực tiếp cách tối đa hóa giới hạn hàm hợp lý logarit mơ hình Trong ứng dụng thực tế PSD, tối ưu hóa lặp lại sử dụng thời gian huấn luyện Bộ mã hóa có tham số f sử dụng 42 để tính tốn đặc trưng học mơ hình triển khai Định tính (evaluating) f có chi phí tính tốn so với suy luận h thơng qua trượt gradient Bởi f hàm có tham số khả vi, mơ hình PSD xếp chồng lên sử dụng để khởi tạo mạng đa tầng để huấn luyện với mục đích khác 14.9 Ứng dụng tự mã hóa Các tự mã hố áp dụng thành cơng để giảm kích thước chiều khơng gian (dimensionality reduction) tác vụ truy xuất thông tin Giảm số chiều ứng dụng chủ đề học biểu diễn (representation learning) học sâu Đó động lực ban đầu để nghiên cứu tự mã hố Ví dụ, Hinton Salakhutdinov (2006) huấn luyện loạt RBM sau sử dụng trọng số chúng để khởi tạo tự mã hóa đa tầng với lớp ẩn nhỏ dần, chếp chồng lại thành nút cổ chai có 30 đơn vị Các đoạn mã nhận mang lại lỗi tái thiết PCA khơng gian 30 chiều đặc trưng học dễ dàng giải thích liên quan đến danh mục bên dưới, danh mục thể cụm phân tách tốt Các biểu diễn khơng gian số chiều thấp cải thiện hiệu suất nhiều tác vụ, chẳng hạn phân loại Các mơ hình khơng gian nhỏ tiêu thụ nhớ thời gian chạy nhanh Nhiều hình thức giảm kích thước xắp sếp ví dụ liên quan mặt ngữ nghĩa đến gần nhau, theo quan sát Salakhutdinov Hinton (2007b) Torralba cộng (2008) Những điểm gợi ý từ kết ánh xạ tới không gian có số nhiều nhỏ giúp tổng qt hố Một tác vụ có lợi ích chí nhiều bình thường từ việc giảm số chiều tác vụ truy xuất thơng tin, nhiệm vụ tìm kiếm đầu vào sở liệu giống với đầu vào truy vấn Lợi ích nhiệm vụ có nguồn gốc từ việc giảm số chiều thơng thường nhiệm vụ khác thực hiện, cịn thêm vào lợi từ việc tìm kiếm trở nên hiệu số loại không gian số chiều thấp Đặc biệt, huấn luyện thuật toán giảm số chiều để tạo mã chiều thấp nhị phân, lưu trữ tất đầu vào sở liệu bảng băm ánh xạ vector mã nhị phân đối tượng Bảng băm cho phép thực truy xuất thông tin cách trả tất đầu vào sở liệu có mã nhị phân truy vấn Chúng ta tìm kiếm cách hiệu đầu vào gần giống cách lật (ﬂipping) bit riêng lẻ từ mã truy vấn Cách tiếp cận để truy xuất thông tin thông qua giảm số chiều nhị phân hóa 43 gọi băm ngữ nghĩa (Salakhutdinov Hinton, 2007b, 2009b) áp dụng cho đầu vào văn (Salakhutdinov Hinton, 2007b, 2009b) hình ảnh (Torralba et al., 2008; Weiss cộng sự, 2008; Krizhevsky Hinton, 2011) Để tạo mã nhị phân cho băm ngữ nghĩa, mã thường sử dụng hàm mã hóa hình chữ S tầng cuối Các đơn vị hình chữ S phải huấn luyện để trở thành phân cực đến gần giá trị cho tất giá trị đầu vào Một mẹo thực điều đơn giản chèn thêm nhiễu phụ trước hàm phi tuyến hình chữ S suốt trình huấn luyện Độ lớn nhiễu tăng theo thời gian Để chống lại nhiễu bảo toàn nhiều thông tin tốt, mạng phải tăng độ lớn đầu vào hàm hình chữ S, việc phân cực xảy Ý tưởng học hàm băm khám phá thêm nhiều hướng khác nhau, bao gồm ý tưởng huấn luyện đại diện để tối ưu hóa tổn thất cách trực tiếp đến nhiệm vụ tìm kiếm ví dụ lân cận (nearby examples) bảng băm (Norouzivà Fleet, 2011) DANH MỤC CÁC THUẬT NGỮ Linear Factor Models Latent Variables Principal Component Analysis (PCA) Factor Analysis Independent Component Analysis (ICA) Slow Feature Analysis (SFA) Sparse Coding Autoencoders Undercomplete Autoencoders Regularized Autoencoders Sparse Autoencoders Denoising Autoencoders Stochastic Encoders and Decoders Contractive Autoencoders Predictive Sparse Decomposition Mơ hình nhân tử tuyến tính Biến ẩn Phân tích thành phần Phân tích nhân tử Phân tích thành phần độc lập Phân tích đặc trưng chậm Mã hóa thưa Bộ tự mã hóa Bộ tự mã hóa mức Bộ tự mã hóa có kiểm sốt Bộ tự mã hóa thưa Bộ tự mã hóa khử nhiễu Bộ mã hóa giải mã ngẫu nhiên Bộ tự mã chèn ép Phân rã thưa tiên đoán 44 PHỤ LỤC Dưới phần code demo tự mã hóa khử nhiễu: Bước 1: Thiết lập tập train (30000 mẫu) tập test (5000 mẫu) Ảnh liệu gốc Bước 2: Trong tập train lấy 6000 mẫu để làm tập tối ưu hóa 45 Bước 3: Thêm nhiễu vào ảnh Ảnh sau them nhiễu Bước 4: Thiết lập mã hóa giải mã 46 Bước 5: Huyến luyện 47 Bước 6: Kiểm tra liệu test: 48 Link code demo: https://drive.google.com/open? id=1XTLj1jqrBy8wu4TE48WZnduLm4Swl7_J Link code tập: https://github.com/Apress/deep-learning-for-naturallanguage-processing/blob/master/Chapter_3/Chapter3.ipynb TÀI LIỆU THAM KHẢO Ian Goodfellow, Yoshua Bengio, Aaron Courville Deep Learning The MIT Press, 2016 Palash Goyal, Sumit Pandey, Karan Jain Deep Learning for Natural Language Processing Creating Neural Networks with Python Apress, 2018 [4] Arnaldo Pérez Castaño Practical Artificial Intelligence Machine Learning, Bots and Agent Solutions using C# Apress, 2018 49 50 ... Decomposition Mơ hình nhân tử tuyến tính Biến ẩn Phân tích thành phần Phân tích nhân tử Phân tích thành phần độc lập Phân tích đặc trưng chậm Mã hóa thưa Bộ tự mã hóa Bộ tự mã hóa mức Bộ tự mã hóa có... ứng phụ 20 Bộ tự mã hóa với hàm mã hóa phi tuyến tính f hàm giải mã phi tuyến tính g học tổng quát phi tuyến tính mãnh mẽ PCA Khơng may mã hóa giải mã cho cấp cho dung lượng lớn, tự mã hóa học... Giống tự mã hoá thưa, mã hoá thưa, tự mã hoá chèn ép (contractive autoencoders) loại tự mã hố có kiểm sốt khác, mục tiêu DAE tìm cách học mã hố với dung lượng cao đồng thời tránh mã hoá giải mã

Định dạng
Số trang	50
Dung lượng	1,51 MB