hơn
Để kết thúc chương này, chúng ta sẽ lần ngược về câu hỏi phần đầu chương: điều gì làm cho một phép biểu diễn tốt hơn các phép biểu diễn khác? Đáp án được đưa ra tại mục 15.3 đó là, phép biểu diễn lý tưởng là một phép biểu diễn các yếu tố nguyên nhân cơ bản của phép biến đổi tạo ra dữ liệu, đặc biệt là các yếu tố đó liên quan đến việc áp dụng của chúng ta. Hầu hết các chiến lược để học các biểu diễn đó là dựa trên việc đưa ra các dẫn chứng giúp cho việc tìm ra những yếu tốc cơ bản của các biến thể. Các dẫn chứng giúp cho bộ học chia tách các yếu tố quan sát được. Học giám sát cung cấp cho chúng ta một dẫn chứng rất chắc chắn: một nhãn y đại diện cho mỗi giá trị x sẽ xác định giá trị cụ thể của ít nhất một trong các yếu tố của các biến thể một cách trực tiếp. Tổng quát hơn, để sử dụng nhiều dữ liệu không được gán nhãn, học biểu diễn được sử dụng trong các trường hợp khác, là một gợi ý ít trực tiếp hơn về các yếu tố cơ bản. Những gợi ý này đã tạo nên khuôn dạng của các tiên nghiệm mà chúng ta, những người thiết kế các thuật toán học máy, áp dụng để hướng dẫn cho các bộ học. Kết quả giống như định lý về không có bữa trưa nào miễn phí đã chỉ ra rằng các chiến lược chính quy hóa là cần thiết để thu được kết quả có tổng quát hóa cao. Trong khi không thể tìm ra một chiến lược chính quy hóa tốt, một trong số mục tiêu của mô hình học sâu đó là tìm ra được một bộ các chiến lược chính quy hóa chung có tính ứng dụng cho nhiều bài toán về AI, tương tự với các bài toán mà con người cũng như động vật có thể giải quyết được.
Ở đây chúng ta đưa ra một danh sách các chiến lược chính quy hóa chung. Danh sách này không phải đầy đủ tuy nhiên vẫn đưa ra được các ví dụ đúc kết được về việc làm cách nào các thuật toán học máy có thể khám phá tìm ra các đặc trưng
tương ứng với các yếu tố nền tảng. Danh sách này được đưa ra tại mục 3.1 của Bengio et al. (2013d) và đã được mở rộng:
Độ mượt (Smoothness): Đây là một giả sử rằng f(x+ϵd) ≈ f(x) cho unit d và giá trị ϵ đủ nhỏ. Giả sử này cho phép các bộ học tổng quát hóa từ mẫu huấn luyện đến điểm gần nhất trong không gian đầu vào. Rất nhiều các thuật toán học máy đã dựa tren ý tưởng này, tuy nhiên nó không đủ để vượt qua các trở ngại về chiều dữ liệu.
Tính tuyến tính: Rất nhiều các thuật toán trong máy học đưa ra các giả sử về mối quan hệ giữa các biến là tuyến tính. Điều này cho phép các thuật toán có thể đưa ra các dự đoán khác xa với các dữ liệu quan sát được, tuy nhiên đôi khi nó dẫn đến các kết quả dự đoán khá cực đoan. Hầu hết các thuật toán học máy cơ bản đều không đưa ra giả thiết về độ mượt thay vì đưa ra giả thiết về tính tuyến tính. Trong thực tế có các giả sử khác nhau - hàm tuyến tính với các trọng số lớn được áp dụng với không gian nhiều chiều có thể sẽ không mượt. Tham khảo Goodfellow et al.(2014b) về các thảo luận chi tiết về giới hạn của các giả thiết tuyến tính.
Các yếu tố có nhiều nghĩa: Rất nhiều các thuật toán học máy được thúc đẩy bởi các giả sử về dữ liệu được tạo ra từ các yếu tố nền tảng nhiều nghĩa, và hầu hết các bài toán được giải quyết dễ dàng đều đưa ra giả định về các yếu tố này. Mục 15.3 mô tả về việc làm cách nào quan điểm này thúc đẩy phương pháp học bán giám sát thông qua học biểu diễn. Học về cấu trúc của p(x) yêu cầu học một vài các đặc trưng giống nhau hữu ích cho việc mô hình hóa p(y | x) bởi cả hai đều tham chiếu đến các yếu tố cơ bản giống nhau. Mục 15.4 giải thích về việc làm cách nào quan điểm này thúc đẩy việc sử dụng biểu diện phân tán với các hướng tách biệt trong không gian biểu diễn tương ứng với các yếu tố tách biệt của biến thể.
Yếu tố nhân quả: Mô hình được xây dựng theo cách này coi các yếu tố được mô tả bằng phép biểu diễn đã học h như một hệ quả của dữ liệu quan sát được x. Như đã thảo luận ở mục 15.3, đây là một ưu điểm cho mạng bán giám sát và làm cho mô hình đã học mạnh hơn khi các phân phối trên các thay đổi nguyên nhân cơ bản hoặc khi ta sử dụng mô hình cho nhiều nhiệm vụ.
Các yếu tố được chia sẻ giữa các nhiệm vụ: Khi chúng ta có nhiều nhiệm vụ tương ứng với các biến yi khác nhau cùng chia sẻ một đầu vào x hoặc khi mỗi nhiệm vụ được kết hợp với một tập con hoặc 1 hàm f(i)(x) của các giá trị đầu vào toàn cục x. Giả sử rằng mỗi yi được kết hợp với một tập con khác nhau trong một tập chung các yêu tố tương quan h. Bởi các tập con này là chồng lên nhau, việc học toàn bộ P(yi | x) thông qua một phép biểu diễn trung gian P(h | x) cho phép chia sẻ các điểm mạnh về mặt thống kê giữa các nhiệm vụ.
Đa tạp: Khối xác suất tập trung, và phạm vi của nó trong đó nó tập trung tại các liên kết cục bộ và chiếm một số lượng nhỏ. Trong trường hợp liên tục, phạm vi này có thể được xấp xỉ bằng một đa tạp có số chiều nhỏ, với kích thước nhỏ hơn nhiều so với vùng không gian cơ sở của dữ liệu. Có nhiều thuật toán máy học chỉ hoạt động một cách hợp lý trên các đa tạp này (Goodfellow et al., 2014b). Một vài thuật toán học máy, đặc biệt là bộ mã hóa tự động dùng để tìm hiểu cấu trúc đa tạp một cách rõ ràng.
Phân lớp tự nhiên: Nhiều thuật toán máy học giả sử rằng mỗi đa tạp liên kết trong một không gian đầu vào có thể được ấn định vào một lớp cụ thể. Dữ liệu có thể nằm trên nhiều đa tạp không liên kết, nhưng các lớp vẫn không thay đổi . Giả sử này đã thúc đẩy rất nhiều các thuật toán học máy bao gồm lan truyền tiếp tuyến (tangent propagation), lan truyền ngược kép (double backprop), bộ phân lớp tiếp tuyến đa tạp và phương pháp huấn luyện đối nghịch.
Tính gắn kết về không gian và thời gian: phép phân tích đặc trưng chậm và các thuật toán liên quan giả sử rằng các yếu tố giải thích quan trọng nhất sẽ thay đổi theo thời gian, hoặc ít nhất sẽ dễ dự đoán chính xác các yếu tố giải thích cơ bản hơn so với dự đoán về dữ liệu quan sát ở dạng thô như giá trị pixel của ảnh. Xem mục 13.3 để hiểu chi tiết hơn về hướng tiếp cận này.
Tính rải rác: Hầu hết các đặc trưng có lẽ không liên quan đến các mô tả dữ liệu đầu vào, do đó không cần phải sử dụng một đặc trưng để phát hiện vòi của một con voi khi biểu diễn một ảnh về một con mèo. Do đó là hợp lý khi áp đặt một tiên nghiệm mà bất kỳ đặc trưng nào cũng có thể được giải thích như việc “có mặt” hay “vắng”.
Tính đơn giản của các yếu tố phụ thuộc: trong phép biểu diễn tốt ở mức cao, các yếu tố được liên kết với các yếu tố khác thông qua các phụ thuộc đơn giản. Đơn giản nhất có thể là các phụ thuộc cận biên, P(h)=∏iP(hi), tuy nhiên thì các phụ thuộc tuyến tính cũng là các giả sử hợp lý. Điều này có thể được thấy thông qua các định luật vật lý và được giả sử khi đưa một mô hình dự đoán tuyến tính hoặc một tiên nghiệm ở phía đầu của phép biểu diễn đã học.
Khái niệm về học biểu diễn ràng buộc tất cả các dạng của mô hình học sâu với nhau. Mạng lan truyền thuận và mạng hồi quy, bộ mã hóa tự động và mô hình xác suất chiều sâu, tất cả điều học và triển khai phép biểu diễn. Học cách biểu diễn tốt nhất có thể vẫn là một trong những mảng nghiên cứu thú vị.