Đối với mạng nơ ron, không giống như những kĩ thuật khác như hồi qui tuyến tính (Linear Regression) hay hồi qui logic (Logistic Regression) là đẩy bậc của đặc trưng (feature) lên, Đối với kỹ thuật Drop-Out người ta thường tăng số lượng lớp ẩn (hidden layer) và số lượng unit trong các layer lên. Nhưng đôi khi do việc thêm vào quá nhiều lớp ẩn cũng như unit khiến cho mô hình phức tạp hơn mức cần thiết và khiến mô hình bị overfitting. Chính vì vậy để tránh mô hình bị overfitting trong trường hợp này, ta cần phải giản lược mạng nơ ron hiện có. Khi áp dụng Drop-Out vào 1 layer nào đó, thì thực tế tại mỗi bước huấn luyện mạng nơ ron của ta chỉ còn 1 phần:
Giả sử layer của chúng ta có 4 unit (như trong hình minh hoạ), và xác suất p = 0.8. Gọi 𝑝𝑖 là xác xuất khi sử dụng i unit tại 1 layer khi đó xác suất sử dụng số lượng unit của layer sẽ như sau:
Sử dụng 0 unit của layer: 𝑝0= (1-p)4 = (0.2)4 = 0.0016 (vì xác suất để mỗi unit không được sử dụng là 1-p nên để cả 4 unit không được sử dụng thì xác suất phải là (1-p)4.
Sử dụng 1 unit của layer: 𝑝1= 4*p*(1-p)3 = 4*0.8*0.23 = 0.0256 (vì xác suất để mỗi unit không được sử dụng là 1-p, vậy để 3 unit không được sử dụng thì xác suất phải là (1-p)3 và có thêm 1 unit được sử dụng với xác suất p, bên cạnh đó có tới 4 unit có thể được chọn để sử dụng.)
Tương tự khi sử dụng 2 unit của layer: 𝑝2 = 6*p2*(1-p)2 = 6 * 0.82 * 0.22 = 0.1536 (có 6 cách để lựa chọn 2 unit để sử dụng trong 4 unit của layer)
Khi sử dụng 3 unit của layer: 𝑝3= 4*p3*(1-p) = 4 0.83*0.2 = 0.4096 (có 4 cách để lựa chọn 3 unit để sử dụng trong 4 unit của layer)
Khi sử dụng 4 unit của layer: 𝑝4= p4 = 0.84= 0.4096 (chỉ có 1 cách để lựa chọn 4 unit để sử dụng trong 4 unit của layer)
𝑝𝑡𝑏= 𝑝0 + 𝑝1 + 𝑝2+ 𝑝3+ 𝑝4
= 0*0.0016 + 1*0.0256 + 2*0.1536 + 3*0.4096 + 4*0.4096 = 3.2 = 4*0.8 = 4*p (Số lượng unit nhân với xác suất p).
Nghĩa là khi áp dụng Drop-Out layer của ta chỉ sử dụng số unit tương đương 3.2 bằng cách sử dụng nhiều mạng nhỏ (với 0, 1, 2, 3, 4 unit trong layer như mô tả ở trên)
Cuối cùng, chúng ta cùng đặt ra một câu hỏi tại sao khi sử dụng mạng NN để kiểm thử chúng ta lại không chọn unit theo kiểu ngẫu nhiên như khi huấn luyện mà lại sử dụng trọng số có giá trị bị giảm xuống theo xác suất p? Câu trả lời là khi các unit được sử dụng với xác suất như trên, các trọng số cũng được cập nhật (update) với tỉ lệ tương tự, nên thay vì phải tính kết quả trên tất các mạng con bằng cách lấy ngẫu nhiên, chúng ta thực hiện xấp xỉ (approximate) giá trị trung bình của tất cả các mạng con.
CHƯƠNG 3: ÁP DỤNG MÔ HÌNH LSTM CHO BÀI TOÁN NHẬN BIẾT NGÔN NGỮ
Trình bày mô hình LSTM trong nhận biết ngôn ngữ tự động dựa vào học sâu áp dụng cho bài toán với đầu vào là các đoạn văn bản, dựa trên việc mô hình hóa dữ liệu và thuật toán học máy cho LID. Với mỗi một đoạn văn bản đưa vào,
thuật toán học máy này sẽ xác định được ngôn ngữ.