Cho đến nay, mạng nơron đã được trình bày bao hàm vấn đề hồi quy. Khi xử lý một vấn đề phân lớp, một lớp chức năng kích hoạt khác được thêm vào cho lớp đầu ra.
2 A. Lindholm, N. Wahlström, F. Lindsten, T. B. Schön. Supervised Machine Learning. Department of Information Technology, Uppsala University. Avail- able at:
http://www.it.uu.se/edu/course/homepage/sml/literature/lecture_notes.pdf. March, 2019
Hình 2.5 Mạng nơ ron học sâu với L lớp ẩn
Hình 2.6 Lớp đầu ra softmax trong một bài toán phân loại, mang lại xác suất cho mỗi lớp cho một mẫu đầu vào
Điều này sẽ biến các đơn vị ẩn thành xác suất cho mỗi lớp, vì một bài toán phân loại xử lý dữ liệu định tính thay vì dữ liệu định lượng (như trong hồi quy). Từ lớp đầu ra trong hình 2.5, chúng ta bổ sung thêm lớp softmax. Hình 2.6 cho thấy ý tưởng về lớp đầu ra softmax, lớp này sẽ mang lại xác suất của mọi lớp, trong trường hợp này là đối tượng mà đầu vào x đang đại diện.
Phương trình (2.9) cung cấp cho hàm softmax() và có thể được nhìn thấy trong hình 2.7. Hàm softmax() cung cấp một xác suất cho mỗi lớp, tổng lên đến 1. Mặt khác, hàm kích hoạt sigmoid() tạo ra các giá trị từ 0 đến 1 độc lập với nhau và không tổng thành 1.
S(𝑦𝑖) = 𝑒𝑦𝑖
∑ 𝑒𝑗 𝑦𝑖
Hàm Softmax() xuất ra một vectơ xác suất cho mỗi lớp. Điều này có thể cung cấp một gợi ý về mức độ chắc chắn của mô hình về việc dự đoán đúng lớp, hoặc mô hình bị nhầm lẫn như thế nào. Giá trị cao nhất của vectơ đầu ra softmax được chọn làm lớp dự đoán hoặc giá trị ngưỡng có thể được chọn cho mục đích này.
Kiến trúc chung của mạng nơ-ron đã được thiết lập, bây giờ chuyển sang cách mạng nơ-ron đang được huấn luyện trên các mẫu đầu vào mới x. Khi huấn luyện mạng nơ-ron, mục tiêu chính là giảm thiểu hàm mất mát. Hàm mất mát là một hàm mô tả khoảng cách giữa nhãn chính xác của dữ liệu đầu vào và nhãn dự đoán được đưa ra bởi mô hình mạng nơ-ron. Hình 2.8 cho thấy mô hình sẽ lặp lại để tìm ra giá trị mà ở đó hàm mất mát là tối thiểu. Khi hàm mất mát được tìm thấy, đó là những giá trị của trọng số mà mô hình cần giữ để hoạt động tốt. Hàm mất mát cung cấp khoảng cách giữa nhãn thực z của đầu vào x so với đầu ra dự đoán 𝑧0. Thông qua sự lan truyền ngược và tối ưu hóa, các trọng số của mạng
Hình 2.7 Hàm softmax()
được cập nhật. Sự lan truyền ngược tính toán độ dốc của hàm mất mát bằng cách đi ngược lại trong mạng nơ-ron để cập nhật trọng số. Một kỹ thuật tối ưu hóa phổ biến là giảm độ dốc ngẫu nhiên, sẽ tìm ra tổn thất nhỏ nhất như trong hình 2.8. Một phương pháp thay thế của phương pháp này là phương pháp tối ưu hóa được gọi là ADAM (ước lượng thời điểm thích ứng) [17].
Tập dữ liệu được chia thành các phần khác nhau, một tập dữ liệu để huấn luyện, một tập dữ liệu để xác nhận và một tập dữ liệu để kiểm thử (tập dữ liệu tạm dừng). Tập dữ liệu huấn luyện được sử dụng để huấn luyện các trọng số của mô hình trong quá trình lan truyền ngược. Mặt khác, bộ dữ liệu xác nhận và kiểm thử chỉ được sử dụng để đánh giá mô hình, để xem mô hình hoạt động như thế nào trên dữ liệu mới. Bộ dữ liệu xác nhận được sử dụng trong quá trình đào tạo như một đánh giá không thiên vị.
Điều quan trọng là phải giữ cho tập dữ liệu đào tạo được tách biệt hoàn toàn khỏi tập xác nhận và kiểm tra, vì mô hình được cho là chung cho tất cả các loại dữ liệu. Nếu tập dữ liệu xác nhận cũng được sử dụng để đào tạo, thì mô hình sẽ bị sai lệch và không cho kết quả đáng tin cậy khi mô hình được sử dụng trên dữ liệu mới, dữ liệu chưa nhìn thấy. Tập dữ liệu xác thực được sử dụng để xác thực mô hình trong quá trình đào tạo. Một tập dữ liệu bổ sung, tập dữ liệu thử nghiệm, được sử dụng để đánh giá thêm về mô hình và nó dự đoán dữ liệu mới tốt như thế nào? Tất cả các mẫu dữ liệu đều được gắn nhãn và do đó, các dự đoán có thể được so sánh với các nhãn thực tế.
Phần tách của tập dữ liệu hoàn chỉnh là: 80% dữ liệu huấn luyện, 10% dữ liệu xác thực và 10% dữ liệu kiểm tra. Sự phân chia có thể được phân chia khác nhau giữa các bộ dữ liệu, cũng có thể sử dụng xác thực chéo, để sử dụng tất cả dữ liệu mà không gặp rủi ro, mô hình trang bị quá mức hoặc trang bị thiếu. Hiện tượng Overfitting có nghĩa là mô hình phù hợp tốt với dữ liệu huấn luyện, nhưng không tổng quát hóa tốt trên các mẫu dữ liệu mới. Việc trang bị một mô hình như
Hình 2.8 Tìm giá trị hàm mất mát nhỏ nhất là mục tiêu khi huấn luyện mạng nơ ron
vậy có nghĩa là mô hình đó không nắm bắt tốt các mẫu dữ liệu và thường được xem là mô hình quá đơn giản.
Khi đánh giá ba tập dữ liệu, sự mất mát và độ chính xác được quan tâm. Sự mất mát, như được mô tả ở trên, là khoảng cách giữa nhãn dự đoán và nhãn thực tế của tập dữ liệu. Việc lựa chọn hàm mất mát thường phụ thuộc vào nhiệm vụ của mô hình. Đối với luận văn, một hàm mất mát entropy chéo phân loại thưa thớt3 được chọn, vì bài toán có một lớp đúng cho mỗi mẫu dữ liệu trong số một số lớp. Hàm mất mát entropy chéo là phân phối giữa hai phân phối xác suất, hai phân phối là đúng và các lớp được dự đoán. Hàm được cho bởi phương trình (2.10) trong đó 𝑦𝑖 là nhãn thực và 𝑦̃𝑖 là nhãn dự đoán. Hàm mất mát entropy chéo phân loại được sử dụng khi một mô hình có nhiều hơn hai lớp.
Loss = - ∑𝑜𝑢𝑡𝑝𝑢𝑡𝑠𝑖𝑧𝑒𝑖=1 𝑦𝑖 . log (𝑦̃)𝑖
Độ chính xác là số lượng mẫu dữ liệu được phân loại chính xác, trong số tất cả các mẫu dữ liệu trong mỗi tập dữ liệu. Ba giá trị này có thể cung cấp một cái nhìn khách quan hơn về kết quả của một mô hình. Họ mô tả tỷ lệ dương tính giả, độ nhạy của âm tính giả và tỷ lệ giữa dương tính giả và âm tính giả.