5 KẾT QUẢ MÔ PHỎNG
6.2 Cấu trúc mạng InceptionV3
Tuy nhiên, vì mạng InceptionV3 được huấn luyện sẵn để phân biệt 1000 lớp đầu ra, bao gồm ảnh về bàn phím, chuột, bút chì hay động vật. Điều này không phù hợp với việc nhận dạng khuôn mặt. Vì vậy, một số thay đổi đã được thực hiện cho mạng này. Đầu tiên, lớp Fully connected (lớp kết nối đầy đủ) sẽ được điều chỉnh với đầu ra có số chiều tương ứng với số lớp trong tập mẫu. Mạng InceptionV3 được huấn luyện sẵn có lớp đầu ra sử dụng hàm mất mát là hàm cross-entropy. Trong nghiên cứu này, lớp đầu ra cho mạng CNN này sẽ được định nghĩa hoàn toàn mới, trong đó khoảng cách LT-MHD được sử dụng như hàm mất mát giữa ngõ ra đự đoán và mục tiên huấn luyện. Gọi Y là ngõ ra dự đoán của mạng CNN và T là ngõ ra mong muốn của quá trình huấn luyện mạng. Hàm mất mátL của mạng được định nghĩa như sau:
L= 1 P −K K X i=1 min tj∈T kyi−tjk (i) where j = 1÷C (6.1) trong đó P là tổng số ảnh đưa vào huấn luyện, C là số lớp huấn luyện, yi là vector đầu ra của mạng CNN của một ảnh đầu vào,tj là vector ngõ ra mong muốn của một lớp và K =f×P với f là một tỷ số cho trước. Sau khi thực hiện các điều chỉnh này, mạng CNN này sẽ được huấn luyện lại với tập dữ liệu ảnh khuôn mặt. Việc huấn luyện này được thực hiện trên máy tính cá nhân. Hình 6.3 mô tả giá trị của hàm mất mát khi chúng tôi thực hiện việc huấn luyện lại mạng InceptionV3 được điều chỉnh với các tập dữ liệu ảnh khuôn mặt. Các kết quả cho thấy giá trị của hàm mất mát đã giảm đi khá nhiều khi sử dụng khoảng cách LT-MHD thay vì sử dụng hàm mất mát cross-entropy. Sau khi huấn luyện lại xong, mạng CNN này sẽ được sử dụng để trích các vector đặc trưng các ảnh khuôn mặt.