Các lớp trong mô hình

Một phần của tài liệu Xây dựng hệ thống nhận diện khuôn mặt và cảm xúc dùng mạng nơ ron tích chập (Trang 40 - 45)

Đặc trưng (feature): CNN so sánh hình ảnh theo từng mảnh. Các mảnh mà nó tìm được gọi là các đặc điểm. Bằng cách tìm ở mức thô các đặc điểm khớp nhau ở cùng vị trí trong hai hình ảnh, CNN nhìn ra sự tương đồng tốt hơn nhiều so với việc khớp toàn bộ bức ảnh.

19

Mỗi đặc điểm giống như một hình ảnh mini - một mảng hai chiều nhỏ. Các đặc điểm khớp với các khía cạnh chung của các bức ảnh. Trong trường hợp hình ảnh X, các đặc điểm bao gồm các đường chéo và hình chữ thập, CNN sẽ nắm bắt tất cả những đặc điểm quan trọng của hầu hết các hình ảnh X. Những đặc điểm này có lẽ sẽ khớp với phần cánh và phần trung tâm của bất kỳ hình ảnh X nào

 Lớp chập (Convolutional)

Lớp chập bao gồm “Convolutional 2D” tích chập 2 chiều sẽ cho phép bộ lọc (filters) di chuyển theo 2 chiều (theo cả chiều ngang và chiều dọc) và “Convolutional 3D” tích chập 3 chiều là khi bộ lọc có thể di chuyển thêm cả chiều sâu của ảnh. Khi xem một hình ảnh mới, CNN không biết chính xác nơi các đặc điểm này sẽ khớp nên nó sẽ thử chúng khắp mọi nơi, ở mọi vị trí có thể. Khi tính toán sự ăn khớp của một đặc điểm trên toàn bộ ảnh, lớp này sẽ sử dụng một bộ gồm các bộ lọc có kích thước nhỏ so với ảnh (thường là 3×3 hoặc 5×5) áp vào một vùng trong ảnh và tiến hành tính tích chập giữa bộ lọc và giá trị điểm ảnh trong vùng cục bộ đó. Bộ lọc sẽ lần lượt được dịch chuyển theo một giá trị bước trượt chạy dọc theo ảnh và quét toàn bộ ảnh [8].

20

Nguyên tố trọng tâm của nhân chập được đặt chồng lên điểm ảnh cần xét, nó sẽ thay thế điểm ảnh đó với tổng trọng số liên kết của chính nó và các điểm ảnh gần kề. Như vậy nếu một bức ảnh 48x48 và một bộ lọc 3x3, ta sẽ có kết quả là một tấm ảnh mới có kích thước 48x48 là kết quả tích chập của bộ lọc và ảnh. Với bao nhiêu bộ lọc trong lớp này thì ta sẽ có bấy nhiêu ảnh tương ứng mà lớp này trả ra và được truyền vào lớp tiếp theo. Để hoàn tất tích chập, chúng ta lặp lại quá trình này, lấy kết quả từ mỗi tích chập và tạo một mảng hai chiều mới. Từ đó, dựa vào vị trí của mỗi mảnh nằm trong hình ảnh. Bản đồ các phần khớp nhau này cũng là một phiên bản đã được lọc từ hình ảnh gốc. Nó là một bản đồ thể hiện nơi tìm thấy đặc điểm trong hình ảnh. Các giá trị gần 1 cho thấy sự khớp mạnh, các giá trị gần -1 cho thấy sự khớp mạnh với âm bản của đặc điểm và các giá trị gần bằng 0 cho thấy không khớp với bất kỳ loại nào.

Lớp RELU

Lớp này thường được cài đặt ngay sau lớp chập. Lớp này sử dụng hàm kích hoạt f (x) = max (0, x) nhằm chuyển toàn bộ giá trị âm trong kết quả lấy từ lớp chập thành giá trị 0. Ý nghĩa của cách cài đặt này chính là tạo nên tính phi tuyến cho mô hình. Tương tự như trong mạng truyền thẳng, việc xây dựng dựa trên các phép biến đổi tuyến tính sẽ khiến việc xây dựng đa tầng đa lớp trở nên vô nghĩa. Có rất nhiều cách để khiến mô hình trở nên phi tuyến như sử dụng các hàm kích hoạt sigmoid, tanh… nhưng f (x) = max (0, x) hàm dễ cài đặt, tính toán nhanh mà vẫn hiệu quả [7].

21

Hình 2.12: Ví dụ về lớp RELU

 Lớp gộp (Pooling)

Lớp gộp là cách làm co các hình ảnh lớn lại nhưng vẫn giữ các thông tin quan trọng nhất trong đó. Lớp này sử dụng một ô vuông cửa sổ nhỏ trượt quét qua toàn bộ ảnh dữ liệu, mỗi lần trượt theo một bước trượt cho trước. Khác với lớp chập, lớp gộp không tính tích chập mà tiến hành lấy mẫu. Khi cửa sổ trượt trên ảnh, chỉ có một giá trị được xem là giá trị đại diện cho thông tin ảnh tại vùng đó (giá trị mẫu) được giữ lại. Các phương thức phổ biến trong lớp gộp là MaxPooling (lấy giá trị lớn nhất), MinPooling (lấy giá trị nhỏ nhất) và AveragePooling (lấy giá trị trung bình). Xét một ảnh có kích thước 32×32 và lớp gộp sử dụng bộ lọc có kích thước 2×2 với bước trượt stride = 2, phương pháp sử dụng là MaxPooling. Bộ lọc sẽ lần lượt duyệt qua ảnh, với mỗi lần duyệt chỉ có giá trị lớn nhất trong 4 giá trị nằm trong vùng cửa sổ 2×2 của bộ lọc được giữ lại và đưa ra đầu ra. Như vậy sau khi qua lớp gộp, ảnh sẽ giảm kích thước xuống còn 16×16 (kích thước mỗi chiều giảm 2 lần [8].

22

Hình 2.13: Maxpooling với bộ lọc 2x2, bước trượt bằng 2

 Lớp kết nối đầy đủ (Fully-connected)

Lớp này tương tự với lớp trong mạng nơ-ron truyền thẳng, các giá trị ảnh được liên kết đầy đủ vào nút trong lớp tiếp theo. Sau khi ảnh được xử lý và rút trích đặc trưng từ các lớp trước đó, dữ liệu ảnh sẽ không còn quá lớn so với mô hình truyền thẳng nên ta có thể sử dụng mô hình truyền thẳng để tiến hành nhận dạng. Tóm lại, lớp kết nối đầy đủ đóng vai trò như một mô hình phân lớp và tiến hành dựa trên dữ liệu đã được xử lý ở các lớp trước đó [8].

23

Một phần của tài liệu Xây dựng hệ thống nhận diện khuôn mặt và cảm xúc dùng mạng nơ ron tích chập (Trang 40 - 45)

Tải bản đầy đủ (PDF)

(109 trang)