Trong môi trường lâm sàng, điều này dẫn đến khả năng một số người sử dụng sẽ có thể bị lây các bệnh truyền nhiễm, Trong đề tài này, tôi đề xuất một phương pháp nhận dạng khuôn mặt dựa tr
Trang 1BỘ TÀI NGUYÊN VÀ MÔI TRƯỜNG TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI
Tổ chức chủ trì: Trường Đại học Tài nguyên và Môi trường Hà Nội
Chủ nhiệm đề tài: TS Nguyễn Đức Toàn
Hà Nội - 2021
Trang 2BỘ TÀI NGUYÊN VÀ MÔI TRƯỜNG TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI
BÁO CÁO TỔNG HỢP
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NĂM 2021
TÊN ĐỀ TÀI
ĐỀ XUẤT MỘT KỸ THUẬT NHẬN DẠNG MẶT NGƯỜI
DỰA TRÊN MỐNG MẮT SỬ DỤNG NGÔN NGỮ LẬP TRÌNH
Hà Nội - 2021
Trang 3i
MỤC LỤC
THÔNG TIN K T QU NGHIÊN C U iiiẾ Ả Ứ
INFORMATION ON RESEARCH RESULTS v
DANH MỤC CÁC CHỮ VIẾT TẮT vii
DANH MỤC CÁC HÌNH viii
LỜI MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Đối tượng và phạm vi nghiên cứu của đề tài 2
3 M c tiêu nghiên c u: 2 ụ ứ 4 N i dung nghiên c u: 2 ộ ứ 5 Phương pháp nghiên cứu: 3
5.1 Phương pháp nghiên cứu lý thuyết: 3
5.2 Phương pháp nghiên cứu thực tiễn: 3
5.3 Phương pháp thiết kế mô hình, chế tạo sản phẩm: 3
5.4 Phương pháp thực nghiệm khoa học: 3
5.5 Phương pháp phân tích và tổng kết kinh nghiệm: 3
6 Ý nghĩa khoa học của đề tài: 3
CHƯƠNG 1 TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU 4
1.1 Tình hình nghiên cứu ngoài nước và trong nước 4
1.1.1 Tình hình nghiên cứu ngoài nước 4
1.1.2 Tình hình nghiên cứu trong nước 5
1.2 Công ngh nh n di n khuôn m t 9 ệ ậ ệ ặ 1.3 Th c trự ạng và phương pháp của h th ng nh n d ng khuôn m t 10 ệ ố ậ ạ ặ 1.3.1 Quy trình của hệ thống nhận dạng khuôn mặt 10
1.3.2 Phát hiện khuôn mặt (face detection) 10
1.4 M t s ộ ố phương pháp nhận d ng khuôn m t 11 ạ ặ 1.4.2 Dựa trên tri thức 14
1.4.3 Dựa trên so khớp mẫu 14
1.4.4 Dựa trên diện mạo 15
1.4.5 Dựa trên đặc trưng lõm 15
1.5 T ng quan v bài toán 16 ổ ề 1.6 Kết luận chương 1 16
Trang 4ii
CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP VÀ THUẬT TOÁN NHẬN DẠNG 17
2.1 Thu t toán Viola-Jones 17 ậ 2.2 One-shot learning 18
2.3 Learning similarity 18
2.4 Siam network 19
2.5 Thu t toán ORB 20 ậ 2.6 Thu t toán RANSAC 21 ậ 2.7 Thu ật toán HOG (Trong đề tài chủ ế y u dùng thu t toán này) 22 ậ 2.8 Thu t toán Cậ amShif (Dùng trong đề tài và có bài báo trong REV) 28
2.8.2 Thuật toán Camshift 29
2.8.3 Cải tiến thuật toán áp dụng cho đề tài 29
CHƯƠNG 3 XÂY DỰNG DEMO 33
3.1 Gi i thi u 33 ớ ệ 3.2 Phát hi n m t và m ng m t 34 ệ ặ ố ắ 3.3 Biểu đồ đề xu t 36 ấ 3.4 Thu t toán s d ng 37 ậ ử ụ 3.5 K t qu nh n di n khuôn m t 38 ế ả ậ ệ ặ 3.6 Biểu đồ đánh giá độ an toàn và hi u su t 45 ệ ấ KẾT LU N VÀ KIẬ ẾN NGHỊ 46
1 K t lu n 46 ế ậ 2 Ki n ngh vế ị ề định hướ ng nghiên c u ti p theo 46 ứ ế DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA TÁC GIẢ 48
LIÊN QUAN ĐẾN ĐỀ TÀI 48
Trang 5iii
Mẫu 9-TTKQ
THÔNG TIN K T QU NGHIÊN C U Ế Ả Ứ
1 Thông tin chung:
- Tên đề tài: Đề xu t m t k thu t nh n d ng mấ ộ ỹ ậ ậ ạ ặt người d a trên m ng m t s d ng ngôn ự ố ắ ử ụ
Mục tiêu cụ thể : Chống học hộ, điểm danh hộ, đồng thời giám sát hành vi của sinh viên trên trường
theo thời gian thực (realtime)
3 Tính m i và sáng t o: ớ ạ
Sử dụng các thiết bị và giải pháp nhận diện khuôn mặt đã xuất hiện vài năm trở lại đây trong phạm vi ứng dụng chấm công, kiểm soát ra vào và xác thực định danh Công nghệ này càng trở nên rõ nét hơn khi đại dịch COVID19 đã ảnh hưởng lớn đến việc giao tiếp với các đối tượng xung quanh Nhận dạng vân tay sử dụng một cảm biến liên lạc, một thiết bị không tiệt trùng mà tất cả mọi người phải chạm tới để được nhận dạng Trong môi trường lâm sàng, điều này dẫn đến khả năng một số người sử dụng sẽ có thể bị lây các bệnh truyền nhiễm,
Trong đề tài này, tôi đề xuất một phương pháp nhận dạng khuôn mặt dựa trên mống mắt Nhận dạng dựa trên mống mắt ngược lại với nhận dạng dựa trên võng mạc, bởi vì mống mắt ở bên ngoài và có thể nhìn thấy mà không có bất kỳ ánh sáng xâm lấn Hệ thống nhận dạng mống mắt chỉ có một hình ảnh kỹ thuật số bên ngoài của mắt và không cung cấp bất kỳ thông tin y tế khác Mống mắt là tính năng độc đáo nhất có thể nhìn thấy trên cơ thể con người Không có hai tròng mắt giống nhau thậm - chí cặp song sinh giống hệt nhau cũng có mô hình mống mắt khác nhau Sự phong phú của các chi tiết trong mống mắt, sự khác biệt và không phụ thuộc vào di truyền, đồng thời việc cho hình ảnh tiếp cận mà không cần phải tiếp xúc vật lý… tất cả làm cho mống mắt có một định danh cá nhân xuất sắc Mỗi một công nghệ sinh trắc học có các ứng dụng nổi bậc riêng
Trang 6iv Tuy nhiên, trong việc nhận dạng con người, mống mắt có lợi thế hơn Mống mắt được công nhận là chính xác hơn nhận dạng bằng dấu vân tay hoặc khuôn mặt Do đó công nghệ không tiếp xúc là một lựa chọn tốt hơn hết
4 K t qu nghiên c u: ế ả ứ
Tìm hiểu các phương pháp nhận diện khuôn mặt cơ bản
Tìm hiểu được thư viện ảnh số OpenCV
Nhận diện được hình ảnh khá tốt qua nhận diện khuôn mặt
5 S n ph m: ả ẩ
1 Báo cáo tổng kết đề tài
2 Phần mềm ứng dụng được ghi trên đĩa CD
6 Phương thức chuyển giao, địa chỉ ứng dụng, tác động và lợi ích mang lại của kết quả nghiên cứu:
- Chuyển giao công nghệ có đào tạo và theo tỉ lệ 50-50 – Khoa CNTT và Phòng NCKH&HTQT Nhận dạng khuôn mặt trở nên bất tiện trong mùa dịch COVID 19 bởi mọi người phải đeo khẩu trang; -còn nhận dạng vân tay cũng gặp phiền hà khi mọi người không muốn bỏ găng tay Việc sử dụng rộng rãi tính năng nhận dạng mống mắt sẽ cải thiện những hạn chế này Vì vậy, đề tài phù hợp với mục tiêu, nội dung và sản phẩm dự kiến của đề tài
Kết quả của đề tài nếu được ứng dụng trong Trường Đại học Tài nguyên và Môi trường Hà Nội sẽ chống học hộ, điểm danh hộ, đồng thời giám sát hành vi của sinh viên trên trường theo thời gian thực (realtime)
Trang 7Duration: from to:
2 Objective(s): To study image recognition technology with AI to identify and scan irises of faces in
images Use deep learning technique to perform the recognition with previously learned machine data, then compare and recognize
Specific objectives: Anti-student, household attendance, and at the same time monitor students' behavior at school in real time
3 Creativeness and innovativeness:
Using facial recognition devices and solutions has emerged in the past few years in the scope
of timekeeping, access control and identity authentication applications This technology becomes even more apparent when the COVID19 pandemic has greatly affected communication with surrounding objects
Fingerprint recognition uses a contact sensor, a non-sterile device that everyone must touch in order to be identified In the clinical setting, this leads to the possibility that some users will be exposed to infectious diseases,
In this topic, I propose an iris-based face recognition method Iris-based recognition is the opposite of retina-based recognition, because the iris is external and visible without any invasive light The iris recognition system only takes a digital image of the outside of the eye and does not provide any other medical information The iris is the most unique feature visible on the human body
No two irises are alike - even identical twins have different iris patterns The richness of details in the iris, the distinct and independent genetics, and the access to images without the need for physical contact… all give the iris a unique identity excellent person Each of the biometric technologies has its own outstanding applications
Trang 8vi However, in recognizing people, the iris has an advantage Iris recognition is more accurate than fingerprint or face recognition Therefore contactless technology is a better choice
4 Research results:
- Learn basic face recognition methods
- Learn about OpenCV digital image library
- Face recognition is quite good
5 Products:
+) The final report on the topic
+) Application software recorded on CD
6 Transfer alternatives, application institutions, impacts and benefits of research results:
Technology transfer with training and at the rate of 50-50 Faculty of IT and Department of –Scientific Research and International Cooperation
Facial recognition becomes inconvenient during the COVID-19 season because everyone has
to wear masks; And fingerprint recognition is also problematic when people don't want to take off their gloves Widespread use of iris recognition should improve these limitations Therefore, the topic
is suitable for the purpose, content and expected product of the topic
The results of the project, if applied in the University of Natural Resources and Environment, Hanoi, will prevent students from studying, take attendance, and monitor students' behavior on campus in real time
Trang 9vii
DANH MỤC CÁC CHỮ VIẾT TẮT
Trang 10viii
DANH MỤC CÁC HÌNH
Hình 1 1 Kiểm soát theo thời gian thực (real-time) 9
Hình 1 2 Qui trình của hệ thống nhận dạng khuôn mặt 10
Hình 1 3 Các đặc trưng Haar 11
Hình 1 4 Mô hình phân tầng Cascade 13
Hình 1 5 Kết hợp các bộ phân loại yếu thành bộ phân loại mạnh 14
Hình 2 1 Phát hiện khuôn mặt bằng cách sử dụng Haar cascade được đào tạo trước 17
Hình 2 2 Phương pháp learning similarity 18
Hình 2 3 Mô hình Convolutional neural network 19
Hình 2 4 Kết quả đối sánh ảnh sử dụng thuật toán ORB 20
Hình 2 5 Đồ thị cường độ nhiễu của ảnh 21
Hình 2 6 Mô hình human detection dựa trên HOG 23
Hình 2 7 Hình ảnh vận động viên được chia thành các lưới ô vuông, mỗi ô vuông có kích thước 8x8 pixels 26
Hình 2 8 Mapping độ lớn gradients với các bins 27
Hình 3 1 Giao diện chạy chương trình getData 38 Hình 3 2 Các giao diện chuyển từ file ảnh sang file số 40
Hình 3 3 Các góc nghiêng nhận dạng 41
Hình 3 4 Các góc nghiêng không nhận dạng 43
Hình 3 5 Các hình ảnh nhận dạng khuôn mặt bằng mống mắt 44
Hình 3 6 Hiệu suất đối sánh giữa nhận dạng mống mắt và nhận dạng khuôn mặt ORB 45
Hình 3 7 Biểu đồ đối sánh nhiễu từ file ảnh sang file số 45
Trang 11lý và truyền dữ liệu đã giảm đáng kể đã dẫn đến việc tạo và phát triển các phương pháp để xác định hiệu quả người từ video và hình ảnh, và hầu hết các phần của phương pháp tập trung vào việc nhận dạng khuôn mặt người
Các công ty lớn nhất trên thế giới đang phát triển của riêng các giải pháp phần mềm sử dụng đặc trưng của khuôn mặt trong ảnh và trong video Những công ty khổng lồ như Amazon, Facebook, Apple đã triển khai hệ thống thông minh phân tích video trong điều kiện thực và đưa ra thị trường các giải pháp cạnh tranh Amazon Rekognition [8] cho phép nhúng ảnh và video dựa trên học sâu vào các ứng dụng Dịch vụ này có thể nhận dạng các đối tượng, người, văn bản, cảnh và hành động, cũng như phát hiện nội dung không phù hợp Amazon Rekognition có thể phân tích chính xác và nhận dạng khuôn mặt trong hình ảnh và video Facebook đã triển khai một dự án để nhận dạng và xác định trước mặt của mọi người trong các bức ảnh đã được đưa lên mạng xã hội và cho phép sử dụng các từ
để mô tả mọi thứ hiển thị trong ảnh [ ] Công nghệ FaceID của Apple [ ] cho phép độ chính xác cao 9 10xác định người dùng trên điện thoại thông minh và thay thế cho quét dấu vân tay, vì nó sử dụng hệ thống cảm biến và máy ảnh chất lượng cao và một loạt các các phương pháp nhận dạng, bao gồm cả nhận dạng khuôn mặt Thị giác máy tính và học máy đã làm nên điều đó có thể thực hiện xác định khách hàng thông qua thiết bị đầu cuối video trong một tổ hợp mua sắm tự động [11, 12] không có máy tính tiền và bộ điều khiển, và theo dõi [13]
Tại Việt Nam, một số công ty sáng tạo hình thành lĩnh vực dịch vụ phân tích hình ảnh trong tiếp cận hệ thống điều khiển Ví dụ, dịch vụ BiFace [ ] Trên thế giới hệ thống nhận dạng khuôn 14mặt NTechLab [ ] dẫn đầu trong việc phát triển thuật toán và các giải pháp phần mềm để kiểm soát15nhận dạng cá nhân cho các nhóm người, thành phố và Quốc gia Dịch vụ FindFace từ công ty này chiếm lĩnh các dòng xếp hạng cạnh tranh hàng đầu cho nhận dạng khuôn mặt Mức độ chính xác của
Trang 122 nhận dạng và tốc độ của phân tích phụ thuộc vào các phương pháp chuyển đổi ảnh, các đặc trưng của tập huấn luyện, sử dụng phương pháp huấn luyện sâu và thuật toán tìm kiếm
Nhận dạng một người trong video có nhiều giai đoạn Bước đầu tiên là chuyển đổi video vào sang ảnh, bước thứ hai là tìm kiếm các ảnh có khuôn mặt Phần thứ ba là gán một tập hợp duy nhất đặc trưng cho tất cả những đặc điểm thấy Thứ tư là xác định người dựa trên so sánh với cơ sở dữ liệu [16], [17], [18] Toán học các phương pháp và mô hình được sử dụng để nhận dạng khuôn mặt bao gồm phương pháp hồi quy, mạng nơron, SVM [4], [5],
2 Đối tượng và ph m vi nghiên c u cạ ứ ủa đề tài
2.1 Đối tượng nghiên cứu: Đề tài tập trung nghiên cứu một số phương pháp nhận dạng khuôn mặt người, chủ yếu là nhận diện bằng mống mắt
2.2 Phạm vi nghiên cứu: là sinh viên đang học tập tại trường Đại học Tài nguyên và Môi trường Hà Nội, tập trung chủ yếu là sinh viên Khoa CNTT
3 M c tiêu nghiên c u: ụ ứ
Nghiên cứu đề tài này nhằm mục đích tìm hiểu bài toán nhận dạng khuôn mặt bằng mống mắt, từ đó xây dựng các hệ thống ứng dụng trong thực tiễn như: điểm danh, giam sát người ra vào, an ninh trong sân bay Nhận dạng khuôn mặt trở nên bất tiện trong mùa dịch COVID-19 bởi mọi người phải đeo khẩu trang; còn nhận dạng vân tay cũng gặp phiền hà khi mọi người không muốn bỏ găng tay Việc sử dụng rộng rãi tính năng nhận dạng mống mắt sẽ cải thiện những hạn chế này Vì vậy, đề tài phù hợp với mục tiêu, nội dung và sản phẩm dự kiến của đề tài
4 N i dung nghiên c u: ộ ứ
Chương 1: Tổng quan vấn đề nghiên cứu
Trong chương này, tác giả sẽ trình bày về những cơ sở lý thuyết về nhận dạng khuôn mặt,
tổng quan về bài toán đặt ra để giải quyết trong đề tài
Chương Một số phương pháp và thuật toán nhận dạng ảnh2:
Trong chương này, tác giả sẽ trình bày về một số phương pháp nhận dạng ảnh và một số thuật toán về nhận dạng khuôn mặt có sử dụng trong đề tài nghiên cứu từ đó làm tiền đề xây ,
dựng demo ở chương 3
Chương Xây dựng demo 3:
Trong chương này, tác giả sẽ trình bày về demo của đề tài nghiên cứu dựa trên các thuật ,
toán từ chương 2, trong chương này còn sử dụng máy học để phân tích ảnh ra dạng số
Trang 133
5 Phương pháp nghiên cứu:
5.1 Phương pháp nghiên cứu l thuyết: ý
+ Tìm hiểu một số thuật toán nhận dạng khuôn mặt
+ Tìm hiểu ngôn ngữ lập trình Python
5.2 Phương pháp nghiên cứu thực tiễn:
+ Phương pháp khảo sát thực tế, thu thập dữ liệu: tìm hiểu thực tế về công nghệ nhận dạng khuôn mặt
+ Phương pháp phân tích đánh giá: dựa vào dữ liệu đã tìm hiểu được Phân tích các thuật toán
5.3 Phương pháp thiết kế mô hình, chế tạo sản phẩm:
+ Xác định yêu cầu của bài toán đặt ra
+ Tính toán lựa chọn các thuật toán phù hợp
5.4 Phương pháp thực nghiệm khoa học:
+ Bước đầu đưa sản phẩm vào sử dụng để hiệu chỉnh thông số chi tiết và hoàn thiện sản phẩm demo
5.5 Phương pháp phân tích và tổng kết kinh nghiệm:
+ Phân tích, đánh giá ưu nhược điểm của sản phẩm
+ Rút ra kinh nghiệm cũng như đưa ra hướng phát triển cho phù hợp
6 Ý nghĩa khoa học của đề tài:
Kết quả của đề tài nếu được ứng dụng trong Trường Đại học Tài nguyên và Môi trường Hà Nội sẽ chống học hộ, điểm danh hộ, đồng thời giám sát hành vi của sinh viên trên trường theo thời gian thực (realtime)
Trang 144
CHƯƠNG 1 TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU
Trong chương này, tác giả sẽ trình bày về những cơ sở lý thuyết về nhận dạng khuôn
mặt, tổng quan về bài toán đặt ra để giải quyết trong đề tài
1.1 Tình hình nghiên cứu ngoài nước và trong nước
1.1.1 Tình hình nghiên cứu ngoài nước
Trong năm 1964 và 1965, Bledsoe, cùng với Helen Chan và Charles Bisson, bắt đầu ý tưởng sử dụng máy tính để nhận ra khuôn mặt của con người (Bledsoe 1966a, 1966b; Bledsoe và Chan 1965) Ông rất tự hào về công việc này, nhưng do kinh phí được cung cấp bởi một cơ quan tình báo giấu tên mà không cho phép công khai, rất ít tác phẩm đã được xuất bản Với một cơ sở dữ liệu lớn các hình ảnh (thực tế là một cuốn sách ảnh thẻ) và một bức ảnh, vấn đề là phải lựa chọn từ cơ sở dữ liệu là một tập hợp nhỏ các hồ sơ hình ảnh như vậy
có chứa các hình ảnh ăn khớp với bức ảnh đưa ra Sự thành công của phương pháp này có thể được đo bằng tỷ lệ danh sách câu trả lời trên số lượng các hồ sơ trong cơ sở dữ liệu Bledsoe (1966a) đã mô tả những khó khăn sau đây:
Dự án này đã được dán nhãn "man-machine" bởi vì con người trích xuất tọa độ của một tập hợp các đặc điểm từ các hình ảnh, sau đó được máy tính sử dụng để nhận dạng Sử dụng một graphic tablet (GRAFACON hoặc RAND TABLET), các toán tử sẽ trích xuất các tọa độ của các đặc điểm như tâm của con ngươi, các góc bên trong mắt, góc ngoài của mắt, điểm widows peak và Từ những tọa độ này, một danh sách 20 khoảng cách, như chiều rộng của miệng và khoảng cách giữa 2 mắt, từ con ngươi đến con ngươi sẽ được tính toán Các toán tử
có thể xử lý khoảng 40 hình ảnh một giờ Khi xây dựng các cơ sở dữ liệu, tên của người trong bức ảnh đã được gắn liền với danh sách của các khoảng cách tính toán và được lưu trữ trong máy tính Trong giai đoạn nhận dạng, tập hợp các khoảng cách được so sánh với khoảng cách tương ứng cho mỗi bức ảnh, cho ra một khoảng cách giữa các bức ảnh và các bản ghi cơ sở
dữ liệu Các hồ sơ gần nhất được trả về
Hệ thống điểm danh bằng mặt người thực hiện rút trích tự động khuôn mặt người trong ảnh thu được từ camera (webcam) và xác định danh tính của đối tượng trong hệ thống dựa vào nội dung của ảnh khuôn mặt rút trích được Nhận dạng tự động khuôn mặt có thể ứng
Trang 155
dụng nhiều trong thực tiễn như camera giám sát, hệ thống chấm cơng, chú thích ảnh tự động, lưu trữ thơng tin khuơn mặt ở các máy ATM, tìm kiếm và xác minh tội phạm Hệ thống điểm danh thực hiện nhận dạng khuơn mặt người qua 2 bước chính: định vị khuơn mặt trong ảnh thu được từ camera và định danh đối tượng từ ảnh khuơn mặt Trong bài báo [20] trình bày các nghiên cứu trước đây trong nhận dạng khuơn mặt người Rút trích tự động khuơn mặt trong ảnh thu được từ camera dựa trên mơ hình mạng nơ-ron [14] hoặc đặc trưng haar-like kết hợp với mơ hình phân tầng (Cascade of Boosted Classifiers – CBC) [18]
Để xác định danh tính của đối tượng trong hệ thống dựa vào nội dung của ảnh khuơn mặt, nghiên cứu trước đây sử dụng các đặc trưng như mắt, tai, màu tĩc, độ dày mơi để tự động nhận dạng [10], [19] sử dụng phương pháp phân tích thành phần chính (Principal Component Analysis - PCA) và thuật tốn eigenfaces để nhận dạng khuơn mặt Các hướng nghiên cứu gần đây [12], [13], [15], [17], dựa vào phương pháp biểu diễn ảnh bằng các nét đặc trưng khơng đổi với những biến đổi tỉ lệ Đặc trưng cục bộ SIFT khơng bị thay đổi trước những biến đổi tỉ lệ ảnh, tịnh tiến, phép quay, khơng bị thay đổi một phần đối với phép biến đổi hình học affine (thay đổi gĩc nhìn) và mạnh với những thay đổi về độ sáng, nhiễu và sự che khuất Để định danh đối tượng từ ảnh khuơn mặt người, [ ] đề xuất so khớp các đặc 14trưng SIFT trong khi nghiên cứu của [16] kết hợp giải thuật Bayes với láng giềng gần nhất (Nạve Bayes Nearest Neighbor - NBNN [11]) và đặc trưng trong [6], trong bài báo [7] đề xuất mơ hình máy học
1.1.2 Tình hình nghiên cứu trong nước
Ngày 20/4/2020, Viện Nghiên cứu trí tuệ nhân tạo VinAI Research (Vingroup) đã nghiên cứu thành cơng cơng nghệ nhận diện khuơn mặt chính xác, ổn định cả khi dùng khẩu trang; trở thành một trong những đơn vị đầu tiên trên thế giới nghiên cứu thành cơng và sẵn sàng cung cấp miễn phí cho cộng đồng
VinAI sử dụng mơ hình học sâu (deep learning) mới nhất và đặc thù do các chuyên gia của viện nghiên cứu và tối ưu hĩa để nghiên cứu cơng nghệ nhận diện ổn định cả khi sử dụng và khơng sử dụng khẩu trang Mơ hình deep learning với thiết kế mơ phỏng cách hoạt động của mạng lưới thần kinh trong não người để huấn luyện và tự động trích xuất các thơng tin cĩ giá trị trên một phần khuơn mặt, nhằm nhận diện ngay cả khi người dùng sử dụng khẩu trang
Trang 166
Kết quả nghiên cứu cho thấy khi giả lập đeo khẩu trang hệ thống nhận diện của VinAI - đạt được độ chính xác tốt hơn đáng kể so với công nghệ hiện tại trên thế giới Điểm ưu việt của công nghệ nhận diện do VinAI phát triển là thuật toán và cách sử dụng công nghệ nhận diện dẫn đến hiệu quả ổn định, có độ chính xác cao
Nhận dạng mặt người (Face recognition) là một lĩnh vực nghiên cứu của ngành Computer Vision, và cũng được xem là một lĩnh vực nghiên cứu của ngành Biometrics (tương tự như nhận dạng vân tay – Fingerprint recognition, hay nhận dạng mống mắt – Iris recognition) Xét về nguyên tắc chung, nhận dạng mặt có sự tương đồng rất lớn với nhận dạng vân tay và nhận dạng mống mắt, tuy nhiên sự khác biệt nằm ở bước trích chọn đặt trưng (feature extraction) của mỗi lĩnh vực
Trong khi nhận dạng vân tay và mống mắt đã đạt tới độ chín, tức là có thể áp dụng trên thực tế một cách rộng rãi thì nhận dạng mặt người vẫn còn nhiều thách thức và vẫn là một lĩnh vực nghiên cứu thú vị với nhiều người So với nhận dạng vân tay và mống mắt, nhận dạng mặt có nguồn dữ liệu phong phú hơn (có thể nhìn thấy mặt người ở bất cứ tấm ảnh, video clip nào liên quan tới con người trên mạng) và ít đòi hỏi sự tương tác có kiểm soát hơn (để thực hiện nhận dạng vân tay hay mống mắt, dữ liệu input lấy từ con người đòi hỏi có sự hợp tác trong môi trường có kiểm soát)
Hiện nay các phương pháp nhận dạng mặt được chia thành nhiều hướng theo các tiêu chí khác nhau: nhận dạng với dữ liệu đầu vào là ảnh tĩnh 2D (still image based FR) là phổ biến nhất, tuy nhiên tương lai có lẽ sẽ là 3D FR (vì việc bố trí nhiều camera 2D sẽ cho dữ liệu 3D và đem lại kết quả tốt hơn, đáng tin cậy hơn), cũng có thể chia thành 2 hướng là: làm với
dữ liệu ảnh và làm với dữ liệu video.[1]
Trên thực tế người ta hay chia các phương pháp nhận dạng mặt ra làm 3 loại: phương pháp tiếp cận toàn cục (global, như Eigenfaces-PCA, Fisherfaces-LDA), phương pháp tiếp cận dựa trên các đặc điểm cục bộ (local feature based, như LBP, Gabor wavelets) và phương pháp lai (hybrid, là sự kết hợp của hai phương pháp toàn cục và local feature) [2] Phương pháp dựa trên các đặc điểm cục bộ đã được chứng minh là ưu việt hơn khi làm việc trong các điều kiện không có kiểm soát và có thể nói rằng lịch sử phát triển của nhận dạng mặt (A
Trang 17Nhận dạng khuôn mặt (Face Recognition) là một phương pháp sinh trắc để xác định hoặc xác minh một cá nhân nào đó bằng cách so sánh dữ liệu hình ảnh chụp trực tiếp hoặc hình ảnh kỹ thuật số với bản ghi được lưu trữ cho người đó.Nó được xem là một lĩnh vực nghiên cứu của ngành Biometrics (tương tự như nhận dạng vân tay – Fingerprint Recognition, hay nhận dạng mống mắt – Iris Recognition) Xét về nguyên tắc chung, nhận dạng khuôn mặt có sự tương đồng rất lớn với nhận dạng vân tay và nhận dạng mống mắt, tuy nhiên sự khác biệt nằm ở bước trích chọn đặt trưng (feature extraction) của mỗi lĩnh vực [4] Trong khi nhận dạng vân tay và mống mắt đã đạt tới độ chín, tức là có thể áp dụng trên thực tế một cách rộng rãi thì nhận dạng khuôn mặt người vẫn còn nhiều thách thức và vẫn là một lĩnh vực nghiên cứu thú vị với nhiều người.So với nhận dạng vân tay và mống mắt, nhận dạng khuôn mặt có nguồn dữ liệu phong phú hơn (chúng ta có thể nhìn thấy mặt người ở bất
cứ tấm ảnh, video clip nào liên quan tới con người trên mạng) và ít đòi hỏi sự tương tác có kiểm soát hơn (để thực hiện nhận dạng vân tay hay mống mắt, dữ liệu input lấy từ con người đòi hỏi có sự hợp tác trong môi trường có kiểm soát)
Các hệ thống nhận dạng khuôn mặt thường được sử dụng cho các mục đích an ninh như kiểm soát an ninh tại tòa nhà, sân bay, máy ATM, tra cứu thông tin của tội phạm, phát hiện tội phạm ở nơi công cộng, và ngày càng được ứng dụng rộng rãi trong cuộc sống Bên cạnh những thành công đã được ghi nhận thì nhận dạng khuôn mặt cũng còn gặp nhiều khó khăn như về độ sáng, hướng nghiêng, kích thước hình ảnh, diện mạo, biểu hiện cảm xúc của khuôn mặt hay ảnh hưởng của tham số môi trường
Để xây dựng một hệ thống nhận dạng khuôn mặt có đầu vào của hệ thống là một hình ảnh kỹ thuật số hay một khung hình video từ một nguồn video Đầu ra là xác định hoặc xác minh người ở trong bức hình hoặc trong video đó là ai Hướng tới mục tiêu này chúng ta
Trang 18Trích rút đặc trưng (Feature Extraction): Sau khi phát hiện ra khuôn mặt trong bức ảnh, chúng ta tiến hành trích rút những đặc trưng của khuôn mặt Bước này trích xuất ra một vector đặc trưng đại diện cho một khuôn mặt Nó phải đảm bảo được tính duy nhất của một khuôn mặt [5]
Nhận dạng khuôn mặt (Face Recognition): Với hình ảnh đầu vào sau khi phát hiện ra khuôn mặt, trích rút các đặc trưng của khuôn mặt và đem so sánh các đặc trưng này với cơ sở
dữ liệu khuôn mặt
Bài toán nhận dạng khuôn mặt được ứng dụng nhiều trong các lĩnh vực đời sống đặc biệt ở những lĩnh vực công nghệ cao, yêu cầu về an ninh, bảo mật Do đó để hệ thống nhận dạng khuôn mặt hoạt động mạnh mẽ với tốc độ và độ tin cậy thì có rất nhiều các phương pháp
về nhận dạng khuôn mặt được đưa ra Các phương pháp có thể được phân loại theo các tiêu chí khác nhau như nhận dạng với dữ liệu ảnh đầu vào là ảnh tĩnh 2D (Elastic Bunch Graph, Active Appearance Model) Phương pháp này là phổ biến nhất và tương lai sẽ là 3D (3D Morphable Model)
Tuy nhiên trên thực tế người ta hay chia phương pháp nhận dạng khuôn mặt ra thành 2 loại:
• Nhận dạng dựa trên các đặc trưng của các phần tử trên khuôn mặt (Feature Base Face Recognition)
• Nhận dạng dựa trên xét tổng thể toàn khuôn mặt (Appearance Based Face Recognition)
Trang 199
1.2 Công nghệ nhận diện khuôn mặt
Công nghệ nhân diện khuôn mặt (Facial Recognition Technology) hiện là một công nghệ đang được sử dụng khá phổ biến tại các quốc gia phát triển Công nghệ này có khả năng xác định hoặc xác nhận một người từ hình ảnh kỹ thuật số được lấy mẫu trước đó hoặc từ một khung hình trong một nguồn video khác Và hiện nay, tại thị trường Việt Nam, công nghệ này
đã dần dần được sử dụng tại một số hệ thống cửa hàng, khách sạn - resort Công nghệ Nhận dạng khuôn mặt là một ứng dụng máy tính tự động xác định hoặc nhận dạng một người nào
đó từ một bức hình ảnh kỹ thuật số hoặc một khung hình video từ một nguồn video Một trong những cách để thực hiện điều này là so sánh các đặc điểm khuôn mặt chọn trước từ hình ảnh và một cơ sở dữ liệu về khuôn mặt Hệ thống này thường được sử dụng trong các hệ thống an ninh và có thể được so sánh với các dạng sinh trắc học khác như các hệ thống nhận dạng vân tay hay tròng mắt như nhiều người có thể biết Nhận dạng khuôn mặt hiện giờ đăng
là xu thế phát triển tất yếu của cuộc sống, nhận thấy tiềm năng lớn Futech cùng đội ngũ đã ứng dụng công nghệ này vào các giải pháp của mình để nâng cao hiệu quả và đáp ứng tốt hơn nhu cầu từ người sử dụng
Hình 1 1 Kiểm soát theo thời gian thực (real-time)
Trang 2010
1.3 Thực trạng và phương pháp của hệ thống nhận dạng khuôn mặt
1.3.1 Quy trình của hệ thống nhận dạng khuôn mặt
1.3.2 Phát hiện khuôn mặt (face detection)
Phát hiện khuôn mặt là quá trình xác định vị trí khu vực khuôn mặt trong hình ảnh và sẽ lấy ra tất cả các khuôn mặt trong một hình ảnh
Tiền xử lý ảnh (preprocessing): Bước này nhằm mục đích lọc nhiễu, nâng cao chất
lượng ảnh, trong bước này bao gồm các bước : Căn chỉnh ảnh, chuẩn hóa ánh sáng
Trích rút đặc trưng ( feature extraction): Ở bước này một phương pháp trích chọn đặc điểm như: mẫu nhị phân cục bộ – LBP (hay Gabor wavelets, Gradient, Discrete Cosine Transform …) sẽ được sử dụng với ảnh mặt để trích xuất các thông tin đặc trưng cho ảnh,kết quả là mỗi ảnh sẽ được biểu diễn dưới dạng một vector.đề tài nhóm chọn chủ yếu trình bày về
phương pháp Local Binary Pattern mục
Nhận dạng/Phân lớp: Bước nhận dạng (recognition) hay phân lớp (classification), tức là xác định danh tính (identity) hay nhãn (label) của ảnh – đó là ảnh của ai
Trang 2111
1.4 Một số phương pháp nhận dạng khuôn mặt
Phát hiện mặt người là bài toán cơ bản được xây dựng từ nhiều năm nay, có nhiều phương pháp được đưa ra như sử dụng template matching, neuron network…Cho tới nay bài toán này hầu như được giải quyết dựa trên phương pháp sử dụng các đặc trưng haar like Phương pháp này được cho là đơn giản và kết quả phát hiện là tương đối cao, lên tới 98%, các hãng sản xuất máy ảnh như Canon, Samsung… cũng đã tích hợp nó vào trong các sản phẩm của mình
1.4.1 Các đặc trưng Haar-Like: Các đặc trưng Haar Like là những hình chữ nhật được phân thành các vùng khác nhau như hình:
-Đặc trưng do Viola và Jones công bố gồm 4 đặc trưng cơ bản để xác định khuôn mặt người Mỗi đặc trưng Haar Like là sự kết hợp của hai hay ba hình chữ nhật -trắng hay đen như trong hình sau:
Để sử dụng các đặc trưng này vào việc xác định khuôn mặt người, 4 đặc trưng Haar-Like cơ bản được mở rộng ra và được chia làm 3 tập đặc trưng như sau:
Đặc trưng cạnh(edge feature)
Trang 2212
Đặc trưng đường(line feature)
Đặc trưng xung quanh tâm(center-surround features)
Dùng các đặc trưng trên, ta có thể tính được các giá trị của đặc trưng Haar-Like
là sự chênh lệch giữa tổng của các pixel của vùng đen và vùng trắng như trong công thức sau:
( ) ( )
Viola và Joines đưa ra một khái niệm gọi là Integral Image, là một mảng 2 chiều với kích thước bằng với kích thước của ảnh cần tính đặc trưng Haar Like, với mỗi -phần tử của mảng này được tính bằng cách tính tổng của điểm ảnh phía trên (dòng-1)
và bên trái (cột 1) của nó
-Công thức tính Intergral Image
( ) ∑ ( ) Sau khi tính được Integral Image, việc tính tổng các giá trị mức xám của một vùng bất kỳ nào đó trên ảnh thực hiện rất đơn giản theo cách sau:
Giả sử ta cần tính tổng giá trị mức xám của vùng D như hình dưới, ta có thể tính được như sau:
D = A + B + C + D - (A+B) - (A+C) + A Với A + B + C + D chính là giá trị tại điểm P4 trên Integral Image, tương tự như vậy A+B là giá trị tại điểm P2, A+C là giá trị tại điểm P3, và A là giá trị tại điểm P1 Vậy ta có thể viết lại biểu thức tính D ở trên như sau:
Trang 2313
( ⏟)
( ) ⏟( )
( ⏟)( ) ( ⏟)
AdaBoost là một bộ phân loại mạnh phi tuyến phức dựa trên hướng tiếp cận boosting được Freund và Schapire đưa ra vào năm 1995 Adaboost cũng hoạt động trên nguyên tắc kết hợp tuyến tính các weak classifiers để hình thành một trong các classifiers
Viola và Jones dùng AdaBoost kết hợp các bộ phân loại yếu sử dụng các đặc trưng Haar-like theo mô hình phân tầng (cascade) như sau:
Hình 1 4 Mô hình phân tầng CascadeTrong đó, là các bộ phân loại yếu, được biểu diễn như sau:
{ ( ) Với:
Trang 2414
AdaBoost sẽ kết hợp các bộ phân loại yếu thành bộ phân loại mạnh như sau:
( ) ∑( ( ) ( ) ( ) )
Với: là hệ số chuẩn hóa cho các bộ phân loại yếu
Đây là hình ảnh minh họa việc kết hợp các bộ phân loại yếu thành bộ phân loại mạnh
1.4.2 Dựa trên tri thức
Trong hướng tiếp cận này, các luật sẽ phụ thuộc rất lớn vào tri thức của những tác giả nghiên cứu về bài toán xác định khuôn mặt người Đây là hướng tiếp cận dạng top-down Dễ dàng xây dựng các luật cơ bản để mô tả các đặc trưng của khuôn mặt và các quan hệ tương ứng Ví dụ, một khuôn mặt thường có hai mắt đối xứng nhau qua trục thẳng đứng ở giữa khuôn mặt và có một mũi, một miệng Các quan hệ của các đặc trưng
có thể được mô tả như quan hệ về khoảng cách và vị trí Thông thường sẽ trích đặc trưng của khuôn mặt trước tiên để có được các ứng viên, sau đó các ứng viên này sẽ được xác định thông qua các luật để biết ứng viên nào là khuôn mặt và ứng viên nào không phải khuôn mặt Thường áp dụng quá trình xác định để giảm số lượng xác định sai
1.4.3 Dựa trên so khớp mẫu
Trong so khớp mẫu, các mẫu chuẩn của khuôn mặt (thường là khuôn mặt được chụp thẳng) sẽ được xác định trước hoặc xác định các tham số thông qua một hàm Từ một ảnh đưa vào, tính các giá trị tương quan so với các mẫu chuẩn về đường viền khuôn mặt, mắt, mũi và miệng Thông qua các giá trị tương quan này mà các tác giả quyết định
có hay không có tồn tại khuôn mặt trong ảnh Hướng tiếp cận này có lợi thế là rất dễ cài
Trang 2515
đặt, nhưng không hiệu quả khi tỷ lệ, tư thế, và hình dáng thay đổi Nhiều độ phân giải, đa
tỷ lệ, các mẫu con, và các mẫu biến dạng được xem xét thành bất biến về tỷ lệ và hình dáng
1.4.4 Dựa trên diện mạo
Trái ngược với các phưong pháp so khớp mẫu với các mẫu đã được định nghĩa trước bởi những chuyên gia, các mẫu trong hướng tiếp cận này được học từ các ảnh mẫu Một các tổng quát, các phương pháp theo hướng tiếp cận này áp dụng các kỹ thuật theo hướng xác suất thống kê và máy học để tìm những đặc tính liên quan của khuôn mặt và không phải là khuôn mặt Các đặc tính đã được học ở trong hình thái các mô hình phân
bố hay các hàm biệt số nên dùng có thể dùng các đặc tính này để xác định khuôn mặt người Đồng thời, bài toán giảm số chiều thường được quan tâm để tăng hiệu quả tính toán cũng như hiệu quả xác định
1.4.5 Dựa trên đặc trưng lõm
Năm 1983, James L Crowley đã đưa ra khái niệm ridge và peak Ridge là các điểm lồi trên ảnh Tập các điểm ridge trên ảnh sẽ tạo thành những đường xương sống và các đường này sẽ tạo thành các chùm tia gọi là peak (chùm) James L Crowley sử dụng phép hiệu của lọc Low Pass để rút ra các điểm ridge (lồi) trên ảnh, và sau đó một thuật toán duyệt để kết chúng lại với nhau thành các đặc trưng ridge và peak Tiếp sau đó, một số các phương pháp được đề xuất để rút trích các thông tin về ridge và valley (lõm) Hầu hết các phương pháp này dùng một bộ lọc để tăng cường thông tin về cạnh trên ảnh sau đó dò tìm quỹ tích các điểm cực trị Quỹ tích các điểm cực trị này được xem là các đặc trưng lồi và lõm Trong đặc trưng lồi và lõm được dò tìm trên nhiều độ phân giải khác nhau, cho kết quả đáng kể Tuy nhiên, chất lượng của các đặc trưng lồi lõm này còn phụ thuộc khá nhiều vào điều kiện chiếu sáng cũng như các mức phân giải được lựa chọn trước Để giải quyết sự phụ thuộc này, Lindeberg
đã đề xuất một phương pháp tự động chọn độ phân giải tốt nhất Gần đây Hải Trần đưa ra một cách tiếp cận sử dụng Laplacian để tăng cường thông tin cạnh sau đó dò tìm ridge và peak dưới nhiều mức khác nhau Trong hướng tiếp cận này, các đặc trưng ridge và peak được biểu diễn dưới dạng các đồ thị quan hệ hoặc các cây cấp bậc với các tầng là các ridge và peak được dò tìm tại các mức khác nhau
Trang 2616
1.5 Tổng quan về bài toán
Nhận dạng mặt người (Face recognition) được nghiên cứu từ nhưng năm 1980, là một lĩnh vực nghiên cứu của ngành thị giác máy tính (Computer Vision), và cũng được xem là một lĩnh vực nghiên cứu của ngành sinh trắc học (Biometrics) tương tự như nhận dạng vân tay -8 Fingerprint recognition, hay nhận dạng mống mắt Iris recognition Trong khi nhận - dạng vân tay và mống mắt có thể áp dụng trên thực tế một cách rộng rãi thì nhận dạng mặt người vẫn còn nhiều thách thức So với nhận dạng vân tay và mống mắt, nhận dạng mặt có nguồn dữ liệu phong phú hơn và ít đòi hỏi sự tương tác có kiểm soát hơn
Bài toán nhận dạng mặt người còn nhiều thách thức nên hàng năm trong & ngoài nước vẫn có nhiều nghiên cứu về các phương pháp nhận dạng mặt người Để thử nghiệm phương pháp chúng ta cần có một cơ sở dữ liệu ảnh mẫu Có ba cơ sở dữ liệu ảnh mẫu phổ biến là:
Cơ sở dữ liệu AT&T, Cơ sở dữ liệu Yale A, Cơ sở dữ liệu Yale B Bài toán nhận dạng khuôn mặt có thể áp dụng rộng rãi trong nhiều ứng dụng thực tế khác nhau
Trong đề tài này, tác giả tập trung vào bài toán nhận dạng bằng mống mắt sử dụng ngôn ngữ lập trình Python Do các khó khăn của bài toán nhận dạng khuôn mặt như: Tư thế góc chụp, sự xuất hiện hoặc thiếu một số thành phần của khuôn mặt, sự biểu cảm của khuôn mặt,
sự che khuất, hướng của ảnh, điều kiện của ảnh
nh được xét là ảnh số, nghĩa là ảnh mặt người được chụp từ các thiết bị như máy ảnh số,camera,….Không xem xét các ảnh mặt người nhân tạo như vẽ, điêu khắc …
Trang 2717
CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP VÀ THUẬT TOÁN NHẬN DẠNGTrong chương này, tác giả sẽ trình bày về những thuật toán dùng để giải quyết bài
toán đã nêu ra ở chương 1 và làm tiền đề cho chương 3
2.1 Thuật toán Viola-Jones
Thuật toán Viola-Jones lần đầu tiên được xuất bản vào năm 2001 bởi Paul Viola và Michael Jones trong bài báo năm 2001 của họ, Rapid Object Detection using a Boosted Cascade of Simple Features, bài báo này đã trở thành một trong những bài báo được trích dẫn nhiều nhất trong tài liệu về computer vision Trong bài báo này, Viola và Jones đề xuất một thuật toán có khả năng phát hiện các vật thể trong hình ảnh, bất kể vị trí và tỷ lệ của chúng trong một hình ảnh Hơn nữa, thuật toán này có thể chạy trong thời gian thực, giúp phát hiện các đối tượng trong video stream
Cụ thể, Viola và Jones tập trung vào việc phát hiện khuôn mặt trong ảnh, nhưng thuật toán này cũng có thể được sử dụng để huấn luyện máy dò tìm các vật thể tùy ý, như xe hơi, tòa nhà, dụng cụ nhà bếp và thậm chí là một trái chuối
Mặc dù khung Viola Jones chắc chắn đã mở ra cánh cửa để phát hiện đối tượng, nhưng giờ đây nó đã vượt xa các phương pháp khác, chẳng hạn như sử dụng Histogram of Oriented Gradients (HOG) + Linear SVM và Deep Learning
Trang 282.3 Learning similarity
Phương pháp này dựa trên một phép đo khoảng cách giữa 2 bức ảnh, thông thường là các norm chuẩn hoặc sao cho nếu 2 bức ảnh thuộc cùng một người thì khoảng cách là nhỏ nhất và nếu không thuộc thì khoảng cách sẽ lớn hơn
{ ( ) ( )
Hình 2 2 Phương pháp learning similarity.
Trang 2919
Thay vì dự báo một phân phối xác suất để tìm ra nhãn phù hợp nhất với ảnh đầu vào Thuật toán sẽ so sánh khoảng cách giữa ảnh đầu vào (bên phải) với toàn bộ các ảnh còn lại (bên trái) Ta cần chọn một ngưỡng threshold để quyết định ảnh là giống hoặc khác
Giả sử ngưỡng threshold là 0.5 Trong các bức ảnh bên trái thì bức ảnh ở giữa có khoảng cách với ảnh bên phải nhỏ hơn 0.5 Do đó nó được dự báo cùng một người với ảnh bên phải Learning similarity có thể trả ra nhiều hơn một ảnh là cùng loại với ảnh đầu vào tùy theo ngưỡng threshold Ngoài ra phương pháp này không bị phụ thuộc vào số lượng classes Do
đó không cần phải huấn luyện lại khi xuất hiện class mới.Điểm mấu chốt là cần xây dựng được một model encoding đủ tốt để chiếu các bức ảnh lên một không gian eucledean n chiều Sau đó sử dụng khoảng cách để quyết định nhãn của chúng
Như vậy learning similarity có ưu điểm hơn so với one shot learning khi không phải huấn luyện lại model khi mà vẫn tìm ra được ảnh tương đồng
-2.4 Siam network
Những kiến trúc mạng mà khi đưa vào 2 bức ảnh và mô hình sẽ trả lời chúng thuộc về cùng 1 người hay không được gọi chung là Siam network Siam network được giới thiệu đầu tiên bởi DeepFace: Closing the Gap to Human-Level - Yaniv Taigman elt
Kiến trúc của Siam network dựa trên base network là một Convolutional neural network đã được loại bỏ output lay có tác dụng encoding ảnh thành véc tơ embedding Đầu vào của er mạng siam network là 2 bức ảnh bất kì được lựa chọn ngẫu nhiên từ dữ liệu ảnh Output của Siam network là 2 véc tơ tương ứng với biểu diễn của 2 ảnh input Sau đó chúng ta đưa 2 véc
tơ vào hàm loss function để đo lường sự khác biệt giữa chúng Thông thường hàm loss function là một hàm norm chuẩn bậc 2