Vị trí 68 điểm landmark có trên khn mặt 13- 123docz.net

3 TÍCH HỢP ỨNG DỤNG PHÂN TÍCH KHN MẶT TRONG

1.13 Vị trí 68 điểm landmark có trên khn mặt 13

Trích chọn đặc trưng phục vụ cho q trình nhận dạng:

Ảnh khuôn mặt sau khi được căn chỉnh sẽ được đi qua một bộ trích chọn đặc trưng mà đầu ra ở đây là một vector biểu thị cho khuôn mặt. Với một độ đo thích hợp (ví dụ khoảng cách L2, khoảng cách cosine ...) thì hai khn mặt thu được từ hai ảnh của cùng một người sẽ có khoảng cách gần nhau và ứng với hai người khác nhau thì khoảng cách này sẽ là lớn. Các mơ hình trích chọn đặc trưng cũng rất đa dạng, dựa theo kiến trúc mạng Nơ-ron đã trình bày ở phần trên thì tác giả sẽ sử dụng mạng ResNet làm mạng để trích xuất đặc trưng khn mặt phục vụ cho q trình nhận diện.

Hình 1.15: Mơ hình quá trình huấn luyện và kiểm thử mạng CNN cho bài tốn nhận diện khn mặt 15.

Nhận dạng khuôn mặt:

Tùy vào ứng dụng thực tế mà việc nhận diện khn mặt được phân loại thành các bài tốn như face verification hay face identification.

Face verification: đây là bài toán xác thực liệu các ảnh có phải là của cùng

một người không, ứng dụng nhiều nhất của bài tốn này là bảo mật thơng tin. Một khn mặt sẽ được đăng kí với hệ thống và từ sau đó để mở khóa hệ thống này thì khi đưa khn mặt vào thơng qua mơ hình trích chọn đặc trưng được

một vector, vector này đem so sánh với vector đã được trích chọn đặc trưng từ khn mặt đã đăng kí, nếu khoảng cách giữa 2 vector này đủ nhỏ hơn một ngưỡng so sánh nào đó hệ thống bảo mật này sẽ được mở khóa.

Hình 1.16: Mơ hình xác thực khn mặt 16.

Face identification: khác với bài toán face verification, bài toán này mục tiêu

là xác định danh tính của khn mặt so với một tập các khuôn mặt. Ở đây lại chia ra làm 2 bài toán con là Open-set face identification và Close-set face identification.

o Với Close-set thì khn mặt nhận diện sẽ được phân vào một trong các khuôn mặt nằm trong tập thư viện

o Cịn với Open-set thì bài tốn trở nên phức tạp hơn ở chỗ phải xác định xem khn mặt ấy có nằm trong tập thư viện không đã rồi mới xác định danh tính của khn mặt đấy.

Để nhận dạng được chủ thể thì cần phải đi tìm kiếm đặc trưng trong cơ sở dữ liệu khuôn mặt sát với đặc trưng ảnh đầu vào nhất. Cơ sở dữ liệu khuôn mặt lưu các khuôn mặt dưới dạng vector. Để nhận diện khuôn mặt ứng với vector đặc trưng thu được thì cần tìm kiếm trong Database xem vector đặc trưng này đang

Hình 1.17: Mơ hình nhận dạng khn mặt17.

có độ tương đồng cao nhất với vector nào trong cơ sở dữ liệu (ví dụ sử dụng độ đo cosine để đo khoảng cách giữa hai vector). Từ đó đánh giá và đưa ra id của của khn mặt đó.

1.5 Kết chương

Trong chương nội dung đầu tiên của đề tài ,tơi đã trình bày một cách tổng quan nhất bài tốn nhận dạng khn mặt và các nghiên cứu có liên quan để giải quyết bài tốn. Sau khi trình bày bài tốn, tác giả cũng đã trình bày về mạng Nơ-ron nhân tạo cho đến mạng Nơ-ron tích chập.

Thơng qua những nghiên cứu và lựa chọn đã được trình bay trên cũng như bên trên tôi đưa ra một các khái quát về một hệ thống nhận diện khuôn mặt. Với những ưu điểm về phương pháp của ArcFace đưa ra tơi sử dụng nó là một trong những mơ hình mã hố hình ảnh tạo ra các vector tính năng cho khn mặt nhằm giúp và hỗ trợ cho các nhiệm vụ nhận dạng và xác thực khn mặt trong bài tốn chống gian lận sẽ được trình bày trong các chương sau.

ÁNH NHÌN TRÊN KHN MẶT

Theo dõi chuyển động mắt là việc quan sát các điểm nơi mắt một người nào đó tập trung vào hoặc những chuyển động của tia nhìn. Các phương án theo dõi ánh nhìn sẽ sử dụng thiết bị đeo để có thể theo dõi được ánh nhìn người đang đeo.

Thiết bị theo dõi chuyển động của mắt (eye tracker) là thiết bị đo lường vị trí mắt người nhìn vào và các chuyển động mắt của họ.

Những phát hiện đầu tiên về quy luật trong hành vi chuyển động mắt được đánh dấu vào năm 1879, khi Louis Emile Javal đã kết luận rằng, mắt người thực ra khơng đọc các dịng chữ ở trang giấy một cách đều đặn mà họ có xu hướng dừng lại tập trung ở một số từ, một số đoạn và nhanh chóng lướt qua những chữ hoặc đoạn khác. Đến những năm 1980, các thiết bị theo dõi chuyển động mắt đã bắt đầu được sử dụng để xem xét tác động của quảng cáo. Công nghệ của máy eye tracker đã giúp các nhà quảng cáo có thể xác định được đâu là điểm trên thông tin quảng cáo mà khách hàng tập trung nhìn và họ tập trung nhìn vào những phần đó trong bao lâu.

Nhận thấy việc theo dõi ánh nhìn của một người có thể quan sát được hành vi hướng nhìn và địa điểm quan sát của người nào đó. Trong các bài thi trực tuyến việc thí sinh nhìn vào các màn hình là cần thiết và liên tục. Vì vậy tơi xây dựng một hướng tiếp cận nhằm xác định hướng nhìn của người dùng từ đó có thể phát hiện các gian lận trong q trình làm bài trực tuyến.

Bên cạnh đó ở khía cạnh phân tích khác tơi khơng sử dụng thiết bị sử dụng theo dõi ánh nhìn, thay vào đó tơi nghiên cứu và tiếp cận nó như một vấn đề và sử dụng kĩ thuật trong trí tuệ nhân tạo để giải quyết vấn đề ánh nhìn với hình

ảnh từ webcam.

2.1 Face Landmark

Phát hiện mốc khuôn mặt (face landmark) là một nhiệm vụ trong thị giác máy tính, nhiệm vụ này cung cấp một bản đồ các vị trị các điểm chính từ khn mặt. Việc sử dụng Face landmark đang được áp dụng rộng rãi cho nhiều vấn đề khác nhau từ nhận diện khn mặt, theo dõi ánh nhìn, nhận diện cảm xúc, phát hiện tư thế đầu khi lái xe. . .

Để có thể tìm và đánh dấu được các mốc trên khn mặt có nhiều các phương pháp khác nhau. Song có hai loại phương pháp chính: phương pháp dựa trên mơ hình và phương pháp dựa trên kết cấu. Phương pháp dựa trên mơ hình, cịn được gọi là phương pháp dựa trên hình dạng, coi hình ảnh khn mặt và tập hợp các điểm mốc trên khn mặt là một hình dạng tổng thể.

Họ học “hình dạng khn mặt” từ các hình ảnh đào tạo được dán nhãn, và sau đó ở giai đoạn thử nghiệm, họ cố gắng tạo hình dạng phù hợp với một khn mặt chưa biết. Loại thứ hai, phương pháp dựa trên kết cấu, cịn được gọi là phương pháp khơng dựa trên mơ hình, nhằm mục đích tìm từng mốc trên khn mặt hoặc các nhóm mốc cục bộ một cách độc lập mà khơng cần sự hướng dẫn của mơ hình. Trong các phương pháp này, thơng tin hình dạng vẫn có thể được gọi, nhưng ở giai đoạn sau để xác minh.

Độ chính xác khi đánh giá q trình tìm các điểm mốc khn mặt sử dụng phép so sánh đơn giản nhất là bình phương lỗi gốc (RMSE), trong đó khoảng cách trung bình mỗi điểm trong số N mốc dự đốn (xpi, yip) và giá trị thực tế

(xti, yit) . Các mốc dự đoán kém sẽ có khoảng cách xa hơn với vị trị nhãn thực tế khi đó góp phần làm tăng giá trị RMSE. Bên cạnh đó, sai số bình phương trung bình được chuẩn hoá bằng khoảng cách hai điểm nhãn sự thật (NMRSE) như bên trái (xt

le, yt

le) và bên phải (xpre, ypre) của góc ngồi mắt. Mục đích của q trình này khiến sự so sánh cơng cơng bằng hơn giữa các khn mặt có kích thước khác nhau.

RM SE = N1 N

i=1

N RM SE = 1 N N i=1 √ (xp i−xt i)2+(yp i−yt i)2 dnorm dnorm = (xt le−xt re)2+ (yt le−yt re)2

Q trình xây dựng mơ hình xác định điểm neo trên khn mặt gồm 3 q trình:

Hình 2.1: Sơ đồ khối xây dựng mơ hình landmark1.

Chuẩn bị dữ liệu

Việc lựa chọn chính xác và thích hợp các tập dữ liệu rất quan trọng cho sự phát triển của bất kỳ thuật toán dự đáon nào. Tập dữu liệu được chọn phải chứa các tính năng có đủ khả năng để q trình đạo tạo có thể học được các mối liên kết bên trong dữ liệu.

Trong vấn đề về nhận diện khn mặt có nhiều tập dữ liệu về khn mặt được công khai và được sử dụng làm điểm chuẩn cho các cuộc thi và đánh gía kết quả thuật tốn hằng năm. Mặc dù vậy dữ liệu về điểm mốc khuôn mặt không giống với dữ liệu các bài phân loại như MNIST [53] hay CIFA [54] dữ liệu mốc khn mặt khó khăn hơn trong việc đánh giá hiệu suất của các mơ hình. Hiện nay tập dữ liệu 300W là tập dữ liệu mốc khuôn mặt phổ biến nhất và độ tin cậy cao nhất với 68 điểm mốc trên khuôn mặt.

Đề xuất khu vực quan tâm

Giai đoạn tiếp theo của quá trình tìm mốc khn mặt đó là việc tìm vùng quan tâm, q trình này đảm bảo trích xuất khn mặt khỏi hình ảnh loại bỏ thơng tin khơng liên quan khn mặt như nền.

Q trình nhận diện khn mặt này tạo thành giai đoạn đầu tiên trong hệ thống đánh dấu điểm tự động rất quan trong đối với hiệu suất tổng thể. Tại giai

đoạn này một mơ hình học máy cần xác định chính xác các khn mặt và các biến thể về ánh sáng, tư thể, biểu cảm và diện mạo khuôn mặt.

Có nhiều các tiếp cận trong vấn đề xác định khuôn mặt này, hai phương pháp cũ hơn là Viola-Jone và HOG mặc dù vậy nhưng chúng vẫn đạt độ chính xác và tốc độ xử lý hợp lý được triển khai bên trong hai thư viện hỗ trợ lớn là OpenCV và Dlib.

Bên cạnh đó một số phương pháp máy dị khn mặt sử dụng các mạng học sâu tiên tiến với việc huấn luyện qua hằng trăm nghìn hình ảnh như: MTCNN, hay các mơ hình về phát hiện đối tượng SSD, YOLO cũng có hiệu suất ấn tượng và hoạt động theo thời gian thực

Xây dựng mơ hình

Sau khi hồn thiện xong hai giai đoạn là dữ liệu và xác định khuôn mặt, giai đoạn tiếp theo cần đó là xây dựng một mơ hình tự động xác định các điểm mốc neo trên khn mặt. Các phương pháp hiện đại và đạt hiệu suất cao thời điểm hiện tại là mơ hình dựa trên những kiến trúc mạng nơ-ron học sâu CNN.

Một trong những thiết kế phổ biến nhất của mơ hình học sâu trong việc đánh dấu khuôn mặt là cấu trúc phân tầng trong một số giai đoạn của mạng nơ-ron phức hợp được kết nối tuần tự để đưa ra các dự đốn mang tính bước ngoặt cuối cùng.

Người sử dụng sớm phương pháp này [55] là Sun et al. vào năm 2013. Họ sử dụng ba cấp độ xếp tầng để dự đoán năm điểm mốc trên khn mặt. Sau khi áp dụng máy dị mặt, Sun et al. đã xây dựng ba CNN trong giai đoạn đầu tiên: CNN đầu tiên nhận được hình ảnh của tồn bộ vùng mặt, thứ hai là hình ảnh của mắt và mũi, và thứ ba của mũi và miệng. Giai đoạn đầu tiên ước tính các vị trí mốc gần đúng, do đó mỗi mạng được đào tạo để đưa ra các dự đốn thơ về các vị trí mốc trong vùng tương ứng của hình ảnh.

Ba mạng CNN đã quan sát mỗi mốc ít nhất hai lần, và do đó nhiều dự đốn cho mỗi mốc đã được đưa ra. Giá trị trung bình của mỗi dự đốn này đã được tính tốn và sử dụng để xác định các bản vá hình ảnh cục bộ được cung cấp cho giai đoạn tích hợp thứ hai. Như có thể thấy trong hình 2.3, thiết kế của mạng

nơ-ron tích chập ở giai đoạn thứ hai và thứ ba là hơi giống nhau, cả hai đều được cung cấp các bản vá hình ảnh bản địa hóa để đào tạo và do đó cả hai đều bị hạn chế thực hiện các điều chỉnh nhỏ trên các dự đốn trước đó. Tương tự như mạng tích chập ở giai đoạn đầu tiên, nhiều dự đoán đã được thực hiện cho mỗi mốc ở giai đoạn thứ hai và thứ ba và do đó, các giá trị trung bình một lần nữa được tính tốn. Các kiến trúc CNN trong mỗi giai đoạn đã sử dụng các lớp lặp lại, xen kẽ và gộp lại, theo sau là hai lớp được kết nối đầy đủ.

Hình 2.2: Bản đồ 68 điểm trên khn mặt2.

2.2 Theo dõi ánh nhìn từbiểu đồ Face Landmark

Bản đồ các điểm mốc được dự đốn từ hình ảnh khn mặt được làm cơ sở tính tốn cho các nhiệm vụ ánh nhìn. Các điểm mốc trên khn mặt sẽ cho phép tính tốn được tư thế khn mặt, từ đó làm một trong những đặc điểm xác định ánh nhìn. Trong vấn đề thi trực tuyến, ánh nhìn là một trong những điều quan trọng, bởi người thi có thể sử dụng các nguồn tài liệu và thủ thuật từ bên ngoài mà vùng camera khơng thể quan sát được. Vì vậy, theo dõi ánh nhìn, cho phép xác định được khu vực quan tâm, khu vực mắt của người ở đâu. Mục đích chính của quá trình này sẽ xem xét và đề xuất một phương án tính tốn xem liệu khn mặt có đang nhìn vào phạm vị của màn hình hay khơng.

Hình 2.3: Kiến trúc mơ hình CNN cho face landmark3.

Bản đồ mốc 68 điểm trên khn mặt tuy nhiên theo phương pháp định tính chúng ta thấy một số quy tắc về hướng của khuôn mặt:

Quy tắc 1: Khn mặt nhìn thẳng về phía trước thì mũi, miệng và trán sẽ gần như nằm trên một đường thẳng hoặc gần thẳng từ đó ta có thể nhận thấy góc tạo thành bởi đường thẳng nối 2 điểm (28,34) và (34, 67) là một 180 độ. Để đáp ứng khả năng biến dạng thì tơi lựa chọn ngưỡng sẽ từ 150 độ đến 210. Bên cạnh dó quan sát về hướng mắt cho thấy điểm 28 sẽ là trung điểm của (37, 46).

Quy tắc 2: Trong trường hợp khuôn mặt quay sang trái và sang phải: thì 3 điểm (28, 34, 67) sẽ nằm về hai phía khác nhau với đường thẳng kẻ từ sống mũi.

Hình 2.4: Minh hoạ quy tắc 1 xác định ánh nhìn4.

Để xác định góc nghiên ta xác định một khoảng cách từ sống mũi với miệng và mắt, khoảng cách này được định nghĩa giá trị d trên hình ảnh. Nếu d càng lớn thì tức tư thế nghiêng sang trái và phải càng mạnh và ngược lại.

Quy tắc 3: Thông thường khoảng cách giữ sống mũi đến hai vị trí 28 và 67 gần như tương đồng nhau, hoặc khoảng cách từ vị trí sống mũi 34 nhìn đến 28 lớn hơn 1.2 lần so với khoảng cách 34 đến 67. Khi nhìn theo hướng lên trên khoảng cách này sẽ thay đổi tức khoảng cách từ sống mũi 34 đến miệng 67 có xu hướng lớn hơn khoảng cách từ sống mũi 34 đến 28, và ngược lại.

Hình 2.5: Minh hoạ quy tắc 3 xác định ánh nhìn5.

thể thiết kế được mơ đun theo dõi được ánh nhìn, điều hướng khn mặt người dùng. Từ đó làm cơ sở cho việc xác định hành vi người dùng nhằm mục địch xác định gian lận trong vấn đề thi online.

Ngồi ra vẫn có một số phương pháp khác xác định hướng mắt dựa trên di chuyển của đồng tử mắt, tuy nhiên tơi khơng lựa chọn phương pháp đó, bởi chất lượng khơng đồng đều về camera khoảng cách thu hình ảnh dẫn đến độ chính xác và kết quả sẽ bị ảnh hưởng trong quá trình giám sát.

Kết quả đánh giá phép ước tính hướng nhìn khn mặt, tơi sử dụng tập dữ liệu MPIIGaze.

Hình 2.6: Bộ dữ liệu MPIIGaze .

Tổng số lượng hình ảnh trong tập dữ liệu là hơn 213 nghìn ảnh. Tơi sử dụng một phần nhỏ gồm 583 hình ảnh trong dữ liệu làm dữ liệu đánh giá phương pháp ước tính góc nhìn của tơi. Tơi chia dữ liệu thành các nhóm như sau:

Vị trí 68 điểm landmark có trên khn mặt 13

Mơ hình nhận dạng khn mặt 17

Thiết kế và xây dựng