Mơ hình nhận dạng khn mặt 17

Một phần của tài liệu Ứng dụng phân tích khuôn mặt vào chống gian lận trong thi cử trực tuyến tích hợp vào hệ thống lms (Trang 34)

3 TÍCH HỢP ỨNG DỤNG PHÂN TÍCH KHN MẶT TRONG

1.17 Mơ hình nhận dạng khn mặt 17

có độ tương đồng cao nhất với vector nào trong cơ sở dữ liệu (ví dụ sử dụng độ đo cosine để đo khoảng cách giữa hai vector). Từ đó đánh giá và đưa ra id của của khn mặt đó.

1.5 Kết chương

Trong chương nội dung đầu tiên của đề tài ,tơi đã trình bày một cách tổng quan nhất bài tốn nhận dạng khn mặt và các nghiên cứu có liên quan để giải quyết bài tốn. Sau khi trình bày bài tốn, tác giả cũng đã trình bày về mạng Nơ-ron nhân tạo cho đến mạng Nơ-ron tích chập.

Thơng qua những nghiên cứu và lựa chọn đã được trình bay trên cũng như bên trên tôi đưa ra một các khái quát về một hệ thống nhận diện khuôn mặt. Với những ưu điểm về phương pháp của ArcFace đưa ra tơi sử dụng nó là một trong những mơ hình mã hố hình ảnh tạo ra các vector tính năng cho khn mặt nhằm giúp và hỗ trợ cho các nhiệm vụ nhận dạng và xác thực khn mặt trong bài tốn chống gian lận sẽ được trình bày trong các chương sau.

ÁNH NHÌN TRÊN KHN MẶT

Theo dõi chuyển động mắt là việc quan sát các điểm nơi mắt một người nào đó tập trung vào hoặc những chuyển động của tia nhìn. Các phương án theo dõi ánh nhìn sẽ sử dụng thiết bị đeo để có thể theo dõi được ánh nhìn người đang đeo.

Thiết bị theo dõi chuyển động của mắt (eye tracker) là thiết bị đo lường vị trí mắt người nhìn vào và các chuyển động mắt của họ.

Những phát hiện đầu tiên về quy luật trong hành vi chuyển động mắt được đánh dấu vào năm 1879, khi Louis Emile Javal đã kết luận rằng, mắt người thực ra khơng đọc các dịng chữ ở trang giấy một cách đều đặn mà họ có xu hướng dừng lại tập trung ở một số từ, một số đoạn và nhanh chóng lướt qua những chữ hoặc đoạn khác. Đến những năm 1980, các thiết bị theo dõi chuyển động mắt đã bắt đầu được sử dụng để xem xét tác động của quảng cáo. Công nghệ của máy eye tracker đã giúp các nhà quảng cáo có thể xác định được đâu là điểm trên thông tin quảng cáo mà khách hàng tập trung nhìn và họ tập trung nhìn vào những phần đó trong bao lâu.

Nhận thấy việc theo dõi ánh nhìn của một người có thể quan sát được hành vi hướng nhìn và địa điểm quan sát của người nào đó. Trong các bài thi trực tuyến việc thí sinh nhìn vào các màn hình là cần thiết và liên tục. Vì vậy tơi xây dựng một hướng tiếp cận nhằm xác định hướng nhìn của người dùng từ đó có thể phát hiện các gian lận trong quá trình làm bài trực tuyến.

Bên cạnh đó ở khía cạnh phân tích khác tơi khơng sử dụng thiết bị sử dụng theo dõi ánh nhìn, thay vào đó tơi nghiên cứu và tiếp cận nó như một vấn đề và sử dụng kĩ thuật trong trí tuệ nhân tạo để giải quyết vấn đề ánh nhìn với hình

ảnh từ webcam.

2.1 Face Landmark

Phát hiện mốc khuôn mặt (face landmark) là một nhiệm vụ trong thị giác máy tính, nhiệm vụ này cung cấp một bản đồ các vị trị các điểm chính từ khn mặt. Việc sử dụng Face landmark đang được áp dụng rộng rãi cho nhiều vấn đề khác nhau từ nhận diện khn mặt, theo dõi ánh nhìn, nhận diện cảm xúc, phát hiện tư thế đầu khi lái xe. . .

Để có thể tìm và đánh dấu được các mốc trên khn mặt có nhiều các phương pháp khác nhau. Song có hai loại phương pháp chính: phương pháp dựa trên mơ hình và phương pháp dựa trên kết cấu. Phương pháp dựa trên mơ hình, cịn được gọi là phương pháp dựa trên hình dạng, coi hình ảnh khn mặt và tập hợp các điểm mốc trên khn mặt là một hình dạng tổng thể.

Họ học “hình dạng khn mặt” từ các hình ảnh đào tạo được dán nhãn, và sau đó ở giai đoạn thử nghiệm, họ cố gắng tạo hình dạng phù hợp với một khuôn mặt chưa biết. Loại thứ hai, phương pháp dựa trên kết cấu, còn được gọi là phương pháp khơng dựa trên mơ hình, nhằm mục đích tìm từng mốc trên khn mặt hoặc các nhóm mốc cục bộ một cách độc lập mà không cần sự hướng dẫn của mơ hình. Trong các phương pháp này, thơng tin hình dạng vẫn có thể được gọi, nhưng ở giai đoạn sau để xác minh.

Độ chính xác khi đánh giá q trình tìm các điểm mốc khn mặt sử dụng phép so sánh đơn giản nhất là bình phương lỗi gốc (RMSE), trong đó khoảng cách trung bình mỗi điểm trong số N mốc dự đốn (xpi, yip) và giá trị thực tế

(xti, yit) . Các mốc dự đốn kém sẽ có khoảng cách xa hơn với vị trị nhãn thực tế khi đó góp phần làm tăng giá trị RMSE. Bên cạnh đó, sai số bình phương trung bình được chuẩn hố bằng khoảng cách hai điểm nhãn sự thật (NMRSE) như bên trái (xt

le, yt

le) và bên phải (xpre, ypre) của góc ngồi mắt. Mục đích của q trình này khiến sự so sánh cơng cơng bằng hơn giữa các khn mặt có kích thước khác nhau.

RM SE = N1 N

i=1

N RM SE = 1 N N i=1 (xp i−xt i)2+(yp i−yt i)2 dnorm dnorm = (xt lext re)2+ (yt leyt re)2

Q trình xây dựng mơ hình xác định điểm neo trên khn mặt gồm 3 q trình:

Hình 2.1: Sơ đồ khối xây dựng mơ hình landmark1.

Chuẩn bị dữ liệu

Việc lựa chọn chính xác và thích hợp các tập dữ liệu rất quan trọng cho sự phát triển của bất kỳ thuật toán dự đáon nào. Tập dữu liệu được chọn phải chứa các tính năng có đủ khả năng để q trình đạo tạo có thể học được các mối liên kết bên trong dữ liệu.

Trong vấn đề về nhận diện khn mặt có nhiều tập dữ liệu về khn mặt được công khai và được sử dụng làm điểm chuẩn cho các cuộc thi và đánh gía kết quả thuật tốn hằng năm. Mặc dù vậy dữ liệu về điểm mốc khuôn mặt không giống với dữ liệu các bài phân loại như MNIST [53] hay CIFA [54] dữ liệu mốc khn mặt khó khăn hơn trong việc đánh giá hiệu suất của các mơ hình. Hiện nay tập dữ liệu 300W là tập dữ liệu mốc khuôn mặt phổ biến nhất và độ tin cậy cao nhất với 68 điểm mốc trên khuôn mặt.

Đề xuất khu vực quan tâm

Giai đoạn tiếp theo của quá trình tìm mốc khn mặt đó là việc tìm vùng quan tâm, q trình này đảm bảo trích xuất khn mặt khỏi hình ảnh loại bỏ thơng tin khơng liên quan khn mặt như nền.

Q trình nhận diện khuôn mặt này tạo thành giai đoạn đầu tiên trong hệ thống đánh dấu điểm tự động rất quan trong đối với hiệu suất tổng thể. Tại giai

đoạn này một mơ hình học máy cần xác định chính xác các khn mặt và các biến thể về ánh sáng, tư thể, biểu cảm và diện mạo khn mặt.

Có nhiều các tiếp cận trong vấn đề xác định khuôn mặt này, hai phương pháp cũ hơn là Viola-Jone và HOG mặc dù vậy nhưng chúng vẫn đạt độ chính xác và tốc độ xử lý hợp lý được triển khai bên trong hai thư viện hỗ trợ lớn là OpenCV và Dlib.

Bên cạnh đó một số phương pháp máy dị khn mặt sử dụng các mạng học sâu tiên tiến với việc huấn luyện qua hằng trăm nghìn hình ảnh như: MTCNN, hay các mơ hình về phát hiện đối tượng SSD, YOLO cũng có hiệu suất ấn tượng và hoạt động theo thời gian thực

Xây dựng mơ hình

Sau khi hồn thiện xong hai giai đoạn là dữ liệu và xác định khuôn mặt, giai đoạn tiếp theo cần đó là xây dựng một mơ hình tự động xác định các điểm mốc neo trên khuôn mặt. Các phương pháp hiện đại và đạt hiệu suất cao thời điểm hiện tại là mơ hình dựa trên những kiến trúc mạng nơ-ron học sâu CNN.

Một trong những thiết kế phổ biến nhất của mơ hình học sâu trong việc đánh dấu khn mặt là cấu trúc phân tầng trong một số giai đoạn của mạng nơ-ron phức hợp được kết nối tuần tự để đưa ra các dự đốn mang tính bước ngoặt cuối cùng.

Người sử dụng sớm phương pháp này [55] là Sun et al. vào năm 2013. Họ sử dụng ba cấp độ xếp tầng để dự đốn năm điểm mốc trên khn mặt. Sau khi áp dụng máy dò mặt, Sun et al. đã xây dựng ba CNN trong giai đoạn đầu tiên: CNN đầu tiên nhận được hình ảnh của tồn bộ vùng mặt, thứ hai là hình ảnh của mắt và mũi, và thứ ba của mũi và miệng. Giai đoạn đầu tiên ước tính các vị trí mốc gần đúng, do đó mỗi mạng được đào tạo để đưa ra các dự đốn thơ về các vị trí mốc trong vùng tương ứng của hình ảnh.

Ba mạng CNN đã quan sát mỗi mốc ít nhất hai lần, và do đó nhiều dự đốn cho mỗi mốc đã được đưa ra. Giá trị trung bình của mỗi dự đốn này đã được tính tốn và sử dụng để xác định các bản vá hình ảnh cục bộ được cung cấp cho giai đoạn tích hợp thứ hai. Như có thể thấy trong hình 2.3, thiết kế của mạng

nơ-ron tích chập ở giai đoạn thứ hai và thứ ba là hơi giống nhau, cả hai đều được cung cấp các bản vá hình ảnh bản địa hóa để đào tạo và do đó cả hai đều bị hạn chế thực hiện các điều chỉnh nhỏ trên các dự đốn trước đó. Tương tự như mạng tích chập ở giai đoạn đầu tiên, nhiều dự đoán đã được thực hiện cho mỗi mốc ở giai đoạn thứ hai và thứ ba và do đó, các giá trị trung bình một lần nữa được tính tốn. Các kiến trúc CNN trong mỗi giai đoạn đã sử dụng các lớp lặp lại, xen kẽ và gộp lại, theo sau là hai lớp được kết nối đầy đủ.

Hình 2.2: Bản đồ 68 điểm trên khn mặt2.

2.2 Theo dõi ánh nhìn từbiểu đồ Face Landmark

Bản đồ các điểm mốc được dự đốn từ hình ảnh khn mặt được làm cơ sở tính tốn cho các nhiệm vụ ánh nhìn. Các điểm mốc trên khn mặt sẽ cho phép tính tốn được tư thế khn mặt, từ đó làm một trong những đặc điểm xác định ánh nhìn. Trong vấn đề thi trực tuyến, ánh nhìn là một trong những điều quan trọng, bởi người thi có thể sử dụng các nguồn tài liệu và thủ thuật từ bên ngoài mà vùng camera khơng thể quan sát được. Vì vậy, theo dõi ánh nhìn, cho phép xác định được khu vực quan tâm, khu vực mắt của người ở đâu. Mục đích chính của q trình này sẽ xem xét và đề xuất một phương án tính tốn xem liệu khn mặt có đang nhìn vào phạm vị của màn hình hay khơng.

Hình 2.3: Kiến trúc mơ hình CNN cho face landmark3.

Bản đồ mốc 68 điểm trên khuôn mặt tuy nhiên theo phương pháp định tính chúng ta thấy một số quy tắc về hướng của khuôn mặt:

Quy tắc 1: Khn mặt nhìn thẳng về phía trước thì mũi, miệng và trán sẽ gần như nằm trên một đường thẳng hoặc gần thẳng từ đó ta có thể nhận thấy góc tạo thành bởi đường thẳng nối 2 điểm (28,34) và (34, 67) là một 180 độ. Để đáp ứng khả năng biến dạng thì tơi lựa chọn ngưỡng sẽ từ 150 độ đến 210. Bên cạnh dó quan sát về hướng mắt cho thấy điểm 28 sẽ là trung điểm của (37, 46).

Quy tắc 2: Trong trường hợp khuôn mặt quay sang trái và sang phải: thì 3 điểm (28, 34, 67) sẽ nằm về hai phía khác nhau với đường thẳng kẻ từ sống mũi.

Hình 2.4: Minh hoạ quy tắc 1 xác định ánh nhìn4.

Để xác định góc nghiên ta xác định một khoảng cách từ sống mũi với miệng và mắt, khoảng cách này được định nghĩa giá trị d trên hình ảnh. Nếu d càng lớn thì tức tư thế nghiêng sang trái và phải càng mạnh và ngược lại.

Quy tắc 3: Thông thường khoảng cách giữ sống mũi đến hai vị trí 28 và 67 gần như tương đồng nhau, hoặc khoảng cách từ vị trí sống mũi 34 nhìn đến 28 lớn hơn 1.2 lần so với khoảng cách 34 đến 67. Khi nhìn theo hướng lên trên khoảng cách này sẽ thay đổi tức khoảng cách từ sống mũi 34 đến miệng 67 có xu hướng lớn hơn khoảng cách từ sống mũi 34 đến 28, và ngược lại.

Hình 2.5: Minh hoạ quy tắc 3 xác định ánh nhìn5.

thể thiết kế được mơ đun theo dõi được ánh nhìn, điều hướng khn mặt người dùng. Từ đó làm cơ sở cho việc xác định hành vi người dùng nhằm mục địch xác định gian lận trong vấn đề thi online.

Ngồi ra vẫn có một số phương pháp khác xác định hướng mắt dựa trên di chuyển của đồng tử mắt, tuy nhiên tơi khơng lựa chọn phương pháp đó, bởi chất lượng khơng đồng đều về camera khoảng cách thu hình ảnh dẫn đến độ chính xác và kết quả sẽ bị ảnh hưởng trong quá trình giám sát.

Kết quả đánh giá phép ước tính hướng nhìn khn mặt, tơi sử dụng tập dữ liệu MPIIGaze.

Hình 2.6: Bộ dữ liệu MPIIGaze .

Tổng số lượng hình ảnh trong tập dữ liệu là hơn 213 nghìn ảnh. Tơi sử dụng một phần nhỏ gồm 583 hình ảnh trong dữ liệu làm dữ liệu đánh giá phương pháp ước tính góc nhìn của tơi. Tơi chia dữ liệu thành các nhóm như sau:

STT Nhóm Số lượng 1 Nhìn sang trái 150 2 Nhìn sang phải 147 3 Nhìn lên trên 139 4 Nhìn xuống dưới 157 Tổng 583

Bảng 2.1: Chia dữ liệu thành các nhóm từ tập dữ liệu MPIIGaze. Độ chính xác 85.62%

Tốc độ suy luận 46ms Mức FPS 21.74 FPS

Bảng 2.2: Kết quả kiểm tra thực hiện trên thiết bị Macbook PRO 15 2020.

2.3 Kết chương

Theo dõi ánh nhìn là một những vấn đề đang nhận được nhiều quan trong trong giới khoa học kĩ thuật. Việc theo dõi ánh nhìn đã và đang được áp dụng nhiều các lĩnh vực trong đời sống. Trong nội dung vừa trình bày bên trên tơi đã đưa ra những cơ sở và phương pháp tiếp cận của tôi trong việc xây dựng phương án theo dõi ánh nhìn của người thơng qua camera nhằm đáp ứng nhu cầu theo dõi hành vi người dùng trong giám sát thi trực tuyến.

Các cách tiếp cận trên dựa trên những nghiên cứu của tôi nhằm đáp ứng với nhu cầu và điều kiện thi trực tuyến. Trong chương sau tơi sẽ trình bày các phương án tích hợp các tính năng trong các nhiệm vụ phân tích khn mặt vào chống gian lận. Đồng thời cũng bổ sung những kịch bản gian lận được thiết lập sẵn.

KHN MẶT TRONG CHỐNG GIAN LẬN TRONG THI TRỰC TUYẾN

Trong hai chương ban đầu của đề tài tơi đã trình bày về những nhiệm vụ chính của vấn đề phân tích khn mặt bao gồm: nhận diện khn mặt và theo dõi ánh nhìn cử chỉ khn mặt. Các nhiệm vụ đó là những ứng dụng phổ biến nhất của phân tích khn mặt. Tôi đưa ra những nghiên cứu liên quan về các nhiệm vụ trong phân tích khn mặt, đồng thời cũng đưa ra cách tiếp cận mà tôi sẽ sử dụng cho mục đích cảnh báo sớm các trường hợp vi phạm nhằm giảm thiểu gian lận trong thi trực tuyến.

Việc cảnh báo sớm nhằm giảm thiểu gian lận trong thi trực tuyến là một trong những vấn đề đang được quan tâm hiện nay, bởi tình hình dịch bệnh tại nhiều khu vực đang diễn ra hết sức phức tạp và diễn ra nhanh chóng trên diện rộng. Song đó, các kì thi vẫn phải được tổ chức và diễn ra, dẫu vậy các nền tảng thi trực tuyến hiện nay chưa đáp ứng được những nhu cầu về tính khách quan cũng như đảm bảo chất lượng kì thi trực tuyến. Vì vậy, trong khn khổ đề tài này tôi tập trung phát triển một bộ cơng cụ phân tích khn mặt nhằm phát hiện và cảnh báo sớm nhằm giảm gian lận trong thi trực tuyến, đóng gói nó trở thành các API dễdàng có thể tích hợp với bất kể các nền tảng thi trực tuyến

Một phần của tài liệu Ứng dụng phân tích khuôn mặt vào chống gian lận trong thi cử trực tuyến tích hợp vào hệ thống lms (Trang 34)

Tải bản đầy đủ (PDF)

(75 trang)