Danh sách hình vẽ1.1 Sử dụng nhận diện khuôn mặt để điểm danh, chấm công 2.1 Số lượng các bài nghiên cứu khoa trong những năm gần đây 2.2 Bài toán chống giả mạo khuôn mặt.... Nhưng việc
Cácmôhìnhhọcsâu
Mạngnơ-rontíchchập
Convolutional Neural Network Mạng nơ-ron tích chập (convolution neural network, gọi tắt là CNN) lấy cảm hứng từ não người được nghiên cứu trong những thập niên 50-60 của thé kỷ 20, do D.H Hubel và T.N Wiesel tiến hành trên não của động vật và sau đo đã đề xuất một mô hình mới cho cách mà động vật nhìn nhận thế giới Vào năm 1998, mô hình CNN đầu tiên được giới thiệu bởi Bengio, Le-Cun, Bottou và Haffner Mô hình này có tên là LeNet-5 và sử dụng để nhận diện chữ số viết tay.
CNN có kiến trúc khác với Neural network thông thường Đối với mạng no- ron bình thường, chúng sẽ chuyển đổi đầu vào thông qua các tầng ẩn Với mỗi tầng ẩn đó, các nơ-ron giữa các tầng cận kể được liên kết đầy đủ với nhau va
2 Bài toán nhận diện chữ viết trong hình ảnh và các kiến thức liên quan
C3: f maps 16@10x10 INPUT C1: feature maps S4: f maps 16@5x5
Convolutions Subsampling Convolutions | Subsampling Full connection
Hình 2.8: Kiến trúc mạng LetNet-5 tầng cuối cùng sẽ trả về kết quả đại diện cho dự đoán của mạng Tuy nhiên, nếu mạng càng nhiều lớp thì số lượng tham số tăng lên quá nhanh Vậy nên cần có giải pháp tốt hơn, đó là CNN
Hình 2.9: mạng nơ-ron tích chập
Một mô hình CNN gồm 2 phần: ¢ Phan tầng ẩn (phan rút trích đặc trưng): Mạng sẽ tiến hành tính toán các phép convolution (tích chập) và pooling (hợp nhất) để phát hiện ra các đặc trưng trong hình ảnh. ô Phan phõn lớp: La một vài tầng với kết nối đầy đủ co vai trũ như một bộ phân lớp các đặc trưng đã được rút trích từ phẩn tử trước đó Sau đo đưa ra xác suất đồi tượng trong hình ảnh thuộc lớp nào.
2 Bài toán nhận diện chữ viết trong hình ảnh và các kiến thức liên quan
ResNet 2 2.20.0 000 ee eee eee 13
ResNet (Residual Network) là một mang CNN được thiết kế để làm việc với hàng trăm hoặc hàng nghìn lớp tích chập nhưng lại co kích thước chỉ khoảng 23 triệu tham số Mạng được giới thiệu với công chúng vào năm 2015 và giành vị trí thứ 1 trong cuộc thi ILSVRC-2015[11] với tỉ lệ lỗi top 5 là 3.57% Với CNN, các mạng càng sâu sẽ đạt hiệu suất tốt hơn Tuy nhiên, trên thực tế, nếu độ sâu của mạng quá lớn (>50 layers) sẽ dẫn đến tình trạng Vanishing gradient (mất mát đạo hàm) hoặc Exploding gradient (bùng nổ đạo hàm) và khiến độ chính xác của mạng bị giảm đi Và ResNet-50 ra đời để giải quyết vấn dé này Dau tiên, ResNet áp dụng batch normalization giúp chuẩn hóa đầu ra, khiến các hệ số trở nên cân bằng và mô hình sé dé hội tụ hơn Giải pháp thứ 2 mà ResNet dua ra là sử dụng kết nói "tắt" đồng nhất để xuyên qua một hay nhiều lớp Một khối như vậy được gọi là một Residual Block. weight layer x identity
Hình 2.10: Cấu trúc khối Residual Block
Với H(x) là giá trị dự đoán, F(x) là giá trị thật (nhãn) Ý tưởng của residual block là feedforward đầu vào x qua một số layer Conv-max-Conv, ta thu được
F(x) sau đó cộng thêm x vào H(x) = F(x) +x.
2 Bài toán nhận diện chữ viết trong hình ảnh và các kiến thức liên quan stage 1 stage 2 stage 3 stage 4 stage 5
Hình 2.11: Kiến trúc mang Resnet-50
Searching Central Difference Convolutional Networks (CNCD) 14
Searching Central Difference Convolutional Networks (CNCD) là một phương pháp chống giả mạo khuôn mặt được đăng trong hội nghị CVPR2020 Là một phương pháp đã dat vị trí thứ nhất trong ChaLearn Multi-Modal Face Anti- spoofing Attack Detection Challenge @CVPR2020 và vi trí thứ 2 trong ChaLearn
Single-Modal(RGB) Face Anti-spoofing Attack Detection Challenge @CVPR2020
2.5.1 Y tưởng ¢ Hiện nay với sự ứng dụng mạnh mẽ của mang CNN có khả năng phân biệt tốt mặt thật và giả Nhưng các mạng CNN, dựa trên phương pháp tập trung vào các đặc điểm ngữ nghĩa giữa mặt thật và mặt, phương pháp này sẽ không hoạt động hiệu quả trên những môi trường khác nhau (như điều kiện ánh sáng khác nhau). ô Cỏc phương phỏp chống giả mạo khuụn mặt hiện nay thường được dựa trên bài toán phân lớp, bằng cách sử dụng các kiến trúc mạng phổ biến như VGG, ResNet, DenseNet Các kiến trúc mạng này thường sử dụng binary cross-entropy dẫn đến việc phân lớp dễ nhầm lẫn thành viền màn hình thay vì tìm bản chat của mặt giả Để giải quyết vấn dé này một số phương pháp đã dé xuất sử dụng nhãn bản đồ độ sâu (pseudo depth map)
2 Bài toán nhận diện chữ viết trong hình ảnh và các kiến thức liên quan để làm giám sát phụ trợ Tuy nhiên các kiến trúc mạng trên thường không đáp ứng được nhu cầu cho bài toán chống giả mạo khuôn mặt.
* Các phương pháp SOTA trong bài toán chống giả mạo hiện nay chủ yếu phải sử dụng nhiều khung hình làm đầu vào để trích xuất các tính năng không gian-thời gian động (như motion, rPPR) Tuy nhiên, chuỗi video dài có thể không phù hợp với các điều kiện triển khai cụ thể, nơi cần đưa ra quyết định nhanh chóng Do đó, các phương pháp sử dụng hình ảnh có lợi thế trên quan điểm khả năng sử dụng mặc dù hiệu suất kém hơn so với các phương pháp sử dụng video.
2.5.2 Phuong pháp input feature map output feature map central differnce k sampling ate aggregation ,|
Hinh 2.12: Central Difference Convolution (CDC) Đề xuất một phương pháp tính toán tích chập mới Central Difference Convo- lution (CDC) 2.12, CDC được tiến hành qua 2 bước Thứ nhất là sampling, rút trích đặc trưng của ảnh qua các kiến trúc CNN Sau đó tới aggregation, tại đây từ các feature map sẽ được tính toán dựa trên công thức sau:
2 Bài toán nhận diện chữ viết trong hình ảnh và các kiến thức liên quan y(po) =8 ` w(p,) - (x(po + Pn) — x(po))
PnER mm central difference convolution
PnER a tích chập thông thường
Với trong đó po biểu thi vi trí hiện tại trên cả bản đồ đối tượng đầu vào va đầu ra trong khi p„ liệt kê các vị trí trong R @ từ [0,1] biểu thị sự cân bằng sự đúng gúp giữa thụng tin mức cường độ và mức gradient, ỉ càng nhỏ thỡ sự ảnh hưởng của mạng tích chập càng lớn và ngược lại theta càng lớn sự ảnh hưởng của phương pháp CDC càng cao Sử dụng kiến trúc mạng Central Difference g § 8 St —
RGBInput Š 3 ễ a Af, 3 Là 5 a 9 DepthMap bs a w ¿2 = w by £ 5 - =
Low-level Cell Mid-level Cell High-level Cell
Hinh 2.13: Central Difference Convolution Network(CDCN)
Convolutional Networks (CDCN), để trích xuất ước tính bản đồ độ sâu khuôn mặt Lấy cảm hứng từ các tế bào thần kinh chuyên dụng cho tổ chức thứ bậc trong hệ thống thị giác của con người, tác giả đã lấy đặc trưng ở 3 giai đoạn là low-level, mid-level, high-level để tận dụng những đặc trưng về không gian và thông tin sau mỗi lần rút trích đặc trưng Ở mỗi giai đoạn sẽ được kết nối lại và đưa vào Multiscale Attention Fusion Module (MAFM) như hình 2.14, MAFM có tác dụng tinh chỉnh va kết hợp các tính nang CDC cấp độ thap-trung-cao thông qua sự chú ý không gian.
2 Bài toán nhận diện chữ viết trong hình ảnh và các kiến thức liên quan t Se '
| Concat na ; a ; lag ml es oo Sigmoid ' ' '
Spatial Spatial Spatial ' Attention Attention Ataris Conv layer '
Large Kemael' Mid Kernel Small Kernel HY H i] '
Low-level features: Mid-level features High-level features:
Hinh 2.14: Multiscale Attention Fusion Module (MAFM)
Qua chương này, em đã nêu lên được bài toán chống giả mạo khuôn mặt là như thé nào, mặt thật và mặt giả khác nhau ra sao cùng những loại tan công được sử dụng phổ biến Cùng các kiến thức cơ sở như các phương pháp rút đặc trưng truyền thống, các kiến thức về mạng học sâu và mô hình mạng để làm tiền để cho những hướng tiếp cận của nghiên cứu trong bài toán chống giả mạo khuôn mặt trong ảnh.
MOT SO PHƯƠNG PHÁP CHO BÀI
TOÁN CHONG GIA MAO KHUÔN
Trong chương này, em sẽ trình bày sé trình bay ý tưởng của từng phương pháp, cách các kiến trúc mạng hoạt động, tính toán kết quả được áp dụng trong bài toán chống giả mạo khuôn mặt trong hình ảnh ở đề tài khoá luận này.
3.2 Revisiting pixel-wise supervision (PS)
Revisiting Pixel-Wise Supervision for Face Anti-Spoofing (PS) là một phương pháp chống giả mao khuôn mặt được công bồ tại hội nghị IEEE Transactions on
Biometrics, Behavior, and Identity Science (2021).
* Trong suốt 2 thập ky vừa qua, đã có nhiều phương pháp đã cho thấy hiệu quả để chống lại các cuộc tấn công giả mạo Đa số các phương pháp cổ
3 Deep learning cho bài toán nhận diện chữ viết trong hình ảnh. điển (như LBP, HOG, mắt nhắm mở, di chuyển của dau, ) tập trung vào dấu hiệu của mặt thật và các đặc trưng thủ công Tuy nhiên các phương pháp này phải sử dụng video về khuôn mặt trong khoảng thời gian nhất định và cách thức này dễ bị tấn công bởi các cuộc tấn công bằng video.
* Còn các phương pháp sử dụng mạng tích chập với mat mát nhị phân, mô hình sẽ cố gang phân lớp thành 2 đối tượng giả mạo hoặc là thật dựa trên các dấu hiệu một cách tùy ý có thể bị nhầm lẫn với viền màn hình, là một phương pháp không có có tính tổng quát. ô Gan đõy xuất hiện nhiều phương phỏp pixel-wise (sinh mặt 3D, ảnh độ sõu khuôn mặt, ) cung cấp nhiều tín hiệu giám sát nhận biết ngữ cảnh chỉ tiết hơn, điều này có lợi cho các mô hình sâu học các dấu hiệu giả mạo Mặc dù với hiệu suất đã đạt được, các phương pháp pixel-wise hiện có vẫn có khoảng cách biểu diễn giữa ngữ cảnh cục bộ và ngữ nghĩa chung và dễ bị ảnh hưởng bởi sự xáo trộn cục bộ.
* Vậy nên tác giả đề xuất phương pháp giám sát kim tự tháp, có thể tích hợp vào khung pixel-wise hiện tại một cách linh hoạt và cung cấp multi-scale patch / dấu hiện toàn cục.
So với nhãn vô hướng nhị phân, nhãn mặt nạ nhị phân, chứa nhiều bối cảnh về không gian, có lợi cho nhận biết về vị trí của các cuộc tấn công, giả mạo Để khai thác thông tin đa không gian từ nhãn mặt nạ nhị phân, tác giả đã dé xuất khái niệm giám sát pyramid, phân tách nhãn pixel-wise ban đầu thành nhiều tỷ lệ không gian khác nhau để giám sát đặc trưng multi-scale Trong giám sát Pyramid có 3 ưu điểm chính:
3 Deep learning cho bài toán nhận diện chữ viết trong hình ảnh.
1 Với sự quan sát và hướng dẫn của các nhãn Pyramid, các mô hình có thể tìm hiểu các đặc điểm từ nhiều khía cạnh (từ chi tiết địa phương đến ngữ nghĩa toàn cục)
Ytu6ng a 14
Revisiting pixel-wise supervision(PS)
Phươngpháp
So với nhãn vô hướng nhị phân, nhãn mặt nạ nhị phân, chứa nhiều bối cảnh về không gian, có lợi cho nhận biết về vị trí của các cuộc tấn công, giả mạo Để khai thác thông tin đa không gian từ nhãn mặt nạ nhị phân, tác giả đã dé xuất khái niệm giám sát pyramid, phân tách nhãn pixel-wise ban đầu thành nhiều tỷ lệ không gian khác nhau để giám sát đặc trưng multi-scale Trong giám sát Pyramid có 3 ưu điểm chính:
3 Deep learning cho bài toán nhận diện chữ viết trong hình ảnh.
1 Với sự quan sát và hướng dẫn của các nhãn Pyramid, các mô hình có thể tìm hiểu các đặc điểm từ nhiều khía cạnh (từ chi tiết địa phương đến ngữ nghĩa toàn cục)
2 Quyết định dựa trên các kết quả dự đoán trên nhiều quy mô thay vì bất kỳ cấp độ không gian cụ thể nào, điều này chắc chắn hơn do có nhiều bằng chứng bối cảnh.
3 Mô hình có thể dự đoán nhanh các bản đồ nhị phân đa tỷ lệ, giúp tăng cường khả năng diễn giải và bản địa hóa các cuộc tan công giả mạo ở các mức độ chi tiết khác nhau.
Input ụ Os Oy ©; e; flatten š atten La 1 xH |
Pixel-wise label Pyramid Supervision
Hình 3.1: Giám sát Pyramid với multi-scale mặt nạ nhị phân
Như trong hìng 3.1, với đầu vào là một mặt ảnh màu với kích thước 3 x 256 x
256 sau khi được rút trích đặc trưng từ một mô hình học sâu (ví dụ ResNet50) ta sẽ được đặc trưng Fg kích thước C x 8 x 8, sau đó average pooling với kích thước kernel va strides khác nhau trên đặc trưng Fg để tạo thành Fg, Fy, Fạ, Fị Sau đó được qua mạng tích chập với kích thước kernel 1x1 để tạo thành đặc trưng mặt nạ (6g,04,02,0) dùng để dự đoán mặt nạ nhị phân tương ứng (Mg,M4,M2,M}). Trong đó mỗi M được tính toán như sau:
3 Deep learning cho bài toán nhận diện chữ viết trong hình ảnh.
Như hình 3.1, với nhãn cho trước là Y với kích thước giống với kích thước dự đoán mặt nạ nhị phân, hàm mất mác Lpyramid được mô tả như sau: pyramid — ằ — (Y,log (Mj) + (1 — Y,) log (1 — Mi)) i=8,4,2,1
Hàm mất mát tổng quát: Loveratt = ©pyramid + Spinary trong đó mat mat binary là ham mat mát BCE Trong quá trình đánh giá, để đơn giản hóa, chi có điểm số nhị phân cuối cùng được sử dụng để quyết định Giám sát bản đồ độ sâu với
Pyramid: Bên cạnh việc sử dụng các mô hình độ sâu với tính năng giám sát mặt
Hình 3.2: Giám sát Pyramid với multi-scale bản đồ độ sâu khuôn mặt nạ nhị phân Pyramid, chúng tôi cũng đưa ra một ví dụ về việc áp dụng tính năng giám sát bản đồ độ sâu Pyramid trong CDCN Sử dụng kiến trúc CDCN để trích xuất đặc trưng đa tầng từ ảnh có kích thước 3x256x256 dự đoán độ sâu trên khuôn mặt theo thang độ xám với kích thước 32 x 32 Tương tự như giám sát mặt nạ nhị phân Pyramid, cả bản đồ độ sâu dự đoán D3 và nhãn độ sâu Y đều được downsampled và thay đổi kích thước thành cùng một tỷ lệ (32 x 32, 16 x
16, v.v.) Ở đây tác giả áp dụng tính năng giám sát Pyramid với hai kích thước (tức là 32 x 32 và 16 x 16) làm cài đặt mặc định, vì nhận thấy rằng nhiều kích thước khác không đóng góp gì cho việc cải thiện hiệu suất Hàm mat mát được
3 Deep learning cho bài toán nhận diện chữ viết trong hình ảnh. sử dụng ở đây được mô tả như sau: depth depth depth
Lo vramid =ằ) (Suse (D›y, “pt ) + #CbL (D Ơ, ept )) i2,16
Trong đó, D; là ban đồ độ sâu được dự đoán với kích thước i, Luse và ©cpz nghĩa là sai số bình phương trung bình và sai số độ sâu tương phan[12].
Single-Side Domain Generalization(SSDG)
Phươngpháp
* Học từ một phía (Single-Side Adversarial Learning): Giả sử có N miễn, được kí hiệu D = D,,D2, Dy Trong mỗi một miền chứa hai mục hình ảnh khuôn mặt là mặt thật được kí hiệu X,, còn mặt giả mạo sé là Xf.
Vì tất cả các khuôn mặt thật đều được thu thập bằng hình ảnh người thật, nhóm tác giả phỏng đoán rang sự chênh lệch về phân bố giữa các mặt thật nhỏ hơn nhiều so với các khuôn mặt giả Do đó, việc tìm kiếm một không gian đặc trưng tổng quát cho các mặt thật là tương đối dễ dàng, điều này
3 Deep learning cho bài toán nhận diện chữ viết trong hình ảnh.
—— Forward propagation of the real ae
Forward propagation of the fake = Ị
—— propagation of the fake Ta Ta _>!
I I oa i | dit A | Mà ee Asymmetric Ị 4 \- “® ti Ị Vv L "hung Triplet Loss
FONBI Weight Sharing bs, ay _— seal paral Ị e1,
[=zel s ay Fe EE Bi E > $ E
Hình 3.4: Phương pháp được đề xuất thúc đẩy việc nắm bắt các dấu hiệu phân biệt phổ biến hơn Cụ thể, chúng tôi đề xuất phương pháp học đối phương một phía để học một không gian đặc trưng tổng quát, chỉ được thực hiện trên các đặc trưng được trích xuất của các khuôn mặt thực mà không thực hiện trên mặt giả mạo. Ở các bước thực hiện, đầu tiên tác giả tiến hành tách mặt thật ra khỏi dữ liệu mặt giả ở tất cả các miền nguồn, sau đó đưa chúng vào bộ tạo đặc trưng tương ứng (Feature Generator) biến khuôn mặt đầu vào thành không gian đặc trưng như sau:
Trong đó G,,Gy là đại diện cho bộ tạo đặc trưng (Feature Generator) cho mặt thật và mat gia và Z;,Z¿ là các đặc trưng được trích xuất tương ứng.
Vi áp dụng chiến lược chia sẻ tham số nên tham số của G,,Gy đều tương tự nhau nên gọi chung công thức là Œ Bộ phân biệt miễn, ký hiệu là D, được thực hiện dựa trên Z, để xác định miền nguồn mà các tính năng đầu vào Ngược lại, trình tạo tính năng được đào tạo để giả mạo bộ phân biệt
3 Deep learning cho bài toán nhận diện chữ viết trong hình ảnh. miễn để không thể nhận dạng lại các nhãn miễn.
Do đó, quy trình học đối phương một phía (single-side adversarial learn- ing) được thiết kế giữa bộ tạo đặc trưng và bộ phân biệt miền để học một không gian đặc trưng tổng quát cho các mặt thực.
Trong quá huấn luyện, các tham số của bộ tạo đặc trưng được tối ưu hóa bằng cách tối đa hóa việc mất bộ phân biệt miền trong khi các tham số của bộ phân biệt miền được tối ưu hóa với mục tiêu ngược lại Vì có nhiều miễn khác nhau cần phải phân lớp, nên phải sử dụng cross-entropy để tối ưu hóa mạng theo phương pháp học đối phương một phía: ¡ Lada(G,D) = mịn max Lada(G,D)
SN Ey y^.X;.Ÿp 3 II log D(G(x)), n=1
, Yp tượng trưng cho nhãn của miễn. Để tối ưu hóa đồng thời bộ tạo tính năng và bộ phân biệt miễn, lớp đảo ngược gradient (gradient reverse layer - GRL)[] được chèn vào sau trình tao đặc trưng, để nhân gradient của mat mát đôi nghịch bằng cách —^ Với việc học đối phương một phía, sẽ đạt được không gian đặc trưng tập trung toàn diện cho các khuôn mặt thực, nơi các dấu hiệu phân biệt phổ biến có thể được khai thác nhiều hơn.
Asymmetric Triplet Mining: Do sự đa dạng của các kiểu tấn công và cách thức thu thập dif liệu cơ sở dữ liệu, sự khác biệt về phân bố giữa các mặt giả lớn hơn nhiều so với các mặt thật Do đó, việc tìm kiếm một không gian tính năng phân tán cho đồ giả tương đối dễ dàng so với việc tìm kiếm một không gian nhỏ gọn Để đạt được mục tiêu tối ưu hóa không đối xứng cho khuôn mặt thật và giả, tác giả đã dé xuất sử dung Triplet Loss bat đối
3 Deep learning cho bài toán nhận diện chữ viết trong hình ảnh. xứng để thực hiện Triplet Mining bất đối xứng theo các danh mục, điều này thúc đẩy tìm hiểu một giới hạn lớp tốt hơn cho các miền không nhìn thấy.
Hình 3.5: Giám sát Pyramid với multi-scale bản đồ độ sâu khuôn mặt
Như hình 3.5 từ ba miền khác nhau, tác giả kết hợp từ ba miền khác nhau thành bốn loại Ba miền khác nhau được kí hiệu dưới dạng các hình (hình tròn, hình vuông và hình tam giác), trong khi tất cả những mặt thật được gộp lại thành một loại (chéo).
Và sau đó như hình 3.6, triplet mining trên bốn loại khác nhau được tiến hành trên mặt thật và mặt giả để đạt được các mục tiêu tối ưu hóa sau:
1 Tách các mặt giả của các miền khác nhau.
2 Tổng hợp các mặt thật của tất cả các miền gốc
3 Tách các khuôn mặt giả ra khỏi tất cả các mặt thật.
3 Deep learning cho bài toán nhận diện chữ viết trong hình ảnh.
N Bì” Asymmetric ne © Ko eee
PSO hye KY Triplet Mining eK CLS & 3
Hình 3.6: Ứng dụng của Triplet Mining trong việc tách biệt các miền khác nhau
Anomaly Detection-Based Unknown Face Presentation Attack Detection(AD) 2 0.0 00 eee ee eee 28
3.4.1 Y tưởng ¢ Hiện nay với sự phát triển của công nghệ với nhiều thiết bị điện tử hiện đại, các cuộc tấn công giả mạo ngày càng hiện đại và tỉnh vi hơn rất nhiều. Trong bài toán chống giả mạo khuôn mặt, là một bài toán phân lớp để trả lời câu hỏi ảnh đưa vào là mặt thật hay giả, một ảnh được đánh giá bằng cách sử dụng mô hình đã học trước đó, giả định các loại tấn công đã được huấn luyện Nhưng mô hình này sẽ không hoạt động hiệu quả nếu bị tấn công bởi một phương pháp phức tạp hơn mà hệ thống hiện tại chưa biết.
Do đó có một phương pháp mạnh mẽ để chồng lại các cuộc tan công không được đào tạo trực tiếp là thực sự cần thiết. ô Phương phỏp chỉ cần sử dụng ảnh thật mà người dựng cung cấp để tiến hành phân cụm, những mặt nằm ngoài cụm này được xem như là mặt giả mạo, phương pháp này được gọi là phát hiện bất thường. ° Nhóm tác giả đề xuất một kiến trúc mạng tích chập với một đối tượng, để rút trích đặc trưng từ mặt thật và hàm mất mát theo cặp (Pairwise Confu-
Ytudng 2 ee ee 28
Phươngpháp
@ Pseudo-Negative Data @ One Class Data
Hình 3.7: So sánh các phương pháp phân lớp một đối tượng, (a) OC-SVM[1] (b) OC- CNN[2] (c) Tác giả đề xuất. Đối với các bài toán phân lớp một đối tượng, việc không có dữ liệu của đối tượng phủ định gây khó khăn cho việc đào tạo một mạng sâu theo kiểu end-to- end Oza và Patel[2] đã đề xuất phương pháp mạng nơ-ron tích chập một đối tượng (OC-CNN), để tách đặc trưng của đối tượng Cụ thể, họ sử dụng các mẫu từ một phân phối Gauss có tâm ở gốc với độ lệch chuẩn nhỏ làm đối tượng phủ định giả Lay cảm hứng từ công việc này, tác giả sử dụng tương tự để đào tao các mạng sâu.
Như hình 3.8, phương pháp được chia thành 2 phần chính: ô Chiết xuất đặc trưng (V), với ng chứa N ảnh mặt thật dựng để huấn luyện, với kiến trúc mạng V đặc trưng sau khi qua mô hình được định nghĩa {fi}, đặc trưng được rút trích sẽ là: f; = V (x;) € R# ô Phõn lớp một đối tượng (G), để thuận tiện cho việc phõn lớp đối tượng bằng cỏch tao ra đối tượng phủ định giả bằng phõn phối Gauss: N(u*, ỉ),
3 Deep learning cho bài toán nhận diện chữ viết trong hình ảnh. real pseudo.
Batch of real faces Feature Extractor Output
Features ee ae > x Vy if wy sop „2
Gaussian II (kx 3) : #ẹ (+ pretrained {Distribution || oy `
(+ trainable NW, 1) oN ` Features k = batchsize aN 7 erases d = feature dimension \ / ‘class 1: \ Z7 Gass ts
Hình 3.8: Pipeline cua phương pháp với N là phõn phối Gauss, p* là giỏ trị trung bỡnh, với trọng số ỉ #* được cập nhật hai lần để xem xét sự thay đổi đặc trưng từ mẫu mặt thật Cụ thể, với một loạt khối B được rút trích từ mạng V từ mặt thật có giá trị ƒ? = {7;}.VJj € B Đặt H„¿„ là giá trị trung bình của các vectơ đặc trưng ƒ? và H„¡¿ là giá trị của khối trước đó Dé phân lớp một đối tượng G ở khối thứ B’ dựa vào đặc trưng của đối tượng giả (mặt giả) fe = { fi} VIC B,
H" sẽ được tinh toán như sau:
, œ biểu thi mức độ ảnh hưởng của H„;¿ và Unew, nếu œ càng lớn mức độ ảnh hưởng của Log càng lớn, mức độ của Unew càng nhỏ và ngược lại.
Hàm mất mát trong quá trình phân lớp được tính như sau:
2k bce =— 3, {yilog (pi) + (1 — yi) log (1 — pi)} i=l
3 Deep learning cho bài toán nhận diện chữ viết trong hình ảnh.
Trong đó, y; là nhãn (0 hoặc 1) đầu vào thứ i, p; biểu thị xác suất dự đoán của đầu vào thứ i của lớp đối tượng tan công (mặt giả), tương tự 1 — p; là xác suat dự đoán của dau vào thứ i của mặt that
Trong hầu hết các trường hợp, mạng V được đào tạo trước về tập dữ liệu nhận dạng khuôn mặt và trong trường hợp này là VGGFace [ref] Mặc dù trọng số được huấn luyện từ trước chỉ phù hợp trong quá trình huấn luyện ban đầu của mô hình với các đặc trưng cấp thấp, nhưng các đặc trưng cấp cao khi phân lớp đối tượng G sẽ không phù hợp, bởi vì các kiến trúc mạng V được thiết kế để phù hợp trong việc nhận diện khuôn mặt Hơn nữa, các biểu diễn tính năng thường được nhóm theo danh tính Việc loại bỏ thông tin nhận dạng khỏi các tính năng giúp cải thiện hiệu suất vì chỉ quan tâm đến việc phát hiện giả mạo bất kể thông tin nhận dạng là gì Nên tác giả đề xuất hàm mat mát nhầm lẫn theo cặp (Pairwise Confusion loss - PC) bre= YM —Sill ¡ j#i
, trong đó f; là đặc trưng của anh x;, hàm mat mát này gây ra sự nhầm lẫn Euclid trong không gian đặc trưng được đào tạo trước và cố gắng xóa thông tin nhận dạng khỏi nó Và hàm mất mát này chỉ dùng để tính toán trong đặc trưng ảnh thật chứ không sử dụng trong đối tượng giả Tổng kết lại hàm mất mát của phương pháp nay được mô tả như sau: nại = Arlpe + Arbce, với Ay, Az là hằng số cho trước.