4.1. Bài toán tìm kiếm hình anh theo khuôn mặt bằng CNN và GNN
Dựa theo hướng nghiên cứu của Haoxiang Li và các đồng tác giả đã đề xuất sử dụng
mô hình Convolutional Neural Network (CNN) đề xử lý bài toán nhận diện khuôn mặt, đã mang lại những kết quả khả quan [2]. Từ đó quyết định sẽ lựa chọn mô hình CNN để nghiên cứu và cải tiến để giải quyết bài toán nhận diện khuôn mặt và bài toán tìm kiếm khuôn mặt tương đồng.
Đối với bài toán xử lý ảnh sẽ phân chia các đối tượng theo: Khuôn mặt, trang phục
và phong cảnh. Ap dụng mô hình Convolutional Neural Network (CNN) dé phân tích
và so sánh khuôn mặt và kết hợp với kiến trúc Resnet50 dé phân tích và phân chia các lớp đối tượng trên.
Bên cạnh đó, sử dụng phương pháp Euclidean Distance dé đo khoảng cách giữa hai điểm trong không gian Euclidean [27]. Trong trường hợp dữ liệu nhỏ và kích thước đồng đều, việc lựa chọn Euclidean Distance là lựa chọn hợp lý.
Image ecoding
— 0.97
4 a
Image 2
Image ecoding
| J | II |
Input Feature Extraction Output
Hình 4.1. Quá trinh phân tích hai hình anh khuôn mặt sử dung phương pháp
Euclidean Distance
31
Với bài toán này Euclidean Distance được sử dụng đề đánh giá độ giống nhau giữa các khuôn mặt được thực hiện băng cách so sánh vector đặc trưng của các khuôn mặt [27]. Cùng với công thức đơn giản, tính chất đối xứng Euclidean Distance phản ánh khoảng cách vật lý giữa các điểm dữ liệu trong không gian Euclidean. Điều này giúp
nó trở thành một công cụ hiệu quả dé đo lường sự tương dong giữa các điểm. Sự đơn
giản của Euclidean Distance cũng giúp giảm độ phức tạp khi triển khai và tích hop
vào hệ thống, đặc biệt là với dữ liệu có kích thước nhỏ [27].
Bên cạnh đó, Convolutional Neural Networks (CNN) có khả năng nhận diện và phân
loại hình ảnh, tuy nhiên, chúng chỉ hoạt động hiệu quả trên dữ liệu được biểu diễn dưới dạng đồ thị có nghĩa là dữ liệu đầu vào cần phải được ánh xạ vào một cấu trúc
đồ thị dé CNN thực hiện các phép tích chập và trích xuất đặc trưng một cách hiệu
qua. Graph Neural Networks (GNN) lại có khả năng thực hiện những công việc ma
CNN không thé làm được, đó là cung cấp các công cu đề phân tích các mối quan hệ giữa các thông tin quan trọng về những mối quan hệ của đối tượng trong mạng [6].
Compare ana get
ID face in list face List ID Face
cropped
List image have face cropped
Face EG
® a >Nei
Input image Feature Extraction Output
Hình 4.2. Quá trình tìm kiến khuôn mặt bang CNN va GNN
Liên kết các hình ảnh khuôn mặt sử dụng mô hình mạng thần kinh đồ thị Graph Neural Network (GNN) dựa trên các công thức đánh giá mức độ tương quan về các điểm đặc trưng của gương mặt như kích thước, vị trí, khoảng cách và hình dạng của các bộ phận trên gương mặt giúp giảm thời gian phân tích và tìm kiếm khuôn mặt ở các lần tiếp theo [12].
32
4.2. Bài toán tìm kiếm hình ảnh tương đồng sử dụng mô hình ANN.
Dựa theo hướng nghiên cứu của Ting Liu và các đồng tác giả đã đề xuất mô hình Approximate Nearest Neighbor (ANN) để xử lý bài toán tìm kiếm gần nhất xấp xỉ [21]. Sử dụng mô hình ResNet50 dé xác định các lớp đối tượng có trong ảnh kết hợp Approximate Nearest Neighbors (ANN) đề xây dựng hệ thống đề xuất hình ảnh đặc
điêm tương đông về câu trúc, màu sắc, điêm ảnh.
Với bài toán xử lý độ tương đồng giữa các hình ảnh không đồng nhất về màu sắc, kích thước, sự vật hiện tượng, sử dụng phương pháp đo khoảng cách bằng tích vô
hướng giữa hai vectors (Dot Product) thay vì phương pháp Euclidean Distance. Vì
phương pháp Euclidean Distance chỉ hoạt động tốt trên dữ liệu có kích thước nhỏ và hình ảnh đồng nhất.
Tiếp cận bài toán, chuyền đổi hình ảnh thành vector được thực hiện thông qua việc
sử dụng các mô hình tiền huấn luyện Convolutional Neural Networks (CNN) để trích xuất đặc trưng của hình ảnh. Sau đó, các đặc trưng này được biểu diễn dưới dạng
vector sô.
Sau khi dữ liệu được biểu diễn dưới dạng vector số, phương pháp chiếu ngẫu nhiên được áp dụng dé giảm chiều đữ liệu và giữ lại các thông tin quan trọng. Quá trình này
giúp giảm kích thước của dit liệu mà vẫn giữ được tính năng quan trọng, từ đó tăng
cường khả năng tìm kiếm và xử lý.
Xây dựng cây nhị phân tìm kiếm bằng phương pháp Locality-Sensitive Hashing (LSH) [10] lưu giữ các giá trị phép chiều ngẫu nhiên. Mỗi nút trong cây đại diện cho một vùng di liệu. Khi có một vector mới cần tìm kiếm, nó được điều hướng qua cây
để nhanh chóng xác định vùng chứa các mẫu tương đồng. Kết hợp cả hai phương pháp này tạo ra một mô hình tìm kiếm hình ảnh phù hợp.
Quá trình được thể hiện qua các bước sau:
- Bước 1: Trích xuất đặc trưng từ hình ảnh:
33
Đầu tiên, sử dụng một mô hình trích xuất đặc trưng Convolutional Neural Network (CNN), dé lay ra các đặc trưng quan trong từ hình ảnh. Kết quả của bước này là một vector đặc trưng biểu diễn nội dung của hình ảnh.
- _ Bước 2: Chiếu ngẫu nhiên dé giảm chiều dữ liệu:
Sử dụng phép chiếu ngẫu nhiên, Gaussian Random Projection để giảm chiều
dữ liệu. Mục tiêu là giữ lại những thông tin quan trọng trong dữ liệu, nhưng
giảm kích thước của vector đặc trưng dé tăng cường tốc độ xử lý.
- Bước 3: Xây dựng cây nhị phân:
Sử dụng các vector đặc trưng đã được chiếu ngẫu nhiên dé xây dựng một cây nhị phân. Cây nhị phân này có các nút biểu diễn các quy tắc phân chia dựa trên
giá trị của các đặc trưng.
Sau khi hoàn tât các bước mô hình đã săn sàng đê đê xuât và tìm kiêm các hình ảnh.
4.3. Bài toán tim kiếm đối tượng trong anh bằng ResNet50 kết hop
U2Net
Dựa trên bài nghiên cứu của Thanos Athanasiadis và các đồng tác giả đã nhận diện được các đối tượng trong ảnh dựa trên các nhãn được cầu hình [32]. Từ đó cũng mở
ra hướng nghiên cứu dé giải quyết bài toán nhận diện đối tượng trong anh và gan nhãn chúng bằng mô hình ResNet50. Bên cạnh đó nhóm cũng kết hợp với mô hình U2Net dé bé trợ và tô màu mảng đối tượng được nhận diện [33].
34
Œ Convolution layer Jẹ Softmax layer Tags mapping with
; . object in the picture
i Pooling layer 1 Deconvolution layer
——
Input ResNet50 X U2Net (Segmentation) Output
Hình 4.3. Quá trình xây dựng bài toán nhận diện đối tượng trong ánh.
Quá trình được thê hiện qua các bước sau:
- Bước 1: Chuẩn bị đầu vào là một hình ảnh có kích thước cố định được sử dụng
làm đầu vào cho mô hình. Kích thước thường là 224x224 pixel (hệ số chuẩn), tuy nhiên, nó có thé thay đổi tùy thuộc vào yêu cầu cụ thé.
- Bước 2: Lớp Convolutonal đầu tiên (7x7), hình ảnh đầu vào được đưa qua
một lớp tích chập 7x7 với stride 2 dé giảm kích thước của dau vào.
- Bước 3: Lớp gộp tối đa (Max Pooling) sẽ dựa vào kết quả của lớp tích chập,
đưa qua một lớp gộp tối đa (3x3) dé giảm kích thước không gian của đầu vào.
- Bước 4: Các khối dư (Residual Blocks) được xếp chồng lên nhau. Mỗi khối
dư bao gồm hai lớp tích chập (3x3) và kết nối dư. Số lượng khối dư (48 trong trường hợp của ResNet50) có thé thay đồi tùy thuộc vào kiến trúc cụ thé.
- _ Bước 5: Sau chuỗi các khối dư, đầu ra được đưa qua một Lớp gộp trung bình
toàn cục (Global Average Pooling) dé chuyén đôi thành một vecto đặc trưng duy nhất cho mỗi lớp.
- _ Bước 6: Trong quy trình mô hình bây giờ liên quan đến việc lấy đầu ra của
U2Net, thay vì sử dụng các lớp kết nối day đủ trực tiếp. Đầu ra này, sau khi U2Net đã trích xuất các đặc trưng quan trọng từ hình ảnh, có thể là một tensor
chứa thông tin đặc trưng.
35
- _ Bước 7: Tạo một lớp kết nói day đủ tùy chỉnh được thiết kế dé phù hợp với
đầu ra của U2Net. Số lượng đơn vị an trong lớp này có thể được điều chỉnh dựa trên đặc điểm của đầu ra U2Net và yêu cầu phân loại cụ thể.
- Bước 8: Đưa ra kết quả cuối cùng của mô hình, đầu ra của lớp kết nối đầy đủ
tùy chỉnh, thông qua một lớp activation Softmax dé chuyển đổi thành xác suất cho từng lớp phân loại, tạo ra một kiến trúc linh hoạt và có khả năng điều chỉnh
dé đáp ứng yêu cầu cụ thé của mô hình phân loại.
4.4. Bai toán tìm kiếm theo câu lệnh văn bản sử dung Natural Language
Processing (NLP)
Bài toán tìm kiếm hình ảnh theo câu lệnh văn bản được dé xuất dé giải quyết nhu cầu người dùng một cách toàn diện và linh hoạt. Thay vì giới hạn ở việc tìm kiếm theo một tiêu chí nhất định như khuôn mặt, nhãn hay tương đồng hình ảnh, bài toán này
dé xuất sự kết hợp của nhiều mô hình xử lý dữ liệu đồng thời dé tôi ưu hóa trải nghiệm
người dùng.
Bài toán có thêm tính năng lọc theo điều kiện lồng nhau, giúp kết hợp các chức năng trên đề thực hiện tìm kiếm với điều kiện lồng nhau, chăng hạn như tìm kiếm khuôn mặt chứa nhãn cụ thể. Sự tích hợp của mô hình xử lý ngôn ngữ tự nhiên (NLP) cũng đóng một vai trò quan trọng, phân tích câu lệnh người dùng dé xác định từ khóa và điều hướng đến các mô hình xử lý ảnh tương ứng.
Bài toán này mang lại lợi ích lớn bằng cách tăng cường hiệu suất tìm kiếm hình ảnh
và cải thiện trải nghiệm người dùng thông qua tính năng đa nhiệm và lựa chọn đa
chiều. Đồng thời, sự linh hoạt và đa dạng trong trải nghiệm tìm kiếm hình ảnh trực tuyến được đảm bảo qua việc kết hợp các mô hình xử lý hiệu quả.
4.5. _ Bài toán 4n thông tin số bằng thuật toán Least Significant Bit (LSB)
Dựa vào hướng xử lý của Zhang Mingyuan và các đồng tác giả đã nêu ra các phương pháp ân thông tin số và phương pháp LSB là phương pháp ổn định và phù hợp với bài toán ân thông tin chủ sở hữu trong hình ảnh [21].
36
Đuôi tệp hình anh JPG và PNG có những khác biệt quan trong. JPG sử dụng nén mat mát, giảm kích thước tệp nhưng có thé gây mat chất lượng. Trái lai, PNG sử dụng nén không mat mát, giữ chất lượng ảnh nguyên ven [21].
Chat lượng hình anh của JPG phù hợp cho ảnh nền màu đồ sộ, PNG thích hop cho hình ảnh có đường biên rõ ràng, logo. Dung lượng tệp JPG nhỏ hơn do nén mắt mát, còn PNG thường lớn hơn, phù hợp cho chất lượng cao.
Về màu sắc, JPG hỗ trợ 16 triệu màu, thích hợp cho hình ảnh đa màu sắc. PNG hỗ trợ màu đến 48-bit, bao gồm mau trong suốt, lựa chọn tốt cho hình ảnh yêu cầu độ
chính xác cao [21]. Sự chọn lựa giữa JPG và PNG phụ thuộc vào mục đích sử dụng
và yêu cầu về chất lượng ảnh.Tận dụng các ưu điểm của PNG, đặc biệt là tính chất
có thêm cả bit màu trong suốt alpha channel (Không thay đổi màu sắc, chất lượng
hiên thị của hình ảnh), sử dụng chúng vào mục đích ân thông tin sô vào bức ảnh.
Đối với 1 pixels anh PNG có sử dung alpha channel sẽ có 32-bit, trong đó 8-bit ding
dé hiển thị màu đỏ (RED), 8-bit dùng dé hiển thi màu xanh lá (GREEN), 8-bit dùng
dé hiển thị màu xanh dương (BLUE), va 8-bit cuối cùng là dành cho alpha channel trong suốt và không hiên thị màu [21]. Điều đó nếu thay đổi 8-bit cuối này dùng dé chứa thông tin ở đó thì sẽ cũng không thay đổi chất lượng độ hiển thị của ảnh.
Kích thước tối đa của nội dung ân thông tin số sẽ bằng tối đa 1/4 dung lượng ảnh gốc
dựa vào độ phân giải của bức ảnh.
Các nội dung có thể ân có thê là: đoạn thông điệp, tin nhắn, nội dung mã hóa, chuỗi Blockchain, NFT hoặc là 1 tam ảnh khác được mã hóa về dạng vector màu (Kích thước tối đa sẽ bằng 1/4 tắm ảnh gốc).
37