GIẢI PHÁP ĐÈ XUẤT

Một phần của tài liệu Khóa luận tốt nghiệp Hệ thống thông tin: Hệ thống lưu trữ và phân tích hình ảnh dựa trên các mô hình máy học (Trang 48 - 55)

4.1. Bài toán tìm kiếm hình anh theo khuôn mặt bằng CNN và GNN

Dựa theo hướng nghiên cứu của Haoxiang Li và các đồng tác giả đã đề xuất sử dụng

mô hình Convolutional Neural Network (CNN) đề xử lý bài toán nhận diện khuôn mặt, đã mang lại những kết quả khả quan [2]. Từ đó quyết định sẽ lựa chọn mô hình CNN để nghiên cứu và cải tiến để giải quyết bài toán nhận diện khuôn mặt và bài toán tìm kiếm khuôn mặt tương đồng.

Đối với bài toán xử lý ảnh sẽ phân chia các đối tượng theo: Khuôn mặt, trang phục

và phong cảnh. Ap dụng mô hình Convolutional Neural Network (CNN) dé phân tích

và so sánh khuôn mặt và kết hợp với kiến trúc Resnet50 dé phân tích và phân chia các lớp đối tượng trên.

Bên cạnh đó, sử dụng phương pháp Euclidean Distance dé đo khoảng cách giữa hai điểm trong không gian Euclidean [27]. Trong trường hợp dữ liệu nhỏ và kích thước đồng đều, việc lựa chọn Euclidean Distance là lựa chọn hợp lý.

Image ecoding

— 0.97

4 a

Image 2

Image ecoding

| J | II |

Input Feature Extraction Output

Hình 4.1. Quá trinh phân tích hai hình anh khuôn mặt sử dung phương pháp

Euclidean Distance

31

Với bài toán này Euclidean Distance được sử dụng đề đánh giá độ giống nhau giữa các khuôn mặt được thực hiện băng cách so sánh vector đặc trưng của các khuôn mặt [27]. Cùng với công thức đơn giản, tính chất đối xứng Euclidean Distance phản ánh khoảng cách vật lý giữa các điểm dữ liệu trong không gian Euclidean. Điều này giúp

nó trở thành một công cụ hiệu quả dé đo lường sự tương dong giữa các điểm. Sự đơn

giản của Euclidean Distance cũng giúp giảm độ phức tạp khi triển khai và tích hop

vào hệ thống, đặc biệt là với dữ liệu có kích thước nhỏ [27].

Bên cạnh đó, Convolutional Neural Networks (CNN) có khả năng nhận diện và phân

loại hình ảnh, tuy nhiên, chúng chỉ hoạt động hiệu quả trên dữ liệu được biểu diễn dưới dạng đồ thị có nghĩa là dữ liệu đầu vào cần phải được ánh xạ vào một cấu trúc

đồ thị dé CNN thực hiện các phép tích chập và trích xuất đặc trưng một cách hiệu

qua. Graph Neural Networks (GNN) lại có khả năng thực hiện những công việc ma

CNN không thé làm được, đó là cung cấp các công cu đề phân tích các mối quan hệ giữa các thông tin quan trọng về những mối quan hệ của đối tượng trong mạng [6].

Compare ana get

ID face in list face List ID Face

cropped

List image have face cropped

Face EG

® a >Nei

Input image Feature Extraction Output

Hình 4.2. Quá trình tìm kiến khuôn mặt bang CNN va GNN

Liên kết các hình ảnh khuôn mặt sử dụng mô hình mạng thần kinh đồ thị Graph Neural Network (GNN) dựa trên các công thức đánh giá mức độ tương quan về các điểm đặc trưng của gương mặt như kích thước, vị trí, khoảng cách và hình dạng của các bộ phận trên gương mặt giúp giảm thời gian phân tích và tìm kiếm khuôn mặt ở các lần tiếp theo [12].

32

4.2. Bài toán tìm kiếm hình ảnh tương đồng sử dụng mô hình ANN.

Dựa theo hướng nghiên cứu của Ting Liu và các đồng tác giả đã đề xuất mô hình Approximate Nearest Neighbor (ANN) để xử lý bài toán tìm kiếm gần nhất xấp xỉ [21]. Sử dụng mô hình ResNet50 dé xác định các lớp đối tượng có trong ảnh kết hợp Approximate Nearest Neighbors (ANN) đề xây dựng hệ thống đề xuất hình ảnh đặc

điêm tương đông về câu trúc, màu sắc, điêm ảnh.

Với bài toán xử lý độ tương đồng giữa các hình ảnh không đồng nhất về màu sắc, kích thước, sự vật hiện tượng, sử dụng phương pháp đo khoảng cách bằng tích vô

hướng giữa hai vectors (Dot Product) thay vì phương pháp Euclidean Distance. Vì

phương pháp Euclidean Distance chỉ hoạt động tốt trên dữ liệu có kích thước nhỏ và hình ảnh đồng nhất.

Tiếp cận bài toán, chuyền đổi hình ảnh thành vector được thực hiện thông qua việc

sử dụng các mô hình tiền huấn luyện Convolutional Neural Networks (CNN) để trích xuất đặc trưng của hình ảnh. Sau đó, các đặc trưng này được biểu diễn dưới dạng

vector sô.

Sau khi dữ liệu được biểu diễn dưới dạng vector số, phương pháp chiếu ngẫu nhiên được áp dụng dé giảm chiều đữ liệu và giữ lại các thông tin quan trọng. Quá trình này

giúp giảm kích thước của dit liệu mà vẫn giữ được tính năng quan trọng, từ đó tăng

cường khả năng tìm kiếm và xử lý.

Xây dựng cây nhị phân tìm kiếm bằng phương pháp Locality-Sensitive Hashing (LSH) [10] lưu giữ các giá trị phép chiều ngẫu nhiên. Mỗi nút trong cây đại diện cho một vùng di liệu. Khi có một vector mới cần tìm kiếm, nó được điều hướng qua cây

để nhanh chóng xác định vùng chứa các mẫu tương đồng. Kết hợp cả hai phương pháp này tạo ra một mô hình tìm kiếm hình ảnh phù hợp.

Quá trình được thể hiện qua các bước sau:

- Bước 1: Trích xuất đặc trưng từ hình ảnh:

33

Đầu tiên, sử dụng một mô hình trích xuất đặc trưng Convolutional Neural Network (CNN), dé lay ra các đặc trưng quan trong từ hình ảnh. Kết quả của bước này là một vector đặc trưng biểu diễn nội dung của hình ảnh.

- _ Bước 2: Chiếu ngẫu nhiên dé giảm chiều dữ liệu:

Sử dụng phép chiếu ngẫu nhiên, Gaussian Random Projection để giảm chiều

dữ liệu. Mục tiêu là giữ lại những thông tin quan trọng trong dữ liệu, nhưng

giảm kích thước của vector đặc trưng dé tăng cường tốc độ xử lý.

- Bước 3: Xây dựng cây nhị phân:

Sử dụng các vector đặc trưng đã được chiếu ngẫu nhiên dé xây dựng một cây nhị phân. Cây nhị phân này có các nút biểu diễn các quy tắc phân chia dựa trên

giá trị của các đặc trưng.

Sau khi hoàn tât các bước mô hình đã săn sàng đê đê xuât và tìm kiêm các hình ảnh.

4.3. Bài toán tim kiếm đối tượng trong anh bằng ResNet50 kết hop

U2Net

Dựa trên bài nghiên cứu của Thanos Athanasiadis và các đồng tác giả đã nhận diện được các đối tượng trong ảnh dựa trên các nhãn được cầu hình [32]. Từ đó cũng mở

ra hướng nghiên cứu dé giải quyết bài toán nhận diện đối tượng trong anh và gan nhãn chúng bằng mô hình ResNet50. Bên cạnh đó nhóm cũng kết hợp với mô hình U2Net dé bé trợ và tô màu mảng đối tượng được nhận diện [33].

34

Œ Convolution layer Jẹ Softmax layer Tags mapping with

; . object in the picture

i Pooling layer 1 Deconvolution layer

——

Input ResNet50 X U2Net (Segmentation) Output

Hình 4.3. Quá trình xây dựng bài toán nhận diện đối tượng trong ánh.

Quá trình được thê hiện qua các bước sau:

- Bước 1: Chuẩn bị đầu vào là một hình ảnh có kích thước cố định được sử dụng

làm đầu vào cho mô hình. Kích thước thường là 224x224 pixel (hệ số chuẩn), tuy nhiên, nó có thé thay đổi tùy thuộc vào yêu cầu cụ thé.

- Bước 2: Lớp Convolutonal đầu tiên (7x7), hình ảnh đầu vào được đưa qua

một lớp tích chập 7x7 với stride 2 dé giảm kích thước của dau vào.

- Bước 3: Lớp gộp tối đa (Max Pooling) sẽ dựa vào kết quả của lớp tích chập,

đưa qua một lớp gộp tối đa (3x3) dé giảm kích thước không gian của đầu vào.

- Bước 4: Các khối dư (Residual Blocks) được xếp chồng lên nhau. Mỗi khối

dư bao gồm hai lớp tích chập (3x3) và kết nối dư. Số lượng khối dư (48 trong trường hợp của ResNet50) có thé thay đồi tùy thuộc vào kiến trúc cụ thé.

- _ Bước 5: Sau chuỗi các khối dư, đầu ra được đưa qua một Lớp gộp trung bình

toàn cục (Global Average Pooling) dé chuyén đôi thành một vecto đặc trưng duy nhất cho mỗi lớp.

- _ Bước 6: Trong quy trình mô hình bây giờ liên quan đến việc lấy đầu ra của

U2Net, thay vì sử dụng các lớp kết nối day đủ trực tiếp. Đầu ra này, sau khi U2Net đã trích xuất các đặc trưng quan trọng từ hình ảnh, có thể là một tensor

chứa thông tin đặc trưng.

35

- _ Bước 7: Tạo một lớp kết nói day đủ tùy chỉnh được thiết kế dé phù hợp với

đầu ra của U2Net. Số lượng đơn vị an trong lớp này có thể được điều chỉnh dựa trên đặc điểm của đầu ra U2Net và yêu cầu phân loại cụ thể.

- Bước 8: Đưa ra kết quả cuối cùng của mô hình, đầu ra của lớp kết nối đầy đủ

tùy chỉnh, thông qua một lớp activation Softmax dé chuyển đổi thành xác suất cho từng lớp phân loại, tạo ra một kiến trúc linh hoạt và có khả năng điều chỉnh

dé đáp ứng yêu cầu cụ thé của mô hình phân loại.

4.4. Bai toán tìm kiếm theo câu lệnh văn bản sử dung Natural Language

Processing (NLP)

Bài toán tìm kiếm hình ảnh theo câu lệnh văn bản được dé xuất dé giải quyết nhu cầu người dùng một cách toàn diện và linh hoạt. Thay vì giới hạn ở việc tìm kiếm theo một tiêu chí nhất định như khuôn mặt, nhãn hay tương đồng hình ảnh, bài toán này

dé xuất sự kết hợp của nhiều mô hình xử lý dữ liệu đồng thời dé tôi ưu hóa trải nghiệm

người dùng.

Bài toán có thêm tính năng lọc theo điều kiện lồng nhau, giúp kết hợp các chức năng trên đề thực hiện tìm kiếm với điều kiện lồng nhau, chăng hạn như tìm kiếm khuôn mặt chứa nhãn cụ thể. Sự tích hợp của mô hình xử lý ngôn ngữ tự nhiên (NLP) cũng đóng một vai trò quan trọng, phân tích câu lệnh người dùng dé xác định từ khóa và điều hướng đến các mô hình xử lý ảnh tương ứng.

Bài toán này mang lại lợi ích lớn bằng cách tăng cường hiệu suất tìm kiếm hình ảnh

và cải thiện trải nghiệm người dùng thông qua tính năng đa nhiệm và lựa chọn đa

chiều. Đồng thời, sự linh hoạt và đa dạng trong trải nghiệm tìm kiếm hình ảnh trực tuyến được đảm bảo qua việc kết hợp các mô hình xử lý hiệu quả.

4.5. _ Bài toán 4n thông tin số bằng thuật toán Least Significant Bit (LSB)

Dựa vào hướng xử lý của Zhang Mingyuan và các đồng tác giả đã nêu ra các phương pháp ân thông tin số và phương pháp LSB là phương pháp ổn định và phù hợp với bài toán ân thông tin chủ sở hữu trong hình ảnh [21].

36

Đuôi tệp hình anh JPG và PNG có những khác biệt quan trong. JPG sử dụng nén mat mát, giảm kích thước tệp nhưng có thé gây mat chất lượng. Trái lai, PNG sử dụng nén không mat mát, giữ chất lượng ảnh nguyên ven [21].

Chat lượng hình anh của JPG phù hợp cho ảnh nền màu đồ sộ, PNG thích hop cho hình ảnh có đường biên rõ ràng, logo. Dung lượng tệp JPG nhỏ hơn do nén mắt mát, còn PNG thường lớn hơn, phù hợp cho chất lượng cao.

Về màu sắc, JPG hỗ trợ 16 triệu màu, thích hợp cho hình ảnh đa màu sắc. PNG hỗ trợ màu đến 48-bit, bao gồm mau trong suốt, lựa chọn tốt cho hình ảnh yêu cầu độ

chính xác cao [21]. Sự chọn lựa giữa JPG và PNG phụ thuộc vào mục đích sử dụng

và yêu cầu về chất lượng ảnh.Tận dụng các ưu điểm của PNG, đặc biệt là tính chất

có thêm cả bit màu trong suốt alpha channel (Không thay đổi màu sắc, chất lượng

hiên thị của hình ảnh), sử dụng chúng vào mục đích ân thông tin sô vào bức ảnh.

Đối với 1 pixels anh PNG có sử dung alpha channel sẽ có 32-bit, trong đó 8-bit ding

dé hiển thị màu đỏ (RED), 8-bit dùng dé hiển thi màu xanh lá (GREEN), 8-bit dùng

dé hiển thị màu xanh dương (BLUE), va 8-bit cuối cùng là dành cho alpha channel trong suốt và không hiên thị màu [21]. Điều đó nếu thay đổi 8-bit cuối này dùng dé chứa thông tin ở đó thì sẽ cũng không thay đổi chất lượng độ hiển thị của ảnh.

Kích thước tối đa của nội dung ân thông tin số sẽ bằng tối đa 1/4 dung lượng ảnh gốc

dựa vào độ phân giải của bức ảnh.

Các nội dung có thể ân có thê là: đoạn thông điệp, tin nhắn, nội dung mã hóa, chuỗi Blockchain, NFT hoặc là 1 tam ảnh khác được mã hóa về dạng vector màu (Kích thước tối đa sẽ bằng 1/4 tắm ảnh gốc).

37

Một phần của tài liệu Khóa luận tốt nghiệp Hệ thống thông tin: Hệ thống lưu trữ và phân tích hình ảnh dựa trên các mô hình máy học (Trang 48 - 55)

Tải bản đầy đủ (PDF)

(130 trang)