TOM TAT KHÓA LUẬN
Chương 3. CƠ SỞ LÝ THUYET
Tập trung vào việc xây dựng cơ sở lý thuyêt cho nghiên cứu, bao gôm giới thiệu vê phân tích hình ảnh và các bài toán tìm kiêm hình ảnh. Mục này sẽ cung câp cơ sở
kiên thức cho việc hiêu rõ vê ngữ cảnh lý thuyêt của nghiên cứu và làm nên tảng cho
việc triển khai các phương pháp nghiên cứu được đề xuất.
3.1. _ Giới thiệu về phân tích hình ảnh
Phân tích hình ảnh là một lĩnh vực nghiên cứu và ứng dụng sử dụng các phương pháp,
kỹ thuật khoa học dé tìm hiểu và trích xuat thông tin từ đữ liệu hình ảnh bao gồm áp dụng các nguyên lý toán học, thống kê và công nghệ thông tin để hiểu rõ cấu trúc, tính chất và ý nghĩa của hình ảnh.
3.1.1. Định nghĩa
Phân tích hình ảnh dựa trên việc chuyên đồi dữ liệu hình ảnh thành dit liệu số và sau
đó áp dụng các phương pháp xử lý số liệu và thuật toán đề trích xuất thông cần thiết. Điều này bao gồm việc nhận điện đối tượng, đo lường các thuộc tính như kích thước
và hình dạng, hay thậm chí dự báo các biến đồi trong hình ảnh theo thời gian [34].
Các phương pháp khoa học được áp dụng trong phân tích hình ảnh thường bao gồm
xử lý tín hiệu, thuật toán máy học, và các mô hình toán học dé mô tả mối quan hệ giữa các yếu tố trong hình anh. Sự tiến bộ trong lĩnh vực này ngày càng phụ thuộc vào khả năng tích hợp trí tuệ nhân tạo dé tăng cường khả năng hiểu biết và đưa ra dự
đoán chính xác từ dữ liệu hình ảnh phức tạp.
Phân tích hình ảnh không chỉ là một công cụ quan trọng trong nghiên cứu khoa học,
mà còn có ứng dụng rộng rãi trong nhiều lĩnh vực như y học, công nghiệp, và công
nghệ thông tin.
13
3.1.2. Các phương pháp phân (tích
Trong phần này, tập trung vào các phương pháp phân tích hình ảnh định tính, mang lại cái nhìn sâu sắc và chỉ tiết về nội dung hình ảnh.
3.1.2.1. Phân tích hình ảnh định tính
Phân tích hình ảnh định tính là quá trình nghiên cứu và mô tả các đặc điểm và tính chất cơ bản của dữ liệu hình ảnh thường liên quan đến việc đánh giá màu sắc, cấu trúc hình học và các đặc trưng định tính khác của hình ảnh [35]. Dưới đây là một số
kỹ thuật phổ biến:
e Phân loại màu sắc: Sử dụng biểu dé histogram dé phân tích phân phối màu
sắc trong hình ảnh và biéu diễn mối quan hệ giữa các kênh mau.
e Cấu trúc và hình dạng: Đặc điểm hình học như kích thước, hình dạng, tỉ lệ,
và mỗi quan hệ giữa các yếu tố hình học.
e_ Phân tích cấu trúc độ phân giải: Phân tích cấu trúc độ phân giải bang cách
xác định độ nhám, độ thô.
e_ Phân loại đối tượng: Nhận diện va phân loại đối tượng trong hình ảnh dé mô
tả tính chất hình ảnh.
e_ Biểu diễn thông tin: Sử dụng biéu đồ dé trực quan hóa thông tin và mô hình
hóa các quan hệ.
Phương pháp này giúp đưa ra đánh giá về cau trúc cơ bản và tính chat của dữ liệu hình ảnh, tăng cường khả năng nhận biết về nội dung của hình ảnh.
3.1.2.2. Phân tích hình ảnh định lượng
Phân tích hình ảnh định lượng là quá trình sử dụng các phương pháp số học và thống
kê dé đo lường và mô tả các thuộc tính trong đữ liệu hình ảnh [35]. Dưới đây là một
số kỹ thuật phô biến :
e_ Xử lý ảnh số: Sử dụng các phương pháp số đề xử lý hình ảnh, bao gồm ca
việc áp dụng bộ lọc và biến đổi hình học.
e Phan tích thống kê: Sử dụng histogram dé mô ta phân phối của mức độ
sáng và màu săc trong hình ảnh.
14
e Nhận diện và đo lường: Sử dụng các thuật toán dé nhận diện và đo lường
các đặc trưng cụ thé trong hình anh.
e Xử lý hình ảnh nâng cao: Sử dụng các phương pháp tiên tiến như mạng
nơ-ron sâu đê học và hiêu câu trúc phức tạp trong dữ liệu hình ảnh.
Phân tích hình ảnh định lượng cung cấp khả năng đo lường chính xác và đối chiếu số liệu, giúp hiểu rõ hơn về các thuộc tính và đặc điểm có sẵn trong hình ảnh.
3.1.3. Tính chất của thị giác máy tính
Thị giác máy tính là một công nghệ mà máy sử dụng dé tự động nhận biết và mô tả hình ảnh một cách hiệu quả [35]. Ứng dụng thị giác máy tính sử dụng trí tuệ nhân tạo
và máy học dé xử lý những dữ liệu hình ảnh, video nhằm xác định đối tượng và nhận diện khuôn mặt, cũng như phân loại, đề xuắt, giám sát và phát hiện. Dưới đây là một
số tính chất quan trọng của thị giác máy tính:
Phân loại: Tính năng này cho phép hệ thống phân loại các hình ảnh vào các
danh mục hoặc nhóm khác nhau dựa trên nội dung của chúng.
Nhận diện đối tượng: Các thuật toán thị giác máy tính có khả năng nhận diện
và phân loại các đối tượng trong hình ảnh, như người, xe, động vật, vật thể,...
Dinh vi đối tượng: Có khả năng xác định vị trí cụ thé của các đối tượng trong hình ảnh, thường là băng cách vẽ ra các hộp giới han (bounding boxes).
Nhận dạng khuôn mặt: Có khả năng xác định và nhận diện khuôn mặt trong
hình ảnh, thường được sử dụng trong các hệ thong an ninh hoặc nhận diện
người dùng.
Phân đoạn hình ảnh: Tính chất này chia hình ảnh thành các vùng nhỏ hơn để phân biệt giữa các lớp đối tượng khác nhau trong hình.
3.2. Các kỹ thuật va lý thuyết
Trong phần này, đề tài trình bày một số kỹ thuật và lý thuyết quan trọng được áp dụng
đê nâng cao hiệu suât của hệ thông.
15
3.2.1. Mô hình Convolutional Neural Network (CNN)
Convolutional Neural Network [2] là một loại mạng nơ-ron sâu được sử dụng rộng
rãi trong lĩnh vực thị giác máy tính và xử lý ảnh. Nó được thiết kế để nhận diện và hiểu các đặc trưng trong dữ liệu hình ảnh thông qua quá trình tích chập.
Œẹ 2d convolutional layer with Relu activation and 3x3 kernel
i 2d max pooling layer with 2x2 pool size
14x14x16
14x14x32
28x28x1 28x28x16
Input (rasterised sketch)
Feature Extraction Classifcation
Hình 3.1. Kiến trúc của mô hình Convolutional Neural Network (CNN)
Lớp Convolutional (Convolutional Layer): Là lớp chính của CNN, thực hiện việc
áp dụng các bộ lọc (kernels) trên hình ảnh dé tạo ra các ban đồ chứa thông tin về các đặc trưng của hình anh được gọi là feature maps. Các feature maps này biểu diễn các đặc trưng cấp thấp đến cấp cao của hình ảnh.
- Pau vào: / là ma trận đầu vào (hình ảnh), K là ma trận bộ lọc (kernel).
- Đầura: S(,j) = (I* K)(,j) = Mạ Y„1Œm,n) * K(— m,j —n) là
giá trị tại vi tri (i,j) của feature map. S là feature map i,j là tọa độ trên feature map. (1)
e Lép Pooling (Pooling Layer): Lam giảm kích thước cua feature maps, giữ lai
thông tin quan trọng và giảm lượng tinh toán cần thiết. Max pooling va average
pooling là hai phương pháp thông dụng.
16
- Max Pooling: R(i,j) = mmaxm„S( * s +m,j * s +n), trong đó s là
kích thước của cửa số pooling. @)
- Average Pooling: R(i,j) = ơ 3mm SŒ*S +Tn,j *s + n), với
m Xn là kích thước cửa số pooling. (3)
e Lớp Flatten (Flatten Layer): Chuyên đồi feature maps thành vector 1 chiều,
chuẩn bị cho lớp fully connected. Chuyển đổi feature map thành vector 1
chiêu:
V = Flatten(S) (4)
e Lớp Fully Connected (Fully Connected Layer): La lớp nơ-ron truyền thống,
kết nỗi mỗi nơ-ron với tat cả các nơ-ron trong lớp trước đó. Thường xuất hiện
ở cuối mô hình đề thực hiện các tác vụ như phân loại.
- Pau vào: X là vector đầu ra từ Flatten Layer, W là ma trận trọng số, b
là vector điều chỉnh (bias).
- Đầu ra: Y = ứ(WX + b) là hàm kớch hoạt (thường là ReLU cho cỏc
lớp ấn và Softmax cho lớp đầu ra). (5)
Trong các công thức trên:
- I,K,S,R,V,X,W,b là các ma trận hoặc vector.
- i,j,m,n là chỉ số của các phan tử trong ma trận.
- s là bước trượt (stride) của cửa số pooling.
- o là hàm kích hoạt.
Mặc dù CNN mang lại nhiều ưu điểm như tính cơ động, khả năng học đặc trưng tích
tụ và giảm số lượng tham SỐ, nhưng cũng đối mặt với nhược điểm như yêu cầu dữ
liệu lớn và tài nguyên tính toán [2]. Để cải thiện hiệu suất, việc sử dụng transfer
learning, tối ưu hóa tham số, áp dung regularization và dropout là những cải tiền quan trọng. CNN không chỉ là công cụ quan trọng trong xử lý ảnh mà còn là nền tảng cho nhiều ứng dụng trong lĩnh vực trí tuệ nhân tạo.
17
3.2.2. Mô hình Graph Neural Network (GNN)
Graph Neural Network (GNN) [9] là một loại mô hình máy học được thiết kế để xử
lý và phân tích dữ liệu đồ thị. Mục tiêu chính của GNN là học được biểu diễn đặc trưng của đồ thị thông qua việc truyền thông tin qua các đỉnh và cạnh. Điều này giúp GNN hiệu quả trong việc phân loại đối tượng trong đồ thị, dự đoán liên kết giữa các thực thể, và thậm chí là trong việc phân tích cấu trúc mạng xã hội.
Trong GNN, mỗi đối tượng trong đồ thị (như đỉnh hoặc cạnh) được đại diện bằng một nút (node) và các mối quan hệ giữa chúng được biéu diễn bằng các cạnh (edges).
Ý tưởng cơ bản của GNN là cập nhật thông tin của mỗi nút dựa trên thông tin của các nút lân cận. Quá trình này được lặp lại qua nhiều lớp (layer) dé cập nhật thông tin và tính toán đặc trưng của đồ thị. GNN có khả năng học cả thông tin cấp thấp và cấp cao
từ cấu trúc đô thị, giúp nó thích ứng tốt với các tác vụ như phân loại đỉnh, dự đoán cạnh, hay phân loại toàn bộ đồ thị.
Hidden layer Hidden layer
ReLU ReLU
— ơlơ cọ. ơElơ-ơ
| J | J |. J
Input Feature Extraction Output
Hình 3.2. Quá trình xây dung mô hình Graph Neural Network
Đồ thị được định nghĩa bằng công thức [9] chung :
18
G=(V,E) ©)
Trong do :
e V là tập hop các nút đồ thị.
e FE là tập hợp các cạnh.
Có ba loại đồ thị chính:
e Đồ thị đồng nhất: Mỗi cạnh kết nối chỉ hai nút và nút, cạnh là một loại duy
nhất trong mạng.
e_ Đồ thị không đồng nhất: Mỗi cạnh kết nối chỉ hai nút va mỗi nút có thé nối
với nhiều loại cạnh khác nhau.
Ngoài các ưu điểm nồi bật, GNN không tránh khỏi nhược điểm [9] như khả năng xử
lý đồ thị lớn và yêu cầu lượng dữ liệu lớn dé huấn luyện mô hình. Hiệu suất của GNN
có thé phụ thuộc lớn vào cấu trúc cụ thé của đồ thị và đôi khi nó có thé không hiệu quả như mong đợi trong trường hợp đồ thị có cau trúc phức tap.
3.243. Kiến trúc ResNet50 và U2Net
ResNet50 là một mô hình mạng nơ-ron sâu thuộc họ Residual Networks (ResNets),
được xây dựng với mục đích chính là giải quyết van dé vanishing gradient và khả năng học sâu trong lĩnh vực học máy [3]. Với tông cộng 50 lớp, trong đó bao gồm 48 residual blocks và 2 lớp kết nối đầy đủ, ResNet50 đại diện cho một bước tiễn quan
trọng trong phát triên của các kiên trúc mạng nơ-ron sâu.
Sự sử dụng linh hoạt của các lớp tích chập với kích thước kernel khác nhau, cùng với
việc kết hợp lớp gộp tối đa, giúp ResNet50 hiệu quả trong việc trích xuất thông tin đặc trưng từ hình anh ở nhiều ty lệ không gian [3]. Cuối cùng, với lớp kết nối day đủ
va activation softmax, ResNet50 thực hiện tác vụ phân loại cuối cùng, chuyển đôi
dau ra thành xác suat.
19
Conv1 ReLu Max-pooling SE-Basic-Block Conv3_x
oo ứ Oo / @
Conv3_x Conv4_x Fully connected layer Conv5_x Global average
Hình 3.3. Kiến trúc ResNet5O Cấu trúc của ResNet50 bao gồm các lớp chính:
Lớp Convolutional - Initial Convolution: Chịu trách nhiệm khám phá thông
tin cấp cao từ ảnh, sử dụng kernel kích thước 7x7 và 64 filter. Nói một cách khoa học, đây là bước quan trọng dé tạo ra một biéu diễn chất lượng và giảm
kích thước không gian của dữ liệu.
Lớp Gộp Tối Da va Convolutional (Stage 1): Kết hợp giữa Lớp Gop Tối Da
và Convolutional tiếp tục tăng cường độ phức tạp của mô hình. Lớp Gộp Tối
Đa với kernel 3x3 giúp lọc thông tin quan trọng, trong khi lớp convolutional
với kernel 1x1 giúp giảm số lượng chiều, tối ưu hóa tính toán.
Lớp Convolutional va Convolutional (Stage 2): Phát triển của mô hình
thông qua lớp convolutional và residual blocks. Các residual blocks giúp tránh tinh trạng giảm vanishing gradient, tang khả năng học sâu của mang
Lớp Convolutional và Convolutional (Stage 3): Lap lại stage 2 giúp giảm
giảm vanishing gradient.
Lớp Convolutional va Convolutional (Stage 4): Hoàn thiện với các lớp
convolutional và residual blocks cuối cùng.
Lớp Kết Nối Đầy Du (Fully Connected): Sử dụng dé thực hiện tác vụ phân
loại, đưa ra dự đoán dựa trên các đặc trưng đã học được.
20
e Lớp Activation Softmax: Ap dụng dé chuyền đổi dau ra thành xác suất. Điều
này là quan trọng trong các tác vụ phân loại nhiều lớp.
ResNet50 thường được sử dụng trong các bài toán nhận diện hình ảnh, nhưng cũng
có thé được áp dụng cho các nhiệm vụ khác như phân loại và trích xuất đặc trưng.
U2Net được thiết kế với mục tiêu chính là cải thiện độ chính xác và khả năng học sâu trong các nhiệm vụ phân đoạn hình ảnh [32]. Nó sử dụng cấu trúc encoder-decoder giống như U-Net [32], nhưng cũng tích hợp cơ chế attention mechanism dé tăng khả năng chọn lọc đặc trưng quan trong. Cấu trúc kết nối dư giúp mô hình tránh tình trạng
vanishing gradient, làm cho quá trình học sâu trở nên ôn định và hiệu qua.
Đặc biệt, U2Net có khả năng chấp nhận đầu vào từ ResNet50, một mô hình nổi tiếng trong lĩnh vực nhận dạng hình ảnh [33]. Việc sử dụng đầu ra của ResNet50 như là thông tin đặc trưng đầu vào cho U2Net giúp nâng cao khả năng trích xuất thông tin chỉ tiết và cấp cao từ hình ảnh, đồng thời giữ lại ưu điểm của ResNet50 trong việc giải quyết van dé vanishing gradient.
Với kiến trúc đa tang, sự kết hợp của lớp tích chập va lớp gộp, cũng như sự linh hoạt trong việc chấp nhận đầu vào từ ResNet50, U2Net [33] trở thành một công cụ mạnh
mẽ trong các ứng dụng y học, nhận dạng đối tượng và xử lý hình ảnh. Sự cải tiễn này
không chỉ nâng cao độ chính xác của mô hình mà còn mở rộng khả năng ứng dụng
của nó trong nhiều lĩnh vực khác nhau
3.2.4. M6 hinh Approximate Nearest Neighbors (ANN)
Trong quá trình quyết định lớp của đối tượng, thuật toán Approximate Nearest Neighbors (ANN) dựa trên quy tắc bầu cử có nghĩa là các phiếu bầu chiếm đa số liên quan đến các tham số quan trọng như số hàng xóm (k), phương pháp đo khoảng cách,
và khả năng kích hoạt tương tự thuật toán KNN có trọng số. Sự thống nhất giữa các tham số này đóng vai trò quan trọng trong việc đảm bảo tính chính xác và hiệu suất của hệ thống.
21
Với dữ liệu lớn, thuật toán ANN xử lý tốt hơn khi kết hợp với cây nhị phân tìm kiếm. Phương pháp sử dụng phép chiếu ngẫu nhiên để giảm chiều dữ liệu (Gaussian Random Projection) và cây nhị phan dé tạo ra một thuật toán tìm kiếm xấp xỉ. Thuật toán này được thiết kế đặc biệt dé làm việc với các tập dữ liệu có đến n chiều mật độ phép chiếu nhằm thu gọn vùng xử lý, nơi mà sự chính xác có thể được đánh đổi dé đạt được tốc độ cao.
a SN wn Ke
an ran