1.2 Mục tiêu, đối tượng và phạm vi nghiên cứu1.2.1 Muc tiêu của đề tài Với đề tài này, mục tiêu của chúng tôi là xây dựng mô hình đánh giá chất lượng hình ảnh trên một số tiêu chí nhất đ
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHÔ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC
HỘI ĐỒNG: Khoa Khoa học máy tính
GVHD: TS Nguyễn Vinh Tiệp
SVTH: Nguyễn Hải Đăng - 19521316
Nguyên Công Đức - 19521375
TP HỒ CHÍ MINH, Ngày 31 tháng 12 năm 2022
Trang 2Lời cam đoan
Chúng tôi xin cam đoan luận văn tốt nghiệp là công trình nghiên cứu của bản thân
chúng tôi Những phần sử dụng tài liệu tham khảo trong luận văn đã được nêu rõ
và trích dẫn trong phần tài liệu tham khảo Các số liệu, kết quả trình bày trong luậnvăn là hoàn toàn trung thực, nếu sai tôi xin chịu hoàn toàn trách nhiệm và chịu mọi
kỷ luật của bộ môn và nhà trường đề ra
Lời cảm ơn
Trong suốt quá trình làm luận văn tốt nghiệp, bên cạnh sự nỗ lực của bản thân đãvận dụng những kiến thức tiếp thu được, tìm tòi học hỏi cũng như thu thập thôngtin số liệu liên quan đến đề tài, chúng tôi luôn nhận được sự giúp đố tận tình củacác thầy cô, bạn bè của Trường Đại học Công Nghệ Thông Tin để có thể hoàn
thành luận văn một cách tốt nhất Chúng tôi xin bày tỏ lòng biết ơn sâu sắc đến
thầy TS Nguyễn Vinh Tiệp đã rất tận tình quan tâm, hướng dẫn và chỉ bảo chúng
tôi trong quá trình thực hiện luận văn Chúng tôi xin chân thành cảm ơn các thầy
cô đặc biệt là các thầy cô Khoa Khoa học máy tính đã cung cấp những kiến thức
bổ ích và tạo điều kiện tốt nhất để học viên hoàn thành luận văn Cùng với sự giúp
đố từ nhiều phía, chúng tôi cũng đã rất nỗ lực để hoàn thành luận văn một cách tốtnhất nhưng do những hạn chế nhất định về kiến thức, thời gian, thông tin nên luận
văn chắc chắn không tránh khỏi những thiếu sót Chúng tôi rất mong nhận được sự
cảm thông, đóng góp và bổ sung của các thầy cô và đọc giả để sản phẩm có thể
hoàn thiện hơn.
Trang 3Mục lục
1
¬. HH a& |
1.2_ Mục tiêu, đôi tượng và phạm vi nghiên cứu 2
12.1 Mục tiêu của đềtài| 2
¬ eens 2
eevee e eevee ryees 2 bebe bette & 3
4
oS saa eee Cee 4
2.2 Dinh nghĩa các tiêu chí ngược sáng, độ mờ, tương phản, bố cuc| 5
22.1 Thế nào làmộttấmảnhđẹp 5
2.2.2_ Ngượcsáng| Ặ Ặ Ặ Ặ Q HQ So 5 2.23 ĐỘ wan ges fo ee 6
a: gf rer 6
III eee 7
ce 9
2.3.1 Phat hện ảnh ngược sáng| 9 2.3.2 Pháthiện ảnh mờil 9
¬ 10
2.3.3.1 Phat hiện đôi tượng quantrọng| 10
2.3.3.2 Phat hién anh d6i xting) 11
2.3.4 Đánh giá chat lượnghìnhảnh 11
3 Cơ sở lý thuyet 13
-T— Không gian miu YCbCr, RGB và thang độ xâm (Grayscale) 13
3.1.1 Không gian màu YCbCr và RGBỊ 13
3.12 Thang độ xám (Grayscale)| 14
NHHHaAa 15
3.2.1 ToántửSobell 15
322 ToántửRoberi 15
Trang 43.3.1 FeatureEngineermnø| Ặ ẶẶ.
¬
3.4 Convolutional Neural Networks (CNN)}
3.4.1 Cac thành phần cơ bản củaCNN|
3.4.1.1 Convolutional Layer
3.412 NonlinearLayer|
34.13 PoolngLayer|
3.4.1.4 Fully Connected Layer|
3.5 RGB Salient ObJectDetecton
3.5.1 Dinhnghia 2 QẶ ẶẶ 3.5.2 Kiến trúc TRACERI
4 Mô hình đánh giá chất lượng hình ảnh 4.1 Tổng quan về mô hình
4.2 Phat hiện hình ảnh ngược
sáng| -443
Pháthệnhìnhànhmờ| -⁄4@Ẻ — \ ]
4.4.1 Bồ cục trung tâm, một phần ba|l
4.4.2 Bốcucđôixứng
5_ Thực nghiệm 5.1 Cáctậpdư liệu Ặ 0.0.0.0 02020004 5.1.1 Tập dữ liệu Backlil
5.12 Tap dữ liệu Layout
5.13 Tập dữ liệu Contrasltl
5.14 TậpdưlệuBlu|
5.15 Tập dữ liệu AVA[ QC 5.2.1.2 Precision, Recall, F-score}
5.2.2 Bài toán phát hiện ngược sáng|
5.2.3 Bài toán pháthiệnảnhmờ|
Trang 56.1 Thách thức của bài toán|
6.3 Hướng phát triển
Trang 6Danh sách hình vẽ
2.1 Đầu vào ra đầu ra của bài
toán| -2.2 Minh họa về ảnh ngược
sáng| -23 Minhhoavêảnhmờ|
2.4 Minh họa về sự khác biệt giữa tương phan cao và thấp œ ~l ~¬l AA 3.1 Không gian màu YCbCI| 13
3.2 Không gianmàuRGH?Ì| 14
3.3 Thang độxám”| ee 14 3.4_ Minh họa toán tử cạnh SobeHl 16
À Ả 16
À 17
3.7 Vi trí của Feature Engineering trong quy trình học may®| 18
" 19 3.0_ Linear vàNon-linearSVMZTT| 20
3.10 Kiến trúc cơ bản của CNN trong nhiệm vụ phân loai® 20 3.11 Mô phỏng phép tính của convolutional layel]_ 21
3.12 Mô phỏng phép tính của Nonlinear layer với ham REL ¬ 21 3.13 Mô phỏng phép tính của Pooling layer với Max Poolin gl] 22 ee 23 3.15 Đầu vào va đầu ra của RGB-SOD| 24
3.16 Tong quan về kiến trúc TRACERÍ| 24
4.1 Kiến trúc mô hình đánh giá chất lượng hình ảnh 4.2 Phân bô các thành phan luminance, C,, C, của hình ảnh ngược sáng Lee 26 4.3 Kêt của của mô hình phát hiện ngược sáng 27 4.4 Mức độ quan trọng của các dactrung) 28
4.5 Minh họa về việc chuyển màu từ đen sang trắng 29 4.6 Từ anh RGB sang thang độ xám (grayscale)| 30
¬—— 31
4.8 Kêt quả của mô hình phát hiện độ mờ 31
Trang 74.10 Lượt bỏ nhiễu| 32
4.11 Tìm tâm của đối tượng| 33
4.12 Anh bồ cục trung tâm và một phằnba| 33
4.13 Khoảng cách từ tâm đến các trục| - 34
4.14 Kiến trúc CafeNef] - 34
4.15 Kết quả của mô hình phát hiện bô cục đôi xứng 4.16 Ảnh và biểu đồ của ảnh tương phản thấp và cad!!| 4.17 Kết quả của mô hình phát hiện tương phản thấp 4.18 Kết quả của mô hình đánh giá chat lượng hình ảnh 5.1 Một số ảnh thuộc tập dữ liệu Backlit, dòng một là ảnh ngược sáng, Lee 40 5.2 Một so ảnh thuộc tập dữ liệu Layout, (a,b) b6 cục trung tâm, (c,d) bô cục một phan ba, (e,f) b6 thuộc đối xứng, (g,h) không thuộc bố hcốaúốgứttpt, ,ỨẺ,ớrự al 5.3 Một số ảnh thuộc tập dữ liệu Contrast, dòng một là anh tương phản ` A 2
5.4 Một sô ảnh thuộc tập dữ liệu Blur, dòng một là anh sắc nét, dòng Chie MO Ẻ.%$®> \ / 42
5.5_ Biểu đồ đánh giá của AVA [22], trái là điểm trung bình, giữa là độ lệnh chuẩn, phải là kết hợp cả hai 5.6 Ảnh của AVA [22], với điểm sô (Ø), trong đó và o là trung bình và độ lệch chuẩn của điểm số 5.7 Trực quan Precision và Recall | _ 44
5.8 Đánh đổi giữa Precision và Recall°| 45
5.0 Sử dụng ki thuật Cross Validation trên tập dữ liệu Train của bộ dữ cu 48 5.10 Confuse Matrix trên dữ liệu Test Backliql 48
5.11 Sử dụng ki thuật Cross Validation trên tập dữ liệu Train của bộ dữ eves 49 5.12 Confuse Matrix trên dữ liệu lestBlul| 49
Trang 8Danh sách bảng
Trang 9Tóm tắt nội dung
Thẩm mỹ có nghĩa là cái đẹp hay khả năng cảm thụ cái đẹp Đánh giá thẩm mỹ ảnh
khi được xét trên khía cạnh tính toán bởi máy móc, là một bài toán về thị giác máy
tính nhằm phân loại các tam ảnh vào các nhóm có mức độ thẩm mỹ khác nhau; hay
nói cách khác, là đưa ra được những quyết định về mặt thẩm mỹ tương tự với cách
làm của con người.
Ta sẽ phân loại các tiêu chí đánh giá thẩm mỹ ảnh thành hai nhóm là các tiêu chí
về kỹ thuật và các tiêu chí về nội dung Các tiêu chí về kỹ thuật (bố cục, ánh sáng,tương phản, ) đã phan nào nói lên sự máy móc Khi con người có thể đánh giá một
tiêu chí về mặt định lượng, các quyết định được đưa ra sẽ càng trở nên khách quan
hơn, và sẽ càng dễ dàng hơn để lập trình cho máy biết được như thế nào là thỏamãn một tiêu chí nào đó, hay đạt được tiêu chí đó ở mức độ như thé nào Ngượclại, các tiêu chí đánh giá về nội dung (sự ưng mắt của chủ thể, tính độc đáo về nộidung, ) lại chứa nhiều ý kiến chủ quan trong đó Việc tìm ra được quy luật vì thé
mà cũng trở nên khó khăn hơn, khó cho việc đánh giá một cách máy móc Vì vậy,
nội dung nghiên cứu của khóa luận này chỉ tập trung vào việc xây dựng mô hình
đánh giá các tiêu chí về kỹ thuật
Để giải quyết bài toán này, chúng tôi đã khảo sát và chọn lọc ra một số tiêu chí nhấtđịnh Sau đó kết hợp các phương pháp đã tìm hiểu, sử dụng thuật toán và mô hình
máy học, học sâu để đánh giá các tiêu chí này Sau cùng, chúng tôi đưa ra các tiêu
chí đã được định lượng để con người có dựa vào đó để đánh giá hình hình với một
góc nhìn khác.
Trang 10Chương 1
Mở dau
1.1 Giới thiệu đề tài
Việt Nam là một trong số những nước có tốc độ phát triển nhanh về công nghệthông tin, số người sử dụng internet, mạng xã hội lớn và ngày càng tăng Chúng ta
không thể phủ nhận những ích lợi to lớn mà Internet và mạng xã hội đã mang đến
cho con người Mạng xã hội giúp mỗi người tăng sự đồng cảm, quan tâm đối với
những người khác cũng như bày tỏ cảm xúc, tâm trạng của bản thân thông qua các
hành động bình luận, chia sẻ hoặc các dòng trạng thái Và với sự phổ biến của việc
chụp ảnh ngày nay, hầu như các bài viết trên các mạng xã hội đều sử dụng hình ảnh
để thể hiện cảm xúc hoặc để mô tả thêm cho phần trạng thái được đăng tải
Vậy làm sao để một người không có chuyên môn về ảnh có thể đánh giá vàchon ra những tam ảnh có tính thẩm mỹ để đăng tải lên mang xã hội? Chắc chắnhầu hết chúng ta đều đã từng đánh giá thẩm mỹ của một bức ảnh, thậm chí là hằngngày Không cần phải là một thứ gì đấy cao siêu, hành động đánh giá thẩm mỹ ảnh
xuất hiện ngay trong quá trình chúng ta chụp một tam ảnh Chúng ta có thể sẽ căn
góc chụp, điều chỉnh ánh sáng, thay đổi khẩu độ ống kính, hay nhắc người mẫu đổi
tư thế, tất cả là để thu được tấm hình đẹp nhất theo ý của chúng ta Ngoài demlại giá trị về mặt tinh thần, một tắm ảnh dep còn có thé dem lại những giá trị rấtlớn về vật chất Minh chứng là việc xuất hiện các chuyên gia đánh giá chất lượng
ảnh, các mạng xã hội (Instagram, Pinterest, ) ngành công nghiệp bán ảnh stock
(Pixtastock, Shutterstock, )
Từ đó, ta có thể thấy đánh giá ảnh là một nhu cầu thiết yếu Vì vậy, cần có một công
cụ giúp những người không có chuyên môn về ảnh dễ dàng đánh giá các tắm ảnh
hơn Day cũng chính là lí do mà chúng tôi chọn dé tài này
Trang 111.2 Mục tiêu, đối tượng và phạm vi nghiên cứu
1.2.1 Muc tiêu của đề tài
Với đề tài này, mục tiêu của chúng tôi là xây dựng mô hình đánh giá chất lượng
hình ảnh trên một số tiêu chí nhất định bằng các thuật toán kết hợp với các mô hình
máy học và học sâu Từ đó giúp người dùng dễ dàng đánh giá một tam ảnh dựa trên
các tiêu chí mà mô hình đã đưa ra Mục tiêu của chúng tôi là xây dựng mô hình
đánh giá chất lượng hình ảnh có thể định lượng được con số cụ thể trên các tiêu chíbao gồm ngược sáng, độ mờ, tương phản, bố cục và đưa ra điểm số trên thang 10của hình ảnh Từ đó giúp người dùng dé dàng đánh giá một tam ảnh với góc nhìn
khác trực quan hơn.
1.2.2 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: Ảnh được chụp ở thế giới thực và 4 tiêu chí bao gồm
ngược sáng, mờ, tương phản, bố cục của hình ảnh
Pham vi nghiên cứu: Trong khuôn khổ giới han của khóa luận, nhóm thực hiện
tập trung hoàn thành các công việc sau:
« Tìm hiểu về định nghĩa của 4 tiêu chí như ngược sáng, mờ, tương phản và bố
cục của hình ảnh.
* Tìm hiểu tổng quan về bài toán phân tích chất lượng hình ảnh.
» Xây dựng, thiết kế các phương pháp cho việc định lượng 4 tiêu chí
s Đánh giá so sánh với mô hình phổ biến nhất hiện nay và chỉ ra ưu nhược điểm
của mô hình của chúng tôi.
1.3 Đóng gop của đề tài
Ý nghĩa khoa học:
» Hệ thống lại cơ sở lý thuyết và tổng quan về bài toán phân tích chất lượng
hình ảnh.
¢ Nghiên cứu và làm sáng tỏ các tiêu chí đánh giá hình ảnh.
* Cung cấp thêm dữ liệu về các bài toán ngược sáng, tương phản, bố cục của
ảnh.
« Làm nền tang cho những bài toán lớn hơn.
Ý nghĩa thực tiễn:
Trang 12« Giúp người dùng cải thiện chất lượng của ảnh, tao ra những bức ảnh đẹp hơn
và chuyên nghiệp hơn.
« Giúp tăng cường hiểu biết về ảnh, để trở thành những nhiếp ảnh gia tài ba
hơn.
* Đóng góp cho sự phát triển của công nghệ anh.
1.4 Cau trúc khóa luận
Khóa luận của chúng tôi được thiết kế và trình bày theo 7 chương:
¢ Chương 1: Mở đầu: Chương này sẽ nêu ra lý do chúng tôi chọn dé tài này
và mục tiêu chính của đề tài cũng như các đóng góp của đề tài.
* Chương 2: Tổng quan: Chương này sẽ giới thiệu một cách chung nhất về
bài toán và các hướng nghiên cứu liên quan.
* Chương 3: Cơ sở lý thuyết: Ở chương này chúng tôi sẽ cung cấp các kiến
thức và lý thuyết chung của các phần được áp dụng trong thời gian thực hiện
khóa luận.
* Chương 4: Mô hình đánh giá chất lượng hình ảnh: Trong chương này,
chúng tôi sẽ nêu chỉ tiết cách xây dựng mô hình và các thuật toán.
* Chương 5: Những đóng góp cải tiễn: Trình bày các phương pháp để cải
thiện kết quả của các bài toán con nhằm nâng cao độ chính xác của mô hình
« Chương 6: Thực nghiệm: Chi tiết quá trình thực nghiệm và các kết quả,
đánh giá của các thử nghiệm mô hình sẽ được chúng tôi trình bày ở chương
này.
* Chương 7: Tổng kết: Đây là chương cuối cùng nhằm đưa ra các nhận xét,
thách thức trong quá trình thực hiện luận văn, đồng thời đưa ra một số hướngphát triển của đề tài trong tương lai
Trang 13Chương 2
Tổng quan
2.1 Giới thiệu bài toán
Như đã nói ở Chương 1, với sự phát triển mạnh mẽ của mạng xã hội cùng với
nhu cầu chụp ảnh ngày càng phổ biến, sẽ tương đối khó khăn đối với một ngườikhông có chuyên môn về chụp ảnh có thể chọn được một tam ảnh đẹp để đăng tảilên mạng xã hội Vì vậy, chúng tôi tạo ra một công cụ với mong muốn giúp ngườidùng dễ dàng hơn trong việc đánh giá ảnh Tuy nhiên, các tiêu chí về nội dung
thường mang tính chủ quan cao nên chúng tôi chỉ tập trung đánh giá thẩm mỹ ảnh
dựa trên các tiêu chí về kỹ thuật
(a) Đầu vào (b) Đầu ra
Hình 2.1: Dau vào ra dau ra của bài toán
Qua khảo sát từ các chuyên gia về nhiếp ảnh, có rất nhiều tiêu chí kỹ thuật để
đánh giá một bức ảnh, tuy nhiên chúng tôi đã chọn ra các tiêu chí cơ bản và quan
trọng nhất Các tiêu chí này bao gồm: Ngược sáng, Độ mờ, Tương phản và Bồ cục
Trang 14Đầu vào: Một tắm ảnh được chụp ở thế giới thực.
Dau ra: Định lượng của các tiêu chí Ngược sáng, Độ mờ, Tương phản, Bồ cục và
cho ra số điểm tham khảo
2.2 Dinh nghĩa các tiêu chí ngược sáng, độ mờ, tương
phản, bố cục
2.2.1 Thế nào là một tam ảnh dep
Một tắm ảnh đẹp là một tắm ảnh mà các yếu tố như ngược sáng, độ mờ, tươngphản và bố cục được cân bằng tốt, tạo nên một hình ảnh có tính thẩm mỹ cao Cụthể, một tam ảnh đẹp nên có các đặc điểm sau:
* Độ ngược sáng: điều chỉnh ánh sáng phù hợp để tránh hiện tượng bóng đen
hoặc chói sáng trên chủ thể trong ảnh.
» Độ mờ: tam ảnh nên được chụp rõ nét, không bị mờ hoặc nhòe.
» Tương phan: tăng độ tương phan trong ảnh để các chi tiết được phân biệt rõ
ràng, giúp tăng tính động đậm, sắc nét
* Bố cục: sắp xếp các chủ thé trong khung hình sao cho hài hòa, đẹp mắt và tao
cảm giác thăng hoa cho người xem.
Ngoài các tiêu chí trên, một tắm ảnh đẹp còn có thể đáp ứng một số tiêu chí phổ
biến khác như sắc độ, tỷ lệ, sự chuyên nghiệp trong cách chụp và sự tỉnh tế trong
chỉnh sửa hình ảnh Tất cả các yêu tố này cùng nhau tạo nên một tắm ảnh đẹp và
Ấn tượng
Trước khi đi sâu vào các nội dung nghiên cứu, chúng tôi sẽ làm rõ chỉ tiết định
nghĩa về các tiêu chí như ngược sáng, độ mờ, tương phản và bố cục.
2.2.2 Ngược sáng
Hình ảnh ngược sáng là tình trạng ánh sáng trong ảnh chủ yếu tập trung ở phía
phía sau của chủ thể, gây ra hiện tượng bóng đen hoặc chói sáng trên chủ thể trong
ảnh Hình ảnh ngược sáng thường xảy ra trong những trường hợp khi chủ thể được chụp ngược chiều với nguồn sáng hoặc khi ánh sáng chủ yếu tập trung vào phía sau
của chủ thể Hình|2.2|ví dụ về ảnh ngược sáng
Hiện tượng ngược sáng có thể làm mất đi các chỉ tiết quan trọng trong ảnh, làm
mất màu sắc, tạo ra ảnh chìm vào bóng tối hoặc bị lóa sáng Để khắc phục hiệntượng này, có thể sử dụng các kỹ thuật điều chỉnh ánh sáng, chẳng hạn như sử dụng
bộ lọc mềm, chụp ảnh trong điều kiện ánh sáng tốt hơn hoặc sử dụng đèn flash đểchiếu sáng thêm cho chủ thể
Trang 15Tuy nhiên, khi sử dụng đèn flash, cần chú ý đến độ mạnh của đèn và góc chiều
sáng để tránh tạo ra ảnh bị chói sáng hoặc bị lóa Việc sử dụng các kỹ thuật này
cần được thực hiện một cách cẩn thận để tạo ra ảnh có chất lượng tốt và không mat
di các chi tiết quan trọng trong ảnh
2.2.3 Độ mờ
Hình ảnh mờ (hay còn gọi là hình ảnh không rõ nét) là một khái niệm trong
lĩnh vực nhiếp ảnh, chỉ việc hình ảnh không có độ nét cao đủ để các chỉ tiết trong
ảnh có thể phân biệt rõ rang Độ mờ của một tam ảnh phụ thuộc vào nhiều yếu té,
bao gồm sự rung lắc của máy ảnh, độ mở ống kính, tốc độ chụp ảnh, ánh sáng môi
trường, và cách điều chỉnh các thiết lập trên máy ảnh Một hình ảnh mờ có thể là
kết quả của sự không chính xác trong việc lấy nét, sự rung lắc hoặc chuyển động
không mong muốn, hoặc thiếu ánh sáng đủ để tạo ra hình ảnh rõ nét Hình |2.3| ví
dụ về ảnh mờ
Tuy nhiên, đôi khi hình ảnh mờ cũng có thể mang lại một cảm giác mộc mạc,
mơ hồ và đầy cảm xúc Một số nhiếp ảnh gia còn sử dụng độ mờ để tạo ra các tácphẩm nghệ thuật với phong cách riêng của họ Tuy nhiên, trong nhiều trường hợp,
hình ảnh mờ được coi là một lỗi trong quá trình chụp ảnh và không đạt được tiêu
chuẩn để được coi là một tắm ảnh đẹp
2.2.4 Độ tương phản
Độ tương phản của hình ảnh là mức độ khác biệt giữa các độ sáng khác nhau
trong một hình ảnh Nó thể hiện mức độ tách biệt và độ rõ nét của các đối tượng
Trang 16Hình 2.3: Minh họa về ảnh mờ
trong hình ảnh Độ tương phản cao có nghĩa là các đối tượng trong hình ảnh được
phân biệt rõ ràng, màu sắc tươi sáng và các chỉ tiết được hiển thị rõ ràng Ngược
lại, độ tương phản thấp dẫn đến sự mờ nhạt, màu sắc trung tính và mat các chi tiết
quan trọng của hình ảnh Hình|2.4| ví dụ về sự khác biệt giữa ảnh tương phản cao
và thấp
Độ tương phản là một trong những yếu tố quan trọng để đánh giá chất lượng
hình ảnh và có thể được điều chỉnh để cải thiện chất lượng hình ảnh
Hình 2.4: Minh họa về sự khác biệt giữa tương phản cao và thấp
Trang 17(a) Một phan ba
= ETS “`
`
Hình 2.5: Minh họa về một vài bố cục
thẩm mỹ của tác phẩm Nó có thể giúp người xem tập trung vào chủ thể hoặc điểm
nhắn của bức ảnh và tạo ra một cảm giác tự nhiên, dễ chịu cho mắt người xem
Dưới đây là một số bố cục phổ biến và dễ tiếp cận:
* Một phan ba: là cách sắp đặt bố cục phổ biến nhất trong chụp ảnh, bao gồm
chia khung ảnh thành ba phần bằng nhau hoặc không bằng nhau và đặt chủ
thể chính trong một trong các phần đó Việc sử dụng nguyên tắc ba sẽ giúp
tạo ra một tam ảnh cân đối và thu hút người xem
* Trung tâm: đặt chủ thể ở chính giữa khung ảnh, tạo ra sự cân đối và ổn định
trong tam ảnh Tuy nhiên, cách sắp đặt này có thể làm cho ảnh trở nên khá
đơn điệu và thiếu sáng tạo
» Đối xứng: sắp xếp đối xứng qua trục ngang hoặc dọc của khung ảnh Là một
trong những phương pháp sắp xếp bố cục đơn giản và hiệu quả nhất Nó tạo
Trang 18ra sự cân bằng và sự đối xứng giữa các yếu tố trong khung ảnh, làm cho tác
phẩm trông rất hài hòa và đẹp mắt
Mỗi phương pháp bố cục có những đặc điểm riêng và có thể được sử dụng để tạo ranhững tác phẩm ảnh độc đáo và thú vị Tuy nhiên, quan trọng nhất là người nhiếp
ảnh phải hiểu rõ các phương pháp này và áp dụng chúng một cách thích hợp để tạo
ra những tác phẩm ảnh ấn tượng và thu hút người xem Hình |2.5Ìminh họa ba bố
cục: một phần ba, trung tâm, đối xứng
2.3 Các nghiên cứu liên quan
2.3.1 Phát hiện ảnh ngược sáng
Ảnh được chụp trong điều kiện ngược sáng nghĩa là đối tượng chính hoặc tiền
cảnh bị tối, nhưng hậu cảnh lại tương đối sáng do thời gian phơi sáng của đối tượng
chính hoặc tiền cảnh ngắn hơn thời gian phơi sáng của hậu cảnh dẫn đến độ sáng
của hậu cảnh cao Việc xác định hình ảnh ngược sáng thường được thực hiện bằngphân tích biểu đồ độ sáng vì người ta tin rang đặc điểm riêng biệt của hình ảnh
ngược sáng là sự khác biệt lớn về độ sáng giữa tiền cảnh và hậu cảnh
Shimizu và cộng sự đã giới thiệu một fuzzy logic để phân loại hình ảnh thành ba loại như ngược sáng, thuận sáng và thuận sáng quá mức dựa trên tỷ lệ số pixel trong độ sang Murakami và Honda đã đề xuất phương pháp phát hiện
ngược sáng bằng cách thay thế biểu đồ độ sáng bằng ba vùng theo khoảng cách từ
độ sáng trung bình Chin va Lin [6] đã thảo luận về đặc điểm vị trí không gian vabiểu đồ của hình ảnh ngược sáng để có được hai chỉ số hình ảnh, điều này có thể
xác định mức độ ngược sáng của hình ảnh Su và cộng sự đã mô tả đặc điểm
của hình ảnh ngược sáng dựa trên thành phần cường độ và trình bày thuật toánc-mean mờ để trích xuất các đặc trưng từ hình ảnh ngược sáng Kong và cộng sự
xác định điều kiện chiếu sáng bằng cách so sánh biểu đồ cục bộ từ vùng khuônmặt được trích xuất và biểu đồ toàn cầu của toàn bộ hình ảnh Park và Han đã
sử dung các thành phan sắc độ của không gian màu YC;C, cho việc phát hiện hình
ảnh ngược sáng Các cách tiếp này phần lớn là sử dụng biểu đồ, kinh nghiệm thiết
kế thuật toán để phát hiện ảnh ngược sáng.
2.3.2 Phát hiện anh mờ
Ảnh kỹ thuật số được sản xuất 6 ạt trong khi máy ảnh kỹ thuật số ngày càng
phổ biến, tuy nhiên không phải bức ảnh nào cũng có chất lượng tốt Ảnh nhòe hay
ảnh mờ là một trong những hiện tượng suy giảm chất lượng ảnh thông thường donhiều yếu tố gây ra Nguyên nhân chính làm ảnh mờ là do chuyển động của ống
Trang 19kính trong quá trình chụp, trong đó ống kính không thể đặt góc thích hợp và lấy nét
và do đó dẫn đến hình ảnh mờ
Tong và cộng sự đã đề xuất một lược đồ sử dụng khả năng HaarWavelet
Transform (HWT) trong cả việc phân biệt các loại cạnh khác nhau và khôi phục độ
sắc nét từ phiên bản bị mờ, sau đó xác định xem một hình ảnh có bị mờ hay không
và ở mức độ nào Abdel-Qader va cộng sự sử dụng Fast Fourier Transform
(FFT) tính toán các tần số trong ảnh tại các điểm khác nhau và dựa trên tần số để
quyết định ảnh mờ hay không Bansal và cộng sự [2Ì] sử dụng toán tử đạo hàm cấphai Laplacian rồi dựa trên phương sai của ảnh với toán tử để đưa ra ảnh mờ Elder
va Zucker [§] đã đề xuất một thuật toán để phát hiện kiểm soát tỷ lệ cục bộ và
khoanh vùng các cạnh trên một phạm vi rộng của tỷ lệ mờ, phương pháp phát hiện
cạnh này dẫn đến một phương pháp ước tính độ mờ cục bộ của các đường viễn hình
ảnh Các cách tiếp cận đa phần là sử dụng các thuật toán hoặc toán tử phát hiệncạnh bởi vì chi phí tính toán thấp
2.3.3 Phát hiện bố cục
2.3.3.1 Phát hiện đối tượng quan trong
Phát hiện đối tượng quan trọng (Saliency Object Detection - SOD) là một bài
toán vô cùng quan trọng trong lĩnh vực thị giác máy tính Nó nhằm mục đích làmnổi bật các đối tượng nổi bật trong hình ảnh, nổi bật ở đây mô tả một đối tượng
hoặc một vùng mà thu hút sự chú ý của con người Bài toán này có ứng dụng vô
cùng rộng rãi trong nhiều lĩnh vực khác nhau như chú thích hình ảnh, phát hiện đối
tượng, nhận dạng con người, tóm tắt video, Và chúng tôi cũng áp dụng bài toánnày để giải quyết vấn đề của chúng tôi đó là bài toán phát hiện bố cục
Borji và cộng sự đã xem xét và đánh giá các phương pháp phát hiện đốitượng nổi bật trước năm 2015 và không đề cập đến các giải pháp dựa trên mô hình
học sâu hiện đại Zhou va cộng sự đã khảo sát đánh giá toàn diện các mô hình
RGB-D từ nhiều khía cạnh khác nhau Han và cộng sự [9Ì] đã xem xét một số hướng phụ và phác thảo những tiến bộ gần đây trong phát hiện đối tượng nổi bật và phát
hiện đối tượng theo danh mục cụ thể Qin và cộng sự đề xuất một kiến trúc
mạng học sâu đơn giản mà mạnh mẽ cho bài toán phát hiện đối tượng nổi bật đó là
kiến trúc U? — Net (kiến trúc U-Net lồng nhau 2 lần) Cuối cùng, Lee va cộng sự
đã công bố một kiến trúc state-of-the-art (hiện đại nhất) trên các dữ liệu chuẩn
, kiến trúc gồm 3 mô đun chính là: Masked-edge attention, Union attention, Object
attention.
10
Trang 202.3.3.2 Phát hiện ảnh đối xứng
Tính đối xứng là một trong những yếu tố rất quan trọng ảnh hưởng đến chất
lượng thẩm mỹ của một tác phẩm nghệ thuật Không chỉ trong lĩnh vực thẩm mi,
đối xứng còn được ứng dụng rộng rãi trong các bài toàn thị giác máy tính như làphát hiện và phân đoạn đối tượng , ước tính độ sâu, tiền xử lí ảnh y tế Trong toán
học, đối xứng là một khái niệm rõ ràng Ngược lại, phát hiện đối xứng trong thị giác máy tính phải đối mặt với dit liệu trong thé giới thực, dữ liệu này có thể nhiễu,
mơ hồ và thậm chí bị bóp méo Tuy nhiên, một số thuật toán để phát hiện tính đốixứng trong dữ liệu thế giới thực đã được đề xuất
Loy và Eklundh đã dé xuất thuật toán sử dung SIFT descriptor, so sánh
các cặp điểm thích hợp và không gian Hough-voting Heijer so sánh các giá
trị độ sáng dọc theo một trục cua anh Shaker và Monadjemi đã đề xuất mộtphép đo đối xứng sử dụng thông tin cạnh trong ảnh thang độ xám, phương phápnày bị giới bạn bởi thông tin cường độ độ sáng không quan tâm đến các yêu tổ màu
sắc hay hình dáng Elawady và cộng sự [7] đã đề xuất sử dụng các đặc trưng cạnh
đa tỷ lệ kết hợp với biểu đồ định hướng cục bộ Wang và cộng sự thiết lập sựtương ứng của các tính năng dựa trên cạnh bat biến affine cục bộ Khác với nhữngphương pháp trên Brachmann và Redies [5] đã đề xuất một phương pháp do tính
đối xứng trong hình ảnh bằng cách sử dụng các bộ lọc của mạng tích chập, phương
pháp này mô hình hóa nhận thức của con người về tính đối xứng chặt chế, chúng
xem xét đồng thời thông tin về mau sắc, các cạnh và kết cầu và không chỉ dựa vào
màu sắc, các cạnh và kết cấu, mà còn trên các hình dạng và đối tượng được mô tả
trong hình ảnh.
2.3.4 Đánh giá chất lượng hình ảnh
Khi khối lượng dữ liệu hình ảnh tăng theo cấp số nhân mỗi năm, khả năng đánhgiá tính thẩm mỹ của hình ảnh trở nên quan trọng đối với các ứng dụng khác nhau
như nâng cao ảnh, xếp hạng ảnh Định lượng chất lượng hình ảnh và tính thẩm
mỹ từ lâu đã là một vấn đề trong xử lý hình ảnh và thị giác máy tính Việc đánhgiá phong cách hình ảnh, tính thẩm mỹ và chất lượng đã được nghiên cứu tích cực
trong vài thập kỷ qua.
Bianco và cộng sự [3Ï đề xuất một công cu dự đoán chất lượng chuyên sâu dựatrên AlexNet dùng mạng tích chập trích xuất đặc trưng từ các hình ảnh có kíchthước 227 x 227, sau đó được hồi quy về điểm số Các phương pháp dựa trên mạngtích chập gần đây cho thấy sự cải thiện hiệu suất đáng kể so với các nghiên cứu
trước đó dựa trên các tính nang thủ công AVA: A large-scale database for aesthetic
visual analysis là chuẩn mực đánh giá thẩm mỹ, được Murray và cộng sự giới
thiệu bộ dữ liệu AVA và đề xuất kỹ thuật sử dụng các đặc điểm được thiết kế thủ
11
Trang 21công để phân loại phong cách ảnh Lu và cộng sự cho thấy rằng các mạng học
sâu rất phù hợp với nhiệm vụ đánh giá thẩm mỹ Kao và cộng sự dùng hồi quy
và kiến trúc lấy cảm hứng từ AlexNet để dự đoán điểm trung bình Ma và cộng sự
đề xuất một khung nhận biết bố cục trong đó bản đồ độ nổi bật được sử dụng
để chọn các bản vá có tác động cao nhất đến điểm thẩm mỹ dự đoán Kong và cộng
su đã dé xuất một phương pháp để xếp hang các bức anh một cách thẩm mỹ
bằng cách đào tạo trên dữ liệu AVA với hàm mất mát dựa trên xếp hạng Talebi và
Milanfar giới thiệu một phương pháp mới để dự đoán cả chất lượng kỹ thuật
và thẩm mỹ của hình ảnh, thay vì phân loại hình ảnh theo điểm thấp/cao hoặc hồiquy về điểm trung bình, phân phối xếp hạng được dự đoán dưới dạng biểu đồ Cuốicùng, chúng tôi đề xuất một phương pháp sử dụng các tiêu chí quan trọng của ảnh
như ngược sáng, tương phản, bố cục và độ mờ để đánh giá tính thẩm mỹ của hình
ảnh.
12
Trang 22Chương 3
Cơ sở lý thuyết
3.1 Không gian màu YCbCr, RGB và thang độ xám (Grayscale)
3.1.1 Không gian màu YCbCr va RGB
Không gian màu YCbCr cũng được viết là YCgCg là một họ các không gian
màu được sử dụng như một phần của đường dẫn hình ảnh màu trong video và hệ
thống chụp anh kỹ thuật số Y là thành phần độ chói (luminance) và Cg, Cp là các
thành phần sắc độ khác nhau của màu xanh và màu dof]
RGB là không gian màu phổ biến dùng trong máy tính, máy ảnh, điện thoại và
nhiều thiết bị kĩ thuật số khác Không gian màu này khá gần với cách mắt người
tổng hợp màu sắc Nguyên lý cơ bản là sử dụng 3 màu sắc đỏ, xanh lục và xanh
Lhttps://vi.wikipedia.org/wikiYCbCr
”https://www.researchgate.net/figure/YCbCr-Color-Space-In-the-YCbCr-component-of-Y-is-a-luminance-brightness-whereas_fig4_323025324
13
Trang 23lam để biểu diễn tất cả các màu sắc]
Red
Blue
dint Geen Green
Hình 3.2: Không gian mau RGB}
3.1.2 Thang độ xám (Grayscale)
Trong nhiếp ảnh kỹ thuật số, hình ảnh thang độ xám là hình ảnh trong đó giá trịcủa mỗi pixel là một mẫu duy nhất chỉ đại diện cho một lượng ánh sáng; nghĩa là
nó chỉ mang thông tin về cường độ Hình ảnh thang độ xám, một loại đơn sắc đen
trắng hoặc xám, chỉ bao gồm các sắc thái của màu xám Độ tương phản dao động
từ màu đen ở cường độ yêu nhất đến màu trắng ở cường độ mạnh nhất |]
Hình 3.3: Thang độ xán| |
3https://aicurious.io/posts/2018-09-19-anh-so-va-cac-khong-gian-mau-trong-xu-ly-anh/
*https://www.researchgate.net/figure/a-RGB-Color-Space-7-b-YCbCr-Color-Space-§_figI_298734907 Shttps://en.wikipedia.org/wiki/Grayscale
Shttps://medium.com/javarevisited/converting-rgb-image-to-the-grayscale-image-in-java-9eledcSbd6e7
14
Trang 243.2 Các toán tử Sobel, Robert, Laplacian
3.2.1 Toan tw Sobel
Toán tử Sobel, được sử dung trong xử ly hình anh và thi giác máy tính, đặc biệt
là trong các thuật toán phát hiện cạnh nơi nó tạo ra một hình ảnh nhấn mạnh cáccạnh Về mặt kỹ thuật, nó là một toán tử phân biệt rời rac, tính toán xấp xi gradient
của hàm cường độ hình ảnh Tại mỗi điểm trong ảnh, kết quả của toán tử Sobel là
vector gradient tương ứng hoặc chuẩn của vector này Toán tử Sobel dựa trên việc
kết hợp hình ảnh với một bộ lọc nhỏ, có thể tách rời và có giá trị nguyên theo hướngngang và dọc và do đó tương đối nhẹ về mặt tính toán Mặt khác, xấp xỉ gradient
mà nó tạo ra tương đối thô, đặc biệt đối với các biến thể tần số cao trong hình ảnh
Toán tử sử dụng hai hạt nhân (kernel) 3x3 được tích chập với hình ảnh gốc đểtính toán các giá trị xấp xỉ của đạo hàm, theo chiều ngang và theo chiều dọc Nếu
chúng ta định nghĩa A là ma trận ảnh nguồn (dưới dang thang độ xám), và G, và
G, là hai ảnh mà tại mỗi điểm chứa các xấp xỉ đạo hàm ngang và dọc tương ứng,
thì cách tính toán như sau:
10 -I I 2 fil
Gy=|2 0 -2|®A and G=|0 0 0164 (3.1)
10 -1 —=l -—2 -l
trong đó @ là toán tử tích chập Tại mỗi điểm trong ảnh, độ lớn của gradient có thể
được tính như sau:
G= \/G+ G2 (3.2)
3.2.2 Toán tử Robert
Toán tử chéo Roberts được sử dụng trong xử lý ảnh và thị giác máy tính để phát
hiện cạnh Toán tử chéo Roberts tính gradient trên một tấm ảnh đơn giản và nhanhchóng Do đó, nó làm nổi bật các vùng có không gian tần số cao thường tương ứng
VỚI các canh
Tương tự như với Sobel, nhưng Robert sử dung hai hat nhân 2x2 để tính các giá
trị xấp xi của dao hàm theo hai hướng góc 45°
Trang 25(a) Ảnh đưới dạng ma trận A (b) Ảnh dưới dạng ma trận G,
(c) Ảnh dưới dang ma trận Gy (d) Ảnh dưới dạng ma trận G
Hình 3.4: Minh họa toán tử cạnh Sobel
G=,/G2+G 4.4)
Hình 3.5: Minh họa toán tử cạnh Roberf]
3.2.3 Toán tử Laplacian
Toán tử Laplacian là toán tử đạo hàm được sử dụng để tìm các cạnh trong ảnh,
công dụng của nó làm nổi bật các điểm không liên tục trong ảnh và cô gắng làm
giảm bớt các vùng thay đổi chậm Kết quả là tao ra hình ảnh có các đường viễn va
*https://en wikipedia.org/wiki/Roberts_cross
16
Trang 26các điểm không liên tục trên nền tối Điều này tạo ra các cạnh bên trong (inward
edges) và bên ngoài (outward edges) trong một hình anh |!
Sự khác biệt chính giữa Laplacian và các toán tử như Sobel, Robert là cả hai
đều là lấy đạo hàm cấp một nhưng Laplacian là lấy đạo hàm cấp hai Và Laplaciankhông loại bỏ các cạnh theo bat kỳ hướng cụ thể nào mà nó loại bỏ các cạnh theo
cạnh bên trong hoặc cạnh bên ngoài.
Trong Laplacian, ta chia thành hai loại, một là toán tử Positive Laplacian và
toán tử Negative Laplacian Toán tử Positive Laplacian được sử dụng để loại bỏ các
cạnh bên ngoài, còn Negative Laplacian để loại bỏ cạnh bên trong của hình ảnh.
0 10 010 Gouward= |1 —4 1] ®A and Ginwara= |1 4 1| @A (3.5)
0 1 0 010
Hình 3.6: Minh hoa toán tử cạnh LaplaciarlT]
3.3 Feature Engineering và Support Vector Machines
3.3.1 Feature Engineering
Ky thuật đặc trưng (Feature Engineering) là qua trình xác định đặc trưng nao có
thể hữu ích trong việc huấn luyện mô hình và sau đó chuyển dữ liệu thô thành các
đặc trưng đã xác định Mục đích của kỹ thuật đặc trưng là chuẩn bị một tập dữ liệu
đầu vào phù hợp nhất với thuật toán học máy cũng như để nâng cao hiệu suất của
Trang 27Feature Engineering
Hình 3.7: VỊ trí của Feature Engineering trong quy trình học máy| |
* Tạo đặc trưng (Feature Creation): Tạo các đặc trưng liên quan đến các biến
mới sẽ hữu ích trong mô hình dự đoán Đây là một quá trình chủ quan cần
có sự can thiệp và sáng tạo của con người Các tính năng hiện có được trộn
thông qua cộng, trừ, nhân và tỷ lệ để tạo các tính năng dẫn xuất mới có khảnăng dự đoán tốt hơn
* Biến đổi đặc trưng (Feature Tranformation): Chuyển đổi liên quan đến việc
thao thác các biến dự đoán để cải thiện hiệu suất của mô hình; vi dụ, dambảo mô hình linh hoạt trong nhiều loại dữ liệu; đảm bảo các biến có cùng tỷ
lệ, làm cho mô hình dễ hiểu hơn; cải thiện độ chính xác; và tránh các lỗi tính
toán bằng cách đảm bảo tất cả các tính năng nằm trong phạm vi chấp nhận
được đối với mô hình
« Trích xuất đặc trưng (Feature Extraction): là tự động tao các biến mới bằng
cách trích xuất chúng từ dif liệu thô Mục đích của bước này là tự động giảm
khối lượng dữ liệu thành một tập hợp dễ quản lý hơn cho mô hình.
* Lựa chọn đặc trưng (Feature Selection): là phân tích, đánh giá và xếp hạng
các đặc trưng để xác định đặc trưng nào không liên quan, dư thừa và nên loại
bỏ, cũng như tính năng nào hữu ích nhất cho mô hình và nên được ưu tiên
Kỹ thuật đặc trưng là một bước rất quan trọng trong học máy Nó đề cập đếnquá trình thiết kế các đặc trưng nhân tạo Các đặc trưng nhân tạo này được thuậttoán sử dụng để cải thiện hiệu suất, hay nói cách khác là thu được kết quả tốt hơn.Các nhà khoa học dữ liệu dành phần lớn thời gian của họ với dữ liệu và điều quan
trọng là làm cho các mô hình trở nên chính xác hơn.
3.3.2 Support Vector Machines
Support Vector Machine (SVM) là một thuật toán hoc máy có giám sat được sử
dụng cho cả phân loại và hồi quy Tuy nhiên, nó chủ yếu được sử dụng cho các bài
18
Trang 28toán phân loại Mục tiêu của thuật toán SVM là tìm một siêu phẳng (hyperplane)
trong không gian N chiều phân loại rõ ràng các điểm dữ liệu
Hình 3.8: Anh minh họa về việc phân lớp của svMỊ"
Siêu phẳng là ranh giới tốt nhất giúp phân loại các điểm dữ liệu Kích thước củasiêu phẳng phụ thuộc vào số lượng các đặc trưng Nếu số lượng các đặc trưng đầuvào là hai, thì siêu phẳng chỉ là một dòng Nếu số lượng các tính năng đầu vào là
ba, thì siêu phẳng sẽ trở thành mặt phẳng 2 chiều Nó trở nên khó tưởng tượng khi
số lượng tính năng vượt quá ba
Support Vector là các điểm dữ liệu hoặc vectơ gần siêu phẳng nhất và ảnh hưởng
đến vị trí của siêu phẳng.
SVM có thể được chia thành 2 loại:
* SVM tuyến tính: được sử dụng cho dữ liệu tuyến tính, có nghĩa là nếu một
tập dữ liệu có thể được phân loại thành hai lớp bằng cách sử dụng một đườngthang duy nhất, thì dữ liệu đó được gọi là dit liệu tuyến tinh và bộ phân loại
sử dụng được gọi là bộ phân loại SVM tuyến tính.
* SVM phi tuyến: được sử dụng cho dif liệu phi tuyến tính, có nghĩa là néu một
tập dữ liệu không thể được phân loại bằng cách sử dụng một đường thẳng, thì
dữ liệu đó được gọi là dữ liệu phi tuyến tính và bộ phân loại sử dụng được gọi
là bộ phân loại SVM phi tuyến tính.
3.4 Convolutional Neural Networks (CNN)
Mặc dù mang tích chập (Convolutional Neural Networks - CNN) lần đầu tiênđược dé xuất cách đây hơn hai thập kỷ [16], nhưng chúng chỉ mới trở thành côngnghệ tiên tiến nhất cho nhiều nhiệm vụ thị giác máy tính gần đây, do sự tiến bộ
!“https:/www.javatpoint.com/machine-learning-support-vector-machine-algorithm
19
Trang 29(a) Linear SVM (b) Non-linear SVM
Hình 3.9: Linear va Non-linear SVM)
trong công nghệ điện toán, chang han như sự ra đời của card đồ họa cho tính toán
và lượng dữ liệu khổng lồ để đào tạo CNN học hệ thống phân cấp của các bộ lọckhác nhau được áp dụng cho hình ảnh đầu vào, CNN trích xuất các thông tin hữuích của ảnh dựa vào các bộ lọc Các bộ lọc ở lớp cao có xu hướng trích xuất cácthông tin đặc điểm trừu tượng, bộ lọc ở lớp thấp trích xuất các thông tin đơn giản
hơn như là cạnh, hình dang, CNN sé cho phép bạn xây dung các hệ thống thông
minh với độ chính xác vô cùng cao CNN bao gồm tập hợp các lớp cơ bản bao gồm:
convolution layer + nonlinear layer, pooling layer, fully connected layer.
can TRUCK
FEATURE LEARNING CLASSIFICATION
Hình 3.10: Kiến trúc cơ ban của CNN trong nhiệm vu phân loa{'”]
3.4.1 Các thành phan cơ bản của CNN
3.4.1.1 Convolutional Layer
Convolutional layer là lớp đầu tiên va cũng là quan trọng nhất của mô hình
CNN Lớp này có chức năng chính là phát hiện đặc trưng cụ thể của bức ảnh.
Những đặc trưng này bao gồm đặc trưng cơ bản là góc, cạnh, màu sắc, hoặc đặc
trưng phức tạp hơn như texture của ảnh.
'Shttps://viblo.asia/p/deep-learning-tim-hieu-ve-mang-tich-chap-cnn-maGK73bOKj2
'Ohttps://insightsimaging.springeropen.com/articles/10.1007/s13244-018-0639-9
20
Trang 30là vô nghĩa ReLU là hàm kích hoạt phổ biến nhất Trước khi hàm ReLU được áp
dụng thì những hàm như sigmoid hay tanh mới là những hàm được sử dụng phổ
Trang 313.4.1.3 Pooling Layer
Pooling layer thường được dùng giữa các convolutional layer, để giảm kích thước dif liệu nhưng vẫn giữ được các thuộc tính quan trọng Kích thước dữ liệu
giảm giúp giảm việc tính toán trong mô hình Các pooling có thể có nhiều như:
Max pooling, Average pooling, Sum pooling.
Max Pool
——>
Filter - (2 x 2) Stride - (2, 2)
Hình 3.13: Mô phỏng phép tính của Pooling layer với Max Pooling]
3.4.1.4 Fully Connected Layer
Sau khi anh được truyền qua nhiều convolutional layer va pooling layer thi môhình đã học được tương đối các đặc điểm của anh, đầu ra của lớp cuối cùng sẽ đượcđưa về dạng vector và đưa vào một lớp được kết nối như một mạng nơ-ron VớiFully connected layer kết hợp các đặc trưng lại với nhau để tạo ra một mô hình.Cuối cùng sử dụng softmax hoặc sigmoid để phân loại đầu ra
3.5 RGB Salient Object Detection
3.5.1 Dinh nghĩa
RBG Salient Object Detection nhằm mục đích phát hiện các đối tượng hoặc
khu vực nổi bật hơn so với các khu vực khác trên hình ảnh RGB.
» Đầu vào: một hình ảnh RGB
« Đầu ra: hình ảnh với đối tượng nổi bật tương ứng với ảnh đầu vào (Hình|3 I5)
3.5.2 Kiến trúc TRACER
TRACER là một trong những mô hình hiện đại nhất, nó hiện đang dẫn đầu
điểm số trên nhiều bộ dữ liệu chuẩn TRACER sử dụng EfficientNet để trích
Trang 32Hinh 3.14: Fully connected layer]
xuất đặc trưng và kết hợp 7 block của mang thành 4 block, nó có ba mô dun chính
đó là Masked edge attention, Union attention, Object attention.
* Masked edge attention: trích xuất một ranh giới rõ ràng bang cách sử dung
Fast Fourier Transform và tăng cường ranh giới đầu ra của bộ mã hóa đầu
tiên.
* Union attention: dùng để tích hợp các đặc trưng đa cấp và phát hiện thông tin
ngữ cảnh quan trọng từ cả kênh và không gian.
* Object attention: để giảm bớt sự khác biệt về phân phối giữa các biểu diễn
của bộ mã hóa và bộ giải mã bằng cách sử dụng tham số tối thiểu
23