1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Ứng dụng phân tích chất lượng hình ảnh

65 10 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng phân tích chất lượng hình ảnh
Tác giả Nguyễn Hải Đăng, Nguyờn Cụng Đức
Người hướng dẫn TS. Nguyễn Vinh Tiệp
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Luận văn tốt nghiệp đại học
Năm xuất bản 2022
Thành phố TP. HỒ CHÍ MINH
Định dạng
Số trang 65
Dung lượng 50,96 MB

Nội dung

1.2 Mục tiêu, đối tượng và phạm vi nghiên cứu1.2.1 Muc tiêu của đề tài Với đề tài này, mục tiêu của chúng tôi là xây dựng mô hình đánh giá chất lượng hình ảnh trên một số tiêu chí nhất đ

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHÔ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC

HỘI ĐỒNG: Khoa Khoa học máy tính

GVHD: TS Nguyễn Vinh Tiệp

SVTH: Nguyễn Hải Đăng - 19521316

Nguyên Công Đức - 19521375

TP HỒ CHÍ MINH, Ngày 31 tháng 12 năm 2022

Trang 2

Lời cam đoan

Chúng tôi xin cam đoan luận văn tốt nghiệp là công trình nghiên cứu của bản thân

chúng tôi Những phần sử dụng tài liệu tham khảo trong luận văn đã được nêu rõ

và trích dẫn trong phần tài liệu tham khảo Các số liệu, kết quả trình bày trong luậnvăn là hoàn toàn trung thực, nếu sai tôi xin chịu hoàn toàn trách nhiệm và chịu mọi

kỷ luật của bộ môn và nhà trường đề ra

Lời cảm ơn

Trong suốt quá trình làm luận văn tốt nghiệp, bên cạnh sự nỗ lực của bản thân đãvận dụng những kiến thức tiếp thu được, tìm tòi học hỏi cũng như thu thập thôngtin số liệu liên quan đến đề tài, chúng tôi luôn nhận được sự giúp đố tận tình củacác thầy cô, bạn bè của Trường Đại học Công Nghệ Thông Tin để có thể hoàn

thành luận văn một cách tốt nhất Chúng tôi xin bày tỏ lòng biết ơn sâu sắc đến

thầy TS Nguyễn Vinh Tiệp đã rất tận tình quan tâm, hướng dẫn và chỉ bảo chúng

tôi trong quá trình thực hiện luận văn Chúng tôi xin chân thành cảm ơn các thầy

cô đặc biệt là các thầy cô Khoa Khoa học máy tính đã cung cấp những kiến thức

bổ ích và tạo điều kiện tốt nhất để học viên hoàn thành luận văn Cùng với sự giúp

đố từ nhiều phía, chúng tôi cũng đã rất nỗ lực để hoàn thành luận văn một cách tốtnhất nhưng do những hạn chế nhất định về kiến thức, thời gian, thông tin nên luận

văn chắc chắn không tránh khỏi những thiếu sót Chúng tôi rất mong nhận được sự

cảm thông, đóng góp và bổ sung của các thầy cô và đọc giả để sản phẩm có thể

hoàn thiện hơn.

Trang 3

Mục lục

1

¬. HH a& |

1.2_ Mục tiêu, đôi tượng và phạm vi nghiên cứu 2

12.1 Mục tiêu của đềtài| 2

¬ eens 2

eevee e eevee ryees 2 bebe bette & 3

4

oS saa eee Cee 4

2.2 Dinh nghĩa các tiêu chí ngược sáng, độ mờ, tương phản, bố cuc| 5

22.1 Thế nào làmộttấmảnhđẹp 5

2.2.2_ Ngượcsáng| Ặ Ặ Ặ Ặ Q HQ So 5 2.23 ĐỘ wan ges fo ee 6

a: gf rer 6

III eee 7

ce 9

2.3.1 Phat hện ảnh ngược sáng| 9 2.3.2 Pháthiện ảnh mờil 9

¬ 10

2.3.3.1 Phat hiện đôi tượng quantrọng| 10

2.3.3.2 Phat hién anh d6i xting) 11

2.3.4 Đánh giá chat lượnghìnhảnh 11

3 Cơ sở lý thuyet 13

-T— Không gian miu YCbCr, RGB và thang độ xâm (Grayscale) 13

3.1.1 Không gian màu YCbCr và RGBỊ 13

3.12 Thang độ xám (Grayscale)| 14

NHHHaAa 15

3.2.1 ToántửSobell 15

322 ToántửRoberi 15

Trang 4

3.3.1 FeatureEngineermnø| Ặ ẶẶ.

¬

3.4 Convolutional Neural Networks (CNN)}

3.4.1 Cac thành phần cơ bản củaCNN|

3.4.1.1 Convolutional Layer

3.412 NonlinearLayer|

34.13 PoolngLayer|

3.4.1.4 Fully Connected Layer|

3.5 RGB Salient ObJectDetecton

3.5.1 Dinhnghia 2 QẶ ẶẶ 3.5.2 Kiến trúc TRACERI

4 Mô hình đánh giá chất lượng hình ảnh 4.1 Tổng quan về mô hình

4.2 Phat hiện hình ảnh ngược

sáng| -443

Pháthệnhìnhànhmờ| -⁄4@Ẻ — \ ]

4.4.1 Bồ cục trung tâm, một phần ba|l

4.4.2 Bốcucđôixứng

5_ Thực nghiệm 5.1 Cáctậpdư liệu Ặ 0.0.0.0 02020004 5.1.1 Tập dữ liệu Backlil

5.12 Tap dữ liệu Layout

5.13 Tập dữ liệu Contrasltl

5.14 TậpdưlệuBlu|

5.15 Tập dữ liệu AVA[ QC 5.2.1.2 Precision, Recall, F-score}

5.2.2 Bài toán phát hiện ngược sáng|

5.2.3 Bài toán pháthiệnảnhmờ|

Trang 5

6.1 Thách thức của bài toán|

6.3 Hướng phát triển

Trang 6

Danh sách hình vẽ

2.1 Đầu vào ra đầu ra của bài

toán| -2.2 Minh họa về ảnh ngược

sáng| -23 Minhhoavêảnhmờ|

2.4 Minh họa về sự khác biệt giữa tương phan cao và thấp œ ~l ~¬l AA 3.1 Không gian màu YCbCI| 13

3.2 Không gianmàuRGH?Ì| 14

3.3 Thang độxám”| ee 14 3.4_ Minh họa toán tử cạnh SobeHl 16

À Ả 16

À 17

3.7 Vi trí của Feature Engineering trong quy trình học may®| 18

" 19 3.0_ Linear vàNon-linearSVMZTT| 20

3.10 Kiến trúc cơ bản của CNN trong nhiệm vụ phân loai® 20 3.11 Mô phỏng phép tính của convolutional layel]_ 21

3.12 Mô phỏng phép tính của Nonlinear layer với ham REL ¬ 21 3.13 Mô phỏng phép tính của Pooling layer với Max Poolin gl] 22 ee 23 3.15 Đầu vào va đầu ra của RGB-SOD| 24

3.16 Tong quan về kiến trúc TRACERÍ| 24

4.1 Kiến trúc mô hình đánh giá chất lượng hình ảnh 4.2 Phân bô các thành phan luminance, C,, C, của hình ảnh ngược sáng Lee 26 4.3 Kêt của của mô hình phát hiện ngược sáng 27 4.4 Mức độ quan trọng của các dactrung) 28

4.5 Minh họa về việc chuyển màu từ đen sang trắng 29 4.6 Từ anh RGB sang thang độ xám (grayscale)| 30

¬—— 31

4.8 Kêt quả của mô hình phát hiện độ mờ 31

Trang 7

4.10 Lượt bỏ nhiễu| 32

4.11 Tìm tâm của đối tượng| 33

4.12 Anh bồ cục trung tâm và một phằnba| 33

4.13 Khoảng cách từ tâm đến các trục| - 34

4.14 Kiến trúc CafeNef] - 34

4.15 Kết quả của mô hình phát hiện bô cục đôi xứng 4.16 Ảnh và biểu đồ của ảnh tương phản thấp và cad!!| 4.17 Kết quả của mô hình phát hiện tương phản thấp 4.18 Kết quả của mô hình đánh giá chat lượng hình ảnh 5.1 Một số ảnh thuộc tập dữ liệu Backlit, dòng một là ảnh ngược sáng, Lee 40 5.2 Một so ảnh thuộc tập dữ liệu Layout, (a,b) b6 cục trung tâm, (c,d) bô cục một phan ba, (e,f) b6 thuộc đối xứng, (g,h) không thuộc bố hcốaúốgứttpt, ,ỨẺ,ớrự al 5.3 Một số ảnh thuộc tập dữ liệu Contrast, dòng một là anh tương phản ` A 2

5.4 Một sô ảnh thuộc tập dữ liệu Blur, dòng một là anh sắc nét, dòng Chie MO Ẻ.%$®> \ / 42

5.5_ Biểu đồ đánh giá của AVA [22], trái là điểm trung bình, giữa là độ lệnh chuẩn, phải là kết hợp cả hai 5.6 Ảnh của AVA [22], với điểm sô (Ø), trong đó và o là trung bình và độ lệch chuẩn của điểm số 5.7 Trực quan Precision và Recall | _ 44

5.8 Đánh đổi giữa Precision và Recall°| 45

5.0 Sử dụng ki thuật Cross Validation trên tập dữ liệu Train của bộ dữ cu 48 5.10 Confuse Matrix trên dữ liệu Test Backliql 48

5.11 Sử dụng ki thuật Cross Validation trên tập dữ liệu Train của bộ dữ eves 49 5.12 Confuse Matrix trên dữ liệu lestBlul| 49

Trang 8

Danh sách bảng

Trang 9

Tóm tắt nội dung

Thẩm mỹ có nghĩa là cái đẹp hay khả năng cảm thụ cái đẹp Đánh giá thẩm mỹ ảnh

khi được xét trên khía cạnh tính toán bởi máy móc, là một bài toán về thị giác máy

tính nhằm phân loại các tam ảnh vào các nhóm có mức độ thẩm mỹ khác nhau; hay

nói cách khác, là đưa ra được những quyết định về mặt thẩm mỹ tương tự với cách

làm của con người.

Ta sẽ phân loại các tiêu chí đánh giá thẩm mỹ ảnh thành hai nhóm là các tiêu chí

về kỹ thuật và các tiêu chí về nội dung Các tiêu chí về kỹ thuật (bố cục, ánh sáng,tương phản, ) đã phan nào nói lên sự máy móc Khi con người có thể đánh giá một

tiêu chí về mặt định lượng, các quyết định được đưa ra sẽ càng trở nên khách quan

hơn, và sẽ càng dễ dàng hơn để lập trình cho máy biết được như thế nào là thỏamãn một tiêu chí nào đó, hay đạt được tiêu chí đó ở mức độ như thé nào Ngượclại, các tiêu chí đánh giá về nội dung (sự ưng mắt của chủ thể, tính độc đáo về nộidung, ) lại chứa nhiều ý kiến chủ quan trong đó Việc tìm ra được quy luật vì thé

mà cũng trở nên khó khăn hơn, khó cho việc đánh giá một cách máy móc Vì vậy,

nội dung nghiên cứu của khóa luận này chỉ tập trung vào việc xây dựng mô hình

đánh giá các tiêu chí về kỹ thuật

Để giải quyết bài toán này, chúng tôi đã khảo sát và chọn lọc ra một số tiêu chí nhấtđịnh Sau đó kết hợp các phương pháp đã tìm hiểu, sử dụng thuật toán và mô hình

máy học, học sâu để đánh giá các tiêu chí này Sau cùng, chúng tôi đưa ra các tiêu

chí đã được định lượng để con người có dựa vào đó để đánh giá hình hình với một

góc nhìn khác.

Trang 10

Chương 1

Mở dau

1.1 Giới thiệu đề tài

Việt Nam là một trong số những nước có tốc độ phát triển nhanh về công nghệthông tin, số người sử dụng internet, mạng xã hội lớn và ngày càng tăng Chúng ta

không thể phủ nhận những ích lợi to lớn mà Internet và mạng xã hội đã mang đến

cho con người Mạng xã hội giúp mỗi người tăng sự đồng cảm, quan tâm đối với

những người khác cũng như bày tỏ cảm xúc, tâm trạng của bản thân thông qua các

hành động bình luận, chia sẻ hoặc các dòng trạng thái Và với sự phổ biến của việc

chụp ảnh ngày nay, hầu như các bài viết trên các mạng xã hội đều sử dụng hình ảnh

để thể hiện cảm xúc hoặc để mô tả thêm cho phần trạng thái được đăng tải

Vậy làm sao để một người không có chuyên môn về ảnh có thể đánh giá vàchon ra những tam ảnh có tính thẩm mỹ để đăng tải lên mang xã hội? Chắc chắnhầu hết chúng ta đều đã từng đánh giá thẩm mỹ của một bức ảnh, thậm chí là hằngngày Không cần phải là một thứ gì đấy cao siêu, hành động đánh giá thẩm mỹ ảnh

xuất hiện ngay trong quá trình chúng ta chụp một tam ảnh Chúng ta có thể sẽ căn

góc chụp, điều chỉnh ánh sáng, thay đổi khẩu độ ống kính, hay nhắc người mẫu đổi

tư thế, tất cả là để thu được tấm hình đẹp nhất theo ý của chúng ta Ngoài demlại giá trị về mặt tinh thần, một tắm ảnh dep còn có thé dem lại những giá trị rấtlớn về vật chất Minh chứng là việc xuất hiện các chuyên gia đánh giá chất lượng

ảnh, các mạng xã hội (Instagram, Pinterest, ) ngành công nghiệp bán ảnh stock

(Pixtastock, Shutterstock, )

Từ đó, ta có thể thấy đánh giá ảnh là một nhu cầu thiết yếu Vì vậy, cần có một công

cụ giúp những người không có chuyên môn về ảnh dễ dàng đánh giá các tắm ảnh

hơn Day cũng chính là lí do mà chúng tôi chọn dé tài này

Trang 11

1.2 Mục tiêu, đối tượng và phạm vi nghiên cứu

1.2.1 Muc tiêu của đề tài

Với đề tài này, mục tiêu của chúng tôi là xây dựng mô hình đánh giá chất lượng

hình ảnh trên một số tiêu chí nhất định bằng các thuật toán kết hợp với các mô hình

máy học và học sâu Từ đó giúp người dùng dễ dàng đánh giá một tam ảnh dựa trên

các tiêu chí mà mô hình đã đưa ra Mục tiêu của chúng tôi là xây dựng mô hình

đánh giá chất lượng hình ảnh có thể định lượng được con số cụ thể trên các tiêu chíbao gồm ngược sáng, độ mờ, tương phản, bố cục và đưa ra điểm số trên thang 10của hình ảnh Từ đó giúp người dùng dé dàng đánh giá một tam ảnh với góc nhìn

khác trực quan hơn.

1.2.2 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu: Ảnh được chụp ở thế giới thực và 4 tiêu chí bao gồm

ngược sáng, mờ, tương phản, bố cục của hình ảnh

Pham vi nghiên cứu: Trong khuôn khổ giới han của khóa luận, nhóm thực hiện

tập trung hoàn thành các công việc sau:

« Tìm hiểu về định nghĩa của 4 tiêu chí như ngược sáng, mờ, tương phản và bố

cục của hình ảnh.

* Tìm hiểu tổng quan về bài toán phân tích chất lượng hình ảnh.

» Xây dựng, thiết kế các phương pháp cho việc định lượng 4 tiêu chí

s Đánh giá so sánh với mô hình phổ biến nhất hiện nay và chỉ ra ưu nhược điểm

của mô hình của chúng tôi.

1.3 Đóng gop của đề tài

Ý nghĩa khoa học:

» Hệ thống lại cơ sở lý thuyết và tổng quan về bài toán phân tích chất lượng

hình ảnh.

¢ Nghiên cứu và làm sáng tỏ các tiêu chí đánh giá hình ảnh.

* Cung cấp thêm dữ liệu về các bài toán ngược sáng, tương phản, bố cục của

ảnh.

« Làm nền tang cho những bài toán lớn hơn.

Ý nghĩa thực tiễn:

Trang 12

« Giúp người dùng cải thiện chất lượng của ảnh, tao ra những bức ảnh đẹp hơn

và chuyên nghiệp hơn.

« Giúp tăng cường hiểu biết về ảnh, để trở thành những nhiếp ảnh gia tài ba

hơn.

* Đóng góp cho sự phát triển của công nghệ anh.

1.4 Cau trúc khóa luận

Khóa luận của chúng tôi được thiết kế và trình bày theo 7 chương:

¢ Chương 1: Mở đầu: Chương này sẽ nêu ra lý do chúng tôi chọn dé tài này

và mục tiêu chính của đề tài cũng như các đóng góp của đề tài.

* Chương 2: Tổng quan: Chương này sẽ giới thiệu một cách chung nhất về

bài toán và các hướng nghiên cứu liên quan.

* Chương 3: Cơ sở lý thuyết: Ở chương này chúng tôi sẽ cung cấp các kiến

thức và lý thuyết chung của các phần được áp dụng trong thời gian thực hiện

khóa luận.

* Chương 4: Mô hình đánh giá chất lượng hình ảnh: Trong chương này,

chúng tôi sẽ nêu chỉ tiết cách xây dựng mô hình và các thuật toán.

* Chương 5: Những đóng góp cải tiễn: Trình bày các phương pháp để cải

thiện kết quả của các bài toán con nhằm nâng cao độ chính xác của mô hình

« Chương 6: Thực nghiệm: Chi tiết quá trình thực nghiệm và các kết quả,

đánh giá của các thử nghiệm mô hình sẽ được chúng tôi trình bày ở chương

này.

* Chương 7: Tổng kết: Đây là chương cuối cùng nhằm đưa ra các nhận xét,

thách thức trong quá trình thực hiện luận văn, đồng thời đưa ra một số hướngphát triển của đề tài trong tương lai

Trang 13

Chương 2

Tổng quan

2.1 Giới thiệu bài toán

Như đã nói ở Chương 1, với sự phát triển mạnh mẽ của mạng xã hội cùng với

nhu cầu chụp ảnh ngày càng phổ biến, sẽ tương đối khó khăn đối với một ngườikhông có chuyên môn về chụp ảnh có thể chọn được một tam ảnh đẹp để đăng tảilên mạng xã hội Vì vậy, chúng tôi tạo ra một công cụ với mong muốn giúp ngườidùng dễ dàng hơn trong việc đánh giá ảnh Tuy nhiên, các tiêu chí về nội dung

thường mang tính chủ quan cao nên chúng tôi chỉ tập trung đánh giá thẩm mỹ ảnh

dựa trên các tiêu chí về kỹ thuật

(a) Đầu vào (b) Đầu ra

Hình 2.1: Dau vào ra dau ra của bài toán

Qua khảo sát từ các chuyên gia về nhiếp ảnh, có rất nhiều tiêu chí kỹ thuật để

đánh giá một bức ảnh, tuy nhiên chúng tôi đã chọn ra các tiêu chí cơ bản và quan

trọng nhất Các tiêu chí này bao gồm: Ngược sáng, Độ mờ, Tương phản và Bồ cục

Trang 14

Đầu vào: Một tắm ảnh được chụp ở thế giới thực.

Dau ra: Định lượng của các tiêu chí Ngược sáng, Độ mờ, Tương phản, Bồ cục và

cho ra số điểm tham khảo

2.2 Dinh nghĩa các tiêu chí ngược sáng, độ mờ, tương

phản, bố cục

2.2.1 Thế nào là một tam ảnh dep

Một tắm ảnh đẹp là một tắm ảnh mà các yếu tố như ngược sáng, độ mờ, tươngphản và bố cục được cân bằng tốt, tạo nên một hình ảnh có tính thẩm mỹ cao Cụthể, một tam ảnh đẹp nên có các đặc điểm sau:

* Độ ngược sáng: điều chỉnh ánh sáng phù hợp để tránh hiện tượng bóng đen

hoặc chói sáng trên chủ thể trong ảnh.

» Độ mờ: tam ảnh nên được chụp rõ nét, không bị mờ hoặc nhòe.

» Tương phan: tăng độ tương phan trong ảnh để các chi tiết được phân biệt rõ

ràng, giúp tăng tính động đậm, sắc nét

* Bố cục: sắp xếp các chủ thé trong khung hình sao cho hài hòa, đẹp mắt và tao

cảm giác thăng hoa cho người xem.

Ngoài các tiêu chí trên, một tắm ảnh đẹp còn có thể đáp ứng một số tiêu chí phổ

biến khác như sắc độ, tỷ lệ, sự chuyên nghiệp trong cách chụp và sự tỉnh tế trong

chỉnh sửa hình ảnh Tất cả các yêu tố này cùng nhau tạo nên một tắm ảnh đẹp và

Ấn tượng

Trước khi đi sâu vào các nội dung nghiên cứu, chúng tôi sẽ làm rõ chỉ tiết định

nghĩa về các tiêu chí như ngược sáng, độ mờ, tương phản và bố cục.

2.2.2 Ngược sáng

Hình ảnh ngược sáng là tình trạng ánh sáng trong ảnh chủ yếu tập trung ở phía

phía sau của chủ thể, gây ra hiện tượng bóng đen hoặc chói sáng trên chủ thể trong

ảnh Hình ảnh ngược sáng thường xảy ra trong những trường hợp khi chủ thể được chụp ngược chiều với nguồn sáng hoặc khi ánh sáng chủ yếu tập trung vào phía sau

của chủ thể Hình|2.2|ví dụ về ảnh ngược sáng

Hiện tượng ngược sáng có thể làm mất đi các chỉ tiết quan trọng trong ảnh, làm

mất màu sắc, tạo ra ảnh chìm vào bóng tối hoặc bị lóa sáng Để khắc phục hiệntượng này, có thể sử dụng các kỹ thuật điều chỉnh ánh sáng, chẳng hạn như sử dụng

bộ lọc mềm, chụp ảnh trong điều kiện ánh sáng tốt hơn hoặc sử dụng đèn flash đểchiếu sáng thêm cho chủ thể

Trang 15

Tuy nhiên, khi sử dụng đèn flash, cần chú ý đến độ mạnh của đèn và góc chiều

sáng để tránh tạo ra ảnh bị chói sáng hoặc bị lóa Việc sử dụng các kỹ thuật này

cần được thực hiện một cách cẩn thận để tạo ra ảnh có chất lượng tốt và không mat

di các chi tiết quan trọng trong ảnh

2.2.3 Độ mờ

Hình ảnh mờ (hay còn gọi là hình ảnh không rõ nét) là một khái niệm trong

lĩnh vực nhiếp ảnh, chỉ việc hình ảnh không có độ nét cao đủ để các chỉ tiết trong

ảnh có thể phân biệt rõ rang Độ mờ của một tam ảnh phụ thuộc vào nhiều yếu té,

bao gồm sự rung lắc của máy ảnh, độ mở ống kính, tốc độ chụp ảnh, ánh sáng môi

trường, và cách điều chỉnh các thiết lập trên máy ảnh Một hình ảnh mờ có thể là

kết quả của sự không chính xác trong việc lấy nét, sự rung lắc hoặc chuyển động

không mong muốn, hoặc thiếu ánh sáng đủ để tạo ra hình ảnh rõ nét Hình |2.3| ví

dụ về ảnh mờ

Tuy nhiên, đôi khi hình ảnh mờ cũng có thể mang lại một cảm giác mộc mạc,

mơ hồ và đầy cảm xúc Một số nhiếp ảnh gia còn sử dụng độ mờ để tạo ra các tácphẩm nghệ thuật với phong cách riêng của họ Tuy nhiên, trong nhiều trường hợp,

hình ảnh mờ được coi là một lỗi trong quá trình chụp ảnh và không đạt được tiêu

chuẩn để được coi là một tắm ảnh đẹp

2.2.4 Độ tương phản

Độ tương phản của hình ảnh là mức độ khác biệt giữa các độ sáng khác nhau

trong một hình ảnh Nó thể hiện mức độ tách biệt và độ rõ nét của các đối tượng

Trang 16

Hình 2.3: Minh họa về ảnh mờ

trong hình ảnh Độ tương phản cao có nghĩa là các đối tượng trong hình ảnh được

phân biệt rõ ràng, màu sắc tươi sáng và các chỉ tiết được hiển thị rõ ràng Ngược

lại, độ tương phản thấp dẫn đến sự mờ nhạt, màu sắc trung tính và mat các chi tiết

quan trọng của hình ảnh Hình|2.4| ví dụ về sự khác biệt giữa ảnh tương phản cao

và thấp

Độ tương phản là một trong những yếu tố quan trọng để đánh giá chất lượng

hình ảnh và có thể được điều chỉnh để cải thiện chất lượng hình ảnh

Hình 2.4: Minh họa về sự khác biệt giữa tương phản cao và thấp

Trang 17

(a) Một phan ba

= ETS “`

`

Hình 2.5: Minh họa về một vài bố cục

thẩm mỹ của tác phẩm Nó có thể giúp người xem tập trung vào chủ thể hoặc điểm

nhắn của bức ảnh và tạo ra một cảm giác tự nhiên, dễ chịu cho mắt người xem

Dưới đây là một số bố cục phổ biến và dễ tiếp cận:

* Một phan ba: là cách sắp đặt bố cục phổ biến nhất trong chụp ảnh, bao gồm

chia khung ảnh thành ba phần bằng nhau hoặc không bằng nhau và đặt chủ

thể chính trong một trong các phần đó Việc sử dụng nguyên tắc ba sẽ giúp

tạo ra một tam ảnh cân đối và thu hút người xem

* Trung tâm: đặt chủ thể ở chính giữa khung ảnh, tạo ra sự cân đối và ổn định

trong tam ảnh Tuy nhiên, cách sắp đặt này có thể làm cho ảnh trở nên khá

đơn điệu và thiếu sáng tạo

» Đối xứng: sắp xếp đối xứng qua trục ngang hoặc dọc của khung ảnh Là một

trong những phương pháp sắp xếp bố cục đơn giản và hiệu quả nhất Nó tạo

Trang 18

ra sự cân bằng và sự đối xứng giữa các yếu tố trong khung ảnh, làm cho tác

phẩm trông rất hài hòa và đẹp mắt

Mỗi phương pháp bố cục có những đặc điểm riêng và có thể được sử dụng để tạo ranhững tác phẩm ảnh độc đáo và thú vị Tuy nhiên, quan trọng nhất là người nhiếp

ảnh phải hiểu rõ các phương pháp này và áp dụng chúng một cách thích hợp để tạo

ra những tác phẩm ảnh ấn tượng và thu hút người xem Hình |2.5Ìminh họa ba bố

cục: một phần ba, trung tâm, đối xứng

2.3 Các nghiên cứu liên quan

2.3.1 Phát hiện ảnh ngược sáng

Ảnh được chụp trong điều kiện ngược sáng nghĩa là đối tượng chính hoặc tiền

cảnh bị tối, nhưng hậu cảnh lại tương đối sáng do thời gian phơi sáng của đối tượng

chính hoặc tiền cảnh ngắn hơn thời gian phơi sáng của hậu cảnh dẫn đến độ sáng

của hậu cảnh cao Việc xác định hình ảnh ngược sáng thường được thực hiện bằngphân tích biểu đồ độ sáng vì người ta tin rang đặc điểm riêng biệt của hình ảnh

ngược sáng là sự khác biệt lớn về độ sáng giữa tiền cảnh và hậu cảnh

Shimizu và cộng sự đã giới thiệu một fuzzy logic để phân loại hình ảnh thành ba loại như ngược sáng, thuận sáng và thuận sáng quá mức dựa trên tỷ lệ số pixel trong độ sang Murakami và Honda đã đề xuất phương pháp phát hiện

ngược sáng bằng cách thay thế biểu đồ độ sáng bằng ba vùng theo khoảng cách từ

độ sáng trung bình Chin va Lin [6] đã thảo luận về đặc điểm vị trí không gian vabiểu đồ của hình ảnh ngược sáng để có được hai chỉ số hình ảnh, điều này có thể

xác định mức độ ngược sáng của hình ảnh Su và cộng sự đã mô tả đặc điểm

của hình ảnh ngược sáng dựa trên thành phần cường độ và trình bày thuật toánc-mean mờ để trích xuất các đặc trưng từ hình ảnh ngược sáng Kong và cộng sự

xác định điều kiện chiếu sáng bằng cách so sánh biểu đồ cục bộ từ vùng khuônmặt được trích xuất và biểu đồ toàn cầu của toàn bộ hình ảnh Park và Han đã

sử dung các thành phan sắc độ của không gian màu YC;C, cho việc phát hiện hình

ảnh ngược sáng Các cách tiếp này phần lớn là sử dụng biểu đồ, kinh nghiệm thiết

kế thuật toán để phát hiện ảnh ngược sáng.

2.3.2 Phát hiện anh mờ

Ảnh kỹ thuật số được sản xuất 6 ạt trong khi máy ảnh kỹ thuật số ngày càng

phổ biến, tuy nhiên không phải bức ảnh nào cũng có chất lượng tốt Ảnh nhòe hay

ảnh mờ là một trong những hiện tượng suy giảm chất lượng ảnh thông thường donhiều yếu tố gây ra Nguyên nhân chính làm ảnh mờ là do chuyển động của ống

Trang 19

kính trong quá trình chụp, trong đó ống kính không thể đặt góc thích hợp và lấy nét

và do đó dẫn đến hình ảnh mờ

Tong và cộng sự đã đề xuất một lược đồ sử dụng khả năng HaarWavelet

Transform (HWT) trong cả việc phân biệt các loại cạnh khác nhau và khôi phục độ

sắc nét từ phiên bản bị mờ, sau đó xác định xem một hình ảnh có bị mờ hay không

và ở mức độ nào Abdel-Qader va cộng sự sử dụng Fast Fourier Transform

(FFT) tính toán các tần số trong ảnh tại các điểm khác nhau và dựa trên tần số để

quyết định ảnh mờ hay không Bansal và cộng sự [2Ì] sử dụng toán tử đạo hàm cấphai Laplacian rồi dựa trên phương sai của ảnh với toán tử để đưa ra ảnh mờ Elder

va Zucker [§] đã đề xuất một thuật toán để phát hiện kiểm soát tỷ lệ cục bộ và

khoanh vùng các cạnh trên một phạm vi rộng của tỷ lệ mờ, phương pháp phát hiện

cạnh này dẫn đến một phương pháp ước tính độ mờ cục bộ của các đường viễn hình

ảnh Các cách tiếp cận đa phần là sử dụng các thuật toán hoặc toán tử phát hiệncạnh bởi vì chi phí tính toán thấp

2.3.3 Phát hiện bố cục

2.3.3.1 Phát hiện đối tượng quan trong

Phát hiện đối tượng quan trọng (Saliency Object Detection - SOD) là một bài

toán vô cùng quan trọng trong lĩnh vực thị giác máy tính Nó nhằm mục đích làmnổi bật các đối tượng nổi bật trong hình ảnh, nổi bật ở đây mô tả một đối tượng

hoặc một vùng mà thu hút sự chú ý của con người Bài toán này có ứng dụng vô

cùng rộng rãi trong nhiều lĩnh vực khác nhau như chú thích hình ảnh, phát hiện đối

tượng, nhận dạng con người, tóm tắt video, Và chúng tôi cũng áp dụng bài toánnày để giải quyết vấn đề của chúng tôi đó là bài toán phát hiện bố cục

Borji và cộng sự đã xem xét và đánh giá các phương pháp phát hiện đốitượng nổi bật trước năm 2015 và không đề cập đến các giải pháp dựa trên mô hình

học sâu hiện đại Zhou va cộng sự đã khảo sát đánh giá toàn diện các mô hình

RGB-D từ nhiều khía cạnh khác nhau Han và cộng sự [9Ì] đã xem xét một số hướng phụ và phác thảo những tiến bộ gần đây trong phát hiện đối tượng nổi bật và phát

hiện đối tượng theo danh mục cụ thể Qin và cộng sự đề xuất một kiến trúc

mạng học sâu đơn giản mà mạnh mẽ cho bài toán phát hiện đối tượng nổi bật đó là

kiến trúc U? — Net (kiến trúc U-Net lồng nhau 2 lần) Cuối cùng, Lee va cộng sự

đã công bố một kiến trúc state-of-the-art (hiện đại nhất) trên các dữ liệu chuẩn

, kiến trúc gồm 3 mô đun chính là: Masked-edge attention, Union attention, Object

attention.

10

Trang 20

2.3.3.2 Phát hiện ảnh đối xứng

Tính đối xứng là một trong những yếu tố rất quan trọng ảnh hưởng đến chất

lượng thẩm mỹ của một tác phẩm nghệ thuật Không chỉ trong lĩnh vực thẩm mi,

đối xứng còn được ứng dụng rộng rãi trong các bài toàn thị giác máy tính như làphát hiện và phân đoạn đối tượng , ước tính độ sâu, tiền xử lí ảnh y tế Trong toán

học, đối xứng là một khái niệm rõ ràng Ngược lại, phát hiện đối xứng trong thị giác máy tính phải đối mặt với dit liệu trong thé giới thực, dữ liệu này có thể nhiễu,

mơ hồ và thậm chí bị bóp méo Tuy nhiên, một số thuật toán để phát hiện tính đốixứng trong dữ liệu thế giới thực đã được đề xuất

Loy và Eklundh đã dé xuất thuật toán sử dung SIFT descriptor, so sánh

các cặp điểm thích hợp và không gian Hough-voting Heijer so sánh các giá

trị độ sáng dọc theo một trục cua anh Shaker và Monadjemi đã đề xuất mộtphép đo đối xứng sử dụng thông tin cạnh trong ảnh thang độ xám, phương phápnày bị giới bạn bởi thông tin cường độ độ sáng không quan tâm đến các yêu tổ màu

sắc hay hình dáng Elawady và cộng sự [7] đã đề xuất sử dụng các đặc trưng cạnh

đa tỷ lệ kết hợp với biểu đồ định hướng cục bộ Wang và cộng sự thiết lập sựtương ứng của các tính năng dựa trên cạnh bat biến affine cục bộ Khác với nhữngphương pháp trên Brachmann và Redies [5] đã đề xuất một phương pháp do tính

đối xứng trong hình ảnh bằng cách sử dụng các bộ lọc của mạng tích chập, phương

pháp này mô hình hóa nhận thức của con người về tính đối xứng chặt chế, chúng

xem xét đồng thời thông tin về mau sắc, các cạnh và kết cầu và không chỉ dựa vào

màu sắc, các cạnh và kết cấu, mà còn trên các hình dạng và đối tượng được mô tả

trong hình ảnh.

2.3.4 Đánh giá chất lượng hình ảnh

Khi khối lượng dữ liệu hình ảnh tăng theo cấp số nhân mỗi năm, khả năng đánhgiá tính thẩm mỹ của hình ảnh trở nên quan trọng đối với các ứng dụng khác nhau

như nâng cao ảnh, xếp hạng ảnh Định lượng chất lượng hình ảnh và tính thẩm

mỹ từ lâu đã là một vấn đề trong xử lý hình ảnh và thị giác máy tính Việc đánhgiá phong cách hình ảnh, tính thẩm mỹ và chất lượng đã được nghiên cứu tích cực

trong vài thập kỷ qua.

Bianco và cộng sự [3Ï đề xuất một công cu dự đoán chất lượng chuyên sâu dựatrên AlexNet dùng mạng tích chập trích xuất đặc trưng từ các hình ảnh có kíchthước 227 x 227, sau đó được hồi quy về điểm số Các phương pháp dựa trên mạngtích chập gần đây cho thấy sự cải thiện hiệu suất đáng kể so với các nghiên cứu

trước đó dựa trên các tính nang thủ công AVA: A large-scale database for aesthetic

visual analysis là chuẩn mực đánh giá thẩm mỹ, được Murray và cộng sự giới

thiệu bộ dữ liệu AVA và đề xuất kỹ thuật sử dụng các đặc điểm được thiết kế thủ

11

Trang 21

công để phân loại phong cách ảnh Lu và cộng sự cho thấy rằng các mạng học

sâu rất phù hợp với nhiệm vụ đánh giá thẩm mỹ Kao và cộng sự dùng hồi quy

và kiến trúc lấy cảm hứng từ AlexNet để dự đoán điểm trung bình Ma và cộng sự

đề xuất một khung nhận biết bố cục trong đó bản đồ độ nổi bật được sử dụng

để chọn các bản vá có tác động cao nhất đến điểm thẩm mỹ dự đoán Kong và cộng

su đã dé xuất một phương pháp để xếp hang các bức anh một cách thẩm mỹ

bằng cách đào tạo trên dữ liệu AVA với hàm mất mát dựa trên xếp hạng Talebi và

Milanfar giới thiệu một phương pháp mới để dự đoán cả chất lượng kỹ thuật

và thẩm mỹ của hình ảnh, thay vì phân loại hình ảnh theo điểm thấp/cao hoặc hồiquy về điểm trung bình, phân phối xếp hạng được dự đoán dưới dạng biểu đồ Cuốicùng, chúng tôi đề xuất một phương pháp sử dụng các tiêu chí quan trọng của ảnh

như ngược sáng, tương phản, bố cục và độ mờ để đánh giá tính thẩm mỹ của hình

ảnh.

12

Trang 22

Chương 3

Cơ sở lý thuyết

3.1 Không gian màu YCbCr, RGB và thang độ xám (Grayscale)

3.1.1 Không gian màu YCbCr va RGB

Không gian màu YCbCr cũng được viết là YCgCg là một họ các không gian

màu được sử dụng như một phần của đường dẫn hình ảnh màu trong video và hệ

thống chụp anh kỹ thuật số Y là thành phần độ chói (luminance) và Cg, Cp là các

thành phần sắc độ khác nhau của màu xanh và màu dof]

RGB là không gian màu phổ biến dùng trong máy tính, máy ảnh, điện thoại và

nhiều thiết bị kĩ thuật số khác Không gian màu này khá gần với cách mắt người

tổng hợp màu sắc Nguyên lý cơ bản là sử dụng 3 màu sắc đỏ, xanh lục và xanh

Lhttps://vi.wikipedia.org/wikiYCbCr

”https://www.researchgate.net/figure/YCbCr-Color-Space-In-the-YCbCr-component-of-Y-is-a-luminance-brightness-whereas_fig4_323025324

13

Trang 23

lam để biểu diễn tất cả các màu sắc]

Red

Blue

dint Geen Green

Hình 3.2: Không gian mau RGB}

3.1.2 Thang độ xám (Grayscale)

Trong nhiếp ảnh kỹ thuật số, hình ảnh thang độ xám là hình ảnh trong đó giá trịcủa mỗi pixel là một mẫu duy nhất chỉ đại diện cho một lượng ánh sáng; nghĩa là

nó chỉ mang thông tin về cường độ Hình ảnh thang độ xám, một loại đơn sắc đen

trắng hoặc xám, chỉ bao gồm các sắc thái của màu xám Độ tương phản dao động

từ màu đen ở cường độ yêu nhất đến màu trắng ở cường độ mạnh nhất |]

Hình 3.3: Thang độ xán| |

3https://aicurious.io/posts/2018-09-19-anh-so-va-cac-khong-gian-mau-trong-xu-ly-anh/

*https://www.researchgate.net/figure/a-RGB-Color-Space-7-b-YCbCr-Color-Space-§_figI_298734907 Shttps://en.wikipedia.org/wiki/Grayscale

Shttps://medium.com/javarevisited/converting-rgb-image-to-the-grayscale-image-in-java-9eledcSbd6e7

14

Trang 24

3.2 Các toán tử Sobel, Robert, Laplacian

3.2.1 Toan tw Sobel

Toán tử Sobel, được sử dung trong xử ly hình anh và thi giác máy tính, đặc biệt

là trong các thuật toán phát hiện cạnh nơi nó tạo ra một hình ảnh nhấn mạnh cáccạnh Về mặt kỹ thuật, nó là một toán tử phân biệt rời rac, tính toán xấp xi gradient

của hàm cường độ hình ảnh Tại mỗi điểm trong ảnh, kết quả của toán tử Sobel là

vector gradient tương ứng hoặc chuẩn của vector này Toán tử Sobel dựa trên việc

kết hợp hình ảnh với một bộ lọc nhỏ, có thể tách rời và có giá trị nguyên theo hướngngang và dọc và do đó tương đối nhẹ về mặt tính toán Mặt khác, xấp xỉ gradient

mà nó tạo ra tương đối thô, đặc biệt đối với các biến thể tần số cao trong hình ảnh

Toán tử sử dụng hai hạt nhân (kernel) 3x3 được tích chập với hình ảnh gốc đểtính toán các giá trị xấp xỉ của đạo hàm, theo chiều ngang và theo chiều dọc Nếu

chúng ta định nghĩa A là ma trận ảnh nguồn (dưới dang thang độ xám), và G, và

G, là hai ảnh mà tại mỗi điểm chứa các xấp xỉ đạo hàm ngang và dọc tương ứng,

thì cách tính toán như sau:

10 -I I 2 fil

Gy=|2 0 -2|®A and G=|0 0 0164 (3.1)

10 -1 —=l -—2 -l

trong đó @ là toán tử tích chập Tại mỗi điểm trong ảnh, độ lớn của gradient có thể

được tính như sau:

G= \/G+ G2 (3.2)

3.2.2 Toán tử Robert

Toán tử chéo Roberts được sử dụng trong xử lý ảnh và thị giác máy tính để phát

hiện cạnh Toán tử chéo Roberts tính gradient trên một tấm ảnh đơn giản và nhanhchóng Do đó, nó làm nổi bật các vùng có không gian tần số cao thường tương ứng

VỚI các canh

Tương tự như với Sobel, nhưng Robert sử dung hai hat nhân 2x2 để tính các giá

trị xấp xi của dao hàm theo hai hướng góc 45°

Trang 25

(a) Ảnh đưới dạng ma trận A (b) Ảnh dưới dạng ma trận G,

(c) Ảnh dưới dang ma trận Gy (d) Ảnh dưới dạng ma trận G

Hình 3.4: Minh họa toán tử cạnh Sobel

G=,/G2+G 4.4)

Hình 3.5: Minh họa toán tử cạnh Roberf]

3.2.3 Toán tử Laplacian

Toán tử Laplacian là toán tử đạo hàm được sử dụng để tìm các cạnh trong ảnh,

công dụng của nó làm nổi bật các điểm không liên tục trong ảnh và cô gắng làm

giảm bớt các vùng thay đổi chậm Kết quả là tao ra hình ảnh có các đường viễn va

*https://en wikipedia.org/wiki/Roberts_cross

16

Trang 26

các điểm không liên tục trên nền tối Điều này tạo ra các cạnh bên trong (inward

edges) và bên ngoài (outward edges) trong một hình anh |!

Sự khác biệt chính giữa Laplacian và các toán tử như Sobel, Robert là cả hai

đều là lấy đạo hàm cấp một nhưng Laplacian là lấy đạo hàm cấp hai Và Laplaciankhông loại bỏ các cạnh theo bat kỳ hướng cụ thể nào mà nó loại bỏ các cạnh theo

cạnh bên trong hoặc cạnh bên ngoài.

Trong Laplacian, ta chia thành hai loại, một là toán tử Positive Laplacian và

toán tử Negative Laplacian Toán tử Positive Laplacian được sử dụng để loại bỏ các

cạnh bên ngoài, còn Negative Laplacian để loại bỏ cạnh bên trong của hình ảnh.

0 10 010 Gouward= |1 —4 1] ®A and Ginwara= |1 4 1| @A (3.5)

0 1 0 010

Hình 3.6: Minh hoa toán tử cạnh LaplaciarlT]

3.3 Feature Engineering và Support Vector Machines

3.3.1 Feature Engineering

Ky thuật đặc trưng (Feature Engineering) là qua trình xác định đặc trưng nao có

thể hữu ích trong việc huấn luyện mô hình và sau đó chuyển dữ liệu thô thành các

đặc trưng đã xác định Mục đích của kỹ thuật đặc trưng là chuẩn bị một tập dữ liệu

đầu vào phù hợp nhất với thuật toán học máy cũng như để nâng cao hiệu suất của

Trang 27

Feature Engineering

Hình 3.7: VỊ trí của Feature Engineering trong quy trình học máy| |

* Tạo đặc trưng (Feature Creation): Tạo các đặc trưng liên quan đến các biến

mới sẽ hữu ích trong mô hình dự đoán Đây là một quá trình chủ quan cần

có sự can thiệp và sáng tạo của con người Các tính năng hiện có được trộn

thông qua cộng, trừ, nhân và tỷ lệ để tạo các tính năng dẫn xuất mới có khảnăng dự đoán tốt hơn

* Biến đổi đặc trưng (Feature Tranformation): Chuyển đổi liên quan đến việc

thao thác các biến dự đoán để cải thiện hiệu suất của mô hình; vi dụ, dambảo mô hình linh hoạt trong nhiều loại dữ liệu; đảm bảo các biến có cùng tỷ

lệ, làm cho mô hình dễ hiểu hơn; cải thiện độ chính xác; và tránh các lỗi tính

toán bằng cách đảm bảo tất cả các tính năng nằm trong phạm vi chấp nhận

được đối với mô hình

« Trích xuất đặc trưng (Feature Extraction): là tự động tao các biến mới bằng

cách trích xuất chúng từ dif liệu thô Mục đích của bước này là tự động giảm

khối lượng dữ liệu thành một tập hợp dễ quản lý hơn cho mô hình.

* Lựa chọn đặc trưng (Feature Selection): là phân tích, đánh giá và xếp hạng

các đặc trưng để xác định đặc trưng nào không liên quan, dư thừa và nên loại

bỏ, cũng như tính năng nào hữu ích nhất cho mô hình và nên được ưu tiên

Kỹ thuật đặc trưng là một bước rất quan trọng trong học máy Nó đề cập đếnquá trình thiết kế các đặc trưng nhân tạo Các đặc trưng nhân tạo này được thuậttoán sử dụng để cải thiện hiệu suất, hay nói cách khác là thu được kết quả tốt hơn.Các nhà khoa học dữ liệu dành phần lớn thời gian của họ với dữ liệu và điều quan

trọng là làm cho các mô hình trở nên chính xác hơn.

3.3.2 Support Vector Machines

Support Vector Machine (SVM) là một thuật toán hoc máy có giám sat được sử

dụng cho cả phân loại và hồi quy Tuy nhiên, nó chủ yếu được sử dụng cho các bài

18

Trang 28

toán phân loại Mục tiêu của thuật toán SVM là tìm một siêu phẳng (hyperplane)

trong không gian N chiều phân loại rõ ràng các điểm dữ liệu

Hình 3.8: Anh minh họa về việc phân lớp của svMỊ"

Siêu phẳng là ranh giới tốt nhất giúp phân loại các điểm dữ liệu Kích thước củasiêu phẳng phụ thuộc vào số lượng các đặc trưng Nếu số lượng các đặc trưng đầuvào là hai, thì siêu phẳng chỉ là một dòng Nếu số lượng các tính năng đầu vào là

ba, thì siêu phẳng sẽ trở thành mặt phẳng 2 chiều Nó trở nên khó tưởng tượng khi

số lượng tính năng vượt quá ba

Support Vector là các điểm dữ liệu hoặc vectơ gần siêu phẳng nhất và ảnh hưởng

đến vị trí của siêu phẳng.

SVM có thể được chia thành 2 loại:

* SVM tuyến tính: được sử dụng cho dữ liệu tuyến tính, có nghĩa là nếu một

tập dữ liệu có thể được phân loại thành hai lớp bằng cách sử dụng một đườngthang duy nhất, thì dữ liệu đó được gọi là dit liệu tuyến tinh và bộ phân loại

sử dụng được gọi là bộ phân loại SVM tuyến tính.

* SVM phi tuyến: được sử dụng cho dif liệu phi tuyến tính, có nghĩa là néu một

tập dữ liệu không thể được phân loại bằng cách sử dụng một đường thẳng, thì

dữ liệu đó được gọi là dữ liệu phi tuyến tính và bộ phân loại sử dụng được gọi

là bộ phân loại SVM phi tuyến tính.

3.4 Convolutional Neural Networks (CNN)

Mặc dù mang tích chập (Convolutional Neural Networks - CNN) lần đầu tiênđược dé xuất cách đây hơn hai thập kỷ [16], nhưng chúng chỉ mới trở thành côngnghệ tiên tiến nhất cho nhiều nhiệm vụ thị giác máy tính gần đây, do sự tiến bộ

!“https:/www.javatpoint.com/machine-learning-support-vector-machine-algorithm

19

Trang 29

(a) Linear SVM (b) Non-linear SVM

Hình 3.9: Linear va Non-linear SVM)

trong công nghệ điện toán, chang han như sự ra đời của card đồ họa cho tính toán

và lượng dữ liệu khổng lồ để đào tạo CNN học hệ thống phân cấp của các bộ lọckhác nhau được áp dụng cho hình ảnh đầu vào, CNN trích xuất các thông tin hữuích của ảnh dựa vào các bộ lọc Các bộ lọc ở lớp cao có xu hướng trích xuất cácthông tin đặc điểm trừu tượng, bộ lọc ở lớp thấp trích xuất các thông tin đơn giản

hơn như là cạnh, hình dang, CNN sé cho phép bạn xây dung các hệ thống thông

minh với độ chính xác vô cùng cao CNN bao gồm tập hợp các lớp cơ bản bao gồm:

convolution layer + nonlinear layer, pooling layer, fully connected layer.

can TRUCK

FEATURE LEARNING CLASSIFICATION

Hình 3.10: Kiến trúc cơ ban của CNN trong nhiệm vu phân loa{'”]

3.4.1 Các thành phan cơ bản của CNN

3.4.1.1 Convolutional Layer

Convolutional layer là lớp đầu tiên va cũng là quan trọng nhất của mô hình

CNN Lớp này có chức năng chính là phát hiện đặc trưng cụ thể của bức ảnh.

Những đặc trưng này bao gồm đặc trưng cơ bản là góc, cạnh, màu sắc, hoặc đặc

trưng phức tạp hơn như texture của ảnh.

'Shttps://viblo.asia/p/deep-learning-tim-hieu-ve-mang-tich-chap-cnn-maGK73bOKj2

'Ohttps://insightsimaging.springeropen.com/articles/10.1007/s13244-018-0639-9

20

Trang 30

là vô nghĩa ReLU là hàm kích hoạt phổ biến nhất Trước khi hàm ReLU được áp

dụng thì những hàm như sigmoid hay tanh mới là những hàm được sử dụng phổ

Trang 31

3.4.1.3 Pooling Layer

Pooling layer thường được dùng giữa các convolutional layer, để giảm kích thước dif liệu nhưng vẫn giữ được các thuộc tính quan trọng Kích thước dữ liệu

giảm giúp giảm việc tính toán trong mô hình Các pooling có thể có nhiều như:

Max pooling, Average pooling, Sum pooling.

Max Pool

——>

Filter - (2 x 2) Stride - (2, 2)

Hình 3.13: Mô phỏng phép tính của Pooling layer với Max Pooling]

3.4.1.4 Fully Connected Layer

Sau khi anh được truyền qua nhiều convolutional layer va pooling layer thi môhình đã học được tương đối các đặc điểm của anh, đầu ra của lớp cuối cùng sẽ đượcđưa về dạng vector và đưa vào một lớp được kết nối như một mạng nơ-ron VớiFully connected layer kết hợp các đặc trưng lại với nhau để tạo ra một mô hình.Cuối cùng sử dụng softmax hoặc sigmoid để phân loại đầu ra

3.5 RGB Salient Object Detection

3.5.1 Dinh nghĩa

RBG Salient Object Detection nhằm mục đích phát hiện các đối tượng hoặc

khu vực nổi bật hơn so với các khu vực khác trên hình ảnh RGB.

» Đầu vào: một hình ảnh RGB

« Đầu ra: hình ảnh với đối tượng nổi bật tương ứng với ảnh đầu vào (Hình|3 I5)

3.5.2 Kiến trúc TRACER

TRACER là một trong những mô hình hiện đại nhất, nó hiện đang dẫn đầu

điểm số trên nhiều bộ dữ liệu chuẩn TRACER sử dụng EfficientNet để trích

Trang 32

Hinh 3.14: Fully connected layer]

xuất đặc trưng và kết hợp 7 block của mang thành 4 block, nó có ba mô dun chính

đó là Masked edge attention, Union attention, Object attention.

* Masked edge attention: trích xuất một ranh giới rõ ràng bang cách sử dung

Fast Fourier Transform và tăng cường ranh giới đầu ra của bộ mã hóa đầu

tiên.

* Union attention: dùng để tích hợp các đặc trưng đa cấp và phát hiện thông tin

ngữ cảnh quan trọng từ cả kênh và không gian.

* Object attention: để giảm bớt sự khác biệt về phân phối giữa các biểu diễn

của bộ mã hóa và bộ giải mã bằng cách sử dụng tham số tối thiểu

23

Ngày đăng: 02/10/2024, 08:38

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN