1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Khảo sát và nghiên cứu tính khả thi của hướng tiếp cận học tăng cường trong giải quyết các tác vụ thị giác máy tính

86 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khảo sát và nghiên cứu tính khả thi của hướng tiếp cận học tăng cường trong giải quyết các tác vụ thị giác máy tính
Tác giả Thai Tran Khanh Nguyen, Nguyen Pham Vinh Nguyen
Người hướng dẫn TS. Le Minh Hung
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 86
Dung lượng 54,25 MB

Nội dung

Đánh giá chung: Đề tài khảo sát và nghiên cứu được tính khả thi của các phương pháp Học tăng cường trong việc giải quyết một số tác vụ Thị giác máy tính.. Minh hoa muc tiéu dé tai Trong

Trang 1

DAI HỌC QUOC GIA TP HO CHÍ MINH

TRUGNG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC MAY TINH

THAI TRAN KHANH NGUYEN

NGUYEN PHAM VINH NGUYEN

KHOA LUAN TOT NGHIEP

CỬ NHÂN NGÀNH KHOA HỌC MAY TÍNH

TP HỒ CHÍ MINH, 2022

Trang 2

DAI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC MAY TINH

THAI TRAN KHANH NGUYEN - 19520188 NGUYEN PHAM VINH NGUYEN - 19520186

KHOA LUAN TOT NGHIEP

KHAO SAT VA NGHIEN CUU TINH KHA

THI THEO HƯỚNG TIẾP CAN HOC TANG

CƯỜNG TRONG GIẢI QUYET CAC TAC VU

THI GIAC MAY TINH

CU NHAN NGANH KHOA HOC MAY TINH

GIANG VIEN HUGNG DAN

TS LE MINH HUNG

TP HO CHi MINH, 2022

Trang 3

DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

154/QD-ĐHCNTTT ngày 01/03/2023 của Hiệu trưởng Trường Đại học Công nghệ Thông

tin.

1 TS Mai Tiến Dũng - Chủ tịch.

2 ThS Cáp Pham Đình 'Thăng - Thư ký.

3 TS Nguyễn Vinh Tiệp - Ủy viên.

Trang 4

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC

^ ^ = Độc Lập - Tự Do - Hanh Phúc

CÔNG NGHE THONG TIN

TP HCM, ngay thang nam

NHAN XET KHOA LUAN TOT NGHIEP

(CUA CAN BO HUGNG DAN)

Tén khóa luận:

KHAO SÁT VÀ NGHIÊN CỨU TÍNH KHẢ THI THEO HƯỚNG

TIẾP CẬN HỌC TĂNG CƯỜNG TRONG GIẢI QUYẾT CÁC

Đánh giá Khóa luận:

1 Về cuõn báo cáo:

Số trang: G7 Số chương: 5

Số bảng số liệu: 6 Số hình vẽ: 32

Số tài liệu tham khảo: 27

Một số nhận xét về hình thức cuốn báo cáo:

Báo cáo đầy đủ nội dung và hình thức trình bày tốt

Trang 5

2 Về nội dung nghiên cứu:

Khảo sát và nghiên cứu về tính khả thi theo hướng tiếp cận học Tăng cường

trong giải quyết các tác vụ Thị Giác máy tính

3 Về thái độ làm việc của sinh viên:

Lên kế hoạch và hoàn thành công việc tốt và đúng hạn Sinh viên có ý thức và

nỗ lực để hoàn thành đề tài Khả năng làm việc nhóm tốt

Đánh giá chung:

Đề tài khảo sát và nghiên cứu được tính khả thi của các phương pháp Học

tăng cường trong việc giải quyết một số tác vụ Thị giác máy tính Sinh viên đãhoàn thành tốt nội dung đề tài luận văn

Điểm từng sinh viên:

Thái Trần Khánh Nguyên: 9.5/10

Nguyễn Phạm Vĩnh Nguyên: 9.5/10

Người nhận xét

(Ký và ghi rõ họ tên)

Trang 6

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC

^ ^ ^ Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHE THONG TIN l

TP HCM, ngay thang năm

NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP

(CỦA CÁN BỘ PHẢN BIỆN)

'Tên khóa luận:

KHẢO SÁT VÀ NGHIÊN CỨU TÍNH KHẢ THI THEO HƯỚNG

TIEP CAN HOC TANG CƯỜNG TRONG GIẢI QUYET CÁC

TAC VU THI GIAC MAY TINH

Đánh giá Khóa luận:

1 Về cuõn báo cáo:

Số trang: 67 Số chương: 5

Số bảng số liệu: 6 Số hình vẽ: 32

Số tài liệu tham khảo: 27

Một số nhận xét về hình thức cuốn báo cáo:

Trang 7

3 Ve thái độ làm việc của sinh viên:

Điểm từng sinh viên:

Thái Trần Khánh Nguyên: /10

Nguyễn Pham Vĩnh Nguyên: /10

Người nhận xét

(Ký và ghi rõ họ tên)

Trang 8

LỜI CẢM ƠN

Lời đầu tiên, chúng em xin chân thành cảm ơn đội ngũ cán bộ, giáo viên,

công nhân viên trường Dại học Công nghệ thông tin Đặc biệt là thầy Lê Minh

Hưng đã cung cấp cho chúng em nhiều kiến thức và những bài học quý báu để

tạo điều kiện cho chúng em thực hiện khóa luận này Bên cạnh đó, chúng emcảm ơn anh Ths Trần Văn San đã hỗ trợ chúng em trong quá trình thực hiện

khóa luận này.

Ngoài những kiến thức, kỹ năng đã tích góp được từ trước đến nay, chúng

em cũng đã cô gắng tìm hiểu thêm những kiến thức mới để hoàn thành khóa

luận này Trong quá trình thực hiện nếu có sai sót, mong thầy cô và các bạn góp

ý để chúng em có thể kịp thời sửa chữa, bổ sung Và đó cũng là hành trang để

giúp chúng em tự tin vào công việc sau này.

Xin chân thành cam on!

Thái Trần Khánh Nguyên - Nguyễn Phạm Vĩnh Nguyên

Trang 9

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC

^ ^ ^ Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHE THONG TIN l

DE CƯƠNG CHI TIẾT

TEN DE TÀI: KHAO SÁT VA NGHIÊN CUU TÍNH KHẢ THI

THEO HƯỚNG TIEP CAN HOC TANG CƯỜNG TRONG GIẢI QUYET CAC TAC VU THI GIAC MAY TINH

TEN DE TAI TIENG ANH: A SURVEY AND RESEARCH ON

THE FEASIBILITY OF THE REINFORCEMENT LEARNING APPROACH FOR SOLVING COMPUTER VISION TASKS

Ngôn ngữ thực hiện: Tiếng Việt / Tiếng Anh

Cán bộ hướng dẫn: TS Lê Minh Hưng

Thời gian thực hiện: Từ ngày 05/09/2022 đến ngày 25/12/2022

Sinh viên thực hiện:

- Thái Trần Khánh Nguyên - 19520188 Lớp: KHCL.2019.1

- Nguyễn Phạm Vĩnh Nguyên - 19520186 Lớp: KHCL.2019.1

Nội dung đề tài:

- Tổng quan về đề tài: Học tăng cường (Reinforcement Learning) là mộttrong những hướng tiếp cận của học máy (Machine Learning) bằng cách huấn

luyện các tác nhân (Agent) trong một môi trường (Environment) với việc thử

và sai để đưa ra những quyết định nào nhằm tối ưu hàm mục tiêu (Reward) Học tăng cường được ứng dụng để giải quyết các van đề phức tap trong cuộc

sống như tự động hóa, xử lý trò chơi, các hệ thống gợi ý và đề xuat, Tuy nhiên trong những năm gần đây, đã có nhiều nghiên cứu dựa trên hướng

tiếp cận này trong những lĩnh vực khác trong lĩnh vực khoa học máy tính cụ

thể là thị giác máy tính Những hướng tiếp cận mới này đem đến những góc

nhìn mới trong việc giải quyết những vấn đề thay cho những hướng tiếp cậntruyền thống Chính vì thế, trong khóa luận này chúng tôi mong muốn tìm

hiểu thêm về học tăng cường, khảo sát và tổng hợp các hướng tiếp cận khác

nhau dựa trên học tăng cường cho một số tác vụ cơ bản trong thị giác máy

tính So sánh ưu và nhược điểm của các phương pháp đó so với những phương

pháp phổ biến hiện nay dựa trên mạng tích chập (CNNs) hay máy biến đổi

(Transformer).

Trang 10

- Mục tiêu:

e Nghiên cứu về các kỹ thuật học tăng cường.

e Khảo sát, tổng hợp và nghiên cứu về các hướng tiếp cận khác nhau dựa

trên học tăng cường cho các tác vụ thị giác máy tính.

e So sánh với các hướng tiếp cận hiện nay dựa trên mạng tích chập và máy

biến đổi

e Dưa ra được kết luận về ưu và nhược điểm của các phương pháp dựa trên

học tăng cường.

e Thực nghiệm trên nhiều bộ dữ liệu khác nhau và tiến hành phân tích

đánh giá các phương pháp dựa trên học tăng cường.

- Phạm vi thực hiện:

e Số lượng tác vụ thực hiện: 2 tác vụ cơ bản trong thị giác máy tính:

1 Phân loại anh (Image Classification)

2 Phát hiện đối tượng (Object Detection)

e Số lượng bộ dữ liệu cho từng tác vụ: 3-5 bộ dữ liệu.

e Số lượng phương pháp thực nghiệm: 6 - 8 phương pháp khác nhau (< 4

phương phấp theo hướng học tăng cường).

- Cách thức thực hiện: Trong khóa luận này, chúng tôi sẽ thực hiện khảo

sát trên các tap chí và hội nghị khoa học (CVPR, WACV, ICCV, NIPS, IEEE,

) để tìm ra các bài báo phù hợp với đề tài chúng tôi đang theo đuổi Sau

đó chúng tôi sẽ triển khai lại các phương pháp được giới thiệu trong các bài

báo đó với những thực nghiệm khác nhau và tiến hành đo đạc độ hiệu quả củacác phương pháp dựa trên các tiêu chí như về độ chính xác, thời gian huấn

luyện mô hình, bộ nhớ cần để huấn luyện mô hình Để huấn luyện mô hình,

chúng tôi có kế hoạch sử dụng máy tính cá nhân, và google colab vì sự tiện

dụng và hiệu quả của chúng.

Trang 11

- Kết quả mong đợi:

e Tổng hợp các phương pháp khác nhau dựa trên hướng tiếp cận học tăng

cường cho các tác vụ thị giác máy tính mà chúng tôi đã đề cập

e Dánh giá những phương pháp mà chúng tôi đã khảo sát trên những bộ

đữ liệu khác nhau.

e So sánh kết quả với các phương pháp dựa trên mạng tích chập và máy

biến đổi từ đó rút ra kết luận.

2 Triển khai các phương pháp đã khảo sát được và các phương pháp

phổ biến hiện nay cho bài toán phân loại hình ảnh.

3 Thực nghiệm và đánh giá kết quả của hướng tiếp cận học tăng cường

cho bài toán phân loại ảnh.

e Giai đoạn 3 (11/2022):

1 Khảo sát các bài báo khoa học về bài toán phát hiện đối tượng theo

hướng học tăng cường.

2 Triển khai các phương pháp đã khảo sát được và các phương pháp

phổ biến hiện nay cho bài toán phát hiện đối tượng.

3 Thực nghiệm và đánh giá kết quả của hướng tiếp cận học tăng cường

cho bài toán phát hiện đối tượng

Trang 12

Phân công công việc:

Trang 13

2.2.3 Phân loại các phương pháp Hoc tăng cường| 11

2.3 Deep Reinforcement Learning (DRL) - Học tăng cường sâu| 13

23.1 Thuật toán ModelFreeDRLH|R 13 2.3.2 Thuật toán Model-Based DRL| 15

3 Bài toán Phân loại hình anh 17

3.1 Tổng quan về Phân loại hình ảnh| - 17

3.1.1 Giới thiệu baitoén} 02 0 0.2000 17

3.1.2 Hướng tiếp cận Họcsâu| 18

3.1.3 Hướng tiếp cận Hoc tăng cường 18

3.2 Deep Reinforcement Learning for Imbalanced Classiication| 20

Trang 14

3.2.1 Giới thiệu ee 20

3.2.2 Chỉ tiết kiến trúc| 21

3.2.3 Thực nghiệm| 0000 eee 26 3.3 Multi-Agent Image Classification via Reinforcement Learning| 30

3.3.1 Gidithieu) 6 2n nh xo 30 ee 31 3.3.3 Thucnghiém|) 00.0000 0 ee 37 4.1.1 Giới thiệu bài todn} 2 0 en Al 4.1.2 Hướng tiếp cận Hoc sau) 42

4.1.3 Hướng tiếp cận Hoc tăng cường| 43

4.2 Object Detection with Deep Reinforcement Learningl 44

, ` _.\ 44

¬— Ả4 / 45

Mem | fw 48

DS V Á 50

wY “—————— 50 4ã ee ee eee 51 Object Detectlon| 0200000000002 eee 56 4.41 Gidithi@u) 0.002.200.0000 0040, 56 4.4.2 hi tiết kiến trúc| 58

4.43 Thực nghiệm 2.0.00 20000005 61

4.5 Dánh giá hướng tiếp cận Học tăng cường 63

64

Trang 15

Danh sách hình vẽ

1.1.1 Minh họa mục tiêu đề tài 2

2.1.1 Kiến trúc mạng thần kinh nhân tạo đơn giản ĩ ¬¬— AI 9 2.2.2 Phan loại các thuật toán học tăng cường 13 2.3.1 Kiến trúc Deep Q Network |JØ|| - 14

3.1.1 Minh họa bài toán Phân loại hình ảnh |B| 17

` 1 19

3.2.1 Minh họa cấu trúc mô hình phương pháp| 21

3.2.4 Hình mình họa cho hai bộ dữ liệu 3.3.1 Ví dụ minh họa cách thực hiện của MultiAgent 3.3.2 Sơ đồ luồng thuật toán Multi-Agent 3.3.3 Quá trình dự đoán nhãn cho hình ảnh đầu vào| 37

3.3.4 Kết quả đánh giá mô hin) 2 37

3.3.5 Quá trình dự đoán nhãn cho hình ảnh đầu vào 38 4.1.1 Minh họa bài toán Phát hiện đối tượng 41 4.1.2 Minh hoa mô hình R.CNN| 43

4.1.3 Minh họa mô hình YOLO[E 43

4.2.1 Minh họa hành động của phương pháp phân lóp| 46

4.2.2 Minh họa hành động của phương pháp quy hoạch động 47 4.2.3 Kết quả thực nghiệm theo phương pháp phân lớp| 48

4.3.1 Minh họa Kiến trúc mạng huấn luyện của phương pháp 53

Trang 16

4.3.2 Kết quả thực nghiệm phương pháp Efficient Object Detection in

4.4.6 Kết quả thực nghiệm phương pháp drI-RPN| 62

Trang 17

Danh sách bảng

Trang 18

Danh mục các ký hiệu, chữ viết tắt

Ký hiệu, chữ viết tắt "Tên đầy đủ

RL Reinforcement Learning DRL Deep Reinforcement Learning

MDP Markov Decision Processes

MALR Multi-Agents Reinforcement Learning

imbDRL Imbalance Deep Reinforcement Learning

Trang 19

Tóm tắt

Ngày nay, phương pháp huấn luyện Reinforcement Learning (RL) - Học tăng

cường đã và đang đón nhận nhiều sự quan tâm cũng như ứng dụng nhiều hơn

trong các lĩnh vực thực tế như chăm sóc sức khỏe, nghiên cứu, robotics, Dac

biệt khi phương pháp này có thể sử dụng cùng với công nghệ Artificial

Intelli-gence (AT) - Trí tuệ nhân tao dang phát triển mạnh mẽ đã đóng góp phần không

nhỏ cho sự phát triển vượt bậc của Công nghệ Thông tin trong đời sống thường

ngày Đề tài này tập trung nghiên cứu và khảo sát về tính khả thi theo hướngtiếp cận Học tăng cường trong việc giải quyết một số tác vụ của lĩnh vực Thị

giác Máy tính.

Trong quá trình tìm hiểu và khảo sát đề tài, chúng tôi đã nghiên cứu cách xây dựng giải pháp để giải quyết một số tác vụ của Thị giác Máy tính theo phương

pháp Học tăng cường Từ những kiến thức đã được nghiên cứu chúng tôi đưa

ra kết luận về tính khả thi của phương pháp Học tăng cường, các ưu điểm và

nhược điểm của phương pháp này so với các phương pháp Học sâu cũng như những phát triển của phương pháp trong tương lai.

Trang 20

Chương 1

Tổng quan

1.1 Giới thiệu đề tài

Trong những năm gần đây, chúng ta đã chứng kiến sự phát triển vượt bậc của

lĩnh vực Công nghệ Thông tin nói chung và Khoa học Máy tính nói riêng Chúng

ta đã đón nhận thêm các mô hình Máy học mới mẻ, các kiến trúc mạng tântiến, các kỹ thuật cải tiến vượt trội để giúp cho các bài toán thực tế như: phân

loại hình ảnh, điều khiển xe tự hành, không còn bất khả thi Điều này đã góp

phần giúp cho Công nghệ Thông tin gần gũi hơn với con người, cuộc sống trởnên tiện nghi va đầy thú vị Một trong những tiến bộ của Công nghệ Thông tin

có thể kể đến chính là phương pháp huấn luyện Reinforcement Learning (RL)

-Học tăng cường.

Học tăng cường là một phương pháp đào tạo các mô hình Học máy (Machine

Learning) có thể đưa ra các hành động sau khi tương tác với môi trường huấn

luyện Bằng cách sử dụng khả năng tính toán của máy tính cùng với thực hiện

thử và sai, phương pháp này xây dựng và đưa ra cách thức để giải quyết các

vấn đề [19] Deep Reinforecement Learning (DRL) - Hoc tăng cường sâu chính

là phương pháp đào tạo kết hợp giữa phương pháp Học tăng cường thuần túy

và các phương pháp Deep Learning (DL) - Học sâu Với sự phát triển nhanh

chóng của công nghệ, phương pháp Học tăng cường sâu ngày càng nhận được sự

quan tâm, đặc biệt khi phương pháp này sở hữu các ưu điểm đặc biệt đã khiến

nó được ứng dụng nhiều hơn trong các ứng dụng thực tế như trò chơi điện tử,

robotics, xe tự hành, chăm sóc sức khỏe, xử lý ngôn ngữ tự nhiên và thị giác máy tính

Trang 21

So với các phương pháp tiếp cận hiện nay như phương pháp Học có giám

sát (Supervised Learning) và Học không giám sát (Unsupervised Learning), Hoc

tăng cường tập trung vào việc giải quyết các vần đề một cách tuần tự Với mục

đích tim ra giải pháp để giải quyết van dé, Hoc tăng cường không sử dung thông

tin có sẵn từ các tập dữ liệu cho trước, thay vào đó phương pháp nay thu thập

thông tin khi tương tác với môi trường huấn luyện kết hợp với việc xây dựngcác hàm giá trị và chính sách thích hợp nhằm hướng dẫn cũng như đánh giá

lại quá trình thu thập thông tin một cách hiệu quả Chính nhờ vào cách huấn

luyện này, các mô hình máy học giờ đây có thể đưa ra quyết định trong các tình

huống khác nhau, tìm ra giải pháp cho các van đề gặp phải Nhờ vào các ưu thé

này, Học tăng cường đã giúp cho việc mô phỏng các hoạt động của con người

trở nên dễ dàng hơn từ đó giúp cho việc ứng dụng công nghệ trong thực tế ngàycàng được phổ biến.

>a

Object detection (classification and localization)

Hinh 1.1.1 Minh hoa muc tiéu dé tai

Trong luận văn này, chúng tôi tập trung nghiên cứu và khảo sát các phương

pháp Học tăng cường trong việc giải quyết một số vấn đề của Thị giác Máy tính,

từ đó dựa trên các cơ sở lý thuyết và kết quả thực nghiệm đã được triển khai,

chúng tôi đưa ra kết luận về tính khả thi theo hướng tiếp cận này trong một sốtác vụ của Thị giác Máy tính như Phân loại Hình ảnh, Nhận diện đối tượng

2

Trang 22

1.2 Mô tả đề tài

Các phương pháp giải quyết bài toán thực tế trong đời sống thuộc lĩnh vựcKhoa học Máy tính, đặc biệt là Thị giác Máy tính đều được xây dựng dựa trêncác tác vụ cơ bản như Phân loại hình ảnh, Phát hiện đối tượng Trong luậnvăn này, chúng tôi sẽ trình bày chi tiết cách xây dựng giải pháp bằng các cơ sở

lý thuyết và kết quả thực nghiệm để giải quyết các tác vụ này theo hướng tiếp

cận Học tăng cường từ những công trình thuộc tạp chí và hội nghị khoa học

đã được chúng tôi khảo sát và nghiên cứu Từ đó, chúng tôi đưa ra kết luận về

tính khả thi của phương pháp Học tăng cường, các ưu điểm và nhược điểm của

phương pháp này so với các phương pháp Học sâu cũng như các hướng phát

triển trong tương lai.

1.3 Phạm vi và mục tiêu của đề tài

1.3.1 Phạm vi dé tài

Trong lĩnh vực Khoa học máy tính nói chung va Thi giác máy tinh nói riêng

có rất nhiều bài toán khác nhau, tuy nhiên trong khóa luận lần này chúng tôi

sẽ tập trung khảo sát các bác vụ cơ bản trong thi giác máy tinh:

1 Phân loại anh (Image Classification)

2 Phát hiện đối tượng (Object Detection)

Dựa trên thời gian và kế hoạch thực hiện khóa luận chúng tôi sẽ nghiên cứu

và tiến hành thực nghiệm trên 6-8 phương pháp khác nhau cho hai tác vụ trên

và sử dụng 3-5 bộ dữ liệu cho quá trình đánh giá kết quả của các phương pháp

1.3.2 Mục tiêu đề tài

Mục tiêu trong khóa luận này:

e Nghiên cứu về các kỹ thuật học tăng cường.

e Khảo sát, tổng hợp và nghiên cứu về các hướng tiếp cận khác nhau dựa

trên học tăng cường cho các tác vụ thị giác máy tính.

Trang 23

e So sánh với các hướng tiếp cận hiện nay dựa trên mạng tích chập và máy

biến đổi.

e Dưa ra được kết luận về ưu và nhược điểm của các phương pháp dựa trên

học tăng cường.

e Thực nghiệm trên nhiều bộ dữ liệu khác nhau và tiến hành phân tích đánh

giá các phương pháp dựa trên học tăng cường.

1.4 Thách thức của đề tài

Một số thách thức của đề tài:

e Giải pháp theo hướng tiếp cận Học tăng cường chưa mang tính tổng quát

khi giải quyết các tác vụ của Thị giác Máy tính

e Nhiều công trình nghiên cứu được đăng tải trên các hội nghị tuy nhiên mã

nguồn để triển khai các công trình đó chưa được công bố rộng rãi để nghiên

cứu và thực hiện đánh giá.

1.5 Đống gop cua dé tài

Một số đóng góp của khóa luận:

e Trình bày chỉ tiết cách xây dựng giải pháp để giải quyết một số tác vụ của

Thị giác Máy tính theo hướng tiếp cận Học tăng cường.

e Trình bày các ưu điểm và nhược điểm của hướng tiếp cận Học tăng cường

so với các hướng tiếp cận Học sâu khi giải quyết một số tác vụ của Thị giác

Máy tính.

e Dưa ra kết luận về tính khả thi và các hướng phát triển trong tương lai của

phương pháp Học tăng cường khi giải quyết một số tác vụ Thị giác Máy

tính.

Trang 24

1.6 Cau trúc luận văn

Khóa luận có bố cục bao gồm 5 chương:

e Chương 1 — Tổng quan: Giới thiệu tổng quan về đề tài, mục tiêu của đề

tài và các đóng góp chính của luận văn.

e Chương 2 — Các công trình liên quan: Trình bày các kiến thức nền

tảng và hướng tiếp cận đề tài

e Chương 3 - Tác vụ Phân loại hình ảnh: Mô tả chi tiết về hướng tiếp

cận Học tăng cường trong việc giải quyết tác vụ Phân loại hình ảnh và các

thực nghiệm đã triển khai.

e Chương 4 — Tác vụ Phát hiện đối tượng: Mô tả chi tiết về hướng tiếp

cận Học tăng cường trong việc giải quyết tác vụ Phát hiện đối tượng và các

thực nghiệm đã triển khai.

e Chương 5 — Kết luận: Trinh bày tính khả thi của hướng tiếp cận trong

việc giải quyết một số vấn đề của Thị giác Máy tính và hướng phát triển

trong tương lai.

Trang 25

Chương 2

Các công trình liên quan

2.1 Deep Learning (DL) - Hoc sâu

Deep Learning (DL) - Hoc sâu là một tập hợp con của Machine Learning (ML) - Hoc máy [24] Day là một tap hợp các phương pháp Học máy có mô hình

kiến trúc phức tạp hơn so với các kiến trúc Học máy thông thường Điều nàycho phép các phương pháp theo hướng tiếp cận Học sâu có thể giải quyết cácbài toán với độ phức tạp cao hơn, tính thực tế nhiều hơn so với những phươngpháp Học máy truyền thống

Để có thể giải quyết các bài toán với độ phức tap và tính thực tế cao, những

phương pháp dựa trên Học sâu đều được xây dựng theo kiến trúc Neural

Net-work - mạng nơ-ron nhằm mô phỏng lại cách hoạt động của bộ não con người.

Dựa trên cách xây dựng kiến trúc này, hướng tiếp cận Học sâu đã có thể mô

phỏng lại các hành động thực tế của con người, từ đó giúp cho các bài toán thực

tế có thể được máy tính giải quyết.

Kiến trúc mạng nơ-ron bao gồm lớp đầu vào (input layer) gồm các nơ-ron thể hiện giá trị đầu vào, nhiều lớp ẩn (hidden layer) mỗi lớp gồm các nơ-ron thực

hiện các thao tác tính toán và cuối cùng là lớp đầu ra (output layer) gồm các

nơ-ron thể hiện kết quả đầu ra (Hình {2.1.1) Mỗi nơ-ron trong các lớp ẩn là một

hàm toán học lay dữ liệu thong qua lớp đầu vào, sau quá trình thực hiện tínhtoán và kết hợp nhưng hàm kích hoạt như sigmoid, softmax, ReLU, các nơ-ron

ở lớp ẩn sẽ xử lý và đưa kết quả tới các nơ-ron đầu ra Với mục tiêu nhằm giải

quyết các bài toán phức tạp, các phương pháp dựa trên Học sâu sẽ xây dựng

Trang 26

Input Layer Hidden Layer #1 | | Hidden Layer #2 Output Layer

Hình 2.1.1 Kiến trúc mang thần kinh nhân tao đơn giản

kiến trúc mạng nơ-ron với số lượng lớp ẩn dày hơn, các liên kết giữa các nơ-ron

với nhau cũng được thiết kế chỉ tiết, tỉ mỉ hơn so với phương pháp Học máy

nhằm giúp cho quá trình trích xuất đặc trưng, tính toán để có thể biểu diễn các

bài toán phức tạp cho máy tính xử lý hiệu quả hơn.

Một kiến trúc mạng nơ-ron Học sâu được sử dụng phổ biến trong lĩnh vực Thị

giác Máy tính chính là Convolutional Neural Network (CNNs) - Mạng nơ-ron

tích chập Mô hình mạng tích chập chính là một kiến trúc mạng Học sâu tiêntiến đã góp phần không nhỏ trong việc xây dựng các hệ thống thông minh với độ

chính xác cao như hiện nay Bằng cách xây dựng lớp an bao gồm các lớp

Convol-untional - tích chập xếp chồng lên nhau kết hợp với các hàm kích hoạt được sử

dụng tại mỗi lớp tích chập nhằm giúp các tham số trong kiến trúc mạng có khả

năng tự điều chỉnh trong quá trình huấn luyện giúp trích xuất ra các đặc trưngchỉ tiết của bức ảnh một cách hiệu quả, từ đó gia tăng được độ chính xác của môhình Chính nhờ những thiết kế đặc trưng này đã giúp cho Mạng nơ-rơn tích chập

được sử dụng phổ biến và đã đạt nhiều thành tựu vượt trội trong các bài toán

xử lý ảnh như Phân loại hình ảnh, Phát hiện đối tượng, Mô phỏng hành dong,

Trang 27

2.2 Reinforcement Learning (RL) - Học tăng

cường

Học tăng cường (Reinforcement Learning - RL) là một kỹ thuật học máy

nhằm huấn luyện các tác nhân (agent) thực hiện một chuỗi các hành động tác

động lên môi trường (enviroment) để tối đa hóa phần thưởng đạt được thông quaviệc thử và sai [19] Khác với việc tổng quát hóa dựa trên những dữ liệu được

cung cấp từ tập huấn luyện (training-set) như các phương pháp học có giámsát (supervised learning) hiện nay, các agents không được chỉ ra rằng nên thựchiện hành động nào trong những trường hợp khác nhau mà cần phải được tự

khám phá ra trong quá trình huấn luyện Học tăng cường cũng khác với những

phương pháp hoc không giám sát (unsupervised learning) ở chỗ thay vì tìm các

kiến trúc ẩn có trong bộ dữ liệu chưa được gán nhãn thì các phương pháp Học tăng cường sẽ cố gắng khai thác những gì mà nó đã được huấn luyện để tối đa hóa phần thường nhận được Có thể nói Học tăng cường là một nhánh độc lập

trong các hướng tiếp cận học máy ngoài học có giám sát và học không giám sát.

Với việc học bằng cách tương tác với môi trường thì đây được cho là phươngpháp học mô phỏng lại sự học tập của con người một cách tự nhiên nhất Ví

dụ khi chúng ta học đi xe đạp, ta có thể hoàn toàn nhận thức được cách môi

trường phản ứng với những hành động của chúng ta, từ việc đạp sao cho xe có

thể di chuyển, đến việc né các vật cản xuất hiện trên đường Học từ sự tương

tác là một khái niệm cơ bản làm nền tảng cho hầu hết các lý thuyết học tập và

là nền tảng của Hoc tăng cường [23]

Đối với một bài toán về Học tăng cường, có hai thành phần thiết yếu cần

phải định nghĩa rõ rang là tác nhân (Agent) và môi trường (Enviroment) Agent

là được xem là một mô hình có nhiệm vụ quan sát môi trường và dựa vào trạng

thái và phần thưởng trả về để đưa ra quyết định thực hiện các hành động nhất

định Môi trường là không gian xung quanh của Agent, nơi mà Agent tồn tại

và tương tác với môi trường [26] Hai thành phần cốt lõi này tương tác liên tụctheo cách mà tác nhân cố gắng tác động đến môi trường thong qua các hànhđộng (hay quyết định) và môi trường phản ứng lại với các hành động của tác

nhân.

Trong Hình miêu tả các đặc tính của Học tăng cường Chu kỳ này bắt

Trang 28

(4) transition ‡

action

Hình 2.2.1 Chu ky của Học tăng cường [23]

đầu với việc các Agent quan sát môi trường và nhận về một trạng thái và phầnthường từ môi trường (Bước 1) Sau đó, Agent sẽ dựa vào trạng thái và phần

thường này để quyết định hành động tiếp theo sẽ được thực hiện (Bước 2).

Kế đến, Agent sẽ gửi tín hiệu hành động đến môi trường (Bước 3) Cuối cùng,

môi trường chịu tác động bởi Agent sẽ thực hiện việc chuyển đổi trạng thái và

trạng thái mới này là hệ quả của trạng thái và hành động trước đó từ Agent

(Bước 4) Chu trình này sẽ lặp đi lặp lại cho đến trạng thái kết thúc (terminate)

2.2.1 Markov Decision Processes (MDPs) - Quá trình

quyết định Markov

Quá trình quyết định Markov (Markov Decision Processes - MDPs) giúp

chúng ta mô phỏng các van đề của Hoc tăng cường bằng việc cung cấp một

nền tảng toán học để mô hình hóa việc đưa ra quyết định tại các trạng thái khác nhau mà kết quả là một phần ngẫu nhiên và một phần dưới sự điều khiển của một người ra quyết định Để đưa một bài toán nào đó về MDP thì đầu

tiên các trạng thái trong bài toán đó phải thỏa mãn tính chất Markov (Markov

Property): các trạng thái trong tương lai chỉ phụ thuộc vào trạng thái hiện tại

mà không phụ thuộc vào các trạng thái trong quá khứ [4] Bởi tính chất này ma

quá trình Markov thường được gọi là quá trình không nhớ.

Một MDP thường được xác định bởi 5 thành phan cơ bản sau [I9]:

e Tập trạng thái (State) S: tập các trạng thái hoặc không gian quan sát của

môi trường, so là trạng thái bắt đầu.

Trang 29

e Tập hành dong (Action) A: là tập chứa các hành động ma Agent có thể lựa

chọn thực hiện trong môi trường.

e Hàm chuyển đổi trạng thái (Transition) 7: hàm xác suất chuyển đổi T(s¿+1|s¿, a2),

cu thể là xác suất chuyển từ trạng thái s; 6 9 sang trạng thái s¿¿¡ € S ứng

với hành động a € A trong môi trường.

e Hàm phần thưởng (Reward Function) R: hàm phần thưởng trong đó r¡_¡ =

R(s¿, 8441) là phần thưởng nhận được khi thực hiện hành động a; của Agenttại một trạng thái s; sang trạng thái tiếp theo s;¿+1

e Hệ số chiết khấu +: giúp cho hàm phần thưởng có thể hội tụ và cũng thể

hiện mức độ quan tâm của Agent tới phần thưởng, ở đây + € [0,1]

Xét MDP (5,.A4,+,7, R), Agent chọn một hành động a; theo chính sách (Policy)

(|s¿) tại trạng thái s; Đặc biệt hơn, thuật toán của Agent để chọn một hành

động a ở trạng thái hiện tại s, nói chung có thể được xem như là phân phối

(a|s), được gọi là Policy (Strategy-chién lược) Môi trường nhận hành động ø¡,

tạo ra phần thưởng r;¡¡ và chuyển sang trạng thái kế tiếp s¿¿¡ theo xác suất

chuyển tiếp 7{s¿.¡|s¿,ø;) Quá trình tiếp tục cho đến khi Agent đạt đến trạng

thái cuối hoặc bước thời gian tối đa Trong RL, một bộ (s¿, ø;,7¿+1, s¿+1) được

gọi là một bộ chuyển đổi (Transition) Một day đầy đủ (so, ao,r1, s1, đ1, ra, )

được gọi là một quỹ đạo (Trajectory) Một Trajectory có độ dài hữu hạn 7 nào

đó được gọi là một tap (Episode) Cho một MDP va một Policy 7, xác suất

của quan sát (sọ, @0, 11, S1, đ1,7a, ) được gọi là phân phối quỹ đạo (Tracjectory

Distribution) và được xác định như sau:

Tx = | [ r(ailsi)T (serilse, ae) (2.2.1)

t

Mục tiêu của RL là tìm chính sách tối ưu z cho Agent để tối đa hóa phần

thưởng tích lũy, được gọi là lợi nhuận (Return) Đối với mỗi Episode, Return

được xác định như sau:

Trang 30

(Expected Reward) có thể được viết như sau:

Do đó, với MDP và chính sách z, phần thưởng kỳ vọng chiết khấu (Discounted

Expected Reward) được xác định:

T-1

G(r) =Eq, So yrist (2.2.4)

t=0

Mục tiêu của RL là tìm một chính sách tối ưu z*, giúp tối da Discounted

Expected Reward, nghĩa là G(7) —> max.

2.2.2 Hàm V-Value va Q-Function

Hàm V-Value được dùng để đánh giá một chính sách z tại trang thái s có

hiệu quả hay không, được xác định như sau:

V*(s) = Elr.+i + V7 (se41)] (2.2.5)

Hàm Q-Function được dùng để xác định giá trị của hành động a; ở trạng thai

s¿ theo chính sách z, được xác định như sau:

(Q“(s¿, at) = es T(st41|8t, ae) [R(Se, 5141) + YV" (Se41)] (2.2.6)

St+1

2.2.3 Phân loại các phương pháp Hoc tăng cường

Hiện nay có rất nhiều công trình nghiên cứu về học tăng cường, chính vì thếtrong quá trình khảo sát và tổng hợp các phương pháp học tăng cường cần phân

loại các thuật toán đó để thuận tiện hơn cho việc so sánh các phương pháp với nhau Các thuật toán Học tăng cường dựa trên MDP có thể được phân loại làm

hai hướng tiếp cận là Model-Based (dựa trên mô hình) và Model-Free (không

mô hình) [25] Trong lĩnh vực học máy, "mô hình"được định nghĩa là một hàm

đặc biệt với các tham số được khởi tạo (Pretrain-Model) ví dụ như một mạng

thần kinh nhân tạo Tuy nhiên, trong Học tăng cường "mô hình"định nghĩa là

những kiến thức đã học được từ môi trường bao gồm hàm chuyển đổi trạng thái

11

Trang 31

P và hàm phần thưởng R [4].

Model-Based là hướng tiếp cận dựa trên việc sử dụng các mô hình đã được

học để dự đoán các hành động trong tương lai Bao gồm các kỹ thuật sau:

e Value Function: mục têu của các phương pháp để xây dựng chính sách tốt

nhất bằng cách tối đa hóa các hàm giá trị trong mỗi trạng thái

e Transition Models: các mô hình chuyển đổi sẽ quyết định việc ánh xạ từ

trạng thái hiện tại tới hành động để cho ra trạng thái tiếp theo.

e Policy Search: tìm kiếm chính sách tối ưu bằng cách sửa đổi các tham số

của nó trong khi các phương pháp hàm giá trị gián tiếp tìm các hành độngtối đa hóa hàm giá trị tại mỗi trạng thái

e Return Function: quyết định cách tổng hợp các phần thưởng hoặc hình phạt

trong một tập.

Trái ngược với Model-Based, các kỹ thuật Model-Eree học tập thông qua kinh

nghiệm có được thông qua sự tương tác với môi trường Thay vì cỗ gắng xâydung mô hình thì hướng tiếp cận này sẽ cố gắng ước tính hàm phần thưởng

và hàm chuyển đổi trạng thái từ kinh nghiệm để khai thác và tối ưu hóa chính

sách Một số phương pháp cho hướng tiếp cận này như sau:

e Policy Gradient: là một trong những kỹ thuật phổ biến và mạnh mẽ nhất

để tối ưu hóa chính sách được tham số hóa Khi chính sách được tham số hóa, có thể sử dung Policy Gradient Optimization trên các tham số để cải

thiện chính sách nhanh hơn nhiều so với việc lặp lại truyền thống.

e Value-Based: là một kỹ thuật sử dụng cách tối ưu hàm phần thưởng để tìm

ra chính sách tối ưu nhất cho mô hình Trong quá trình huấn luyện cácAgent sẽ học cách cập nhật lại hàm phần thưởng và dựa vào hàm phần

thưởng tối ưu để đưa ra chính sách thích hợp trong từng giai đoạn.

e Actor-Critic: là một kỹ thuật có sự kết hợp giữa hai kỹ thuật kể trên Trong

quá trình huấn luyện, các Agent giờ đây sẽ học cách tối ưu đồng thời cả

chính sách và hàm phần thưởng chứ không chỉ tối ưu một trong hai yếu tố.

Các Agent sẽ sử dụng chính sách để tìm ra các hành động thích hợp nhằm tối uu phần thưởng kỳ vọng và sử dung hàm phần thưởng để đánh giá lại

chính sách đã sử dụng.

12

Trang 32

Q-Learning Policy Gradient

World Model TRPO/PPO

Hình 2.2.2 Phân loại các thuật toán hoc tăng cường

AlphaZero)

2.3 Deep Reinforcement Learning (DRL) - Hoc

tăng cường sâu

Học tăng cường sâu là sự kết hợp giữa Học tăng cường và Học sâu DRL chophép học tăng cường mở rộng quy mô cho các vấn đề phức tạp hơn so với trước

đây.

2.3.1 Thuật toán Model-Free DRL

Có ba cách tiếp cận, cụ thể là, phương pháp Value-Based DRL, phương pháp Policy Gradient DRL và phương pháp Actor-Critic DRL để triển khai các thuật

toán không có mô hình Ba cách tiếp cận sau đây.

e Value-Based DRL:

Deep Q-Learning Network (DQN) là mô hình DRL nổi tiếng nhất học các

chính sách trực tiếp từ đầu vào nhiều chiều của CNN Trong DQN, đầu vào

là pixel thô và đầu ra là hàm Q-value để ước tính phần thưởng trong tương

Trang 33

Dinh ly Policy Gradient: Khác với các phương pháp DRL dựa trên các ham

Value, Policy Gradient DRL tối ưu chính sách trực tiếp bằng cách tối ưu

hóa hàm mục tiêu sau:

Ớ@) = Eran Soy TR(si-1, St) > max

j=l

REINFORCE là phương pháp sử dung ước lượng Monte-Carlo để tính xấp

xỉ Gradient của hàm mục tiêu sau:

V0G(8) = Evens ` +'Q”(sụ, a4) Vo logag(i|s:)

t=0

Actor-Critic DRL:

Cả hai thuật toán Policy Gradient và Value-Based đều có uu và nhược điểm

riêng, tức là các phương pháp Policy Gradient tốt hơn cho môi trường liêntục và ngẫu nhiên, đồng thời có sự hội tụ nhanh hơn trong khi đó, các phương

pháp Value-Based hiệu quả hơn và ổn định hơn Gan đây, Actor-Critic đã

ra đời để tan dụng lợi thế từ Policy Gradient và Value-Based đồng thời han chế những nhược điểm của chúng Actor-Critic tính toán Policy Gradient bằng cách sử dụng hàm Value-Based Critic để ước tính phần thưởng kỳ

14

Trang 34

vọng trong tương lai Ý tưởng chính của Actor-Critic là chia mô hình thành

hai phần: phần 1 là tính toán hành động dựa trên trạng thái còn phần 2

xác định các Q-Value của hành động.

Advantage Actor-Critic (A2C) bao gồm 2 Neural Network, Actor Networkø(a;|s¿) dai điện cho Policy còn Critic Network V,,” với tham số œ ước lượngxấp xỉ tính hiệu quả của Actor

Asynchronous Advantage Actor Critic (A3C) cách tiếp cận không sử dụnglại các thực thi trước đó vì điều này đòi hỏi nhiều bộ nhớ Thay vào đó,A3C thực thi song song các Agent khác nhau trên nhiều trường hợp của

môi trường.

2.3.2 Thuật toán Model-Based DRL

Trong phần này, chúng ta tập trung vào cách tiếp cận Model-Based, giải quyết

tính sinh động của môi trường bằng cách học một mô hình chuyển đổi cho phép

mô phỏng môi trường mà không cần tương tác trực tiếp với môi trường.

e Value Function:

Monte Carlo Tree Search (MCTS) là một trong những phương pháp pho biến nhất để tìm kiếm trước và nó được kết hợp với mô hình chuyển đổi dựa trên DNN để xây dựng Model Based DRL Cụ thể, mô hình chuyển

tiếp đã học dự đoán khung hình tiếp theo và phần thưởng đi trước mộtbước bằng cách sử dụng đầu vào bốn khung hình cuối cùng của hình ảnh ởgóc nhìn thứ nhất của Agent và hành động hiện tại Mô hình này sau đó sửdụng thuật toán Monte Carlo Tree Search để lập kế hoạch chuỗi hành độngtốt nhất cho Agent thực hiện

Value-Targeted Regression (UCRL-VTR) Từ một tập các mô hình nhấtquán với dữ liệu thu thập, được xây dựng ở mỗi Episode Tính nhất quán

được định nghĩa là tổng bình phương lỗi, trong đó hàm giá trị được xác

định bằng cách giải bài toán tối ưu với tập hợp các mô hình được xây dựng

e Policy Search:

Các phương pháp Policy Search nhằm mục đích tìm trực tiếp các Policybằng các phương pháp Gradient-Free hoặc Gradient Based

15

Trang 35

Model-Ensemble Trust-Region Policy Optimization (ME-TRPO) là phương

pháp tối ưu hoá chính sách theo khu vực bằng cách đặt ràng buộc vào khu

vực tin cậy đối với chính sách để ổn định hơn nữa việc học.

Model-Based Meta-Policy-Optimization (MB-MPO) để giải quyết giới hạn

hiệu suất của Model-Based DRL so với Model-Free DRL khi học các mô

hình động MB-MPO học tập hợp các mô hình động, một Policy có thé

nhanh chóng thích ứng với bất kỳ mô hình nào trong tập hợp bằng Policy

Gradient.

16

Trang 36

Chương 3

Bài toán Phân loại hình

anh

3.1 Tong quan vẽ Phân loại hình ảnh

3.1.1 Giới thiệu bài toán

Với sự phát triển không ngừng của lĩnh vực Công nghệ Thông tin nói chung

và của ngành Khoa hoc Máy tính nói riêng, các tac vụ xử lý hình ảnh của

Thị giác Máy tính (Computer Vision) ngày càng được quan tâm và tìm ra nhiều

phương hướng để cải thiện Một trong số đó là tác vụ Phân loại hình ảnh (Image

Classification), mục tiêu chính của bài toán này đó chính là phân loại một hình

ảnh đầu vào (Input) thành một nhãn (Label) đầu ra (Output)

Ca†

Hình 9.1.1 Minh hoa bài toán Phân loại hành ảnh [5/

17

Trang 37

Như trong ví dụ Hình với một bộ dữ liệu các hình ảnh, mỗi ảnh mô

tả một đối tượng như: động vật, con người, phương tiện di chuyén, tác vụ

Phân loại hình ảnh sẽ sử dụng các thuật toán để quan sát toàn bộ dữ liệu tìm

ra các điểm đặc trưng riêng biệt của từng đối tượng như màu sắc, hình dạng, kích thước, để hình thành các giả thuyết giúp dé dàng phân loại ảnh Kết

quả của quá trình huấn luyện, chúng ta sẽ thu được mô hình phân loại hình ảnhtheo nhãn cố định đã được định nghĩa trước đó

Trong thực tế, thị giác góp phần tạo nên 80-85% nhận thức của con người về

thế giới Mỗi ngày, chúng ta thường sử dụng thị giác để quan sát, phân loại và

nhận dạng rất nhiều dữ liệu về hình ảnh mà chúng ta bắt gặp Vì vậy, việc phát

triển tác vụ Phân loại hình ảnh nhằm ứng dụng trong đời sống như: mở khóa

điện thoại thong qua nhận diện gương mặt, nhận diện văn ban, đã góp phần

không nhỏ giúp cho các hoạt động thường ngày của con người trở nên dễ dàng

hơn.

3.1.2 Hướng tiếp cận Hoc sâu

Với sự ra đời của các kiến trúc mạng theo hướng tiếp cận Học sâu, tác vụ

Phân loại hình ảnh dần trở nên một bài toán mang tính đại diện để sử dung các phương pháp Học sâu Một trong những kiến trúc mạng được sử dụng phổ biến nhất có thể ke đến là Mạng tích chập (CNNs) Kiến trúc mang này phân loại ảnh bằng cách chuyển đổi hình ảnh ban đầu (Input) thành một ma trận

các giá trị, sau đó đưa ma trận giá trị qua các lớp cơ bản bao gồm: Convolution

Layer, Pooling Layer, Fully Connected Layer để tính toán và tìm ra các điểm

đặc trưng của đối tượng trong ảnh dựa vào ma trận đặc trưng (Feature Map)

và cuối cùng sử dụng các hàm kích hoạt như tanh, sigmoid, ReLU để tính ra

xác suất đối tượng trong ảnh thuộc lớp đối tượng nào

3.1.3 Hướng tiếp cận Học tăng cường

Để đưa ra giải pháp cho tác vụ Phân loại hình ảnh trong những bài toán

thực tế, các phương pháp theo hướng Học tăng cường hay Học tăng cường sâu

không còn phụ thuộc hoàn toàn vào các kiến trúc mạng nơ-ron thuần túy Các

18

Trang 38

FEATURE LEARNING CLASSIFICATION

Hình 3.1.2 Minh hoa cấu trúc mang Học sâu

phương pháp này hiện sử dụng các kiến trúc mạng Học sâu như một cơ sở nền

tảng để huấn luyện cho các Agent học cách khai thác thông tin thông qua việc

tương tác với môi trường huấn luyện Tùy thuộc vào các bài toán thực tế cụ

thể, các phương pháp có sự thay đổi về kiến trúc mạng sử dụng, cách xây dựng hàm phần thưởng thích hợp cũng như chính sách phù hợp cho bài toán Cụ thể

với hai bài toán chúng tôi đã nghiên cứu và thực nghiệm đó là Multi-Agent

Im-age Classification via Reinforcement Learning ({10],{11]) và Deep Reinforcement

Learning for Imbalanced Classification ([6]) đều có cách xây dụng riêng biệt khi

xây dựng giải pháp cho tác vụ Phân loại hình ảnh.

Đối với bài toán [[0|, phương pháp Học tăng cường được sử dụng khi huấn

luyện nhiều tác nhân cùng thực hiện phân loại hình ảnh thông qua việc xây

dựng một mạng liên lạc giữa các tác nhân để có thể chia sẻ các đặc trưng về

hình ảnh một cách nhanh chóng Khác với [10], bài toán [6] ứng dụng phương

pháp Học tăng cường để thực hiện tác vụ Phân loại hình ảnh cho những bộ dữ

liệu bị mất cân bằng thông qua việc xây dựng một hàm phần thưởng đặc trưng

nhằm huấn luyện các tác nhân nhiều lần để có thể chọn lựa nhãn phù hợp cho

từng ảnh trong bộ dữ liệu.

19

Trang 39

3.2 Deep Reinforcement Learning for Imbalanced

Classification

3.2.1 Giới thiệu

Trong thực tế, các bài toán phân loại ảnh như: phát hiện hành vi nguy hiểm,

chẩn đoán bệnh tật, nhận biết đeo khẩu trang sai cách, thường có sự mất

cân bằng về dữ liệu khi các ảnh thuộc các lớp phổ biến (hành vi không nguy

hiểm, không có bệnh tật, đeo khẩu trang đúng cách, ) sẽ chiếm uu thế hơn so

với các lớp thiểu số (hành vi nguy hiểm, phát hiện bệnh tật, đeo khẩu trang

sai cách, ) Bằng các phương pháp theo hướng tiếp cận Học sâu, các lớp thiểu

số do thiếu hụt về dữ liệu dẫn đến khó xác định được các đặc điểm đặc trưng

thường sẽ được phân loại thành các lớp đa số hoặc tệ hơn có thể gây nên tình

trạng Overfitting khiến cho độ chính xác của mô hình dự đoán giảm đi nhiều

phần Để cải thiện độ chính xác cho mô hình dự đoán, các phương pháp Học

sâu thường áp dụng các biện pháp như tằng cường dữ liệu hay thu thập thêm

dữ liệu cho các lớp thiểu số, đơn giản hóa mô hình dự đoán, tinh chỉnh hàm loss

của mô hình Nhìn chung các biện pháp này giúp cải thiện độ chính xác của

mô hình dự đoán vô cùng hiệu quả tuy nhiên lại đòi hỏi những hiểu biết của

người dùng về các thành phần của mô hình như kiến trúc mạng Học sâu, các

giá trị hàm loss hay cách thu thập dữ liệu sao thật hiệu quả.

Phương pháp theo hướng Hoc tăng cường [6] đã giúp thực hiện việc phân

loại ảnh với dit liệu mat cân bằng một cách đơn giản nhưng vô cùng hiệu quả

Phương pháp này có thể đạt độ chính xác tương tự thậm chí vượt trội hơn so

với các phương pháp Học sâu khi thực hiện phân loại ảnh trên bộ dữ liệu mất

cân bằng mà không cần phải sử dụng các biện pháp tăng cường Với việc không

cần dùng đến các biện pháp tăng cường tác động đến mô hình hay bộ dữ liệu

để cải thiện độ hiệu quả, phương pháp Học sâu này đã giúp cho người dùng đặc

biệt các người dùng mới có cách tiếp cận với các bài toán thực tế vô cùng đơn

giản và gần gũi.

20

Trang 40

3.2.2 Chỉ tiết kiến trúc

Để thực hiện phân loại ảnh với các bộ dữ liệu mất cân bằng, phương pháp

theo hướng tiếp cận Học tăng cường tạo ra một vòng lặp hữu hạn và đưa Agent

vào một môi trường huấn luyện nơi chứa toàn bộ tập dit liệu Tại mỗi thời điểm

Agent sẽ quan sát một ảnh bất kỳ trong bộ dữ liệu và thực hiện gán nhãn choảnh dựa trên chính sách (policy) được xây dựng từ kiến trúc mạng Học sâu kết

hợp với mạng Q-learning để đưa ra xác suất của các lớp đối tượng Sau khi thực

hiện gán nhãn cho ảnh, một hàm phần thưởng (reward function) sẽ đưa ra kết

quả đánh giá hành động gán nhãn của Agent chính là phần thưởng hoặc hìnhphạt tương ứng Quá trình phân loại sẽ kết thúc khi toàn bộ ảnh trong bộ dữliệu ban đầu đã được gán nhãn hoặc Agent đã thực hiện sai mục tiêu khi khôngphân loại đúng ảnh của các lớp thiểu số Sau khi thực hiện xong một lần lặp,tất cả quá trình huấn luyện bao gồm: hành động của Agent, kết quả trả về của

hàm kết quả và trạng thái của mục tiêu sẽ được lưu lại vào một bộ nhớ để cập

nhật lại hàm nội quy Tiếp đó bộ đữ liệu sẽ được xáo trộn và đưa cho Agentthực hiện phân loại ảnh lại cho đến khi vòng lặp kết thúc

Storing interactive experience

Replay Memory

84, Ay, Ty, Sa terminal,

8a, ag, ra, $3, lerminals

Ngày đăng: 23/10/2024, 01:12

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w