Đánh giá chung: Đề tài khảo sát và nghiên cứu được tính khả thi của các phương pháp Học tăng cường trong việc giải quyết một số tác vụ Thị giác máy tính.. Minh hoa muc tiéu dé tai Trong
Trang 1DAI HỌC QUOC GIA TP HO CHÍ MINH
TRUGNG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC MAY TINH
THAI TRAN KHANH NGUYEN
NGUYEN PHAM VINH NGUYEN
KHOA LUAN TOT NGHIEP
CỬ NHÂN NGÀNH KHOA HỌC MAY TÍNH
TP HỒ CHÍ MINH, 2022
Trang 2DAI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC MAY TINH
THAI TRAN KHANH NGUYEN - 19520188 NGUYEN PHAM VINH NGUYEN - 19520186
KHOA LUAN TOT NGHIEP
KHAO SAT VA NGHIEN CUU TINH KHA
THI THEO HƯỚNG TIẾP CAN HOC TANG
CƯỜNG TRONG GIẢI QUYET CAC TAC VU
THI GIAC MAY TINH
CU NHAN NGANH KHOA HOC MAY TINH
GIANG VIEN HUGNG DAN
TS LE MINH HUNG
TP HO CHi MINH, 2022
Trang 3DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
154/QD-ĐHCNTTT ngày 01/03/2023 của Hiệu trưởng Trường Đại học Công nghệ Thông
tin.
1 TS Mai Tiến Dũng - Chủ tịch.
2 ThS Cáp Pham Đình 'Thăng - Thư ký.
3 TS Nguyễn Vinh Tiệp - Ủy viên.
Trang 4ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC
^ ^ = Độc Lập - Tự Do - Hanh Phúc
CÔNG NGHE THONG TIN
TP HCM, ngay thang nam
NHAN XET KHOA LUAN TOT NGHIEP
(CUA CAN BO HUGNG DAN)
Tén khóa luận:
KHAO SÁT VÀ NGHIÊN CỨU TÍNH KHẢ THI THEO HƯỚNG
TIẾP CẬN HỌC TĂNG CƯỜNG TRONG GIẢI QUYẾT CÁC
Đánh giá Khóa luận:
1 Về cuõn báo cáo:
Số trang: G7 Số chương: 5
Số bảng số liệu: 6 Số hình vẽ: 32
Số tài liệu tham khảo: 27
Một số nhận xét về hình thức cuốn báo cáo:
Báo cáo đầy đủ nội dung và hình thức trình bày tốt
Trang 52 Về nội dung nghiên cứu:
Khảo sát và nghiên cứu về tính khả thi theo hướng tiếp cận học Tăng cường
trong giải quyết các tác vụ Thị Giác máy tính
3 Về thái độ làm việc của sinh viên:
Lên kế hoạch và hoàn thành công việc tốt và đúng hạn Sinh viên có ý thức và
nỗ lực để hoàn thành đề tài Khả năng làm việc nhóm tốt
Đánh giá chung:
Đề tài khảo sát và nghiên cứu được tính khả thi của các phương pháp Học
tăng cường trong việc giải quyết một số tác vụ Thị giác máy tính Sinh viên đãhoàn thành tốt nội dung đề tài luận văn
Điểm từng sinh viên:
Thái Trần Khánh Nguyên: 9.5/10
Nguyễn Phạm Vĩnh Nguyên: 9.5/10
Người nhận xét
(Ký và ghi rõ họ tên)
Trang 6ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC
^ ^ ^ Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHE THONG TIN l
TP HCM, ngay thang năm
NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
(CỦA CÁN BỘ PHẢN BIỆN)
'Tên khóa luận:
KHẢO SÁT VÀ NGHIÊN CỨU TÍNH KHẢ THI THEO HƯỚNG
TIEP CAN HOC TANG CƯỜNG TRONG GIẢI QUYET CÁC
TAC VU THI GIAC MAY TINH
Đánh giá Khóa luận:
1 Về cuõn báo cáo:
Số trang: 67 Số chương: 5
Số bảng số liệu: 6 Số hình vẽ: 32
Số tài liệu tham khảo: 27
Một số nhận xét về hình thức cuốn báo cáo:
Trang 73 Ve thái độ làm việc của sinh viên:
Điểm từng sinh viên:
Thái Trần Khánh Nguyên: /10
Nguyễn Pham Vĩnh Nguyên: /10
Người nhận xét
(Ký và ghi rõ họ tên)
Trang 8LỜI CẢM ƠN
Lời đầu tiên, chúng em xin chân thành cảm ơn đội ngũ cán bộ, giáo viên,
công nhân viên trường Dại học Công nghệ thông tin Đặc biệt là thầy Lê Minh
Hưng đã cung cấp cho chúng em nhiều kiến thức và những bài học quý báu để
tạo điều kiện cho chúng em thực hiện khóa luận này Bên cạnh đó, chúng emcảm ơn anh Ths Trần Văn San đã hỗ trợ chúng em trong quá trình thực hiện
khóa luận này.
Ngoài những kiến thức, kỹ năng đã tích góp được từ trước đến nay, chúng
em cũng đã cô gắng tìm hiểu thêm những kiến thức mới để hoàn thành khóa
luận này Trong quá trình thực hiện nếu có sai sót, mong thầy cô và các bạn góp
ý để chúng em có thể kịp thời sửa chữa, bổ sung Và đó cũng là hành trang để
giúp chúng em tự tin vào công việc sau này.
Xin chân thành cam on!
Thái Trần Khánh Nguyên - Nguyễn Phạm Vĩnh Nguyên
Trang 9ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC
^ ^ ^ Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHE THONG TIN l
DE CƯƠNG CHI TIẾT
TEN DE TÀI: KHAO SÁT VA NGHIÊN CUU TÍNH KHẢ THI
THEO HƯỚNG TIEP CAN HOC TANG CƯỜNG TRONG GIẢI QUYET CAC TAC VU THI GIAC MAY TINH
TEN DE TAI TIENG ANH: A SURVEY AND RESEARCH ON
THE FEASIBILITY OF THE REINFORCEMENT LEARNING APPROACH FOR SOLVING COMPUTER VISION TASKS
Ngôn ngữ thực hiện: Tiếng Việt / Tiếng Anh
Cán bộ hướng dẫn: TS Lê Minh Hưng
Thời gian thực hiện: Từ ngày 05/09/2022 đến ngày 25/12/2022
Sinh viên thực hiện:
- Thái Trần Khánh Nguyên - 19520188 Lớp: KHCL.2019.1
- Nguyễn Phạm Vĩnh Nguyên - 19520186 Lớp: KHCL.2019.1
Nội dung đề tài:
- Tổng quan về đề tài: Học tăng cường (Reinforcement Learning) là mộttrong những hướng tiếp cận của học máy (Machine Learning) bằng cách huấn
luyện các tác nhân (Agent) trong một môi trường (Environment) với việc thử
và sai để đưa ra những quyết định nào nhằm tối ưu hàm mục tiêu (Reward) Học tăng cường được ứng dụng để giải quyết các van đề phức tap trong cuộc
sống như tự động hóa, xử lý trò chơi, các hệ thống gợi ý và đề xuat, Tuy nhiên trong những năm gần đây, đã có nhiều nghiên cứu dựa trên hướng
tiếp cận này trong những lĩnh vực khác trong lĩnh vực khoa học máy tính cụ
thể là thị giác máy tính Những hướng tiếp cận mới này đem đến những góc
nhìn mới trong việc giải quyết những vấn đề thay cho những hướng tiếp cậntruyền thống Chính vì thế, trong khóa luận này chúng tôi mong muốn tìm
hiểu thêm về học tăng cường, khảo sát và tổng hợp các hướng tiếp cận khác
nhau dựa trên học tăng cường cho một số tác vụ cơ bản trong thị giác máy
tính So sánh ưu và nhược điểm của các phương pháp đó so với những phương
pháp phổ biến hiện nay dựa trên mạng tích chập (CNNs) hay máy biến đổi
(Transformer).
Trang 10- Mục tiêu:
e Nghiên cứu về các kỹ thuật học tăng cường.
e Khảo sát, tổng hợp và nghiên cứu về các hướng tiếp cận khác nhau dựa
trên học tăng cường cho các tác vụ thị giác máy tính.
e So sánh với các hướng tiếp cận hiện nay dựa trên mạng tích chập và máy
biến đổi
e Dưa ra được kết luận về ưu và nhược điểm của các phương pháp dựa trên
học tăng cường.
e Thực nghiệm trên nhiều bộ dữ liệu khác nhau và tiến hành phân tích
đánh giá các phương pháp dựa trên học tăng cường.
- Phạm vi thực hiện:
e Số lượng tác vụ thực hiện: 2 tác vụ cơ bản trong thị giác máy tính:
1 Phân loại anh (Image Classification)
2 Phát hiện đối tượng (Object Detection)
e Số lượng bộ dữ liệu cho từng tác vụ: 3-5 bộ dữ liệu.
e Số lượng phương pháp thực nghiệm: 6 - 8 phương pháp khác nhau (< 4
phương phấp theo hướng học tăng cường).
- Cách thức thực hiện: Trong khóa luận này, chúng tôi sẽ thực hiện khảo
sát trên các tap chí và hội nghị khoa học (CVPR, WACV, ICCV, NIPS, IEEE,
) để tìm ra các bài báo phù hợp với đề tài chúng tôi đang theo đuổi Sau
đó chúng tôi sẽ triển khai lại các phương pháp được giới thiệu trong các bài
báo đó với những thực nghiệm khác nhau và tiến hành đo đạc độ hiệu quả củacác phương pháp dựa trên các tiêu chí như về độ chính xác, thời gian huấn
luyện mô hình, bộ nhớ cần để huấn luyện mô hình Để huấn luyện mô hình,
chúng tôi có kế hoạch sử dụng máy tính cá nhân, và google colab vì sự tiện
dụng và hiệu quả của chúng.
Trang 11- Kết quả mong đợi:
e Tổng hợp các phương pháp khác nhau dựa trên hướng tiếp cận học tăng
cường cho các tác vụ thị giác máy tính mà chúng tôi đã đề cập
e Dánh giá những phương pháp mà chúng tôi đã khảo sát trên những bộ
đữ liệu khác nhau.
e So sánh kết quả với các phương pháp dựa trên mạng tích chập và máy
biến đổi từ đó rút ra kết luận.
2 Triển khai các phương pháp đã khảo sát được và các phương pháp
phổ biến hiện nay cho bài toán phân loại hình ảnh.
3 Thực nghiệm và đánh giá kết quả của hướng tiếp cận học tăng cường
cho bài toán phân loại ảnh.
e Giai đoạn 3 (11/2022):
1 Khảo sát các bài báo khoa học về bài toán phát hiện đối tượng theo
hướng học tăng cường.
2 Triển khai các phương pháp đã khảo sát được và các phương pháp
phổ biến hiện nay cho bài toán phát hiện đối tượng.
3 Thực nghiệm và đánh giá kết quả của hướng tiếp cận học tăng cường
cho bài toán phát hiện đối tượng
Trang 12Phân công công việc:
Trang 132.2.3 Phân loại các phương pháp Hoc tăng cường| 11
2.3 Deep Reinforcement Learning (DRL) - Học tăng cường sâu| 13
23.1 Thuật toán ModelFreeDRLH|R 13 2.3.2 Thuật toán Model-Based DRL| 15
3 Bài toán Phân loại hình anh 17
3.1 Tổng quan về Phân loại hình ảnh| - 17
3.1.1 Giới thiệu baitoén} 02 0 0.2000 17
3.1.2 Hướng tiếp cận Họcsâu| 18
3.1.3 Hướng tiếp cận Hoc tăng cường 18
3.2 Deep Reinforcement Learning for Imbalanced Classiication| 20
Trang 143.2.1 Giới thiệu ee 20
3.2.2 Chỉ tiết kiến trúc| 21
3.2.3 Thực nghiệm| 0000 eee 26 3.3 Multi-Agent Image Classification via Reinforcement Learning| 30
3.3.1 Gidithieu) 6 2n nh xo 30 ee 31 3.3.3 Thucnghiém|) 00.0000 0 ee 37 4.1.1 Giới thiệu bài todn} 2 0 en Al 4.1.2 Hướng tiếp cận Hoc sau) 42
4.1.3 Hướng tiếp cận Hoc tăng cường| 43
4.2 Object Detection with Deep Reinforcement Learningl 44
, ` _.\ 44
¬— Ả4 / 45
Mem | fw 48
DS V Á 50
wY “—————— 50 4ã ee ee eee 51 Object Detectlon| 0200000000002 eee 56 4.41 Gidithi@u) 0.002.200.0000 0040, 56 4.4.2 hi tiết kiến trúc| 58
4.43 Thực nghiệm 2.0.00 20000005 61
4.5 Dánh giá hướng tiếp cận Học tăng cường 63
64
Trang 15Danh sách hình vẽ
1.1.1 Minh họa mục tiêu đề tài 2
2.1.1 Kiến trúc mạng thần kinh nhân tạo đơn giản ĩ ¬¬— AI 9 2.2.2 Phan loại các thuật toán học tăng cường 13 2.3.1 Kiến trúc Deep Q Network |JØ|| - 14
3.1.1 Minh họa bài toán Phân loại hình ảnh |B| 17
` 1 19
3.2.1 Minh họa cấu trúc mô hình phương pháp| 21
3.2.4 Hình mình họa cho hai bộ dữ liệu 3.3.1 Ví dụ minh họa cách thực hiện của MultiAgent 3.3.2 Sơ đồ luồng thuật toán Multi-Agent 3.3.3 Quá trình dự đoán nhãn cho hình ảnh đầu vào| 37
3.3.4 Kết quả đánh giá mô hin) 2 37
3.3.5 Quá trình dự đoán nhãn cho hình ảnh đầu vào 38 4.1.1 Minh họa bài toán Phát hiện đối tượng 41 4.1.2 Minh hoa mô hình R.CNN| 43
4.1.3 Minh họa mô hình YOLO[E 43
4.2.1 Minh họa hành động của phương pháp phân lóp| 46
4.2.2 Minh họa hành động của phương pháp quy hoạch động 47 4.2.3 Kết quả thực nghiệm theo phương pháp phân lớp| 48
4.3.1 Minh họa Kiến trúc mạng huấn luyện của phương pháp 53
Trang 164.3.2 Kết quả thực nghiệm phương pháp Efficient Object Detection in
4.4.6 Kết quả thực nghiệm phương pháp drI-RPN| 62
Trang 17Danh sách bảng
Trang 18Danh mục các ký hiệu, chữ viết tắt
Ký hiệu, chữ viết tắt "Tên đầy đủ
RL Reinforcement Learning DRL Deep Reinforcement Learning
MDP Markov Decision Processes
MALR Multi-Agents Reinforcement Learning
imbDRL Imbalance Deep Reinforcement Learning
Trang 19Tóm tắt
Ngày nay, phương pháp huấn luyện Reinforcement Learning (RL) - Học tăng
cường đã và đang đón nhận nhiều sự quan tâm cũng như ứng dụng nhiều hơn
trong các lĩnh vực thực tế như chăm sóc sức khỏe, nghiên cứu, robotics, Dac
biệt khi phương pháp này có thể sử dụng cùng với công nghệ Artificial
Intelli-gence (AT) - Trí tuệ nhân tao dang phát triển mạnh mẽ đã đóng góp phần không
nhỏ cho sự phát triển vượt bậc của Công nghệ Thông tin trong đời sống thường
ngày Đề tài này tập trung nghiên cứu và khảo sát về tính khả thi theo hướngtiếp cận Học tăng cường trong việc giải quyết một số tác vụ của lĩnh vực Thị
giác Máy tính.
Trong quá trình tìm hiểu và khảo sát đề tài, chúng tôi đã nghiên cứu cách xây dựng giải pháp để giải quyết một số tác vụ của Thị giác Máy tính theo phương
pháp Học tăng cường Từ những kiến thức đã được nghiên cứu chúng tôi đưa
ra kết luận về tính khả thi của phương pháp Học tăng cường, các ưu điểm và
nhược điểm của phương pháp này so với các phương pháp Học sâu cũng như những phát triển của phương pháp trong tương lai.
Trang 20Chương 1
Tổng quan
1.1 Giới thiệu đề tài
Trong những năm gần đây, chúng ta đã chứng kiến sự phát triển vượt bậc của
lĩnh vực Công nghệ Thông tin nói chung và Khoa học Máy tính nói riêng Chúng
ta đã đón nhận thêm các mô hình Máy học mới mẻ, các kiến trúc mạng tântiến, các kỹ thuật cải tiến vượt trội để giúp cho các bài toán thực tế như: phân
loại hình ảnh, điều khiển xe tự hành, không còn bất khả thi Điều này đã góp
phần giúp cho Công nghệ Thông tin gần gũi hơn với con người, cuộc sống trởnên tiện nghi va đầy thú vị Một trong những tiến bộ của Công nghệ Thông tin
có thể kể đến chính là phương pháp huấn luyện Reinforcement Learning (RL)
-Học tăng cường.
Học tăng cường là một phương pháp đào tạo các mô hình Học máy (Machine
Learning) có thể đưa ra các hành động sau khi tương tác với môi trường huấn
luyện Bằng cách sử dụng khả năng tính toán của máy tính cùng với thực hiện
thử và sai, phương pháp này xây dựng và đưa ra cách thức để giải quyết các
vấn đề [19] Deep Reinforecement Learning (DRL) - Hoc tăng cường sâu chính
là phương pháp đào tạo kết hợp giữa phương pháp Học tăng cường thuần túy
và các phương pháp Deep Learning (DL) - Học sâu Với sự phát triển nhanh
chóng của công nghệ, phương pháp Học tăng cường sâu ngày càng nhận được sự
quan tâm, đặc biệt khi phương pháp này sở hữu các ưu điểm đặc biệt đã khiến
nó được ứng dụng nhiều hơn trong các ứng dụng thực tế như trò chơi điện tử,
robotics, xe tự hành, chăm sóc sức khỏe, xử lý ngôn ngữ tự nhiên và thị giác máy tính
Trang 21So với các phương pháp tiếp cận hiện nay như phương pháp Học có giám
sát (Supervised Learning) và Học không giám sát (Unsupervised Learning), Hoc
tăng cường tập trung vào việc giải quyết các vần đề một cách tuần tự Với mục
đích tim ra giải pháp để giải quyết van dé, Hoc tăng cường không sử dung thông
tin có sẵn từ các tập dữ liệu cho trước, thay vào đó phương pháp nay thu thập
thông tin khi tương tác với môi trường huấn luyện kết hợp với việc xây dựngcác hàm giá trị và chính sách thích hợp nhằm hướng dẫn cũng như đánh giá
lại quá trình thu thập thông tin một cách hiệu quả Chính nhờ vào cách huấn
luyện này, các mô hình máy học giờ đây có thể đưa ra quyết định trong các tình
huống khác nhau, tìm ra giải pháp cho các van đề gặp phải Nhờ vào các ưu thé
này, Học tăng cường đã giúp cho việc mô phỏng các hoạt động của con người
trở nên dễ dàng hơn từ đó giúp cho việc ứng dụng công nghệ trong thực tế ngàycàng được phổ biến.
>a
Object detection (classification and localization)
Hinh 1.1.1 Minh hoa muc tiéu dé tai
Trong luận văn này, chúng tôi tập trung nghiên cứu và khảo sát các phương
pháp Học tăng cường trong việc giải quyết một số vấn đề của Thị giác Máy tính,
từ đó dựa trên các cơ sở lý thuyết và kết quả thực nghiệm đã được triển khai,
chúng tôi đưa ra kết luận về tính khả thi theo hướng tiếp cận này trong một sốtác vụ của Thị giác Máy tính như Phân loại Hình ảnh, Nhận diện đối tượng
2
Trang 221.2 Mô tả đề tài
Các phương pháp giải quyết bài toán thực tế trong đời sống thuộc lĩnh vựcKhoa học Máy tính, đặc biệt là Thị giác Máy tính đều được xây dựng dựa trêncác tác vụ cơ bản như Phân loại hình ảnh, Phát hiện đối tượng Trong luậnvăn này, chúng tôi sẽ trình bày chi tiết cách xây dựng giải pháp bằng các cơ sở
lý thuyết và kết quả thực nghiệm để giải quyết các tác vụ này theo hướng tiếp
cận Học tăng cường từ những công trình thuộc tạp chí và hội nghị khoa học
đã được chúng tôi khảo sát và nghiên cứu Từ đó, chúng tôi đưa ra kết luận về
tính khả thi của phương pháp Học tăng cường, các ưu điểm và nhược điểm của
phương pháp này so với các phương pháp Học sâu cũng như các hướng phát
triển trong tương lai.
1.3 Phạm vi và mục tiêu của đề tài
1.3.1 Phạm vi dé tài
Trong lĩnh vực Khoa học máy tính nói chung va Thi giác máy tinh nói riêng
có rất nhiều bài toán khác nhau, tuy nhiên trong khóa luận lần này chúng tôi
sẽ tập trung khảo sát các bác vụ cơ bản trong thi giác máy tinh:
1 Phân loại anh (Image Classification)
2 Phát hiện đối tượng (Object Detection)
Dựa trên thời gian và kế hoạch thực hiện khóa luận chúng tôi sẽ nghiên cứu
và tiến hành thực nghiệm trên 6-8 phương pháp khác nhau cho hai tác vụ trên
và sử dụng 3-5 bộ dữ liệu cho quá trình đánh giá kết quả của các phương pháp
1.3.2 Mục tiêu đề tài
Mục tiêu trong khóa luận này:
e Nghiên cứu về các kỹ thuật học tăng cường.
e Khảo sát, tổng hợp và nghiên cứu về các hướng tiếp cận khác nhau dựa
trên học tăng cường cho các tác vụ thị giác máy tính.
Trang 23e So sánh với các hướng tiếp cận hiện nay dựa trên mạng tích chập và máy
biến đổi.
e Dưa ra được kết luận về ưu và nhược điểm của các phương pháp dựa trên
học tăng cường.
e Thực nghiệm trên nhiều bộ dữ liệu khác nhau và tiến hành phân tích đánh
giá các phương pháp dựa trên học tăng cường.
1.4 Thách thức của đề tài
Một số thách thức của đề tài:
e Giải pháp theo hướng tiếp cận Học tăng cường chưa mang tính tổng quát
khi giải quyết các tác vụ của Thị giác Máy tính
e Nhiều công trình nghiên cứu được đăng tải trên các hội nghị tuy nhiên mã
nguồn để triển khai các công trình đó chưa được công bố rộng rãi để nghiên
cứu và thực hiện đánh giá.
1.5 Đống gop cua dé tài
Một số đóng góp của khóa luận:
e Trình bày chỉ tiết cách xây dựng giải pháp để giải quyết một số tác vụ của
Thị giác Máy tính theo hướng tiếp cận Học tăng cường.
e Trình bày các ưu điểm và nhược điểm của hướng tiếp cận Học tăng cường
so với các hướng tiếp cận Học sâu khi giải quyết một số tác vụ của Thị giác
Máy tính.
e Dưa ra kết luận về tính khả thi và các hướng phát triển trong tương lai của
phương pháp Học tăng cường khi giải quyết một số tác vụ Thị giác Máy
tính.
Trang 241.6 Cau trúc luận văn
Khóa luận có bố cục bao gồm 5 chương:
e Chương 1 — Tổng quan: Giới thiệu tổng quan về đề tài, mục tiêu của đề
tài và các đóng góp chính của luận văn.
e Chương 2 — Các công trình liên quan: Trình bày các kiến thức nền
tảng và hướng tiếp cận đề tài
e Chương 3 - Tác vụ Phân loại hình ảnh: Mô tả chi tiết về hướng tiếp
cận Học tăng cường trong việc giải quyết tác vụ Phân loại hình ảnh và các
thực nghiệm đã triển khai.
e Chương 4 — Tác vụ Phát hiện đối tượng: Mô tả chi tiết về hướng tiếp
cận Học tăng cường trong việc giải quyết tác vụ Phát hiện đối tượng và các
thực nghiệm đã triển khai.
e Chương 5 — Kết luận: Trinh bày tính khả thi của hướng tiếp cận trong
việc giải quyết một số vấn đề của Thị giác Máy tính và hướng phát triển
trong tương lai.
Trang 25Chương 2
Các công trình liên quan
2.1 Deep Learning (DL) - Hoc sâu
Deep Learning (DL) - Hoc sâu là một tập hợp con của Machine Learning (ML) - Hoc máy [24] Day là một tap hợp các phương pháp Học máy có mô hình
kiến trúc phức tạp hơn so với các kiến trúc Học máy thông thường Điều nàycho phép các phương pháp theo hướng tiếp cận Học sâu có thể giải quyết cácbài toán với độ phức tạp cao hơn, tính thực tế nhiều hơn so với những phươngpháp Học máy truyền thống
Để có thể giải quyết các bài toán với độ phức tap và tính thực tế cao, những
phương pháp dựa trên Học sâu đều được xây dựng theo kiến trúc Neural
Net-work - mạng nơ-ron nhằm mô phỏng lại cách hoạt động của bộ não con người.
Dựa trên cách xây dựng kiến trúc này, hướng tiếp cận Học sâu đã có thể mô
phỏng lại các hành động thực tế của con người, từ đó giúp cho các bài toán thực
tế có thể được máy tính giải quyết.
Kiến trúc mạng nơ-ron bao gồm lớp đầu vào (input layer) gồm các nơ-ron thể hiện giá trị đầu vào, nhiều lớp ẩn (hidden layer) mỗi lớp gồm các nơ-ron thực
hiện các thao tác tính toán và cuối cùng là lớp đầu ra (output layer) gồm các
nơ-ron thể hiện kết quả đầu ra (Hình {2.1.1) Mỗi nơ-ron trong các lớp ẩn là một
hàm toán học lay dữ liệu thong qua lớp đầu vào, sau quá trình thực hiện tínhtoán và kết hợp nhưng hàm kích hoạt như sigmoid, softmax, ReLU, các nơ-ron
ở lớp ẩn sẽ xử lý và đưa kết quả tới các nơ-ron đầu ra Với mục tiêu nhằm giải
quyết các bài toán phức tạp, các phương pháp dựa trên Học sâu sẽ xây dựng
Trang 26Input Layer Hidden Layer #1 | | Hidden Layer #2 Output Layer
Hình 2.1.1 Kiến trúc mang thần kinh nhân tao đơn giản
kiến trúc mạng nơ-ron với số lượng lớp ẩn dày hơn, các liên kết giữa các nơ-ron
với nhau cũng được thiết kế chỉ tiết, tỉ mỉ hơn so với phương pháp Học máy
nhằm giúp cho quá trình trích xuất đặc trưng, tính toán để có thể biểu diễn các
bài toán phức tạp cho máy tính xử lý hiệu quả hơn.
Một kiến trúc mạng nơ-ron Học sâu được sử dụng phổ biến trong lĩnh vực Thị
giác Máy tính chính là Convolutional Neural Network (CNNs) - Mạng nơ-ron
tích chập Mô hình mạng tích chập chính là một kiến trúc mạng Học sâu tiêntiến đã góp phần không nhỏ trong việc xây dựng các hệ thống thông minh với độ
chính xác cao như hiện nay Bằng cách xây dựng lớp an bao gồm các lớp
Convol-untional - tích chập xếp chồng lên nhau kết hợp với các hàm kích hoạt được sử
dụng tại mỗi lớp tích chập nhằm giúp các tham số trong kiến trúc mạng có khả
năng tự điều chỉnh trong quá trình huấn luyện giúp trích xuất ra các đặc trưngchỉ tiết của bức ảnh một cách hiệu quả, từ đó gia tăng được độ chính xác của môhình Chính nhờ những thiết kế đặc trưng này đã giúp cho Mạng nơ-rơn tích chập
được sử dụng phổ biến và đã đạt nhiều thành tựu vượt trội trong các bài toán
xử lý ảnh như Phân loại hình ảnh, Phát hiện đối tượng, Mô phỏng hành dong,
Trang 272.2 Reinforcement Learning (RL) - Học tăng
cường
Học tăng cường (Reinforcement Learning - RL) là một kỹ thuật học máy
nhằm huấn luyện các tác nhân (agent) thực hiện một chuỗi các hành động tác
động lên môi trường (enviroment) để tối đa hóa phần thưởng đạt được thông quaviệc thử và sai [19] Khác với việc tổng quát hóa dựa trên những dữ liệu được
cung cấp từ tập huấn luyện (training-set) như các phương pháp học có giámsát (supervised learning) hiện nay, các agents không được chỉ ra rằng nên thựchiện hành động nào trong những trường hợp khác nhau mà cần phải được tự
khám phá ra trong quá trình huấn luyện Học tăng cường cũng khác với những
phương pháp hoc không giám sát (unsupervised learning) ở chỗ thay vì tìm các
kiến trúc ẩn có trong bộ dữ liệu chưa được gán nhãn thì các phương pháp Học tăng cường sẽ cố gắng khai thác những gì mà nó đã được huấn luyện để tối đa hóa phần thường nhận được Có thể nói Học tăng cường là một nhánh độc lập
trong các hướng tiếp cận học máy ngoài học có giám sát và học không giám sát.
Với việc học bằng cách tương tác với môi trường thì đây được cho là phươngpháp học mô phỏng lại sự học tập của con người một cách tự nhiên nhất Ví
dụ khi chúng ta học đi xe đạp, ta có thể hoàn toàn nhận thức được cách môi
trường phản ứng với những hành động của chúng ta, từ việc đạp sao cho xe có
thể di chuyển, đến việc né các vật cản xuất hiện trên đường Học từ sự tương
tác là một khái niệm cơ bản làm nền tảng cho hầu hết các lý thuyết học tập và
là nền tảng của Hoc tăng cường [23]
Đối với một bài toán về Học tăng cường, có hai thành phần thiết yếu cần
phải định nghĩa rõ rang là tác nhân (Agent) và môi trường (Enviroment) Agent
là được xem là một mô hình có nhiệm vụ quan sát môi trường và dựa vào trạng
thái và phần thưởng trả về để đưa ra quyết định thực hiện các hành động nhất
định Môi trường là không gian xung quanh của Agent, nơi mà Agent tồn tại
và tương tác với môi trường [26] Hai thành phần cốt lõi này tương tác liên tụctheo cách mà tác nhân cố gắng tác động đến môi trường thong qua các hànhđộng (hay quyết định) và môi trường phản ứng lại với các hành động của tác
nhân.
Trong Hình miêu tả các đặc tính của Học tăng cường Chu kỳ này bắt
Trang 28(4) transition ‡
action
Hình 2.2.1 Chu ky của Học tăng cường [23]
đầu với việc các Agent quan sát môi trường và nhận về một trạng thái và phầnthường từ môi trường (Bước 1) Sau đó, Agent sẽ dựa vào trạng thái và phần
thường này để quyết định hành động tiếp theo sẽ được thực hiện (Bước 2).
Kế đến, Agent sẽ gửi tín hiệu hành động đến môi trường (Bước 3) Cuối cùng,
môi trường chịu tác động bởi Agent sẽ thực hiện việc chuyển đổi trạng thái và
trạng thái mới này là hệ quả của trạng thái và hành động trước đó từ Agent
(Bước 4) Chu trình này sẽ lặp đi lặp lại cho đến trạng thái kết thúc (terminate)
2.2.1 Markov Decision Processes (MDPs) - Quá trình
quyết định Markov
Quá trình quyết định Markov (Markov Decision Processes - MDPs) giúp
chúng ta mô phỏng các van đề của Hoc tăng cường bằng việc cung cấp một
nền tảng toán học để mô hình hóa việc đưa ra quyết định tại các trạng thái khác nhau mà kết quả là một phần ngẫu nhiên và một phần dưới sự điều khiển của một người ra quyết định Để đưa một bài toán nào đó về MDP thì đầu
tiên các trạng thái trong bài toán đó phải thỏa mãn tính chất Markov (Markov
Property): các trạng thái trong tương lai chỉ phụ thuộc vào trạng thái hiện tại
mà không phụ thuộc vào các trạng thái trong quá khứ [4] Bởi tính chất này ma
quá trình Markov thường được gọi là quá trình không nhớ.
Một MDP thường được xác định bởi 5 thành phan cơ bản sau [I9]:
e Tập trạng thái (State) S: tập các trạng thái hoặc không gian quan sát của
môi trường, so là trạng thái bắt đầu.
Trang 29e Tập hành dong (Action) A: là tập chứa các hành động ma Agent có thể lựa
chọn thực hiện trong môi trường.
e Hàm chuyển đổi trạng thái (Transition) 7: hàm xác suất chuyển đổi T(s¿+1|s¿, a2),
cu thể là xác suất chuyển từ trạng thái s; 6 9 sang trạng thái s¿¿¡ € S ứng
với hành động a € A trong môi trường.
e Hàm phần thưởng (Reward Function) R: hàm phần thưởng trong đó r¡_¡ =
R(s¿, 8441) là phần thưởng nhận được khi thực hiện hành động a; của Agenttại một trạng thái s; sang trạng thái tiếp theo s;¿+1
e Hệ số chiết khấu +: giúp cho hàm phần thưởng có thể hội tụ và cũng thể
hiện mức độ quan tâm của Agent tới phần thưởng, ở đây + € [0,1]
Xét MDP (5,.A4,+,7, R), Agent chọn một hành động a; theo chính sách (Policy)
(|s¿) tại trạng thái s; Đặc biệt hơn, thuật toán của Agent để chọn một hành
động a ở trạng thái hiện tại s, nói chung có thể được xem như là phân phối
(a|s), được gọi là Policy (Strategy-chién lược) Môi trường nhận hành động ø¡,
tạo ra phần thưởng r;¡¡ và chuyển sang trạng thái kế tiếp s¿¿¡ theo xác suất
chuyển tiếp 7{s¿.¡|s¿,ø;) Quá trình tiếp tục cho đến khi Agent đạt đến trạng
thái cuối hoặc bước thời gian tối đa Trong RL, một bộ (s¿, ø;,7¿+1, s¿+1) được
gọi là một bộ chuyển đổi (Transition) Một day đầy đủ (so, ao,r1, s1, đ1, ra, )
được gọi là một quỹ đạo (Trajectory) Một Trajectory có độ dài hữu hạn 7 nào
đó được gọi là một tap (Episode) Cho một MDP va một Policy 7, xác suất
của quan sát (sọ, @0, 11, S1, đ1,7a, ) được gọi là phân phối quỹ đạo (Tracjectory
Distribution) và được xác định như sau:
Tx = | [ r(ailsi)T (serilse, ae) (2.2.1)
t
Mục tiêu của RL là tìm chính sách tối ưu z cho Agent để tối đa hóa phần
thưởng tích lũy, được gọi là lợi nhuận (Return) Đối với mỗi Episode, Return
được xác định như sau:
Trang 30(Expected Reward) có thể được viết như sau:
Do đó, với MDP và chính sách z, phần thưởng kỳ vọng chiết khấu (Discounted
Expected Reward) được xác định:
T-1
G(r) =Eq, So yrist (2.2.4)
t=0
Mục tiêu của RL là tìm một chính sách tối ưu z*, giúp tối da Discounted
Expected Reward, nghĩa là G(7) —> max.
2.2.2 Hàm V-Value va Q-Function
Hàm V-Value được dùng để đánh giá một chính sách z tại trang thái s có
hiệu quả hay không, được xác định như sau:
V*(s) = Elr.+i + V7 (se41)] (2.2.5)
Hàm Q-Function được dùng để xác định giá trị của hành động a; ở trạng thai
s¿ theo chính sách z, được xác định như sau:
(Q“(s¿, at) = es T(st41|8t, ae) [R(Se, 5141) + YV" (Se41)] (2.2.6)
St+1
2.2.3 Phân loại các phương pháp Hoc tăng cường
Hiện nay có rất nhiều công trình nghiên cứu về học tăng cường, chính vì thếtrong quá trình khảo sát và tổng hợp các phương pháp học tăng cường cần phân
loại các thuật toán đó để thuận tiện hơn cho việc so sánh các phương pháp với nhau Các thuật toán Học tăng cường dựa trên MDP có thể được phân loại làm
hai hướng tiếp cận là Model-Based (dựa trên mô hình) và Model-Free (không
mô hình) [25] Trong lĩnh vực học máy, "mô hình"được định nghĩa là một hàm
đặc biệt với các tham số được khởi tạo (Pretrain-Model) ví dụ như một mạng
thần kinh nhân tạo Tuy nhiên, trong Học tăng cường "mô hình"định nghĩa là
những kiến thức đã học được từ môi trường bao gồm hàm chuyển đổi trạng thái
11
Trang 31P và hàm phần thưởng R [4].
Model-Based là hướng tiếp cận dựa trên việc sử dụng các mô hình đã được
học để dự đoán các hành động trong tương lai Bao gồm các kỹ thuật sau:
e Value Function: mục têu của các phương pháp để xây dựng chính sách tốt
nhất bằng cách tối đa hóa các hàm giá trị trong mỗi trạng thái
e Transition Models: các mô hình chuyển đổi sẽ quyết định việc ánh xạ từ
trạng thái hiện tại tới hành động để cho ra trạng thái tiếp theo.
e Policy Search: tìm kiếm chính sách tối ưu bằng cách sửa đổi các tham số
của nó trong khi các phương pháp hàm giá trị gián tiếp tìm các hành độngtối đa hóa hàm giá trị tại mỗi trạng thái
e Return Function: quyết định cách tổng hợp các phần thưởng hoặc hình phạt
trong một tập.
Trái ngược với Model-Based, các kỹ thuật Model-Eree học tập thông qua kinh
nghiệm có được thông qua sự tương tác với môi trường Thay vì cỗ gắng xâydung mô hình thì hướng tiếp cận này sẽ cố gắng ước tính hàm phần thưởng
và hàm chuyển đổi trạng thái từ kinh nghiệm để khai thác và tối ưu hóa chính
sách Một số phương pháp cho hướng tiếp cận này như sau:
e Policy Gradient: là một trong những kỹ thuật phổ biến và mạnh mẽ nhất
để tối ưu hóa chính sách được tham số hóa Khi chính sách được tham số hóa, có thể sử dung Policy Gradient Optimization trên các tham số để cải
thiện chính sách nhanh hơn nhiều so với việc lặp lại truyền thống.
e Value-Based: là một kỹ thuật sử dụng cách tối ưu hàm phần thưởng để tìm
ra chính sách tối ưu nhất cho mô hình Trong quá trình huấn luyện cácAgent sẽ học cách cập nhật lại hàm phần thưởng và dựa vào hàm phần
thưởng tối ưu để đưa ra chính sách thích hợp trong từng giai đoạn.
e Actor-Critic: là một kỹ thuật có sự kết hợp giữa hai kỹ thuật kể trên Trong
quá trình huấn luyện, các Agent giờ đây sẽ học cách tối ưu đồng thời cả
chính sách và hàm phần thưởng chứ không chỉ tối ưu một trong hai yếu tố.
Các Agent sẽ sử dụng chính sách để tìm ra các hành động thích hợp nhằm tối uu phần thưởng kỳ vọng và sử dung hàm phần thưởng để đánh giá lại
chính sách đã sử dụng.
12
Trang 32Q-Learning Policy Gradient
World Model TRPO/PPO
Hình 2.2.2 Phân loại các thuật toán hoc tăng cường
AlphaZero)
2.3 Deep Reinforcement Learning (DRL) - Hoc
tăng cường sâu
Học tăng cường sâu là sự kết hợp giữa Học tăng cường và Học sâu DRL chophép học tăng cường mở rộng quy mô cho các vấn đề phức tạp hơn so với trước
đây.
2.3.1 Thuật toán Model-Free DRL
Có ba cách tiếp cận, cụ thể là, phương pháp Value-Based DRL, phương pháp Policy Gradient DRL và phương pháp Actor-Critic DRL để triển khai các thuật
toán không có mô hình Ba cách tiếp cận sau đây.
e Value-Based DRL:
Deep Q-Learning Network (DQN) là mô hình DRL nổi tiếng nhất học các
chính sách trực tiếp từ đầu vào nhiều chiều của CNN Trong DQN, đầu vào
là pixel thô và đầu ra là hàm Q-value để ước tính phần thưởng trong tương
Trang 33Dinh ly Policy Gradient: Khác với các phương pháp DRL dựa trên các ham
Value, Policy Gradient DRL tối ưu chính sách trực tiếp bằng cách tối ưu
hóa hàm mục tiêu sau:
Ớ@) = Eran Soy TR(si-1, St) > max
j=l
REINFORCE là phương pháp sử dung ước lượng Monte-Carlo để tính xấp
xỉ Gradient của hàm mục tiêu sau:
V0G(8) = Evens ` +'Q”(sụ, a4) Vo logag(i|s:)
t=0
Actor-Critic DRL:
Cả hai thuật toán Policy Gradient và Value-Based đều có uu và nhược điểm
riêng, tức là các phương pháp Policy Gradient tốt hơn cho môi trường liêntục và ngẫu nhiên, đồng thời có sự hội tụ nhanh hơn trong khi đó, các phương
pháp Value-Based hiệu quả hơn và ổn định hơn Gan đây, Actor-Critic đã
ra đời để tan dụng lợi thế từ Policy Gradient và Value-Based đồng thời han chế những nhược điểm của chúng Actor-Critic tính toán Policy Gradient bằng cách sử dụng hàm Value-Based Critic để ước tính phần thưởng kỳ
14
Trang 34vọng trong tương lai Ý tưởng chính của Actor-Critic là chia mô hình thành
hai phần: phần 1 là tính toán hành động dựa trên trạng thái còn phần 2
xác định các Q-Value của hành động.
Advantage Actor-Critic (A2C) bao gồm 2 Neural Network, Actor Networkø(a;|s¿) dai điện cho Policy còn Critic Network V,,” với tham số œ ước lượngxấp xỉ tính hiệu quả của Actor
Asynchronous Advantage Actor Critic (A3C) cách tiếp cận không sử dụnglại các thực thi trước đó vì điều này đòi hỏi nhiều bộ nhớ Thay vào đó,A3C thực thi song song các Agent khác nhau trên nhiều trường hợp của
môi trường.
2.3.2 Thuật toán Model-Based DRL
Trong phần này, chúng ta tập trung vào cách tiếp cận Model-Based, giải quyết
tính sinh động của môi trường bằng cách học một mô hình chuyển đổi cho phép
mô phỏng môi trường mà không cần tương tác trực tiếp với môi trường.
e Value Function:
Monte Carlo Tree Search (MCTS) là một trong những phương pháp pho biến nhất để tìm kiếm trước và nó được kết hợp với mô hình chuyển đổi dựa trên DNN để xây dựng Model Based DRL Cụ thể, mô hình chuyển
tiếp đã học dự đoán khung hình tiếp theo và phần thưởng đi trước mộtbước bằng cách sử dụng đầu vào bốn khung hình cuối cùng của hình ảnh ởgóc nhìn thứ nhất của Agent và hành động hiện tại Mô hình này sau đó sửdụng thuật toán Monte Carlo Tree Search để lập kế hoạch chuỗi hành độngtốt nhất cho Agent thực hiện
Value-Targeted Regression (UCRL-VTR) Từ một tập các mô hình nhấtquán với dữ liệu thu thập, được xây dựng ở mỗi Episode Tính nhất quán
được định nghĩa là tổng bình phương lỗi, trong đó hàm giá trị được xác
định bằng cách giải bài toán tối ưu với tập hợp các mô hình được xây dựng
e Policy Search:
Các phương pháp Policy Search nhằm mục đích tìm trực tiếp các Policybằng các phương pháp Gradient-Free hoặc Gradient Based
15
Trang 35Model-Ensemble Trust-Region Policy Optimization (ME-TRPO) là phương
pháp tối ưu hoá chính sách theo khu vực bằng cách đặt ràng buộc vào khu
vực tin cậy đối với chính sách để ổn định hơn nữa việc học.
Model-Based Meta-Policy-Optimization (MB-MPO) để giải quyết giới hạn
hiệu suất của Model-Based DRL so với Model-Free DRL khi học các mô
hình động MB-MPO học tập hợp các mô hình động, một Policy có thé
nhanh chóng thích ứng với bất kỳ mô hình nào trong tập hợp bằng Policy
Gradient.
16
Trang 36Chương 3
Bài toán Phân loại hình
anh
3.1 Tong quan vẽ Phân loại hình ảnh
3.1.1 Giới thiệu bài toán
Với sự phát triển không ngừng của lĩnh vực Công nghệ Thông tin nói chung
và của ngành Khoa hoc Máy tính nói riêng, các tac vụ xử lý hình ảnh của
Thị giác Máy tính (Computer Vision) ngày càng được quan tâm và tìm ra nhiều
phương hướng để cải thiện Một trong số đó là tác vụ Phân loại hình ảnh (Image
Classification), mục tiêu chính của bài toán này đó chính là phân loại một hình
ảnh đầu vào (Input) thành một nhãn (Label) đầu ra (Output)
Ca†
Hình 9.1.1 Minh hoa bài toán Phân loại hành ảnh [5/
17
Trang 37Như trong ví dụ Hình với một bộ dữ liệu các hình ảnh, mỗi ảnh mô
tả một đối tượng như: động vật, con người, phương tiện di chuyén, tác vụ
Phân loại hình ảnh sẽ sử dụng các thuật toán để quan sát toàn bộ dữ liệu tìm
ra các điểm đặc trưng riêng biệt của từng đối tượng như màu sắc, hình dạng, kích thước, để hình thành các giả thuyết giúp dé dàng phân loại ảnh Kết
quả của quá trình huấn luyện, chúng ta sẽ thu được mô hình phân loại hình ảnhtheo nhãn cố định đã được định nghĩa trước đó
Trong thực tế, thị giác góp phần tạo nên 80-85% nhận thức của con người về
thế giới Mỗi ngày, chúng ta thường sử dụng thị giác để quan sát, phân loại và
nhận dạng rất nhiều dữ liệu về hình ảnh mà chúng ta bắt gặp Vì vậy, việc phát
triển tác vụ Phân loại hình ảnh nhằm ứng dụng trong đời sống như: mở khóa
điện thoại thong qua nhận diện gương mặt, nhận diện văn ban, đã góp phần
không nhỏ giúp cho các hoạt động thường ngày của con người trở nên dễ dàng
hơn.
3.1.2 Hướng tiếp cận Hoc sâu
Với sự ra đời của các kiến trúc mạng theo hướng tiếp cận Học sâu, tác vụ
Phân loại hình ảnh dần trở nên một bài toán mang tính đại diện để sử dung các phương pháp Học sâu Một trong những kiến trúc mạng được sử dụng phổ biến nhất có thể ke đến là Mạng tích chập (CNNs) Kiến trúc mang này phân loại ảnh bằng cách chuyển đổi hình ảnh ban đầu (Input) thành một ma trận
các giá trị, sau đó đưa ma trận giá trị qua các lớp cơ bản bao gồm: Convolution
Layer, Pooling Layer, Fully Connected Layer để tính toán và tìm ra các điểm
đặc trưng của đối tượng trong ảnh dựa vào ma trận đặc trưng (Feature Map)
và cuối cùng sử dụng các hàm kích hoạt như tanh, sigmoid, ReLU để tính ra
xác suất đối tượng trong ảnh thuộc lớp đối tượng nào
3.1.3 Hướng tiếp cận Học tăng cường
Để đưa ra giải pháp cho tác vụ Phân loại hình ảnh trong những bài toán
thực tế, các phương pháp theo hướng Học tăng cường hay Học tăng cường sâu
không còn phụ thuộc hoàn toàn vào các kiến trúc mạng nơ-ron thuần túy Các
18
Trang 38FEATURE LEARNING CLASSIFICATION
Hình 3.1.2 Minh hoa cấu trúc mang Học sâu
phương pháp này hiện sử dụng các kiến trúc mạng Học sâu như một cơ sở nền
tảng để huấn luyện cho các Agent học cách khai thác thông tin thông qua việc
tương tác với môi trường huấn luyện Tùy thuộc vào các bài toán thực tế cụ
thể, các phương pháp có sự thay đổi về kiến trúc mạng sử dụng, cách xây dựng hàm phần thưởng thích hợp cũng như chính sách phù hợp cho bài toán Cụ thể
với hai bài toán chúng tôi đã nghiên cứu và thực nghiệm đó là Multi-Agent
Im-age Classification via Reinforcement Learning ({10],{11]) và Deep Reinforcement
Learning for Imbalanced Classification ([6]) đều có cách xây dụng riêng biệt khi
xây dựng giải pháp cho tác vụ Phân loại hình ảnh.
Đối với bài toán [[0|, phương pháp Học tăng cường được sử dụng khi huấn
luyện nhiều tác nhân cùng thực hiện phân loại hình ảnh thông qua việc xây
dựng một mạng liên lạc giữa các tác nhân để có thể chia sẻ các đặc trưng về
hình ảnh một cách nhanh chóng Khác với [10], bài toán [6] ứng dụng phương
pháp Học tăng cường để thực hiện tác vụ Phân loại hình ảnh cho những bộ dữ
liệu bị mất cân bằng thông qua việc xây dựng một hàm phần thưởng đặc trưng
nhằm huấn luyện các tác nhân nhiều lần để có thể chọn lựa nhãn phù hợp cho
từng ảnh trong bộ dữ liệu.
19
Trang 393.2 Deep Reinforcement Learning for Imbalanced
Classification
3.2.1 Giới thiệu
Trong thực tế, các bài toán phân loại ảnh như: phát hiện hành vi nguy hiểm,
chẩn đoán bệnh tật, nhận biết đeo khẩu trang sai cách, thường có sự mất
cân bằng về dữ liệu khi các ảnh thuộc các lớp phổ biến (hành vi không nguy
hiểm, không có bệnh tật, đeo khẩu trang đúng cách, ) sẽ chiếm uu thế hơn so
với các lớp thiểu số (hành vi nguy hiểm, phát hiện bệnh tật, đeo khẩu trang
sai cách, ) Bằng các phương pháp theo hướng tiếp cận Học sâu, các lớp thiểu
số do thiếu hụt về dữ liệu dẫn đến khó xác định được các đặc điểm đặc trưng
thường sẽ được phân loại thành các lớp đa số hoặc tệ hơn có thể gây nên tình
trạng Overfitting khiến cho độ chính xác của mô hình dự đoán giảm đi nhiều
phần Để cải thiện độ chính xác cho mô hình dự đoán, các phương pháp Học
sâu thường áp dụng các biện pháp như tằng cường dữ liệu hay thu thập thêm
dữ liệu cho các lớp thiểu số, đơn giản hóa mô hình dự đoán, tinh chỉnh hàm loss
của mô hình Nhìn chung các biện pháp này giúp cải thiện độ chính xác của
mô hình dự đoán vô cùng hiệu quả tuy nhiên lại đòi hỏi những hiểu biết của
người dùng về các thành phần của mô hình như kiến trúc mạng Học sâu, các
giá trị hàm loss hay cách thu thập dữ liệu sao thật hiệu quả.
Phương pháp theo hướng Hoc tăng cường [6] đã giúp thực hiện việc phân
loại ảnh với dit liệu mat cân bằng một cách đơn giản nhưng vô cùng hiệu quả
Phương pháp này có thể đạt độ chính xác tương tự thậm chí vượt trội hơn so
với các phương pháp Học sâu khi thực hiện phân loại ảnh trên bộ dữ liệu mất
cân bằng mà không cần phải sử dụng các biện pháp tăng cường Với việc không
cần dùng đến các biện pháp tăng cường tác động đến mô hình hay bộ dữ liệu
để cải thiện độ hiệu quả, phương pháp Học sâu này đã giúp cho người dùng đặc
biệt các người dùng mới có cách tiếp cận với các bài toán thực tế vô cùng đơn
giản và gần gũi.
20
Trang 403.2.2 Chỉ tiết kiến trúc
Để thực hiện phân loại ảnh với các bộ dữ liệu mất cân bằng, phương pháp
theo hướng tiếp cận Học tăng cường tạo ra một vòng lặp hữu hạn và đưa Agent
vào một môi trường huấn luyện nơi chứa toàn bộ tập dit liệu Tại mỗi thời điểm
Agent sẽ quan sát một ảnh bất kỳ trong bộ dữ liệu và thực hiện gán nhãn choảnh dựa trên chính sách (policy) được xây dựng từ kiến trúc mạng Học sâu kết
hợp với mạng Q-learning để đưa ra xác suất của các lớp đối tượng Sau khi thực
hiện gán nhãn cho ảnh, một hàm phần thưởng (reward function) sẽ đưa ra kết
quả đánh giá hành động gán nhãn của Agent chính là phần thưởng hoặc hìnhphạt tương ứng Quá trình phân loại sẽ kết thúc khi toàn bộ ảnh trong bộ dữliệu ban đầu đã được gán nhãn hoặc Agent đã thực hiện sai mục tiêu khi khôngphân loại đúng ảnh của các lớp thiểu số Sau khi thực hiện xong một lần lặp,tất cả quá trình huấn luyện bao gồm: hành động của Agent, kết quả trả về của
hàm kết quả và trạng thái của mục tiêu sẽ được lưu lại vào một bộ nhớ để cập
nhật lại hàm nội quy Tiếp đó bộ đữ liệu sẽ được xáo trộn và đưa cho Agentthực hiện phân loại ảnh lại cho đến khi vòng lặp kết thúc
Storing interactive experience
Replay Memory
84, Ay, Ty, Sa terminal,
8a, ag, ra, $3, lerminals