1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Cải tiến mô hình FFNet cho bài toán tua nhanh video

96 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Cải tiến mô hình FFNet cho bài toán tua nhanh video
Tác giả Nguyễn Văn Chính, Nguyễn Đình Bình An
Người hướng dẫn TS. Lương Ngọc Hoàng
Trường học Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 96
Dung lượng 36,47 MB

Nội dung

Trong hoá luận này, chúng tôi tập trung nghiên cứu dé cải tiền mô hình FENet - một phương pháp tua nhanh video sử dụng kĩ thuật Reinforcement Learning dé giải quyết với mục tiêu tạo ra 1

Trang 1

\

NGUYEN VĂN CHÍNH NGUYÊN ĐÌNH BÌNH AN

KHÓA LUẬN TOT NGHIỆP

CAI TIEN MÔ HÌNH FFNET CHO BÀI TOÁN

TUA NHANH VIDEO

CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH

Trang 2

ĐẠI HỌC QUỐC GIA THÀNH PHÓ HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

⁄Z

NGUYEN VĂN CHÍNH - 19521287 NGUYEN DINH BINH AN - 19521178

KHOA LUAN TOT NGHIEP

CAI TIEN MO HINH FFNET CHO BÀI TOÁN

TUA NHANH VIDEO

CU NHAN NGANH KHOA HOC MAY TINH

GIANG VIEN HUGNG DAN

TS LƯƠNG NGOC HOANG

Trang 4

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH CONG HÒA XÃ HỘI CHỦ NGHĨA

TRƯỜNG ĐẠI HỌC VIỆT NAM

CÔNG NGHỆ THÔNG TIN Độc Lập - Tự Do - Hạnh Phúc

DE CƯƠNG CHI TIẾT

Tên đề tài: Cải tiến mô hình FFNet cho bài toán tua nhanh video

Tên đề tài tiếng Anh: Improving FFNet Model for Video Fast Forwading

Problem

Ngôn ngữ thực hiện: Tiếng Việt

Cán bộ hướng dẫn: TS Lương Ngọc Hoàng

Thời gian thực hiện: Từ ngày 01/09/2022 đến ngày 01/01/2023

Sinh viên thực hiện:

Nguyễn Văn Chính - 19521287 Lớp: KHTN2019

Email: 19521287 @gm.uit.edu.vn Điện thoại: 0708236645

Nguyễn Đình Bình An - 19521178 Lớp:KHTN2019

Email: 19521178@gm.uit.edu.vn Điện thoại: 0327092495

Nội dung đề tai:(M6 ta chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực

hiện,

kết quả mong đợi của dé tài)

€ Muc tiéu:

Trong cuộc sống hiện nay, nhu cầu về việc sử dụng camera giám

sát để theo dõi hoạt động ở các địa điểm công cộng cũng như một

số các lĩnh vực chuyên biệt trong công việc đang ngày càng trở

Trang 5

liệu thu về từ các hệ thống giám sát trở nên rất đáng quan tâm, vì

lượng dữ liệu thu về rất không lồ, tuy nhiên chỉ 1 phần nhỏ trong

số đó chứa các thông tin quan trọng, từ đó dẫn đến việc lưu trữ

toàn bộ thông tin sẽ rẤt lãng phí Vì vậy, nhu cầu về việc tạo ra

các mô hình giúp tóm tắt video đề giữ lại các thông tin quan trọng

à rất cần thiết Hiện tại có 2 hướng nghiên cứu cho vấn đề này là

Video Summarization và Video Fast Forwarding Tuy nhiên, các

phương pháp này vẫn còn hạn chế liên quan đến độ hiệu quả cũng

như lượng tài nguyên cần phải sử dung dé thực hiện tác vụ Trong

hoá luận này, chúng tôi tập trung nghiên cứu dé cải tiền mô hình

FENet - một phương pháp tua nhanh video sử dụng kĩ thuật

Reinforcement Learning dé giải quyết với mục tiêu tạo ra 1 mô

hình sử dụng lượng tài nguyên ít tuy nhiên vẫn mang lại độ hiệu

* Cải tiễn công thức Reward Function giúp quá trình huấn luyện mô hình

trở nên hiệu quả hơn

* _ Nghiên cứu các mô hình Convolution Neural Network (CNNs) dé cải

thiện độ hiệu quả của công đoạn rút trích đặc trưng trong ảnh

* _ Nghiên cứu cải tiến công đoạn Post Processing đề giúp chất lượng video

đầu ra tốt hơn về mặt thê hiện nội dung

* _ Nghiên cứu một số công trình nghiên cứu thành công khác đề đưa ra đánh

giá, so sánh với mô hình của chúng tôi

$ Dói tượng nghiên cứu

« Cac tập dữ liệu về video được sử dụng nhiều trong các nghiên cứu theo

hướng học có giám sát

Trang 6

* Cac mô hình Convolution Neural Network (CNNs) sử dung trong việc

rút trích đặc trưng

5 Cac mô hình Recurrent Neural Network

* Reward Function sử dung trong kĩ thuật Reinforcement Learning

* Cac phương pháp thuộc nhóm Video Summarization trong việc giải

quyết van đề này

Kế hoạch thực hién:(M6 ta tóm tắt kế hoạch làm việc và phân công công việc

cho từng sinh viên tham gia)

STT Giai đoạn Nội dung Thực hiện

Chính | An

- Nghiên cứu các kiến trúc

Recurrent Neural Network đề áp

dụng thay thế cho kiến trúc hiện

Kéthgp kiến trúc mới va Reward

Function mới để tạo ra mô hình x

hiéu qua hon

2 Giai doan 2

(10/2022 đến |* Nghiên cứu và chọn ra phương

11/2022) pháp Video Summarization nổi x

bật và áp dụng vào thực nghiệm

Trang 7

3 Giai đoạn 3

(11⁄2022 đến

12/2022)

ra mô hình có kết quả tốt nhất

Viết báo cáo KLTN

Đánh giá mô hình và so sánh với

kết quả của các phương pháp

Video Summarization đã nghiên

Trang 8

LỜI CẢM ƠN

Chúng tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến TS Lương Ngọc Hoàng - người đã tận tình hướng dẫn chúng tôi trong suốt quá trình thực hiện khóa luận này từ lúc bắt đầu cho đến khi hoàn thành Nhờ sự quan tâm và giúp

đỡ của thầy trong việc nghiên cứu cũng như đề xuất các hướng cải tiến, chúng tôi đã có được những định hướng hết sức chất lượng và tiềm năng để có thể thử nghiệm và phát triển thành công Nhờ đó chúng tôi đã học được rất nhiều điều

bổ ích để làm hành trang trên con đường học tập và phát triển sự nghiệp sau này.

Chúng tôi xin gửi lời cảm ơn đến các thầy cô trong khoa Khoa học Máy tính và các thầy cô tại Trường Đại học Công nghệ Thông tin - ĐHQG-HCM đã tận tâm giảng dạy, truyền đạt những kiến thức và kinh nghiệm quý giá để giúp đỡ chúng tôi trong suốt những năm tháng học tập, nghiên cứu tại ngôi trường này.

Chủng tôi cũng xin gửi lời cảm ơn đến gia đình, bạn bè và những người thân xunh quanh chúng tôi - những người luôn khuyên nhủ và tiếp thêm động lực để chúng tôi cố gắng phấn dau không ngừng trong suốt những năm tháng đại học

vừa qua.

Và cuối cùng, chúng tôi xin gửi lời cám ơn đến các quý thầy cô tham gia vào quá trình đánh giá khóa luận tốt nghiệp này của chúng tôi Dù đã cố gắng rat nhiều, khóa luận này cũng không tránh khỏi một số thiếu sót dẫn đến chưa được tốt Vì vậy, chúng tôi rat mong được lắng nghe, tiếp thu những lời nhận xét và góp ý của các quý thầy cô Chúng tôi rất trân trọng những điều đó và sẽ học hỏi để rút ra

những kinh nghiệm quý báu trong việc nghiên cứu nói riêng và sự nghiệp sau này nói chung.

Trang 9

Mục lục

[Tóm tắt nội dung

1 Tổng quan|

111 Giới thiệu đềtài|

[1.2 Mục tiêu, đối tượng và phạm vi nghiên cứu|

[13 Đóng góp của đềtài|

1.1.4 Câu trúc khóa

luận| -[L2 Bài toán can giải quyết| ccccSs, 1.21 Giới thiệu bàitoán|

1.2.2 Các nghiên cứu liên

quan| -2 Cơ sở lý thuyết 2.1 Học tăng cường| - Ặ TQ SH HS 2.11 Các hướng tiếp cận

củaRL| -E12 Deep

Q-LearningNetwork| -2.2 Mạng nơ-ron hồi quy| cccSSS 2.3 Mạng nơ-ron

Trang 10

tíchchập| -2.3.1 Thành phần trongCNN| 23

23.2 AlexNetl Ặ.Ặ.Ặ Q Q Q Q Q eee 27 3_ Cải tiên mô hình EENet 30 31 Mô hình FENetbanđầu| 30

Bil Rúttríh đặc tưng| 31

B12 Môhìnhhóal 32

3.1.3 Hàm điểm thưởng| - 33

3.14 DeepQ-Network|} - 34

.2_ Những đóng góp cải tiến| 37

3.2.1 Dùng MobileNet-v3 làm mô hình rút trích đặc trưng| 37

48 [1 Tổng quan về các tập dữ liệu| - 49

4411 TVSum|l 49

412 Tour20| 50

4.1.3 oSum) Ặ Q Q Q Q S H H h h h 51 4.2 Huấn luyện và đánh giá mô hình| 53

4.2.1 Quá trình thực nghiệm| ee 53

Trang 12

Danh sách hình vẽ

1.1 Hình ảnh từ camera giám sát tai một vài loại địa điểm 3

xử lí tại mỗi điểm dữ liệu của RNN 22

[2.2 Ví du 1 đầu vào 2 chiêu va 1 filter 2 chiều| 24

E3 Ví dụ áp dụng filter lên một vùng cục bộ trên ma trận đầu vào để

ra 1 điểm ảnh trên ma trận đầu ra| - 24

pa Toàn cảnh việc áp dụng các filter lên đầu vào để tạo ra các feature

map.| ẤT ¬a 7 -/ 25

E5 Ví dụ cho việc áp dụng một filter MaxPooling lên đầu vào| fe 26

2.6 Câu trúc mô hình AlexNet Nguồn: 28 2.7 Ví dụ vẻ biến đổi kích thước của ảnh đầu vào|_ 29

Ba Tổng quan mô hình FFNet Nguồn: [17 | ¬ eee 31

2 Cấu trúc một phan tử LSTM và ludng dữ liệu khi đi qua mang

LSTM Nguồn: [23|| - 39

B3 Su đánh đổi giữa độ do precision và độ đo recall|_ 45

Ba D6 thi biểu diễn giá trị thành phan được thêm vào ham điểm

thưởng theo hành động được chọn.| - 46

3.5 Tác tử chọn bỏ qua nhiều frame.| - 47

Trang 13

3.6 Tácvuxửlíhậukỳ| Ặ ee 47

[£1 Coverage Evaluation giữa AlexNet và MobileNet-v3 Large 1.0 theo

eben eee 57

[£2 Coverage Evaluation theo các tập dữ liệu| 61

[43 Coverage Evaluation theo các tap dữ liệu sau khi cải tiến 69 4.4 Giao diện chính của ứng dụng | - 71

Trang 14

Danh sách bằng

3.1 Bảng số liệu và điểm số giữa 2 mô hình AlexNet và MobileNet-v3

Large 1.0 trên bộ dữ liệu ImageNet[10]: TA eee 37

3.2 Minh họa định nghĩa cua 4 đại lượng TP,FP.EN,TN| 42

[44 Bảng thống kê fps trung bình của bộ dữ liệu TVSum, Tour20, CoSum.| 49

[45 Kết quả đánh giá cấp độ segment trên tat cả các tập dirliéu] 62

[46 Kết quả đánh giá cấp độ frame trên tat cả các tập dữ liệu| 63

hác nhau

.9_ Thời gian xử lí trên 1 video thuộc tập TVSum|_ 66

Trang 15

4.10 Kết quả đánh giá cấp độ frame trên tất cả các tập dữ liệu sau khi

cải tiền công đoạn xử lý hậu kỳ (post processing) cho video tóm tắt.| 67

¿1 Kết quả đánh giá cấp độ segment trên tắt cả các tập dữ liệu sau khi

Trang 16

Danh mục từ viết tắt

` œ *I @ ƠI GB CNN

DNN DQN FC FFNet

GRU

HSV

LSTM MLP RGB

RL RNN SSD MSE ReLU RMSProp FPS

FLOPs URL SE

Convolutional Neural Networks Deep Neural Network

Deep Q-Learning Network

Fully Connected Fast-Forwarding Network

Gated Recurrent Unit Hue Saturation Value Long-Short Term Memory

MultiLayer Perceptron Red Green Blue

Reinforcement Learning Recurrent Neural Network Sum Squared pixel-wise Difference Mean Squared Error

Rectified Linear Unit Root Mean Squared Propagation

Frames Per Second Floating point Operations

Uniform Resource Locator

Squeeze and Excitation

Trang 17

TÓM TẮT KHOÁ LUẬN

Việc thu thập, xử lý và lưu trữ dir liệu từ các hệ thống giám sát đang trở thành một dé tài rat cần thiết để nghiên cứu và phát triển Trong khóa luận này, chúng

tôi tập trung nghiên cứu và cải tiến mô hình FFNetÍ17] ~ một mô hình tiên phong

trong hướng áp dụng kĩ thuật RL[13] cho bài toán tua nhanh video giúp tạo ra

các bản tóm tắt ngắn chứa những nội dung quan trọng từ các video dài ban đầu, đặc biệt là các video trực tiếp thu về từ các camera giám sát Đây là một mô hình không cần xử lý toàn bộ video mà chỉ xử lý một phần trong đó, giúp giải quyết van dé theo hướng vừa tiết kiệm tài nguyên về lượng lưu trữ và thời gian xử lý, vừa đảm bảo được độ hiệu quả của chất lượng đầu ra Trong quá trình nghiên cứu, chúng tôi đã tiến hành phân tích về mô hình FFNet, từ đó rút ra các hướng

có thể cải tiền để giúp mô hình trở nên tốt hơn Bên cạnh đó, chúng tôi nhận thay chất lượng nội dung của video tóm tắt được tạo ra bởi mô hình FFNet tổn tại

một số hạn ché trong việc thể hiện nội dung, vì vậy chúng tôi tập trung cải tiến

ở công đoạn xử lý hậu kỳ cho video tóm tắt để cải thiện chất lượng đầu ra, từ đó giúp việc truy xuất và đánh giá nội dung của video tóm tắt trở nên hiệu quả hơn Chúng tôi cũng tập trung tìm hiểu và thực nghiệm mô hình trên nhiều tập dữ liệu hơn, để từ đó nâng cao chất lượng trong quá trình thực nghiệm và đánh giá

mô hình Và cuối cùng, chúng tôi xây dựng 1 ứng dụng web mô phỏng cho việc

áp dụng công trình nghiên cứu vào các tác vụ thực tế phù hợp, từ đó thấy được tiềm năng phát triển và những hướng đi tương lai có thể hướng đến của công

trình nghiên cứu này.

Trang 18

Chương 1

Tổng quan

11 Mở đầu

1.1.1 Giới thiệu đề tài

Ngày nay, nhu cầu về việc lắp đặt các thiết bị giám sát đang ngay càng trở nên phổ biến và cần thiết đối với đời sống xã hội, bao gồm các hộ gia đình, các khu dân

cư, các khu vực công cộng, các hệ thống đường phố, các môi trường làm việc ,

để từ đó theo dõi và ghi lại mọi hành động diễn ra thường ngày, giúp truy xuất

thông tin cần thiết mỗi khi xảy ra sự việc Trong đời sống xã hội, sự đóng góp của các hệ thống giám sát là rất ý nghĩa và lớn lao trong việc phòng tránh các hành

vi xấu có thể diễn ra như trộm cắp, cướp giật, giúp bảo vệ tài sản, tính mạng cho

người dân cũng như giữ gin an ninh, trật tự cho xã hội nói chung Trong môi

trường làm việc, các hệ thống giám sát giúp người chủ có thể kiểm soát được các

hoạt động diễn ra nơi công ty, nhà máy xí nghiệp, ngay cả khi không có mặt trực

tiếp tại đó, từ đó nắm được giờ giấc đi làm cũng như quá trình làm việc của nhân viên, giúp đảm bảo năng suất lao động và phòng tránh các hành vi xấu có thể xảy ra đến từ những cá nhân có ý dé xấu liên quan đến tài sản hoặc các tài liệu quan trọng của công ty Không chỉ thế, các ứng dụng thuộc lĩnh vực Internet of

Trang 19

Chương 1 Tổng quan

Things (IoT) liên quan đến tác vụ giám sát đang trở nên phát triển và xuất hiện ngày càng phổ biến với những đóng góp hết sức quan trọng, từ đó mang lại nhiều giá trị thực tiễn cao, một số ứng dụng tiêu biểu có thể kể đến như các hệ thống giám sát môi trường, tìm kiếm và cứu nạn, giám sát thông minh,

HINH 11: Hình anh từ camera giám sát tại một vài loại địa điểm.

Với nhu cầu lắp đặt hệ thống giám sát ngày càng tăng và trở nên phổ biến, lượng

dữ liệu thu về từ chúng đang trở nên rất khổng 16, vì dữ liệu này được tao ra mỗi phút mỗi giây và hoạt động với thời gian rất dài hằng ngày, thậm chí phần lớn trong số đó hoạt động 24/7 để đáp ứng nhu cầu giám sát liên tục trong các khu vực can thiết Theo đó, van đề về việc xử lý và lưu trữ lượng đữ liệu khổng lồ này đang trở nên rất quan trọng và cần được nghiên cứu để giải quyết một cách hiệu quả Như chúng ta có thể biết, dữ liệu từ các hệ thống giám sát thu về hang ngày không chỉ nhiều mà phần lớn trong số chúng chứa những nội dung không

Trang 20

sẽ rat mat thời gian, đặc biệt là trong những trường hợp khẩn cấp Hơn nữa, mỗi khi xảy ra sự việc cần phải xem xét và phải truy xuất thông tin trong quá khứ, hiện tại việc này đang được thực hiện bởi con người bằng cách xem toàn bộ video

dé chọn lọc ra thông tin cần thiết, điều này đôi khi rất mat thời gian và không được hiệu quả, thậm chí có thể xảy ra trường hợp người xem cần theo dõi video khá dài dẫn đến những phút giây xao nhãng và vô tình những đoạn đó lại chứa

thông tin quan trọng.

Hiện tại, có 2 nhóm phương pháp phù hợp để áp dụng vào tác vụ này, đó là Video

Summarization và Video Fast Forwarding Tuy nhiên, các phương pháp trước đây

thuộc 2 nhóm phương pháp này vẫn gặp một số điểm hạn chế về độ hiệu quả, lượng tài nguyên cần sử dụng cũng như thời gian cần để tạo ra video tóm tắt, điều này đặc biệt bat lợi trong các tác vụ cần kết quả gan sát với thời gian thực trong quá trình giám sát hoặc các ứng dụng bị hạn chế vẻ tài nguyên tính toán và

lưu trữ dữ liệu.

Dựa trên nhu cầu thực tế cũng như quá trình nghiên cứu về các phương pháp liên quan, nhóm tác giả đã đề xuất mô hình FENet - một mô hình tiên phong trong việc áp dụng kĩ thuật RL để giải quyết tác vụ này theo hướng Video Fast Forwarding (tua nhanh video) Ưu điểm của mô hình này nằm ở việc chỉ xử lý một phan video để có thể tạo ra bản tom tắt, từ đó giúp tiết kiệm tài nguyên trong

quá trình thực hiện, tuy nhiên mô hình vẫn đạt được độ hiệu quả tốt về chất lượng

Trang 21

Chương 1 Tổng quan

video tóm tat, qua đó giúp mô hình trở nên rất tiềm năng trong việc xử lý tác vụ

này Nhận thấy tiềm năng phát triển, nhóm chúng tôi đã thực hiện nghiên cứu

để đưa ra các hướng cải tiến từ mô hình FFNet, giúp tạo ra 1 mô hình tốt hơn về

độ hiệu quả cũng như tạo ra video tóm tắt có nội dung chất lượng hơn để phục

vụ cho quá trình truy xuất và đánh giá thông tin Từ đó, chúng tôi xây dựng 1 ung dung web có chức năng nhận đầu vào là video (từ camera giám sát, ) được truyền trực tiếp vào để xử lý và tạo ra video tóm tắt gần sát với thời gian thực,

từ đó thây được tiềm năng của công trình nghiên cứu trong việc áp dụng vào các

tác vụ phù hợp.

1.1.2 Mục tiêu, đối tượng và phạm vi nghiên cứu

a Mục tiêu của đề tài

Mục tiêu của dé tài là nghiên cứu mô hình FFNet trong việc giải quyết bài toán nay, từ đó dé xuất các hướng cải tiến và tiến hành thực hiện, qua đó tạo ra mô hình tốt hơn trong việc xử lý cũng như tạo ra video tóm tắt có chất lượng nội dung hiệu quả hơn trong việc truy xuất và đánh giá thông tin, từ đó xây dựng ứng dụng web mô phỏng cho việc áp dụng vào tác vụ thực tế Công trình nghiên

cứu này sẽ góp phần đưa ra giải pháp hữu ích, tiềm năng có thể nghiên cứu và áp dụng vào các ứng dụng phù hợp, mang lại giá trị tốt đẹp cho cộng đồng và cho

sự phát triển của khoa học kĩ thuật.

b Đối tượng và phạm vi nghiên cứu

Trong phạm vi khóa luận này, các nghiên cứu xoay quanh việc cải tiến kiến trúc mạng nơ-ron mà mô hình sử dụng, cải tiến công thức hàm điểm thưởng sử dụng trong kĩ thuật RL, cải tiến công đoạn xử lý hậu kỳ cho video để tạo ra video tóm

Trang 22

Chương 1 Tổng quan

tắt có nội dung chất lượng hơn từ kết quả dự đoán của mô hình Chúng tôi thực

nghiệm các mô hình dựa trên các tập dữ liệu về video thuộc nhóm học có giám

sát (dữ liệu đã được đánh nhãn bởi con người).

11.3 Đóng góp của đề tài

Các đóng góp chính của dé tài bao gồm:

¢ Tim hiểu về mô hình FFNet trong việc giải quyết van dé này.

© Dé xuất và thực nghiệm các hướng cải tiến cho mô hình FFNet bao gồm:

— Công cu rút trích đặc trưng từ frame.

— Kiến trúc mạng nơ-ron mà mô hình sử dụng.

— Công thức hàm điểm thưởng sử dụng trong kĩ thuật RL để huấn luyện

mô hình.

- Công đoạn xử lý hậu kỳ cho video để tạo ra video tóm tắt từ kết quả

dự đoán của mô hình.

¢ Thực nghiệm trên nhiều tập dữ liệu hơn để mang lại góc nhìn đánh giá chất

lượng hơn.

s Xây dựng ứng dung web mô phỏng cho công trình nghiên cứu nay.

1.1.4 Cấu trúc khóa luận

Cấu trúc của khóa luận bao gồm các phần như sau:

Chương[Ì- Tổng quan: Trình bày sơ lược về nhu cầu hiện tại của xã hội dẫn đến

van dé cần giải quyết Trinh bày mục tiêu, đối tượng và phương pháp nghiên cứu

Trang 23

Chương|3|- Cơ sở lý thuyết: Trình bày cơ sở lý thuyết của mô hình FFNet và cách 2|

áp dụng kĩ thuật RL vào mô hình này.

Chương |B|- Cải tiến mô hình FFNet: Trình bày chỉ tiết về thuật toán của mô hình FFNet Trình bày những hướng cải tiến cho mô hình FFNet và những ưu điểm của từng phần cải tiến.

Chương |4|- Thực nghiệm: Trình bày vẻ quá trình thực nghiệm bao gồm: mô tả

về các tập dữ liệu được sử dụng, mô tả các độ đo được dùng để đánh giá, trình bày kết quả thực nghiệm của các phần cải tiến so với mô hình FENet ban đầu Xây dựng một ứng dụng web có chức năng nhận dữ liệu đầu vào là video được truyền trực tiếp vào và đầu ra là video tóm tắt được cập nhật gần sát với thời gian

thực.

Chương]]- Kết luận: Tóm tắt lại các phan thực hiện trong khóa luận, từ đó đưa

ra nhận định, ý kiến về những hạn chế còn tổn tại và đề xuất hướng cải tiến trong

tương lai.

1.2 Bài toán cần giải quyết

12.1 Giới thiệu bài toán

Như chúng ta đã biết, lượng dữ liệu thu về từ các hệ thống giám sát hằng ngày

rất lớn, tuy nhiên chỉ một phần nhỏ trong đó chứa các nội dung quan trọng và

Trang 24

Chương 1 Tổng quan

cần thiết Hơn nữa, việc truy xuất thông tin từ dữ liệu mỗi khi cần thiết hiện tại

đang được thực hiện bởi con người, điều này sẽ rất mất thời gian khi phải xem xét các video dài để chọn lọc ra thông tin cần thiết Để cải thiện độ hiệu quả trong việc xử lý và lưu trữ dữ liệu từ camera giám sát, chúng ta cần xây dựng một mô hình có nhiệm vụ xử lý và tóm tắt các nội dung quan trọng trong video đầu vào.

s Đầu vào: video chứa day đủ nội dung.

® Dau ra: video tóm tắt chứa nội dung quan trong trong video đầu vào.

Trong thực tế, một số ứng dụng bị hạn ché về tài nguyên tính toán và lưu trữ cũng như cần kết quả tóm tắt gần sát với thời gian thực để phục vụ cho các trường hợp cần truy xuất thông tin nhanh chóng Vì vậy, tác vụ này cần một phương pháp tiết kiệm tài nguyên cần để xử lý dữ liệu đầu vào trong quá trình thực hiện cũng như tạo ra kết quả gần sát với thời gian thực, bên cạnh đó vẫn đáp ứng được độ hiệu quả về nội dung được tóm tất.

1.2.2 Cac nghiên cứu liên quan

Các nghiên cứu này thuộc 2 nhóm phương pháp là Video Summarization và

Video Fast Forwarding Về kết quả đầu ra, cả 2 nhóm phương pháp trên đều

tạo ra bản tóm tắt chứa các nội dung được mô hình đánh giá là quan trọng trong video đầu vào Tuy nhiên, 2 nhóm phương pháp này có sự khác biệt về chiến lược thực hiện, từ đó video tóm tắt tạo ra từ 2 nhóm phương pháp trên cũng có sự khác biệt về một số đặc điểm.

a Video Summarization

Đây là nhóm thuật toán dựa trên video đầu vào để chọn ra các đoạn được mô

hình đánh giá là chứa nội dung quan trọng, sau đó ghép các đoạn đó với nhau

Trang 25

Chương 1 Tổng quan

tạo thành video tóm tắt, vì vậy video tóm tắt sẽ có đặc điểm là chỉ bao gồm những

đoạn được coi là quan trọng, còn những thông tin trong các đoạn khác sé bị lược

bỏ hoàn toàn và không nằm trong video tóm tắt Một số công trình nghiên cứu

thuộc nhóm phương pháp Video Summarization là:

¢ Hoc có giám sát: Flexible Detect-to-Summarize Network for Video

Sum-marization[29| ; Supervised Video Summarizaton via Multiple Feature Sets with Parallel Attention[5]; Combining global and local attention with po- sitional encoding for video summarization[1]; Video summarization with long short-term memory|28], Category-specific video summarization|22].

¢ Hoc không giám sát: Creating summaries from user videos[8]; A generic

framework of user attention model and its application in video

summa-rization[18];

vised Procedure Learning via Joint Dynamic Summarization|

A Top-Down Approach for Video Summarizatio:

Nhóm phương pháp nay can yêu cầu toàn bộ video trong quá trình xử ly để tao

ra video tóm tắt, vì vậy cần phải tiêu tốn tài nguyên để lưu trữ toàn bộ video trong quá trình thực hiện, điều này sẽ bat lợi với các hệ thống bị hạn chế về mặt tài nguyên Hơn nữa, các phương pháp này sẽ mất một khoảng thời gian dài để

có thể tạo ra video tóm tắt, điều này sẽ không phù hợp với các tác vụ cần kết quả gần sát với thời gian thực.

b Video Fast Forwarding

Khác với Video Summarization, các phương pháp thuộc nhóm Video Fast

For-warding sẽ tạo ra các bản tóm tat chứa nội dung trai dài theo dòng chảy thời gian của video đầu vào Các phương pháp trước đây chủ yếu tập trung vào việc điều khiển tốc độ của video tùy thuộc vào từng đoạn, điều này được thực hiện dựa

trên việc phân tích:

Trang 26

Chương 1 Tổng quan

s Các dạng chuyển động trong video: Smartplayer: user-centric video

fast-forwardingl2]; An extended framework for adaptive playback-based video

summarization[21]; Constant pace skimming and temporal subsampling of

video using motion activity, [20].

¢ Thông tin về mặt ngữ nghĩa: A new player-enabled rapid video

naviga-tion method using temporal quantizanaviga-tion and repeated weighted

boost-ing search[11]; A smart video player with content based fast-forward

play-back[12].

Theo đó, khác với nhóm phương pháp Video Summarization, video tóm tắt từ

các phương pháp Video Fast Forwarding chứa nội dung bao quát của toàn video

mà không bỏ qua hẳn 1 đoạn thông tin liên tục nào.

Tuy nhiên, các phương pháp này cũng yêu cầu xử lý toàn bộ video, điều này mang lại những khó khăn và bắt lợi tương tự nhóm phương pháp Video Summa-

rization, hơn nữa các phương pháp này vẫn thể hiện độ hiệu quả chưa được cao

trong kết quả đầu ra.

c FFNet

FFNet được biết đến là mô hình đầu tiên thuộc nhóm phương pháp Video Fast Forwarding sử dụng kỹ thuật RL để giải quyết van dé này Ý tưởng chính của FFNet nằm ở việc bỏ qua các frame không quan trọng tiếp theo dựa trên việc

phân tích và đánh giá frame hiện tại Với mỗi frame được xét, mô hình sẽ rút

trích đặc trưng của frame và đánh giá, sau đó quyết định số frame tiếp theo bị bỏ

qua, các frame này sẽ không được mô hình xử lý cũng như không được thêm vào

video đầu ra Sau đó, mô hình tiếp tục xét frame tiếp theo được nhảy tới và tiếp tục quyết định số frame kế tiếp bị bỏ qua, quá trình này sẽ lặp lại như vậy cho đến khi kết thúc video Theo đó, video tóm tắt sẽ gồm các frame được xét, điều

Trang 27

Chương 1 Tổng quan

này cũng cho thấy FENet không cần xử lý toàn bộ video mà chỉ cần xử lý một lượng frame trong đó để tạo ra video tóm tắt, từ đó giúp tiết kiệm tài nguyên xử

lý hơn Hơn nữa, với chiến lược này, FFNet có thể tạo ra video tóm tắt rất nhanh

và đáp ứng được yêu cầu gần sát với thời gian thực Với công trình nghiên cứu này, chúng tôi thực hiện một số hướng cải tiến để tạo ra một mô hình tốt hơn trong việc xử lý cũng như tạo ra video tóm tắt có chất lượng về mặt biểu thị nội dung hiệu quả hơn Thuật toán chỉ tiết của mô hình FFNet và các van dé cải tiền được trình bày trong chương |

11

Trang 28

giám sát (Unsupervised Learning) Điểm đặc biệt của học tăng cường so với 2

phương pháp còn lại là về dữ liệu sử dụng trong quá trình huấn luyện mô hình.

Học có giám sát là một nhóm các phương pháp sử dụng dữ liệu đã được đánh

nhãn để phục vụ cho quá trình học Ngược lại, học không giám sát sử dụng dữ

liệu không được đánh nhãn sẵn, theo đó mô hình sẽ tự học ra quy luật dựa trên

các đặc trưng của dữ liệu Khác với cả 2 nhóm phương pháp trên, các phương

pháp học tăng cường không can chuẩn bị sẵn dữ liệu, theo đó dir liệu sẽ được

tạo ra trong quá trình học và trải nghiệm của tác tử, từ đó sử dụng những dữ liệu

này để huấn luyện mô hình.

Hai thành phần quan trọng trong học tăng cường là môi trường (environment)

và tác tử (agent):

¢ Môi trường (Environment): là bài toán cần giải quyết được mô hình hóa bao gồm 2 thành phan là không gian trạng thái (set of states) và hàm điểm

Trang 29

Chương 2 Cơsở lý thuyết

thưởng (reward function).

© Tác tử (Agent): hoạt động trên môi trường được thiết lập Mỗi khi tác tử

ở một trạng thái nào đó (trạng thái hiện tại), tác tử sẽ phân tích để đưa ra

hành động phù hợp, sau khi thực hiện hành động được chọn, tác tử sẽ được

chuyển đến trạng thái mới (trạng thái tiếp theo) Theo đó, tác tử sẽ nhận được tín hiệu phản hồi từ môi trường để cho biết việc thực hiện hành động này ở trạng thái này có hiệu quả (tốt hay xấu) như thế nào, từ đó tác tử rút kinh nghiệm cho những lần tiếp theo khi gặp trạng thái tương tự.

Quá trình học trong RL diễn ra thông qua việc tác tử trải nghiệm trực tiếp trên môi trường được thiết lập để tạo ra dữ liệu và sử dụng dit liệu đó cho việc huân luyện Để áp dụng kĩ thuật RL, bài toán cần được mô hình hóa về môi trường phù hợp gồm các thành phần sau:

© S:1a không gian trạng thái được thiết lập từ bài toán, bao gồm tập hợp tất

cả các trạng thái sự tồn tai trong đó.

® A: Tập hợp tất cả các hành động a, mà tác tử có thể chọn khi ở một trạng thái nào đó, sau khi thực hiện hành động thì tác tử sẽ được chuyển đến trạng thái tiếp theo.

® r(s,a,s’): là điểm thưởng nhận được sau khi thực hiện hành động a từ trạng thái s và chuyển sang trạng thái s” Độ lớn của điểm thưởng sẽ phản ánh

độ hiệu quả của quyết định lựa chọn hành động này Điểm thưởng tích lũy

(tổng điểm thưởng của tất cả các bước từ đầu đến khi kết thúc) được tính bằng công thức:

R=} (ŒY ey) = Ve (Se, ak S41) (2.1)

k k

Trang 30

Chương 2 Cơsở lý thuyết

Trong đó: 7(s¿,ø¿,s¿+¡) là điểm thưởng tức thời tại bước thứ k Hệ số

dis-count + có chức năng làm giảm trọng số điểm thưởng của các bước càng về sau, điều này giúp cho điểm thưởng tích lũy được hội tụ.

7 (Policy): Là chiến lược lựa chọn hành động sao cho tối đa hóa điểm

thưởng tích lũy sẽ nhận được trong hiện tại và cả tương lai.

71(s¿) = arg max E[R|s¿„ 4, 7r] (2.2)

sẽ cổ gắng ăn được càng nhiều điểm càng tốt cho đến khi kết thúc trò chơi Theo

đó, bài toán được mô hình hóa như sau:

¢ Không gian trạng thái (S) là vùng không gian hữu han mà con rắn được phép di chuyển, bao gồm tất cả các trạng thái (s) có thể xảy ra Trong đó, mỗi trạng thái s, biểu diễn thông tin vẻ các thành phan (vị trí của con ran

và các điểm thức ăn) ở thời điểm k Theo đó, trạng thái sẽ thay đổi theo thời

gian dựa trên việc đi chuyển của con rắn.

s Tập hop A gồm tất cả các hành động (a) mà người chơi có thể chọn tại 1 thời điểm để điều khiển con rắn Cụ thể, người chơi có 3 lựa chọn là: tiến lên, qua trái, qua phải Sau khi người chơi thực hiện hành động (2), con rắn sẽ di chuyển theo hướng được chọn và trạng thái hiện tại s„ sẽ chuyển sang trạng thái tiếp theo sự.

Trang 31

Chương 2 Cơsở lý thuyết

© 7(s¿„ñ,s¿¿¡) là điểm thưởng người chơi nhận được sau khi thực hiện hành

động Điểm thưởng nay cho biết quyết định vừa rồi có hiệu quả (tốt hay xấu) như thế nào Cụ thể, điểm thưởng ở trong trường hợp này liên quan đến việc có ăn được thức ăn hay không, nếu con rắn ăn được thức ăn thì

điểm thưởng sẽ cao.

® 7 (Policy) là chiến lược mà người chơi sử dụng để tính toán và lựa chọn hành động phù hợp trong suốt quá trình điều khiển con rắn Chiến lược càng tốt thi tổng điểm thưởng thu về sẽ càng cao Vì vậy, tiêu của bài toán này là tìm ra chiến lược chơi tối tru.

Trong kĩ thuật RL, quá trình học được thực hiện thông qua việc tác tử được trải

nghiệm trên môi trường không gian trạng thái Đầu tiên, tác tử khởi tạo một chiến lược (policy) và sử dụng chiến lược này để trải nghiệm trên môi trường

không gian trạng thái Theo đó, ở mỗi bước lặp thứ k, tác tử đang ở trạng thái

(s¿), tac tử sẽ dựa trên chiến lược hiện tại để phân tích và quyết định chọn 1 hành động (z¿) nào đó trong số các hành động hợp lệ, việc chọn hành động trong quá

trình học cần kèm thêm một số thành phần nhiễu để tác tử có thể khám phá và tạo

ra các trải nghiệm mới, sau khi thực hiện hành động này tác tử sẽ được chuyển đến trạng thái tiếp theo (sự 1) Sau khi quá trình này diễn ra, tác tử thu về điểm thưởng (reward) tương ứng, điểm thưởng này được phản hồi từ môi trường để cho biết việc chọn hành động a, ở trạng thái sự có hiệu quả như thé nao (thể hiện

qua độ lớn của điểm thưởng) Theo đó, một dữ liệu (transition) được tạo ra gồm

4 thành phan (sự, ag, 1, 8,41), và các dir liệu này sẽ được sử dụng để huấn luyện

mô hình, cụ thể là cập nhật lại chiến lược của tác tử.

15

Trang 32

Chương 2 Cơsở lý thuyết

2.1.1 Các hướng tiếp cận của RL

Thông thường, các hướng tiếp cận của RL được phân vào 2 nhóm phương pháp:

Model-based và Model-free.

a Phương pháp model-free

Vào năm 1898, nhà tâm lí học Edward Thorndike dé xuất một quy luật mang tên

“quy luật hiệu ting” [27] Nội dung chính của quy luật này la những phản ung

mang lại hiệu ứng tích cực sẽ có tỉ lệ xuất hiện cao hơn so với những phản ứng mang hiệu ứng tiêu cực trong cùng một tình huống.

Thorndike phát hiện quy luật trên trong một thí nghiệm mà ông đích thân làm,

đưa một con mèo vào một hộp kín, các mặt xung quanh của hộp là các song gỗ

và có một vài chốt kéo, xoay để mở hộp Để thoát khỏi đó, con mèo phải tác động lên chuỗi các chốt Quá trình con mèo thử tác động lên hộp cũng là quá trình con

mèo đang tương tác với môi trường, nó ghi nhớ những hành động nó đã thử, đặc

biệt là những chốt nó thường tác động trước khi thành công thoát khỏi hộp Càng nhiều lần thành công, tốc độ thoát khỏi hộp của con mèo càng nhanh Thorndike kết luận rằng con mèo đã học được độ tích cực hoặc tiêu cực của phản ứng từ môi

trường tương ứng với hành động của bản thân.

Phương pháp model-free hình thành dựa trên ý tưởng trên, theo đó tác tử RL

quan sát thế giới, thực hiện hành động và tính toán phần thưởng Tác tử thường bắt đầu bằng các hành động ngẫu nhiên và tăng tỉ lệ lựa chọn hành động mang lại phần thưởng cao hơn.

Điểm đặc biệt trong phương pháp model-free là không tổn tại bat kỳ tri thức hay

thông tin mô hình của môi trường, mà tác tử bắt buộc phải tự học hỏi bằng cách trải nghiệm trực tiếp thông qua việc liên tục thử và phạm lỗi.

Trang 33

Chương 2 Cơsở lý thuyết

b Phương pháp model-based

Quy luật hiệu ứng của Thorndike vẫn được thịnh hành cho đến những năm 1930,

khi nhà tâm lý học Edward Tolman thí nghiệm tốc độ một con chuột thoát khỏi

mê cung và phát hiện động vật có khả năng học và mô phỏng môi trường ngay

cả khi không được củng cố bằng kinh nghiệm.

Trong thí nghiệm, Tolman chia các con chuột thành 3 nhóm: nhóm 1 Tolman đặt

thức ăn ngay cổng ra mê cung; nhóm 2 Tolman không hé đặt thức ăn và nhóm

3 Tolman chỉ đặc thức ăn trong nửa thời gian sau của cuộc thí nghiệm Kết quả

cho thấy nhóm 3 ở nửa thời gian đầu mắt thời gian rất lâu để thoát khỏi mê cung,

nhưng đến nửa thời gian sau khi đã có thêm động lực (là thức ăn) thì nhóm 3 thoát khỏi mê cung còn nhanh hơn cả nhóm 1 Điều đó cho thấy rằng, ở nửa thời gian đầu, nhóm 3 tuy không có thức ăn nhưng vẫn khám phá và cố nhận thức kiến trúc mê cung, bản đồ mê cung trong đầu sẽ phát huy khi có động lực.

Tolman gọi đây là học ngầm (“latent learning”[15]).

Học ngầm cho phép động vật phát triển “bức tranh” biểu diễn thế giới và mô phỏng chuỗi hành động trong đầu để dự đoán phản hôi của chuỗi hành động trên Học ngầm cũng là nền tảng cho phương pháp model-based Trong phương pháp model-based, 2 thành phần quan trọng để mô hình hóa bài toán là:

¢ Hàm xác suất chuyển đổi trang thái (Transition Probability Function) T(s’|s, a)

là xác suất trạng thái s” được diễn ra khi tác tử thực hiện hành động a tại

trạng thái s, ngoài trạng thái s’ có thể xảy ra thì còn có nhiều trạng thái khác.

Việc không chắc chắn về trạng thái tiếp theo là do trạng thái tiếp theo không phụ thuộc hoàn toàn vào hành động của tác tử mà còn liên quan đến nhiều nhân tố khác (như các tác tử khác, quy luật của môi trường ).

¢ Ham điểm thưởng (Reward Function) r(s,a,s’) có khái niệm đã được dé cập

ở mục2.1|

17

Trang 34

Chương 2 Cơsở lý thuyết

Trong học ngầm, “bức tranh” thế giới là hàm xác suất chuyển đổi trạng thái, chuỗi

hành động được lựa chọn dựa trên “bức tranh” và trên hàm điểm thưởng, khi đã tìm được chuỗi hành động thỏa mãn mục tiêu của bản thân thì tác tử mới bắt đầu thực hiện chuỗi hành động Tổng kết lại, van dé của phương pháp model-based

là học hàm xác suất chuyển đổi và hàm điểm thưởng như thé nào.

c Sự khác biệt giữa model-based và model-free

Điểm khác biệt chủ yếu giữa hai nhóm phương pháp trên nằm ở mục tiêu của

việc học Model-based có mục tiêu là điều chỉnh bản thân sao cho giống với môi

trường nhất, còn model-free chỉ muốn tối ưu hóa chiến lược của mình.

Phương pháp model-based thường được lựa chọn cho các bài toán được mô hình

hóa thành môi trường mà điểm thưởng được tính ra trước khi hành động được thực hiện Còn trong trường hợp môi trường của bài toán thường xuyên thay đổi,

các phương pháp model-based thường cho kết quả tệ hơn Trong thực tế, không

ton tại môi trường cố định trong mọi trường hợp, vậy nên phương pháp

model-free thường được ưu tiên sử dụng trong các bài toán lớn liên quan đến thực té.

2.1.2 Deep Q-Learning Network

Deep Q-Learning Network (DQN) là mô hình hoc sâu (Deep Learning) được ap

dụng cho Q-Learning (tiêu biểu cho nhóm phương pháp model-free với tiêu tối

ưu hóa chiến lược) Trong Q-Learning, điểm thưởng tích lũy được thay thế bằng

giá trị đơn giản hơn nhưng có ý nghĩa tương đương, đó là Q-Value Cụ thể, mỗi

khi ở 1 trạng thái s¿ bắt kì, tác tử sẽ lựa chọn một hành động trong tập không gian

hành động hợp lệ {z1, z›, a„ } sao cho tối ưu hóa điểm thưởng nhận được Theo

Trang 35

Chương 2 Cơ sở lý thuyết

đó, ta có chiến lược lựa chọn hành động được cập nhật lại thành:

71(s¿) = arg max Q(s,,@) (2.3)

a

Trong đó:

Q(s,a) = r(s,ø) + + x max Q(s’,a) (2.4)

Q(s,a) là Q-Value khi thực hiện hành động a tại trang thái s; r(s, a) là điểm thưởng

nhận được cho hành động a tại trạng thái s, s” là trạng thái kế tiếp sau khi thựchiện hành động, + là hệ số discount có giá trị trong khoảng (0, 1] với ý nghĩa giúp

đảm bảo những hành động ở tương lai càng xa thì càng ít quan trọng.

Khi một hành động được lựa chon dựa trên Q(s,a) và thực hiện, ta thu được điểm

thưởng và ta sẽ tính toán được Q’(s,a) mới trên chính trạng thái và hành động

vừa lựa chon Day là lúc ta cập nhật lại Q(s,ø), nhưng không phải thay thé bằng

Q'(s,a) mà còn dựa vào sự sai khác giữa 2 giá tri mới và cũ Sự sai khác đó được

gọi là Temporal Difference:

TD = Q'(s,a) — Q(s,a) (2.5)

Va Q(s,a) sẽ được cập nhật dựa trên TD:

Q(s,a) = Q(s,a) +a*TD (2.6)

Trong đó, « với giá tri trong khoảng (0, 1], có ý nghĩa như learning-rate trong May

học (Machine Learning), biểu thị Q(s,a) sẽ được cập nhật đến gần Q'(s,a) như

thé nào Và qua các lần thực hiện hành động, Q(s,a) sẽ dần được hội tu

19

Trang 36

Chương 2 Cơ sở lý thuyết

Một phan không thể thiếu của Q-Learning là yếu tố khám phá (exploration) Khihuấn luyện, vì kinh nghiệm của tác tử (biểu thị dưới dạng ma trận Q-Value hayhàm Q-Value) vẫn còn non nớt nên nếu chỉ dựa vào kinh nghiệm mà lựa chọnhành động thì những trải nghiệm có thể bị lặp đi lặp lại Vậy nên đôi lúc, khi

chọn hành động, tác tử sẽ lựa chọn ngẫu nhiên thay vì dựa vào kinh nghiệm.

Điều này làm phòng phú trải nghiệm của tác tử cũng như cải thiện chất lượnghọc Như vậy, công thức chiến lược khi huấn luyện được sửa đổi thành:

random nếu ế <

71(S) = aca (2.7)

argmax Q(s,a) ngược lại

a

Trong đó, exploration rate e có giá trị trong khoảng [0, 1] biểu thi xác suất mà tác

tử lựa chọn ngẫu nhiên Trong quá trình học, ở mỗi lần lựa chọn hành động, tác tử

tạo ra giá trị ngẫu nhiên ế trong khoảng [0, 1], nếu £ được tạo nằm trong khoảng[0, c] thì thực hiện explore (khám phá bằng việc lựa chọn hành động ngẫu nhiên),

ngược lại tác tử sẽ chọn hành động theo chiến lược hiện tại Khi kinh nghiệm cànglúc càng nhiều thì xác suất lựa chọn ngẫu nhiên cũng cần phải giảm, vậy nên egiảm dần qua mỗi lần học cho đến giá trị e tối thiểu (theo quy ước phù hợp)

Q-Learning ghi lại các kinh nghiệm và cập nhật giá trị có ý nghĩa tương đương

điểm thưởng tích lũy kỳ vọng cho từng cặp trạng thái - hành động để chọn hànhđộng có kỳ vọng cao nhất trong trạng thái hiện tại Do đó, Q-Learning yêu cầumột ma trận lưu giữ giá trị kỳ vọng cho tất cả cặp trạng thái - hành động ton tại.Điều này làm tiêu tốn bộ nhớ và chi phí tính toán khi không gian trạng thái hoặc

không gian hành động lớn.

Giải pháp hiện tại là cần một hàm ước lượng giá trị Q-Value cho từng cặp trạngthái - hành động DeepMind đã dé cử mạng học sâu (Deep Neural Network),chuyên dụng cho các vấn dé phức tạp, đặc biệt không cần sự trợ giúp của các

20

Trang 37

Chương 2 Cơ sở lý thuyết

chuyên gia về đặc trưng Ta gọi giải pháp này là Deep Q-Learning Network(DQN) Mô hình DỌN nhận đầu vào là trạng thái (s), đầu ra là giá trị Q-Valuecho tất cả hành động (a) mà tác tử có thể thực hiện Kiến trúc đầu tiên được sử

dụng cho DỌN là một mang Multi-layer Perceptron (MLP).

Mạng MLP là một mạng gồm nhiều lớp Fully Connected Trong đó, mỗi lớp FullyConnected gồm một hoặc nhiều đơn vị (unit), mỗi đơn vị đều được tính toán

bằng tổng giá trị của tất cả đơn vị thuộc lớp Fully Connected phía trước nhân với

trọng số tương ứng Quá trình này sẽ diễn ra tuần tự từ lớp đầu (dữ liệu đầu vào)

và lần lượt qua từng lớp cho đến lớp cuối cùng (kết quả đầu ra) Ta gọi đây là quá

trình feed-forwarding.

2.2 Mạng nơ-ron hồi quy

Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) hay các mô hình cải tiến

từ RNN đều là những mô hình có khả năng xử lí hiệu quả trên các dạng dữ liệu

có tính tuần tự Dữ liệu mang tính tuần tự có đặc điểm nổi bật là néu đảo trình tự

dữ liệu thì ý nghĩa sẽ khác, ví dụ như dữ liệu văn bản, giọng nói, video, Ngoài

ra, nếu mô hình có tính chất xử lí mỗi điểm dữ liệu dựa trên kết quả tính toán

trên các điểm dữ liệu trước đó thì RNN vẫn là sự lựa chọn thích hợp.

RNN có 2 thành phần cơ bản:

© Đầu vào (kí hiệu 1a x): x là một chuỗi các điểm dữ liệu mang tính tuần tự

(x1, X2, +, Xn).

¢ Hidden State (kí hiệu là h;): là bộ nhớ của mạng, mỗi h; là sự kết hợp giữa

thông tin đã được tổng hợp trước đó (h;_1) và điểm input hiện tại (x;)

21

Trang 38

Chương 2 Cơ sở lý thuyết

Luéng xử lí của RNN khá đơn giản, tại mỗi thời điểm t, hidden state trước đó

(h;_+) kết hợp với với điểm dữ liệu hiện tại (x;) theo công thức|2.8|

Trong đó, f là hàm phi tuyến tính, thường là Tanh hoặc ReLU W và U là hai

ma trận trọng số, W vuông có cạnh bằng số chiều của hidden state (tạm gọi là

dim(h)), U có kích thước (dim(h), dim(x)) để vectơ U * x; có số chiều bằng số

chiều hidden state Ludng xử lí của RNN có thể biểu diễn thành sơ đỏ [2.1]

HINH 2.1: Luéng xử lí tại mỗi điểm dữ liệu của RNN.

Vì phải xử lí dữ liệu mang tính tuần tự nên RNN van ton tại các nhược điểm:

* Chuỗi dữ liệu phải được thực hiện tuần tự: Mô hình không tận dụng được

khả năng tính toán song song của máy tính (GPU/TPU).

® Đạo ham bị triệt tiêu (Vanishing Gradient): là hiện tượng khi đang lan

truyền ngược (backpropagation), giá trị đạo hàm về gần 0 khi chỉ mới điqua vài nút (mỗi nút tương ứng với 1 điểm input), vậy nên RNN không théhọc được từ các nút ở xa Nhưng van dé này đã được giải quyết một phần

trong những mô hình cải tiến từ RNN, đó là LSTM va GRU, những mô hình

có thiết kế lọc những thông tin không cần thiết

22

Trang 39

Chương 2 Cơ sở lý thuyết

2.3 Mạng nơ-ron tích chập

Mạng nơ-ron tích chập (Convolutional Neural Network - CNN) là một trong

những mạng học sâu tiên tiến thường được sử dụng cho các bài toán nhận dạngđối tượng trong ảnh

CNN thường được sử dụng bởi độ chính xác cao và khả năng nhận biết các đốitượng trong tự nhiên như con người, con vật, nhờ 3 tính chất đặc biệt:

* Tinh bất biến: Cùng một đối tượng, nếu ta dùng phép biến đổi dịch chuyển

(translation), xoay tròn (rotation) hay phóng to nhỏ (scaling) thì thông tin

được rút trích ra thông thường sẽ có giá trị khác nhau Nhưng CNN vẫn rút

trích ra cùng một giá trị đối với 3 phép biến đổi trên

© Tính bảo toàn không gian: Dau ra của mang CNN là những feature map

biểu diễn từng đối tượng Đồi tượng trong feature map và đối tượng trong

ảnh đầu vào dù khác kích thước nhưng có chung vị trí tương đối và tỉ lệ

23

Trang 40

Chương 2 Cơ sở lý thuyết

các feature map có kích thước tổng hợp lại là h’ x :ø' x c’ Lớp tích chập sử dụng

cách thức tính toán tích chập Ví dụ: Cho tích chập bang cách áp dụng 1 filter lên

1 ma trận đầu vào 2 chiều như hình|2.2|và hình|2.3]

Ma trân đâu vào Bộ lọc (filter)

2 chiêu 5x5 3x3

HÌNH 2.2: Ví dụ 1 đầu vào 2 chiều và 1 filter 2 chiêu.

Ma tran dau vào B6 loc (filter) Ma tran dau ra

2 chiéu 5x5 3x3 2 chiéu 5x5

HINH 2.3: Ví du áp dung filter lên một vùng cục bộ trên ma trận đầu

vào để ra 1 điểm ảnh trên ma trận đầu ra.

Sau khi dịch chuyển filter sao cho filter trượt qua hết tất cả điểm ảnh trên đầu

vào, ta lap day được ma trận dau ra 2 chiều và hoàn thành tổng hợp một feature

24

Ngày đăng: 03/11/2024, 17:35

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN