Trong hoá luận này, chúng tôi tập trung nghiên cứu dé cải tiền mô hình FENet - một phương pháp tua nhanh video sử dụng kĩ thuật Reinforcement Learning dé giải quyết với mục tiêu tạo ra 1
Trang 1\
NGUYEN VĂN CHÍNH NGUYÊN ĐÌNH BÌNH AN
KHÓA LUẬN TOT NGHIỆP
CAI TIEN MÔ HÌNH FFNET CHO BÀI TOÁN
TUA NHANH VIDEO
CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH
Trang 2ĐẠI HỌC QUỐC GIA THÀNH PHÓ HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
⁄Z
NGUYEN VĂN CHÍNH - 19521287 NGUYEN DINH BINH AN - 19521178
KHOA LUAN TOT NGHIEP
CAI TIEN MO HINH FFNET CHO BÀI TOÁN
TUA NHANH VIDEO
CU NHAN NGANH KHOA HOC MAY TINH
GIANG VIEN HUGNG DAN
TS LƯƠNG NGOC HOANG
Trang 4ĐẠI HỌC QUOC GIA TP HO CHÍ MINH CONG HÒA XÃ HỘI CHỦ NGHĨA
TRƯỜNG ĐẠI HỌC VIỆT NAM
CÔNG NGHỆ THÔNG TIN Độc Lập - Tự Do - Hạnh Phúc
DE CƯƠNG CHI TIẾT
Tên đề tài: Cải tiến mô hình FFNet cho bài toán tua nhanh video
Tên đề tài tiếng Anh: Improving FFNet Model for Video Fast Forwading
Problem
Ngôn ngữ thực hiện: Tiếng Việt
Cán bộ hướng dẫn: TS Lương Ngọc Hoàng
Thời gian thực hiện: Từ ngày 01/09/2022 đến ngày 01/01/2023
Sinh viên thực hiện:
Nguyễn Văn Chính - 19521287 Lớp: KHTN2019
Email: 19521287 @gm.uit.edu.vn Điện thoại: 0708236645
Nguyễn Đình Bình An - 19521178 Lớp:KHTN2019
Email: 19521178@gm.uit.edu.vn Điện thoại: 0327092495
Nội dung đề tai:(M6 ta chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực
hiện,
kết quả mong đợi của dé tài)
€ Muc tiéu:
Trong cuộc sống hiện nay, nhu cầu về việc sử dụng camera giám
sát để theo dõi hoạt động ở các địa điểm công cộng cũng như một
số các lĩnh vực chuyên biệt trong công việc đang ngày càng trở
Trang 5liệu thu về từ các hệ thống giám sát trở nên rất đáng quan tâm, vì
lượng dữ liệu thu về rất không lồ, tuy nhiên chỉ 1 phần nhỏ trong
số đó chứa các thông tin quan trọng, từ đó dẫn đến việc lưu trữ
toàn bộ thông tin sẽ rẤt lãng phí Vì vậy, nhu cầu về việc tạo ra
các mô hình giúp tóm tắt video đề giữ lại các thông tin quan trọng
à rất cần thiết Hiện tại có 2 hướng nghiên cứu cho vấn đề này là
Video Summarization và Video Fast Forwarding Tuy nhiên, các
phương pháp này vẫn còn hạn chế liên quan đến độ hiệu quả cũng
như lượng tài nguyên cần phải sử dung dé thực hiện tác vụ Trong
hoá luận này, chúng tôi tập trung nghiên cứu dé cải tiền mô hình
FENet - một phương pháp tua nhanh video sử dụng kĩ thuật
Reinforcement Learning dé giải quyết với mục tiêu tạo ra 1 mô
hình sử dụng lượng tài nguyên ít tuy nhiên vẫn mang lại độ hiệu
* Cải tiễn công thức Reward Function giúp quá trình huấn luyện mô hình
trở nên hiệu quả hơn
* _ Nghiên cứu các mô hình Convolution Neural Network (CNNs) dé cải
thiện độ hiệu quả của công đoạn rút trích đặc trưng trong ảnh
* _ Nghiên cứu cải tiến công đoạn Post Processing đề giúp chất lượng video
đầu ra tốt hơn về mặt thê hiện nội dung
* _ Nghiên cứu một số công trình nghiên cứu thành công khác đề đưa ra đánh
giá, so sánh với mô hình của chúng tôi
$ Dói tượng nghiên cứu
« Cac tập dữ liệu về video được sử dụng nhiều trong các nghiên cứu theo
hướng học có giám sát
Trang 6* Cac mô hình Convolution Neural Network (CNNs) sử dung trong việc
rút trích đặc trưng
5 Cac mô hình Recurrent Neural Network
* Reward Function sử dung trong kĩ thuật Reinforcement Learning
* Cac phương pháp thuộc nhóm Video Summarization trong việc giải
quyết van đề này
Kế hoạch thực hién:(M6 ta tóm tắt kế hoạch làm việc và phân công công việc
cho từng sinh viên tham gia)
STT Giai đoạn Nội dung Thực hiện
Chính | An
- Nghiên cứu các kiến trúc
Recurrent Neural Network đề áp
dụng thay thế cho kiến trúc hiện
Kéthgp kiến trúc mới va Reward
Function mới để tạo ra mô hình x
hiéu qua hon
2 Giai doan 2
(10/2022 đến |* Nghiên cứu và chọn ra phương
11/2022) pháp Video Summarization nổi x
bật và áp dụng vào thực nghiệm
Trang 73 Giai đoạn 3
(11⁄2022 đến
12/2022)
ra mô hình có kết quả tốt nhất
Viết báo cáo KLTN
Đánh giá mô hình và so sánh với
kết quả của các phương pháp
Video Summarization đã nghiên
Trang 8LỜI CẢM ƠN
Chúng tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến TS Lương Ngọc Hoàng - người đã tận tình hướng dẫn chúng tôi trong suốt quá trình thực hiện khóa luận này từ lúc bắt đầu cho đến khi hoàn thành Nhờ sự quan tâm và giúp
đỡ của thầy trong việc nghiên cứu cũng như đề xuất các hướng cải tiến, chúng tôi đã có được những định hướng hết sức chất lượng và tiềm năng để có thể thử nghiệm và phát triển thành công Nhờ đó chúng tôi đã học được rất nhiều điều
bổ ích để làm hành trang trên con đường học tập và phát triển sự nghiệp sau này.
Chúng tôi xin gửi lời cảm ơn đến các thầy cô trong khoa Khoa học Máy tính và các thầy cô tại Trường Đại học Công nghệ Thông tin - ĐHQG-HCM đã tận tâm giảng dạy, truyền đạt những kiến thức và kinh nghiệm quý giá để giúp đỡ chúng tôi trong suốt những năm tháng học tập, nghiên cứu tại ngôi trường này.
Chủng tôi cũng xin gửi lời cảm ơn đến gia đình, bạn bè và những người thân xunh quanh chúng tôi - những người luôn khuyên nhủ và tiếp thêm động lực để chúng tôi cố gắng phấn dau không ngừng trong suốt những năm tháng đại học
vừa qua.
Và cuối cùng, chúng tôi xin gửi lời cám ơn đến các quý thầy cô tham gia vào quá trình đánh giá khóa luận tốt nghiệp này của chúng tôi Dù đã cố gắng rat nhiều, khóa luận này cũng không tránh khỏi một số thiếu sót dẫn đến chưa được tốt Vì vậy, chúng tôi rat mong được lắng nghe, tiếp thu những lời nhận xét và góp ý của các quý thầy cô Chúng tôi rất trân trọng những điều đó và sẽ học hỏi để rút ra
những kinh nghiệm quý báu trong việc nghiên cứu nói riêng và sự nghiệp sau này nói chung.
Trang 9Mục lục
[Tóm tắt nội dung
1 Tổng quan|
111 Giới thiệu đềtài|
[1.2 Mục tiêu, đối tượng và phạm vi nghiên cứu|
[13 Đóng góp của đềtài|
1.1.4 Câu trúc khóa
luận| -[L2 Bài toán can giải quyết| ccccSs, 1.21 Giới thiệu bàitoán|
1.2.2 Các nghiên cứu liên
quan| -2 Cơ sở lý thuyết 2.1 Học tăng cường| - Ặ TQ SH HS 2.11 Các hướng tiếp cận
củaRL| -E12 Deep
Q-LearningNetwork| -2.2 Mạng nơ-ron hồi quy| cccSSS 2.3 Mạng nơ-ron
Trang 10tíchchập| -2.3.1 Thành phần trongCNN| 23
23.2 AlexNetl Ặ.Ặ.Ặ Q Q Q Q Q eee 27 3_ Cải tiên mô hình EENet 30 31 Mô hình FENetbanđầu| 30
Bil Rúttríh đặc tưng| 31
B12 Môhìnhhóal 32
3.1.3 Hàm điểm thưởng| - 33
3.14 DeepQ-Network|} - 34
.2_ Những đóng góp cải tiến| 37
3.2.1 Dùng MobileNet-v3 làm mô hình rút trích đặc trưng| 37
48 [1 Tổng quan về các tập dữ liệu| - 49
4411 TVSum|l 49
412 Tour20| 50
4.1.3 oSum) Ặ Q Q Q Q S H H h h h 51 4.2 Huấn luyện và đánh giá mô hình| 53
4.2.1 Quá trình thực nghiệm| ee 53
Trang 12Danh sách hình vẽ
1.1 Hình ảnh từ camera giám sát tai một vài loại địa điểm 3
xử lí tại mỗi điểm dữ liệu của RNN 22
[2.2 Ví du 1 đầu vào 2 chiêu va 1 filter 2 chiều| 24
E3 Ví dụ áp dụng filter lên một vùng cục bộ trên ma trận đầu vào để
ra 1 điểm ảnh trên ma trận đầu ra| - 24
pa Toàn cảnh việc áp dụng các filter lên đầu vào để tạo ra các feature
map.| ẤT ¬a 7 -/ 25
E5 Ví dụ cho việc áp dụng một filter MaxPooling lên đầu vào| fe 26
2.6 Câu trúc mô hình AlexNet Nguồn: 28 2.7 Ví dụ vẻ biến đổi kích thước của ảnh đầu vào|_ 29
Ba Tổng quan mô hình FFNet Nguồn: [17 | ¬ eee 31
2 Cấu trúc một phan tử LSTM và ludng dữ liệu khi đi qua mang
LSTM Nguồn: [23|| - 39
B3 Su đánh đổi giữa độ do precision và độ đo recall|_ 45
Ba D6 thi biểu diễn giá trị thành phan được thêm vào ham điểm
thưởng theo hành động được chọn.| - 46
3.5 Tác tử chọn bỏ qua nhiều frame.| - 47
Trang 133.6 Tácvuxửlíhậukỳ| Ặ ee 47
[£1 Coverage Evaluation giữa AlexNet và MobileNet-v3 Large 1.0 theo
eben eee 57
[£2 Coverage Evaluation theo các tập dữ liệu| 61
[43 Coverage Evaluation theo các tap dữ liệu sau khi cải tiến 69 4.4 Giao diện chính của ứng dụng | - 71
Trang 14Danh sách bằng
3.1 Bảng số liệu và điểm số giữa 2 mô hình AlexNet và MobileNet-v3
Large 1.0 trên bộ dữ liệu ImageNet[10]: TA eee 37
3.2 Minh họa định nghĩa cua 4 đại lượng TP,FP.EN,TN| 42
[44 Bảng thống kê fps trung bình của bộ dữ liệu TVSum, Tour20, CoSum.| 49
[45 Kết quả đánh giá cấp độ segment trên tat cả các tập dirliéu] 62
[46 Kết quả đánh giá cấp độ frame trên tat cả các tập dữ liệu| 63
hác nhau
.9_ Thời gian xử lí trên 1 video thuộc tập TVSum|_ 66
Trang 154.10 Kết quả đánh giá cấp độ frame trên tất cả các tập dữ liệu sau khi
cải tiền công đoạn xử lý hậu kỳ (post processing) cho video tóm tắt.| 67
¿1 Kết quả đánh giá cấp độ segment trên tắt cả các tập dữ liệu sau khi
Trang 16Danh mục từ viết tắt
` œ *I @ ƠI GB CNN
DNN DQN FC FFNet
GRU
HSV
LSTM MLP RGB
RL RNN SSD MSE ReLU RMSProp FPS
FLOPs URL SE
Convolutional Neural Networks Deep Neural Network
Deep Q-Learning Network
Fully Connected Fast-Forwarding Network
Gated Recurrent Unit Hue Saturation Value Long-Short Term Memory
MultiLayer Perceptron Red Green Blue
Reinforcement Learning Recurrent Neural Network Sum Squared pixel-wise Difference Mean Squared Error
Rectified Linear Unit Root Mean Squared Propagation
Frames Per Second Floating point Operations
Uniform Resource Locator
Squeeze and Excitation
Trang 17TÓM TẮT KHOÁ LUẬN
Việc thu thập, xử lý và lưu trữ dir liệu từ các hệ thống giám sát đang trở thành một dé tài rat cần thiết để nghiên cứu và phát triển Trong khóa luận này, chúng
tôi tập trung nghiên cứu và cải tiến mô hình FFNetÍ17] ~ một mô hình tiên phong
trong hướng áp dụng kĩ thuật RL[13] cho bài toán tua nhanh video giúp tạo ra
các bản tóm tắt ngắn chứa những nội dung quan trọng từ các video dài ban đầu, đặc biệt là các video trực tiếp thu về từ các camera giám sát Đây là một mô hình không cần xử lý toàn bộ video mà chỉ xử lý một phần trong đó, giúp giải quyết van dé theo hướng vừa tiết kiệm tài nguyên về lượng lưu trữ và thời gian xử lý, vừa đảm bảo được độ hiệu quả của chất lượng đầu ra Trong quá trình nghiên cứu, chúng tôi đã tiến hành phân tích về mô hình FFNet, từ đó rút ra các hướng
có thể cải tiền để giúp mô hình trở nên tốt hơn Bên cạnh đó, chúng tôi nhận thay chất lượng nội dung của video tóm tắt được tạo ra bởi mô hình FFNet tổn tại
một số hạn ché trong việc thể hiện nội dung, vì vậy chúng tôi tập trung cải tiến
ở công đoạn xử lý hậu kỳ cho video tóm tắt để cải thiện chất lượng đầu ra, từ đó giúp việc truy xuất và đánh giá nội dung của video tóm tắt trở nên hiệu quả hơn Chúng tôi cũng tập trung tìm hiểu và thực nghiệm mô hình trên nhiều tập dữ liệu hơn, để từ đó nâng cao chất lượng trong quá trình thực nghiệm và đánh giá
mô hình Và cuối cùng, chúng tôi xây dựng 1 ứng dụng web mô phỏng cho việc
áp dụng công trình nghiên cứu vào các tác vụ thực tế phù hợp, từ đó thấy được tiềm năng phát triển và những hướng đi tương lai có thể hướng đến của công
trình nghiên cứu này.
Trang 18Chương 1
Tổng quan
11 Mở đầu
1.1.1 Giới thiệu đề tài
Ngày nay, nhu cầu về việc lắp đặt các thiết bị giám sát đang ngay càng trở nên phổ biến và cần thiết đối với đời sống xã hội, bao gồm các hộ gia đình, các khu dân
cư, các khu vực công cộng, các hệ thống đường phố, các môi trường làm việc ,
để từ đó theo dõi và ghi lại mọi hành động diễn ra thường ngày, giúp truy xuất
thông tin cần thiết mỗi khi xảy ra sự việc Trong đời sống xã hội, sự đóng góp của các hệ thống giám sát là rất ý nghĩa và lớn lao trong việc phòng tránh các hành
vi xấu có thể diễn ra như trộm cắp, cướp giật, giúp bảo vệ tài sản, tính mạng cho
người dân cũng như giữ gin an ninh, trật tự cho xã hội nói chung Trong môi
trường làm việc, các hệ thống giám sát giúp người chủ có thể kiểm soát được các
hoạt động diễn ra nơi công ty, nhà máy xí nghiệp, ngay cả khi không có mặt trực
tiếp tại đó, từ đó nắm được giờ giấc đi làm cũng như quá trình làm việc của nhân viên, giúp đảm bảo năng suất lao động và phòng tránh các hành vi xấu có thể xảy ra đến từ những cá nhân có ý dé xấu liên quan đến tài sản hoặc các tài liệu quan trọng của công ty Không chỉ thế, các ứng dụng thuộc lĩnh vực Internet of
Trang 19Chương 1 Tổng quan
Things (IoT) liên quan đến tác vụ giám sát đang trở nên phát triển và xuất hiện ngày càng phổ biến với những đóng góp hết sức quan trọng, từ đó mang lại nhiều giá trị thực tiễn cao, một số ứng dụng tiêu biểu có thể kể đến như các hệ thống giám sát môi trường, tìm kiếm và cứu nạn, giám sát thông minh,
HINH 11: Hình anh từ camera giám sát tại một vài loại địa điểm.
Với nhu cầu lắp đặt hệ thống giám sát ngày càng tăng và trở nên phổ biến, lượng
dữ liệu thu về từ chúng đang trở nên rất khổng 16, vì dữ liệu này được tao ra mỗi phút mỗi giây và hoạt động với thời gian rất dài hằng ngày, thậm chí phần lớn trong số đó hoạt động 24/7 để đáp ứng nhu cầu giám sát liên tục trong các khu vực can thiết Theo đó, van đề về việc xử lý và lưu trữ lượng đữ liệu khổng lồ này đang trở nên rất quan trọng và cần được nghiên cứu để giải quyết một cách hiệu quả Như chúng ta có thể biết, dữ liệu từ các hệ thống giám sát thu về hang ngày không chỉ nhiều mà phần lớn trong số chúng chứa những nội dung không
Trang 20sẽ rat mat thời gian, đặc biệt là trong những trường hợp khẩn cấp Hơn nữa, mỗi khi xảy ra sự việc cần phải xem xét và phải truy xuất thông tin trong quá khứ, hiện tại việc này đang được thực hiện bởi con người bằng cách xem toàn bộ video
dé chọn lọc ra thông tin cần thiết, điều này đôi khi rất mat thời gian và không được hiệu quả, thậm chí có thể xảy ra trường hợp người xem cần theo dõi video khá dài dẫn đến những phút giây xao nhãng và vô tình những đoạn đó lại chứa
thông tin quan trọng.
Hiện tại, có 2 nhóm phương pháp phù hợp để áp dụng vào tác vụ này, đó là Video
Summarization và Video Fast Forwarding Tuy nhiên, các phương pháp trước đây
thuộc 2 nhóm phương pháp này vẫn gặp một số điểm hạn chế về độ hiệu quả, lượng tài nguyên cần sử dụng cũng như thời gian cần để tạo ra video tóm tắt, điều này đặc biệt bat lợi trong các tác vụ cần kết quả gan sát với thời gian thực trong quá trình giám sát hoặc các ứng dụng bị hạn chế vẻ tài nguyên tính toán và
lưu trữ dữ liệu.
Dựa trên nhu cầu thực tế cũng như quá trình nghiên cứu về các phương pháp liên quan, nhóm tác giả đã đề xuất mô hình FENet - một mô hình tiên phong trong việc áp dụng kĩ thuật RL để giải quyết tác vụ này theo hướng Video Fast Forwarding (tua nhanh video) Ưu điểm của mô hình này nằm ở việc chỉ xử lý một phan video để có thể tạo ra bản tom tắt, từ đó giúp tiết kiệm tài nguyên trong
quá trình thực hiện, tuy nhiên mô hình vẫn đạt được độ hiệu quả tốt về chất lượng
Trang 21Chương 1 Tổng quan
video tóm tat, qua đó giúp mô hình trở nên rất tiềm năng trong việc xử lý tác vụ
này Nhận thấy tiềm năng phát triển, nhóm chúng tôi đã thực hiện nghiên cứu
để đưa ra các hướng cải tiến từ mô hình FFNet, giúp tạo ra 1 mô hình tốt hơn về
độ hiệu quả cũng như tạo ra video tóm tắt có nội dung chất lượng hơn để phục
vụ cho quá trình truy xuất và đánh giá thông tin Từ đó, chúng tôi xây dựng 1 ung dung web có chức năng nhận đầu vào là video (từ camera giám sát, ) được truyền trực tiếp vào để xử lý và tạo ra video tóm tắt gần sát với thời gian thực,
từ đó thây được tiềm năng của công trình nghiên cứu trong việc áp dụng vào các
tác vụ phù hợp.
1.1.2 Mục tiêu, đối tượng và phạm vi nghiên cứu
a Mục tiêu của đề tài
Mục tiêu của dé tài là nghiên cứu mô hình FFNet trong việc giải quyết bài toán nay, từ đó dé xuất các hướng cải tiến và tiến hành thực hiện, qua đó tạo ra mô hình tốt hơn trong việc xử lý cũng như tạo ra video tóm tắt có chất lượng nội dung hiệu quả hơn trong việc truy xuất và đánh giá thông tin, từ đó xây dựng ứng dụng web mô phỏng cho việc áp dụng vào tác vụ thực tế Công trình nghiên
cứu này sẽ góp phần đưa ra giải pháp hữu ích, tiềm năng có thể nghiên cứu và áp dụng vào các ứng dụng phù hợp, mang lại giá trị tốt đẹp cho cộng đồng và cho
sự phát triển của khoa học kĩ thuật.
b Đối tượng và phạm vi nghiên cứu
Trong phạm vi khóa luận này, các nghiên cứu xoay quanh việc cải tiến kiến trúc mạng nơ-ron mà mô hình sử dụng, cải tiến công thức hàm điểm thưởng sử dụng trong kĩ thuật RL, cải tiến công đoạn xử lý hậu kỳ cho video để tạo ra video tóm
Trang 22Chương 1 Tổng quan
tắt có nội dung chất lượng hơn từ kết quả dự đoán của mô hình Chúng tôi thực
nghiệm các mô hình dựa trên các tập dữ liệu về video thuộc nhóm học có giám
sát (dữ liệu đã được đánh nhãn bởi con người).
11.3 Đóng góp của đề tài
Các đóng góp chính của dé tài bao gồm:
¢ Tim hiểu về mô hình FFNet trong việc giải quyết van dé này.
© Dé xuất và thực nghiệm các hướng cải tiến cho mô hình FFNet bao gồm:
— Công cu rút trích đặc trưng từ frame.
— Kiến trúc mạng nơ-ron mà mô hình sử dụng.
— Công thức hàm điểm thưởng sử dụng trong kĩ thuật RL để huấn luyện
mô hình.
- Công đoạn xử lý hậu kỳ cho video để tạo ra video tóm tắt từ kết quả
dự đoán của mô hình.
¢ Thực nghiệm trên nhiều tập dữ liệu hơn để mang lại góc nhìn đánh giá chất
lượng hơn.
s Xây dựng ứng dung web mô phỏng cho công trình nghiên cứu nay.
1.1.4 Cấu trúc khóa luận
Cấu trúc của khóa luận bao gồm các phần như sau:
Chương[Ì- Tổng quan: Trình bày sơ lược về nhu cầu hiện tại của xã hội dẫn đến
van dé cần giải quyết Trinh bày mục tiêu, đối tượng và phương pháp nghiên cứu
Trang 23Chương|3|- Cơ sở lý thuyết: Trình bày cơ sở lý thuyết của mô hình FFNet và cách 2|
áp dụng kĩ thuật RL vào mô hình này.
Chương |B|- Cải tiến mô hình FFNet: Trình bày chỉ tiết về thuật toán của mô hình FFNet Trình bày những hướng cải tiến cho mô hình FFNet và những ưu điểm của từng phần cải tiến.
Chương |4|- Thực nghiệm: Trình bày vẻ quá trình thực nghiệm bao gồm: mô tả
về các tập dữ liệu được sử dụng, mô tả các độ đo được dùng để đánh giá, trình bày kết quả thực nghiệm của các phần cải tiến so với mô hình FENet ban đầu Xây dựng một ứng dụng web có chức năng nhận dữ liệu đầu vào là video được truyền trực tiếp vào và đầu ra là video tóm tắt được cập nhật gần sát với thời gian
thực.
Chương]]- Kết luận: Tóm tắt lại các phan thực hiện trong khóa luận, từ đó đưa
ra nhận định, ý kiến về những hạn chế còn tổn tại và đề xuất hướng cải tiến trong
tương lai.
1.2 Bài toán cần giải quyết
12.1 Giới thiệu bài toán
Như chúng ta đã biết, lượng dữ liệu thu về từ các hệ thống giám sát hằng ngày
rất lớn, tuy nhiên chỉ một phần nhỏ trong đó chứa các nội dung quan trọng và
Trang 24Chương 1 Tổng quan
cần thiết Hơn nữa, việc truy xuất thông tin từ dữ liệu mỗi khi cần thiết hiện tại
đang được thực hiện bởi con người, điều này sẽ rất mất thời gian khi phải xem xét các video dài để chọn lọc ra thông tin cần thiết Để cải thiện độ hiệu quả trong việc xử lý và lưu trữ dữ liệu từ camera giám sát, chúng ta cần xây dựng một mô hình có nhiệm vụ xử lý và tóm tắt các nội dung quan trọng trong video đầu vào.
s Đầu vào: video chứa day đủ nội dung.
® Dau ra: video tóm tắt chứa nội dung quan trong trong video đầu vào.
Trong thực tế, một số ứng dụng bị hạn ché về tài nguyên tính toán và lưu trữ cũng như cần kết quả tóm tắt gần sát với thời gian thực để phục vụ cho các trường hợp cần truy xuất thông tin nhanh chóng Vì vậy, tác vụ này cần một phương pháp tiết kiệm tài nguyên cần để xử lý dữ liệu đầu vào trong quá trình thực hiện cũng như tạo ra kết quả gần sát với thời gian thực, bên cạnh đó vẫn đáp ứng được độ hiệu quả về nội dung được tóm tất.
1.2.2 Cac nghiên cứu liên quan
Các nghiên cứu này thuộc 2 nhóm phương pháp là Video Summarization và
Video Fast Forwarding Về kết quả đầu ra, cả 2 nhóm phương pháp trên đều
tạo ra bản tóm tắt chứa các nội dung được mô hình đánh giá là quan trọng trong video đầu vào Tuy nhiên, 2 nhóm phương pháp này có sự khác biệt về chiến lược thực hiện, từ đó video tóm tắt tạo ra từ 2 nhóm phương pháp trên cũng có sự khác biệt về một số đặc điểm.
a Video Summarization
Đây là nhóm thuật toán dựa trên video đầu vào để chọn ra các đoạn được mô
hình đánh giá là chứa nội dung quan trọng, sau đó ghép các đoạn đó với nhau
Trang 25Chương 1 Tổng quan
tạo thành video tóm tắt, vì vậy video tóm tắt sẽ có đặc điểm là chỉ bao gồm những
đoạn được coi là quan trọng, còn những thông tin trong các đoạn khác sé bị lược
bỏ hoàn toàn và không nằm trong video tóm tắt Một số công trình nghiên cứu
thuộc nhóm phương pháp Video Summarization là:
¢ Hoc có giám sát: Flexible Detect-to-Summarize Network for Video
Sum-marization[29| ; Supervised Video Summarizaton via Multiple Feature Sets with Parallel Attention[5]; Combining global and local attention with po- sitional encoding for video summarization[1]; Video summarization with long short-term memory|28], Category-specific video summarization|22].
¢ Hoc không giám sát: Creating summaries from user videos[8]; A generic
framework of user attention model and its application in video
summa-rization[18];
vised Procedure Learning via Joint Dynamic Summarization|
A Top-Down Approach for Video Summarizatio:
Nhóm phương pháp nay can yêu cầu toàn bộ video trong quá trình xử ly để tao
ra video tóm tắt, vì vậy cần phải tiêu tốn tài nguyên để lưu trữ toàn bộ video trong quá trình thực hiện, điều này sẽ bat lợi với các hệ thống bị hạn chế về mặt tài nguyên Hơn nữa, các phương pháp này sẽ mất một khoảng thời gian dài để
có thể tạo ra video tóm tắt, điều này sẽ không phù hợp với các tác vụ cần kết quả gần sát với thời gian thực.
b Video Fast Forwarding
Khác với Video Summarization, các phương pháp thuộc nhóm Video Fast
For-warding sẽ tạo ra các bản tóm tat chứa nội dung trai dài theo dòng chảy thời gian của video đầu vào Các phương pháp trước đây chủ yếu tập trung vào việc điều khiển tốc độ của video tùy thuộc vào từng đoạn, điều này được thực hiện dựa
trên việc phân tích:
Trang 26Chương 1 Tổng quan
s Các dạng chuyển động trong video: Smartplayer: user-centric video
fast-forwardingl2]; An extended framework for adaptive playback-based video
summarization[21]; Constant pace skimming and temporal subsampling of
video using motion activity, [20].
¢ Thông tin về mặt ngữ nghĩa: A new player-enabled rapid video
naviga-tion method using temporal quantizanaviga-tion and repeated weighted
boost-ing search[11]; A smart video player with content based fast-forward
play-back[12].
Theo đó, khác với nhóm phương pháp Video Summarization, video tóm tắt từ
các phương pháp Video Fast Forwarding chứa nội dung bao quát của toàn video
mà không bỏ qua hẳn 1 đoạn thông tin liên tục nào.
Tuy nhiên, các phương pháp này cũng yêu cầu xử lý toàn bộ video, điều này mang lại những khó khăn và bắt lợi tương tự nhóm phương pháp Video Summa-
rization, hơn nữa các phương pháp này vẫn thể hiện độ hiệu quả chưa được cao
trong kết quả đầu ra.
c FFNet
FFNet được biết đến là mô hình đầu tiên thuộc nhóm phương pháp Video Fast Forwarding sử dụng kỹ thuật RL để giải quyết van dé này Ý tưởng chính của FFNet nằm ở việc bỏ qua các frame không quan trọng tiếp theo dựa trên việc
phân tích và đánh giá frame hiện tại Với mỗi frame được xét, mô hình sẽ rút
trích đặc trưng của frame và đánh giá, sau đó quyết định số frame tiếp theo bị bỏ
qua, các frame này sẽ không được mô hình xử lý cũng như không được thêm vào
video đầu ra Sau đó, mô hình tiếp tục xét frame tiếp theo được nhảy tới và tiếp tục quyết định số frame kế tiếp bị bỏ qua, quá trình này sẽ lặp lại như vậy cho đến khi kết thúc video Theo đó, video tóm tắt sẽ gồm các frame được xét, điều
Trang 27Chương 1 Tổng quan
này cũng cho thấy FENet không cần xử lý toàn bộ video mà chỉ cần xử lý một lượng frame trong đó để tạo ra video tóm tắt, từ đó giúp tiết kiệm tài nguyên xử
lý hơn Hơn nữa, với chiến lược này, FFNet có thể tạo ra video tóm tắt rất nhanh
và đáp ứng được yêu cầu gần sát với thời gian thực Với công trình nghiên cứu này, chúng tôi thực hiện một số hướng cải tiến để tạo ra một mô hình tốt hơn trong việc xử lý cũng như tạo ra video tóm tắt có chất lượng về mặt biểu thị nội dung hiệu quả hơn Thuật toán chỉ tiết của mô hình FFNet và các van dé cải tiền được trình bày trong chương |
11
Trang 28giám sát (Unsupervised Learning) Điểm đặc biệt của học tăng cường so với 2
phương pháp còn lại là về dữ liệu sử dụng trong quá trình huấn luyện mô hình.
Học có giám sát là một nhóm các phương pháp sử dụng dữ liệu đã được đánh
nhãn để phục vụ cho quá trình học Ngược lại, học không giám sát sử dụng dữ
liệu không được đánh nhãn sẵn, theo đó mô hình sẽ tự học ra quy luật dựa trên
các đặc trưng của dữ liệu Khác với cả 2 nhóm phương pháp trên, các phương
pháp học tăng cường không can chuẩn bị sẵn dữ liệu, theo đó dir liệu sẽ được
tạo ra trong quá trình học và trải nghiệm của tác tử, từ đó sử dụng những dữ liệu
này để huấn luyện mô hình.
Hai thành phần quan trọng trong học tăng cường là môi trường (environment)
và tác tử (agent):
¢ Môi trường (Environment): là bài toán cần giải quyết được mô hình hóa bao gồm 2 thành phan là không gian trạng thái (set of states) và hàm điểm
Trang 29Chương 2 Cơsở lý thuyết
thưởng (reward function).
© Tác tử (Agent): hoạt động trên môi trường được thiết lập Mỗi khi tác tử
ở một trạng thái nào đó (trạng thái hiện tại), tác tử sẽ phân tích để đưa ra
hành động phù hợp, sau khi thực hiện hành động được chọn, tác tử sẽ được
chuyển đến trạng thái mới (trạng thái tiếp theo) Theo đó, tác tử sẽ nhận được tín hiệu phản hồi từ môi trường để cho biết việc thực hiện hành động này ở trạng thái này có hiệu quả (tốt hay xấu) như thế nào, từ đó tác tử rút kinh nghiệm cho những lần tiếp theo khi gặp trạng thái tương tự.
Quá trình học trong RL diễn ra thông qua việc tác tử trải nghiệm trực tiếp trên môi trường được thiết lập để tạo ra dữ liệu và sử dụng dit liệu đó cho việc huân luyện Để áp dụng kĩ thuật RL, bài toán cần được mô hình hóa về môi trường phù hợp gồm các thành phần sau:
© S:1a không gian trạng thái được thiết lập từ bài toán, bao gồm tập hợp tất
cả các trạng thái sự tồn tai trong đó.
® A: Tập hợp tất cả các hành động a, mà tác tử có thể chọn khi ở một trạng thái nào đó, sau khi thực hiện hành động thì tác tử sẽ được chuyển đến trạng thái tiếp theo.
® r(s,a,s’): là điểm thưởng nhận được sau khi thực hiện hành động a từ trạng thái s và chuyển sang trạng thái s” Độ lớn của điểm thưởng sẽ phản ánh
độ hiệu quả của quyết định lựa chọn hành động này Điểm thưởng tích lũy
(tổng điểm thưởng của tất cả các bước từ đầu đến khi kết thúc) được tính bằng công thức:
R=} (ŒY ey) = Ve (Se, ak S41) (2.1)
k k
Trang 30Chương 2 Cơsở lý thuyết
Trong đó: 7(s¿,ø¿,s¿+¡) là điểm thưởng tức thời tại bước thứ k Hệ số
dis-count + có chức năng làm giảm trọng số điểm thưởng của các bước càng về sau, điều này giúp cho điểm thưởng tích lũy được hội tụ.
7 (Policy): Là chiến lược lựa chọn hành động sao cho tối đa hóa điểm
thưởng tích lũy sẽ nhận được trong hiện tại và cả tương lai.
71(s¿) = arg max E[R|s¿„ 4, 7r] (2.2)
sẽ cổ gắng ăn được càng nhiều điểm càng tốt cho đến khi kết thúc trò chơi Theo
đó, bài toán được mô hình hóa như sau:
¢ Không gian trạng thái (S) là vùng không gian hữu han mà con rắn được phép di chuyển, bao gồm tất cả các trạng thái (s) có thể xảy ra Trong đó, mỗi trạng thái s, biểu diễn thông tin vẻ các thành phan (vị trí của con ran
và các điểm thức ăn) ở thời điểm k Theo đó, trạng thái sẽ thay đổi theo thời
gian dựa trên việc đi chuyển của con rắn.
s Tập hop A gồm tất cả các hành động (a) mà người chơi có thể chọn tại 1 thời điểm để điều khiển con rắn Cụ thể, người chơi có 3 lựa chọn là: tiến lên, qua trái, qua phải Sau khi người chơi thực hiện hành động (2), con rắn sẽ di chuyển theo hướng được chọn và trạng thái hiện tại s„ sẽ chuyển sang trạng thái tiếp theo sự.
Trang 31Chương 2 Cơsở lý thuyết
© 7(s¿„ñ,s¿¿¡) là điểm thưởng người chơi nhận được sau khi thực hiện hành
động Điểm thưởng nay cho biết quyết định vừa rồi có hiệu quả (tốt hay xấu) như thế nào Cụ thể, điểm thưởng ở trong trường hợp này liên quan đến việc có ăn được thức ăn hay không, nếu con rắn ăn được thức ăn thì
điểm thưởng sẽ cao.
® 7 (Policy) là chiến lược mà người chơi sử dụng để tính toán và lựa chọn hành động phù hợp trong suốt quá trình điều khiển con rắn Chiến lược càng tốt thi tổng điểm thưởng thu về sẽ càng cao Vì vậy, tiêu của bài toán này là tìm ra chiến lược chơi tối tru.
Trong kĩ thuật RL, quá trình học được thực hiện thông qua việc tác tử được trải
nghiệm trên môi trường không gian trạng thái Đầu tiên, tác tử khởi tạo một chiến lược (policy) và sử dụng chiến lược này để trải nghiệm trên môi trường
không gian trạng thái Theo đó, ở mỗi bước lặp thứ k, tác tử đang ở trạng thái
(s¿), tac tử sẽ dựa trên chiến lược hiện tại để phân tích và quyết định chọn 1 hành động (z¿) nào đó trong số các hành động hợp lệ, việc chọn hành động trong quá
trình học cần kèm thêm một số thành phần nhiễu để tác tử có thể khám phá và tạo
ra các trải nghiệm mới, sau khi thực hiện hành động này tác tử sẽ được chuyển đến trạng thái tiếp theo (sự 1) Sau khi quá trình này diễn ra, tác tử thu về điểm thưởng (reward) tương ứng, điểm thưởng này được phản hồi từ môi trường để cho biết việc chọn hành động a, ở trạng thái sự có hiệu quả như thé nao (thể hiện
qua độ lớn của điểm thưởng) Theo đó, một dữ liệu (transition) được tạo ra gồm
4 thành phan (sự, ag, 1, 8,41), và các dir liệu này sẽ được sử dụng để huấn luyện
mô hình, cụ thể là cập nhật lại chiến lược của tác tử.
15
Trang 32Chương 2 Cơsở lý thuyết
2.1.1 Các hướng tiếp cận của RL
Thông thường, các hướng tiếp cận của RL được phân vào 2 nhóm phương pháp:
Model-based và Model-free.
a Phương pháp model-free
Vào năm 1898, nhà tâm lí học Edward Thorndike dé xuất một quy luật mang tên
“quy luật hiệu ting” [27] Nội dung chính của quy luật này la những phản ung
mang lại hiệu ứng tích cực sẽ có tỉ lệ xuất hiện cao hơn so với những phản ứng mang hiệu ứng tiêu cực trong cùng một tình huống.
Thorndike phát hiện quy luật trên trong một thí nghiệm mà ông đích thân làm,
đưa một con mèo vào một hộp kín, các mặt xung quanh của hộp là các song gỗ
và có một vài chốt kéo, xoay để mở hộp Để thoát khỏi đó, con mèo phải tác động lên chuỗi các chốt Quá trình con mèo thử tác động lên hộp cũng là quá trình con
mèo đang tương tác với môi trường, nó ghi nhớ những hành động nó đã thử, đặc
biệt là những chốt nó thường tác động trước khi thành công thoát khỏi hộp Càng nhiều lần thành công, tốc độ thoát khỏi hộp của con mèo càng nhanh Thorndike kết luận rằng con mèo đã học được độ tích cực hoặc tiêu cực của phản ứng từ môi
trường tương ứng với hành động của bản thân.
Phương pháp model-free hình thành dựa trên ý tưởng trên, theo đó tác tử RL
quan sát thế giới, thực hiện hành động và tính toán phần thưởng Tác tử thường bắt đầu bằng các hành động ngẫu nhiên và tăng tỉ lệ lựa chọn hành động mang lại phần thưởng cao hơn.
Điểm đặc biệt trong phương pháp model-free là không tổn tại bat kỳ tri thức hay
thông tin mô hình của môi trường, mà tác tử bắt buộc phải tự học hỏi bằng cách trải nghiệm trực tiếp thông qua việc liên tục thử và phạm lỗi.
Trang 33Chương 2 Cơsở lý thuyết
b Phương pháp model-based
Quy luật hiệu ứng của Thorndike vẫn được thịnh hành cho đến những năm 1930,
khi nhà tâm lý học Edward Tolman thí nghiệm tốc độ một con chuột thoát khỏi
mê cung và phát hiện động vật có khả năng học và mô phỏng môi trường ngay
cả khi không được củng cố bằng kinh nghiệm.
Trong thí nghiệm, Tolman chia các con chuột thành 3 nhóm: nhóm 1 Tolman đặt
thức ăn ngay cổng ra mê cung; nhóm 2 Tolman không hé đặt thức ăn và nhóm
3 Tolman chỉ đặc thức ăn trong nửa thời gian sau của cuộc thí nghiệm Kết quả
cho thấy nhóm 3 ở nửa thời gian đầu mắt thời gian rất lâu để thoát khỏi mê cung,
nhưng đến nửa thời gian sau khi đã có thêm động lực (là thức ăn) thì nhóm 3 thoát khỏi mê cung còn nhanh hơn cả nhóm 1 Điều đó cho thấy rằng, ở nửa thời gian đầu, nhóm 3 tuy không có thức ăn nhưng vẫn khám phá và cố nhận thức kiến trúc mê cung, bản đồ mê cung trong đầu sẽ phát huy khi có động lực.
Tolman gọi đây là học ngầm (“latent learning”[15]).
Học ngầm cho phép động vật phát triển “bức tranh” biểu diễn thế giới và mô phỏng chuỗi hành động trong đầu để dự đoán phản hôi của chuỗi hành động trên Học ngầm cũng là nền tảng cho phương pháp model-based Trong phương pháp model-based, 2 thành phần quan trọng để mô hình hóa bài toán là:
¢ Hàm xác suất chuyển đổi trang thái (Transition Probability Function) T(s’|s, a)
là xác suất trạng thái s” được diễn ra khi tác tử thực hiện hành động a tại
trạng thái s, ngoài trạng thái s’ có thể xảy ra thì còn có nhiều trạng thái khác.
Việc không chắc chắn về trạng thái tiếp theo là do trạng thái tiếp theo không phụ thuộc hoàn toàn vào hành động của tác tử mà còn liên quan đến nhiều nhân tố khác (như các tác tử khác, quy luật của môi trường ).
¢ Ham điểm thưởng (Reward Function) r(s,a,s’) có khái niệm đã được dé cập
ở mục2.1|
17
Trang 34Chương 2 Cơsở lý thuyết
Trong học ngầm, “bức tranh” thế giới là hàm xác suất chuyển đổi trạng thái, chuỗi
hành động được lựa chọn dựa trên “bức tranh” và trên hàm điểm thưởng, khi đã tìm được chuỗi hành động thỏa mãn mục tiêu của bản thân thì tác tử mới bắt đầu thực hiện chuỗi hành động Tổng kết lại, van dé của phương pháp model-based
là học hàm xác suất chuyển đổi và hàm điểm thưởng như thé nào.
c Sự khác biệt giữa model-based và model-free
Điểm khác biệt chủ yếu giữa hai nhóm phương pháp trên nằm ở mục tiêu của
việc học Model-based có mục tiêu là điều chỉnh bản thân sao cho giống với môi
trường nhất, còn model-free chỉ muốn tối ưu hóa chiến lược của mình.
Phương pháp model-based thường được lựa chọn cho các bài toán được mô hình
hóa thành môi trường mà điểm thưởng được tính ra trước khi hành động được thực hiện Còn trong trường hợp môi trường của bài toán thường xuyên thay đổi,
các phương pháp model-based thường cho kết quả tệ hơn Trong thực tế, không
ton tại môi trường cố định trong mọi trường hợp, vậy nên phương pháp
model-free thường được ưu tiên sử dụng trong các bài toán lớn liên quan đến thực té.
2.1.2 Deep Q-Learning Network
Deep Q-Learning Network (DQN) là mô hình hoc sâu (Deep Learning) được ap
dụng cho Q-Learning (tiêu biểu cho nhóm phương pháp model-free với tiêu tối
ưu hóa chiến lược) Trong Q-Learning, điểm thưởng tích lũy được thay thế bằng
giá trị đơn giản hơn nhưng có ý nghĩa tương đương, đó là Q-Value Cụ thể, mỗi
khi ở 1 trạng thái s¿ bắt kì, tác tử sẽ lựa chọn một hành động trong tập không gian
hành động hợp lệ {z1, z›, a„ } sao cho tối ưu hóa điểm thưởng nhận được Theo
Trang 35Chương 2 Cơ sở lý thuyết
đó, ta có chiến lược lựa chọn hành động được cập nhật lại thành:
71(s¿) = arg max Q(s,,@) (2.3)
a
Trong đó:
Q(s,a) = r(s,ø) + + x max Q(s’,a) (2.4)
Q(s,a) là Q-Value khi thực hiện hành động a tại trang thái s; r(s, a) là điểm thưởng
nhận được cho hành động a tại trạng thái s, s” là trạng thái kế tiếp sau khi thựchiện hành động, + là hệ số discount có giá trị trong khoảng (0, 1] với ý nghĩa giúp
đảm bảo những hành động ở tương lai càng xa thì càng ít quan trọng.
Khi một hành động được lựa chon dựa trên Q(s,a) và thực hiện, ta thu được điểm
thưởng và ta sẽ tính toán được Q’(s,a) mới trên chính trạng thái và hành động
vừa lựa chon Day là lúc ta cập nhật lại Q(s,ø), nhưng không phải thay thé bằng
Q'(s,a) mà còn dựa vào sự sai khác giữa 2 giá tri mới và cũ Sự sai khác đó được
gọi là Temporal Difference:
TD = Q'(s,a) — Q(s,a) (2.5)
Va Q(s,a) sẽ được cập nhật dựa trên TD:
Q(s,a) = Q(s,a) +a*TD (2.6)
Trong đó, « với giá tri trong khoảng (0, 1], có ý nghĩa như learning-rate trong May
học (Machine Learning), biểu thị Q(s,a) sẽ được cập nhật đến gần Q'(s,a) như
thé nào Và qua các lần thực hiện hành động, Q(s,a) sẽ dần được hội tu
19
Trang 36Chương 2 Cơ sở lý thuyết
Một phan không thể thiếu của Q-Learning là yếu tố khám phá (exploration) Khihuấn luyện, vì kinh nghiệm của tác tử (biểu thị dưới dạng ma trận Q-Value hayhàm Q-Value) vẫn còn non nớt nên nếu chỉ dựa vào kinh nghiệm mà lựa chọnhành động thì những trải nghiệm có thể bị lặp đi lặp lại Vậy nên đôi lúc, khi
chọn hành động, tác tử sẽ lựa chọn ngẫu nhiên thay vì dựa vào kinh nghiệm.
Điều này làm phòng phú trải nghiệm của tác tử cũng như cải thiện chất lượnghọc Như vậy, công thức chiến lược khi huấn luyện được sửa đổi thành:
random nếu ế <
71(S) = aca (2.7)
argmax Q(s,a) ngược lại
a
Trong đó, exploration rate e có giá trị trong khoảng [0, 1] biểu thi xác suất mà tác
tử lựa chọn ngẫu nhiên Trong quá trình học, ở mỗi lần lựa chọn hành động, tác tử
tạo ra giá trị ngẫu nhiên ế trong khoảng [0, 1], nếu £ được tạo nằm trong khoảng[0, c] thì thực hiện explore (khám phá bằng việc lựa chọn hành động ngẫu nhiên),
ngược lại tác tử sẽ chọn hành động theo chiến lược hiện tại Khi kinh nghiệm cànglúc càng nhiều thì xác suất lựa chọn ngẫu nhiên cũng cần phải giảm, vậy nên egiảm dần qua mỗi lần học cho đến giá trị e tối thiểu (theo quy ước phù hợp)
Q-Learning ghi lại các kinh nghiệm và cập nhật giá trị có ý nghĩa tương đương
điểm thưởng tích lũy kỳ vọng cho từng cặp trạng thái - hành động để chọn hànhđộng có kỳ vọng cao nhất trong trạng thái hiện tại Do đó, Q-Learning yêu cầumột ma trận lưu giữ giá trị kỳ vọng cho tất cả cặp trạng thái - hành động ton tại.Điều này làm tiêu tốn bộ nhớ và chi phí tính toán khi không gian trạng thái hoặc
không gian hành động lớn.
Giải pháp hiện tại là cần một hàm ước lượng giá trị Q-Value cho từng cặp trạngthái - hành động DeepMind đã dé cử mạng học sâu (Deep Neural Network),chuyên dụng cho các vấn dé phức tạp, đặc biệt không cần sự trợ giúp của các
20
Trang 37Chương 2 Cơ sở lý thuyết
chuyên gia về đặc trưng Ta gọi giải pháp này là Deep Q-Learning Network(DQN) Mô hình DỌN nhận đầu vào là trạng thái (s), đầu ra là giá trị Q-Valuecho tất cả hành động (a) mà tác tử có thể thực hiện Kiến trúc đầu tiên được sử
dụng cho DỌN là một mang Multi-layer Perceptron (MLP).
Mạng MLP là một mạng gồm nhiều lớp Fully Connected Trong đó, mỗi lớp FullyConnected gồm một hoặc nhiều đơn vị (unit), mỗi đơn vị đều được tính toán
bằng tổng giá trị của tất cả đơn vị thuộc lớp Fully Connected phía trước nhân với
trọng số tương ứng Quá trình này sẽ diễn ra tuần tự từ lớp đầu (dữ liệu đầu vào)
và lần lượt qua từng lớp cho đến lớp cuối cùng (kết quả đầu ra) Ta gọi đây là quá
trình feed-forwarding.
2.2 Mạng nơ-ron hồi quy
Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) hay các mô hình cải tiến
từ RNN đều là những mô hình có khả năng xử lí hiệu quả trên các dạng dữ liệu
có tính tuần tự Dữ liệu mang tính tuần tự có đặc điểm nổi bật là néu đảo trình tự
dữ liệu thì ý nghĩa sẽ khác, ví dụ như dữ liệu văn bản, giọng nói, video, Ngoài
ra, nếu mô hình có tính chất xử lí mỗi điểm dữ liệu dựa trên kết quả tính toán
trên các điểm dữ liệu trước đó thì RNN vẫn là sự lựa chọn thích hợp.
RNN có 2 thành phần cơ bản:
© Đầu vào (kí hiệu 1a x): x là một chuỗi các điểm dữ liệu mang tính tuần tự
(x1, X2, +, Xn).
¢ Hidden State (kí hiệu là h;): là bộ nhớ của mạng, mỗi h; là sự kết hợp giữa
thông tin đã được tổng hợp trước đó (h;_1) và điểm input hiện tại (x;)
21
Trang 38Chương 2 Cơ sở lý thuyết
Luéng xử lí của RNN khá đơn giản, tại mỗi thời điểm t, hidden state trước đó
(h;_+) kết hợp với với điểm dữ liệu hiện tại (x;) theo công thức|2.8|
Trong đó, f là hàm phi tuyến tính, thường là Tanh hoặc ReLU W và U là hai
ma trận trọng số, W vuông có cạnh bằng số chiều của hidden state (tạm gọi là
dim(h)), U có kích thước (dim(h), dim(x)) để vectơ U * x; có số chiều bằng số
chiều hidden state Ludng xử lí của RNN có thể biểu diễn thành sơ đỏ [2.1]
HINH 2.1: Luéng xử lí tại mỗi điểm dữ liệu của RNN.
Vì phải xử lí dữ liệu mang tính tuần tự nên RNN van ton tại các nhược điểm:
* Chuỗi dữ liệu phải được thực hiện tuần tự: Mô hình không tận dụng được
khả năng tính toán song song của máy tính (GPU/TPU).
® Đạo ham bị triệt tiêu (Vanishing Gradient): là hiện tượng khi đang lan
truyền ngược (backpropagation), giá trị đạo hàm về gần 0 khi chỉ mới điqua vài nút (mỗi nút tương ứng với 1 điểm input), vậy nên RNN không théhọc được từ các nút ở xa Nhưng van dé này đã được giải quyết một phần
trong những mô hình cải tiến từ RNN, đó là LSTM va GRU, những mô hình
có thiết kế lọc những thông tin không cần thiết
22
Trang 39Chương 2 Cơ sở lý thuyết
2.3 Mạng nơ-ron tích chập
Mạng nơ-ron tích chập (Convolutional Neural Network - CNN) là một trong
những mạng học sâu tiên tiến thường được sử dụng cho các bài toán nhận dạngđối tượng trong ảnh
CNN thường được sử dụng bởi độ chính xác cao và khả năng nhận biết các đốitượng trong tự nhiên như con người, con vật, nhờ 3 tính chất đặc biệt:
* Tinh bất biến: Cùng một đối tượng, nếu ta dùng phép biến đổi dịch chuyển
(translation), xoay tròn (rotation) hay phóng to nhỏ (scaling) thì thông tin
được rút trích ra thông thường sẽ có giá trị khác nhau Nhưng CNN vẫn rút
trích ra cùng một giá trị đối với 3 phép biến đổi trên
© Tính bảo toàn không gian: Dau ra của mang CNN là những feature map
biểu diễn từng đối tượng Đồi tượng trong feature map và đối tượng trong
ảnh đầu vào dù khác kích thước nhưng có chung vị trí tương đối và tỉ lệ
23
Trang 40Chương 2 Cơ sở lý thuyết
các feature map có kích thước tổng hợp lại là h’ x :ø' x c’ Lớp tích chập sử dụng
cách thức tính toán tích chập Ví dụ: Cho tích chập bang cách áp dụng 1 filter lên
1 ma trận đầu vào 2 chiều như hình|2.2|và hình|2.3]
Ma trân đâu vào Bộ lọc (filter)
2 chiêu 5x5 3x3
HÌNH 2.2: Ví dụ 1 đầu vào 2 chiều và 1 filter 2 chiêu.
Ma tran dau vào B6 loc (filter) Ma tran dau ra
2 chiéu 5x5 3x3 2 chiéu 5x5
HINH 2.3: Ví du áp dung filter lên một vùng cục bộ trên ma trận đầu
vào để ra 1 điểm ảnh trên ma trận đầu ra.
Sau khi dịch chuyển filter sao cho filter trượt qua hết tất cả điểm ảnh trên đầu
vào, ta lap day được ma trận dau ra 2 chiều và hoàn thành tổng hợp một feature
24