Ứng Dụng Deep Learning Cho Bài Toán Phát Hiện Sự Kiện Trong Dữ Liệu Video 5196326.Pdf

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	58
Dung lượng	10,62 MB

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC MÁY TÍNH ĐỖ VĂN TIẾN ỨNG DỤNG DEEP LEARNING CHO BÀI TOÁN PHÁT HIỆN SỰ KIỆN TRONG DỮ LIỆU VIDEO LUẬN VĂN THẠC SĨ NGÀNH K[.]

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC CƠNG NGHỆ THƠNG TIN KHOA KHOA HỌC MÁY TÍNH ĐỖ VĂN TIẾN ỨNG DỤNG DEEP LEARNING CHO BÀI TOÁN PHÁT HIỆN SỰ KIỆN TRONG DỮ LIỆU VIDEO LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 GIẢNG VIÊN HƯỚNG DẪN: PGS TS DƯƠNG ANH ĐỨC PGS TS LÊ ĐÌNH DUY TP HỒ CHÍ MINH, 2016 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN KHOA KHOA HỌC MÁY TÍNH HUỲNHGỌC TÍN ĐỖ VĂN TIẾN ỨNG DỤNG DEEP LEARNING CHO BÀI TOÁN PHÁT HIỆN SỰ KIỆN TRONG DỮ LIỆU VIDEO LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 GS.TSKH HỒNG VĂN KIẾM TP HỒ CHÍ MINH - Năm 2016 LỜI CÁM ƠN Trước tiên, em xin gửi lời cảm ơn chân thành đến thầy PGS.TS Dương Anh Đức thầy PGS.TS Lê Đình Duy Trong suốt trình làm luận văn, hai thầy dành nhiều cơng sức giúp đỡ hướng dẫn em tận tình để em hồn tất đề tài cách thuận lợi Bên cạnh đó, em xin cảm ơn anh chị đồng nghiệp bạn sinh viên phịng Thí nghiệm Truyền thơng Đa Phương tiện, trường ĐH Công nghệ Thông tin hỗ trợ em nhiều suốt thời gian em thực luận văn Em xin gửi lời cảm ơn đến thầy cô trường ĐH Công nghệ Thông tin, ĐHQG HCM tạo điều kiện cho em học tập hoàn tất luận văn Em xin chân thành cảm ơn TP.HCM, tháng năm 2016 Đỗ Văn Tiến LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác, ngoại trừ tư liệu trích dẫn ghi mục tài liệu tham khảo Tác giả luận văn Đỗ Văn Tiến iii TĨM TẮT Bài tốn phát kiện video (multimedia event detection - MED)1 mô tả sau: đầu vào thường video danh sách kiện, yêu cầu đầu đoạn video chứa nội dung tương ứng với kiện cho trước rút từ video đầu vào Khái niệm kiện bao gồm nhiều loại từ đơn giản như: mưa, đám lửa, đến kiện phức tạp như: bữa tiệc, bạo lực Đây tốn có nhiều thách thức độ lớn phức tạp liệu video, tính đa dạng mang tính ngữ nghĩa cao kiện Việc giải toán tiền đề để xây dựng ứng dụng thực tế hệ thống giám sát, phân tích nội dung video Các nghiên cứu gần thường tập trung vào việc lựa chọn sử dụng đặc trưng (feature) để biểu diễn khái niệm kiện video Tuy nhiên, đặc trưng thường sử dụng chưa thể độ phức tạp tính ngữ nghĩa kiện hầu hết đặc trưng chuyên gia thiết kế đề xuất (handcrafted) Deep Learning (DL) khái niệm thuật toán máy học để xây dựng mơ hình đối tượng cách học theo nhiều cấp biểu diễn từ quan hệ phức tạp liệu học [1] Một tính bật DL khả tự học đặc trưng trực tiếp từ liệu đầu vào Tuy nhiên, theo khảo sát học viên toán thị giác máy nghiên cứu thường áp dụng DL ảnh, nghiên cứu áp dụng DL liệu video áp dụng vào toán phát kiện video bước sơ khởi Ngồi ra, DL cịn lĩnh vực cộng đồng nghiên cứu nước nên chưa có nhiều tài liệu tham khảo http://www.multimediaeval.org/ Theo đó, nội dung luận văn tập trung vào việc tìm hiểu áp dụng DL vào tốn phát kiện video Sự kiện, nội dung đề cập cảnh bạo lực - toán phát cảnh bạo lực video (Violent Scenes Detection -VSD) Đây ví dụ điển hình lớp tốn phát kiện thể mức độ phức tạp khái niệm bạo lực đa dạng đối tượng, thành phần tham gia kiện bạo lực Luận văn thực việc áp dụng đặc trưng Deep Feature (DF) rút trích từ mơ hình DL (Alexnet, VGG, UvAnet) Thực nghiệm tiến hành tập liệu chuẩn MediaEval Affect Task 2014 - Violent Scenes Detection -VSD Kết thực nghiêm cho thấy việc áp dụng DL tăng độ xác hệ thống từ 1% đến 15% so với đặc trưng handcrafted Kết nghiên cứu công bố hội nghị khoa học Quốc gia lần thứ - nghiên cứu ứng dụng công nghệ thông tin FAIR - Fundamental and Applied IT Research (2016) - Cần thơ Từ khóa: Deep learning, Phát sựu kiện - Event detection, Phát thông cảnh bạo lực video - Violent Scene Detection http://www.multimediaeval.org/mediaeval20/ NHỮNG ĐÓNG GĨP CHÍNH • Đề xuất áp dụng đặc trưng Deep feature từ mơ hình Deep learning cho toán phát cảnh bạo lực video Kết nghiên cứu công bố hội nghị khoa học Quốc gia lần thứ - nghiên cứu ứng dụng công nghệ thông tin - Fundamental and Applied IT Research (FAIR-2016) • Nội dung luận văn hệ thống lại kiến thức sở DL, tài liệu tham khảo hữu ích cho nghiên cứu sau Mục lục Lời cam đoan iii Tóm tắt iv Những đóng góp vi Mục lục vii Danh sách hình vẽ x Danh sách bảng xii Danh sách từ viết tắt xiii Mở đầu 1.1 Đặt vấn đề 1.2 Thách thức, mục tiêu phạm vi 1.2.1 Thách thức 1.2.2 Tính tính cấp thiết 1.2.3 Mục tiêu phạm vi 1.3 Cấu trúc luận văn Bài toán phát cảnh bạo lực video 2.1 Phát biểu toán 2.2 Một số thách thức 2.2.1 Về mặt liệu 2.2.2 Độ phức tạp khái niệm bạo lực vii 1 4 8 11 11 13 MỤC LỤC 2.3 2.4 Một số nghiên cứu liên quan Kết chương Tổng quan Deep learning 3.1 Neural networks 3.1.1 Neural sinh học 3.1.2 Neural nhân tạo 3.1.3 Mạng neural nhân tạo (Artificial Neural Networks) 3.1.4 Huấn luyện ANN 3.1.5 Thuật toán lan truyền ngược 3.2 Deep learning 3.2.1 Khái niệm Deep learning 3.2.2 Phân loại Deep learning 3.2.2.1 DL cho học không giám sát 3.2.2.2 DL cho học giám sát 3.2.2.3 Mạng kết hợp DL 3.3 Convolutional Neural Networks 3.3.1 Các thành phần mạng CNN 3.3.1.1 Convolution 3.3.1.2 Pooling 3.3.1.3 ReLU 3.3.1.4 Fully-connected 3.3.2 Kiến trúc CNN 3.4 Một số thư viện framework hỗ trợ DL 3.4.1 Caffe 3.4.2 Torch 3.4.3 TensorFlow 3.4.4 Theano 3.5 Một số nghiên cứu sử dụng DL thị giác máy 3.6 Kết chương 14 16 18 18 19 21 24 26 27 28 28 30 31 33 34 34 35 35 40 40 41 42 42 43 44 44 45 46 48 Deep Learning cho toán phát cảnh bạo lực video 49 4.1 Kiến trúc hệ thống 50 viii MỤC LỤC 4.1.1 4.1.2 Tiền xử lý video Rút trích đặc trưng 4.1.2.1 Alexnet 4.1.2.2 VGG 4.1.2.3 UvANet 4.1.2.4 RGB-SIFT 4.1.2.5 Đặc trưng âm MFCC 4.1.2.6 Đặc trưng chuyển động (Motion) 4.1.3 Biểu diễn đặc trưng 4.1.4 Thuật toán SVM Dữ liệu thực nghiệm phương thức đánh giá 4.2.1 Dữ liệu thực nghiệm 4.2.2 Phương thức đánh giá Kết thực nghiệm đánh giá 4.3.1 Kết thực nghiệm DF biểu diễn khái niệm bạo lực thông qua sub-concepts (C1) 4.3.2 Kết thực nghiệm DF biểu diễn trực tiếp khái niệm bạo lực (C2) 4.3.3 Đánh giá Kết chương 51 52 52 53 54 55 55 56 57 57 58 58 58 60 Kết luận hướng phát triển 5.1 Kết luận 5.2 Hướng phát triển 69 69 70 Cơng trình cơng bố 71 Tài liệu tham khảo 72 4.2 4.3 4.4 ix 61 64 66 67 Chương 3.Tổng quan Deep learning representation learning It is in the intersections among the research areas of neural network, graphical modeling, optimization, pattern recognition, and signal processing" [22] • Hai yếu tố DL là: (1) mơ hình bao gồm nhiều tầng hay xử lý liệu phi tuyến với nhiều giai đoạn, (2) phướng pháp học giám sát không giám sát để biểu diễn đặc trưng cấp cao hơn, trừu tượng "Deep learning are two key aspects: (1) models consisting of multiple layers or stages of nonlinear information processing; and (2) methods for supervised or unsupervised learning of feature representation at successively higher, more abstract layers" [13] Như vậy: Một cách tổng quát DL khái niệm thuật toán máy học dựa ANN để xây dựng mơ hình hay phát quan hệ phức tạp liệu cách học theo nhiều tầng Kết tầng trước liệu đầu vào tầng kế tiếp, mơ hình học tầng sau tổng quát hóa so với tầng trước Ta trình bày ý tưởng thuật toán DL thực toán nhận diện đối tượng sau: để xây dựng mơ hình biểu diễn đối tượng cần học (trong toán mơ hình mặt người – hình 3.8) thuật tốn thực học theo nhiều cấp Trong đó, thông đầu cấp thấp liệu đầu vào cấp cao Cụ thể đầu vào toán ảnh mặt người cho q trình học, thuật tốn sử dụng pixels ảnh để làm liệu học cho tầng thứ với kết học “khái niệm” edges (góc cạnh) Trong tầng cách kết hợp edges với thuật toán học “khái niệm” mức cao phần khuôn mặt (mắt, mũi ) Bằng cách kết hợp “khái niệm” thuật toán xây dựng mơ hình khn mặt dùng cho việc nhận dạng 3.2.2 Phân loại Deep learning Dựa vào cách thức huấn luyện mạng DL hay cách thức mạng học từ liệu, ta chia thuật tốn DL thành loại sau : DL cho học không giám sát (unsupervised - generative learning), DL cho học có giám sát 30 Chương 3.Tổng quan Deep learning Hình 3.8: Ý tưởng tốn nhận diện mặt người sử dụng DL [4] (supervised learning), kiểu học kết hợp (hybrid DL)[13] Trong phần học viên trình bày tóm tắt ý tưởng số thuật toán tiêu biểu tương ứng loại thuật toán 3.2.2.1 DL cho học không giám sát Học không giám sát (unsupervised learning) kỹ thuật học từ liệu không gán nhãn (unlabeled data), mục tiêu khai thác thơng tin, cấu trúc hay tìm mối quan hệ từ tập liệu Một số thuật toán DL bật cho việc học khơng giám sát kể đến như: Recurrent Neural Networks (RNNs), Deep Autoencoders (DAs),Deep Belief Networks (DBNs) • RNNs đề xuất từ u cầu thực tế, có nhiều tốn kết đầu thời điểm phụ thuộc vào kết tính tốn thành phần thời điểm trước Ví dụ việc dự đoán từ xuất chuỗi việc sử dụng thơng tin từ xuất trước cần thiết Bản thân ANN túy không giải 31 Chương 3.Tổng quan Deep learning vấn đề "lữu trữ" thông tin trạng thái trước (ANN giải tốn giá trị đầu vào độc lập với nhau), RNNs đời với cấu trúc đặc biệt có kết nối ngược trở lại neural tầng trước tầng sau RNNs huấn luyện phương pháp có không giám sát, trường hợp huấn luyện không giám sát RNNs dùng để dự đốn nhãn liệu dạng chuỗi (sequence) cách sử dụng thơng tin liệu trước mà khơng cần nhãn liệu Hình 3.9 minh họa cho kiến trúc mạng RNNs đó: Hình 3.9: Ví dụ kiến trúc mạng RNNs • xt giá trị đầu vào thời gian bước thứ t • st trạng thái bước t Nó thơng tin lữu trữ mạng tính tốn tương tự giá trị đầu neural (công thức 3.3) st = f (U xt ) + W st−1 (3.3) • ot giá trị đầu bước t • DAs phát triển dựa mơ hình autoencoder - mộ hình mạng neural huấn luyện thuật tốn lan truyền ngược khơng sử dụng liệu nhãn mà thực cách cho giá trị đầu giá trị đầu vào hay nói cách khác tìm hàm xấp xỉ cho đầu đầu vào (hình 3.10 ) 32 Chương 3.Tổng quan Deep learning Hình 3.10: Ví dụ kiến trúc mạng DAs 3.2.2.2 DL cho học giám sát Học có giám sát (supervised learning) phương pháp học dựa liệu gán nhãn (các liệu đầu vào có liệu đầu tương ứng) Mục tiêu học có giám sát xây dựng hàm (function) biểu diễn mối quan hệ liệu đầu vào liệu đầu Supervised learning thường dùng để giải toán mà liệu đầu giá trị liên tục gọi toán hồi qui (regression) dự đốn nhãn phân loại cho đối tượng đầu vào gọi toán phân lớp (classification) Một số thuật toán DL bật thường huấn luyện phương pháp học có giám sát là: Deep neural networks (DNNs), mạng tích chập Convolutional Neural Networks (CNN) • Deep neural networks (DNNs) có cấu trúc mạng lan truyền thẳng với số lượng tầng ẩn lớn 2 DNNs thường huấn luyện thuật toán lan truyền ngược http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1introduction-to-rnns http://deeplearning4j.org/deepautoencoder.html https://www.coursera.org/learn/neural-networks 33 Chương 3.Tổng quan Deep learning • CNN thuật toán cho kết tốt tốn thuộc lĩnh vực thị giác máy Hình 3.11 ví dụ mơ hình sử dụng CNN cho toán nhận diện chữ viết tay [5] Trong nội dung luận văn sử dụng mô hình CNN vào giải tốn, phần tìm hiểu chi tiết CNN giới thiệu chi tiết phần 3.3 Hình 3.11: Ví dụ mơ hình sử dụng CNN Lenet [5] 3.2.2.3 Mạng kết hợp DL Trong phân loại thứ thuật toán DL, mạng huấn luyện nhờ kết hợp giữa mơ hình unsupervised learning supervised learning Cụ thể hơn, huấn luyện mạng thường sử dụng mơ hình mạng học không giám sát để khởi tạo trọng số cho mơ hình mạng học có giám sát (hai mơ hình có cấu trúc)[23] 3.3 Convolutional Neural Networks CNN thuật toán DL cho kết tốt hầu hết toán thị giác máy phân lớp, nhận dạng, Về CNN kiểu mạng ANN truyền thẳng, kiến trúc gồm nhiều thành phần ghép nối với theo cấu trúc nhiều tầng : Convolution, Pooling, ReLU Fully connected 34 Chương 3.Tổng quan Deep learning 3.3.1 Các thành phần mạng CNN Trước vào thành phần CNN, ta xem xét ví dụ cách thức xử lý thơng tin đầu vào ANN truyền thẳng để từ rút tác dụng thành phần có mạng CNN Hình 3.12 mơ tả ví dụ với liệu đầu vào ảnh có kích thước 200 *200 xử lý ANN với kết nối đầy đủ hai tầng liên tiếp (full connected) Như giả sử số neural tầng ẩn 40000 tổng số tham số (mà cụ thể trọng số liên kết W neural tầng nhập với tầng ẩn) cần phải ước lượng lên đến 1.6 tỉ Điều gây khó khăn cho việc huấn luyện ANN hai yếu tố:(1) chi phí để xây dựng liệu huấn luyện lớn (2) thời gian huấn luyện lâu Hình 3.12: Ví dụ mạng cách thức xử lý ANN với cấu trúc full connected Từ thực tế đặt người ta thấy để giảm số lượng tham số cần giảm số lượng kết nối lớp Từ thành phần convolution áp dụng - ý tưởng neural cần kết nối tới vùng cục ảnh thay tồn ảnh 3.3.1.1 Convolution Tầng Convolution (Conv) tầng quan trọng cấu trúc CNN Conv dựa lý thuyết xử lý tín hiệu số, việc lấy tích chập giúp trích xuất thơng tin quan trọng từ liệu Hình 3.14 mô tả lý thuyết cách thức 35 Chương 3.Tổng quan Deep learning Hình 3.13: Neural liên kết cục với neural thuộc tầng trước Conv hoạt động liệu đầu vào biểu diễn ma trận hai chiều Ta hình dung phép tính thực cách dịch chuyển cửa sổ mà ta gọi kernel ma trận đầu vào, kết lần dịch chuyển tính tổng tích chập (tích giá trị ma trận vị trí tương ứng), hình giá trị đầu dịch chuyển kenel kích thước 2*2 tồn ma trận kích thước 3*4 Hình 3.14: Cách thức hoạt động Conv Khi áp dụng phép tính Conv vào xử lý ảnh người ta thấy Conv giúp biến đổi thông tin đầu vào thành yếu tố đặc trưng( tương ứng 36 Chương 3.Tổng quan Deep learning phát - detector đặc trưng cạnh, hướng, đốm màu ) Hình 3.15 minh họa việc áp dụng phép tính Conv ảnh 3.15 (a) kết biến đổi hình ảnh thực phép Conv khác cho kết khác nhau, 3.15 (b) trực quan hóa kernel dùng để detector đặc trưng cạnh, hướng, đốm màu Hình 3.15: Minh họa việc sử dụng Conv xử lý ảnh Để dễ hình dung, ta xét tốn thực tính giá trị đầu ảnh có kích thước W1 *H1 * D1 ( D1 gọi chiều xâu ảnh thực chất giá trị kênh màu tương ứng với ảnh RGB) Khi Conv cửa sổ trượt (sliding window, có tên gọi kernel, filter hay feature detector ) - cửa sổ thực chất ma trận có kích thước F*F thực chiều ảnh đầu vào (ta sử dụng K filter) Trong trình xử lý dịch chuyển filter tồn ảnh theo S(stride) bước (tính pixcell) Người ta gọi vùng mà filter áp đặt lên ma trận đầu vào receptive field Trong số trường hợp để cân số bước dịch chuyển kích thước ảnh người ta chèn thêm P pixel với giá trị màu cho trước (thường 0) xung quanh viền ảnh ta ma trận đầu (feature map) W2 *H2 * D2 đó: https://adeshpande3.github.io/adeshpande3.github.io/A-Beginner%27s-Guide-ToUnderstanding-Convolutional-Neural-Networks/ 37 Chương 3.Tổng quan Deep learning • W2 =(W1 - F+2P)/S+1 • H2 =(H1 - F+2P)/S+1 • D2 =K Giá trị ma trận filter có kích thước (F*F* D1 ) +1 (cộng tham số ngưỡng filter) tương ứng trọng số, giá trị filter không đổi q trình dịch chuyển tồn ảnh đầu vào Đây tính chất quan trọng (dùng chung trọng số - shared weights) làm giảm thêm số tham số cần học trình huấn luyện mạng Từ tổng số tham số cần học cho trình sử dụng Conv (F*F*D1 )*K +K (ở cộng thêm k tham số ngưỡng k filter) Hình 3.16: Các tham số Conv Trong hình 3.17 ví dụ cụ thể, đầu vào ảnh có kích thước (32*32*3) W1 = H1 =32 D1 =3 giá trị kênh màu RGB Giả sử ta tiến hành sử dụng filter (K=6) filter có kích thước (5*5*3) F=3 với bước dịch chuyển S=1 v P=0 Tương ứng với filter cho feature http://stats.stackexchange.com/questions/114385/what-is-the-difference-betweenconvolutional-neural-networks-restricted-boltzma 38 Chương 3.Tổng quan Deep learning map khác kết đầu đó: kích thước feature map W2 = H2 = (W1 - F)/2 +1 =28 Mỗi neural feature map có số tham số (F*F*D1 ) = 5*5*3 +1 Nếu không sử dụng tính chất shared weights số tham số cần học tất feature map filter là: (28*28*6) * (5*5*3 +1) nhỏ nhiều so với việc không sử dụng Conv số lớn so với (F*F* D1 ).K + K = 5*5*3*6+6 tham số dùng chung trọng số Hình 3.17: Ví dụ tầng Conv ảnh Như sử dụng Conv có ưu điểm sau: • Giảm số lượng tham số: Ở ANNs truyền thống, neural lớp trước kết nối tới tất neural lớp sau (full connected) gây nên tình trạng nhiều tham số cần học Đây nguyên nhân gây nên tình trạng overfiting làm tăng thời gian huấn luyện Với việc sử dụng Conv cho phép chia sẻ trọng số liên kết (shared weights), thay sử dụng full connected sử dụng local receptive fields giúp giảm tham số • Các tham số trình sử dụng Conv hay giá trị filter - kernel học trình huấn luyện Như giới thiệu phần thông tin biểu thị thông tin giúp rút trích đặc trưng góc, cạnh, đóm màu ảnh việc sử dụng Conv giúp xây dựng mơ hình tự học đặc trưng 39 Chương 3.Tổng quan Deep learning 3.3.1.2 Pooling Tầng pooling (hay gọi subsampling downsample) thành phần tính tốn cấu trúc CNN Xét mặt toán học pooling thực chất q trình tính tốn ma trận mục tiêu sau tính tốn giảm kích thước ma trận làm bật lên đặc trưng có ma trận đầu vào Trong CNN toán tử pooling thực độc lập kênh màu ma trận ảnh đầu vào Có nhiều toán tử pooling Sum-Pooling, Max-Pooling, L2 -Pooling Max-Pooling thường sử dụng Về mặt ý nghĩa Max-Pooling xác định vị trí cho tín hiệu mạnh áp dụng loại filter Điều tương tự lọc phát ví trị đối tượng filter toán phát đối tượng ảnh Về mặt lý thuyết với ma trận đầu vào có kích thước W1 ’*H1 ’ * D10 thực toán tử pooling ma trận ma trận đầu vào có kích thước F’*F’ với bước nhảy S’ pixcel ta ma trận đầu W2 ’*H2 ’ * D2 ’ đó: • W2 ’=(W1 ’ - F’)/S’+1 • H2 ’=(H1 ’ - F’)/S’+1 • D2 ’=D1 ’ Hình 3.18 ví dụ sử dụng tốn tử pooling Trong hình 3.18 (a) cách thức tầng pooling xử lý đầu vào kết nhiều filter (k=64), kích thước đầu vào [224*224*64] thực với thơng số F=2 S= đầu có kích thước [112*112*64] Hình 3.18 (b) mơ tả chi tiết cách thức hoạt động max-pooling F=2 S=2 kết đầu ma trận tương ứng 3.3.1.3 ReLU Về bản, covolution phép biển đổi tuyến tính Nếu tất neural tổng hợp phép biến đổi tuyến tính mạng neural đưa dạng hàm tuyến tính Khi mạng ANN đưa toán http://cs231n.github.io/convolutional-networks/ 40 Chương 3.Tổng quan Deep learning Hình 3.18: Ví dụ tầng pooling logistic regression Do neural cần có hàm truyền dạng phi tuyến Có nhiều dạng hàm phi tuyến sử dụng trình giới thiệu bảng 3.1 Tuy nhiên, nghiên cứu gần chứng minh việc sử dụng hàm ReLu (Rectified Linear Unit) [24] cho kết tốt khía cạnh: • Tính tốn đơn giản • Tạo tính thưa (sparsity) neural ẩn Ví dụ sau bước khởi tạo ngẫu nhiên trọng số, khoảng 50% neural ẩn kích hoạt (có giá trị lớn 0) • Q trình huấn luyện nhanh trải qua bước tiền huấn luyện Như tầng ReLu đơn giản áp dụng hàm truyền ReLu 3.3.1.4 Fully-connected Fully-connected cách kết nối neural hai tầng với tầng sau kết nối đẩy đủ với neural tầng trước Đây dạng kết nối thường thấy ANN, CNN tầng thường sử dụng tầng phí cuối kiến trúc mạng 41 Chương 3.Tổng quan Deep learning 3.3.2 Kiến trúc CNN CNN có kiến trúc hình thành từ thành phần bao gồm Convolution (CONV), Pooling (POOL), ReLU, Fully-connected (FC) mặt xây dựng kiến trúc tổng quát CNN mô tả sau (dấu mũi tên thể thứ tự xếp tầng từ trước đến sau) [[CONV -> RELU]*N -> POOL?]*M -> [FC -> RELU]*K -> FC Trong đó: Tải FULL (91 trang): https://bit.ly/3UaLYeP Dự phịng: fb.com/TaiHo123doc.net • [CONV -> RELU]*N tức kiến trúc sau tầng CONV tầng RELU, CNN kiến trúc tầng lặp N lần • POOL? tầng Pooling cho người thiết kế định có khơng • [[CONV -> RELU]*N -> POOL?]*M kiến trúc CNN lặp lại M lần kiểu sau tầng CONV tầng RELU kế tới tầng Pooling • [FC -> RELU]*K CNN lặp K lần cấu trúc kiểu sau tầng FC tầng RELU trước phải có tầng [CONV -> RELU] Tổng quan lại CNN thuật tốn có kiến trúc bao gồm nhiều tầng có chức khác tầng hoạt động thơng qua chế Conv Trong suốt trình huấn luyện, CNN tự động học thông số cho filter - tương ứng đặc trưng theo cấp độ khác Ví dụ tốn phân lớp ảnh , CNN cố gắng tìm thơng số tối ưu cho filter tương ứng theo thứ tự pixel > edges > shapes > facial > high-level features Đây lý mà CNN có kết quả vượt trội so với thuật toán trước 3.4 Một số thư viện framework hỗ trợ DL Cùng với phát triển thuật toán DL thư viện framework hỗ trợ thuật toán ngày tăng số lượng Hầu hết thư viện framework cung cấp dạng mã nguồn mở linh hoạt việc sử dụng mở rộng, lý DL áp dụng nhiều toán với nhiều lĩnh vực khác Trong phần 42 Chương 3.Tổng quan Deep learning nội dung luận văn giới thiệu số thư viện phổ biến cộng đồng nghiên cứu sử dụng Hình 3.19: Một số thư viện hỗ trợ DL 3.4.1 Caffe Tải FULL (91 trang): https://bit.ly/3UaLYeP Dự phòng: fb.com/TaiHo123doc.net Caffe viết C++ phát triển Yangqing Jia từ trung tâm Berkeley Vision & Learning Center đại học UC Berkeley Được giới thiệu năm 2014 với mục đích sử dụng để áp dụng thuật toán DL toán liên quan đến thị giác máy, ngày với đóng góp cộng đồng, caffe framework sử dụng cho nhiều lĩnh vực khác xử lý ngơn ngữ tự nhiên, xử lý tiếng nói Sau số tính bật caffe framework: • Ngồi ngơn ngữ dùng để phát triển C++, caffe framework cịn hỗ trợ Matlab, Python • Dễ dàng việc thiết lập cài đặt Caffe có kiến trúc đặc biệt sử dụng thư viện kèm cách độc lập • Caffe cho phép người dùng dẽ dàng tùy chọn huấn luyện thuật toán DL CPU GPU 43 Chương 3.Tổng quan Deep learning • Người dùng tự thiết lập cấu trúc mạng cho hệ thống theo quy ước có trước, người dùng không cần can thiệp sâu vào phần lập trình mà sử dụng DL • Người sử dụng dễ dàng thực trình huấn luyện liệu thơng qua câu lệnh đơn giản Ngoài ra, người dùng sử dụng mơ hình huấn luyện sẵn (pretrain model) cộng đồng đóng góp (models zoo) 3.4.2 Torch Torch phát triển ngôn ngữ Lua nhóm nghiên cứu trường Đại học NewYork Torch sử dụng rộng rãi nhiều phòng nghiên cứu hãng công nghệ tiếng Facebook, Google, Twitter, NYU, IDIAP Sau số tính bật Torch framework: • Torch phát triển ngôn ngữ Lua, ngôn ngữ mà dễ dàng tích hợp với C Do đó, vài giờ, thư viện C hay C++ trở thành thư viện Lua • Torch sử dụng mơ hình huấn luyện trước từ Caffe framework • Torch có khả chạy nhiều hệ điều hành, bao gồm hệ điều hành di động iOS, Android Tuy nhiên Torch cần thiết kế hay sử dụng cấu trúc mạng người dùng phải tự lập trình với quy ước đặt trước 3.4.3 TensorFlow Thư viện TensorFlow viết C++ phát triển Google giới thiệu vào tháng 11 năm 2015 Hiện TensorFlow cho sử dụng nhiều dịch vụ Google phân loại email gmail, nhận biết phát âm 44 5196326 ... vi Mục tiêu: Luận văn ? ?Ứng dụng Deep Learning cho toán phát kiện liệu video? ?? có mục tiêu sau dây: (a) Tìm hiểu tổng quan tốn phát kiện video Cụ thể toán phát cảnh bạo lực video Chương Tổng quan... NGHỆ THƠNG TIN KHOA KHOA HỌC MÁY TÍNH HUỲNHGỌC TÍN ĐỖ VĂN TIẾN ỨNG DỤNG DEEP LEARNING CHO BÀI TOÁN PHÁT HIỆN SỰ KIỆN TRONG DỮ LIỆU VIDEO LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01... hiểu tổng quan DL áp dụng DL cho toán phát cảnh bạo lực video (Violent Scenes Detection -VSD) - dạng kiện lớp toán phát kiện video Đầu vào toán video clip, yêu cầu đầu đoạn video có chứa nội dung

Ngày đăng: 03/02/2023, 17:12