Caption image chuyển đổi dạng lưu trữ video về dạng text

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	6
Dung lượng	322,43 KB

Nội dung

76 CAPTION IMAGE CHUYỂN ĐỔI DẠNG LƯ TRỮ VIDEO VỀ DẠNG TEXT Lê Thị Kim Băng, Đỗ Quốc Bảo, Võ Văn Linh, Nguyễn Phước Đại, Nguyễn Văn Chinh, Nguyễn Thị Mai Phương Khoa Công nghệ Thông tin, Trường Đại học[.]

CAPTION IMAGE - CHUYỂN ĐỔI DẠNG LƯ VỀ DẠNG TEXT TRỮ VIDEO Lê Thị Kim Băng, Đỗ Quốc Bảo, Võ Văn Linh, Nguyễn Phước Đại, Nguyễn Văn Chinh, Nguyễn Thị Mai Phương Khoa Công nghệ Thông tin, Trường Đại học Cơng nghệ TP.Hồ Chí Minh GVHD: CN Nguyễn Mạnh Hùng, ThS Nguyễn Đơ P ươ TĨM TẮT Tự động mơ tả nội dung hình ảnh vấn đề lĩnh vực trí tuệ nhân tạo kết nối thị giác máy tính xử lý ngôn ngữ tự nhiên Các tiến gần lĩnh vực trí tuệ nhân tạo cải thiện đáng kể hiệu suất mơ hình Tuy nhiên, ứng dụng tự động mô tả nội dung hình ảnh cịn chưa rõ ràng thực tế ưu trữ quản lý video công việc quan trọng nhiều lĩnh vực, vấn đề đặc biệt nảy sinh lĩnh vực đòi hỏi phải lưu trữ video liên tục truy xuất lượng lớn video, camera an ninh ví dụ điển hình trường hợp Trong báo này, nghiên cứu cách áp dụng thành tựu tự động mô tả nội dung hình ảnh vào việc quản lý, lưu trữ trích xuất video cách hiệu Từ khóa: Image captioning, word embedding, video processing, LSTM, model inception v3 ABSTRACT Automatically describing the content of an image is a fundamental problem in artificial intelligence that connects computer vision and natural language processing Recent progress in artificial intelligence (AI) has greatly improved the performance of models However, the application of automatically describing the content of an image is still unclear and realistic Storing and managing videos is an important task in many fields, especially problems for areas that require continuous video storage and retrieval in a large number of video, and security cameras are a prime example in this case In this paper, we study how to apply the achievements of image caption generator to managing, storing and extracting videos more effectively Keywords: Image captioning, word embedding, video processing, LSTM, model inception v3 GI I THIỆU Thị giác máy tính xử lý ngơn ngữ tự nhiên hai lĩnh vực riêng biệt trí tuệ nhân tạo kết hợp để tạo nghiên cứu mới, tự động mơ tả nội dung hình ảnh số Các nghiên cứu gần mang lại mô tả ngày xác Trong cơng việc lưu trữ, quản lý truy xuất video, có hai câu hỏi đặt ra: Làm để lưu trữ video, phân cảnh có chứa nội dung cần lưu trữ dựa theo mục đích lưu trữ lĩnh vực để mang lại hiệu việc lưu trữ quản lý tiết kiệm nhớ, lưu trữ theo thể loại – nội dung 76 – đối tượng,…? Làm để truy xuất tới phân cảnh, thời điểm có chứa nội dung, mô tả đưa cách hiệu nhanh so với truy xuất thủ cơng, đặc biệt video có thời lượng dài? Chúng sử dụng kết đạt từ tự động mơ tả nội dung hình ảnh để giải hai câu hỏi P ƯƠN ÁN TIẾP CẬN Hình Mơ hình chương trình 2.1 Model Inception V3 Mạng Inception gồm đơn vị gọi ‚inception cell‛ - phép tích chập đầu vào với nhiều lọc khác tổng hợp lại, theo nhiều nhánh Tại lại chọn model Inception V3? – Với cell, sử dụng 1x1, 3x3, 5x5 lọc để lấy thuộc tính từ đầu vào Giảm số lượng tham số mơ hình dẫn đến chi phí tính tốn tiết kiệm – Inception có đặc điểm có thêm đầu phụ Nó giúp cho việc huấn luyện diễn nhanh tối ưu lớp đầu dựa vào đầu phụ Các lớp gần cuối tối ưu chưa cần thiết phải tối ưu Sau thời gian tối ưu lớp đầu tối ưu lớp dựa vào đầu vào cuối Việc cải thiện khả tính tốn tốc độ huấn luyện nhiều 77 Bảng So sánh số mơ hình bắt đối tượng ảnh [11] Model Size Top-1 Accuracy Top-5 Accuracy Parameters Xception 88MB 0.790 0.945 22, 910, 480 VGG19 549MB 0.713 0.900 143, 667, 240 ResNet101 171MB 0.764 0.928 44, 707, 176 InceptionV3 92MB 0.779 0.937 23, 851, 784 InceptionResNetV2 215MB 0.803 0.953 55, 873, 763 MobileNet 16MB 0.704 0.895 4, 253, 864 2.2 Word embedding Glove -Global Vectors, mơ hình cho biểu diễn từ phân tán Mơ hình thuật tốn học tập khơng giám sát để có biểu diễn vectơ cho từ Điều đạt cách ánh xạ từ vào khơng gian có ý nghĩa khoảng cách từ có liên quan đến giống ngữ nghĩa, rút mối quan hệ ngữ nghĩa từ ma trận xuất Đào tạo thực số liệu thống kê xuất từ từ kho văn biểu diễn kết thể cấu trúc tuyến tính khơng gian vectơ từ Là mơ hình hồi quy logbilinear cho việc học từ đại diện khơng giám sát, kết hợp tính hai họ mơ hình, cụ thể nhân tố ma trận (the global matrix factorization) phương pháp cửa sổ ngữ cảnh cục (local context window methods) Mô hình GloVe chúng tơi sử dụng việc embedding từ tạo ma trận embedding cho bảng từ vựng với từ embedding vectơ 200 2.3 Long Short Term Memory (LSTM) 2.3.1 Mơ hình Long Short Term Memory (LSTM) Kiến trúc Recurrent Neural Network (RNN) sinh để giải tốn có liệu Tuy nhiên, RNN truyền thống khó học vấn đề mát bùng nổ đạo hàm [10] Mạng LSTM đề xuất để giải vấn đề [10] Khối LSTM mà mơ hình xây dựng dựa LSTM với cấu trúc khơng có Peepholes [6] Các nhớ cổng khối LSTM định nghĩa sau: 78 i1  (wix x  wimm11 ) (1) f1  (w fx x  w fmm11 ) (2) o1  (wox x  womm11 ) (3) c1  f1.c11  i1.h(wcx x  wcmm11 ) (4) m1  o1.c1 (5) Trong (.) đại diện cho phép nhân phần tử,  đại diện cho hàm sigmoid h đại diện cho hàm tiếp tuyến hyperbolic [12] Biến i1 viết tắt đặt cổng, f1 cho cổng quên, o1 cho cổng đầu ô LSTM c1 trạng thái ô nhớ m1 trạng thái ẩn, đầu khối tạo ô nhớ Biến x1 phần tử chuỗi dấu thời gian l w biểu thị tham số mơ hình 2.3.2 Tạo phụ đề với Long Short Term Memory (LSTM) Đường dẫn để tạo thích với RNN mơ hình [1,4,5,8,9] lấy cảm hứng từ mã hóa nguyên tắc dịch Neural machine [2,3,7] Một mã hóa sử dụng để ánh xạ chuỗi độ dài thay đổi ngôn ngữ vào vector phân tán giải mã sử dụng để tạo chuỗi ngôn ngữ định hướng vector tạo thích, cụ thể là: argmax i logp( si1:Li x i , ) (6) Khi xi biểu thị hình ảnh, si1:L biểu thị chuỗi từ câu có độ dài Li θ biểu thị i mơ hình thơng số Để đơn giản, phần sau dùng siêu ký tự i rõ ràng từ bối cảnh, từ câu bao gồm chuỗi từ, tự nhiên sử dụng quy tắc chuỗi Bayes để phân tách câu logp(s1:1 x, )  logp(s1 x, )  i logp(s1 x,s1:11 , ) (7) Trong s1:1 viết tắt phần câu lên đến (l) từ để tối đa hóa mục tiêu (6) qua toàn liệu huấn luyện, cần xác định khả logp(x,s1:1-1,θ) mơ hình hóa với hidden layer trạng thái dấu thời gian RNN 2.4 Tách ảnh từ video lưu trữ kết Sau khi hoàn tất xây dựng chức tạo câu mô tả cho hình ảnh riêng lẻ, video tách thành frame để mô tả Tuy nhiên, video đầu vào có số khung hình trung bình 1s 30 khung hình, việc mơ tả cho tất khung hình 1s gánh nặng cho hệ thống xử lý, đồng thời 1s thể nhiều hành động hay mô tả khác 1s Quá trình thực nghiệm rằng, việc tạo mơ tả cho tồn 30 khung hình giây xuất trùng lặp mô tả, cách hành động thường kéo dài nhiều giây nên việc lúc lưu trữ hàng chục đến hàng trăm mô tả tương tự khơng cần thiết Chương trình quan tâm đến thời điểm xuất đối tượng hành động xuất kết thúc khoảng thời gian liên tục, thay xử lý cho tồn khung hình video, chuyển đổi khung hình giây gồm khung hình đầu giây giải pháp để giải vấn đề trên, tăng tốc độ xử lý video đồng thời video có thời lượng dài giữ hiệu mục đích chương trình 79 Hình Quá trình xử lý video lưu trữ kết chương trình Trong T khung hình cuối, t thời gian khung hình cuối Dữ liệu sau trình lưu trữ dạng table Database truy xuất thơng qua từ khóa, đối chiếu lên caption để trả thời điểm video xuất đối tượng ngữ cảnh đề KẾT QUẢ THỰC NGHIỆM 3.1 Mô tả liệu tiền xử lý Mơ tả liệu: Bộ dataset có 8000 ảnh, ảnh có caption, đó: 6000 ảnh - train, 2000 – test Ở sử dụng mơ hình có sẵn để huấn luyện cho liệu trên, cụ thể model Inception V3 Có file chính: File dataset: Chứa tất ảnh file text: Test image (id ảnh test), train image (id ảnh train), develop image, file token (40000 caption để tạo từ điển) Tiền xử lý liệu: Làm liệu: Chuyển chữ hoa thành chữ thường, loại bỏ ký tự đặc biệt (‘%’, ‘$’, ‘#’, ), loại bỏ từ có chứa chữ số (hey199, ) Tiền xử lý ảnh: Chỉnh sửa kích thước ảnh theo kích thước model InceptionV3 yêu cầu 3.2 Thực nghiệm giải tốn Hình Demo mơ tả video Nhận xét: Có thể nhận biết người hành động tương đối xác 80 KẾT LUẬN VÀ Ư NG PHÁT TRIỂN Trong báo này, giải vấn đề để máy tính dự đốn, mơ tả cho ảnh, từ thực việc chuyển đổi dạng lưu trữ video dạng text Việc thực nghiệm dựa liệu có sẵn, chưa chuyên sâu chủ đề giúp hiểu cách thức hoạt động Với kết trên, nghiên cứu tiếp theo, tiến hành ứng dụng xử lý video để xây dựng hệ thống lưu trữ liệu trích xuất liệu video chủ đề cụ thể dựa tảng việc dự đốn, mơ tả hình ảnh với mơ tả tiếng việt TÀI LIỆU THAM KHẢO [1] Karpathy and L Fei-Fei Deep visual-semantic alignments for generating image descriptions In CVPR, 2015 [2] D Bahdanau, K Cho, and Y Bengio Neural machine translation by jointly learning to align and translate In ICLR, 2015 [3] Sutskever, O Vinyals, and Q V Le Sequence to sequence learning with neural networks In NIPS, 2014 [4] J Donahue, L A Hendricks, S Guadarrama, M Rohrbach, S Venugopalan, K Saenko, and T Darrell Long-term recurrent convolutional networks for visual recognition and description In CVPR, 2015 [5] J Mao, W Xu, Y Yang, J Wang, and A L Yuille Deep captioning with multimodal recurrent neural networks (mrnn) In ICLR, 2015 [6] K Greff, R K Srivastava, J Koutník, B R Steunebrink, and J Schmidhuber LSTM: A search space odyssey CoRR, abs/1503.04069, 2015 [7] K Cho, B van Merrienboer, C¸ Gulcehre, D Bahdanau, ăF Bougares, H Schwenk, and Y Bengio Learning phrase representations using RNN encoder-decoder for statistical machine translation In EMNLP, 2014 [8] K Xu, J Ba, R Kiros, K Cho, A C Courville, R Salakhutdinov, R S Zemel, and Y Bengio Show, attend and tell: Neural image caption generation with visual attention In ICML, 2015 [9] O Vinyals, A Toshev, S Bengio, and D Erhan Show and tell: A neural image caption generator In CVPR, 2015 [10] S Hochreiter and J Schmidhuber Long short-term memory Neural Comput., 9(8):1735–1780, 1997 [11] https://viblo.asia/p/gioi-thieu-ve-cac-pre-trained-models-trong-linh-vuc-computer-vision3Q75wB1GlWb (3/6/2020) [12] https://vi.wikipedia.org/wiki/Hàm_hyperbolic_ngược (3/6/2020) 81 ... trình xử lý video lưu trữ kết chương trình Trong T khung hình cuối, t thời gian khung hình cuối Dữ liệu sau trình lưu trữ dạng table Database truy xuất thông qua từ khóa, đối chiếu lên caption để... dataset: Chứa tất ảnh file text: Test image (id ảnh test), train image (id ảnh train), develop image, file token (40000 caption để tạo từ điển) Tiền xử lý liệu: Làm liệu: Chuyển chữ hoa thành chữ... tả video Nhận xét: Có thể nhận biết người hành động tương đối xác 80 KẾT LUẬN VÀ Ư NG PHÁT TRIỂN Trong báo này, giải vấn đề để máy tính dự đốn, mơ tả cho ảnh, từ thực việc chuyển đổi dạng lưu trữ

Ngày đăng: 24/02/2023, 13:32