Phát sinh câu mô tả cho hình ảnh dùng phương pháp attention tăng cường thông tin khái niệm

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	5
Dung lượng	807,96 KB

Nội dung

Bài viết trình bày việc đề xuất một mô hình sử dụng kỹ thuật attention trên hình ảnh được tăng cường thêm các thông tin khái niệm và cải tiến chiến lược beam search trong quá trình phát sinh câu mô tả.

Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học PHÁT SINH CÂU MƠ TẢ CHO HÌNH ẢNH DÙNG PHƯƠNG PHÁP ATTENTION TĂNG CƯỜNG THÔNG TIN KHÁI NIỆM Võ Hồ Việt Khoa*, Lương Quốc An, Trần Minh Triết Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia TP Hồ Chí Minh *Tác giả liên lạc: vhvkhoa@gmail.com TĨM TẮT Bài tóa n phát sinh câu mơ tả tóa n khó Sự phát triển mơ hình mạng nơ-ron nhân tạo kết hợp với kỹ thuật attention cho nhiều kết tốt tóa n Tuy nhiên nhiều vấn đề tóa n chưa giải triệt để Đặc biệt vấn đề tính tồn vẹn câu mơ tả độ chi tiết câu mô tả Trong đề tài này, nhóm sinh viên, từ mơ hình tìm hiểu, đề xuất mơ hình sử dụng kỹ thuật attention hình ảnh tăng cường thêm thông tin khái niệm cải tiến chiến lược beam search q trình phát sinh câu mơ tả Nhóm thử nghiệm mơ hình tập liệu MSCOCO với độ đo BLEU, METEOR, ROUGE-L, CIDEr Kết cho thấy mơ hình đạt số cải thiện việc giải vấn đề mô tả câu chi tiết, nhiên cịn nhiều hạn chế Từ khóa: Phát sinh mơ tả cho hình ảnh, mơ hình attention, beam search, sequences model IMAGE CAPTION GENERATION WITH ATTENTION ON IMAGE AND CONCEPTS AUGMENTATION Vo Ho Viet Khoa*, Luong Quoc An, Tran Minh Triet University of Science – VNU Ho Chi Minh City *Corresponding Author: vhvkhoa@gmail.com ABSTRACT Image captioning is a challenging problem in Computer Vision The development of artificial neural network combined with attention mechanism has showed good performance in this problem However, there are a lot of unsolved issues in image captioning, especially the completeness and detail of the generated captions In this research, we propose a captioning model using attention mechanism over image features combined with information from concepts extracted from images We also propose a modified beam search to find a complete caption We report results on MSCOCO dataset on different metrics: BLEU, METEOR, ROUGE-L, CIDEr The results show that our model achieves some improvement in generating image caption compared to some previous methods but still has some limits compared to the current state of the art Keywords: Image captioning, attention mechanism, beam search, sequences model TỔNG QUAN Bài tóa n phát sinh câu mơ tả cho hình ảnh tóa n kết hợp xử lý thơng tin hình ảnh xử lý ngơn ngữ tự nhiên Bài tóa n ứng dụng nhiều lĩnh vực từ hỗ trợ người khiếm thị xây dựng hệ thống thông minh Để giải tóa n địi hỏi khơng khả nhận diện xác đối tượng, hành 195 Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 động mà phải xử lý vấn đề ngữ pháp tính nhập nhằn ngôn ngữ Đặc biệt vấn đề mức độ chi tiết câu mơ tả nội dung mơ tả liên quan đến hình ảnh độ chi tiết sẻ tùy thuộc vào người mô tả khác Đồng thời, độ chi tiết câu mô tả thể chất lượng câu mô tả Nhiều cơng trình năm gần cho kết mơ tả tốt cơng trình Karpathy cộng [A Karpathy et al 2015] Năm 2015, nhóm Kelvin Xu dựa ý tưởng attention dịch máy đề xuất mơ hình attention hình ảnh [K Xu et al 2016] Tuy nhiên, số câu mô tả phương pháp phát sinh chưa chi tiết Đồng thời, việc lựa chọn đặc trưng để phát sinh câu mô tả bị sai lệch mơ hình tự học lấy cách lựa chọn đặc trưng từ liệu Nhóm sinh viên nhận thấy việc mơ tả chi tiết nhãn đối tượng ảnh thay từ tổng quát làm tăng chất lượng câu mô tả Vì vây nhóm đề xuất mơ hình dựa phương pháp attention hình ảnh kết hợp với thơng tin nhãn ngữ nghĩa rút trích từ hình ảnh Thơng tin từ nhãn ngữ nghĩa giúp bổ sung thêm thông tin để phát sinh từ mơ tả xác chi tiết PHƯƠNG PHÁP Sử dụng mơ hình ResNet Nhóm sinh viên đề xuất mơ hình sử dụng ResNet [K He et al 2016] làm rút trích đặc trưng Hình ảnh đầu vào điều chỉnh kích thước cố định 224x224 Khi rút trích đặc trưng với ResNet, nhóm rút trích đặc trưng tầng tích chập (convolution) cuối khối mạng (block) phía trước khối mạng cuối (khơng tính lớp softmax cuối Kỷ yếu khoa học mạng khối) Hình ảnh sau xử lý cho khối đặc trưng có kích thước 14x14x1024 Khối đặc trưng hình ảnh sau xử lý qua khối attention Nhóm sinh viên tiến hành làm phẳng khối đặc trưng thành 196x1024 chiều đưa vào mơ hình soft attention Mơ hình attention gán trọng số cho 196 vector biểu diễn vùng thứ hình ảnh gộp lại thành vector Giá trị thể mức độ “tập trung” mơ hình Thơng tin vector có trọng số cao giữ lại vector có trọng số thấp bị lược bỏ Vector đặc trưng sau sử dụng để phát sinh câu mô tả Thông tin từ lần phát sinh truyền ngược để điều chỉnh lại trọng số tập trung sang đối tượng khác bên hình ảnh Tăng cường thơng tin khái niệm Từ mơ hình sử dụng ResNet, nhóm sinh viên tiến hành thêm vào khối phát vật thể (object detector) để phát sinh nhãn đối tượng có ảnh Với ảnh đầu vào, mơ hình phát đối tượng cho danh sách nhãn Các nhãn thu đưa qua mơ hình attention thứ để chọn lọc nhãn liên quan bổ sung thêm thông tin cho khối LSTM để phát sinh câu mô tả tốt Một ảnh đầu vào xử lý qua mơ hình ResNet rút trích khối đặc trưng ảnh Ảnh đầu vào đưa qua khối xử lý phát đối tượng Khối xử lý cho biết ảnh có đối tượng với độ tin cậy Nhóm sinh viên chọn mơ hình Mask R-CNN [K He et al 196 Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 2017] mơ hình đề xuất gần Hình ảnh sau qua mơ hình Mask R-CNN rút trích nhãn với độ tin cậy thể có đối tượng ảnh hay khơng Để hạn chế vấn đề mô tả nội dung không quan trọng ảnh, nhóm sinh viên định chọn nhãn có độ tin cậy cao Các nhãn ban đầu biểu diễn vector one-hot có chiều với kích thước từ điển nhãn Các nhãn đối tượng nhân với ma trận embedding để chuyển không gian mô tả ngữ nghĩa Mỗi nhãn đưa vector 512 chiều để biểu diễn cho nhãn Khối đặc trưng hình ảnh vector biểu diễn nhãn đưa vào hai mơ hình attention khác Kỹ thuật attention hình ảnh mơ tả mục trước Khối đặc trưng từ hình ảnh đưa vào mơ hình soft attention Các vector biểu diễn nhãn đưa vào khối attention thứ hai Các vector gán trọng số Giá trị thể mức độ quan trọng nhãn Nếu giá trị cao có nghĩa Kỷ yếu khoa học nhãn mơ hình sử dụng để phát sinh từ mô tả Các vector biểu diễn nhãn tổng hợp theo trọng số để tạo vector 512 Các giá trị trọng số điều chỉnh động trình phát sinh tương tự kỹ thuật attention hình ảnh Thông tin từ lần phát sinh trước truyền ngược để điều chỉnh lại giá trị trọng số Vector tổng hợp hình ảnh vector tổng hợp nhãn nối lại với vector embedding 512 chiều biểu diễn từ mô tả lần phát sinh trước Cuối ta có vector tổng hợp với 2048 chiều Các đặc trưng tổng hợp vào vector phân bố đặc trưng khác Cho nên vector sau đưa qua lớp mạng liên kết đầy đủ (fully connected) để tổng hợp thông tin vector thêm lần Vector sau trình xử lý giữ kích thước 2048 chiều Hình Kiến trúc mơ hình phát sinh câu mơ tả nhóm đề xuất Hochreiter et al 1997] để tiến hành Phát sinh câu mô tả LSTM Vector tổng hợp chứa thông tin từ phát sinh câu mơ tả Mơ hình LSTM xử hình ảnh nhãn ngữ nghĩa lý vector đặc trưng để tính tóa n đưa qua khối LSTM [S trạng thái ẩn thời điểm Trạng 197 Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học thái ẩn từ mơ hình LSTM đưa qua phân lớp để dự tóa n từ mơ tả cần phát sinh từ tập từ điển Trạng thái ẩn sử dụng để tính tóa n số attention cho hình ảnh nhãn ngữ nghĩa để trích chọn đặc trưng cho lần phát sinh Từ phát sinh sau nhân với ma trận word embedding[T Mikolov et al 2013] để tạo thành vector 512 chiều Vector biểu diễn từ mô tả truyền ngược để tổng hợp với đặc trưng liệu cho lần phát sinh Sau trình phát sinh, độ lỗi câu mô tả mô hình tạo câu mơ tả tập liệu tính tóa n Cụ thể hàm lỗi tính sau: ln nằm khoảng [0, 1] nên xác suất câu mô tả xuất nhỏ câu dài Vì vậy, nhóm sinh viên đề xuất cải tiến phương pháp beam search để khắc phục nhược điểm cách cho thêm điều kiện cho việc chọn chuỗi tốt Cụ thể hơn, sau bước lặp, mơ hình xét xem ký tự chọn cho beam search có ký tự "." hay khơng, có ký tự "." chuỗi ứng viên beam search chưa phải chuỗi kết thúc dấu "." chuỗi thay chuỗi tiền tố giúp mơ hình sinh dấu "." gộp với dấu "." ngược lại, tồn chuỗi ứng viên kết thúc dấu "." ta so sánh xác suất xuất chuỗi chọn hai chuỗi làm chuỗi ứng viên cho bước lặp Trong số lượng lần lặp phát sinh từ mô tả số lượng trọng số attention Mơ hình huấn luyện dựa việc tối ưu hóa hàm lỗi mơ hình Chiến lược Beam Search cải tiến Trong trình phát sinh câu mô tả, việc chọn cách tham lam từ có dự đóa n cao dẫn đến cách nhánh cho kết không tốt Để hạn chế vấn đề này, nhiều cơng trình áp dụng phương pháp beam search[A Karpathy et al 2015] Phương pháp beam search không cho kết tốt mong đợi dù sử dụng kích thước beam lớn Vấn đề cách thức lựa chọn chuỗi ứng viên beam search Với kích thước beam , bước lặp LSTM phương pháp chọn ký tự cho xác suất xuất chúng chuỗi tiền tố chúng cao Tuy nhiên, chuỗi dài khả bị loại bỏ cao, tích xác suất từ cấu thành nên câu mơ tả số KẾT QUẢ VÀ THẢO LUẬN Nhóm sinh viên tiến hành thí nghiệm mơ hình: Mơ hình attention ảnh sử dụng ResNet [K He et al 2016] làm rút trích đặc trưng mơ hình tăng cường thêm thơng tin khái niệm Nhóm sử dụng trọng số mơ hình ResNet huấn luyện sẵn cung cấp thư viện torchvision tảng Pytorch Mơ hình sử dụng ResNet huấn luyện tập liệu với 19 lần lặp Tổng thời gian huấn luyện khoảng 60 Trong trình huấn luyện, nhóm sinh viên sử dụng trực tiếp từ câu mô tả gốc để đưa vào lần xử lý để hạn chế ảnh hưởng sai lệch lần phát sinh trước Tuy nhiên q trình đánh giá, từ mơ hình phát sinh sử dụng để đưa vào lần phát sinh Beam search áp dụng trình đánh giá để chọn câu mô tả tốt Đối với mơ hình tăng cường thơng tin khái niệm từ nhãn ngữ 198 Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 nghĩa, nhóm sinh viên huấn luyện kiểm thử tập MS COCO 2017 [T Lin et al 2014] Nhóm sinh viên sử dụng mơ hình Mask R-CNN [K He et al 2017] cung cấp chương trình Detectron Facebook AI Research phát triển để rút trích nhãn đối tượng trơng ảnh Mơ hình huấn luyện khoảng ngày với khoảng 30 lần duyệt qua liệu Phương pháp early stopping độ đo CIDEr áp dụng để chọn mô hình có kết qủa tốt độ đo đánh giá So sánh hai mơ hình giá trị beam size, mơ hình tăng cường thơng tin khái niệm từ nhãn ngữ nghĩa cho kết tốt Kết attention hình ảnh cho thấy mơ hình có khả tự điều chỉnh để “nhìn” vào đối tượng liên quan phát sinh từ mô tả Kỷ yếu khoa học KẾT LUẬN Dựa phương pháp có tóa n phát sinh câu mơ tả cho hình ảnh, nhóm sinh viên đề xuất mơ hình cải tiến dựa mơ hình attention hình ảnh tăng cường thơng tin khái niệm Mơ hình nhóm sinh viên đề xuất tập trung vào giải vấn đề độ chi tiết câu mơ tả Nhóm sinh viên chạy thử nghiệm đánh giá kết tập liệu MSCOCO với độ đo đánh giá khác Kết cho thấy mơ hình đạt cải tiến định kết mô tả tốt số mơ hình có mơ hình phát sinh câu mơ tả với độ chi tiết cao Kết attention cho thấy mơ hình có khả tự điều chỉnh để chọn lọc đặc trưng phù hợp Tuy nhiên, mơ hình nhóm sinh viên đề xuất cịn nhiều hạn chế TÀI LIỆU THAM KHẢO A KARPATHY AND L FEI-FEI Deep visual-semantic alignments for generating image descriptions In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015 K HE, X ZHANG, S REN, AND J SUN Deep residual learning for image recognition In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016 S HOCHREITER AND J SCHMIDHUBER Long short-term memory Neural Comput., vol 9, pp 1735–1780, Nov 1997 T LIN, M MAIRE, S J BELONGIE, L D BOURDEV, R B GIRSHICK, J HAYS, P PERONA, D RAMANAN, P DOLLÁR, AND C L ZITNICK Microsoft COCO: Common objects in context CoRR, vol abs/1405.0312, 2014 199 ... Kết attention hình ảnh cho thấy mơ hình có khả tự điều chỉnh để “nhìn” vào đối tượng liên quan phát sinh từ mô tả Kỷ yếu khoa học KẾT LUẬN Dựa phương pháp có tóa n phát sinh câu mơ tả cho hình ảnh, ... sau sử dụng để phát sinh câu mô tả Thông tin từ lần phát sinh truyền ngược để điều chỉnh lại trọng số tập trung sang đối tượng khác bên hình ảnh Tăng cường thơng tin khái niệm Từ mơ hình sử dụng... tưởng attention dịch máy đề xuất mơ hình attention hình ảnh [K Xu et al 2016] Tuy nhiên, số câu mô tả phương pháp phát sinh chưa chi tiết Đồng thời, việc lựa chọn đặc trưng để phát sinh câu mô tả

Ngày đăng: 19/02/2022, 09:55