Khóa luận tốt nghiệp tạo mô tả tiếng việt cho ảnh dựa trên tiếp cận học sâu

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KỸ THUẬT PHẦN MỀM Nguyễn Trường Khoa Nguyên Phạm Huỳnh Tấn Đạt KHÓA LUẬN TỐT NGHIỆP TẠO MÔ TẢ TIẾNG VIỆT CHO ẢNH DỰA TRÊN TIẾP CẬN HỌC SÂU Vietnamese Image Captioning based on Deep Learning approach KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM TP HỒ CHÍ MINH, 2021 i ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN KHOA KỸ THUẬT PHẦN MỀM Nguyễn Trường Khoa Nguyên - 17520827 Phạm Huỳnh Tấn Đạt - 17520338 KHÓA LUẬN TỐT NGHIỆP TẠO MÔ TẢ TIẾNG VIỆT CHO ẢNH DỰA TRÊN TIẾP CẬN HỌC SÂU Vietnamese Image Captioning based on Deep Learning approach KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN TS.Huỳnh Ngọc Tín TP HỒ CHÍ MINH, 2021 ii THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số …………………… ngày ………………… Hiệu trưởng Trường Đại học Công nghệ Thông tin ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN TP HCM, ngày… tháng… năm…… NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP (CỦA CÁN BỘ HƯỚNG DẪN/PHẢN BIỆN) Tên khóa luận: TẠO MÔ TẢ TIẾNG VIỆT CHO ẢNH DỰA TRÊN TIẾP CẬN HỌC SÂU Nhóm SV thực hiện: Cán hướng dẫn/phản biện: Nguyễn Trường Khoa Nguyên 17520827 Phạm Huỳnh Tấn Đạt 17520338 TS.Huỳnh Ngọc Tín Đánh giá Khóa luận Về báo cáo: Số trang Số bảng số liệu Số tài liệu tham khảo 77 24 Số chương Số hình vẽ Sản phẩm 40 Một số nhận xét hình thức báo cáo: Về nội dung nghiên cứu: Về thái độ làm việc sinh viên: Đánh giá chung: Khóa luận đạt/khơng đạt yêu cầu khóa luận tốt nghiệp kỹ sư/, xếp loại Giỏi/ Khá/ Trung bình Điểm sinh viên: Nguyễn Trường Khoa Nguyên:……… /10 Phạm Huỳnh Tấn Đạt:……… /10 Người nhận xét (Ký tên ghi rõ họ tên) ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN ĐỀ CƯƠNG CHI TIẾT TÊN ĐỀ TÀI: TẠO MÔ TẢ TIẾNG VIỆT CHO ẢNH DỰA TRÊN TIẾP CẬN HỌC SÂU Cán hướng dẫn: TS Huỳnh Ngọc Tín Thời gian thực hiện:Từ ngày 01/03/2021 đến ngày 26/06/2021 Sinh viên thực hiện: Nguyễn Trường Khoa Nguyên – 17520827 Phạm Huỳnh Tấn Đạt – 17520338 Nội dung đề tài: Đặt vấn đề: Việc sử dụng hình ảnh để thể nội dung chủ đề sử dụng phổ rộng rãi trang mạng xã hội, báo chí mà cịn sử dụng văn tài liệu, sách giáo khoa Bài toán tạo mô tả cho ảnh với mục tiêu biểu diễn nội dung ảnh thành dạng văn miêu tả vật hành động ảnh đầu vào Các câu mô tả ứng dụng vào việc hỗ trợ mơ hình học máy khác nhằm nâng cao tính hiệu mà mơ hình học máy hướng tới, đồng thời việc sinh câu mô tả cho ảnh làm phương tiện hỗ trợ người khiếm thị việc đọc hiểu nội dung ảnh Đã có nhiều nghiên cứu việc tự động sinh câu mô tả cho ảnh như: Retrieval based, Template based, Tuy nhiên nghiên cứu áp dụng cho tiếng Anh, chưa có nghiên cứu thực nhằm giải vấn đề cho tiếng Việt Đề tài với phạm vi xây dựng mơ hình tạo câu mơ tả tiếng Việt mong muốn với hình người dùng đưa vào, mơ hình tạo câu mơ tả tiếng Việt thể lên nội dung ảnh Phạm vi đề tài: 2.1 Phạm vi công nghệ: - Ngơn ngữ lập trình Python - Framework: Pytorch, Django, Flask 2.2 Phạm vi đối tượng: - Sinh câu tiếng Việt - Câu sinh mô tả vật, việc, hành động ảnh Phương pháp thực hiện: 3.1 Phương pháp xây dựng tập liệu: - Sử dụng api google translate có trả phí để dịch liệu tiếng Anh Flickr30k MSCOCO có sẵn sau review lại chỉnh sửa lỗi, ngữ pháp 3.2 Phương pháp lập trình: - Cài đặt mơ hình - Xây dựng api triển khai mơ hình tạo câu tiếng Việt cho ảnh Nội dung thực hiện: 4.1 Khảo sát phương pháp: - Tiến hành khảo sát phương pháp thường dùng để giải toán tạo mô tả cho ảnh - Đánh giá, lựa chọn phương pháp khảo sát 4.2 Tìm hiểu lựa chọn thuật tốn, cơng nghệ: - Tìm đọc chọn paper tốn tạo mơ tả cho ảnh phù hợp - Đánh giá, kiểm thử với phương pháp chọn 4.3 Xây dựng api tạo mô tả tiếng Việt cho ảnh: - Tiến hành xây dựng api với liệu đầu vào ảnh - Tiến hành kiểm thử sau xây dựng xong api - Triển khai mơ hình thử với liệu thực tế Kết mong đợi: - Xây dựng mơ hình tạo câu mơ tiếng Việt với ảnh đầu vào Kế hoạch thực hiện: Nội dung công việc STT Thời gian dự kiến Lựa chọn đề tài 8/3/2021 - Viết mơ tả đề tài 14/3/2021 Tìm hiểu tốn tạo mơ tả cho ảnh Tìm hiểu kiến thức liên quan đến toán tạo 15/3/2021 câu mô tả cho ảnh 28/3/2021 Xây dựng dataset tiếng Việt cho toán 29/3/2021 11/4/2021 Áp dụng deep learning vào tốn để tạo câu mơ 12/4/2021 tả cho hình ảnh 25/4/2021 Điều chỉnh, kiểm thử hyperparameters để cải 26/4/2021 thiện khả học mơ hình 9/5/2021 Xây dựng giao diện cho toán 10/5/2021 23/5/2021 Kiểm thử đánh giá hiệu suất 24/5/2021 - Fix bug tăng độ xác kết 13/6/2021 Viết document Tối ưu code 14/6/2021 26/6/2021 Xác nhận CBHD (Ký tên ghi rõ họ tên) TP HCM, ngày….tháng … năm 2021 Sinh viên (Ký tên ghi rõ họ tên) LỜI CẢM ƠN Nhóm xin chân thành cảm ơn tới giảng viên hướng dẫn Huỳnh Ngọc Tín tận tình dẫn cho chúng em trình thực đề tài Nhóm xin gửi lời cảm ơn tới anh Trần Văn Tùng - sinh viên khóa 10, anh Trần Hàm Dương - sinh viên khóa 10 anh Ngơ Trung Hiếu - sinh viên khóa 11 trường đại học Cơng nghệ Thơng tin góp ý, giúp đỡ chúng em thực đề tài cách tốt Cảm ơn công ty VCCorp cho chúng em hội làm việc môi trường thực tế, hướng dẫn chúng em trình thực nghiệm đánh giá thực tế Một lần nữa, nhóm xin chân thành cảm ơn Mục lục Mục lục x Danh sách hình vẽ xiv Danh sách bảng xvii Danh mục ký hiệu, thuật ngữ xviii Danh mục chữ viết tắt xix TÓM TẮT MỞ ĐẦU Dẫn nhập Mục tiêu đề tài Nội dung thực Phạm vi đề tài Bố cục báo cáo CHƯƠNG PHÁT BIỂU BÀI TOÁN 1.1 Mở đầu 1.2 Tạo câu mô tả tiếng Việt cho ảnh 1.3 Phát biểu toán tạo mô tả cho ảnh 1.4 Khó khăn, thách thức 10 x v= vw + vs + |n − grams| (5.3) Trong trường hợp từ khơng có torng từ điển Word2Vec, vector từ biểu diễn bắng vector kí tự n-gram tách từ nó, điểm đặc biệt FastText, giúp hỗ trợ Word2VEc biểu diễn tử tốt vector từ khikhông xuất từ điển Word2Vec: v= vs + |n − grams| (5.4) Convolutional Neural Networks Trong deep learning, Convolutional Neural Networks (CNN) phần deep neural network Chúng mô não người, với cấu tạo nhiều neural thần kinh, để học điều giống với cách mà não người hoạt động CNN ứng dụng nhiều xử lý ảnh, mục đích để phân tích đặc điểm, hình dạng ảnh Trong ứng dụng ảnh, CNN 2D 3D áp dụng cho ảnh có kênh màu tương ứng, CNN hữu ích với toán text Dưới khái niệm cần nắm CNN: • Convolution: tích chập , thực việc nhân ma trận đầu vào với filter với window size định, để tìm trọng số cao đại diện cho đặc trưng • Filter: bộc lọc, ma trận vuông với giá trị: 0; 1; Được nhân với ma trận đầu vào tìm đặc trưng 72 • Window size: kích thước ma trận vng filter • Feature map: ma trận sau thực phép tích chập • Pooling : stage quan trọng CNN • Fully conneted: đảm bảo neuron layer kết nối đầy đủ với neuron layer khác Cấu trúc mạng CNN gồm stage: convolution: stage này, ma trận đầu vào quét toàn từ xuống dưới, từ trái qua phải Việc quét thực filter với window size định nghĩa Feature map đầu cho stage Stage thứ hai Pooling, giai đoạn thực việc giảm số chiều ma trận feature map, cách thực việc giữ lại trọng số tốt thơng qua phép tốn, thơng thường giữ lại trọng số cao (max pooling) Trong mạng CNN, thực convolution pooling nhiều lần Giai đoạn cuối Fully Connected, giai đoạn tính xác suất đưa kết để phân lớp giá trị đầu vào Đối với mạng CNN, việc “lan truyền ngược” thực để tối ưu model để phân lớp xác Hình 5.11: Mơ hình CNN 73 Residual Neural Networks Một vấn đề sử dụng CNN vanishing gradient, tượng khiến cho q trình học tập khơng tốt Chính vậy, mạng Residual Neural Networks (ResNet) được thiết kế để làm việc với hàng trăm hàng nghìn lớp chập, tránh tình trạng vanishing gradient ResNet gần giống CNN bao gồm lớp convolution, pooling, activation fully-connected Điều đặt biệt ResNet sử dụng kết nối "tắt" đồng để xuyên qua hay nhiều lớp Một khối gọi Residual, hình sau : Hình 5.12: Một khối Residual Trong khối có mũi tên cong xuất phát từ đầu kết thúc cuối khối Residual vị trí dấu cộng, hay nói cách khác, khối Residual bổ sung input X vào đầu layer, nhằm chống lại việc đạo hàm Với F(x) giá trị nhãn, giá trị mong muốn đạt Nhờ ResNet, Encoder trích 74 xuất đặc trưng tốt hơn, giúp cho mô hinh tạo câu mơ tả xác cho ảnh Hình 5.13: Mạng ResNet 101 lớp trích xuất đặc trưng ảnh Long Short-Term Memory Mạng nhớ dài-ngắn (Long Short Term Memory networks), thường gọi LSTM - dạng đặc biệt RNN, có khả học phụ thuộc xa LSTM giới thiệu Hochreiter Schmidhuber (1997), sau cải tiến phổ biến nhiều người ngành Chúng hoạt động hiệu nhiều toán khác nên dần trở nên phổ biến LSTM thiết kế để tránh vấn đề phụ thuộc xa (long-term dependency).Việc nhớ thông tin suốt thời gian dài đặc tính mặc định chúng, ta khơng cần phải huấn luyện để nhớ 75 Tức nội ghi nhớ mà khơng cần can thiệp Mọi mạng hồi quy có dạng chuỗi mơ-đun lặp lặp lại mạng nơ-ron Với mạng RNN chuẩn, mơ-dun có cấu trúc đơn giản, thường tầng LSTM có kiến trúc dạng chuỗi vậy, mơ-đun có cấu trúc khác với mạng RNN chuẩn Thay có tầng mạng nơ-ron, chúng có tới tầng tương tác với cách đặc biệt Hình 5.14: Mơ hình Long Short-Term Memory Điểm quan trọng mạng LSTM cell state Cell state truyền xuyên suốt tất nút mạng tương tác tuyến tính, thơng tin dễ dàng truyền thơng suốt, khơng bị thay đổi LSTM có khả bỏ thêm vào thông tin cần thiết cho cell state, chúng điều chỉnh cẩn thận nhóm gọi cổng (gate) Gate nơi sàng lọc thơng tin qua nó, chúng kết hợp tầng mạng sigmoid phép nhân Đối với tốn mà nhóm thực hiện, mạng LSTM đóng vai trị vơ quan trong việc xây dựng model dự đoán báo gợi ý Dữ liệu đầu vào cho mạng LSTM vector đặc trưng trích xuất từ ảnh thơng qua phận Encoder kiến trúc Encoder-Decoder LSTM giúp xây dựng 76 mơ hình học tạo câu mơ tả tương ứng với đặc trưng ảnh đầu vào Các thơng tin, đặc điểm hình ảnh truyền qua nút mạng theo xuyên suốt Giúp mơ hình tạo câu dựa vào thơng tin hình Bản thảo báo khoa học 77 Tự động tạo câu mô tả tiếng Việt cho ảnh dựa phương pháp học sâu chế Attention Nguyễn Trường Khoa Nguyên, Phạm Huỳnh Tấn Đạt, Huỳnh Ngọc Tín, Ngô Trung Hiếu, Trần Hàm Dương Trường Đại học Công nghệ Thông tin - ĐHQG TP.HCM, Việt Nam {17520827, 17520338}@gm.uit.edu.vn, tinhn@uit.edu.vn, 16520396@gm.uit.edu.vn, duongth.15@grad.uit.edu.vn Tóm tắt nội dung Tự động sinh mơ tả cho ảnh tốn tự động tạo câu văn miêu tả vật hành động chúng ảnh đầu vào Các câu mô tả ứng dụng việc hỗ trợ mơ hình máy học khác nhằm nâng cao tính hiệu việc xử lý vấn đề mà mơ hình hướng đến Tuy nhiên, theo hiểu biết nhóm nghiên cứu, việc tự động sinh câu mô tả cho ảnh áp dụng cho tiếng Anh, chưa có nghiên cứu thực nhằm giải vấn đề cho tiếng Việt Trong viết này, chúng tơi đề xuất mơ hình tự động sinh câu mô tả tiếng Việt cho ảnh theo kiến trúc Encoder-Decoder chế Attention Kết nghiên cứu cho thấy mơ hình chúng tơi đạt 26.38 điểm BLEU-4 tập liệu Flickr30k tiếng Việt đạt 32.33 tập liệu MSCOCO nhóm xây dựng Keywords: Sinh câu cho ảnh · tiếng Việt · Attention Giới thiệu Mục tiêu toán tự động sinh câu mô tả tiếng Việt cho ảnh mơt mơ hình tự động tạo câu tiếng Việt mô tả vật hành động chúng ảnh cách xác Bài toán áp dụng cho tất ảnh với định dạng khác kích thước khác Câu mô tả đáp ứng yêu cầu ngữ pháp tiếng Việt Bài toán thể tiềm việc kết hợp hỗ trợ toán khác như: sinh câu mô tả dựa cảm xúc cho ảnh, screen reader, Ví dụ áp dụng toán hỗ trợ thiết bị screen reader, thiết bị hỗ trợ người khiếm thị việc đọc văn máy tính cách biểu diễn từ ngữ hình thành chữ thiết bị Các câu mơ tả mơ hình tạo thể dạng chữ nổi, từ giúp người khiếm thị hiểu nội dung hình Khi nhắc đến tự động sinh mơ tả cho ảnh, có ba thách thức mà nghiên cứu phải ý Đầu tiên câu mơ tả phải liên quan đến hình, nội dung câu phải đề cập đến yếu tố ảnh vật hành động, Nguyên cộng tương tác chúng Điều thứ hai, câu mô tả phải đáp ứng yêu cầu ngữ pháp mà đây, nghiên cứu chúng tôi, ngữ pháp tiếng Việt Cuối cùng, câu mơ tả phải ngắn gọn, súc tích Các vật ảnh hành động, đặc điểm chúng phải đề cập đến câu Hiện có nghiên cứu[11][12] thực để đưa hướng giải cho khó khăn thu kết tích cực Thế hầu hết phương pháp mà nghiên cứu đưa áp dụng cho tiếng Anh theo hiểu biết nhóm chúng tơi, chưa có phương pháp áp dụng thành cơng cho tốn với tiếng Việt Phương pháp trước [11] tạo câu chưa mô tả vật hành động chúng ảnh Vì hướng nghiên cứu khác [12] áp dụng phương pháp học sâu chế Attention, nhằm giúp máy xác định vị trí quan trọng ảnh, từ tăng độ xác cho việc sinh câu mơ tả Với phương pháp này, nhóm nghiên cứu thành cơng việc xây dựng mơ hình sinh câu mơ tả tiếng Việt cho ảnh Kết cho thấy mơ hình tạo câu tiếng Việt biểu diễn xác súc tích nội dung ảnh, đồng thời đảm bảo tính đắn mặt ngữ nghĩa tiếng Việt, câu mô tả hồn tồn áp dụng thực tế Trong viết này, đóng góp chúng tơi bao gồm: • Xây dựng tập liệu tiếng Việt cho tốn dựa tập liệu Flickr30k • Nghiên cứu, áp dụng mơ hình tích chập có sẵn ResNet cho tốn • Nghiên cứu, áp dụng kiến trúc Encoder-Decoder chế Attention cho toán sinh câu mơ tả tiếng Việt cho ảnh Phần cịn lại viết bao gồm tồn q trình thực nghiên cứu Trong mục 2, đề cập đến ngiên cứu liên quan toán Mục mơ tả chi tiết phương pháp nhóm Tập liệu kết thử nghiệm mô tả mục Chúng kết luận toàn viết mục Nghiên cứu liên quan Trong phần này, xin đề cập tới nghiên cứu liên quan việc giải vấn đề tự động sinh câu mô tả tiếng Việt cho hình ảnh hạn chế Nhờ vào hỗ trợ phương pháp trích xuất đối tượng có ảnh, [1] qua lấy cặp ba (đối tượng, hành động, khung cảnh) ảnh kết hợp chúng thành câu thông qua biểu mẫu định nghĩa trước Tương tự, phương pháp [8] thông qua việc nhận biết đối tượng có ảnh ghép chúng lại với dựa vào câu chứa đối tượng phát từ diễn tả mối quan hệ chúng Các hướng tiếp cận nêu tạo câu mơ tả cho hình Tuy nhiên, phương pháp lại thiết kế thủ cơng, khơng linh hoạt tốn sinh văn Tạo mô tả tiếng Việt Một lượng lớn nghiên cứu đưa để giải toán này, qua việc xếp hạng câu mô tả định nghĩa sẵn tập liệu với hình tương ứng [2] [9] Hướng tiếp cận hình thành dựa vào ý tưởng nhúng đặc trưng hình ảnh câu mơ tả vào khơng gian vector Mơ hình lấy hình ảnh nằm gần hình ảnh đầu vào khơng gian vector thu danh sách câu mô tả tương ứng để đánh giá Hướng tiếp cận lấy mơ tả có từ trước xếp hạng nên khơng có khả tự sinh văn bản, điều khiến mơ hình khơng thể sinh câu cho thành phần ảnh Với phát triển nhiều mô hình học sâu, [11] đưa mơ hình kết hợp mạng tích chập cho phân loại ảnh [6] với mơ hình hồi quy cho việc sinh câu [5] Các đặc trưng ảnh trích xuất từ mạng nơ ron tích chập huấn luyện mạng hồi quy cho trình sinh câu Phương pháp giải vấn đề tự động sinh câu mô tả cho hình, việc tập trung vào tất đặc trưng ảnh gây khó khăn q trình học mơ hình Qua đó, [12] giới thiệu thêm chế Attention để mơ hình tập trung vào đặc trưng quan trọng có ảnh, nhóm chúng tơi dựa nghiên cứu với việc kết hợp sử dụng mô hình huấn luyện trước ResNet để lấy đặc trưng ảnh giải thuật beam search để lựa chọn câu sinh tốt nhất, nhóm cho kết khả quan việc sinh văn tiếng Việt cho hình ảnh Sử dụng Attention Encoder-Decoder để tạo câu mô tả tiếng Việt Trong nghiên cứu này, chúng tơi sử dụng mơ hình có kiến trúc Encoder - Decoder chế Attention[12] kết hợp chung với giải thuật beam search để tìm câu sinh với kết cao nhất, áp dụng mô hình huấn luyện trước kiến trúc ResNet để hỗ trợ việc nhận diện đối tượng xuất ảnh 3.1 Encoder Bộ phận Encoder có nhiệm vụ mã hóa ảnh đầu vào thành vector Vector đại diện cho đặc trưng ảnh Encoder sử dụng mạng nơ ron tích chập ResNet có 101 lớp Resnet (Residual Network)[3] giới thiệu đến công chúng vào năm 2015 chí giành vị trí thứ thi ILSVRC 2015 với tỉ lệ lỗi top 3.57 % Mạng Resnet thiết kế để làm việc với hàng trăm hàng nghìn lớp chập, giải vấn đề Vanishing Gradient dẫn tới trình học tập khơng tốt Ngun cộng Hình Bộ mã hóa 3.2 Cơ chế Attention Chúng tơi sử dụng chế Attention gọi soft Attention [10] nhằm hỗ trợ Decoder sinh câu tốt chế Attention tạo vector Zt từ vector đặc trưng với vị trí cần ý giữ nguyên giá trị giá trị vị trí khơng quan trọng tiến dần tạo từ thứ t câu chế Attention tính tốn mức độ tập trung st , i vào điểm thứ i vector nhân với trọng số αi , trọng số αi tính thơng qua hàm phi tuyến softmax: αi = sof tmax(s1 , s2 , si , ) Qua thu vector mới: L Zt = αi st , i i=1 Vector sử dụng đầu vào bổ sung cho Decoder Hình Cơ chế Attention Tạo mô tả tiếng Việt 3.3 Sử dụng Attention với Decoder Decoder mạng nơ ron hồi quy cải tiến Long-Short Term Memory (LSTM) Sau phận Encoder tạo tập vector đặc trưng, vector xem trạng thái ẩn khởi tạo cho mạng LSTM Ở bước giải mã, tập vector đặc trưng trạng thái ẩn bước trước sử dụng chế Attention để tính trọng số cho vị trí Từ tạo trạng thái trước vector có trọng số lớn theo tính tốn mạng attetnion đưa vào Decoder để sinh chữ Hình Mơ hình sinh câu mô tả tiếng Việt cho ảnh 3.4 Áp dụng Beam Search Khi xây dựng mơ hình, chúng tơi nhận thấy câu mơ tả mơ hình chúng tơi sinh phụ thuộc nhiều vào chữ mà tạo ra, trường hợp chữ khơng phù hợp với ảnh tồn câu mơ tả khơng phù hợp với ảnh Vì vậy, nhóm nghiên cứu áp dụng thuật tốn Beam Search để hỗ trợ chọn câu mô tả tốt Beam Search thực sau: • • • • Lúc bắt đầu giải mã, thuật toán chọn k từ có xác suất cao Tạo từ thứ hai ứng với k từ thứ bước Chọn k cặp từ [từ thứ nhất, từ thứ hai] có xác suất cao Từ cặp từ bước 3, giải mã tiếp tục tạo từ thứ tương ứng Nguyên cộng k cặp từ chọn k từ [từ thứ 1, từ thứ 2, từ thứ 3] • Thực lại bước giải mã cho k câu đến xuất kí tự • Sau kết thúc việc sinh câu, chọn câu có xác suất cao k câu Kết cho thấy, vài câu có xác suất thấp lúc bắt đầu giải mã, sinh toàn câu, câu mơ tả có xác suất cao so với câu có xác suất cao lúc bắt đầu giải mã 4.1 Thực Nghiệm Bộ liệu Chúng tơi đánh giá mơ hình tập liệu Flickr30k MSCOCO tiếng Việt nhóm xây dựng, Với tập liệu Flickr30k bao gồm 31014 ảnh MSCOCO gồm 164065 ảnh, ảnh có câu mơ tả tiếng anh người viết Vì nghiên cứu hướng đến việc áp dụng cho tiếng Việt, nhóm nghiên cứu chuyển ngơn ngữ tập liệu từ tiếng Anh sang tiếng Việt Số lượng ảnh câu mô tả giữ nguyên tập liệu gốc, sử dụng Google Translate chuyển toàn câu mơ tả tiếng Anh thành tiếng Việt, sau nhóm tiến hành review chỉnh sửa lại, trung bình câu 15 chữ Sau dịch toàn tập liệu sang tiếng Việt, tập liệu kiểm tra đánh giá lại người, sau đó, áp dụng tập chia Karpathy [7] để chia liệu huấn luyện, kiểm thử đánh giá Để đánh giá mơ hình, chúng tơi sử dụng độ đo BLEU Tập liệu Tập chia Số lượng ảnh Số lượng thích Huấn luyện 29000 145000 Flickr30k tiếng Việt Phát triển Kiểm định 1014 1000 5070 5000 Tổng 31014 155070 Bảng Bảng phân tích tập liệu Flickr30k tiếng Việt Tập liệu Tập chia Số lượng ảnh Số lượng thích Huấn luyện 82784 414113 MSCOCO tiếng Việt Phát triển Kiểm định 40505 40776 177644 25010 Bảng Bảng phân tích tập liệu MSCOCO tiếng Việt Tổng 164065 616767 Tạo mô tả tiếng Việt 4.2 Độ đo đánh giá Trong tốn này, nhóm chúng tơi sử dụng độ đo BLEU, hay Bilingual Evaluation Understudy, độ đo sử dụng rộng rãi việc đánh giá mơ hình học sâu, để đánh giá mơ hình nhóm Chúng tơi sử dụng độ đo BLEU khả đánh giá độ giống câu có độ dài khác Mặc dù thiết kế cho toán dịch máy độ đo BLEU dùng cho tốn sinh câu lĩnh vực xử lý ngôn ngữ Độ đo BLEU chúng tơi tính tốn n-grams từ câu mô tả cần phải theo thứ tự BP = e (1−r/c) if r > c if r ≤ c N BLEU = BP.exp wn log pn n=1 Trong công thức trên, BP brevity penalty c, r độ dài câu mô hình sinh câu tham chiếu, câu mơ tả mà chúng tơi mong muốn mơ hình sinh pn modified precision score, N độ dài n-grams trọng số dương wn 4.3 Kết Kết đánh giá thu dựa độ đo BLEU cho mơ hình sinh câu mơ tả tiếng Việt chúng tơi Tập liệu Mơ hình Mơ hình sinh câu mô tả tiếng Việt cho ảnh Flickr30k tiếng Việt BLEU-1 BLEU-4 55.36 26.38 MSCOCO tiếng Việt BLEU-1 BLEU-4 69.25 32.33 Bảng Kết đánh giá mơ hình tập tiếng Việt Kết luận Trong viết này, chúng tơi xây dựng mơ hình sinh câu mô tả cho ảnh áp dụng cho tiếng Việt, sử dụng phương pháp học sâu, đặc biệt chế Attention sử dụng độ đo BLEU để đánh giá kết tập liệu tiếng Việt nhóm chúng tơi xây dựng Đồng thời, nhóm nghiên cứu cho thấy khả áp dụng chế Attention việc xây dựng mơ hình tạo câu mơ tả tiếng Việt cho ảnh Nguyên cộng Trong tương lai, tiếp tục thí nghiệm với phương pháp mơ hình pretrained khác, đồng thời đánh giá mơ hình tập liệu lớn Chúng hy vọng kết nghiên cứu nhóm khuyến khích việc xây dựng mơ hình máy học áp dụng cho tiếng Việt Demo Flickr30k: Một ngựa nâu chạy qua cánh đồng MSCOCO: Một ngựa đứng cỏ Flickr30k: Một cầu thủ bóng đá mặc đồng phục màu đỏ trắng cố gắng truy cản cầu thủ bóng đá mặc đồng phục màu đỏ MSCOCO: Một người đàn ơng đá bóng sân Flickr30k: Một chó nâu Flickr30k: Một xe buýt màu đỏ chạy bãi cỏ với đồ chơi đậu đường miệng MSCOCO: Một xe buýt hai MSCOCO: Một chó màu nâu tầng màu đỏ trắng chạy trắng ngồi cánh đồng đường phố cỏ bao phủ Kết sinh câu từ hai mô hình liệu Flickr30k MSCOCO [4] Tài liệu Farhadi, A., Hejrati, M., Sadeghi, M.A., Young, P., Rashtchian, C., Hockenmaier, J., Forsyth, D.: Every picture tells a story: Generating sentences from images In: Daniilidis, K., Maragos, P., Paragios, N (eds.) Computer Vision – ECCV 2010 pp 15–29 Springer Berlin Heidelberg, Berlin, Heidelberg (2010) Tạo mô tả tiếng Việt Gong, Y., Wang, L., Hodosh, M., Hockenmaier, J., Lazebnik, S.: Improving imagesentence embeddings using large weakly annotated photo collections In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T (eds.) Computer Vision – ECCV 2014 pp 529–545 Springer International Publishing, Cham (2014) He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition CoRR abs/1512.03385 (2015), bluehttp://arxiv.org/abs/1512.03385 He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition (2015) Hochreiter, S., Schmidhuber, J.: Long short-term memory Neural computation 9, 1735–80 (12 1997) https://doi.org/10.1162/neco.1997.9.8.1735 Ioffe, S., Szegedy, C.: Batch normalization: Accelerating deep network training by reducing internal covariate shift CoRR abs/1502.03167 (2015), bluehttp:// arxiv.org/abs/1502.03167 Karpathy, A., Li, F.: Deep visual-semantic alignments for generating image descriptions CoRR abs/1412.2306 (2014), bluehttp://arxiv.org/abs/1412.2306 Li, S., Kulkarni, G., Berg, T.L., Berg, A.C., Choi, Y.: Composing simple image descriptions using web-scale n-grams In: Proceedings of the Fifteenth Conference on Computational Natural Language Learning pp 220–228 Association for Computational Linguistics, Portland, Oregon, USA (Jun 2011), bluehttps: //www.aclweb.org/anthology/W11-0326 Ordonez, V., Kulkarni, G., Berg, T.L.: Im2text: Describing images using million captioned photographs In: Proceedings of the 24th International Conference on Neural Information Processing Systems p 1143–1151 NIPS’11, Curran Associates Inc., Red Hook, NY, USA (2011) 10 Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L., Polosukhin, I.: Attention is all you need CoRR abs/1706.03762 (2017), bluehttp://arxiv.org/abs/1706.03762 11 Vinyals, O., Toshev, A., Bengio, S., Erhan, D.: Show and tell: A neural image caption generator CoRR abs/1411.4555 (2014), bluehttp://arxiv.org/abs/1411 4555 12 Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A.C., Salakhutdinov, R., Zemel, R.S., Bengio, Y.: Show, attend and tell: Neural image caption generation with visual attention CoRR abs/1502.03044 (2015), bluehttp://arxiv.org/abs/1502.03044 ... dụng tạo mô tả cho ảnh 11 2.3 Tạo mô tả ảnh dựa vào truy xuất 12 2.4 Tạo mô tả cho ảnh dựa vào biểu mẫu 16 2.5 Tạo mô tả cho ảnh dựa vào học sâu. .. tiếng Việt cho tốn TĨM TẮT • Xây dựng mơ hình tạo câu mơ tả tiếng Việt cho ảnh • Xây dựng công cụ tạo câu mô tả tiếng Việt cho ảnh • Viết thảo báo khoa học: Tự động tạo câu mô tả tiếng Việt cho. .. phương pháp tiếp cận dựa phương pháp học sâu: áp dụng kiến trúc, 23 CHƯƠNG 3: TẠO MÔ TẢ TIẾNG VIỆT CHO ẢNH DỰA TRÊN TIẾP CẬN HỌC SÂU mơ hình học sâu để sinh sinh câu mơ tả Cả ba hướng tiếp cận có

Định dạng
Số trang	105
Dung lượng	7,55 MB