1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tìm hiểu chú thích ảnh tự động sử dụng học sâu và viết ứng dụng minh họa

165 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tìm Hiểu Chú Thích Ảnh Tự Động Sử Dụng Học Sâu Và Viết Ứng Dụng Minh Họa
Tác giả Nguyễn Lê Bảo Thanh, Huỳnh Nguyễn Tấn Nhạc
Người hướng dẫn TS. Trần Nhật Quang
Trường học Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành Công Nghệ Thông Tin
Thể loại Đồ Án Tốt Nghiệp
Năm xuất bản 2023
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 165
Dung lượng 9,58 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH ĐỒ ÁN TỐT NGHIỆP NGÀNH CƠNG NGHỆ THƠNG TIN TÌM HIỂU CHÚ THÍCH ẢNH TỰ ĐỘNG SỬ DỤNG HỌC SÂU VÀ VIẾT ỨNG DỤNG MINH HỌA GVHD: TS TRẦN NHẬT QUANG SVTH : NGUYỄN LÊ BẢO THANH HUỲNH NGUYỄN TẤN NGỌC SKL010942 Tp Hồ Chí Minh, tháng 6/2023 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA ĐÀO TẠO CHẤT LƯỢNG CAO NGÀNH: CƠNG NGHỆ THƠNG TIN  KHĨA LUẬN TỐT NGHIỆP TÌM HIỂU CHÚ THÍCH ẢNH TỰ ĐỘNG SỬ DỤNG HỌC SÂU VÀ VIẾT ỨNG DỤNG MINH HỌA Giảng viên hướng dẫn: TS Trần Nhật Quang Sinh viên thực MSSV Nguyễn Lê Bảo Thanh 19110019 Huỳnh Nguyễn Tấn Nhạc 19110252 TP Hồ Chí Minh – tháng 06/2023 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc ⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯ ⎯⎯⎯⎯⎯⎯⎯⎯⎯ Tp Hồ Chí Minh, ngày … tháng … năm 2023 NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Họ tên sinh viên 1: Nguyễn Lê Bảo Thanh MSSV: 19110019 Họ tên sinh viên 2: Huỳnh Nguyễn Tấn Nhạc MSSV: 19110252 Ngành: Công nghệ thông tin Lớp: 19110CLST3 Giảng viên hướng dẫn: TS Trần Nhật Quang ĐT: 0378487371 Ngày nhận đề tài: 20/02/2023 Ngày nộp đề tài: 30/05/2023 Tên đề tài: Tìm hiểu thích ảnh tự động sử dụng học sâu và viết ứng dụng minh họa Các số liệu, tài liệu ban đầu: Khơng có Nội dung thực đề tài: • Tìm hiểu lý thuyết, liệu, thuật toán và phương pháp đánh giá sử dụng mơ hình thích ảnh tự động • Lý thuyết mơ hình CNN-Transformer • Xây dựng và cài đặt mơ hình CNN-Transformer Sản phẩm: • Mơ hình CNN-Transformer có khả thích ảnh tự động • Một website áp dụng mơ hình để người dùng sử dụng thuận tiện TRƯỞNG NGHÀNH GIẢNG VIÊN HƯỚNG DẪN CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc ⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯ ⎯⎯⎯⎯⎯⎯⎯⎯⎯ PHIẾU NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN Họ và tên Sinh viên 1: Nguyễn Lê Bảo Thanh MSSV 1: 19110019 Họ và tên Sinh viên 2: Huỳnh Nguyễn Tấn Nhạc MSSV 2: 19110252 Ngành: Công nghệ Thông tin Tên đề tài: Tìm hiểu thích ảnh tự động sử dụng học sâu và viết ứng dụng minh họa Họ và tên giảng viên hướng dẫn: TS Trần Nhật Quang NHẬN XÉT Về nội dung đề tài khối lượng thực hiện: Ưu điểm: Khuyết điểm Đánh giá loại : Điểm : TP Hồ Chí Minh, ngày … tháng … năm 2023 Giảng viên hướng dẫn (ký & ghi rõ họ tên) CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc ⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯ ⎯⎯⎯⎯⎯⎯⎯⎯⎯ PHIẾU NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN Họ và tên Sinh viên 1: Nguyễn Lê Bảo Thanh MSSV 1: 19110019 Họ và tên Sinh viên 2: Huỳnh Nguyễn Tấn Nhạc MSSV 2: 19110252 Ngành: Công nghệ Thông tin Tên đề tài: Tìm hiểu thích ảnh tự động sử dụng học sâu và viết ứng dụng minh họa Họ và tên giảng viên phản biện: ………………………………………………………… NHẬN XÉT Về nội dung đề tài khối lượng thực hiện: Ưu điểm: Khuyết điểm Đánh giá loại : Điểm : TP Hồ Chí Minh, ngày … tháng … năm 2023 Giảng viên phản biện (ký & ghi rõ họ tên) LỜI CẢM ƠN Để hoàn thành tốt đề tài và bài báo cáo này, chúng em xin gửi lời cảm ơn chân thành đến giảng viên, thầy Trần Nhật Quang, người trực tiếp hỗ trợ chúng em suốt trình làm đề tài Chúng em cảm ơn thầy đưa lời khuyên từ kinh nghiệm thực tiễn để định hướng cho chúng em với yêu cầu đề tài chọn, giải đáp thắc mắc và đưa góp ý, chỉnh sửa kịp thời giúp chúng em khắc phục nhược điểm và hoàn thành tốt thời hạn đề Chúng em xin gửi lời cảm ơn chân thành quý thầy khoa Đào tạo Chất Lượng Cao nói chung và ngành Cơng Nghệ Thơng Tin nói riêng tận tình truyền đạt kiến thức cần thiết giúp chúng em có tảng để làm nên đề tài này, tạo điều kiện để chúng em tìm hiểu và thực tốt đề tài Cùng với đó, chúng em xin gửi cảm ơn đến bạn khóa cung cấp nhiều thơng tin và kiến thức hữu ích giúp chúng em hoàn thiện đề tài Đề tài và bài báo cáo chúng em thực khoảng thời gian ngắn, với kiến thức hạn chế nhiều hạn chế khác mặt kĩ thuật và kinh nghiệm việc thực dự án phần mềm Do đó, q trình làm nên đề tài có thiếu sót là điều khơng thể tránh khỏi nên chúng em mong nhận ý kiến đóng góp quý báu quý thầy cô để kiến thức chúng em hoàn thiện và chúng em làm tốt lần sau Chúng em xin chân thành cảm ơn Cuối lời, chúng em kính chúc q thầy, q ln dồi dào sức khỏe và thành công sự nghiệp trồng người Một lần chúng em xin chân thành cảm ơn TP Hồ Chí Minh, ngày tháng … năm 2023 Nhóm sinh viên thực i MỤC LỤC LỜI CẢM ƠN i MỤC LỤC ii DANH MỤC HÌNH ẢNH vi DANH MỤC BẢNG viii DANH MỤC TỪ VIẾT TẮT ix KÍ HIỆU – QUY ƯỚC x CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI .1 Lý chọn đề tài Mục tiêu và đóng góp 2.1 Mục tiêu 2.2 Đóng góp Lộ trình thực và công việc liên quan CHƯƠNG 2: TÌM HIỂU VỀ LÝ THUYẾT Lý thuyết chung 1.1 Ngôn ngữ lập trình Python .5 1.1.1 Python gì? 1.1.2 Cú pháp Python 1.1.3 Kiểu liệu 1.2 AI (Artificial Intelligence) 1.2.1 AI (Artificial Intelligence) gì? 1.2.2 Một số ứng dụng AI 1.3 Machine Learning 1.3.1 Machine Learning gì? 1.3.2 Mục tiêu Machine Learning? 1.3.3 Các phương pháp Machine Learning 1.4 Deep Learning [1] 1.4.1 Deep Learning (học sâu) là gì? 1.4.2 Lịch sử phát triển học sâu? 10 1.4.3 Các kiến trúc học sâu 12 1.4.4 Các ứng dụng học sâu 14 Image Captionings 14 ii 2.1 Giới thiệu 14 2.2 Cách thức hoạt động .14 2.3 Các kiến trúc 15 2.4 Ứng dụng 15 CHƯƠNG 3: PHÂN TÍCH DỮ LIỆU 16 The Flickr8k [2] 16 The Flickr30k [3] 18 The MS COCO (Microsoft Common Objects in Context) [4] 19 CHƯƠNG 4: PHƯƠNG PHÁP HỌC 21 Cở sở lý thuyết 21 1.1 Giới thiệu bài toán 21 1.2 Kiến thức tảng 29 1.2.1 Rút trích đặc trưng ảnh mạng nơ-ron tích chập 29 1.2.2 Xây dựng mơ hình ngơn ngữ mạng nơ-ron hồi quy 35 1.2.2.1 Mơ hình ngơn ngữ n-gram 35 1.2.2.2 Mơ hình ngơn ngữ dựa mạng nơ-ron 36 1.2.2.2.1 Mơ hình ngơn ngữ dựa mạng nơ-ron truyền thẳng .36 1.2.2.2.2 Mơ hình ngôn ngữ dựa mạng nơ-ron hồi quy .41 1.2.2.2.3 Mơ hình ngơn ngữ dựa mạng nhớ dài-ngắn .49 1.3 Tự động mô tả nội dung ảnh mơ hình CNN-LSTM-Attention 54 1.3.1 Mơ hình CNN-LSTM cho bài tốn tự động mơ tả nội dung ảnh 54 1.3.1.1 Kiến trúc mô hình CNN-LSTM 54 1.3.1.2 Huấn luyện mơ hình CNN-LSTM 56 1.3.1.3 Phát sinh câu mô tả từ ảnh với mơ hình CNN-LSTM huấn luyện 59 1.3.2 ảnh Mơ hình CNN-LSTM-Attention cho bài tốn tự động mô tả nội dung 62 1.3.2.1 Vấn đề mô hình CNN-LSTM và cách khắc phục chế Attention 62 1.3.2.2 Kiến trúc mơ hình CNN-LSTM-Attention 63 1.3.2.3 Huấn luyện mô hình CNN-LSTM-Attention .67 1.3.2.4 Phát sinh câu mơ tả từ ảnh với mơ hình CNN-LSTM-Attention huấn luyện .72 1.4 Transformer 74 iii 1.4.1 Giới thiệu Transformer đề cập và phần liên quan 75 1.4.2 Model & Mechanism Attention 79 1.4.3 Encoder 82 1.4.4 Decoder 84 1.4.5 Các thí nghiệm đề cập 86 Phương pháp thực 95 2.1 CNN 95 2.2 LSTM 96 2.3 Transformer 97 2.3.1 Origin Motivation 97 2.3.2 By pixel 97 2.3.3 By channel 100 2.3.4 Loss Function 100 2.4 Beam Search .101 CHƯƠNG 5: PHƯƠNG PHÁP ĐÁNH GIÁ 104 Đánh giá tự động 104 1.1 BLEU: bleu .104 1.2 CIDEr: cider .104 1.3 ROUGE: rouge 105 1.4 METEOR: meteor 105 Đánh giá thủ công 105 CHƯƠNG 6: XÂY DỰNG MƠ HÌNH – THỰC NGHIỆM CHƯƠNG TRÌNH .107 Dataset 107 Xử lý liệu 108 Model 110 3.1 CNN: models.py 110 3.1.1 Giới thiệu 110 3.1.2 Mơ hình CNN Encoder 110 3.1.2.1 Lớp CNN_Encoder 110 3.1.2.2 Khởi tạo lớp CNN_Encoder .110 3.1.2.3 Phương thức forward 111 3.1.2.4 Phương thức fine_tune .111 3.2 Transformer: transformer.py 111 iv 3.2.1 Lớp ScaledDotProductAttention 112 3.2.2 Lớp Multi_Head_Attention: 112 3.2.3 Lớp PoswiseFeedForwardNet: 113 3.2.4 Lớp EncoderLayer: 113 3.2.5 Lớp Encoder: 114 3.2.6 Lớp DecoderLayer: 115 3.2.7 Lớp Decoder: 116 3.2.8 Lớp Transformer: 117 Training: train.py 118 4.1 Train 118 4.2 Validate .119 4.3 Main 121 Result 122 5.1 Kết sau training 122 5.3 Testing 123 Thực nghiệm 126 6.1 Một số ảnh giao dện website 127 6.2 Một số phần khác website .134 CHƯƠNG 7: KẾT LUẬN VÀ MỤC TIÊU PHÁT TRIỂN .135 Đánh giá kết thực 135 Ưu điểm và nhược điểm 136 Hướng phát triển 136 TÀI LIỆU THAM KHẢO 138 PHỤ LỤC 140 v

Ngày đăng: 05/12/2023, 10:02

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w