Bài tập lớn Nhập môn khoa học máy tính và khai phá dữ liệu: Nhận diện cảm xúc trong truyện tranh

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	22
Dung lượng	1,66 MB
File đính kèm	OneDrive_3_01-03-2023.zip (3 MB)

Nội dung

Bài tập lớn Nhập môn khoa học máy tính và khai phá dữ liệu: Nhận diện cảm xúc trong truyện tranh Bài tập lớn Nhập môn khoa học máy tính và khai phá dữ liệu: Nhận diện cảm xúc trong truyện tranhBài to¡n nh“n di»n c£m xúc trong truy»n tranh Truy»n tranh là mºt ngành công nghi»p tỷ đô đặc bi»t phŒ bi‚n ở c¡c khu vực B›c Mỹ, Ch¥u Âu và Ch¥u Á. — thời k… đƒu, truy»n tranh đưæc in tr¶n s¡ch gi§y và trở thành mºt món «n tinh thƒn không th” thi‚u cho tr· em thời b§y giờ. Nhœng n«m gƒn đ¥y theo sự ph¡t tri”n cıa công ngh», chúng đưæc đưa l¶n internet và ngày càng d„ ti‚p c“n với b⁄n đọc và trở n¶n phŒ bi‚n, giúp lan to£ nhœng gi¡ trị v«n ho¡, gi¡o dục và gi£i tr‰ tr¶n toàn th‚ giới. Tuy nhi¶n, c¡c nºi dung truy»n tranh có mặt tr¶n internet hi»n t⁄i đang gặp ph£i th¡ch thøc trong vi»c x§y dựng c¡c công cụ đọc hi”u nºi dung tự đºng (tương tự mºt sŁ h» thŁng truy v§n h…nh £nh hay truy v§n video), do đó h⁄n ch‚ c¡c øng dụng t…m ki‚m nºi dung trực tuy‚n hay c¡c h» thŁng gæi ý. Đ” cung c§p nºi dung truy»n tranh kỹ thu“t sŁ với tr£i nghi»m ch‰nh x¡c và th¥n thi»n với người dùng tr¶n t§t c£ c¡c phương ti»n, vi»c đọc hi”u và c¥n nh›c nºi dung cıa chúng là th“t sự cƒn thi‚t. Tuy nhi¶n ở quy mô toàn cƒu, nhœng công vi»c này kh¡ tŁn k†m n‚u thực hi»n thı công, do đó c¡c qu¡ tr…nh xß lý tự đºng s‡ r§t hœu ‰ch đ” giœ chi ph‰ cho c¡c công vi»c nói tr¶n ở møc ch§p nh“n đưæc. Đ¥y là mºt trong nhœng lý do t⁄i sao ph¥n t‰ch h…nh £nh truy»n tranh đ¢ đưæc nghi¶n cøu bởi cºng đồng ph¥n t‰ch dœ li»u tł kho£ng hơn mºt th“p kỷ vła qua. Tr¶n cơ sở đó, v¤n cÆn nhi•u th¡ch thøc cƒn gi£i quy‚t trong lĩnh vực này. Mặc dù c¡c y‚u tŁ truy»n tranh như c£nh v“t, c¡c đo⁄n hØi tho⁄i, v«n b£n tường thu“t hi»n đưæc ph¡t hi»n và ph¥n đo⁄n kh¡ tŁt (với c¡c công cụ ph¥n vùng £nh và nh“n di»n k‰ tự quang học), nhưng vi»c ph¡t hi»n c¡c nh¥n v“t, nh“n d⁄ng v«n b£n và ph¥n t‰ch mŁi quan h» giœa c¡c y‚u tŁ đó v¤n cÆn nhi•u th¡ch thøc trong bŁi c£nh c¡c t¡c vụ này v¤n chưa đưæc nghi¶n cøu kỹ lưỡng 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ——————– o0o ——————— Nhận diện cảm xúc truyện tranh Báo cáo tập lớn Nhập môn Học máy khai phá liệu Giáo viên hướng dẫn: PGS.TS Thân Quang Khoát Sinh viên thực : Nguyễn Tiến Long- 20180129 Phan Việt Hoàng- 20180086 Phạm Trần Anh- 20180018 Võ Hồng Sang - 20183973 Lớp : CTTN CNTT K63 Hà Nội - 2021 Mục lục Giới thiệu 1.1 Bài toán nhận diện cảm xúc 1.2 Nhận diện cảm xúc người 1.3 Bài toán phân loại đa nhãn 1.4 Đánh giá cho mơ hình 3 4 Tổng quan liệu 2.1 Bộ liệu Emorecom 2.2 Chuẩn bị liệu 2.3 Phương thức đánh giá 6 Tiếp cận toán 3.1 Tiền xử lý liệu 3.1.1 Dữ liệu hình ảnh 3.1.2 Dữ liệu văn 3.2 Tổng quan mơ hình 3.2.1 EfficientNet 3.2.2 BERT 3.3 Cài đặt Kết 4.1 4.2 4.3 truyện tranh 9 9 10 10 12 14 đánh giá Đánh giá thành phần Kết Ensemble kết tổng 17 17 18 18 Tổng kết 20 Tài liệu tham khảo 21 Chương Giới thiệu 1.1 Bài toán nhận diện cảm xúc truyện tranh Truyện tranh ngành công nghiệp tỷ đô đặc biệt phổ biến khu vực Bắc Mỹ, Châu Âu Châu Á Ở thời kì đầu, truyện tranh in sách giấy trở thành ăn tinh thần thiếu cho trẻ em thời Những năm gần theo phát triển công nghệ, chúng đưa lên internet ngày dễ tiếp cận với bạn đọc trở nên phổ biến, giúp lan toả giá trị văn hoá, giáo dục giải trí tồn giới Tuy nhiên, nội dung truyện tranh có mặt internet gặp phải thách thức việc xấy dựng công cụ đọc hiểu nội dung tự động (tương tự số hệ thống truy vấn hình ảnh hay truy vấn video), hạn chế ứng dụng tìm kiếm nội dung trực tuyến hay hệ thống gợi ý Để cung cấp nội dung truyện tranh kỹ thuật số với trải nghiệm xác thân thiện với người dùng tất phương tiện, việc đọc hiểu cân nhắc nội dung chúng thật cần thiết Tuy nhiên quy mơ tồn cầu, công việc tốn thực thủ cơng, q trình xử lý tự động hữu ích để giữ chi phí cho cơng việc nói mức chấp nhận Đây lý phân tích hình ảnh truyện tranh nghiên cứu cộng đồng phân tích liệu từ khoảng thập kỷ vừa qua Trên sở đó, cịn nhiều thách thức cần giải lĩnh vực Mặc dù yếu tố truyện tranh cảnh vật, đoạn hỗi thoại, văn tường thuật phát phân đoạn tốt (với công cụ phân vùng ảnh nhận diện kí tự quang học), việc phát nhân vật, nhận dạng văn phân tích mối quan hệ yếu tố cịn nhiều thách thức bối cảnh tác vụ chưa nghiên cứu kỹ lưỡng [2] Nhập môn học máy khai phá liệu 1.2 Nhận diện cảm xúc người Sau xem xét cách mơ hình hóa cảm xúc người để phân tích hiểu rõ cảm xúc truyện tranh qua Bảng 1.1 trình bày bốn mơ hình phổ biến cho cảm xúc Với tảng thi Kaggle , nhãn neutral thêm vào ban tổ chức tin trang truyện tranh tồn cảm xúc cho trước Bên cạnh đó, nhãn others thêm vào để mơ hình đánh giá tổng quan không bị bias vào cảm xúc cho trước Sau cân nhắc kĩ lưỡng, cuối tám nhãn lựa chọn để đánh giá cảm xúc người thi này, bao gồm angry, disgust, fear, happy, sad, surprise, neutral, and others Nghiên cứu Các cảm xúc Ekman [3] anger, disgust, fear, joy, sadness, surprise Plutchik [4] anger, anticipation, disgust, fear, joy, sadness, surprise, trust Shaver [5] anger, fear, joy, love, sadness, surprise Lovheim [6] anger, disgust, distress, fear, joy, interest, shame, surprise Bảng 1.1: Bốn mơ hình cảm xúc [7] 1.3 Bài toán phân loại đa nhãn Trong thi này, người tham gia thiết kế hệ thống học máy để tận dụng hiệu nguồn liệu: hình ảnh văn (các đoạn text trích xuất tự đồng) Mục tiêu nhận diện cảm xúc theo tiêu mẫu liệu Ở giai đoạn kiểm thử, hệ thổng đưa vào tập tranh truyện yêu cầu xác định xác suất nhãn mục tiêu xuất trang truyện Do toán đặt phân loại đa nhãn, tức điểm liệu thuộc nhiều nhãn 1.4 Đánh giá cho mơ hình Các nạp đánh giá dựa độ đo ROC-AUC (Area Under the Receiver Operating Characteristic Curve) Đường ROC minh hoạ vê hiệu mơ hình phân loại nhị phân ngưỡng dự đoán thay đổi (giá trị chọn để phân https://www.kaggle.com/c/challenges-in-representation-learning-facial-expressionrecognition-challenge/ Nhập môn học máy khai phá liệu chia điểm liệu lớp dựa theo xác suất) Trong Area Under the ROC Curve (AUC) biểu diễn đường cong ROC thành số (đúng phần diện tích đường cong ROC) AUC cho tốn phân loại nhiều lớp tính trung bình cộng AUC cho nhãn (ta coi phân loại nhãn toán riêng biệt) Để tính số này, nhóm chọn cài đặt sẵn thư viện Scikit-learn Tensorflow Hình 1.1: Minh hoạ độ đo ROC-AUC http://bit.ly/scikit-learn-auc https://www.tensorflow.org/api_docs/python/tf/keras/metrics/AUC Chương Tổng quan liệu 2.1 Bộ liệu Emorecom Trong thi này, nhóm yêu cầu giải thách thức phân tích cảnh truyện tranh: nhận biết cảm xúc cảnh truyện tranh Cảm xúc đến từ cảm xúc nhân vật truyện tranh câu chuyện mơ hình hố thơng tin hình ảnh, văn bong bóng thoại thích từ tượng (hình vẽ truyện tranh từ bắt chước ngữ âm, giống gợi ý âm mà mơ tả), xem Hình 2.1 Trong nhận dạng cảm xúc nghiên cứu rộng rãi lĩnh vực liệu khác, chẳng hạn thị giác máy tính xử lý ngơn ngữ tự nhiên, toán với liệu đa phương thức từ mạng xã hội, chưa khai thác với hình ảnh truyện tranh chứa hình ảnh văn Được thúc đẩy giá trị phương pháp tiếp cận multimodal, thi khuyến khích người tham gia sử dụng lợi đặc trưng từ nhiều nguồn liệu để suy cảm xúc Do đó, nhiệm vụ tốn multimodal tận dụng lợi từ hai lĩnh vực: thị giác máy tính xử lý ngơn ngữ tự nhiên nhiệm vụ cộng đồng phân tích liệu Trong thi này, hình ảnh thu thập gán nhãn theo cách crowdsourced nhãn ứng với ảnh Số liệu thống kê cho nhãn cho bảng 2.1 Angry 4005 Disgust 3678 Fear Happy Sad Surprise 3485 4197 1525 3435 Neutral 6914 Others 670 Bảng 2.1: Thống kê liệu Emorecom với số ảnh tương ứng với nhãn Nhập môn học máy khai phá liệu Hình 2.1: Ví dụ nhân vật truyện tranh với hình ảnh trực quan văn thích Cần lưu ý văn kết từ phương pháp OCR có lỗi (ví dụ: từ gạch chân màu đỏ mẫu liệu) Cuộc thi tổ chức diễn đàn Codalab từ ngày 15 tháng 12 năm 2020 đến 31 tháng năm 2021 thu hút 145 lượt đăng kí, 21 đội tham gia tới vịng private test đội hoàn thành chặng thi Timeline vịng tham khảo 2.2 Chuẩn bị liệu Bộ liệu Emorec bao gồm trang truyện lấy từ liệ publiu COMICS COMICS (120 GB) bao gồm 1,2 triệu cảnh truyện với đoạn text đọc Google Vision OCR, xem ảnh 2.1 Warm-Up 100 Public Training 6,112 Public Testing 2,046 Private Testing 2,041 Bảng 2.2: Số lượng liệu cho giai đoạn thi Bộ liệu cuối bao gồm training set, public test set private test set (xem 2.2, có 6112 điểm liệu cho training set tương ứng với 2046 điểm (bao gồm ảnh văn bản) giai đoạn public Các đội thi xem kết dự đốn trang chủ Codalab https://competitions.codalab.org/competitions/27884 https://emoreccom.univ-lr.fr https://obj.umiacs.umd.edu/comics/index.html Nhập môn học máy khai phá liệu Warm Up: Từ 16/12/2020 đến 10/1/2021 người tham gia cung cấp liệu warm up gồm 100 điểm liệu để quen với format liệu Emorecom Public data: Từ 10/1/2021 dến 24/3/2021 người tham gia cung cấp 6112 điểm liệu huấn luyện tương ứng với 2046 điểm liệu kiểm thử (khơng có nhãn) nạp dự đốn lên diễn đàn để xem kết ranking bảng tổng Private Test: Từ 24/3/2021 đến 31/3/2021 người tham gia cung cấp 2041 điểm liệu nhãn u cầu nạp dự đốn cho trước thời hạn kết thuc để đánh giá kết cuối 2.3 Phương thức đánh giá Script đánh giá cài đặt chạy tự động tảng Codalab điểm nạp đánh giá cách tự động Như đề cập trên, có tổng cộng nhãn bao gồm 0=Angry, 1=Disgust, 2=Fear, 3=Happy, 4=Sad, 5=Surprise, 6=Neutral, 7=Others Người tham gia yêu cầu nạp file dự đoán theo thứ tự với xác suất biểu thị cho xuất trạng thái cảm xúc trang truyện theo format sau: image_id 0_27_5 17_10_3 Angry 0.55 0.09 Disgust 0.06 0.31 Fear 0.09 0.39 Happy 0.37 0.35 Sad Surprise 0.44 0.83 0.74 0.95 Neutral 0.28 0.02 Others 0.47 0.15 Chương Tiếp cận toán 3.1 Tiền xử lý liệu Dữ liệu BTC cho gồm thành phần • train_transcriptions.json: chứa liệu huấn luyện dạng văn • train: folder chứa tranh truyện tập huấn luyện • train_emotion_labels.csv: chứa nhãn tập liệu huấn luyện • additional_infor:emotion_polarity.csv : chứa xác suất nhãn tập train • test_transcriptions.json: chứa liệu kiểm thử dạng văn • test: folder chứa tranh truyện tập kiểm thử 3.1.1 Dữ liệu hình ảnh Để thuận tiện cho việc huấn luyện mơ hình, nhóm định thay đổi hình dạng ảnh chung kích cỡ 256 × 256 định khơng tiến hành thêm kĩ thuật augmentation ảnh chúng làm ảnh hưởng đến thông tin dạng chữ có tranh truyện 3.1.2 Dữ liệu văn Vì đầu Google Vision OCR khơng thật tốt, phần tranh truyện cũ nên bị nhiều lỗi, nhóm định dùng luật để sửa lại số chỗ chuyển hết chữ dạng chữ thường (đúng output Google Vision OCR) Nhóm định khơng dùng nguồn liệu khơng làm tăng hiệu mơ hình Nhập mơn học máy khai phá liệu 3.2 Tổng quan mơ hình Như trình bày trực quan hình 3.1, mơ hình đề xuất gồm có thành phần khối pretrained model để biểu diễn liệu dạng ảnh Efficient Net [8] liệu văn Pre-training of Deep Bidirectional Transformers for Language Understanding [9] Các đặc trưng trích xuất kết hợp đưa tầng cuối để phân loại Visual part Fusion Prediction EfficientNet Fully connected Lingual part Angry 0.9 Disgust 0.3 Happy 0.6 Neutral 0.2 Other 0.1 Linguist part First to the skyhigh bridge ! Bert Email Signals Workflows Hình 3.1: Mơ hình đề xuất với chế early fusion, kết hợp đặc trưng từ ảnh văn 3.2.1 EfficientNet Mạng Nơ-ron tích chập (Convolutional Neural Networks - ConvNets) thường phát triển với ngân sách tài nguyên cố định sau thu phóng để có độ xác tốt có nhiều tài nguyên (Nguyên văn: Convolutional Neural Networks (ConvNets) are commonly developed at a fixed resource budget, and then scaled up for better accuracy if more resources are available.) Bởi nên nhóm tác giả Mingxing Tan Quoc V Le nghiên cứu cách có hệ thống nhận thấy việc cân cách có hệ thống độ sâu, chiều rộng độ phân giải mạng (network depth, width, and resolution) mang đến hiệu suất tốt Như ta biết, có ba kích thước tỷ lệ CNN: depth, width, resolution: • Depth độ sâu mạng tương đương với số lớp • Width độ rộng mạng Ví dụ: thước đo chiều rộng số kênh lớp Conv 10 Nhập môn học máy khai phá liệu Hình 3.2: Hiệu mơ hình EfficientNet liệu Imagenet • Resolution độ phân giải hình ảnh chuyển đến CNN Hình 3.3: Ý tưởng việc thu phóng mơ hình kích thước khác Chúng ta hay tự hỏi việc thu phóng mơ hình lại quan trọng Câu trả lời là, ta nói việc thu phóng thường thực để cải thiện độ xác mơ hình tác vụ định, chẳng hạn phân loại ImageNet Việc thu phóng quy mơ, thực cách, 11 Nhập mơn học máy khai phá liệu 300 Mean: 18.68 ± 7.56 Max: 42 Median: 18.0 Mean: 22.90 ± 8.32 Max: 49 Median: 22.0 300 250 250 200 count count 200 150 100 100 50 50 150 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 Hình 3.4: Độ dài câu theo mức từ (trái) BPE token (phải) giúp cải thiện hiệu mơ hình Để chứng minh tốt hiệu phương pháp thu phóng quy mơ mình, nhóm tác giả phát triển mạng sở kích thước di động, gọi EfficientNet Các mơ hình EfficientNet nhóm tác giả thường sử dụng thứ tự tham số FLOPS so với ConvNets khác với độ xác tương tự Đặc biệt, EfficientNet-B7 chúng tơi đạt độ xác top1 84,3% với thơng số 66M 37B FLOPS, xác nhỏ 8,4 lần so với GPipe tốt trước Những lợi ích đến từ kiến trúc tốt hơn, thu phóng quy mơ tốt cài đặt đào tạo tốt tùy chỉnh cho EfficientNet 3.2.2 BERT Trong xử lý ngôn ngữ tự nhiên, việc biểu diễn từ thành vector đóng vai trị quan trọng Nó lợi ích nhiều việc thể tương đồng, đối lập ngữ nghĩa từ, giúp mơ hình hóa vector cho câu hay đoạn văn, tìm câu có nghĩa tương đồng Word embedding nhóm kỹ thuật đặc biệt xử lý ngơn ngữ tự nhiên, có nhiệm vụ ánh xạ từ cụm từ từ vựng tới vector số thực Từ không gian chiều cho từ tới không gian vector liên tục Các vector từ biểu diễn theo phương pháp word embedding thể ngữ nghĩa từ, từ ta nhận mối quan hệ từ với nhau(tương đồng, trái nghịch, ) Trong năm 2013, ý tưởng đưa Tomas Mikolov- kỹ sư làm Google giải vấn đề mơ hình hồn tồn khác Mơ hình sử dụng tốt ngày gọi mơ hình word2vec [11] Word2vec mạng neural lớp với tầng ẩn, lấy đầu vào corpus lớn sinh không gian vector(với số chiều khoảng vài trăm), với từ corpus gắn với vector tương ứng khơng gian Hình 3.4 cho ta thống kê độ dài câu có liệu dạng văn 12 Nhập môn học máy khai phá liệu bản, từ ta chọn tham số độ dài đoạn văn tương ứng Cụ thể ta chọn 42 cho độ dài lớn câu mức từ 56 cho độ dài lớn câu tách thành BPE tokens Các word vectors xác định không gian vector cho từ có chung ngữ cảnh corpus đặt gần khơng gian Dự đốn xác cao ý nghĩa từ dựa lần xuất trước Về mặt lý thuyết, kỹ thuật khác Word2vec, FastText hay Glove tìm đại diện từ thơng qua ngữ cảnh chung chúng Tuy nhiên, ngữ cảnh đa dạng liệu tự nhiên.Trong mơ Word2vec, fastText tìm vector đại diện cho từ dựa tập ngữ liệu lớn nên đa dạng ngữ cảnh Việc tạo biểu diễn từ dựa từ khác câu mang lại kết ý nghĩa nhiều BERT mở rộng khả phương pháp trước cách tạo biểu diễn theo ngữ cảnh dựa từ trước sau để dẫn đến mơ hình ngơn ngữ với ngữ nghĩa phong phú Bidirectional Encoder Representations from Transformers mơ hình học máy xử lý ngôn ngữ tự nhiên Google phát triển BERT tạo xuất vào năm 2018 Jacob Devlin đồng nghiệp ông từ Google Nó sử dụng nhiều tốn NLP như: • Phân loại văn • Question answering • Dịch máy • Nhận dạng thực thể có tên • Tóm tắt văn • Khơng nghi ngờ nữa, BERT bước đột phá việc sử dụng học máy xử lý ngôn ngữ Hơn nữa, mã nguồn mở cho phép tinh chỉnh nhanh chóng, phạm vi ứng dụng thực tế lớn Văn ban đầu, sau tách thành BPE tokens (token_id) truncate padding nhờ vào tách từ thư viện open source Huggingface đưa vào mơ hình với attention_mask token_type_id https://huggingface.co/transformers/tokenizer_summary.html https://huggingface.co/ 13 Nhập môn học máy khai phá liệu Hình 3.5: So sánh cách kết hợp embedding mức từ BERT Lấy ý tưởng từ paper gốc BERT kết Bert-base share task CoNLL-2003 NER Mơ hình đề xuất có thử nghiệm việc lấy embedding token [CLS] ghép trạng thái ẩn cuối BERT model 3.5 Kết thực nghiệm cho thấy việc lấy trạng thái ẩn cho kết cao nhiều seed khác nhau, cài đặt sử dụng cho mơ hình cuối 3.3 Cài đặt Để có cách đánh giá trực quan công lần chạy thực nghiệm, nhóm định sử dụng chiến lược K-fold Cross-Validation Với K chọn 5 https://machinelearningmastery.com/k-fold-cross-validation/ 14 Nhập môn học máy khai phá liệu Vỡi lần chạy, cấu hình mơ hình lưu lại để dễ dàng đánh giá nữa, file config.yaml dùng để dựng lại mô hình, load lại trọng số mạng mà dùng để dự đoán tập private test Như với cấu hình, ta có mơ hình tương ứng với fold Dự đốn mơ hình cộng trung bình để đưa dự đốn cho tập liệu đưa vào Việc sử dụng số mơ hình pretrained lớn Bert hay Effcientnet bên cạnh khả học biểu diễn vơ mạnh mẽ cịn có số nhược điểm mà bật số vấn đề overfitting Để cố gắng hạn chế vấn đề này, nhóm định sử dụng dropout[13], đặt vào sau model Bert Efficient Net để tránh việc mơ hình pretrained khớp với liệu q nhanh Hiểu cách đơn giản Dropout việc bỏ qua đơn vị (tức nút mạng) trình đào tạo cách ngẫu nhiên Bằng việc bỏ qua đơn vị khơng xem xét trình forward backward Theo đó, p gọi xác suất giữ lại nút mạng giai đoạn huấn luyện, xác suất bị loại bỏ (1 - p) Để đa dạng thực nghiệm, nhóm định sử dụng vài biến thể Bert: • DistilBert [18] • RoBerta [17] • Albert [19] • hay chí thay EfficientNet số mơ hình huấn luyện sẵn Image Net như: • VGG [16] 15 Nhập mơn học máy khai phá liệu • Resnet [14] • ResNext [15] • Cụ thể điểm khác ưu/nhược điểm mơ hình nhóm xin phép khơng trình bày Qua số thử nghiệm, mơ hình cuối (mơ hình đạt hiệu tốt đánh giá) kết hợp Roberta Efficientnet B2 Về bản, Roberta sử dụng chung kiến trung Bert điểm khác nằm việc huấn luyện Roberta huấn luyện lâu batch size lớn hơn, câu văn dài nhiều liệu Phần tác vụ next sentence prediction paper gốc Bert [9] Tác vụ Mask language model bên cạnh có số thay đổi Bên cạnh đó, nhóm cịn thử nghiệm thêm cách cài đặt Early/Late Fusion [12] hay mơ hình sử dụng hình ảnh/văn so sánh kết Phần báo cáo sâu vào kết thực nghiệm 16 Chương Kết đánh giá 4.1 Đánh giá thành phần Để có nhìn tốt độ quan trọng thành phần mơ khả khai thác thông tin từ nguồn liệu hình ảnh văn bản, nhóm huấn luyện mơ hình khác với cách sử dụng liệu đầu vào khác nhau: Roberta với liệu văn bản: mơ hình huấn luyện đơn giản mơ hình phân loại văn EfficientNet B3 với liệu ảnh: tương tự mơ hình phân loại hình ảnh Early fusion với nguồn liệu: biểu diễn hình ảnh văn kết hợp trước đưa phân loại Late fusion với nguồn liệu: mơ hình huẩn luyện nguồn liệu, sau kết hợp kết để đưa kết dự đoán cuối Kết ghi lại bảng sau: Cách huấn luyện Chỉ dùng văn Chỉ dùng hình ảnh Early fusion Late fusion Pretrained model ROC-AUC Roberta 0.6358 Efficienet (B3) 0.5412 Efficienet (B3) + Roberta 0.6423 Efficienet (B3) + Roberta 0.6288 Bảng 4.1: Kết số cách huấn luyện khác 17 Nhập môn học máy khai phá liệu Rõ ràng liệu dạng văn chiếm ưu quan trọng thi (đạt đến tận 0.6358 AUC) liệu dạng ảnh không thực tốt dùng mình-chỉ đạt kết xấp xỉ dự đoán ngẫu nhiên (0.5412) Kết hợp nguồn liệu cho kết tốt với cách huấn luyện early fusion, trình bày (0.6423) - cách huấn luyện chung cho mơ hình sau 4.2 Kết Dựa vào nhận xét từ mục 4.1 cách cài đặt trình bày Nhóm huấn luyện số cặp pretrained image-text ghi lại kết vào bảng 4.2 Cấu hình đạt kết cao cặp EfficientNet B2 + Roberta base, với 0.652 ROC-AUC trung bình 5-folds Tuy nhiên ta giữ lại cấu hình, file dự đốn trọng số cặp mơ hình cịn lại để ensemble Mơ hình DistilBERT EfficientNet B0 0.6340 EfficientNet B2 0.6343 EfficientNet B5 0.6261 Bert base uncased 0.6393 0.6429 0.6384 Bert base cased 0.6365 0.6379 0.6309 Roberta base 0.6448 0.652 0.6444 Bảng 4.2: Kết mơ hình pretrained 4.3 Ensemble kết tổng Với tổng cộng 15 cấu hình với cặp pretrained khác nhau, cấu hình ta có mơ hình (như trình bày 3.3) Mỗi fold huấn luyện epoch với thời gian khoảng phút/epoch hay × × = 50 phút cho cấu hình.15 × = 75 mơ hình trình bày đưa vào ensemble Dựa sở thảo luận Ta huấn luyện thêm mơ hình cuối (Logistic Regression nhận đầu vào file dự đoán yêu cầu đầu file dự đoán để kết hợp hiệu năn 75 mơ hình trước Kết nhận được, ROC-AUC cải thiện từ 65.2 → 66.3, trở nên vô vượt trội https://machinelearningmastery.com/ensemble-learning-algorithms-with-python/ https://www.kaggle.com/c/instant-gratification/discussion/93526 https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html 18 Nhập môn học máy khai phá liệu Hình 4.1: Minh hoạ cho ensemble Nạp dự đoán lên tảng Codalab, nhóm dành top bảng tổng public top bảng tổng cuối 19 Chương Tổng kết Bên cạnh việc sử dụng mơ hình học sâu có hiệu lớn, yếu tố yêu cầu cho người làm học máy công việc xử lý liệu, trích chọn đặc trưng để đưa vào huấn luyện Cơng việc u cầu người kĩ sư có cảm quan thật tốt hiểu rõ liệu, bên cạnh việc thực nghiệm cần thiết tiền xử lý, phân tích liệu xác định siêu tham số tuning mơ hình Quay lại với tốn đặt nhóm, hướng nghiên cứu tiềm thời gian gần - toán multimodal xây dựng hệ thống đa tác vụ, có khả xử lý nhiều dạng liệu Một số ứng dụng kể đến hệ gợi ý : truyện tranh, video clip Nhóm có số đề xuất, từ sở giải mơ hình riêng lẻ để giải vấn đề đặt xây dựng mô hình lớn, có khả trích xuất nhiều nguồn liệu để tận dụng tối đa nguồn liệu giá trị Một mơ hình đơn lẻ không đủ để dành chiến thắng thi học máy - nơi người tham gia dành nhiều thời gian kĩ thuật việc stacking/ensemble Đột phá cách tiếp cận nhóm phải kể đến kĩ thuật ensemble với Logistic Regression nhắc đến mục , giúp tăng đáng kể hiệu mơ hình giảm bias Tuy nhiên, việc ensemble thực tế lại hạn chế tốc độ dự đoán độ phức tạp, dung lượng nhớ yêu cầu để huấn luyện lưu trữ mô hình lớn - xấp xỉ 75 lần mơ hình riêng lẻ cách tiếp cận nhóm Do đơi phải đánh đổi dữa độ xác tốc độ tính tốn nhớ, Chúng em xin chân thành cảm ơn góp ý từ thầy anh giản, giúp đỡ suốt q trình hồn thành đề tài mơn học Nhập môn học máy khai phá liệu kiến thức học học kì vừa qua Đây kiến thức vô quý giá cho sinh viên ngành khoa học máy tính bọn em! 20 Tài liệu tham khảo [1] Khoat Than Quang, Introduction to Machine Learning and Data Mining (2021), School of Information and Communication Technology Hanoi University of Science and Technology [2] Augereau, O., Iwata, M., Kise, K A survey of comics research in computer science Journal of Imaging (04/2018) [3] Ekman, P.: An argument for basic emotions Cogn Emot 6(3-4), 169–200 (1992) [4] Plutchik, R., Kellerman, H.: Emotion: Theory, research and experience Academic Press (1986) [5] Shaver, P., Schwartz, J., Kirson, D., O´connor, C.: Emotion knowledge: Further exploration of a prototype approach J Pers Soc Psychol 52(6) (1987) [6] Lovheim, H.: A new three-dimensional model for emotions and monoamine neuro transmitters Med Hypoth 78(2), 341–348 (2012) [7] , A., Shahraki, A.G., Zaiane, O.R.: Current state of text sentiment analysis from opinion to emotion mining ACM Comput Surv 50(2), Article 25 (2017) [8] Mingxing Tan, Quoc V Le Efficientnet: Rethinking model scaling for convolutional neural networks International Conference on Machine Learning, 2019 [9] J Devlin, MW Chang, K Lee, K Toutanova, Bert: Pre-training of deep bidirectional transformers for language understanding arXiv preprint arXiv:1810.04805v2, 2019 [10] What Are Word Embeddings for Text? https:// machinelearningmastery.com/what-are-word-embeddings/ 21 Nhập môn học máy khai phá liệu [11] T Mikolov, I Sutskever, K Chen, G Corrado, J Dean Distributed Representations of Words and Phrases and their Compositionality arXiv preprint arXiv:1310.4546v1, 2013 [12] Konrad Gadzicki; Razieh Khamsehashari; Christoph Zetzsche Early vs Late Fusion in Multimodal Convolutional Neural Networks 2020 IEEE 23rd International Conference on Information Fusion (FUSION) [13] T Mikolov, I Sutskever, K Chen, G Corrado Dropout: A Simple Way to Prevent Neural Networks from Overfitting Journal of Machine Learning Research (2013) [14] K He, X Zhang, S Ren, J Sun Deep Residual Learning for Image Recognition Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp 770-778 [15] Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu, Kaiming He Aggregated Residual Transformations for Deep Neural Networks Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp 1492-1500 [16] K Simonyan, A Zisserman Very Deep Convolutional Networks for LargeScale Image Recognition arXiv preprint arXiv:1409.1556, 2014 [17] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov RoBERTa: A Robustly Optimized BERT Pretraining Approach arXiv preprint at arXiv:1907.11692, 2019 [18] Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter arXiv preprint arXiv:1910.01108, 2019 [19] Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut ALBERT: A Lite BERT for Self-supervised Learning of Language Representations arXiv preprint arXiv:1909.11942v6 2019 22 ... chưa nghiên cứu kỹ lưỡng [2] Nhập môn học máy khai phá liệu 1.2 Nhận diện cảm xúc người Sau xem xét cách mô hình hóa cảm xúc người để phân tích hiểu rõ cảm xúc truyện tranh qua Bảng 1.1 trình bày... 2.1 Bộ liệu Emorecom Trong thi này, nhóm yêu cầu giải thách thức phân tích cảnh truyện tranh: nhận biết cảm xúc cảnh truyện tranh Cảm xúc đến từ cảm xúc nhân vật truyện tranh câu chuyện mơ hình... thành đề tài mơn học Nhập môn học máy khai phá liệu kiến thức học học kì vừa qua Đây kiến thức vô quý giá cho sinh viên ngành khoa học máy tính bọn em! 20 Tài liệu tham khảo [1] Khoat Than Quang,

Ngày đăng: 01/03/2023, 00:42