BERT-NEWSREC: MÔ HÌNH GỢI Ý TIN TỨC HIỆU QUẢ ĐIỂM CAO

97 1 0
BERT-NEWSREC: MÔ HÌNH GỢI Ý TIN TỨC HIỆU QUẢ ĐIỂM CAO

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Công Nghệ Thông Tin - Công nghệ thông tin - Quản trị kinh doanh TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐỒ ÁN TỐT NGHIỆP BERT-NewsRec: mô hình gợi ý tin tức hiệu quả NGUYỄN VĂN NGA nga.nv173279sis.hust.edu.vn Ngành: Khoa học máy tính Chuyên ngành: Trí tuệ nhân tạo ứng dụng Giảng viên hướng dẫn: ThS. Ngô Văn Linh Chữ kí GVHD Khoa: Khoa học máy tính Trường: Công nghệ thông tin và Truyền thông HÀ NỘI, 072022 LỜI CAM KẾT Họ và tên sinh viên: Nguyễn Văn Nga Điện thoại liên lạc: 033.891.4547 Email: nga.nv173279sis.hust.edu.vn Lớp: KHMT01-K62 Hệ đào tạo: Kỹ sư chính quy Tôi – Nguyễn Văn Nga – cam kết Đồ án Tốt nghiệp (ĐATN) là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của Thạc sỹ Ngô Văn Linh . Các kết quả nêu trong ĐATN là trung thực, là thành quả của riêng tôi, không sao chép theo bất kỳ công trình nào khác. Tất cả những tham khảo trong ĐATN – bao gồm hình ảnh, bảng biểu, số liệu, và các câu từ trích dẫn – đều được ghi rõ ràng và đầy đủ nguồn gốc trong danh mục tài liệu tham khảo. Tôi xin hoàn toàn chịu trách nhiệm với dù chỉ một sao chép vi phạm quy chế của nhà trường. Hà Nội, ngày 12 tháng 07 năm 2022 Tác giả ĐATN Nguyễn Văn Nga LỜI CẢM ƠN Trong quá trình thực hiện đồ án, em xin chân thành cảm ơn Thạc sỹ Ngô Văn Linh đã tận tình giúp đỡ, hướng dẫn em để hoàn thành tốt đồ án tốt nghiệp này. Bên cạnh đó, em cũng mong muốn gửi lời biết ơn sâu sắc tới các thầy cô trong đội ngũ giảng viên của Trường Công nghệ thông tin và Truyền thông - trực thuộc Trường Đại học Bách Khoa Hà Nội, những người đã trang bị cho em hành trang kiến thức trong suốt 5 năm học vừa qua; làm nền tảng vững chắc để em có thể hoàn thiện đồ án, cũng như là "nguồn vốn" vô cùng quý giá để em tiếp tục bước đi trên con đường sự nghiệp của mình. Con xin cảm ơn gia đình, cảm ơn ba mẹ, anh chị, các cháu gái Ngọc Lan, Ngọc Hân - nguồn động lực vô tận giúp con vượt qua mọi thử thách trong cuộc sống. Con cảm ơn mọi người đã luôn bên con, luôn đứng đằng sau con, quan tâm, lo lắng... Con có những bước tiến dài đến ngày hôm nay, tất cả là nhờ năng lượng yêu thương của tất cả mọi người. Cuối cùng, xin cảm ơn những khó khăn, những thử thách đã đến với tôi trong những năm vừa qua. Cảm ơn rất nhiều vì đã đến trong cuộc đời thanh xuân của tôi, đã khiến tôi từng cảm thấy mệt mỏi, trùng bước; nhưng sau cùng, vẫn đưa cho tôi những cơ hội, những con đường, những cánh cửa hy vọng; để từng ngày, tôi nhận thấy mình trưởng thành hơn, mạnh mẽ hơn, can đảm hơn. TÓM TẮT NỘI DUNG ĐỒ ÁN Ngày nay, hệ gợi ý (recommender system) đóng vai trò ngày càng quan trọng trong sự thành công của các ứng dụng hoạt động trong lĩnh vực cung cấp nội dung số. Gợi ý tin tức (news recommendation) - một nhánh nghiên cứu con của hệ gợi ý; đã và đang thu hút rất nhiều sự quan tâm của các nhà khoa học. Các cách tiếp cận chính trong gợi ý tin tức chủ yếu tập trung vào khai thác nội dung văn bản giàu thông tin của tin bài. Cụ thể, các kiến trúc mã hóa tin bài (news encoder) đã được đề xuất, tận dụng các mô hình phổ biến trong lĩnh vực xử lý ngôn ngữ tự nhiên để tạo ra biểu diễn vector cho tin bài. Trên cơ sở đó, người ta xây dựng khối mã hóa người dùng (user encoder) kết hợp các vector biểu diễn những tin bài mà người dùng đã tương tác trong quá khứ để tạo ra vector biểu diễn duy nhất đại diện cho sở thích của người dùng. Sau khi đã có vector biểu diễn cho tin bài cũng như người dùng, người ta cho đi qua một khối tính điểm tương tác (scoring) để tính điểm dự đoán tương tác. Các kết quả thực nghiệm đã cho thấy các cách tiếp cận hiện tại có những thành công nhất định trong việc đưa ra các mục tin bài gợi ý có mức độ liên quan nhất định; phù hợp với thói quen, sở thích của người dùng được thể hiện qua các tin bài lịch sử của họ. Dựa trên các mô hình kiến trúc hiện có, em nhận thấy tiềm năng của việc sử dụng thêm các thông tin phụ trợ trong quá trình học biểu diễn của người dùng - bên cạnh khai thác thông tin các vector mã hóa tin bài lịch sử của họ. Ngoài ra, một điểm hạn chế nữa của các nghiên cứu hiện tại là chưa quan tâm đến việc học ra biễu diễn vector có mức độ phản ánh nhất định sự tương đồng hay tương phản trong hành vi của người dùng; cụ thể, về mặt trực giác, những người dùng có hành vi tương đồng nên có biểu diễn mã hóa nằm gần nhau hơn trong không gian vector, và ngược lại. Với 2 lý luận trên, em đã tiến hành nghiên cứu, đề xuất một mô hình gợi ý tin tức có tên BERT-NewsRec. Mô hình sử dụng kiến trúc BERT 1 để học ra tương tác giữa các tin bài trong lịch sử của người dùng, tạo ra biểu diễn theo ngữ cảnh; bên cạnh đó là việc kết hợp thêm kênh mã hóa thông tin phụ trợ giúp làm tăng thêm khả năng biểu diễn cho mô hình, giúp cho mô hình học được vector mã hóa người dùng chính xác hơn, phản ánh đúng hơn sở thích của họ. Ngoài ra, một biến thể khác có tên BERT-NewsRecv2 được giới thiệu với việc tận dụng framework học tương phản (contrastive learning) 2 3 4 để có thể học được biểu diễn vector phản ánh sự tương đồng - tương phản trong hành vi của người dùng. Một điểm đáng chú ý đó là trong quá trình huấn luyện mô hình BERT-NewsRecv2, em đã sử dụng phương pháp Nash-MTL (Nash Multi-task Learning 5) để học ra bộ trọng số tối ưu cho việc kết hợp hàm mất mát gợi ý (recommend loss) và hàm mất mát học tương phản (contrastive loss) nhằm giảm thiểu vấn đề xung đột gradient (gradient conflict). Các kết quả thực nghiệm trên bộ dữ liệu cho thấy hiệu quả của BERT-NewsRec so với các mô hình gợi ý sử dụng các khối mã hóa người dùng truyền thống. Đồng thời, với việc sử dụng học tương phản trong biến thể BERT-NewsRecv2, hiệu năng của mô hình trên tác vụ gợi ý đã cho thấy sự cải thiện đáng kể. Cuối cùng, trong quá trình nghiên cứu, khảo sát; em nhận thấy vấn đề nghiêm trọng của việc thiếu tính đa dạng trong kết quả gợi ý của mô hình, đặc biệt là đối với nhóm người dùng mới, có lịch sử tương tác ít. Với việc các tin bài trả về chỉ xoay quanh một nội dung, lâu dần sẽ khiến người dùng cảm thấy nhàm chán, dẫn tới "hệ quả ngược". Để giải quyết vấn đề này, em đề xuất sử dụng framework tối ưu đa mục tiêu 6 trong hậu xử lý kết quả gợi ý của mô hình: vừa đảm bảo các mục đề xuất có điểm dự đoán tương tác ở mức đủ tốt, vừa giảm thiểu mức độ trùng lặp nội dung của các tin bài đề xuất so với các tin bài lịch sử của người dùng. Qua quá trình quan sát, đánh giá, em nhận thấy phần nào hiệu quả của bước hậu xử lý này trong việc tăng cường tính phong phú, đa dạng của các tin bài gợi ý. MỤC LỤC CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI......................................................... 1 1.1 Bài toán gợi ý tin tức............................................................................. 1 1.2 Các giải pháp hiện tại và hạn chế ........................................................... 1 1.3 Đóng góp của đồ án .............................................................................. 4 1.4 Bố cục đồ án ........................................................................................ 5 CHƯƠNG 2. NỀN TẢNG LÝ THUYẾT .................................................. 7 2.1 Hệ gợi ý tin tức..................................................................................... 7 2.1.1 Tổng quan lược đồ gợi ý tin tức ................................................... 7 2.1.2 Mô hình CNN (Convolutional Neural Network) ............................ 8 2.1.3 Mô hình GRU (Gated Recurrent Units) ........................................ 9 2.1.4 Mô hình chú ý cộng (Additive Attention) ..................................... 12 2.1.5 Mô hình Transformer.................................................................. 14 2.1.6 Mô hình Fastformer.................................................................... 16 2.1.7 Xây dựng mô hình gợi ý ............................................................. 19 2.2 Học tương phản (contrastive learning) .................................................... 23 2.2.1 Tổng quan về học tương phản ...................................................... 23 2.2.2 Tăng cường dữ liệu (data augmentation) ....................................... 23 2.2.3 Mạng nơ-ron mã hóa (encoder network)....................................... 24 2.2.4 Hàm mất mát (loss function) ....................................................... 24 2.3 Sơ lược về tối ưu đa mục tiêu ................................................................. 26 2.3.1 Phát biểu bài toán tối ưu đa mục tiêu............................................ 26 2.3.2 Tính trội, mặt Pareto trong tối ưu đa mục tiêu ............................... 27 2.3.3 Một số cách tiếp cận trong giải bài toán tối ưu đa mục tiêu ............ 28 2.4 Nash-MTL (Nash Multi-task learning) trong học đa tác vụ với mạng học sâu............................................................................................................ 31 2.4.1 Học đa tác vụ trong mạng học sâu ............................................... 31 2.4.2 Phương pháp Nash-MTL cho việc kết hợp hàm mất mát của các tác vụ ................................................................................................ 32 CHƯƠNG 3. PHƯƠNG PHÁP ĐỀ XUẤT................................................ 39 3.1 Mô hình gợi ý BERT-NewsRec (BERT News Recommendation)............... 39 3.1.1 Khối mã hóa tin bài (News encoder) ............................................ 39 3.1.2 Khối mã hóa thông tin phụ trợ (Side feature encoder) .................... 41 3.1.3 Khối mã hóa người dùng (User encoder) ...................................... 41 3.1.4 Khối tính điểm tương tác (Scoring).............................................. 42 3.1.5 Hàm mất mát cho bài toán gợi ý .................................................. 42 3.2 Mô hình gợi ý BERT-NewsRecv2 (BERT News Recommendation Version 2 with Contrastive Learning) ....................................................................... 42 3.2.1 Sơ đồ hoạt động ......................................................................... 42 3.2.2 Các phép tăng cường dữ liệu (data augmentation) ......................... 43 3.2.3 Xác định bộ trọng số kết hợp 2 hàm mất mát ................................ 48 3.3 Giải quyết vấn đề đa dạng (diversity) trong hệ gợi ý................................. 49 3.3.1 Vấn đề thiếu tính đa dạng trong hệ gợi ý tin tức............................. 49 3.3.2 Giải pháp tăng tính đa dạng cho hệ gợi ý tin tức ............................ 50 CHƯƠNG 4. ĐÁNH GIÁ THỰC NGHIỆM............................................. 55 4.1 Kết quả đánh giá hiệu năng của mô hình gợi ý......................................... 55 4.1.1 Bộ dữ liệu, cấu hình ................................................................... 55 4.1.2 Hiệu quả của mô hình đề xuất BERT-NewsRec............................. 56 4.1.3 Hiệu năng của BERT-NewsRec với số lượng tầng Transformer khác nhau .......................................................................................... 62 4.1.4 Hiệu năng của BERT-NewsRec với các nhóm người dùng khác nhau.................................................................................................. 62 4.1.5 Hiệu quả của học tương phản trong BERT-NewsRecv2 ................ 64 4.1.6 Hiệu quả của Nash-MTL trong cân bằng giữa hàm mất mát gợi ý (recommend loss) và hàm mất mát học tương phản (contrastive loss) ...... 67 4.2 Xây dựng trang web demo minh họa hoạt động của mô hình gợi ý ............ 68 4.2.1 Kiến trúc của hệ thống web demo ................................................ 68 4.2.2 Một số kết quả gợi ý của hệ thống................................................ 69 4.2.3 Hiệu quả của tối ưu đa mục tiêu trong giải quyết vấn đề đa dạng của hệ gợi ý tin tức ............................................................................. 69 CHƯƠNG 5. KẾT LUẬN ........................................................................ 72 5.1 Kết luận ............................................................................................... 72 5.2 Hướng phát triển trong tương lai ............................................................ 72 TÀI LIỆU THAM KHẢO......................................................................... 75 PHỤ LỤC................................................................................................. 77 A. CHỨNG MINH TÍNH ĐÚNG ĐẮN CỦA LỜI GIẢI TỐI ƯU ĐA MỤC TIÊU NASH-MTL .......................................................................... 77 A.1 Phát biểu............................................................................................. 77 A.2 Chứng minh ........................................................................................ 77 B. CÁC ĐỘ ĐO TRONG ĐÁNH GIÁ HIỆU NĂNG CỦA HỆ GỢI Ý....... 79 B.1 Độ đo AUC ......................................................................................... 79 B.1.1 True Positive Rate, False Positive Rate ........................................ 79 B.1.2 ROC (Receiver Operator Characteristic) ...................................... 80 B.2 Độ đo MRR......................................................................................... 82 B.3 Độ đo NDCG....................................................................................... 83 DANH MỤC HÌNH VẼ Hình 2.1 Lược đồ kiến trúc tổng quan của một mô hình gợi ý tin tức . . 8 Hình 2.2 Hoạt động của phép nhân tích chập . . . . . . . . . . . . . . . 9 Hình 2.3 Phép padding trong nhân tích chập . . . . . . . . . . . . . . . 10 Hình 2.4 Mạng nơ-ron hồi quy - recurrent neural network . . . . . . . . 11 Hình 2.5 Kiến trúc của mô hình GRU . . . . . . . . . . . . . . . . . . . 11 Hình 2.6 Kiến trúc mạng dịch máy với chú ý cộng (Additive Attention) 13 Hình 2.7 Sự phụ thuộc của các từ vựng đầu ra đối với các từ vựng đầu vào của mô hình dịch máy . . . . . . . . . . . . . . . . . . . . . . . 14 Hình 2.8 Sơ đồ kiến trúc mô hình Transformer . . . . . . . . . . . . . . 15 Hình 2.9 Minh họa việc tích hợp thêm thông tin vị trí cho mô hình Transformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Hình 2.10 Sơ đồ kiến trúc mô hình Fastformer . . . . . . . . . . . . . . . 18 Hình 2.11 Sơ đồ kiến trúc mô hình gợi ý tin tức NAML . . . . . . . . . . 20 Hình 2.12 Sự khác nhau giữa mức độ đặc trưng ngữ nghĩa của các từ trong câu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Hình 2.13 Sơ đồ kiến trúc mô hình gợi ý tin tức NRMS . . . . . . . . . . 22 Hình 2.14 Minh họa sự tương tác giữa các từ trong một văn bản . . . . . 22 Hình 2.15 Một số phép tăng cường dữ liệu (data augmentation) đối với dữ liệu ảnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Hình 2.16 Sơ đồ hoạt động của hệ thống học tương phản (contrastive learning) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Hình 2.17 Hiệu năng top 1-accuracy của mô hình học tương phản trên bộ dữ liệu ImageNet ILSVRC-2012 . . . . . . . . . . . . . . . . . . 27 Hình 2.18 Minh họa mặt Pareto của bài toán tối ưu đa mục tiêu . . . . . . 28 Hình 2.19 Minh họa hai loại hình dạng khác nhau của mặt tối ưu Pareto. 28 Hình 2.20 Giải bài toán tối ưu đa mục tiêu bằng phương pháp tổng có trọng số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Hình 2.21 Minh họa giải bải toán tối ưu đa mục tiêu bằng phương pháp ràng buộc hóa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Hình 2.22 Kiến trúc mô hình mạng nơ-ron học đa tác vụ . . . . . . . . . 31 Hình 2.23 Vấn đề xung đột gradient (gradient conflict) trong học đa tác vụ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Hình 2.24 Hiệu quả của Nash-MTL trong việc tìm ra hướng cập nhật trọng số tốt cho tất cả các tác vụ . . . . . . . . . . . . . . . . . . . . 37 i Hình 3.1 Kiến trúc mô hình gợi ý tin tức BERT-NewsRec . . . . . . . . 40 Hình 3.2 Sơ đồ kiến trúc mô hình gợi ý tin tức BERT-NewsRecv2 . . . 43 Hình 3.3 Toán tử tăng cường dữ liệu cắt mục tin bài (item crop) . . . . . 44 Hình 3.4 Toán tử tăng cường dữ liệu che mục tin bài (item mask) . . . . 45 Hình 3.5 Toán tử tăng cường dữ liệu đảo thứ tự mục tin bài (item reorder) 46 Hình 3.6 Toán tử tăng cường dữ liệu thay thế mục tin bài (substitute) . . 47 Hình 3.7 Toán tử tăng cường dữ liệu chèn mục tin bài (insert) . . . . . . 47 Hình 3.8 Cách thức xác định trọng số cho hàm mất mát gợi ý (recommend loss) và hàm mất mát học tương phản (contrastive loss) với Nash- MTL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Hình 3.9 Lịch sử các bài viết tương tác bởi người dùng . . . . . . . . . . 50 Hình 3.10 Sự thiếu tính đa dạng trong các bài viết được đề xuất bởi mô hình gợi ý tin tức . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Hình 4.1 Sơ đồ hoạt động của khối mã hóa tin bài (news encoder) . . . 57 Hình 4.2 Visualize vector biểu diễn mã hóa của tin bài . . . . . . . . . . 60 Hình 4.3 Phân bổ trọng số chú ý (attention weight) của các loại thuộc tính khác nhau trong biểu diễn tin bài . . . . . . . . . . . . . . . . . 61 Hình 4.4 Hiệu năng AUC của mô hình BERT-NewsRec với số lượng tầng Transformer khác nhau . . . . . . . . . . . . . . . . . . . . . . 63 Hình 4.5 Hiệu năng AUC của mô hình gợi ý ở các độ dài lịch sử tương tác khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 Hình 4.6 Biểu đồ histogram của giá trị độ lệch chuẩn của biểu diễn người dùng trên các chiều ẩn . . . . . . . . . . . . . . . . . . . . . . 66 Hình 4.7 Sơ đồ luồng hoạt động của hệ thống web demo . . . . . . . . . 68 Hình 4.8 Ví dụ cho lịch sử người dùng quan tâm đến vấn đề chính trị . . 70 Hình 4.9 Kết quả các tin bài gợi ý của hệ thống dành cho người dùng quan tâm đến vấn đề chính trị . . . . . . . . . . . . . . . . . . . . . 70 Hình 4.10 Kết quả gợi ý của hệ thống sau khi áp dụng tối ưu đa mục tiêu làm tăng tính đa dạng . . . . . . . . . . . . . . . . . . . . . . . . 71 Hình B.1 Ma trận nhầm lẫn (confusion matrix) của bài toán phân loại nhị phân . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 Hình B.2 Sự ảnh hưởng của ngưỡng phân loại tới hiệu năng của mô hình 80 Hình B.3 Minh họa đường cong ROC thể hiện tương quan giữa hai giá trị TPR và FPR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 Hình B.4 Giá trị Reciprocal Rank (RR) của các câu truy vấn khác nhau . 82 DANH MỤC BẢNG BIỂU Bảng 4.1 Hiệu năng mô hình gợi ý tin tức với các bộ mã hóa tin bài (news encoder) và mã hóa người dùng (user encoder) khác nhau . . 58 Bảng 4.2 Hiệu năng trung bình của các bộ mã hóa tin bài (news encoder) khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 Bảng 4.3 Hiệu năng trung bình của các bộ mã hóa người dùng (user encoder) khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Bảng 4.4 Hiệu năng trên tác vụ gợi ý của các thí nghiệm không có và có sử dụng học tương phản . . . . . . . . . . . . . . . . . . . . . . . 64 Bảng 4.5 Độ lệch chuẩn trung bình trong các chiều biểu diễn ẩn của người dùng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 Bảng 4.6 Hiệu năng của tác vụ gợi ý trên thí nghiệm không có và có sử dụng 2 phép biến đổi thay thế mục tin bài (substitute) và chèn mục tin bài (insert) . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 Bảng 4.7 Hiệu năng trên tác vụ gợi ý của các thí nghiệm không có và có sử dụng Nash-MTL . . . . . . . . . . . . . . . . . . . . . . . . . 67 iii DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT Thuật ngữ Ý nghĩa AUC Area Under the Curve of Receiver Characteristic Operator BERT Bidirectional Encoder Representation from Transformer BERT-NewsRec-v2 BERT News Recommendation Version 2 with Contrastive Learning BERT-NewsRec BERT News Recommendation BPR Bayesian Personalized Ranking CL4SRec Contrastive Learning for Sequential Recommendation CNN Convolutional neural network CoSeRec Contrastive Self-supervised Sequential Recommendation with Robust Augmentation DCG Discounted Cumulative Gain FN False negative FNR False negative rate FP False positive FPR False positive rate GRU Gated recurrent units IDCG Ideal Discounted Cumulative Gain LSTM Long-Short Term Memory MIND Microsoft News Dataset MOO Multi Objective Optimize MRR Mean Reciprocal Rank NAML Neural News Recommendation with Attentive Multi-view Learning Nash-MTL Nash Multi-task Learning NDCG Normalize Discounted Cumulative Gain NRMS Neural News Recommendation with Multi-head Self-Attention RNN Recurrent Neural Network iv Thuật ngữ Ý nghĩa ROC Receiver Operator Characteristic RR Reciprocal Rank TN True negative TNR True negative rate TP True positive TPR True positive rate CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI 1.1 Bài toán gợi ý tin tức Ngày nay, với sự bùng nổ của mạng Internet, người dùng đã có cơ hội thuận lợi để tiếp cận với nhiều nội dung số đến từ nhiều nguồn; nhiều lĩnh vực, thể loại khác nhau. Tuy nhiên, có một vấn đề bất cập nảy sinh khi tốc độ và khối lượng nội dung số sinh ra quá nhanh và quá lớn, khiến cho người dùng dễ bị "ngợp" và không biết đâu mới là bộ phim, ca khúc, tin tức,... mà mình cần quan tâm. Dựa trên cơ sở đó, yêu cầu xây dựng một hệ gợi ý (recommender system) với khả năng mạnh mẽ, có tính tin cậy cao trong việc đưa ra các mục sản phẩm mà người dùng có hứng thú và yêu thích đã trở thành một vấn đề cấp thiết cho bất cứ một sản phẩm công nghệ nào hoạt động trong lĩnh vực cung cấp nội dung số. Theo Mackenzie, có tới 35 sản phẩm mà người dùng đặt mua trên trang thương mại điện tử Amazon và 75 lượt xem phim trên trang web Netflix là hệ quả của các giải thuật gợi ý 7. Chúng ta có thể thấy rằng, hệ gợi ý đã và đang chiếm vai trò ngày càng quan trọng trong sự thành công của bất kỳ một ứng dụng chia sẻ nội dung nào. Gợi ý tin tức (news recommendation) là một nhánh con trong xây dựng hệ gợi ý - bên cạnh các rất nhiều lĩnh vực khác như gợi ý phim ảnh (movie recommendation), gợi ý sản phẩm (product recommendation), gợi ý hình ảnh (image recommendation). Nhìn chung, gợi ý tin tức có nhiều điểm tương đồng với các lĩnh vực khác xét về một số khía cạnh như các cách tiếp cận hay thách thức chính... Tuy nhiên, với đặc thù số lượng tin bài được sinh ra sau mỗi giờ là khá nhiều khiến cho dữ liệu tương tác của người dùng bị thưa, bên cạnh đó là khối lượng thông tin rất lớn, rất đa dạng mà chúng ta có thể khai thác từ nội dung của mỗi tin bài; tựu chung lại đã khiến lĩnh vực gợi ý tin tức được cho là gặp phải nhiều vấn đề thách thức, khó khăn riêng khi so với các lĩnh vực còn lại. Trong những năm vừa qua, đã có rất nhiều nghiên cứu, phương pháp đề xuất đã được giới thiệu, và đều đã đạt được những thành công nhất định trong việc tìm ra các giải thuật, các mô hình có khả năng cung cấp các tin bài phù hợp nhất với sở thích của người đọc; từ đó từng bước cải thiện trải nghiệm của người dùng, cũng như nâng cao độ trung thành của họ đối với trang tin. 1.2 Các giải pháp hiện tại và hạn chế Cho đến thời điểm hiện tại, các cách tiếp cận chính trong xây dựng hệ gợi ý tin tức chủ yếu xoay quanh việc tìm ra một mô hình có thể mã hóa chính xác nội dung của tin bài (news encoder) từ việc khai thác các thông tin như tiêu đề (title), tóm tắt (abstract), thể loại (category), thể loại con (subcategory)...; trên cơ sở đó, người ta tiến hành xây dựng mô hình mã hóa người dùng (user encoder) thông qua việc 1 CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI kết hợp các vector mã hóa của các tin bài mà người dùng đã tương tác trong quá khứ thành một vector duy nhất biểu diễn cho sở thích của họ. Dưới đây là một số mô hình kiến trúc được sử dụng phổ biến cho 2 khối chức năng trên. Học bộ mã hóa tin bài (news encoder) Đối với bộ mã hóa tin bài (news encoder), đã có nhiều mô hình xử lý ngôn ngữ tự nhiên được các nhà nghiên cứu áp dụng thành công để có thể nắm bắt được nội dung tin bài trên cơ sở khai thác các nội dung dạng văn bản rất giàu thông tin. Một trong những phương pháp mã hóa phổ biến được sử dụng cho mục đích này là mạng nơ-ron tích chập (Convolutional neural network - CNN) nhằm học ra biểu diễn cục bộ của các từ vựng, từ đó trích rút ra biểu diễn vector cho toàn bộ văn bản. Tuy được kiểm chứng là có hiệu quả nhất định trong nắm bắt nội dung của văn bản; song, một trong những nhược điểm lớn của CNN là không học được phụ thuộc xa giữa các từ trong câu; các kiến trúc tự chú ý (Self-Attention) đã được đưa ra để khắc phục hạn chế này với khả năng cho phép mô hình học ra biểu diễn của từ theo ngữ cảnh toàn cục. Mô hình gợi ý tin tức NRMS (Neural News Recommendation with Multi-head Self-Attention) 8 là một ví dụ điển hình cho việc vận dụng kiến trúc tự chú ý (Self-Attention) để mã hóa nội dung của bài viết dựa trên thông tin tiêu đề - title; và đã được chứng minh là có hiệu quả cao trong việc học ra biểu diễn chất lượng cho tin bài, qua đó nâng cao hiệu năng tổng quát của mô hình gợi ý. Trên cơ sở thực tế một bài viết sẽ có rất nhiều loại thông tin khác nhau có thể hữu ích trong biểu diễn tin bài đó, mô hình gợi ý tin tức NAML (Neural News Recommendation with Attentive Multi-view Learning) 9 đã được các nhà nghiên cứu thuộc trường đại học Tsinghua đề xuất để tập trung khai thác các loại thông tin đa dạng này. NAML sử dụng cơ chế chú ý cộng (Additive Attention) cho phép học ra trọng số kết hợp nhiều loại thuộc tính khác nhau (tiêu đề - title, tóm tắt - abstract, thông tin thể loại - category, thể loại con - subcategory) trong việc tạo một biểu diễn vector duy nhất cho tin bài đó. Cách tiếp cận của NAML đã khắc phục được nhược điểm của NRMS khi nó cho phép chúng ta khai thác nhiều loại thông tin khác nhau; đồng thời, mô hình còn có khả năng tự động chọn ra các thuộc tính quan trọng nhất cho việc biểu diễn tin bài nhờ cơ chế chú ý cộng (Additive Attention). Học bộ mã hóa người dùng (user encoder) Về phía học bộ mã hóa người dùng (user encoder), các cách tiếp cận hiện tại tập trung vào việc tìm ra mô hình mã hóa hợp lý nhất cho chuỗi lịch sử tương tác của người dùng để có thể học ra biểu diễn vector đặc trưng thể hiện sở thích của họ. Trên cơ sở xem xét các bài viết mà người dùng tương tác như là một chuỗi, các kiến trúc mạng hồi quy như GRU (Gated recurrent units) đã được sử dụng cho bộ mã 2 CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI hóa người dùng - user encoder 10; vấn đề của cách tiếp cận này là nó cần phải được tính toán một cách tuần tự và hoàn toàn không thể thực hiện song song hóa, do đó phần nào làm chậm quá trình tính toán biểu diễn của người dùng. Thông qua quá trình quan sát thực tế, một số nghiên cứu đã chỉ ra rằng: không phải tất cả các bài viết mà người dùng tương tác trong quá khứ đều phản ánh sở thích của họ, nó có thể chịu tác động của các yếu tố như xu hướng nhất thời, các tin phổ biến..., hoặc do các hành động tương tác hoàn toàn vô tình 8 9. Với lý luận trên, các nhà khoa học đã đề xuất sử dụng kiến trúc chú ý cộng (Additive Attention) để học ra trọng số của các bài viết trong việc đóng góp vào biểu diễn vector của người dùng 8 9; với mục tiêu điều chỉnh mô hình sao cho các tin bài phản ánh rõ nhất mối quan tâm của họ sẽ được gán trọng số lớn hơn các tin bài còn lại. Phương pháp biểu diễn người dùng với chú ý cộng (Additive Attention) đã được sử dụng trong nhiều mô hình, đơn kể như NAML 9, và đều đạt được hiệu quả tốt. Cuối cùng, do đặc điểm các tin bài được đọc bởi cùng một người dùng có thể có mối liên quan với nhau (cùng phản ánh một nhân vật, một sự kiện...), một số mô hình như NRMS 8 còn sử dụng lại kiến trúc tự chú ý (Self-Attention) để học ra sự tương tác này, tạo ra biểu diễn của tin bài theo ngữ cảnh; sau đó tiếp tục sử dụng các vector biểu diễn này làm đầu vào cho khối chú ý cộng (Additive Attention) để học biểu diễn cuối cùng thể hiện sở thích của người dùng 8 11. Các hạn chế tồn tại Như đã trình bày ở trên, các nghiên cứu trước đây trong xây dựng hệ gợi ý tin tức đã có những thành công trong việc mô hình hóa thông tin nội dung của tin bài, cũng như học ra sở thích của người dùng dựa trên các tin bài lịch sử mà họ đã tương tác; từ đó đưa ra những kết quả gợi ý phù hợp nhất đối với mối quan tâm của họ. Tuy nhiên, các giải pháp này vẫn còn tồn tại một số điểm hạn chế như sau: Về mặt trực giác, bên cạnh việc học ra biểu diễn vector của các tin bài và sử dụng các vector này để tạo ra biểu diễn cho người dùng; chúng ta có thể khai thác thêm các thông tin khác của người dùng (các thông tin phụ trợ), chẳng hạn như các thể loại mà người dùng quan tâm, các thông tin về tuổi tác, giới tính... để giúp tăng khả năng biểu diễn của khối mã hóa người dùng (user encoder), giúp mô hình "hiểu" người dùng sâu sắc hơn, và qua đó làm tăng hiệu năng tổng thể của mô hình gợi ý tin tức. Các giải pháp hiện tại chưa xem xét và đưa ra cách thức phù hợp để chúng ta có thể sử dụng thêm các thông tin này vào trong mô hình gợi ý tin tức. Các mô hình mã hóa người dùng (user encoder) hiện tại nghiên cứu cho bài toán gợi ý tin tức chưa quan tâm đến việc học ra biểu diễn có mức độ phản ánh nhất định đối với sự tương đồng hay khác biệt giữa các hành vi của những 3 CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI người dùng khác nhau. Cụ thể hơn, về mặt lý luận; với những người dùng có hành vi tương tác trong lịch sử tương đồng nhau, thì các vector biểu diễn mã hóa thu được từ mô hình mã hóa người dùng (user encoder) của họ cần phải nằm gần nhau hơn trong không gian biểu diễn; ngược lại, với những người dùng có hành vi tương tác khác biệt, các vector biểu diễn mã hóa của họ cần nằm xa nhau hơn trong không gian biểu diễn. Việc học ra biểu diễn người dùng có tính phân tách cao sẽ giúp mô hình có thể phân biệt tốt hơn giữa các định hướng sở thích, hệ quả là nâng cao khả năng gợi ý của mô hình. Các nghiên cứu hiện tại mới chỉ tập trung vào việc đưa ra các tin bài đề xuất được cho là liên quan nhất với lịch sử tương tác; mà chưa tiến hành khảo sát sự tác động của chiến lược gợi ý này tới trải nghiệm người dùng. Cụ thể hơn, các phương pháp gợi ý dựa trên nội dung rất dễ gặp phải vấn đề cá nhân hóa quá mức (over-personalization): các mục tin tức gợi ý không có sự đa dạng về thông tin, không có tính mới lạ, thường xoay quanh các chủ đề mà người dùng đã được tiếp xúc trong quá khứ; điều này lâu dần có thể khiến người dùng cảm thấy nhàm chán, tẻ nhạt, và không muốn tiếp tục đọc tin nữa. Với lý luận này, em cho rằng chúng ta cần phải tiến hành một số bước hậu xử lý kết quả gợi ý để làm tăng tính đa dạng (diversity) cho mô hình gợi ý tin tức; trước khi các tin bài được đề xuất cho người dùng. 1.3 Đóng góp của đồ án Với những hạn chế của các phương pháp hiện tại đã được nêu trong phần 1.2, em đã tiến hành các nghiên cứu, thử nghiệm và đề xuất mô hình gợi ý tin tức BERT- NewsRec (BERT News Recommendation) cũng như một mô hình biến thể khác là BERT-NewsRecv2 (BERT News Recommendation Version 2 with Contrastive Learning) với các đóng góp chính như sau: Đề xuất mô hình gợi ý tin tức BERT-NewsRec (BERT News Recommendation) với việc sử dụng thêm đầu vào là các vector biểu diễn thông tin phụ trợ của người dùng, bên cạnh thông tin mã hóa chuỗi tin bài lịch sử mà người dùng đã tương tác. Mô hình sử dụng kiến trúc mã hóa hai chiều mạnh mẽ là BERT (Bidirectional Encoder Representation from Transformer) 1 để học ra sự tương tác giữa các thành phần tín hiệu, qua đó nâng cao khả năng mã hóa người dùng. Các thực nghiệm cho thấy mô hình BERT-NewsRec cho hiệu quả ngang bằng hoặc tốt hơn so với các mô hình gợi ý khác. Đề xuất mô hình gợi ý biến thể BERT-NewsRecv2 (BERT News Recommendation Version 2 with Contrastive Learning) giúp nâng cao hơn nữa hiệu năng của mô hình BERT-NewsRec. BERT-NewsRecv2 giải quyết vấn đề học ra các 4 CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI vector biểu diễn phản ánh mức độ tương đồng hay khác biệt trong hành vi của người dùng thông qua việc tận dụng framework học tương phản - contrastive learning 2 3 4. Mô hình tận dụng phương pháp Nash-MTL (Nash Multi- task Learning) 5 cho việc học ra bộ trọng số kết hợp hàm mất mát của tác vụ gợi ý và tác vụ học tương phản sao cho có thể tận dụng tối đa lợi ích của học đa tác vụ. Các thí nghiệm cho thấy sự cải thiện đáng kể hiệu năng của việc sử dụng học tương phản (contrastive learning) trong BERT-NewsRecv2 khi so sánh với mô hình gốc BERT-NewsRec. Cuối cùng, trong quá trình nghiên cứu, em nhận thấy sự nghiêm trọng của vấn đề thiếu đa dạng trong kết quả gợi ý của mô hình (over-personalization), đặc biệt là với nhóm người dùng mới khi lịch sử tương tác của họ chưa nhiều. Việc các tin bài có nội dung trùng lặp dẫn tới nguy cơ người dùng cảm thấy nhàm chán và mất thiện cảm đối với trang tin, từ đó dẫn tới "hệ quả ngược". Để giải quyết vấn đề này, em đề xuất việc tận dụng framework tối ưu đa mục tiêu trong quá trình phân phối tin bài: vừa cực đại hóa khả năng người dùng tương tác với bài viết, vừa cực tiểu hóa độ trùng lặp về nội dung của các tin bài được phân phối so với các tin bài mà người dùng đã tương tác trong quá khứ. 1.4 Bố cục đồ án Phần còn lại của báo cáo đồ án tốt nghiệp này được tổ chức như sau. Chương 2 trình bày về các cơ sở lý thuyết chính cho đồ án. Tại đây, em sẽ trình bày sơ qua về kiến trúc tổng quan của một mô hình gợi ý tin tức với 3 thành phần chính: bộ mã hóa tin bài (news encoder), bộ mã hóa người dùng (user encoder) và bộ tính điểm dự đoán (scoring); các kiến trúc phổ biến được sử dụng trong từng khối chức năng cũng sẽ được giới thiệu trong phần này. Tiếp sau phần kiến thức về hệ gợi ý sẽ là lý thuyết về học tương phản (contrastive learning), và các thành phần chính của một hệ thống học tương phản. Ngoài ra, cũng tại chương 2, em sẽ trình bày qua các cơ sở lý thuyết về tối ưu đa mục tiêu, cũng như một phương pháp tìm bộ trọng số kết hợp hàm mất mát trong bài toán học đa tác vụ có tên Nash-MTL; các kiến thức này sẽ được vận dụng cho việc huấn luyện mô hình gợi ý khi sử dụng với framework học tương phản (cụ thể hơn là trong việc kết hợp hàm mất mát gợi ý - recommend loss với hàm mất mát học tương phản - contrastive loss); bên cạnh đó là trong bài toán giải quyết vấn đề đa dạng của hệ gợi ý tin tức. Trong Chương 3, em giới thiệu về một mô hình kiến trúc gợi ý tin tức đề xuất có tên BERT-NewsRec. Phần này sẽ trình bày cách mà em tận dụng kiến trúc BERT trong khối mã hóa người dùng để tăng khả năng học ra tương tác theo ngữ cảnh của các tin bài trong lịch sử, bên cạnh đó là phương pháp mà chúng ta có thể bổ sung thêm kênh thông tin phụ trợ để làm giàu thêm biểu diễn cho mô hình. Một 5 CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI biến thể khác của BERT-NewsRec là BERT-NewsRecv2 sử dụng học tương phản (contrastive learning) cũng sẽ được đề xuất; cụ thể hơn, em sẽ trình bày về cách mà chúng ta sử dụng các phép biến đổi tăng cường dữ liệu trên chuỗi tương tác lịch sử của người dùng để tạo ra các góc nhìn khác nhau phục vụ cho quá trình học tương đồng - tương phản, cũng như cách mà chúng ta có thể tận dụng được phương pháp Nash-MTL cho quá trình quyết định bộ trọng số kết hợp tối ưu cho hàm mất mát gợi ý và hàm mất mát học tương phản trong một giá trị hàm mất mát chung (total loss). Phần cuối của chương này sẽ trình bày về phương pháp tăng cường tính đa dạng cho hệ gợi ý tin tức lấy cảm hứng từ bài toán click shaping 6; phương pháp đề xuất sử dụng framework tối ưu đa mục tiêu để vừa đảm bảo tính liên quan của các mục gợi ý đối với lịch sử tương tác của người dùng, vừa đảm bảo duy trì độ đa dạng nhất định trong kết quả đề xuất, tránh gây trải nghiệm nhàm chán, tẻ nhạt. Chương 4 sẽ trình bày về các kết quả thực nghiệm để làm sáng tỏ hiệu quả của mô hình mã hóa BERT-NewsRec so với các mô hình mã hóa người dùng khác. Bên cạnh đó, để làm sáng tỏ hơn nữa hiệu quả của việc vận dụng học tương phản trong mô hình gợi ý tin tức; các thí nghiệm so sánh giữa biến thể BERT-NewsRecv2 và mô hình gốc BERT-NewsRec cũng sẽ được tiến hành. Cuối cùng, em sẽ trình bày về kết quả mô phỏng hoạt động của hệ gợi ý trong một trang web đọc tin demo; qua đó chúng ta có thể thấy rõ hơn khả năng của mô hình trong việc đưa ra các mục đề xuất có nội dung liên quan, cũng như hiệu quả của việc áp dụng tối ưu đa mục tiêu trong việc nâng cao tính đa dạng của hệ gợi ý tin tức. Trong chương cuối cùng của đồ án - chương 5, em sẽ tóm tắt lại một số kết luận chính của đồ án này, cũng như các định hướng phát triển trong tương lai. 6 CHƯƠNG 2. NỀN TẢNG LÝ THUYẾT Trong phần này, em sẽ trình bày sơ qua về kiến trúc phổ biến của một mô hình gợi ý tin tức cũng như các kiến trúc mạng nơ-ron đặc trưng được sử dụng trong từng khối chức năng (phần 2.1). Tiếp theo, tại phần 2.2, em xin giới thiệu qua về framework học tương phản và các thành phần chính trong một hệ thống học tương phản. Phần 2.3 sẽ trình bày định nghĩa về một bài toán tối ưu đa mục tiêu, kèm theo đó là 2 cách tiếp cận chính trong tối ưu đa mục tiêu: phương pháp tổng có trọng số và phương pháp ràng buộc hóa. Phần cuối cùng (phần 2.4) em sẽ trình bày về lý thuyết phương pháp Nash-MTL trong học bộ trọng số kết hợp hàm mất mát để giảm thiểu vấn đề xung đột gradient trong học đa tác vụ. 2.1 Hệ gợi ý tin tức 2.1.1 Tổng quan lược đồ gợi ý tin tức Lĩnh vực gợi ý tin tức có một đặc điểm quan trọng khác biệt khi so sánh với các lĩnh vợi gợi ý khác như phim ảnh, âm nhạc..., đó chính là các tin bài đăng tải có thời gian vòng đời rất ngắn - vài giờ hoặc vài ngày, và nhanh chóng trở nên lỗi thời. Với đặc điểm này, các phương pháp gợi ý dựa trên lọc cộng tác (collaborative filtering) là khó có thể áp dụng vào lĩnh vực tin tức: khi số lượng tương tác của bài viết là đủ lớn để mô hình lọc cộng tác có thể hoạt động tốt, thì tin bài đã trở nên không còn quá nhiều giá trị nội dung với người dùng. Chính vì lẽ đó, phần lớn các mô hình gợi ý tin tức hiện tại tập trung vào cách tiếp cận dựa trên việc khai thác nội dung (content-based): từ nội dung của các tin bài lịch sử mà người dùng đã tương tác, mô hình tiến hành học ra sở thích của người dùng, qua đó đối sánh với tập các ứng cử viên để tìm ra tin bài phù hợp. Lược đồ của các mô hình gợi ý tin tức nhìn chung được tổ chức theo cách thức như hình 2.1. Theo đó, các thành phần chính của một mô hình gợi ý tin tức bao gồm 3 khối cơ bản như sau: Khối mã hóa tin bài (news encoder): thực hiện mã hóa các thuộc tính của tin bài, xây dựng vector đặc trưng cho tin bài. Các kỹ thuật phổ biến được dùng trong khối này là các mô hình như CNN, LSTM, Transformer. . . phục vụ việc nắm bắt nội dung dạng văn bản, tạo vector biểu diễn đặc trưng cho tin bài đó. Khối mã hóa người dùng (user encoder): thực hiện mã hóa thông tin vector biểu diễn của các tin bài mà người dùng đã tương tác trong quá khứ (được tính qua khối news encoder), kết hợp chúng lại tạo thành một vector biểu diễn đặc trưng cho sở thích của người dùng. Thông thường, khối này sử dụng các kiến trúc như GRU, chú ý cộng (Additive Attention) để chuyển từ ma trận các vector biểu diễn tin bài tương tác trong lịch sử thành một vector duy nhất ứng 7 CHƯƠNG 2. NỀN TẢNG LÝ THUYẾT Hình 2.1: Lược đồ kiến trúc tổng quan của một mô hình gợi ý tin tức với mỗi người dùng. Khối tính điểm (scoring): nhận đầu vào là vector biểu diễn cho người dùng và tin bài ứng cử viên, thực hiện các phép biến đổi để tính toán điểm dự đoán tương tác. Thông thường khối tính điểm này là một toán tử tích vô hướng, hoặc một mạng nơ-ron kết nối đầy đủ có kích thước đầu ra bằng 1. Nhìn chung từng khối đều có các lớp nơ-ron (layer) đặc thù riêng phù hợp với chức năng của khối đó. Trong các phần tiếp theo, em sẽ trình bày một số kiến trúc được sử dụng phổ biến và tỏ ra hiệu quả trong việc nắm bắt được các biểu diễn chính xác cho tin bài cũng như người dùng. 2.1.2 Mô hình CNN (Convolutional Neural Network) Mô hình CNN 12 là một mô hình được sử dụng rộng rãi trong lĩnh vực thị giác máy tính cũng như xử lý ngôn ngữ tự nhiên. Mô hình này dùng các phép nhân tích chập để nắm bắt các đặc trưng cục bộ trong dữ liệu đầu vào; người ta sử dụng các ma trận bộ lọc (filter) trượt trên ma trận đầu vào, tại mỗi vị trí, tiến hành tính toán giá trị tích chập cục bộ để tạo ra một bản đồ thuộc tính (feature map) mới (hình 2.2). Giả sử với ma trận đầu vào là I, bộ lọc filter là K, giá trị tích chập của K trên 8 CHƯƠNG 2. NỀN TẢNG LÝ THUYẾT Hình 2.2: Hoạt động của phép nhân tích chập. Với ma trận đầu vào I (màu trắng), thực hiện trượt bộ lọc K (màu xanh lam) lên trên ma trận I; tại mỗi vị trí (màu đỏ), thực hiện phép nhân tích chập để thu được giá trị thông tin cục bộ (màu xanh lục) I tại vị trí (m, n) được tính bằng công thức sau: Om, n = Im, n ∗ Km, n = +∞X j=−∞ +∞X i=−∞ Ii, j.Km − i, n − j (2.1) Tại các vị trí biên của ma trận đầu vào, thông thường người ta sẽ tiến hành padding mở rộng ma trận để có thể tính toán được tích chập tại các vị trí này (hình 2.3). Việc trượt các bộc lọc (filter) trên ma trận đầu vào được quyết định bởi tham số bước nhảy (stride), nó cho biết tại mỗi bước chúng ta tiến hành dịch chuyển bao nhiêu pixel so với vị trí hiện tại. Với kích thước ma trận đầu vào là i , kích thước bộ lọc (filter) là k, số pixel padding là p và bước nhảy (stride) là s ; thì kích thước bản đồ thuộc tính (feature map) đầu ra o của mạng nơ-ron tích chập được tính bằng công thức sau: o = ⌊i − k + 2 p s ⌋ + 1 (2.2) Bằng việc trượt các bộ lọc - filter tại các vị trí trên đầu vào I , mạng CNN có khả năng học được các tín hiệu đặc trưng cục bộ: các mẫu hình ảnh, mẫu vật thể; các ngữ nghĩa của từ trong câu. . . Thông thường, người ta sẽ sử dụng nhiều bộ lọc (filter) trên cùng một tầng nơ-ron để tạo ra nhiều bản đồ thuộc tính (feature map), với kỳ vọng mỗi bộ lọc (filter) có khả năng học một mẫu đặc trưng khác nhau. 2.1.3 Mô hình GRU (Gated Recurrent Units) GRU là một thiết kế mô hình nằm trong nhóm các mô hình mạng hồi quy (recurrent neural network) sử dụng cơ chế cổng xử lý thông tin (gating mechanism) 13. Mạng nơ-ron hồi quy được dùng phổ biến trong các lĩnh vực mà dữ liệu đầu 9 CHƯƠNG 2. NỀN TẢNG LÝ THUYẾT Hình 2.3: Phép padding trong nhân tích chập. Tại các phần biên (màu đỏ) của ma trận đầu vào, người ta thực hiện pad thêm các giá trị 0 (màu xám) để có thể thực hiện được phép nhân tích chập. vào có dạng chuỗi: dữ liệu âm thanh, dữ liệu văn bản, dữ liệu chuỗi thời gian. Nó có ứng dụng trong nhiều bài toán như dự đoán doanh thu, dự đoán từ tiếp theo, chuyển hóa giọng nói sang văn bản (speech to text). . . Trong các mạng nơ-ron truyền thống, tín hiệu đầu vào được xử lý một cách hoàn toàn độc lập, không có sự xâu chuỗi hay xem xét thứ tự trước-sau của chúng; điều này là không phù hợp với bản chất tự nhiên của nhiều lĩnh vực: các giá trị trước, giá trị lịch sử có tác động tới giá trị tương lai. Với mạng hồi quy, đầu ra tại một bước thời gian phụ thuộc vào các bước tính toán trước đó, hệ quả là mô hình có thể ghi nhớ được các thông tin lịch sử, lan truyền theo thời gian, và đem lại hiệu quả dự đoán tốt hơn (hình 2.4). Phiên bản ban đầu của mô hình hồi quy là RNN tiêu chuẩn (Recurrent Neural Network) cho thấy một vấn đề khi nó không thể ghi nhớ được các phụ thuộc xa, nguyên nhân là do gradient của hàm mất mát giảm theo hàm mũ trên chiều thời gian 14. Để khắc phục vấn đề này, một kiến trúc mới được đề xuất là LSTM (Long-Short Term Memory) 15 với việc sử dụng thêm các khối kiến trúc đặc biệt; cụ thể, trong LSTM, có một bộ nhớ tế bào (memory cell) được dùng để duy trì thông tin trong suốt chuỗi thời gian dài, các cổng được dùng để kiểm soát việc khi nào thông tin được tiếp nhận vào bộ nhớ - memory, khi nào nó bị quên, cũng như cách thông tin được output ra bên ngoài. Kiến trúc LSTM được kiểm chứng là cho phép mô hình học được các phụ thuộc xa trong chuỗi thời gian, xong nó lại khá phức tạp và yêu cầu chi phí tính toán cao, vấn đề này là đặc biệt nghiêm trọng khi kiến trúc tuần tự của các mạng hồi quy không cho phép ta song song hóa để tăng 10 CHƯƠNG 2. NỀN TẢNG LÝ THUYẾT Hình 2.4: Mạng nơ-ron hồi quy - recurrent neural network. Đầu ra ht phụ thuộc vào đầu vào của bước thời gian hiện tại xt và các bước tính toán trước đó (các kết nối đi dọc theo chiều thời gian). Hình 2.5: Kiến trúc của mô hình GRU. Mô hình duy trì 2 cổng cài lại (reset gate) và cổng cập nhật (update gate) để quyết định quá trình thông tin được cập nhật, xử lý. tốc. GRU (Gated Recurrent Units) là một phiên bản tương tự của LSTM, xong kiến trúc đã được làm đơn giản lại với ít cổng hơn (GRU có 2 cổng, LSTM có 3 cổng). Sơ đồ tính toán của GRU được minh họa trong hình 2.5. Cụ thể, với tín hiệu đầu vào xt và vector trạng thái ẩn ht−1 của bước thời gian trước đó, giá trị vector cổng cập nhật (update gate) zt được tính như sau: zt = σg(W zxt + U zht−1 + bz) (2.3) Tương tự là vector cổng cài lại (reset gate) rt: rt = σg(W rxt + U rht−1 + br) (2.4) 11 CHƯƠNG 2. NỀN TẢNG LÝ THUYẾT Từ vector cổng cài lại (reset gate) rt , người ta tính ra vector ứng cử viên kích hoạt (candidate activation) ¯ht như sau: ¯ht = ϕh(W hxt + U h(rt ⊙ ht−1) + bh) (2.5) Cuối cùng, trạng thái ẩn mới ht là sự kết hợp của vector cổng cập nhật (update gate) zt, vector ứng cử viên kích hoạt (candidate activation) ¯ht và trạng thái ẩn của bước thời gian trước đó ht−1: ht = zt ⊙ ¯ht + (1 − zt) ⊙ ht−1 (2.6) Ở trong các công thức (2.3), (2.4) và (2.5), các biến W , U và b chính là các trọng số của mô hình, có thể điều chỉnh được trong quá trình học. Ký hiệu ⊙ biểu diễn cho phép nhân từng phần tử Hadamard (element-wise product). Hàm kích hoạt được sử dụng cho cổng cập nhật (update gate) và cổng cài lại (reset gate) là hàm sigmoid (σg ); còn đối với vector ứng cử viên kích hoạt (candidate activation), tác giả sử dụng hàm kích hoạt tanh (ϕh). 2.1.4 Mô hình chú ý cộng (Additive Attention) Thực tế, chúng ta có thể nhận ra rằng không phải tất cả mọi thuộc tính đều quan trọng trong việc biểu diễn một thực thể. Ví dụ, trong một văn bản, để biểu diễn nội dung của văn bản đó thì các từ dừng (stop words) sẽ không quan trọng bằng các từ khóa (keywords) chính; để phân biệt giữa con chim và con mèo, chúng ta chỉ cần tập trung vào đặc điểm con vật đó có cánh hay không, thay vì quan tâm đến màu lông. . . Dựa trên thực tế đó, các kiến trúc chú ý (Attention) được thiết kế để nắm bắt các đặc trưng thông tin hữu ích nhất cho mục tiêu dự đoán. Chú ý cộng (Additive Attention) là một kiến trúc được đề xuất bởi Bahdanau trong một bài báo về dịch máy có tên “Neural Machine Translation by Jointly Learning to Align and Translate” 16. Trước đó, đối với các các mô hình mã hóa - giải mã (encoder - decoder) cơ bản, các thiết kế cố gắng mã hóa toàn bộ xâu đầu vào thành một vector có kích thước cố định; tuy nhiên, cách tiếp cận của Bahdanau mã hóa toàn bộ chuỗi đầu vào thành một chuỗi các vector, trong quá trình giải mã phục vụ dịch máy, mô hình của ông có khả năng thích nghi lựa chọn một tập con các vector quan trọng để tính toán (hình 2.6). Bahdanau ký hiệu h1, h2 ,. . . là các vector phụ chú (annotation) được tính toán bởi bộ mã hóa (encoder) dựa trên chuỗi từ đầu vào. Mỗi vector phụ chú (annotation) hi chứa thông tin của toàn bộ xâu đầu vào với mức độ tập trung nhiều hơn ở xung quanh vị trí của từ thứ i trong câu. Kí hiệu si−1 là trạng thái ẩn (hidden state) của mạng giải mã (decoder) tại bước thời gian i − 1. Giá trị điểm dóng hàng (alignment 12 CHƯƠNG 2. NỀN TẢNG LÝ THUYẾT Hình 2.6: Kiến trúc mạng dịch máy với chú ý cộng (Additive Attention) (Nguồn: 16). Tại mỗi bước thời gian t , cơ chế chú ý cộng (Additive Attention) được áp dụng để tính ra trọng số chú ý (attention weight) αti cho các vector phụ chú (annotation) hi của bộ mã hóa (encoder); từ đó tính ra vector ngữ cảnh toàn cục (global context) ct . Vector ngữ cảnh toàn cục ct được sử dụng để tính toán vector trạng thái ẩn st của bộ giải mã (decoder). score) eij của trạng thái ẩn (hidden state) si−1 với các vector phụ chú (annotation) hj được tính như sau: eij = a(si−1, hj ) (2.7) với a(.) thể hiện cho một mạng nơ-ron truyền tiến. Dựa vào điểm các giá trị điểm dóng hàng (alignment score) eij , người ta sử dụng một hàm softmax để tính ra trọng số đóng góp αij của các vector phụ chú (annotation) vào trong vector ngữ cảnh (context) của bước thời gian hiện tại: αij = exp(eij ) PTx k=1 exp(eik) (2.8) Từ đó, vector ngữ cảnh (context) tại bước thời gian hiện tại ci được tính bằng tổng có trọng số của các vector phụ chú (annotation) hj : ci = TxX j=1 αij hj (2.9) 13 CHƯƠNG 2. NỀN TẢNG LÝ THUYẾT Hình 2.7: Sự phụ thuộc của các từ vựng đầu ra đối với các từ vựng đầu vào của mô hình dịch máy. Ví dụ thể hiện mức độ phụ thuộc khác nhau của các từ đầu ra trên bộ giải mã (decoder) đối với các từ đầu vào ở bộ mã hóa (encoder) trong bài toán dịch từ câu tiếng Anh "How was your day" sang câu tiếng Pháp tương ứng. Chúng ta có thể thấy, từ "Comment" trong câu tiếng Pháp phụ thuộc nhiều vào từ "How" trong câu tiếng Anh; trong khi đó, từ "journée" lại phụ thuộc nhiều hơn vào từ "day". Cuối cùng, kết quả trạng thái ẩn (hidden state) của bước thời gian mới si được tính dựa trên trạng thái ẩn (hidden state) của bước thời gian trước đó si−1 , output của bước thời gian trước đó yi−1 và vector ngữ cảnh (context) của bước thời gian hiện tại ci: si = f (si−1, yi−1, ci) (2.10) Như vậy, trong mô hình đề xuất bởi Bahdanau, cơ chế chú ý cộng (Additive Attention) đã được áp dụng trong bước tính toán ra vector ngữ cảnh (context) ci từ các vector phụ chú (annotation) hj , với 3 bước xử lý chính: Tính toán điểm dóng hàng (alignment score) e bằng một biến đổi trên các vector đầu vào (2.7) Tính toán trọng số chú ý (attention weight) α bằng cách áp dụng hàm softmax trên các điểm dóng hàng (alignment score) e (2.8) Tính toán vector ngữ cảnh (context) c bằng tổng có trọng số của các vector đầu vào (2.9) Hình 2.7 là một ví dụ minh họa cho việc mỗi từ vựng đầu ra ở bộ giải mã (decoder) sẽ có mức độ phụ thuộc khác nhau vào các từ vựng đầu vào trong bộ mã hóa (encoder), từ đó khẳng định tính hiệu quả của phương pháp chú ý cộng (Additive Attention) mà Bahdanau đã đề xuất. 2.1.5 Mô hình Transformer Các mô hình mạng nơ-ron hồi quy xử lý thông tin theo chuỗi, do đó không cho phép chúng ta thực hiện quá trình song song hóa tính toán, đầu ra của bước thời 14 CHƯƠNG 2. NỀN TẢNG LÝ THUYẾT Hình 2.8: Sơ đồ kiến trúc mô hình Transformer. gian sau chỉ có thể được tính sau khi bước thời gian trước được thực hiện; kết quả là quá trình dự đoán trở nên chậm chạp bởi xử lý chuỗi. Transformer là một kiến trúc được thiết kế để giải quyết vấn đề này, toàn bộ dữ liệu đầu vào đều được xử lý đồng thời, mà vẫn cho phép học được sự phụ thuộc giữa các phần tử. Transformer lần đầu được giới thiệu tại bài báo “Attention Is All You Need” 17 bởi các tác giả thuộc trung tâm nghiên cứu Google Brain, Google Research và đại học Toronto. Sơ đồ kiến trúc của một tầng Transformer được mô tả trong hình 2.8. Thành phần cốt lõi của một tầng Transformer là khối chú ý đa đỉnh (Multi-Head Attention) sử dụng cơ chế tự chú ý (Self-Attention). Để hiểu một cách khái quát, tự chú ý (Self-Attention) cho phép từng từ "quan sát" các từ còn lại trong câu, hiểu ngữ cảnh và cập nhật biểu diễn của mình theo ngữ cảnh đó. Cơ chế tự chú ý (Self-Attention) sử dụng ba ma trận với các vector biểu diễn query, key và value: Query: được coi là một truy vấn hỏi thông tin, một từ dùng query để hỏi các từ còn lại về ngữ cảnh cũng như mối quan hệ của nó với các từ khác. Key: được dùng để trả lời yêu cầu của truy vấn query và tính trọng số chú ý (attention weight). Value: được sử dụng cùng với trọng số chú ý (attention weight) ở trên để tính 15 CHƯƠNG 2. NỀN TẢNG LÝ THUYẾT ra vector đại diện. Với ba ma trận đầu vào là query Q, key K và value V ; ký hiệu dk là số chiều biểu diễn của các vector query và key; giá trị ma trận chú ý (attention matrix) của mỗi đỉnh (head) được tính như sau: Attention(Q, K, V ) = sof tmax(QKT √dk )V (2.11) Đầu ra của các đỉnh (head) được concatenate lại với nhau và qua một lớp biến đổi tuyến tính để tạo ra biểu diễn cuối cùng của khối chú ý đa đỉnh (Multi-Head Attention): M ultiHead(Q, K, V ) = Concat(head1, ..., headn)W O (2.12) Trong đó: headi = Attention(QW Q i , KW K i , V W V i ); với W Q i , W K i và W V i lần lượt là các trọng số biến đổi ma trận query, key, value của đỉnh (head) thứ i . Trong kiến trúc của Transformer, các tác giả đề xuất sử dụng thêm các kết nối tắt (residual connection) cùng với tầng nơ-ron chuẩn hóa normalization để tăng khả năng hội tụ cho mô hình. Cuối cùng, khối lan truyền tiến từng vị trí (Position-wise Feed Forward) được hiểu đơn giản là một mạng nơ-ron lan truyền tiến, bao gồm hai biến đổi tuyến tính được xen giữa bởi bột hàm kích hoạt RELU: F F N (x) = max(0, xW 1 + b1)W 2 + b2 (2.13) Do đặc điểm của Transformer là xử lý tín hiệu song song, cho nên mô hình không biết được trật tự của các từ trong câu, để mô hình có thể học được trật tự trước sau này, người ta thường sử dụng thêm thông tin embedding vị trí (position embedding), cộng dồn với tín hiệu đầu vào của mạng (hình 2.9). Transformer được thực nghiệm là cho thấy hiệu quả tốc độ tính toán nhanh hơn so với các mô hình mạng hồi quy, trong khi cho hiệu năng dự đoán tốt hơn rất nhiều. 2.1.6 Mô hình Fastformer Fastformer 11 là một dạng kiến trúc

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐỒ ÁN TỐT NGHIỆP BERT-NewsRec: mơ hình gợi ý tin tức hiệu NGUYỄN VĂN NGA nga.nv173279@sis.hust.edu.vn Ngành: Khoa học máy tính Chuyên ngành: Trí tuệ nhân tạo ứng dụng Giảng viên hướng dẫn: ThS Ngô Văn Linh Chữ kí GVHD Khoa: Khoa học máy tính Trường: Cơng nghệ thơng tin Truyền thơng HÀ NỘI, 07/2022 LỜI CAM KẾT Họ tên sinh viên: Nguyễn Văn Nga Điện thoại liên lạc: 033.891.4547 Email: nga.nv173279@sis.hust.edu.vn Lớp: KHMT01-K62 Hệ đào tạo: Kỹ sư quy Tơi – Nguyễn Văn Nga – cam kết Đồ án Tốt nghiệp (ĐATN) cơng trình nghiên cứu thân tơi hướng dẫn Thạc sỹ Ngô Văn Linh Các kết nêu ĐATN trung thực, thành riêng tôi, không chép theo cơng trình khác Tất tham khảo ĐATN – bao gồm hình ảnh, bảng biểu, số liệu, câu từ trích dẫn – ghi rõ ràng đầy đủ nguồn gốc danh mục tài liệu tham khảo Tơi xin hồn tồn chịu trách nhiệm với dù chép vi phạm quy chế nhà trường Hà Nội, ngày 12 tháng 07 năm 2022 Tác giả ĐATN Nguyễn Văn Nga LỜI CẢM ƠN Trong trình thực đồ án, em xin chân thành cảm ơn Thạc sỹ Ngơ Văn Linh tận tình giúp đỡ, hướng dẫn em để hoàn thành tốt đồ án tốt nghiệp Bên cạnh đó, em mong muốn gửi lời biết ơn sâu sắc tới thầy cô đội ngũ giảng viên Trường Công nghệ thông tin Truyền thông - trực thuộc Trường Đại học Bách Khoa Hà Nội, người trang bị cho em hành trang kiến thức suốt năm học vừa qua; làm tảng vững để em hồn thiện đồ án, "nguồn vốn" vơ quý giá để em tiếp tục bước đường nghiệp Con xin cảm ơn gia đình, cảm ơn ba mẹ, anh chị, cháu gái Ngọc Lan, Ngọc Hân - nguồn động lực vô tận giúp vượt qua thử thách sống Con cảm ơn người bên con, đứng đằng sau con, quan tâm, lo lắng Con có bước tiến dài đến ngày hơm nay, tất nhờ lượng yêu thương tất người Cuối cùng, xin cảm ơn khó khăn, thử thách đến với năm vừa qua Cảm ơn nhiều đến đời xuân tôi, khiến cảm thấy mệt mỏi, trùng bước; sau cùng, đưa cho hội, đường, cánh cửa hy vọng; để ngày, nhận thấy trưởng thành hơn, mạnh mẽ hơn, can đảm TÓM TẮT NỘI DUNG ĐỒ ÁN Ngày nay, hệ gợi ý (recommender system) đóng vai trị ngày quan trọng thành cơng ứng dụng hoạt động lĩnh vực cung cấp nội dung số Gợi ý tin tức (news recommendation) - nhánh nghiên cứu hệ gợi ý; thu hút nhiều quan tâm nhà khoa học Các cách tiếp cận gợi ý tin tức chủ yếu tập trung vào khai thác nội dung văn giàu thông tin tin Cụ thể, kiến trúc mã hóa tin (news encoder) đề xuất, tận dụng mô hình phổ biến lĩnh vực xử lý ngơn ngữ tự nhiên để tạo biểu diễn vector cho tin Trên sở đó, người ta xây dựng khối mã hóa người dùng (user encoder) kết hợp vector biểu diễn tin mà người dùng tương tác khứ để tạo vector biểu diễn đại diện cho sở thích người dùng Sau có vector biểu diễn cho tin người dùng, người ta cho qua khối tính điểm tương tác (scoring) để tính điểm dự đoán tương tác Các kết thực nghiệm cho thấy cách tiếp cận có thành công định việc đưa mục tin gợi ý có mức độ liên quan định; phù hợp với thói quen, sở thích người dùng thể qua tin lịch sử họ Dựa mơ hình kiến trúc có, em nhận thấy tiềm việc sử dụng thêm thơng tin phụ trợ q trình học biểu diễn người dùng - bên cạnh khai thác thông tin vector mã hóa tin lịch sử họ Ngoài ra, điểm hạn chế nghiên cứu chưa quan tâm đến việc học biễu diễn vector có mức độ phản ánh định tương đồng hay tương phản hành vi người dùng; cụ thể, mặt trực giác, người dùng có hành vi tương đồng nên có biểu diễn mã hóa nằm gần khơng gian vector, ngược lại Với lý luận trên, em tiến hành nghiên cứu, đề xuất mô hình gợi ý tin tức có tên BERT-NewsRec Mơ hình sử dụng kiến trúc BERT [1] để học tương tác tin lịch sử người dùng, tạo biểu diễn theo ngữ cảnh; bên cạnh việc kết hợp thêm kênh mã hóa thơng tin phụ trợ giúp làm tăng thêm khả biểu diễn cho mơ hình, giúp cho mơ hình học vector mã hóa người dùng xác hơn, phản ánh sở thích họ Ngồi ra, biến thể khác có tên BERT-NewsRec_v2 giới thiệu với việc tận dụng framework học tương phản (contrastive learning) [2] [3] [4] để học biểu diễn vector phản ánh tương đồng - tương phản hành vi người dùng Một điểm đáng ý q trình huấn luyện mơ hình BERT-NewsRec_v2, em sử dụng phương pháp Nash-MTL (Nash Multi-task Learning [5]) để học trọng số tối ưu cho việc kết hợp hàm mát gợi ý (recommend loss) hàm mát học tương phản (contrastive loss) nhằm giảm thiểu vấn đề xung đột gradient (gradient conflict) Các kết thực nghiệm liệu cho thấy hiệu BERT-NewsRec so với mơ hình gợi ý sử dụng khối mã hóa người dùng truyền thống Đồng thời, với việc sử dụng học tương phản biến thể BERT-NewsRec_v2, hiệu mơ hình tác vụ gợi ý cho thấy cải thiện đáng kể Cuối cùng, trình nghiên cứu, khảo sát; em nhận thấy vấn đề nghiêm trọng việc thiếu tính đa dạng kết gợi ý mơ hình, đặc biệt nhóm người dùng mới, có lịch sử tương tác Với việc tin trả xoay quanh nội dung, lâu dần khiến người dùng cảm thấy nhàm chán, dẫn tới "hệ ngược" Để giải vấn đề này, em đề xuất sử dụng framework tối ưu đa mục tiêu [6] hậu xử lý kết gợi ý mơ hình: vừa đảm bảo mục đề xuất có điểm dự đoán tương tác mức đủ tốt, vừa giảm thiểu mức độ trùng lặp nội dung tin đề xuất so với tin lịch sử người dùng Qua trình quan sát, đánh giá, em nhận thấy phần hiệu bước hậu xử lý việc tăng cường tính phong phú, đa dạng tin gợi ý MỤC LỤC CHƯƠNG GIỚI THIỆU ĐỀ TÀI 1.1 Bài toán gợi ý tin tức 1.2 Các giải pháp hạn chế 1.3 Đóng góp đồ án 1.4 Bố cục đồ án CHƯƠNG NỀN TẢNG LÝ THUYẾT 2.1 Hệ gợi ý tin tức 2.1.1 Tổng quan lược đồ gợi ý tin tức 2.1.2 Mơ hình CNN (Convolutional Neural Network) 2.1.3 Mơ hình GRU (Gated Recurrent Units) 2.1.4 Mơ hình ý cộng (Additive Attention) 12 2.1.5 Mô hình Transformer 14 2.1.6 Mơ hình Fastformer 16 2.1.7 Xây dựng mô hình gợi ý 19 2.2 Học tương phản (contrastive learning) 23 2.2.1 Tổng quan học tương phản 23 2.2.2 Tăng cường liệu (data augmentation) 23 2.2.3 Mạng nơ-ron mã hóa (encoder network) 24 2.2.4 Hàm mát (loss function) 24 2.3 Sơ lược tối ưu đa mục tiêu 26 2.3.1 Phát biểu toán tối ưu đa mục tiêu 26 2.3.2 Tính trội, mặt Pareto tối ưu đa mục tiêu 27 2.3.3 Một số cách tiếp cận giải toán tối ưu đa mục tiêu 28 2.4 Nash-MTL (Nash Multi-task learning) học đa tác vụ với mạng học sâu 31 2.4.1 Học đa tác vụ mạng học sâu 31 2.4.2 Phương pháp Nash-MTL cho việc kết hợp hàm mát tác vụ 32 CHƯƠNG PHƯƠNG PHÁP ĐỀ XUẤT 39 3.1 Mơ hình gợi ý BERT-NewsRec (BERT News Recommendation) 39 3.1.1 Khối mã hóa tin (News encoder) 39 3.1.2 Khối mã hóa thơng tin phụ trợ (Side feature encoder) 41 3.1.3 Khối mã hóa người dùng (User encoder) 41 3.1.4 Khối tính điểm tương tác (Scoring) 42 3.1.5 Hàm mát cho toán gợi ý 42 3.2 Mơ hình gợi ý BERT-NewsRec_v2 (BERT News Recommendation Version with Contrastive Learning) 42 3.2.1 Sơ đồ hoạt động 42 3.2.2 Các phép tăng cường liệu (data augmentation) 43 3.2.3 Xác định trọng số kết hợp hàm mát 48 3.3 Giải vấn đề đa dạng (diversity) hệ gợi ý 49 3.3.1 Vấn đề thiếu tính đa dạng hệ gợi ý tin tức 49 3.3.2 Giải pháp tăng tính đa dạng cho hệ gợi ý tin tức 50 CHƯƠNG ĐÁNH GIÁ THỰC NGHIỆM 55 4.1 Kết đánh giá hiệu mơ hình gợi ý 55 4.1.1 Bộ liệu, cấu hình 55 4.1.2 Hiệu mơ hình đề xuất BERT-NewsRec 56 4.1.3 Hiệu BERT-NewsRec với số lượng tầng Transformer khác 62 4.1.4 Hiệu BERT-NewsRec với nhóm người dùng khác 62 4.1.5 Hiệu học tương phản BERT-NewsRec_v2 64 4.1.6 Hiệu Nash-MTL cân hàm mát gợi ý (recommend loss) hàm mát học tương phản (contrastive loss) 67 4.2 Xây dựng trang web demo minh họa hoạt động mơ hình gợi ý 68 4.2.1 Kiến trúc hệ thống web demo 68 4.2.2 Một số kết gợi ý hệ thống 69 4.2.3 Hiệu tối ưu đa mục tiêu giải vấn đề đa dạng hệ gợi ý tin tức 69 CHƯƠNG KẾT LUẬN 72 5.1 Kết luận 72 5.2 Hướng phát triển tương lai 72 TÀI LIỆU THAM KHẢO 75 PHỤ LỤC 77 A CHỨNG MINH TÍNH ĐÚNG ĐẮN CỦA LỜI GIẢI TỐI ƯU ĐA MỤC TIÊU NASH-MTL 77 A.1 Phát biểu 77 A.2 Chứng minh 77 B CÁC ĐỘ ĐO TRONG ĐÁNH GIÁ HIỆU NĂNG CỦA HỆ GỢI Ý 79 B.1 Độ đo AUC 79 B.1.1 True Positive Rate, False Positive Rate 79 B.1.2 ROC (Receiver Operator Characteristic) 80 B.2 Độ đo MRR 82 B.3 Độ đo NDCG 83 DANH MỤC HÌNH VẼ Hình 2.1 Lược đồ kiến trúc tổng quan mơ hình gợi ý tin tức Hình 2.2 Hoạt động phép nhân tích chập Hình 2.3 Phép padding nhân tích chập 10 Hình 2.4 Mạng nơ-ron hồi quy - recurrent neural network 11 Hình 2.5 Kiến trúc mơ hình GRU 11 Hình 2.6 Kiến trúc mạng dịch máy với ý cộng (Additive Attention) 13 Hình 2.7 Sự phụ thuộc từ vựng đầu từ vựng đầu vào mơ hình dịch máy 14 Hình 2.8 Sơ đồ kiến trúc mơ hình Transformer 15 Hình 2.9 Minh họa việc tích hợp thêm thơng tin vị trí cho mơ hình Transformer 17 Hình 2.10 Sơ đồ kiến trúc mơ hình Fastformer 18 Hình 2.11 Sơ đồ kiến trúc mơ hình gợi ý tin tức NAML 20 Hình 2.12 Sự khác mức độ đặc trưng ngữ nghĩa từ câu 20 Hình 2.13 Sơ đồ kiến trúc mơ hình gợi ý tin tức NRMS 22 Hình 2.14 Minh họa tương tác từ văn 22 Hình 2.15 Một số phép tăng cường liệu (data augmentation) liệu ảnh 24 Hình 2.16 Sơ đồ hoạt động hệ thống học tương phản (contrastive learning) 25 Hình 2.17 Hiệu top 1-accuracy mơ hình học tương phản liệu ImageNet ILSVRC-2012 27 Hình 2.18 Minh họa mặt Pareto toán tối ưu đa mục tiêu 28 Hình 2.19 Minh họa hai loại hình dạng khác mặt tối ưu Pareto 28 Hình 2.20 Giải tốn tối ưu đa mục tiêu phương pháp tổng có trọng số 29 Hình 2.21 Minh họa giải bải toán tối ưu đa mục tiêu phương pháp ràng buộc hóa 30 Hình 2.22 Kiến trúc mơ hình mạng nơ-ron học đa tác vụ 31 Hình 2.23 Vấn đề xung đột gradient (gradient conflict) học đa tác vụ 33 Hình 2.24 Hiệu Nash-MTL việc tìm hướng cập nhật trọng số tốt cho tất tác vụ 37 i

Ngày đăng: 04/03/2024, 01:29

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan