Mô hình học sâu trong xử lý ngôn ngữ tự nhiên và bài toán khuyến nghị

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Mơ hình học sâu xử lý ngơn ngữ tự nhiên tốn khuyến nghị ĐỒN NGỌC HỒNG doanngochoanghy@gmail.com Ngành: Toán Tin Giảng viên hướng dẫn: TS Lê Chí Ngọc Viện: Chữ kí GVHD Tốn ứng dụng Tin học HÀ NỘI, 12/2021 LỜI CẢM ƠN Lời đầu tiên, tác giả xin bày tỏ lòng biết ơn chân thành sâu sắc tới TS Lê Chí Ngọc, người tận tình hướng dẫn, hỗ trợ tác giả suốt trình thực luận văn Tác giả xin trân trọng cảm ơn Viện Toán ứng dụng Tin học, Đại học Bách khoa Hà Nội tạo điều kiện thuận lợi cho tác giả trình học tập nghiên cứu Xin cảm ơn thầy cô, bạn sinh viên, học viên cao học Viện Toán ứng dụng Tin học trao đổi tác giả kiến thức kinh nghiệm quý báu để giúp cho luận văn hoàn thiện hơn.Tác giả xin gửi lời chân thành cảm ơn tới đồng nghiệp công ty An Ninh Mạng Viettel hỗ trợ tạo điều kiện cho tác giả thời gian nghiên cứu thực đề tài Cuối cùng, tác giả xin kính tặng người thân yêu lời cảm ơn chân thành, người ln bên cạnh động viên, chia sẻ mặt tinh thần lúc tác giả gặp khó khăn TĨM TẮT NỘI DUNG LUẬN VĂN Bài toán khuyến nghị (Recommendation) toán quan trọng lĩnh vực điện toán xã hội (Social Computing) Bài toán khuyến nghị có ý nghĩa to lớn việc tăng mức độ tương tác, nâng cao trải nghiệm người dùng tảng truyền thông xã hội trực tuyến Trong luận văn tác giả xin giới thiệu mơ hình NRMS mơ hình khuyến nghị tin tức thử nghiệm mơ hình tập liệu thu thập từ trang tin tức trực tuyến thực tế Qua thấy ứng dụng mơ hình học sâu xử lý ngơn ngữ tự nhiên giúp giải tốn áp dụng vào thực tế cụ thể toàn khuyến nghị tin tức Với tư ứng dụng, luận văn có tiềm phát triển xa để phát triển hệ thống khuyến nghị tin tức có khả tích hợp với trang tin tức trực tuyến giúp cung cấp dịch vụ tốt cho người dùng Từ khóa: Social Computing, Recommendation, News Recommendation, NRMS Hà Nội, ngày tháng năm 2021 Giáo viên hướng dẫn HỌC VIÊN Kí ghi rõ họ tên Kí ghi rõ họ tên Mục lục DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU BẢNG KÍ HIỆU VÀ CÁC TỪ NGỮ VIẾT TẮT LỜI NÓI ĐẦU CƠ SỞ LÝ THUYẾT 1.1 Máy học 1.2 Mơ hình học sâu 1.2.1 Cấu trúc mạng nơ-ron 1.2.2 Hàm mát 1.2.3 Huấn luyện mạng nơ-ron 1.2.4 Cơ chế Attention 1.2.5 Multi-head Attention 1.3 Xử lý ngôn ngữ tự nhiên 1.3.1 Bag of words 1.3.2 Kỹ thuật nhúng từ ỨNG DỤNG MƠ HÌNH HỌC SÂU VÀO BÀI TỐN KHUYẾN NGHỊ TIN TỨC 2.1 Điện toán xã hội toán khuyến nghị 2.1.1 Điện toán xã hội 2.1.2 Hệ thống khuyến nghị 2.1.3 Bài toán khuyến nghị tin tức 2.2 Mơ hình khuyến nghị tin tức NRMS 2.2.1 Bộ mã hóa tin tức 2.2.2 Bộ mã hóa người dùng 2.2.3 Bộ dự đoán 2.2.4 Huấn luyện mơ hình 7 8 10 11 12 14 15 15 16 19 19 19 21 23 25 26 27 28 29 THỬ NGHIỆM VÀ ĐÁNH GIÁ 3.1 Tập liệu 3.2 Phương pháp đánh giá 3.3 Kết thực nghiệm KẾT QUẢ 30 30 35 37 KẾT LUẬN 39 TÀI LIỆU THAM KHẢO 39 DANH MỤC HÌNH VẼ 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Tính tốn nơ-ron Mơ hình mạng nơ-ron nhiều lớp ẩn Thuật toán hướng giảm gradient Attention Attention nhiều đầu Véc tơ nhúng từ Hai mơ hình Word2Vec 2.1 2.2 Điện toán xã hội Minh họa phương pháp tiếp cận lọc cộng tác người có thích xem phim hay khơng Hệ thống khuyến nghị tin tức Google News Mơ hình hệ thống khuyến nghị tin tức Mơ hình khuyến nghị tin tức NRMS 2.3 2.4 2.5 3.1 3.2 3.3 3.4 để dự 9 12 13 15 17 18 đoán 20 Hình ảnh hiển thị tin tức trang báo điện tử VnExpress Ví dụ liệu thu thập lưu trữ công cụ Apache Nutch Apache Solr Khung bình luận viết trang báo điện tử VnExpress Ví dụ đường cong ROC sổ AUC 23 23 24 26 31 32 33 36 DANH MỤC BẢNG BIỂU 3.1 3.2 3.3 3.4 Ví dụ liệu tin tức lưu trữ Ví dụ mẫu dùng để huấn luyện mơ hình Số lượng mẫu tập liệu đưa vào huấn luyện đánh giá mơ hình Kết đánh giá mơ hình NRMS 34 35 35 38 BẢNG KÍ HIỆU VÀ CÁC TỪ NGỮ VIẾT TẮT MLP Mạng nơ-ron nhiều lớp - Multilayer Perceptron NLP Xử lý ngôn ngữ tự nhiên - National language processing 15 NRMS Neural news recommendation with multi-head self-attention 1, 25, 29, 39 LỜI NÓI ĐẦU Nhờ phát triển bùng nổ Internet người ngày có hội tiếp xúc với nhiều nguồn thông tin tảng truyền thông xã hội ví dụ mạng xã hội trực tuyến, mua sắm trực tuyến, tin tức trực tuyến, diễn đàn, Vì đời điện toán xã hội (Social computing) để trả lời câu hỏi giải vấn đề, thách thức hành vi người dùng thông qua tảng truyền thông xã hội trực tuyến Một ba toán quan trọng điện tốn xã hội tốn khuyến nghị (Recommendation) Bài tốn khuyến nghị có ý nghĩa to lớn việc nâng cao trải nghiệm người dùng tảng truyền thông xã hội trực tuyến Trong nội dụng luận văn, tác giả trình bày nghiên cứu mơ hình học sâu xử lý ngơn ngữ tự nhiên tốn khuyến nghị ứng dụng vào việc xây dựng mơ hình khuyến nghị tin tức Nội dung luận văn gồm có phần: • Chương 1: Trình bày kiến thức học máy, học sâu số phương pháp, kỹ thuật xử lý ngôn ngữ tự nhiên • Chương 2: Trình bày tốn khuyến nghị thuật tốn NRMS • Chương 3: Trình bày kết thực nghiệm mơ hình đề xuất liệu thu thập từ trang web tin tức thực tế Luận văn hoàn thành chương trình Thạc sĩ Khoa học ngành Tốn tin Viện Toán ứng dụng Tin học, Đại học Bách Khoa Hà Nội hướng dẫn TS Lê Chí Ngọc Mặc dù hoàn thành với nhiều cố gắng hạn chế thời gian kinh nghiệm, luận văn tránh khỏi sai sót Tác giả mong nhận ý kiến đóng góp q báu từ thầy bạn học viên để luận văn hoàn thiện CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1 Máy học Máy học [1] thuật ngữ khai sinh vào cuối năm 50 Arthur Samuel Nó lĩnh vực trí tuệ nhân tạo liên quan đến việc nghiên cứu xây dựng kĩ thuật cho phép hệ thống "học" tự động từ liệu để giải vấn đề cụ thể Ví dụ máy "học" cách phân loại thư điện tử xem có phải thư rác (spam) hay không tự động xếp thư vào thư mục tương ứng Học máy có liên quan lớn đến thống kê, hai lĩnh vực nghiên cứu việc phân tích liệu, khác với thống kê, học máy tập trung vào phức tạp giải thuật việc thực thi tính tốn Nhiều tốn suy luận xếp vào loại tốn NP-khó, phần học máy nghiên cứu phát triển giải thuật suy luận xấp xỉ mà xử lý Các thuật toán học máy thường chia thành ba loại dựa vào liệu học gồm có: học có giám sát (supervised learning), học không giám sát (unsupervised learning) học tăng cường (reinforcement learning) Học có giám sát Phương pháp học có giám sát đòi hỏi liệu huấn luyện phải gán nhãn Một loạt thuật toán máy học dựa phương pháp bao gồm: Hồi quy tuyến tính, Hồi quy logistic, Phân lớp Bayes (naive bayes), Cây định, K – láng giềng gần Máy vector hỗ trợ (support vector machine), Những phương pháp chủ yếu phương pháp hồi quy phân loại Nguyên tắc hoạt động thuật toán việc “học” ánh xạ sau: y = f (x) (1.1.1) Với đầu vào x xác định đầu y tương ứng Các thuật tốn tìm tối ưu hóa tham số ánh xạ cách giảm thiểu hàm chi phí đại diện cho tổng lỗi dự đoán hệ thống dựa vào tập liệu gán nhãn Học không giám sát Học không giám sát phương pháp tạo mơ hình có khả trích xuất cấu trúc liệu mà khơng cần gán nhãn Nhìn chung, với phương LUẬN VĂN THẠC SĨ ĐỒN NGỌC HỒNG • Tiếp theo lớp thứ hai sử dụng multi-head self-attention Khi biểu diễn tin tức tương tác từ đem lại nhiều thông tin quan trọng Một từ tương tác với nhiều từ tiêu đề Vì việc sử dụng multi-head self-attention để học cách biểu diễn ngữ cảnh từ thông qua tương tác chúng Biểu diễn từ wi học đầu attention thứ k tính bởi: exp eTi Qw k ej k αi,j = M m=1 exp eTi Qw k em , (2.2.1) M hw i,k = Vkw k αi,j ej , (2.2.2) j=1 w k đó, Qw k Vk tham số đầu self-attention thứ k, αi,j độ tương tác hai từ wi wj Biểu diễn multi-head hw i ghép w w w h đầu self-attention hw i = hi,1 ; hi,2 ; ; hi,h • Cuối lớp thứ sử dụng additive attention Với từ khác tin tức có mức độ quan trọng mặt ý nghĩa khác câu biểu diễn Vì vậy, lớp thứ lựa chọn từ quan trọng để học nhiều thông tin có ý nghĩa biểu diễn Trọng số αiw wi tiêu đề tính tốn theo cơng thức: T w aw i = qw (Vw × hi + vw ) , αiw = exp aw i M j=1 exp aw j , (2.2.3) (2.2.4) Vw vw tham số qw vecto truy vấn attention Cuối biểu diễn tin tức tính vecto biểu diễn từ với trọng số tương ứng M αiw hw i r= (2.2.5) i=1 2.2.2 Bộ mã hóa người dùng Bộ mã hóa người dùng sử dụng để biểu diễn người dùng thông qua tin tức mà người dùng đọc lịch sử Bộ mã hóa người dùng bao gồm hai lớp: • Lớp thứ sử dụng chế multi-head self-attention Tương tự mã hóa tin tức, lớp biểu diễn người dùng thông qua tin tức 27 LUẬN VĂN THẠC SĨ ĐỒN NGỌC HỒNG người dùng đọc Thơng thường tin tức đọc người dùng có liên quan định tới Trong tin tức tương tác với nhiều tin tức mà người dùng đọc Vì vậy, việc sử dụng chế multi-head self-attention mã hóa người dùng có mục đích nắm bắt liên quan tin tức với Biểu diễn tin tức thứ i học đầu attention thứ k tính bởi: exp rTi Qnk rj k βi,j = M m=1 exp rTi Qnk rm , (2.2.6) M hni,k = Vkn k βi,j rj , (2.2.7) j=1 k đó, Qnk Vkn tham số đầu self-attention thứ k, βi,j độ tương tác tin tức thứ i thứ j Biểu diễn multi-head hni ghép h đầu self-attention hni = hni,1 ; hni,2 ; ; hni,h • Lớp thứ hai tương tự với mã hóa tin tức, sử dụng chế additive attention Trong tin tức đọc người dùng tin tức có mức độ quan trọng khác biểu diễn ngời dùng Vì lớp lựa chọn chế additive attention để học thông tin từ tin tức quan trọng người dùng Khi trọng số tin tức thứ i tính bỏi: ani = qTn (Vn × hni + ) , exp ani αin = N j=1 exp anj , (2.2.8) (2.2.9) Vn , qn tham số attention, N số lượng tin tức đọc người dùng Cuối biểu diễn tin tức tính vecto biểu diễn tin tức với trọng số tương ứng N αin hni u= (2.2.10) i=1 2.2.3 Bộ dự đoán Bộ dự đoán sử dụng để dự đoán xác suất người dùng click vào tập tin tức hiển thị Ký hiệu biểu diễn tin tức ứng viên (candidate news) Dc rc Khi đó, xác suất click người dùng yˆ tính tích vơ hướng véc-tơ biểu diễn người dùng u véc-tơ biểu diễn tin tức rc : yˆ = uT rc 28 LUẬN VĂN THẠC SĨ 2.2.4 ĐOÀN NGỌC HỒNG Huấn luyện mơ hình Trong mơ hình NRMS, để huấn luyện mơ hình ta sử dụng kỹ thuật lấy mẫu âm tính (Negative Sampling).Với tin tức đọc người dùng, ta chọn ngẫu nhiên K tin tức hiển thị lúc với tập tin tức đọc mà không người dùng đọc gọi tập mẫu âm tính (negative samples) Sau thay đổi ngẫu nhiên thứ tự tin tức tập mẫu âm tính tránh trường hợp bị bias thứ tự Ký hiệu điểm xác suất người dùng quan tâm đến tin − tức K tin tức tập mẫu âm tính yˆ+ [ˆ y1− , yˆ2− , , yˆK ] Khí xác suất hậu nghiệm mẫu dương tính tính tốn cơng thức: pi = exp yî+ exp yî+ + K j=1 exp − yî,j , (2.2.11) Hàm mát mơ hình xác định: L=− log (pi ) (2.2.12) i∈S S tập mẫu dương tính Kết chương Như chương tác giả trình bày khái niệm, ứng dụng điện toán xã hội hệ thống khuyến nghị đồng thời sâu vào phân tích tốn khuyến nghị tin tức hệ thống khuyến nghị tin tức Tác giả trình bày ứng dụng mơ hình học sâu giải tốn khuyến nghị tin tức thơng qua mơ hình NRMS Trong luận văn này, tác giả sử dụng mơ hình NRMS để xây dựng mơ hình khuyến nghị tin tức với nguồn liệu từ trang web tin tức Kết mơ hình trình bày chương tiếp luận văn 29 CHƯƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 Tập liệu Dữ liệu sử dụng luận văn dùng để huấn luyện đánh giá mô hình liệu thu thập từ trang báo điện tử https://vnexpress.net Đây trang báo điện tử lớn Việt Nam, nhiều bạn đọc tin tưởng với 41 triệu độc giả tháng; 14,6 tỷ lượt truy cập năm truy cập qua phương tiện di động chiếm 58,74%, 41,26% cịn lại qua máy tính (số liệu năm 2020) Theo trang web Alexa – trang web uy tín việc thống kê thông tin lưu lượng truy cập website nay, VnExpress xếp hạng top trang web có lượng truy cập nhiều Việt Nam vào năm 2019 VnExpress cung cấp thông tin tin tức đa dạng từ nhiều lĩnh vực chủ đề khác Thời sự, Thế giới, Kinh doanh, Gia đình, Thể thao, Giáo dục, Pháp luật, Sức khỏe, Khoa học, Số hóa, Xe, Tâm sự, Cộng đồng, Ở tác giả sử dụng công cụ Apache Nutch Apache Solr để thực thu thập lưu trữ liệu từ trang vnexpress.net Hai công cụ hai công cụ mạnh việc thu thập liệu với ưu điểm dễ dàng cài đặt, triển khai, vận hành Apache Solr Apache Solr tảng máy tìm kiếm mã nguồn mở viết ngôn ngữ Java nằm dự án Apache Lucene Apache Solr công cụ mạnh mẽ với số tính bật như: tìm kiếm full-text, real-time indexing, dynamic clustering, database integration có khả tìm kiếm với nhiều kiểu liệu Trong luận văn tác giả sử dụng công cụ Apache Solr cho việc đánh mục cho URL thu thập từ Apache Nutch, từ phục vụ cho việc tìm kiếm liệu web Apache Nutch Apache Nutch phầm mềm WebCrawler mã nguồn mở sử dụng để thu thập liệu từ website Tính bật Nutch khả tích hợp mở rộng Nó cung cấp khả tích hợp cao với ứng dụng parsing, indexing 30 LUẬN VĂN THẠC SĨ ĐOÀN NGỌC HOÀNG Apache Tika, Apache Solr, Elastic Search Nutch chạy máy chạy mơi trường phân tán Apache Hadoop Apache Nutch dễ dàng tích hợp với Apache Solr để đánh mục cho tất trang web thu thập Từ ta sử dụng Solr để tìm kiếm trích xuất liệu web thơng qua câu truy vấn Hình 3.1: Hình ảnh hiển thị tin tức trang báo điện tử VnExpress Thu thập liệu Trang tin tức VnExpress có giao diện minh họa hình 3.1 Nhìn vào giao diện ta thấy số lượng tin tức hiển thị hình cịn tương đối khoảng 5-10 tin tức so với số lượng tin tức lên đến hàng trăm tin tức ngày đăng tải, người dùng muốn tìm kiếm tin tức mà quan tâm thường phải kéo xuống chuyển tới mục tin tức theo chủ đề để đọc Các tin tức bật ngày nhiều người đọc quan tâm ưu tiên đưa lên để hiển thị cho người đọc Tuy nhiên với cách hiển thị tồn nhược điểm thời điểm tất người dùng truy cập trang nhìn thấy nội dung giống nhau, nhu cầu đọc tin tức người dùng khác cho thấy tính cá nhân hóa trang tin tức chưa cao Chính việc 31 LUẬN VĂN THẠC SĨ ĐOÀN NGỌC HOÀNG xây dựng hệ thống khuyến nghị cho trang tin tức VnExpress giúp cải thiện trải nghiệm cho người dùng đáng kể đề xuất tin tức mà họ quan tâm mà không cần nhiều thời gian để tìm kiếm Có thể thấy hình ảnh hiển thị trang chủ báo điện tử VnExpress thơng tin mà người dùng đọc trước click vào viết để đọc nội dung tiêu đề phần tóm tắt nội dung viết Vì thử nghiệm luận văn hướng tới khuyến nghị tin tức cho người dùng dựa vào nội dung tiêu đề tóm tắt tin tức Hình 3.2: Ví dụ liệu thu thập lưu trữ công cụ Apache Nutch Apache Solr Như thấy hình 3.2 ta thấy thông tin tin tức thu tập từ trang báo điện tử vnexpress.vn bao gồm thông tin liên quan tới URL, tiêu đề (title), nội dung tin tức Sau thu thập nội dung tin tức trang VnExpress, cần phải xử lý nội dung tin tức để trích xuất phần tóm tắt nội dung tin tức Như thu thập, lưu trữ xử lý tin tức trang báo điện tử VnExpress thành công Xử lý liệu Tiếp theo thu thập liệu người dùng, tác giả hướng tới thu thập người dùng bình luận tin tức thu thập Khi người dùng bình luận viết chứng tỏ người dùng đọc quan tâm đến 32 LUẬN VĂN THẠC SĨ ĐỒN NGỌC HỒNG Hình 3.3: Khung bình luận viết trang báo điện tử VnExpress nội dung viết Vì vậy, thử nghiệm luận văn tác giả hướng đến khuyến nghị tin tức cho người dùng dựa nội dung tin tức mà người dùng bình luận trước Để thu thập liệu bình luận người dùng, tác giả truy vấn đến API vnexpress.net để thu bình luận người dùng viết dựa vào ID viết Số tin tức từ năm 2020 đến thu thập 34.646 tin tức chứa 876.861 bình luận 158.542 người dùng Tuy nhiên tỷ lệ người dùng thường xuyên bình luận viết thấp, tác giả thực lọc bỏ người dùng có số lượng bình luận nhỏ để mơ hình có khả khuyến nghị tốt Sau lọc bỏ người dùng có bình luận thu tập liệu 28.605 người dùng Dữ liệu tin tức thu thập lưu trữ theo định dạng sau: [N ewsID, Category, T itle, Abstract, U RL] Trong thơng tin tin tức bao gồm: • N ewsID: ID tin tức • Category : Thể loại tin tức • T itle: Tiêu đề tin tức • Abstract: Tóm tắt nội dung tin tức • U RL: Đường dẫn tin tức 33 LUẬN VĂN THẠC SĨ ĐỒN NGỌC HỒNG Thơng tin Nội dung N ewsID 4296375 Category Sức khỏe T itle Số ca Covid Abstract TP HCM hôm ghi nhận tổng cộng 149 ca Covid-19, số ca nhiễm theo ngày cao tính từ dịch xuất đầu năm 2020 đến U RL https://vnexpress.net/so-ca-covid-19-trong-ngay-o-tp-hcm-lap-ky-luc-moi-4296375.html Bảng 3.1: Ví dụ liệu tin tức lưu trữ Để xây dựng liệu, người dùng, tác giả tổng hợp lại tất tin tức mà người dùng bình luận, sau chia tập tin tức thành phần theo thời gian, phần để làm liệu lịch sử tin tức người dùng bình luận khứ, phần lại liệu tương lai, với tin tức tập liệu tương lai chọn làm mẫu Tiếp theo cần lấy thêm thông tin tin tức xuất với tin tức chọn mà người dùng khơng quan tâm Khi tác giả chọn ngẫu nhiên số tin tức tập tin tức ngày với tin tức chọn gán nhãn cho tin tức người dùng không quan tâm Khi mẫu chứa thơng tin tin tức mà người dùng bình luận khứ, tin tức người dùng quan tâm danh sách tin tức xuất mà người dùng không quan tâm Dữ liệu người dùng thu thập lưu trữ theo định dạng sau: [U serID, T ime, History, N ewsLog] Trong đó: • U serID: ID người dùng • T ime: Thời điểm người dùng bình luận tin tức • History : Danh sách N ewsID tin tức người dùng đọc lịch sử • N ewsLog : Danh sách N ewsID tin tức hiển thị cho người dùng kèm theo Label thể người dùng có quan tâm tới tin tức hay khơng Định dạng (N ewsID − Label) Label = người quan tâm đến tin tức, ngược lại Label = 34 LUẬN VĂN THẠC SĨ ĐOÀN NGỌC HỒNG Thơng tin Nội dung U serID 1048561507 T ime 2021/07/21 02:47:00 PM History 4254624 4259844 4266672 4269823 4273929 4278708 4285841 N ewsLog 4328343-0 4328163-0 4328493-0 4328330-0 4327766-0 4328436-0 4327248-0 4327036-0 4328165-0 4327908-0 4327994-0 4328047-0 4328528-0 4328229-0 4325870-0 4328481-1 Bảng 3.2: Ví dụ mẫu dùng để huấn luyện mơ hình Dựa vào phương pháp lấy mẫu tác giả thu 154.520 mẫu để đưa vào huấn luyện đánh giá mơ hình Dữ liệu chia làm tập: tập train, tập validation tập test Trong liệu tin tức tập test không trùng với liệu tập train tập validation Tập Số lượng mẫu Train 75.675 mẫu Validation 32.433 mẫu Test 46.412 mẫu Bảng 3.3: Số lượng mẫu tập liệu đưa vào huấn luyện đánh giá mơ hình 3.2 Phương pháp đánh giá Để đánh giá kết mơ hình ta sử dụng số AUC, MRR, NDCG@5 NDCG@10 AUC (Area Under The Curve) Giả sử mơ hình đưa khuyến nghị tin tức cho người dùng người quan tâm tới tin tức khuyến nghị coi đúng, ngược lại sai Khi ta có số T P (True Positive), F P (False Positive), T N (True Negative) F N (False Negative) mô tả bảng sau: Khuyến nghị Không khuyến nghị Quan tâm TP FN Không quan tâm FP TN • T P (True Positive) số lượng tin tức khuyến nghị • F P (False Positive) số lượng tin tức khuyến nghị sai • F N (False Negative) số lượng tin tức quan tâm không khuyến nghị 35 LUẬN VĂN THẠC SĨ ĐỒN NGỌC HỒNG Hình 3.4: Ví dụ đường cong ROC sổ AUC • T N (True Negative) số lượng tin tức không quan tâm khơng khuyến nghị • T P R (True Positive Rate) tỷ lệ khuyến nghị khuyến nghị đề xuất TPR = TP TP + FN • F P R (False Negative Rate) tỷ lệ khuyến nghị sai tổng số tin tức không quan tâm FPR = FP FP + TN • Đường ROC (Receiver Operating Characteristics): đường biểu diễn cặp giá trị (T P R, F P R) cho ngưỡng phân loại khác • AU C (Area Under the Curve): diện tích phần phía đường cong ROC minh họa hình 3.4 MRR (Mean Reciprocal Rank) Reciprocal Rank (RR) độ đo xem xét vị trí xếp hạng tin tức mà người dùng quan tâm trả MRR trung bình RR thơng qua nhiều truy vấn khác Hay toán MRR trung bình kết khuyến nghị xét qua nhiều người dùng 36 LUẬN VĂN THẠC SĨ ĐOÀN NGỌC HOÀNG M RR = |Q| Q i=1 Ranki đó, • |Q|: Tổng số người dùng khuyến nghị • Ranki : ví trí tin tức mà người dùng quan tâm danh sách trả NDCG (Normalized Discounted Cumulative Gain) DCG độ đo liên quan đến chất lượng xếp hạng DCG đo lường tính hữu ích tin tức dựa vị trí danh sách xếp hạng trả Tính hữu ích tích lũy từ đầu cuối danh sách xếp hạng trả Và giá trị trung bình DCG (tức NDCG) qua tất người dùng dùng để thể độ xác khuyến nghị Ở quan tâm Top-N kết trả người dùng có quan tâm hay khơng Vì vậy, NDCG@N dùng để đánh giá khả khuyến nghị mơ hình Với N số lượng tin tức danh sách xếp hạng khuyến nghị cho người dùng    G(1), i = DCG(i) =   DCG(i − 1) + G(i) , log(i) với i = Trong đó, i vị trí xếp hạng thứ i Ở G(i) = 1, kết khuyến nghị đúng, ngược lại G(i) = 3.3 Kết thực nghiệm Sau trình thu thập liệu từ trang báo điện tử VnExpress tiền xử lý liệu thu tập liệu mẫu để đưa vào huấn luyện mơ hình Tác giả sử dụng dịch vụ Google Colab để thực q trình huấn luyện mơ hình cho toán khuyến nghị tin tức (News Recommendation) với liệu Mơ hình đánh giá qua số độ đo nêu bao gồm: AUC, MRR, NDGC@5 NDGC@10 Đánh giá mơ hình Sau kết đánh giá mơ hình NRMS sau lần huấn luyện với tham số sau: Cơ chế multi-head self-attention với 20 đầu, đầu cho vecto 37 LUẬN VĂN THẠC SĨ ĐOÀN NGỌC HOÀNG 20 chiều, số chiều vecto truy vấn additive attention 200 lấy mẫu âm tính với hệ số K = STT AUC MRR NDCG@5 NDCG@10 0.7483 0.2677 0.2737 0.3261 0.7507 0.2699 0.2770 0.3292 0.7521 0.2712 0.2783 0.3304 0.7501 0.2671 0.2735 0.3258 0.7508 0.2678 0.2724 0.3271 Trung bình 0.7504 0.2687 0.2749 0.3277 Bảng 3.4: Kết đánh giá mơ hình NRMS Ưu điểm • Chất lượng khuyến nghị tương đối tốt tính tốn tập liệu thực khuyến nghị • Mơ hình khuyến nghị đơn giản, tốc độ khuyến nghị nhanh, phù hợp với hệ thống lớn yêu cầu cao tốc độ nhằm đáp ứng lượng lớn người dùng thời gian thực Nhược điểm Mơ hình NRMS xây dựng theo phương pháp tiếp cận dựa nội dung nên bên cạnh ưu điểm nêu mơ hình cịn tồn nhược điểm mà phương pháp tiếp cận dựa nội dung tồn sau: • Mơ hình chưa phù hợp với nhiều loại tin tức có kiểu liệu khác văn hình ảnh, video, âm thanh, • Mơ hình khơng thể khuyến nghị cho người dùng chưa có thơng tin tin tức lịch sử mà người dùng quan tâm, cần kết hợp thêm với thông tin xã hội khác người dùng sở thích, thói quen để phát triển thêm mơ hình khuyến nghị cho người dùng • Mơ hình khuyến nghị tin tức có độ tương tự cao với tin tức mà người dùng quan tâm, ngồi với viết có chủ đề nội dung hoàn toàn mà người dùng quan tâm mơ hình chưa có khả khuyến nghị tốt với nội dung 38 KẾT LUẬN Trong phạm vi nội dung luận văn, tác giả đạt kết sau: • Thực thu thập liệu từ trang tin tức điện tử để làm liệu thực nghiệm cho mơ hình • Tìm hiểu, nghiên cứu vấn đề liên quan tới điện toán xã hội (Social Computing) tốn khuyến nghị (Recommendation) • Phân tích áp dụng thử nghiệm mơ hình khuyến nghị tin tức NRMS vào liệu thực tế Từ kết ta triển khai tích hợp hệ thống khuyến nghị tin tức cho trang tin tức trực tuyến Việt Nam vnexpress.net, dantri.com.vn, tuoitre.vn, vietnamnet.vn, Từ giúp cho trang tin tức nâng cao trải nghiệm người dùng đọc thu hút nhiều lượt truy cập tương lai Tuy nhiên phạm vi thực luận văn hạn chế mặt tiếp cận liệu tác giả hi vọng phát triển thêm đề tài luận văn theo số hướng sau: • Tiếp cận thu thập liệu truy cập người dùng Từ đưa mơ hình khuyến nghị tin tức tổng qt có tính xác • Thử nghiệm số phương pháp, kỹ thuật mã hóa liệu khác giúp cải thiện tính xác mơ hình • Phát triển hệ thống khuyến nghị hồn chỉnh có khả tích hợp với hệ thống liệu trang tin tức trực tuyến 39 Tài liệu tham khảo [1] A L Samuel, “Some studies in machine learning using the game of checkers,” IBM Journal of Research and Development, vol 3, no 3, pp 210–229, 1959 [2] E Wilson and D W Tufts, “Multilayer perceptron design algorithm,” in Proceedings of IEEE Workshop on Neural Networks for Signal Processing, pp 61–68, 1994 [3] C Lemaréchal, “Cauchy and the gradient method,” in Documenta Mathematica, pp 251–254, 2012 [4] A Vaswani, N Shazeer, N Parmar, J Uszkoreit, L Jones, A N Gomez, L Kaiser, and I Polosukhin, “Attention is all you need,” CoRR, vol abs/1706.03762, 2017 [5] Y Zhang, R Jin, and Z.-H Zhou, “Understanding bag-of-words model: A statistical framework,” International Journal of Machine Learning and Cybernetics, vol 1, pp 43–52, 12 2010 [6] T Mikolov, I Sutskever, K Chen, G Corrado, and J Dean, “Distributed representations of words and phrases and their compositionality,” CoRR, vol abs/1310.4546, 2013 [7] R Lebret and R Collobert, “Word embeddings through hellinger PCA,” in Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, (Gothenburg, Sweden), pp 482–490, Association for Computational Linguistics, Apr 2014 [8] W M Kouw, “An introduction to domain adaptation and transfer learning,” CoRR, vol abs/1812.11806, 2018 [9] T Mikolov, K Chen, G Corrado, and J Dean, “Efficient estimation of word representations in vector space,” 2013 [10] J Pennington, R Socher, and C Manning, “GloVe: Global vectors for word representation,” in Proceedings of the 2014 Conference on Empirical Methods 40 LUẬN VĂN THẠC SĨ ĐOÀN NGỌC HOÀNG in Natural Language Processing (EMNLP), (Doha, Qatar), pp 1532–1543, Association for Computational Linguistics, Oct 2014 [11] P Bojanowski, E Grave, A Joulin, and T Mikolov, “Enriching word vectors with subword information,” Transactions of the Association for Computational Linguistics, vol 5, pp 135–146, 2017 [12] D Schuler, “Social computing,” Commun ACM, vol 37, p 28–29, jan 1994 [13] L Deng and Y Liu, Deep Learning in Natural Language Processing Springer Publishing Company, Incorporated, 1st ed., 2018 [14] H.-T Cheng, L Koc, J Harmsen, T Shaked, T Chandra, H Aradhye, G Anderson, G Corrado, W Chai, M Ispir, R Anil, Z Haque, L Hong, V Jain, X Liu, and H Shah, “Wide deep learning for recommender systems,” pp 7–10, 09 2016 [15] C Wu, F Wu, S Ge, T Qi, Y Huang, and X Xie, “Neural news recommendation with multi-head self-attention,” in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLPIJCNLP), (Hong Kong, China), pp 6389–6394, Association for Computational Linguistics, Nov 2019 41 ... ×d 1.3 Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên - National language processing nhánh trí tuệ nhân tạo tập trung vào ứng dụng ngôn ngữ người Trong trí tuệ nhân tạo xử lý ngôn ngữ tự nhiên. .. mơ hình học sâu xử lý ngôn ngữ tự nhiên tốn khuyến nghị ứng dụng vào việc xây dựng mơ hình khuyến nghị tin tức Nội dung luận văn gồm có phần: • Chương 1: Trình bày kiến thức học máy, học sâu. .. DỤNG MƠ HÌNH HỌC SÂU VÀO BÀI TỐN KHUYẾN NGHỊ TIN TỨC 2.1 Điện tốn xã hội toán khuyến nghị 2.1.1 Điện toán xã hội 2.1.2 Hệ thống khuyến nghị 2.1.3 Bài toán khuyến nghị tin

Tiêu đề	Mô Hình Học Sâu Trong Xử Lý Ngôn Ngữ Tự Nhiên Và Bài Toán Khuyến Nghị
Tác giả	Đoàn Ngọc Hoàng
Người hướng dẫn	TS. Lê Chí Ngọc
Trường học	Đại học Bách Khoa Hà Nội
Chuyên ngành	Toán Tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	44
Dung lượng	2,92 MB

Mô hình học sâu trong xử lý ngôn ngữ tự nhiên và bài toán khuyến nghị

Bài toán khuyến nghị tin tức

Mô hình khuyến nghị tin tức NRMS