Xây dựng hệ thống gợi ý sản phẩm dựa trên trích lọc đặc trưng

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA LƯU QUANG HUÂN XÂY DỰNG HỆ THỐNG GỢI Ý SẢN PHẨM DỰA TRÊN TRÍCH LỌC ĐẶC TRƯNG AN APPROACH OF THE RECOMMENDATION SYSTEM FOR VIETNAMESE TEXT Ngành: Khoa học Máy tính Mã số: 60480101 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2018 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hướng dẫn khoa học: TS LÊ THANH VÂN Cán chấm nhận xét 1: (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 2: (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp Hồ Chí Minh ngày tháng năm 2018 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH&KTMT ii ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: LƯU QUANG HUÂN MSHV: 1770474 Ngày, tháng, năm sinh: 25/04/1991 Nơi sinh: Gia Lai Ngành: Khoa học Máy tính Mã số: 60480101 I TÊN ĐỀ TÀI: Xây dựng hệ thống gợi ý sản phẩm dựa trích lọc đặc trưng II NHIỆM VỤ VÀ NỘI DUNG: Mục tiêu đề tài đề xuất mơ hình xây dựng hệ thống gợi ý văn có nội dung Tiếng Việt Từ văn thô viết Tiếng Việt, đề tài đề xuất phương pháp xử lý, rút trích đặc trưng có nghĩa cách tự động để phân loại, phân lớp văn vào thành tập liệu có tương đồng để gợi ý cho người dùng Theo đó, mục tiêu đề tài cụ thể thành nhiệm vụ cụ thể sau: - - Nghiên cứu, phân tích mơ hình xây dựng hệ thống gợi ý dựa nội dung để từ đề xuất mơ hình hệ thống gợi ý văn dựa cho người sử dụng Tìm hiểu, nghiên cứu, ứng dụng thực nghiệm phương pháp khai phá liệu, xử lý ngôn ngữ tự nhiên, phương pháp phân loại văn Tiếng Việt dựa máy học học sâu Đề xuất mơ hình ứng dụng học sâu để rút trích đặc trưng, phân loại văn Tiếng Việt, từ lựa chọn gợi ý cho người sử dụng Thực nghiệm, đánh giá mơ hình đề xuất, so sánh với phương pháp truyền thống III NGÀY GIAO NHIỆM VỤ: IV NGÀY HOÀN THÀNH NHIỆM VỤ: 17/06/2018 V CÁN BỘ HƯỚNG DẪN: TS LÊ THANH VÂN Tp HCM, ngày tháng năm 2018 CÁN BỘ HƯỚNG DẪN TRƯỞNG KHOA KH & KTMT (Họ tên chữ ký) (Họ tên chữ ký) iii LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác TP Hồ Chí Minh, ngày 18 tháng năm 2018 Lưu Quang Huân iv LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành đến TS Lê Thanh Vân, người tận tình hướng dẫn tơi hồn thành luận văn Tôi xin gửi lời cảm ơn đến PGS TS Huỳnh Tường Nguyên, PGS TS Quản Thành Thơ thầy cô Khoa Khoa học Kỹ thuật Máy tính tận tình giúp đỡ giảng dạy cho tơi suốt q trình học tập trường Tơi xin gửi lời cảm ơn đến gia đình bạn bè, người động viên giúp đỡ tơi q trình học tập v TĨM TẮT LUẬN VĂN Đề tài đề xuất mơ hình xây dựng hệ thống gợi ý giúp người dùng dễ dàng tiếp cận văn bản, tài liệu thể Tiếng Việt Nghiên cứu ứng dụng học sâu vào việc trích lọc đặc trưng có nghĩa để biểu diễn phân loại văn Tiếng Việt cách tự động Chúng đề xuất ứng dụng mơ hình hệ thống gợi ý dựa trên kiến trúc mạng Nơron Tích Chập để phân loại, lựa chọn gợi ý văn cho người dùng Chúng thử nghiệm đánh giá hiệu mơ hình đề xuất so với mơ hình truyền thống tập liệu báo Tiếng Việt vi ABSTRACT This thesis will propose a model of a Vietnamese text recommendation system Recently, word embedding have been exploited for text classification using convolutional neural networks architecture Based on the research of some modern content recommendation system, we constructed a method based on semantic word embedding, classifications and recommendations to the user This report discussed the details of our model with the experimental results on Vietnamese news dataset vii MỤC LỤC CHƯƠNG I PHÁT BIỂU VẤN ĐỀ 12 1.1 Động 12 1.2 Mục tiêu đề tài 12 1.3 Ý nghĩa đề tài 13 1.4 Phạm vi đề tài 13 1.5 Cấu trúc luận văn 13 CHƯƠNG II LÝ THUYẾT NỀN TẢNG 15 2.1 Hệ thống gợi ý 15 2.1.1 Hệ thống gợi ý dựa tương tác người dùng 15 2.1.2 Hệ thống gợi ý dựa nội dung 15 2.1.3 Vấn đề “cold start” 17 2.3 Phân loại văn 17 2.3.1 Bài toán phân lớp văn 17 2.3.2 Các phương pháp phân loại văn Tiếng Việt 18 2.4 Học sâu 18 2.4.1 Mạng Nơ-ron Tích Chập 19 2.4.2 Ứng dụng mạng Nơ-ron Tích Chập xử lý ngơn ngữ tự nhiên 20 2.4.3 Các Tham số mạng Nơ-ron Tích Chập 21 2.5 Nhúng từ 23 2.5.1 Word2Vec với CBOW 26 2.5.2 Word2Vec với Skip-Gram 27 CHƯƠNG III CÁC NGHIÊN CỨU LIÊN QUAN 29 3.1 Tổng thuật nghiên cứu hệ thống gợi ý dựa nội dung 29 3.2 Các phương pháp phân loại văn 32 3.2.1 Các nghiên cứu phân loại văn Tiếng Việt 32 viii 3.2.2 Các nghiên cứu xử lý ngôn ngữ tự nhiên với CNNs 32 CHƯƠNG IV GIẢI PHÁP ĐỀ NGHỊ 36 4.1 Mơ hình tổng quan hệ thống gợi ý đề xuất 36 4.2 Rút trích đặc trưng phân loại văn tiếng Việt 37 4.2.1 Tiền xử lý liệu Tiếng Việt 38 4.2.2 Rút trích đặc trưng phân loại văn với CNNs 39 4.2.3 Mơ hình tốn học việc rút trích đặc trưng văn 40 4.3 Lựa chọn gợi ý văn tiếng Việt 40 CHƯƠNG V THỰC NGHIỆM 43 5.1 Công tác chuẩn bị 43 5.1.1 Môi trường thực nghiệm 43 5.1.2 Dữ liệu thực nghiệm 43 5.1.3 Đặc điểm liệu kiểm thử: 44 5.2 Hiệu chỉnh tập liệu 45 5.2.1 Loại bỏ trùng lặp 45 5.2.2 Xử lý tập liệu 46 5.3 Phương pháp thực 46 5.3.1 Các kịch thực nghiệm 46 5.3.2 Phương pháp đánh giá 47 5.4 Kết thực nghiệm 47 5.4.1 Thử nghiệm số lượng lọc 47 5.4.2 Thử nghiệm phân loại chủ đề 48 5.4.3 Thử nghiệm phân loại 10 lớp 48 5.4.4 Thử nghiệm gợi ý văn 49 5.5 Phân tích kết huấn luyện phân loại văn 51 5.5.1 Đánh giá hiệu phân loại văn 51 5.5.2 So sánh với phương pháp truyền thống 52 5.5.3 Đánh giá hiệu rút trích đặc trưng 52 ix 5.5.4 Phân tích trình huấn luyện mạng Nơ-ron 53 CHƯƠNG VI KẾT LUẬN 54 6.1 Tổng kết 54 6.2 Định hướng phát triển 54 DANH MỤC TÀI LIỆU THAM KHẢO 55 PHỤ LỤC I: BẢNG THUẬT NGỮ ANH VIỆT 57 PHỤ LỤC II: LÝ LỊCH TRÍCH NGANG 58 x 7567 8000 6716 6667 7000 6000 5417 5276 5219 5000 6250 5298 4560 3788 3868 3884 4000 3159 3000 2096 2036 1820 2000 2898 2552 3080 2481 1000 ch in h h in vi _t _tr i_x a_ ho i i_s on g kh oa _h oc ki nh _d oa nh ph ap _lu at su c_ kh oe th e_ gi oi th e_ th ao va n_ ho a Dữ liệu huấn luyện Dữ liệu kiểm thử Hình 15: Biểu đồ tập liệu thực nghiệm 5.1.3 Đặc điểm liệu kiểm thử: - Số lượng tập liệu cho chủ đề khơng tương đồng, có chênh lệch lớn Ví dụ số lượng với chủ đề thể thao 5298 số lượng chủ đề khoa học 1820 - Phần lớn liệu biểu diễn theo trình tự: • • • • Tên báo Đoạn mở đầu viết Chú thích hình ảnh minh họa Đoạn viết - Qua đo đạc thực tế tập liệu, viết dài có 11.827 từ đơn, văn ngắn 51 từ đơn Đoạn mở đầu không 60 từ đơn, ngắn từ đơn Kiểm tra độ trùng lặp tập liệu kiểm thử, xác định lượng liệu trùng lặp: - Số báo tập liệu kiểm thử tồn tập liệu huấn luyện: 4.070/ 33.759 chiếm 12,06% tập liệu huấn luyện 44 - Số lượng liệu trùng lặp chủ đề viết: (bài viết d vừa nằm chủ đề c1 vừa nằm tập c2) 1.572/50.373 chiếm 3.12% tập liệu kiểm thử Các liệu thuộc hai nhiều chủ đề khác gây nhiễu cho mơ hình q trình huấn luyện, cần phải loại bỏ Và để việc đánh giá khách quan, liệu kiểm thử không thuộc tập liệu huấn luyện 5.2 Hiệu chỉnh tập liệu 5.2.1 Loại bỏ trùng lặp Chúng tiến hành loại bỏ liệu trùng lặp liệu Dữ liệu sau loại bỏ trùng lặp sau: 8000 7567 6716 6667 7000 6000 5000 4000 3000 2000 5417 5276 5219 6250 5298 4560 3788 3868 3884 3159 2096 2552 20361820 3080 2898 2481 1000 ch in h h in vi _t _tr i_x a_ ho i i_s on g kh oa _h oc ki nh _d oa nh ph ap _lu at su c_ kh oe th e_ gi oi th e_ th ao va n_ ho a Dữ liệu huấn luyện Dữ liệu kiểm thử Hình 16: Biểu đồ liệu thực nghiệm sau loại bỏ trùng lặp 45 5.2.2 Xử lý tập liệu Để xử lý tập văn dài, với nhận định đoạn viết chứa thơng tin Việc phân tích đoạn mở đầu đơi xác định nội dung chủ đạo phân loại văn Thực vậy, thông thường, đoạn mở đầu báo, viết chứa đựng từ, cụm từ đại diện cho viết chúng thể thông tin tổng quát cho viết Như nhận định Lương cộng “Better Word Representations with Recursive Neural Networks for Morphology” [23] “Việc sử dụng từ đại diện mô tả tổng quát trở thành kỹ thuật cho thành công nhiều hệ thống NLP năm gần Đặc biệt tác vụ bao gồm nhận dạng thực thể, ghi nhãn phần, ghi nhãn vai trò ngữ nghĩa phân loại văn bản” Do đó, thay lấy tồn viết dài, sau loại bỏ số, dấu câu ký tự đặc biệt, tiến hành lấy tối đa 100 từ để đưa vào tập liệu huấn luyện (tương ứng với đoạn mở đầu báo) Đây phương pháp thực theo ý tưởng nêu báo [28] 5.3 Phương pháp thực 5.3.1 Các kịch thực nghiệm - Để thử nghiệm khả nhận biết tương quan từ, nhận biết từ ghép khả trích lọc tự thích ứng để loại bỏ nhiễu mạng, tiến hành dạng thử nghiệm trên: • Tập liệu rút ngắn (99 từ) lọc bỏ số, ký tự đặc biệt • Thử nghiệm với liệu xử lý loại bỏ từ dừng, từ gây nhiễu tập 2000 từ khác tổng hợp từ cơng trình nghiên cứu xử lý phân tích văn Tiếng Việt đề xuất… - Thử nghiệm khả phân lớp lớp nhiều lớp văn bản, thử nghiệm chủ đề có số lượng liệu tương đương “Chính trị xã hội” “Thể thao” (khoảng 5000 văn bản), hai chủ đề dự đốn có đặc trưng khác biệt Sau tiến hành thử nghiệm phân lớp cho 10 lớp văn - Thử nghiệm khả học mạng Nơ-ron số lượng tập liệu huấn luyện: Chúng tiến hành huấn luyện phần (20%) lượng liệu sau đo đạc độ xác việc phân loại sau huấn luyện 100% 46 tập liệu đo đạc độ xác 5.3.2 Phương pháp đánh giá Chúng sử dụng độ xác (Precision) với tập tài liệu tính số tài liệu phân lớp tổng số tài liệu kiểm thử Ngồi ra, chúng tơi thực phân tích biểu đồ độ xác trình huấn luyện 5.4 Kết thực nghiệm 5.4.1 Thử nghiệm số lượng lọc Để thử nghiệm chất lượng phân lớp hệ thống dựa kích thước lọc, tiến hành thử nghiệm phân lớp chủ đề có số lượng liệu lớn “Chính trị xã hội” “Thể thao” Kích thước tâp liệu huấn luyện liệu kiểm thử sau: Chính trị xã hội Thể thao Bộ liệu huấn luyện 5219 5298 Bộ liệu kiểm thử 7567 6667 Số lượt lọc kết thể biểu đồ sau: Hình 17: Biểu đồ kết phân loại dựa kích thước lọc 47 Dữ liệu thực nghiệm cho thấy kết độ xác cao kích thước lọc [3,4,5,6] [2,3,4,5]; với nhóm kích thước lọc, kết lọc [2,3,4] tốt (hơn lọc kích thước [1,2,3,4]) 5.4.2 Thử nghiệm phân loại chủ đề Chọn chủ đề có số lượng liệu lớn “Chính trị xã hội” “Thể thao” xây dựng hai kịch thử nghiệm sau: - Kịch (2Class999NotSeg): Với tỗi tập huấn luyện (trong chủ đề) lấy ngẫu nhiên 999 tập văn để huấn luyện 99 tập văn để kiểm thử Các liệu xử lý loại bỏ số, dấu ký tự đặc biệt, không tách từ loại bỏ từ vô nghĩađể thử nghiệm việc nhận diện từ ghép đặc trưng văn - Kịch (2Class999Seg): Tương tự với kịch thứ số lượng mẫu, nhiên, tiến hành xử lý việc tách từ sử dụng thư viện ViTokenizer loại bỏ từ dừng - Kịch (2ClassAllNotSeg): tương tự kịch thứ thực 100% liệu chủ đề - Kịch (2ClassAllSeg): Tương tự kịch 3, tiến hành thực nghiệm toàn liệu chủ đề “Chính trị xã hội” “Thể thao”, liệu huấn luyện kiểm thử tiến hành xử lý việc tách từ sử dụng thư viện ViTokenizer loại bỏ Stopword Kế cụ thể thể bảng sau: Độ xác 2Class999NotSeg 2Class999Seg 2ClassAllNotSeg 2ClassAllSeg 93,24% 95,7% 99,06% 99,34% 5.4.3 Thử nghiệm phân loại 10 lớp Chúng tiến hành thử nghiệm việc phân lớp 10 chủ đề, với dạng thử nghiệm để đánh giá độ nhận diện từ nhiễu, từ ghép Tiếng Việt, tiến hành kịch thử nghiệm: - Kịch (10Class999NotSeg): Với tỗi tập huấn luyện lấy ngẫu nhiên 999 tập văn để huấn luyện 999 tập văn để kiểm thử Các liệu xử lý loại bỏ số, dấu ký tự đặc biệt, không tách từ loại bỏ từ vô nghĩađể thử nghiệm việc nhận diện từ ghép 48 đặc trưng văn - Kịch (10Class999Seg): Tương tự với kịch thứ số lượng mẫu, nhiên, tiến hành xử lý việc tách từ sử dụng thư viện ViTokenizer loại bỏ Stopword - Kịch (10ClassAllNotSeg): Tương tự kịch thứ nhất, số lượng mẫu 100% tập liệu - Kịch (10ClassAllSeg): Tương tự kịch 3, chúng tơi tiến hành thực nghiệm tồn liệu chủ đề “Chính trị xã hội” “Thể thao”, liệu huấn luyện kiểm thử tiến hành xử lý việc tách từ sử dụng thư viện ViTokenizer loại bỏ Stopword Kế cụ thể thể bảng sau: 10Class999NotSeg 10Class999Seg 81,46% 82,12% Độ xác 10ClassAllNotSeg 10ClassAllSeg 83,56% 84,91% 5.4.4 Thử nghiệm gợi ý văn Dựa mơ hình huấn luyện 10 lớp toàn tập liệu trên, tiến hành thử nghiệm kết gợi ý Việc đánh giá hệ thống gợi ý thường thực dựa hiệu hệ thống thương mại điện tử trang mạng xã hội Cụ thể dựa doanh số bán hàng, độ hài lòng người dùng, số lượt click chuột xem sản phẩm… Trong luận văn này, yếu tố tương tác người dùng hạn chế Và yếu tố xây dựng ứng dụng khơng phải mục tiêu đề tài Do đó, chúng tơi tiến hành thử nghiệm lựa chọn văn để gợi ý văn chủ đề với văn xét văn Trong trình thực, nhãn chủ đề tài liệu gán theo thứ tự sau Chinh_ tri_Xa _hoi Doi_song Khoa_hoc Kinh_doanh Phap_luat Suc_khoe The_gioi The_thao Van_hoa Vi_tinh 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 Chúng tiến hành lấy số viết báo Vnexpress với chủ đề 49 khác để thử nghiệm việc phân loại gợi ý v Thử nghiệm với viết: "Hà Nội tháo dỡ cung điện thờ thiên xây trái phép" báo Vnexpress.net Mơ hình nhận diện viết thuộc vào văn có nhãn “Phap_luat”, viết (trong tập liệu huấn luyện) thuộc nhãn đưa gợi ý Bao gồm: - Hà nội triệt phá ổ cờ bạc lớn - Bắt tạm giam nguyên giám đốc công ty xổ số Nghệ An - TP Hồ Chí Minh đột nhập kiểm tra quán Karaoke minh Thy - Tuyên án tử hình Dũng chim xanh - Hồ Việt Sử đàn em lãnh án tù v Thử nghiệm với viết: “Rooney: Messi cầu thủ hay lịch sử” Mơ hình nhận diện viết thuộc lớp có nhãn “The_thao” Tương ứng, tập văn thuộc nhãn thể thao gần gợi ý cho người dùng: - Joe Cole giúp Chelsea hạ Liverpool Anfield - Walter samuel: Real madrid địa ngục với cầu thủ trị giá triệu đô - Shevchenko nhận danh hiệu anh hùng bóng vàng Châu Âu - Carlos Tevez cầu thủ hay Nam Mỹ - Newcastle mạnh để củng cố hàng thủ CLB chủ sân ST James Park Tiếp tục thử nghiệm với số viết khác lấy báo Vnexpress, kết thể bảng sau: Bài viết Chủ đề Vnexpress minh vương nsnd hay khơng, tơi ln hết Giải trí lịng với khán giả dù ba lần trượt danh hiệu nhà nước nsưt hạnh phúc tình cảm khán giả sống giản dị bên vợ 50 Chủ đề mơ hình nhận diện Van_hoa nhũ đá hang động tạo nên nhờ sinh vật Khoa học tảo theo học thuyết kiến tạo sinh vật tảo loài xuất sớm trái đất Khoa_học người đàn ông trung quốc gần triệu Thế giới usd cho vé số vào máy giặt ơng tơn trúng giải sau 10 năm chơi xổ số vé lại bị nghiền nát máy giặt The_gioi Người Thủ Thiêm náo loạn ông Nguyễn Chính trị Thiện Nhân đến thăm Chinh_tri_Xa_hoi Ơng Nguyễn Thành Phong làm tổ trưởng giải Chính trị khiếu nại Thủ Thiêm Chinh_tri_Xa_hoi Hàng loạt công ty sản xuất xe bay, gần chục Kinh doanh công ty giới chạy đua phát triển xe bay phương tiện cá nhân tiềm tương lai Kinh_doanh Trực quan cho ta thấy tập gợi ý phù hợp với chủ đề mà tập liệu xét Mặc dù tập liệu huấn luyện cũ, nhiên, thử nghiệm với báo thời báo Vnexpress.net, kết phân loại gợi ý tốt 5.5 Phân tích kết huấn luyện phân loại văn 5.5.1 Đánh giá hiệu phân loại văn Với kết thực nghiệm phân lớp lớp 10 lớp liệu thấy việc phân lớp lớp có hiệu tốt (độ xác tốt 99,29%) so với thực phân loại cho nhiều chủ đề Kết xuất phát từ lý do: - Việc thực lớp phân loại sử dụng hàm Softmax, lấy giá trị xác suất cao để xác định chủ đề bỏ qua giá trị khác Trong thực tế, có văn thuộc nhiều chủ đề khác Vì đặc điểm tập liệu thực nghiệm văn thuộc chủ đề nên việc đánh giá chưa hoàn toàn thỏa đáng 51 - Với hai tập liệu có chủ đề “Chính trị xã hội” “Thể thao” ln có từ, cụm từ đặc trưng định, khác biệt (ví dụ: phủ, nhà nước, ban hành, đổi tuyển, quần vợt…) Do đó, việc phân lớp hai lớp “dễ dàng” với mạng Nơ-ron 5.5.2 So sánh với phương pháp truyền thống Chúng tiến hành so sánh kết phân loại so với phương pháp phân loại văn tự động dựa máy học (SVM) nghiên cứu Nguyễn Linh Giang, Nguyễn Mạnh Hiển, “Classification of Vietnamese Documents Using Support Vector Machine” Cũng với tập liệu trên, chúng tơi tiến hành thực đo đạc độ xác, kết so sánh bảng sau 10 lớp lớp Số lượng liệu huấn luyện 20% (999 tệp/ chủ đề) 100% 20% (999 tệp/ chủ đề) 100% SVM 88,173% 94,91% 61,16% 84,13 % CNNs 95,7% 99,29 % 82,12% 84,45 % Kết cho thấy hiệu phân loại văn mơ hình CNNs tốt nhiều so với mơ hình máy học vector 5.5.3 Đánh giá hiệu rút trích đặc trưng Dựa vào nghiên cứu xử lý Tiếng Việt công bố, đề xuất việc tách từ loại bỏ từ dừng, từ nhiễu thường xuất câu mà không mang nhiều ý nghĩa Việc mang lại nhiều lợi ích định Đó loại bỏ bớt từ ngữ thừa làm cho giá trị cần xử lý mạng Nơ-ron giảm xuống Dữ liệu đầu vào ngắn hơn, với giá trị lọc số lớp ẩn cần tính tốn giảm xuống, thời gian, khơng gian tính tốn giảm Khi thực với tập liệu huấn luyện không đủ lớn, mạng Nơ-ron nhiều thời gian để nhận diện giá trị nhiễu nhận diện từ ghép qua tương quan từ cạnh Nếu liệu huấn luyện đủ lớn, 52 khơng cần thiết phải “chỉ” cho mạng Nơ-ron từ ghép (thông qua việc tách từ” Và với ngữ cảnh văn phong khác nhau, việc tách từ thực theo nhiều cách Ví dụ “bảo lãnh chứng khốn” tách thành “bảo lãnh”, “bằng chứng” “chứng khoán” “bảo”, “lãnh bằng”, “chứng khoán” tùy thuộc vào ngữ cảnh (các từ trước sau) Do đó, việc mạng Nơ-ron tự học để xác định tương quan từ tốt 5.5.4 Phân tích trình huấn luyện mạng Nơ-ron Dưới biểu đồ độ xác thực nghiệm phân loại lớp liệu Trong đường màu xanh cho liệu huấn luyện, đường màu cam cho liệu hiệu chỉnh (dev/validation) Hình 18: Biểu đồ độ xác - Biểu đồ số liệu huấn luyện chúng tơi khơng “mượt” số lượng liệu huấn luyện cịn nhỏ - Độ xác liệu huấn luyện độ xác việc hiệu chỉnh (validation) tương đồng, tham số mạng ổn định (90% tranning data, 10% dev/validation) Biểu đồ từ TensorFlow 53 CHƯƠNG VI KẾT LUẬN 6.1 Tổng kết Trong đề tài này, giải mục tiêu đề nghiên cứu, phân tích mơ hình xây dựng hệ thống gợi ý dựa nội dung để từ đề xuất mơ hình hệ thống gợi ý văn Đề tài giải vấn đề mấu chốt, lựa chọn đề xuất cho người dùng văn chủ đề với văn mà người dùng xem Xét mặt khoa học, đề tài ứng dụng mơ hình học sâu phân loại văn để trích lọc tự động đặc trưng để phân loại chủ đề gợi ý cho người sử dụng Với kết phân loại văn tốt tập liệu tiếng Việt, thực nghiệm chứng minh mơ hình hiệu việc trích lọc đặc trưng phân loại, lựa chọn gợi ý văn cho người sử dụng Ngoài ra, giới hạn đề tài, việc đánh giá hệ thống gợi ý cần dựa nhiều yếu tố, như: doanh số bán hàng, độ hài lòng người dùng, số lượt click chuột xem sản phẩm… Việc đánh giá đòi hỏi nhiều thời gian nhân lực Trong giới hạn thực đề tài, thực nghiệm dừng việc đánh giá hiệu rút trích đặc trưng phân loại văn cho người sử dụng 6.2 Định hướng phát triển Với tác vụ phân loại nhị phân, thực nghiệm chứng minh độ xác lên đến 99,29% Phù hợp với nhiều nhiệm vụ phân lớp văn tự động như phát spam email, phân tích ý kiến phản hồi người dùng để chấm điểm xếp hạng mục tin Tác vụ ứng dụng rộng rãi hệ thống gợi ý cho nhiều lĩnh vực, dạng sản phẩm không riêng văn Việc phân loại đa chủ đề mang lại kết định, tảng sở việc xây dựng hệ thống gợi ý cho trang mạng xã hội, trang chia sẻ tài liệu trực tuyến Tùy vào mục đích cụ thể ứng dụng, việc xây dựng hệ thống gợi ý cần tập trung vào phân tích hồ sơ người dùng, tương tác người dùng phản hồi tiềm ẩn người dùng văn 54 DANH MỤC TÀI LIỆU THAM KHẢO [1] A S Das et al., ‘Google news personalization’, in Proceedings of the 16th international conference on World Wide Web - WWW ’07, 2007 [2] B Sarwar et al., ‘Item-based collaborative filtering recommendation algorithms’, in Proceedings of the tenth international conference on World Wide Web - WWW ’01, 2001 [3] D Zeng et al., ‘Relation classification via convolutional deep neural network’, in Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, 2014, pp 2335–2344 [4] H Sobhanam and A K Mariappan, ‘Addressing cold start problem in recommender systems using association rules and clustering technique’, in 2013 International Conference on Computer Communication and Informatics, 2013 [5] J B Schafer et al., ‘Recommender systems in e-commerce’, in Proceedings of the 1st ACM conference on Electronic commerce - EC ’99, 1999 [6] J Gao et al., ‘Modeling Interestingness with Deep Neural Networks’, in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Doha, Qatar, 2014, pp 2–13 [7] J Liu et al., ‘Personalized news recommendation based on click behavior’, in Proceedings of the 15th international conference on Intelligent user interfaces - IUI ’10, 2010 [8] J Weston et al., ‘# tagspace: Semantic embeddings from hashtags’, in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, pp 1822–1827 [9] J Yuan et al., ‘Solving cold-start problem in large-scale recommendation engines: A deep learning approach’, in 2016 IEEE International Conference on Big Data (Big Data), 2016 [10] L Li et al., ‘A contextual-bandit approach to personalized news article recommendation’, in Proceedings of the 19th international conference on World wide web - WWW ’10, 2010 [11] L T Nguyen et al., ‘Vietnamese plagiarism detection method’, in Proceedings of the Seventh Symposium on Information and Communication Technology - SoICT ’16, 2016 [12] M Jones, (2013, ), Recommender systems, Part Introduction to approaches and algorithms, IBM® developerWorks [13] N Kalchbrenner et al., ‘A Convolutional Neural Network for Modelling Sentences’, in Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2014 [14] N L Giang and N M Hiển, ‘Phân loại văn Tiếng Việt với phân loại vectơ hỗ trợ SVM’, Tạp chí CNTT&TT, Tháng, vol 6, 2006 [15] N T Nghe, ‘Chương Hệ thống gợi ý: Kỹ thuật ứng dụng’, in Hệ quản trị sở liệu., Nhà xuất Đại học Cần Thơ, 2014 [16] P Lops et al., ‘Content-based Recommender Systems: State of the Art and Trends’, in Recommender Systems Handbook, 2010, pp 73–105 [17] P Resnick and H R Varian, ‘Recommender Systems’, Commun ACM, vol 40, no 3, pp 56–58, Mar 1997 [18] P Wang et al., ‘Semantic clustering and convolutional neural network for short text categorization’, in Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers), 2015, vol 2, pp 352–357 [19] R Johnson and T Zhang, ‘Effective Use of Word Order for Text Categorization with Convolutional Neural Networks’, arXiv [cs.CL], Dec 01, 2014 [20] R Johnson and T Zhang, ‘Semi-supervised Convolutional Neural Networks for Text Categorization via Region Embedding’, Adv Neural Inf Process Syst., vol 28, pp 919–927, Dec 2015 [21] Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R (2014) Dropout: A simple way to prevent neural networks from overfitting The Journal of Machine Learning Research, 15(1), 1929-1958 55 [22] T H Nguyen and R Grishman, ‘Relation extraction: Perspective from convolutional neural networks’, in Proceedings of the 1st Workshop on Vector Space Modeling for Natural Language Processing, 2015, pp 39–48 [23] T Luong et al., ‘Better word representations with recursive neural networks for morphology’, in Proceedings of the Seventeenth Conference on Computational Natural Language Learning, 2013, pp 104–113 [24] T Mikolov et al., ‘Efficient Estimation of Word Representations in Vector Space’, arXiv [cs.CL], Jan 16, 2013 [25] T N Phúc, ‘Phân loại nội dung tài liệu web tiếng việt’, Khoa Hoc Va Cong Nghe, vol 51, no 6, p 669, 2018 [26] V C D Hoang et al., ‘A Comparative Study on Vietnamese Text Classification Methods’, in 2007 IEEE International Conference on Research, Innovation and Vision for the Future, 2007 [27] V Phung and L De Vine, ‘A Study on the Use of Word Embeddings and PageRank for Vietnamese Text Summarization’, in Proceedings of the 20th Australasian Document Computing Symposium on ZZZ - ADCS ’15, 2015 [28] Y Bengio et al., ‘Representation learning: a review and new perspectives’, IEEE Trans Pattern Anal Mach Intell., vol 35, no 8, pp 1798–1828, Aug 2013 [29] Y Kim, ‘Convolutional Neural Networks for Sentence Classification’, in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014 [30] Y Shen et al., ‘A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval’, in Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management, Shanghai, China, 2014, pp 101–110 [31] Y Sun et al., ‘Modeling Mention, Context and Entity with Neural Networks for Entity Disambiguation’, IJCAI , 2015 [32] Y Zhang and B Wallace, ‘A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification’, arXiv [cs.CL], Oct 13, 2015 56 PHỤ LỤC I: BẢNG THUẬT NGỮ ANH VIỆT STT Tiếng Anh Tiếng Việt Deep learning Học sâu Artificial Neural Network Mạng Nơ-ron nhân tạo ANN Convolutional Neural Network Mạng Nơ-ron Tích Chập CNNs Filter Bộ lọc Pooling Tổng hợp Narow convolution Tích chập hẹp Wide convolution Tích chập rộng Stride Size Bước trượt Word Embedding Nhúng từ 10 Sensitivity Analysis Phân tích ý kiến 11 Stop word Từ dừng 12 Recommendation system Hệ thống gợi ý 57 Viết tắt PHỤ LỤC II: LÝ LỊCH TRÍCH NGANG Họ tên: Lưu Quang Huân Ngày, tháng, năm sinh: 25/04/1991 Nơi sinh: TP Pleiku – Tỉnh Gia Lai Địa liên lạc: 1534/13 Lê Văn Lương, Nhơn Đức, Nhà Bè, TP Hồ Chí Minh Q TRÌNH ĐÀO TẠO 2008 – 2013: SV Ngành Khoa Khoa học Máy tính, ĐH Bách Khoa TP Hồ Chí Minh 2013 – 2015: HVCH Ngành Khoa học Máy tính, ĐH Bách Khoa TP Hồ Chí Minh 2017 – 2018: HVCH Ngành Khoa học Máy tính, ĐH Bách Khoa TP Hồ Chí Minh Q TRÌNH CƠNG TÁC 2012 – 2013: Lập trình viên, Cơng ty TNHH Lưỡng Tồn Rạng Công - LogiGear Vietnam 2013 – Nay: Cán bộ, Bộ Công An 58 ... động sản phẩm Sự khác biệt hệ thống gợi ý dựa tương tác người dùng hệ thống gợi ý dựa nội dung hệ thống gợi ý dựa tương tác người dùng quan tâm đến hoạt động nhóm người dùng để gợi ý sản phẩm. .. hệ thống lọc tập sản phẩm phù hợp để người mua dễ dàng chọn lựa Cách phân loại hệ thống gợi ý dựa phương pháp tiếp cận để chọn tập sản phẩm để gợi ý cho người dùng [15] 2.1.1 Hệ thống gợi ý dựa. .. số: 60480101 I TÊN ĐỀ TÀI: Xây dựng hệ thống gợi ý sản phẩm dựa trích lọc đặc trưng II NHIỆM VỤ VÀ NỘI DUNG: Mục tiêu đề tài đề xuất mơ hình xây dựng hệ thống gợi ý văn có nội dung Tiếng Việt

Định dạng
Số trang	58
Dung lượng	2,82 MB