Nghiên cứu giải pháp tư vấn lai sử dụng đồng huấn luyệnNghiên cứu giải pháp tư vấn lai sử dụng đồng huấn luyệnNghiên cứu giải pháp tư vấn lai sử dụng đồng huấn luyệnNghiên cứu giải pháp tư vấn lai sử dụng đồng huấn luyệnNghiên cứu giải pháp tư vấn lai sử dụng đồng huấn luyệnNghiên cứu giải pháp tư vấn lai sử dụng đồng huấn luyệnNghiên cứu giải pháp tư vấn lai sử dụng đồng huấn luyệnNghiên cứu giải pháp tư vấn lai sử dụng đồng huấn luyện
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG HỌ VÀ TÊN TÁC GIẢ LUẬN VĂN NGUYỄN ĐỖ HẢI CHUYÊN NGÀNH NGHIÊN CỨU GIẢI PHÁP TƢ VẤN LAI SỬ DỤNG ĐỒNG HUẤN LUYỆN LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) 20 – 20 TÊN THÀNH PHỐ NĂM HÀ NỘI - 2016 i HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG - NGUYỄN ĐỖ HẢI NGHIÊN CỨU GIẢI PHÁP TƢ VẤN LAI SỬ DỤNG ĐỒNG HUẤN LUYỆN Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƢỜI HƢỚNG DẪN KHOA HỌC : PGS TS TỪ MINH PHƢƠNG HÀ NỘI - 2016 i LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chƣa đƣợc công bố công trình khác Tác giả luận văn NGUYỄN ĐỖ HẢI ii LỜI CẢM ƠN Để hoàn thành đƣợc luận văn này, em xin chân thành cảm ơn thầy cô khoa Công nghê thông tin – Học viện Công nghệ Bƣu Viễn thông tận tình dạy bảo, truyền thụ kiến thức cho em suốt thời gian học tập, nghiên cứu Nhà trƣờng Em xin gửi lời cảm ơn chân thành tời thầy Từ Minh Phƣơng thầy Ngô Xuân Bách, ngƣời trực tiếp hƣớng dẫn bảo tận tình em trình làm đồ án Em đặc biệt cảm ơn thầy truyền đạt cho em nhiều kiến thức kinh nghiệm trình làm đồ án Em xin cảm ơn thầy tạo cho em điều kiện làm đồ án tốt Bên cạnh đó, em vô cảm ơn công ty FPT Software cho em môi trƣờng làm việc hiệu sở vật chất đầy đủ để em hoàn thành đồ án cách thuận lợi Cuối cùng, em vô cảm ơn tất thành viên gia đình, tất bạn bè, ngƣời cho em động viên nhiệt tình trình làm đồ án iii MỤC LỤC MỞ ĐẦU .1 CHƢƠNG - GIỚI THIỆU 1.1 Hệ t ốn tƣ vấn 1.1.1 Mục đích 1.1.2 Các thành phần .6 1.1.3 Một số tác vụ hệ thống tư vấn 1.2 Một số p ƣơn p áp tƣ vấn p át triển 1.2.1 Phương pháp tư vấn dựa lọc cộng tác 1.2.2 Phương pháp tư vấn dựa nội dung 15 1.2.3 Phương pháp tư vấn dựa thông tin cá nhân 20 1.2.4 Phương pháp tư vấn lai 21 1.3 Kết luận c ƣơn 22 CHƢƠNG - GIẢI PHÁP TƢ VẤN LAI SỬ DỤNG ĐỒNG HUẤN LUYỆN 24 2.1 P ƣơn p áp đồng huấn luyện 25 2.1.1 Tổng quan phương pháp đồng huấn luyện .25 2.1.2 Một số ứng dụng phương pháp đồng huấn luyện 27 2.2 Đề xuất giải p áp tƣ vấn lai sử dụn đồng huấn luyện 29 2.2.1 Mô tả toán .29 2.2.2 Giải pháp tổng thể 30 2.2.3 Một số phương pháp tính độ tin cậy .31 2.3 Xây dựng giải p áp tƣ vấn 33 2.3.1 Xây dựng hồi quy .33 2.3.2 Đồng huấn luyện 38 2.3.3 Tổng hợp kết 45 2.4 Kết luận c ƣơn 46 CHƢƠNG - THỰC NGHIỆM VÀ ĐÁNH GIÁ .49 3.1 Mô tả iệu 49 iv 3.1.1 Mô tả liệu MovieLens 49 3.1.2 Thu thập thông tin bổ sung phim 50 3.2 P ƣơn p áp t nghiệm 51 3.2.1 Phân chia liệu 51 3.2.2 Xây dựng mô hình hồi quy lọc cộng tác .52 3.2.3 Xây dựng mô hình hồi quy dựa nội dung 54 3.2.4 Đồng huấn luyện 55 3.2.5 Tổng hợp kết 57 3.3 Kết v đán iá 57 3.3.1 Các số đánh giá 57 3.3.2 Kết thực nghiệm .58 3.3.3 Nhận xét phân tích kết .61 3.4 Kết luận c ƣơn 63 KẾT LUẬN 65 TÀI LIỆU THAM KHẢO 67 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt API Application Programming Interface Thƣ viện lập trình ứng dụng CONFINE CONFidence estimation based on the Neighbors’ Errors Ƣớc lƣợng độ tin cậy dựa sai số hàng xóm CONFIVE CONFidence estimation based on the Variance in the Envỉonment Ƣớc lƣợng độ tin cậy dựa biến thiên môi trƣờng MAE Mean Absolute Error Sai số tuyệt đối trung bình RMSE Root Mean Square Error Sai số bình phƣơng trung bình SVM Support Vector Machine Máy vector tựa vi DANH SÁCH BẢNG Bảng 1.1 - Dữ liệu có cấu trúc phim IMDB 16 Bảng 1.2 - Bảng phân loại phƣơng pháp lai .21 Bảng 3.1 - Thống kê liệu MovieLens 100k .49 Bảng 3.2 - Các tham số OMDb API 51 Bảng 3.3 - Số lƣợng đánh giá hai liệu huấn luyện kiểm thử 52 Bảng 3.4 - Bảng tham số cho trình đồng huấn luyện 56 Bảng 3.5 - Kết đánh giá hiệu ba phƣơng pháp qua vòng lặp 59 Bảng 3.6 - Bảng so sánh hiệu phƣơng pháp tƣ vấn .59 Bảng 3.7 - Bảng kết thực nghiệm với trƣờng hợp cold-start .60 vii DANH SÁCH HÌNH VẼ Hình 1.1 - Ý tƣởng phƣơng pháp lọc cộng tác .9 Hình 1.2 - Biểu diễn sở thích ngƣời dùng qua đánh giá 10 Hình 1.3 - Phƣơng pháp lọc cộng tác dựa phân cụm 13 Hình 1.4 - Dữ liệu cấu trúc dạng văn 17 Hình 1.5 - Phân loại k-láng giềng gần .18 Hình 1.6 - Mô hình phƣơng pháp tƣ vấn dựa thông tin cá nhân .20 Hình 2.1 - Phƣơng pháp đông huấn luyện trƣớc 24 Hình 2.2 - Phƣơng pháp đồng huấn luyện đề xuất 25 Hình 2.3 - Thuật toán đồng huấn luyện 26 Hình 2.4 - Sơ đồ bƣớc đồng huấn luyện cho toán phân loại 28 Hình 2.5 - Mô hình tƣ vấn sử dụng đồng huấn luyện cải tiến 31 Hình 2.6 - Các bƣớc xây dựng mô hình hồi quy lọc cộng tác 34 Hình 2.7 - Phƣơng pháp phân tích ma trận .35 Hình 2.8 - Đầu cho mô hình hồi quy lọc cộng tác 35 Hình 2.9 - Các bƣớc xây dựng mô hình hồi quy dựa nội dung 37 Hình 2.10 - Các bƣớc tìm láng giềng ngƣời dùng 39 Hình 2.11 - Các bƣớc tìm láng giềng đối tƣợng .40 Hình 2.12 - Các bƣớc chuẩn hóa điểm tin cậy .42 Hình 3.1 - Thu thập thông tin bổ sung từ OMDb API dựa tiêu đề phim 50 Hình 3.2 - Đầu vào cho phƣơng pháp lọc cộng tác 52 Hình 3.3 - Đầu cho mô hình hồi quy lọc cộng tác 53 Hình 3.4 - Biểu đồ số RMSE bin liệu .63 Hình 3.5 - Biểu đồ số MAE bin liệu .63 MỞ ĐẦU Ngày nay, ngƣời sống thời đại số, nơi mà mạng Internet đƣợc phổ biến khắp toàn cầu Mỗi ngƣời dùng Internet đƣợc tiếp cận với nhiều nguồn thông tin khác Do họ tìm thấy thứ muốn Internet Tuy nhiên có vấn đề đƣợc đặt thông tin thực cần thiết cho ngƣời dùng Internet hàng nghìn nguồn thông tin khác mạng Internet? Ví dụ nhƣ vào trang Web để xem phim nhƣ Netflix, có hàng trăm nghìn phim sở liệu Netflix đƣợc đƣa cho ngƣời dùng lựa chọn Và lúc này, ngƣời dùng khó khăn để tìm phim mà họ muốn xem số lƣợng lớn phim nhƣ Để giải vấn đề này, hệ thống tƣ vấn [6][8][15][19] đời với nhiệm vụ đƣa gợi ý giúp cho ngƣời dùng dễ dàng tìm đƣợc thông tin mà cần tìm cách nhanh chóng xác Đã có nhiều nghiên cứu đƣợc thực để tìm phƣơng pháp tƣ vấn hiệu Một số phƣơng pháp cho kết tốt nhƣ: phƣơng pháp tƣ vấn dựa lọc cộng tác [8][19], phƣơng pháp tƣ vấn theo nội dung [8], phƣơng pháp tƣ vấn dựa thông tin cá nhân [15] phƣơng pháp lai phƣơng pháp Từ trƣớc đến nay, phƣơng pháp tƣ vấn nhƣ tƣ vấn dựa nội dung, tƣ vấn dựa lọc cộng tác có hƣớng khai thác khía cạnh liệu khác để đƣa tƣ vấn cách tốt Mỗi phƣơng pháp tƣ vấn lại có số nhƣợc điểm riêng nhƣ vấn đề cold-start phƣơng pháp lọc cộng tác, hay vấn đề thiếu thông tin phƣơng pháp lọc theo nội dung Để giải vấn đề này, phƣơng pháp tƣ vấn lai đời để kết hợp phƣơng pháp tƣ vấn lại với để khắc phục nhƣợc điểm Mục đích luận văn xây dựng hệ thống tƣ vấn lai nhƣ vậy, phƣơng pháp lai đƣợc sử dụng luận văn phƣơng pháp đồng huấn luyện Đây phƣơng pháp dùng để kết hợp hai phƣơng pháp tƣ vấn phƣơng pháp 54 3.2.3 Xây dựng mô hình hồi quy dựa nội dung 3.2.3.1 Chuẩn bị đầu vào Đầu vào việc huấn luyện hồi quy cho ngƣời dùng tập vector phim mà ngƣời dùng đánh giá kèm theo giá trị đánh giá ngƣời dùng Mỗi ngƣời dùng có tập tin chứa thông tin Mỗi dòng tập tin tƣơng ứng với phim Định dạng dòng tập tin nhƣ sau: qid: 1: 2: … 23: Trong đó: Uid: id ngƣời dùng Rating: đánh giá ngƣời dùng cho phim f1, f2, …, f23: giá trị tƣơng ứng vector nội dung phim Các tập tin đƣợc đƣa vào để huấn luyện mô hình hồi quy cho ngƣời dùng 3.2.3.2 Xây dựng mô hình hồi quy Để xây dựng mô hình hồi quy cho ngƣời dùng dựa nội dung, sử dụng công cụ triển khai phƣơng pháp SVM có sẵn có tên SVMLight6 Tất đánh giá ngƣời dùng đƣợc tập trung vào tệp tin để đƣa vào SVM, đánh giá đƣợc biểu diễn dòng Sau có tập tin này, sử dụng câu lệnh svm_learn công cụ SVM-Light để huấn luyện mô hình hồi quy cho ngƣời dùng Câu lệnh svm_learn có dạng: svm_learn –z r 1.train 1.model Trong đó: - -z tham số lựa chọn loại mô hình SVM (ở chọn r tức mô hình lựa chọn mô hình hồi quy) http://svmlight.joachims.org/ 55 - 1.train tập tin chứa đánh giá ngƣời dùng - 1.model tập tin chứa mô hình hồi quy sinh SVM cho ngƣời dùng Nhƣ vậy, sau trình huấn luyện, có 943 mô hình hồi quy tƣơng ứng với 943 ngƣời dùng hệ thống Những mô hình hồi quy đƣợc sử dụng pha dự đoán để đƣa dự đoán cho phim mà ngƣời dùng chƣa đánh giá 3.2.3.3 Phương pháp dự đoán Để dự đoán đánh giá phim mà ngƣời dùng chƣa đánh giá, sử dụng câu lệnh svm_classify công cụ SVM-Light Câu lệnh có dạng: svm_classify u.test u.model u.predict Trong đó: - u.test tập tin chứa vector biểu diễn phim chƣa đƣợc đánh giá ngƣời dùng u - u.model tập tin chứa mô hình hồi quy ngƣời dùng u đƣợc sinh phƣơng pháp SVM - u.predict tập tin chứa dự đoán đánh giả ngƣời dùng u với phim tập tin u.test Mỗi dự đoán tập tin u.predict tƣơng ứng với phim dòng tập tin u.test 3.2.4 Đồng huấn luyện 3.2.4.1 Chuẩn bị đầu vào Đầu vào cho bƣớc đồng huấn luyện hồi quy đƣợc xây dựng bƣớc Cụ thể có hồi quy lọc cộng tác , 943 hồi quy dựa nội dung cho 943 ngƣời dùng 56 Ngoài với hồi quy có ma trận đầu vào ma trận đánh giá ngƣời dùng cho phim Cụ thể, ta có ma trận đầu vào cho hồi quy dựa nội hồi quy lọc cộng tác, dung Ban đầu hai ma trận ma trận đầu vào cho giống giống với ma trận huấn luyện cho hai hồi quy Sau trình đồng huấn luyện hai ma trận có khác biệt việc bổ sung liệu từ hai hồi quy khác 3.2.4.2 Đồng huấn luyện Ở bƣớc đồng huấn luyện này, luận văn xây dựng hệ thống thực nghiệm sử dụng giải pháp đề xuất chƣơng Để triển khai đƣợc hệ thống thực nghiệm nhƣ vậy, luận văn thiết lập số tham số cho thuật toán Cụ thể: Bảng 3.4 - Bảng tham số c o trìn đồng huấn luyện Bƣớc Thủ tục Tham số Giá trị Tính độ tƣơng tự hai Số lƣợng phim Tính toán hồi ngƣời dùng (hình 2.8 – bƣớc 2) đánh giá Tính độ tƣơng tự hai Số lƣợng ngƣời dùng quy lọc cộng phim (hình 2.9 – bƣớc 2) đánh giá hai phim tác Tính độ tin cậy (bƣớc 2.7) Số lƣợng hàng xóm tối thiểu đánh giá Tính toán Tính độ tƣơng tự hai Số lƣợng ngƣời dùng hồi phim (hình ) đánh giá hai phim Tính độ tin cậy (bƣớc 2.7) Số lƣợng hàng xóm tối quy dựa nội dung thiểu đánh giá Cập nhật hai Số lƣợng dự đoán cao hồi quy đƣợc lựa chọn 25 25 50 25 50 50 57 3.2.5 Tổng hợp kết Để kết hợp hai giá trị dự đoán để giá trị dự đoán cuối cùng, luận văn sử dụng phƣơng pháp Voting, tức dựa độ tin cậy hai dự đoán để lựa chọn hai giá trị dự đoán làm giá trị dự đoán cuối Các lựa chọn cụ thể nhƣ sau: ( ) 3.3 Kết v đán { ( ) ( ( ) ( ) ) iá 3.3.1 Các số đánh giá Để đánh giá độ xác giải pháp đề xuất, sử dụng hai số đánh giá Root Mean Square Error (RMSE) Mean Absolute Error (MAE) RMSE MAE hai số thƣờng đƣợc sử dụng để đánh giá độ xác hồi quy RMSE số đánh giá thƣờng đƣợc sử dụng để tính toán độ chênh lệch giá trị dự đoán đƣợc mô hình với giá trị thực tế đối tƣợng đƣợc quan sát Độ chênh lệch cặp giá trị dự đoán giá trị thực đối tƣợng gọi phần dƣ, RMSE có nhiệm vụ tổng hợp phần dƣ vào thƣớc đo √ ∑ (̂ ) ( ) Trong đó: - : số lƣợng mẫu tập liệu thử nghiệm - ̂ : giá trị dự đoán đối tƣợng thứ i liệu thử nghiệm - : giá trị thực đối tƣợng thứ i liệu thử nghiệm MAE phƣơng pháp đánh giá lỗi dự đoán cách lấy trung bình cộng độ lệch giá trị dự đoán giá trị thực đối tƣợng tập liệu quan sát 58 ∑ ̂ ( ) Trong đó: - : số lƣợng mẫu tập dự liệu thử nghiệm - ̂ : giá trị dự đoán đối tƣợng thứ i liệu thử nghiệm - : giá trị thực đối tƣợng thứ i liệu thử nghiệm 3.3.2 Kết thực nghiệm 3.3.2.1 Kết với liệu tổng thể Trong phạm vi luận văn, học viên triển khai ba phƣơng pháp lựa chọn phƣơng pháp tính độ tin cậy lựa chọn đánh giá để hoán đổi hồi quy Cụ thể: CONFINE + No round: Ở phƣơng pháp này, sử dụng CONFINE làm phƣơng pháp tính độ tin cậy giá trị đánh giá dự đoán CONFINE + Round: Phƣơng pháp giống phƣơng pháp việc lựa chọn loại phƣơng pháp tính độ tin cậy, nhiên chuyển đánh giá có độ tin cậy cao sang hồi quy khác đánh giá đƣợc làm tròn CONFIVE + Round: Phƣơng pháp sử dụng CONFIVE làm phƣơng pháp tính độ tin cậy, chuyển đánh giá sang hồi quy khác làm tròn giá trị đánh giá Kết thực nghiệm ba phƣơng pháp đƣợc thể bảng dƣới 59 Bảng 3.5 - Kết đán iá iệu ba p ƣơn p áp qua vòng lặp confine + no round confine + round confive + round Loop RMSE MAE RMSE MAE RMSE MAE 0.91631 0.71726 0.91495 0.71639 0.91443 0.71548 0.91524 0.71671 0.91445 0.71568 0.91451 0.71620 0.91461 0.71593 0.92060 0.71838 0.91452 0.71587 0.91533 0.71632 0.91623 0.71714 0.91486 0.71637 0.91643 0.71784 0.91484 0.71633 0.91557 0.71640 10 0.91619 0.71715 0.91538 0.71644 0.91495 0.71639 Sau xây dựng đƣợc phƣơng pháp đồng huấn luyện, ta so sánh kết dự đoán phƣơng pháp với phƣơng pháp Baseline CBF CF Kết nhƣ sau: Bảng 3.6 - Bảng so sánh hiệu p ƣơn p áp tƣ vấn RMSE MAE CF 0.91635 0.71754 CBF 1.02161 0.78950 confine + no round 0.91461 0.71593 confine + round 0.91445 0.71568 confive + round 0.91443 0.71548 Baseline Cotraining 3.3.2.2 Kết với trường hợp Cold-start Một mục tiêu luận văn giải đƣợc vấn đề cold-start phƣơng pháp tƣ vấn dựa lọc cộng tác Do đó, để kiểm tra xem giải pháp đề xuất cải thiện đƣợc tình trạng chƣa, chia liệu thử nghiệm ban đầu thành liệu nhỏ dựa độ thƣa liệu phim Cách làm cụ thể nhƣ sau: Bƣớc 1: Đếm số lƣợng đánh phim có 60 R(i) - tập đánh phim i nhận đƣợc Bƣớc 2: Gộp phim thành cụm có số lƣợng đánh giá Lúc ta có cụm nhƣ sau ={R( ), R( ={R( ),…}, ), ), R( ), ), R( ),…}, ), ), R( …, ={R( ), ), R( ), ), R( ),…}, | ( )| Trong đó: ( ) ( ) Bƣớc 3: Sắp xếp cụm phim theo thứ tự tăng dần số lƣợng đánh giá phim cụm (N) Bƣớc 4: Chia cụm phim xếp thành 10 bin Bƣớc 5: Gộp đánh giá tập liệu test phim bin lại với Lúc ta có 10 file test Bƣớc 6: Tính giá trị RMSE MAE cho file test kể theo ba phƣơng pháp: phƣơng pháp baseline (CF CBF), phƣơng pháp đồng huấn luyện (CONFINE + Round) Kết thực nghiệm với liệu cold-start đƣợc thể bảng dƣới Bảng 3.7 - Bảng kết thực nghiệm với trƣờng hợp cold-start bin1 RMSE Average Ratings MAE bin2 RMSE 40 MAE bin3 RMSE 67 MAE bin4 RMSE 93 MAE bin5 RMSE 124 MAE 61 CF 1.0696 0.8540 0.9332 0.7388 0.9153 0.7412 0.9246 0.7275 0.9318 0.7263 CBF 1.0182 0.7706 0.9800 0.7603 1.0141 0.8146 1.0306 0.7931 1.0409 0.8054 Cotraining 1.0148 0.7774 0.9489 0.7461 0.9131 0.7330 0.9220 0.7274 0.9286 0.7246 bin6 RMSE Average Ratings MAE bin7 RMSE 157 MAE bin8 RMSE 184 MAE 233 bin9 RMSE MAE 275 bin10 RMSE MAE 399 CF 0.8884 0.7061 0.8779 0.6860 0.8695 0.6835 0.9020 0.6987 0.8882 0.6849 CBF 1.0122 0.7769 1.0286 0.8035 1.0064 0.7791 1.0138 0.7781 1.0620 0.8189 Cotraining 0.8877 0.7060 0.8735 0.6833 0.8690 0.6818 0.8937 0.6940 0.8872 0.6846 3.3.3 Nhận xét phân tích kết 3.3.3.1 So sánh với phương pháp baseline Dựa vào Bảng 3.5 ta thấy phƣơng pháp tƣ vấn lai dựa đồng huấn luyện đƣợc đề xuất có tỷ lệ lỗi giảm so với phƣơng pháp tƣ vấn phƣơng pháp tƣ vấn dựa lọc cộng tác phƣơng pháp tƣ vấn dựa nội dung Với ba cách lựa chọn độ tin cậy hai số RMSE MAE thấp so với hai phƣơng pháp Cụ thể, với phƣơng pháp đồng huấn luyện CONFINE+No round số RMSE giảm 0.0017 so với phƣơng pháp lọc cộng tác, giảm 0.107 so với phƣơng pháp lọc theo nội dung, tƣợng tự số MAE phƣơng pháp giảm lần lƣợt 0.0016 0.0735 Phƣơng pháp CONFINE+Round CONFIVE+Round có số RMSE giảm 0.0019 so với phƣơng pháp lọc cộng tác 0.1072 so với phƣơng pháp dựa nội dung Tuy nhiên nhận thấy, phƣơng pháp đồng huấn luyện có độ giảm tỷ lệ lỗi chƣa thực lớn Vấn đề việc kết hợp giá trị dự đoán cuối chƣa đƣợc hợp lý Để giải vấn đề cần phải thử nghiệm với nhiều phƣơng pháp kết hợp khác 62 3.3.3.2 So sánh phương pháp lựa chọn độ tin cậy Ngoài việc đánh giá hiệu giải pháp tƣ vấn lại sử dụng phƣơng pháp đồng huấn luyện so với phƣơng pháp khác, cần xem xét đến hiệu phƣơng pháp tính độ tin cậy dự đoán Theo Bảng 3.4, thấy, việc lựa chọn phƣơng pháp CONFIVE có số RMSE MAE thấp so với phƣơng pháp CONFINE tất vòng lặp từ đến 10 bƣớc đồng huấn luyện, số RMSE phƣơng pháp CONFIVE lớn hơn, đặc biệt vòng đầu tiên, số lớn so với phƣơng pháp CONFINE khoảng 0.0019 Từ Bảng 3.4 ta thấy đƣợc việc làm tròn đánh giá trƣớc cho vào huấn luyện hồi quy khác Để kiểm chứng điều này, nhìn vào so sánh hai phƣơng pháp CONFINE+No round CONFINE+Round, hai phƣơng pháp sử dụng phƣơng pháp tính độ tin cậy Chúng ta thấy rõ số RMSE MAE phƣơng pháp CONFINE+Round thấp 3.3.3.3 Vấn đề Cold-start Nhƣ trình bày phần chƣơng 1, vấn đề cold-start nhƣợc điểm phƣơng pháp tƣ vấn dựa lọc cộng tác Vấn đề cold-start trƣờng hợp hệ tƣ vấn đƣa tƣ vấn cho phim mới, phim đƣợc đánh giá Từ Bảng 3.6 ta thấy giải pháp tƣ vấn lai sử dụng đồng huấn luyện cải thiện đƣợc độ xác cho dự đoán với đối tƣợng đƣợc đánh giá Cụ thể, 10 bin liệu, bin1 có số lƣợng đánh giá trung bình cho phim nhất, nhƣng lại bin có số RMSE phƣơng pháp tƣ vấn lai 1.0148, số thấp ba phƣơng pháp 63 1.09 1.07 1.05 1.03 1.01 0.99 0.97 0.95 0.93 0.91 0.89 0.87 0.85 CF CBF Cotraining bin1 bin2 bin1 bin4 bin5 bin6 bin7 bin8 bin9 bin10 Hình 3.4 - Biểu đồ số RMSE bin liệu 0.87 0.85 0.83 0.81 0.79 0.77 0.75 0.73 0.71 0.69 0.67 0.65 CF CBF Cotraining bin1 bin2 bin1 bin4 bin5 bin6 bin7 bin8 bin9 bin10 Hình 3.5 - Biểu đồ số MAE bin liệu Và lần thấy hiệu phƣơng pháp tƣ vấn lai so với hai phƣơng pháp lại Cụ thể 10 bin liệu, số lƣợng đánh giá trung bình bin tăng dần từ bin1 đến bin 10, phƣơng pháp tƣ vấn lai cho số RMSE MAE tốt 10 bin 3.4 Kết uận c ƣơn Tóm lại, nội dung chƣơng mô tả lại cách xây dựng nên hệ thống tƣ vấn phƣơng pháp lại sử dụng đồng huấn luyện để kết hợp phƣơng pháp tƣ vấn lọc cộng tác phƣơng pháp tƣ vấn dựa nội dung lại với 64 Bộ liệu MovieLens đƣợc sử dụng làm liệu đầu vào MovieLens liệu cung cấp thông tin đánh giá ngƣời dùng cho phim Bộ liệu chứa số thông tin ngƣời dùng phim Ngoài thông tin từ liệu MovieLens, hệ thống thu thập số thông tin phim IMDb Hệ thống tƣ vấn đƣợc xây dựng qua ba bƣớc Bƣớc xây dựng hồi quy lọc cộng tác hồi quy dựa nội dung Bộ hồi quy dựa lọc cộng tác đƣợc xây dựng phƣơng pháp phân tích ma trận sử dụng công cụ MyMedialite, hồi quy dựa nội dung đƣợc xây dựng mô hình học máy SVM sử dụng công cụ SVM-Light Bƣớc thứ hai trình đồng huấn luyện Ở bƣớc này, có ba thủ tục đƣợc lặp lặp lại (1) tính toán hồi quy lọc cộng tác, (2) tính toán hồi quy dựa nội dung (3) cập nhật lại hai hồi quy Bƣớc cuối tổng hợp kết quả, bƣớc sử dụng hai hồi quy đƣợc tăng cƣờng liệu đồng huấn luyện để dự đoán giá trị đánh giá chƣa biết Bƣớc tổng hợp kết sử dụng phƣơng pháp voting để kết hợp hai giá trị dự đoán hai hồi quy đƣa giá trị dự đoán cuối Kết thu đƣợc từ trình thực nghiệm khả quan Cụ thể, số RMSE MAE giải pháp đƣợc đề xuất giảm so với hai phƣơng pháp tƣ vấn lọc cộng tác phƣơng pháp tƣ vấn theo nội dung Ngoài việc sử dụng độ tin cậy CONFIVE làm tròn đánh giá trƣớc bổ sung vào hồi quy làm tăng độ xác hệ thống Cuối cùng, giải pháp đề xuất phần giải đƣợc vấn đề cold-start mà số RMSE phƣơng pháp đề xuất nhỏ so với hai phƣơng pháp lại 65 KẾT LUẬN Trên sở tìm hiểu việc xây dựng hệ thống tƣ vấn, cụ thể tác vụ dự đoán đánh giá ngƣời dùng cho đối tƣợng chƣa đƣợc đánh giá, luận văn đạt đƣợc số kết sau: - Tìm hiểu cách cụ thể hệ thống tƣ vấn, khía cạnh tìm hiểu bao gồm mục đích, thành phần chính, tác vụ số phƣơng pháp tƣ vấn đƣợc phát triển - Nghiên cứu phƣơng pháp đồng huấn luyện phƣơng pháp học bán giám sát có khả tận dụng liệu chƣa gán nhãn để tăng độ xác hệ thống Đƣa ý tƣởng việc sử dụng phƣơng pháp đồng huấn luyện để xây dựng hệ thống tƣ vấn - Đề xuất giải pháp tƣ vấn lai sử dụng phƣơng pháp đồng huấn luyện kết hợp phƣơng pháp tƣ vấn lọc cộng tác phƣơng pháp tƣ vấn dựa nội dung để giải toán dự đoán đánh giá - Ứng dụng hai phƣơng pháp tính độ tin cậy CONFINE CONFIVE để tính toán độ tin cậy dự đoán mô hình hồi quy sử dụng phƣơng pháp đồng huấn luyện - Tiến hành thực nghiệm cho giải pháp đề xuất dựa liệu MovieLens, từ đƣa nhận xét kết thu đƣợc Bên cạnh kết thu đƣợc luận văn số hạn chế là: - Độ xác dự đoán hệ thống chƣa đƣợc cải thiện nhiều việc kết hợp kết dự đoán chƣa hoàn toàn phù hợp - Luận văn giải đƣợc vấn đề cold-start cho trƣờng hợp phim chƣa giải đƣợc vấn đề cold-start cho ngƣời dùng Từ kết thu đƣợc hạn chế nêu trên, thấy việc xây dựng nên hệ thống tƣ vấn nói chung việc giải toán dự đoán đánh 66 giá nói riêng cần trình nghiên cứu dài để cải tiến đƣợc chúng Nội dung luận văn trình bày việc kết hợp hai phƣơng pháp tƣ vấn lại với nhau, nhiên hệ thống tƣ vấn lai kết hợp nhiều phƣơng pháp Hƣớng phát triển luận văn là: - Tìm kiếm phƣơng pháp kết hợp kết dự đoán mô hình cách tốt để tăng độ xác dự đoán - Áp dụng thêm phƣơng pháp tƣ vấn dựa thông tin cá nhân vào mô hình đồng huấn luyện để giải trƣờng hợp cold-start cho ngƣời dùng 67 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt: [1] Từ Minh Phƣơng, Học viện Công nghệ Bƣu Viễn thông (2014), Giáo trình Trí tuệ nhân tạo [2] Nguyễn Việt Tân, Hoàng Vũ, Đặng Vũ Tùng, Từ Minh Phƣơng (2014), “Phân loại liệu có liên kết sử dụng phƣơng pháp đồng huấn luyện”, Tạp chí Khoa học DHQGHN: Khoa học Tư nhiên Công nghệ, Tập 30, Số 4, trang 48-57 Tài liệu tiếng Anh: [3] Ngo Xuan Bach, Nguyen Do Hai, Tu Minh Phuong (2016), “Personalized recommendation of stories for commenting in forum-based social media”, Information Sciences, pp 48-60 [4] S Briesemeister, J Rahrienführer, O Kohlbacher (2012), “No longer confidential: estimating the confidence of individual regression predictions”, PLoS ONE [5] A Blum, T Mitchell (1998), “Combining Labeled and Unlabeled Data with CoTraining”, In Proceedings of COLT, pp 92-100 [6] A Felfernig, M Jeran, G Ninaus, F Reinfrank, S Reiterer, M Stettinger (2014), “Basic approaches in recommendation systems”, In Recommendation Systems in Software Engineering, pp 15-37 [7] Ed Greengrass(2000), Information Retrieval: A Survey [8] Nguyen Do Hai, Tran Quang An, Ngo Xuan Bach, Tu Minh Phuong (2013), “What Should I Comment: Recommending Posts for Commenting”, International Conference of Soft Computing and Pattern Recognition, Hà Nội [9] J Han, M Kamber (2000), Data Mining: Concepts and Techniques [10] W Hill, L Stead, M Rosenstein, and G Furnas (1995), “Recommending and evaluating choices in a virtual community of use”, In Proceedings of the SIGCHI conference on Human factors in computing systems, pp 194–201 68 [11] Joachims, Freitag, Mitchell (1997), “WebWatcher: A Tour Guide for the World Wide Web”, In Proceedings of the 15th International Joint Conference on Artificial Intelligence, Nagoya, Japan, pp 770 -775 [12] Pazzani, Billsus (1997), “Learning and revising user profiles: The identification of interesting web sites”, Machine learning, 27(3), pp 313-331 [13] Prasad, Kumari (2012), “A categorical review of recommender systems”, International Journal of Distributed and Parallel Systems (IJDPS) Vol.3, No.5 [14] F Ricci, Lior Rokach, and Bracha Shapira (2011), Introduction to recommender systems handbook, Springer US [15] Laila Safoury, Akram Salah (2013), “Exploiting User Demographic Attributes for Solving Cold-Start Problem in Recommender System”, Lecture Notes on Software Engineering Vol 1, No [16] Shardanand, Maes, (1995, May), “Social information filtering: algorithms for automating “word of mouth” ” In Proceedings of the SIGCHI conference on Human factors in computing systems , pp 210-217 [17] Z Tao, M Cheung, J She, R Lam (2014), “Item Recommendation Using Collaborative Filtering in Mobile Social Games: A Case Study”, In Big Data and Cloud Computing (BdCloud), 2014 IEEE International Conference, pp 293-297 [18] Loren Terveen, Will Hill (2001), “Beyond Recommender Systems: Helping People Help Each Other”, HCI in the New Millennium 1, pp 487-509 [19] L Ungar, D Foster (1998), “Clustering methods for collaborative filtering”, In Proceedings of the Workshop on Recommendation Systems, AAAI Press, Menlo Park California