Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và xây dựng hệ thống khuyến nghị cho bài toán dịch vụ giá trị gia tăng trong ngành Viễn thông

47 12 0
Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và xây dựng hệ thống khuyến nghị cho bài toán dịch vụ giá trị gia tăng trong ngành Viễn thông

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và xây dựng hệ thống khuyến nghị cho bài toán dịch vụ giá trị gia tăng trong ngành Viễn thôngLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và xây dựng hệ thống khuyến nghị cho bài toán dịch vụ giá trị gia tăng trong ngành Viễn thôngLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và xây dựng hệ thống khuyến nghị cho bài toán dịch vụ giá trị gia tăng trong ngành Viễn thôngLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và xây dựng hệ thống khuyến nghị cho bài toán dịch vụ giá trị gia tăng trong ngành Viễn thôngLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và xây dựng hệ thống khuyến nghị cho bài toán dịch vụ giá trị gia tăng trong ngành Viễn thôngLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và xây dựng hệ thống khuyến nghị cho bài toán dịch vụ giá trị gia tăng trong ngành Viễn thôngLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và xây dựng hệ thống khuyến nghị cho bài toán dịch vụ giá trị gia tăng trong ngành Viễn thôngLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và xây dựng hệ thống khuyến nghị cho bài toán dịch vụ giá trị gia tăng trong ngành Viễn thôngLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và xây dựng hệ thống khuyến nghị cho bài toán dịch vụ giá trị gia tăng trong ngành Viễn thôngLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và xây dựng hệ thống khuyến nghị cho bài toán dịch vụ giá trị gia tăng trong ngành Viễn thôngLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và xây dựng hệ thống khuyến nghị cho bài toán dịch vụ giá trị gia tăng trong ngành Viễn thôngLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và xây dựng hệ thống khuyến nghị cho bài toán dịch vụ giá trị gia tăng trong ngành Viễn thôngLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và xây dựng hệ thống khuyến nghị cho bài toán dịch vụ giá trị gia tăng trong ngành Viễn thông

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ KIỀU XUÂN CHẤN NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG KHUYẾN NGHỊ CHO BÀI TOÁN DỊCH VỤ GIÁ TRỊ GIA TĂNG TRONG NGÀNH VIỄN THÔNG LUẬN VĂN THẠC SĨ Hà Nội - 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ KIỀU XUÂN CHẤN NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG KHUYẾN NGHỊ CHO BÀI TOÁN DỊCH VỤ GIÁ TRỊ GIA TĂNG TRONG NGÀNH VIỄN THÔNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Văn Vinh TS Nguyễn Hoàng Quân Hà Nội - 2017 LỜI CAM ĐOAN Tôi xin cam đoan toàn nội dung luận văn “ Nghiên cứu và xây dựng hệ thống khuyến nghị cho bài toán dịch vụ giá trị gia tăng ngành Viễn thơng.” tơi tìm hiểu, nghiên cứu, tham khảo tổng hợp từ nguồn tài liệu khác làm theo hướng dẫn người hướng dẫn khoa học Các nguồn tài liệu tham khảo, tổng hợp có nguồn gốc rõ ràng trích dẫn theo quy định Tơi xin chịu hồn tồn trách nhiệm lời cam đoan Nếu có điều sai trái, tơi xin chịu hình thức kỷ luật theo quy định Hà Nội, tháng 11 năm 2017 Người cam đoan Kiều Xuân Chấn LỜI CẢM ƠN Trước hết em xin gửi lời cảm ơn chân thành đến thầy cô Khoa Công Nghệ Thông Tin - trường Đại học Công nghệ - Đại học Quốc gia Hà Nội nhiệt tình tâm huyết truyền đạt cho em kiến thức quý báu suốt thời gian học tập trường Em xin gửi lời cảm ơn sâu sắc đến TS Nguyễn Văn Vinh, TS Nguyễn Hồng Qn nhiệt tình, tận tâm định hướng, hướng dẫn cho em lời khuyên bổ ích để em hoàn thành luận văn tốt nghiệp Cuối cùng, em xin cảm ơn gia đình, bạn bè động viên ủng hộ em suốt trình học tập hồn thành luận văn Bài luận văn thực khoảng thời gian 06 tháng Bước đầu vào thực tế, tìm hiểu lĩnh vực Khai phá liệu Dịch vụ giá trị gia tăng, kiến thức em nhiều hạn chế cịn nhiều bỡ ngỡ, nên khơng tránh khỏi thiếu sót Em mong nhận ý kiến đóng góp q báu từ phía q thầy bạn để luận văn hồn thiện Hà Nội, tháng 11 năm 2017 Học viên Kiều Xuân Chấn MỤC LỤC CHƯƠNG TỔNG QUAN VỀ HỆ THỐNG KHUYẾN NGHỊ .11 1.1 Giới thiệu chung 11 1.2 Bài toán khuyến nghị 12 1.3 Các hướng tiếp cận .13 Có hướng tiếp cấn để xây dựng tốn khuyến nghị Cách Dựa nội dung (Content-based): Hệ thống dựa nội dung tập trung vào thuộc tính mặt hàng, tính tương tự sản phẩm xác định cách đo tương tự thuộc tính chúng Cách Lọc cộng tác (Collaborative-Filtering) tập trung vào mối quan hệ người sử dụng mặt hàng Tính tương tự mặt hàng xác định tương tự xếp hạng mặt hàng người dùng đánh giá hai mặt hàng Các hệ thống khuyến nghị ngày thường kết hợp hướng tiếp cận gọi hệ thống khuyến nghị lai (Hybrid) 13 Lọc dựa nội dung (Content-based) dựa mô tả sản phẩm thông tin người dùng Trong hệ thống khuyến nghị dựa nội dung, từ khoá sử dụng để mô tả mục hồ sơ người dùng xây dựng để loại mục mà người dùng thích Nói cách khác, thuật tốn cố gắng đề xuất mục tương tự mục mà người dùng thích khứ (hoặc kiểm tra tại) Đặc biệt, ứng viên khác so sánh với mục đánh giá trước người sử dụng mục phù hợp khuyến khích Vấn đề phương pháp bị giới hạn nội dung sản phẩm, tư vấn sản phẩm tương tự mục nội dung 14 Lọc cộng tác (Collaborative-Filtering)[4] dựa việc thu thập phân tích lượng lớn thơng tin hành vi, hoạt động sở thích người dùng dự đốn người dùng thích dựa tương đồng với người dùng khác Ưu điểm phương pháp tiếp cận lọc cộng tác khơng dựa vào nội dung phân tích máy có khả đề xuất xác hạng mục phức tạp phim ảnh mà khơng địi hỏi hiểu biết thân Lọc cộng tác dựa giả định người đồng ý khứ đồng ý tương lai họ thích loại mặt hàng tương tự họ thích q khứ Khi xây dựng mơ hình từ hành vi người dùng, phân biệt thường thực hình thức thu thập liệu rõ ràng tiềm ẩn .14 Ví dụ thu thập liệu rõ ràng bao gồm: .15 Yêu cầu người dùng xếp hạng mục thang trượt 15 Yêu cầu người dùng tìm kiếm 15 Yêu cầu người dùng xếp hạng sưu tập từ yêu thích đến yêu thích 15 Trình bày hai mục cho người dùng yêu cầu họ chọn số họ tốt 15 Yêu cầu người dùng tạo danh sách mặt hàng mà họ thích 15 Các ví dụ thu thập liệu ngầm bao gồm: 15 Quan sát mục mà người dùng xem cửa hàng trực tuyến 15 Phân tích thời gian xem sản phẩm / người dùng 15 Giữ ghi mục mà người dùng mua hàng trực tuyến 15 Lấy danh sách mục mà người dùng nghe xem máy tính 15 Phân tích mạng xã hội người dùng khám phá sở thích khơng thích tương tự 15 Các phương pháp tiếp cận lai (Hybrid) [4] thực nhiều cách: cách đưa dự đoán dựa nội dung dựa cộng tác cách riêng biệt sau kết hợp chúng; cách thêm tính dựa nội dung vào cách tiếp cận hợp tác (và ngược lại) Một số nghiên cứu thực nghiệm so sánh hiệu suất lai với phương pháp hợp tác dựa nội dung túy chứng minh phương pháp lai đưa khuyến nghị xác phương pháp túy Một số cách kết hợp sau: .15 Sử dụng hai phương pháp, sau dùng hai kết thu để định: 15 Sử dụng kết phương pháp tốt (tùy thời điểm) 15 Dùng hai kết để đánh giá 15 Xây dựng hệ thống lọc cộng tác có sử dụng đặc trưng phương pháp lọc dựa nội dụng .16 Xây dựng hệ thống lọc dựa nội dung có sử dụng đặc trưng phương pháp lọc cộng tác .16 Xây dựng hệ thống kết hợp lọc cộng tác lọc dựa nội dung (chia làm nhiều pha, pha lọc cộng tác lọc nội dung) .16 1.4 Chức 16 Cải thiện trải nghiệm người dùng: từ việc dự đoán đưa mặt hàng/dịch vụ với sở thích khách hàng làm tăng hài lòng khách hàng 16 Tăng hiệu hoạt động tự động hóa: việc khuyến nghị sản phẩm truyền thống thường làm thủ công, hiệu không cao bị hạn chế hiệu 16 Biến khách hàng tiềm thành khách hàng thật: mục đích tốn, hệ thống tư vấn sản phẩm tiềm mà khách hàng chưa nghĩ đến 16 CHƯƠNG PHÂN TÍCH BÀI TỐN DỊCH VỤ VAS 17 2.1 Tổng quan VAS 17 2.2 Phân loại dịch vụ VAS 18 2.2.1 Các dịch vụ 18 2.2.2 Các dịch vụ tiện ích 18 2.2.3 Các dịch vụ DATA .19 2.3 Đặc trưng toán khuyến nghị VAS 21 CHƯƠNG MỘT SỐ KỸ THUẬT CHO HỆ THỐNG KHUYẾN NGHỊ .24 3.1.2 Phương pháp K- láng giềng gần (KNN) 26 3.2 Lọc cộng tác dựa mơ hình 29 3.3 Mơ hình nhân tố ẩn 29 3.3.1 Phương pháp thừa số hóa ma trận (Matrix factorization – MF) [3] [8] 30 3.4 Tiêu chuẩn đánh giá[4] .34 3.4.1 Mean absolute error (MAE) .35 3.4.2 Root mean square error (RMSE) 35 3.4.3 Normalized Mean absolute error (NMAE) .36 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ .37 4.1 Dữ liệu thực nghiệm 37 4.2 Phương pháp thực nghiệm 40 4.2.1 Môi trường thực nghiệm 40 4.2.2 Phương pháp tiến hành thực nghiệm 40 4.3 Kết thực nghiệm 41 4.4 So sánh đánh giá kết thực nghiệm 42 KẾT LUẬN .43 TÀI LIỆU THAM KHẢO 44 BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT STT Ký hiệu Diễn giải Tiếng Việt I Item Sản phẩm GD Gradient descent Giảm độ lệch KNN K-nearest neighbor K- láng giềng gần MF Matrix factorization Thừa số hóa ma trận MAE Mean absolute error Sai số tuyệt đối trung bình NMAE Normalized Mean absolute error Bình thường hóa sai số tuyệt đối trung bình R Rating Đánh giá RMSE Root mean square error Căn bậc hai sai số bình phương trung bình RS Recommender System Hệ thống khuyến nghị 10 U User Người dùng 11 VAS Value-added service Dịch vụ giá trị gia tăng 12 SMS Short Messaging Services Dịch vụ tin nhắn ngắn 13 USSD Unstructured Supplementary Dịch vụ liệu bổ sung phi Service Data cấu trúc 14 SIM Subscriber Identity Module Mô dun nhận dạng người dùng 15 IVR Interactive Voice Response Phản hồi tương tác giọng nói 16 STK SIM Application Toolkit Bộ công cụ ứng dụng SIM 17 ID Identification Định danh DANH MỤC CÁC BẢNG STT Tên bảng Bảng 3.1 Ma trận đánh giá dày đặc Trang 29 Bảng 3.2 Ma trận đánh giá thưa thớt 29 Bảng 4.1 Danh sách file liệu thử nghiệm 35 Bảng 4.2 Dữ liệu thử nghiệm thuật toán KNN 37 Bảng 4.3 Ma trận sử dụng dịch vụ VAS 37 Bảng 4.4 Dữ liệu thử nghiệm thuật toán MF 38 Bảng 4.5 Kết RMSE ứng với liệu 40 DANH MỤC CÁC HÌNH STT Tên hình Trang Hình 1.1 Ví dụ hệ thống khuyến nghị Amazon Hình 1.2 Ví dụ mơ hình kỹ thuật lọc dựa theo nội dung 12 Hình 2.1 Các dịch vụ VAS ngành Viễn thơng 15 Hình 2.2 Dịch vụ MCA Viettel 16 Hình 2.3 Ví dụ dịch vụ Bankplus Viettel 19 Hình 2.4 Một số thông tin người dùng Viễn thông 20 Hình 3.1 Ví dụ mơ hình nhân tố ẩn 28 Hình 3.2 Ví dụ minh họa phương pháp thừa số hóa ma trận 30 Hình 4.1 Biểu đồ so sánh RMSE phương pháp KNN MF 40 31 Bảng 3.1 Ma trận đánh giá dày đặc p1 p2 p3 p4 … pm u1 … u2 5 … u3 4 … … … … … … … … un … Trong thực tế, tập người dùng tập sản phẩm lớn, số lượng đánh giá sản phẩm người dúng nhỏ so với số sản phẩm (có nhiều sản phẩm khơng người dùng đánh giá), ma trận đánh giá thực tế có nhiều giá trị rij = ∅ Ta có ma trận đánh giá thưa thớt: Bảng 3.2 Ma trận đánh giá thưa thớt p1 p2 p3 p4 … pm u1 ∅ … ∅ u2 ∅ ∅ … u3 ∅ … … … … … … … … un ∅ … Vì ma trận đánh giá R thường lớn thưa thớt, nên việc dự đoán giá trị phần tử rij = ∅ gặp nhiều khó khăn Để giải vấn đề này, phương pháp thừa số hóa ma trận xem phương pháp hữu hiệu Nó sử dụng phổ biến hệ khuyến nghị có hiệu suất cao chất lượng khuyến nghị khả mở rộng 32  Phương pháp thừa số hóa ma trận Phương pháp thừa số hóa ma trận thành cơng mơ hình nhân tố ẩn Nó cho phép kết hợp thơng tin có với thơng tin bổ sung Khi thơng tin phản hồi rõ ràng khơng có sẵn, hệ thống tư vấn suy sở thích người dùng cách sử dụng thông tin phản hồi ngầm gián tiếp phản ánh ý kiến cách quan sát hành vi người dùng Phương pháp thừa số hóa ma trận ánh xạ người dùng sản phẩm vào không gian f chiều Rf, tương tác người dùng sản phẩm mơ hình hóa khơng gian Khi đó, sản phẩm i liên kết với vector sản phẩm qi ∈ R f , người dùng u liên kết với vector người dùng pu ∈ R f Đối với sản phẩm i, yếu tố qi đo mức độ tích cực hay tiêu cực sản phẩm Đối với người dùng u định, yếu tố pu đo lường mức độ quan tâm người dúng với sản phẩm yếu tố tích cực hay tiêu cực tương ứng Tích vector sản phẩm vector người dùng qiT pu mô mối tương tác người dùng u sản phẩm i Ta có ước tính đánh giá u sản phẩm I sau: [8] r$ui = qiT pu (3.10) Hình 3.2 Ví dụ minh họa phương pháp thừa số hóa ma trận, x32 = (a,b,c)*(x,y,z) 33 Vấn đề thách thức tính tốn để lập ánh xạ sản phẩm f người dùng đến vector nhân tố qi , pu ∈ R Dựa vào cơng thức (3.10) ta dễ dàng ước tính đánh giá người dùng cung cấp cho bất kỳ sản phẩm Q trình phân tích ma trận xảy vấn đề tổn thất Giá trị tổn thất L tính dựa sản phẩm người dùng đánh giá, Giá trị trung bình hàm tổn thất nhỏ tính hiệu mơ hình đánh giá cao ngược lại: [8] L= ∑ ( u ,i )∈K (rui − qiT pu )λ(|| + ||qi ||2 + ||pu) (3.11) Trong K tập người dùng – sản phẩm (u,i) mà ta biết đánh giá rui Hằng số λ số dương dùng để làm mịn sai số  Phương pháp sử dụng đặc trưng ưu tiên (Biased Matrix Factorization ) Một lợi ích cách tiếp cận thừa số hóa ma trận lọc cộng tác tính linh hoạt việc xử lý khía cạnh liệu khác yêu cầu ứng dụng cụ thể khác Công thức (3.10) cố gắng nắm bắt tương tác người dùng sản phẩm để tạo giá trị đánh giá khác Tuy nhiên, nhiều biến thể quan sát thấy giá trị xếp hạng hiệu ứng liên quan đến người dùng sản phẩm, gọi đặc trưng ưu tiên (biases intercepts), đặc trưng không phụ thuộc vào tương tác Ví dụ: số hệ thống lớn, số người dùng có xếp hạng cao người khác số sản phẩm có xu hướng xếp hạng cao so với sản phẩm khác Do đó, thấy số sản phẩm xem tốt (hoặc tồi tệ hơn) số sản phẩm khác Chính vậy, ta xác định thêm thành phần đặc trưng ưu tiên vào đặc trưng người dùng đặc trưng sản phẩm để mơ hình hóa Mơ hình hóa xấp xỉ đặc trưng ưu tiên tính sau: 34 bui = μ + bi + bu (3.12) Trong đó: + bui thành phần đặc trưng ưu tiên người dùng u sản phẩm i + µ đánh giá trung bình tổng thể + bu bi sai lệch tương ứng với giá trị trung bình người dùng u sản phẩm i Ví dụ, giả sử ước tính bậc cho người dùng đánh giá thuê bao X dịch vụ MCA, đánh giá trung bình tất dịch vụ VAS tiện ích 3,5 ( µ =3,5) MCA đánh giá tốt so với dịch vụ trung bình, có xu hướng đánh giá mức trung bình 0,2 Mặt khác, X người dùng đặc trưng, có xu hướng đánh giá thấp so với mức đánh giá trung bình 0,1 Như vậy, ước tính đánh giá cho dịch vụ MCA X 3,6 (3,5+0,2-0,1) Áp dụng vào công thức (3.10) ta có cơng thức tính ước lượng đánh giá sử dụng đặc trưng ưu tiên sau: r$ui = μ + bi + bu + qiT pu (3.13) Từ ta có hàm mát (3.10) trở thành: p*q*b* ∑ ( u ,i )∈K (μ rui − − bi − bu − q)iT pu λ(|| + || pu ||2 + || pi +bu +) bi (3.14) 3.4 Tiêu chuẩn đánh giá[4] Một giả thiết hệ thống khuyến nghị hệ thống cung cấp dự đốn xác ưa thích tin cậy người dùng với hệ thống nhiều Chính mà độ xác dự đốn trở thành tiêu chí việc đánh giá thuật tốn hệ thống khuyến nghị Có nhiều tiêu chuẩn đánh giá như: MAE, RMSE, CBD, AUC … Tuy nhiên phổ biến tiêu chuẩn MAE RMSE 35 3.4.1 Mean absolute error (MAE) Một phương pháp đơn giản để đo chất lượng khuyến nghị đo lường sai số tuyệt đối trung bình (MAE) , đơi cịn gọi độ lệch tuyệt đối Phương pháp đơn giản mang ý nghĩa khác biệt tuyệt đối dự đoán xếp hạng cho tất xếp hạng giữ lại người dùng tập kiểm tra, MAE tính sau: n MAE = ∑ | rui − r$ui | n u =1 (3.15) Trong đó: + rui đánh giá thực tế người dùng u cho sản phẩm i + r$ui đánh giá dự đoán người dùng u cho sản phẩm i (do hệ thống khuyến nghị đưa ra) + n tổng số dự đoán đánh giá 3.4.2 Root mean square error (RMSE) Sai số bình phương trung bình (RMSE) biện pháp liên quan có ảnh hưởng việc nhấn mạnh nhiều vào lỗi lớn Nó tính MAE, bình phương lỗi trước cộng tổng lại: RMSE = (rui − r$ui ) ∑ n u ,i (3.16) Trong đó: + rui đánh giá thực tế người dùng u cho sản phẩm i + r$ui đánh giá dự đoán người dùng u cho sản phẩm i (do hệ thống khuyến nghị đưa ra) + n tổng số dự đoán đánh giá 36 3.4.3 Normalized Mean absolute error (NMAE) MAE có tỷ lệ đánh giá ban đầu, ví dụ đánh giá thang biểu diễn số nguyên đoạn [1,5], MAE 0,7 có nghĩa thuật tốn trung bình bị giảm 0,7 Điều hữu ích cho việc hiểu kết ngữ cảnh cụ thể, làm cho việc so sánh kết liệu khó khăn chúng có phạm vi đánh giá khác (sai số 0,7 có ý nghĩa xếp hạng [1,5] chúng [-10,10]) Do đó, Lỗi tuyệt đối trung bình bình thường hóa (Normalized Mean absolute error - NMAE) sử dụng để giải thiếu hụt NMAE chuẩn hóa lỗi cách phân chia theo phạm vi xếp hạng (rhigh rlow xếp hạng tối đa tối thiểu hệ thống), kết số khoảng [0,1] cho tất thang đánh giá: n NMAE = | rui − r$ui | ∑ n(rhigh − rlow ) u =1 (3.17) Trong đó: + rui đánh giá thực tế người dùng u cho sản phẩm i + r$ui đánh giá dự đoán người dùng u cho sản phẩm i (do hệ thống khuyến nghị đưa ra) + n tổng số dự đốn đánh giá Kết NMAE khó giải thích quy mơ xếp hạng ban đầu sử dụng để so sánh thang đánh giá khác Do chúng hữu ích việc đo lường kết liệu có có đặc trưng khác 37 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ Mục tiêu chương thực giải pháp KNN giải pháp thừa số hóa ma trận tập liệu mơ thuê bao di động đăng ký dịch vụ VAS Các kết thu dùng để làm so sánh đánh giá hiệu hai thuật toán việc xây dựng hệ thống khuyến nghị sản phẩm dịch vụ VAS KNN phương pháp đơn giản chạy nhanh, tỏ hiệu liệu lớn có nhiều thơng tin Phương pháp MF có độ xác cao phù hợp với tập liệu thưa 4.1 Dữ liệu thực nghiệm Tập liệu sử dụng để thực nghiệm: gồm 123427 xếp hạng từ 7913 người dùng di động cho 1077 gói cước dịch vụ VAS Dữ liệu xây dựng mô từ tập thuê bao sử dụng dịch vụ VAS Viettel Do lí bảo mật thơng tin khách hàng nên người dùng dịch vụ mã hóa id người dùng dịch vụ, đặc trưng người dùng scale thay đổi Bảng 4.1 danh sách file liệu dùng để thử nghiệm thuật toán: Bảng 4.1 Danh sách file liệu thử nghiệm STT File train Số lượng ghi File test Số lượng ghi Ghi mf_train_1.txt 109999 mf_test_1.txt 10775 MF fold mf_train_2.txt 110775 mf_test_2.txt 9999 MF fold mf_train_3.txt 110775 mf_test_3.txt 9999 MF fold mf_train_4.txt 110775 mf_test_4.txt 9999 MF fold mf_train_5.txt 110775 mf_test_5.txt 9999 MF fold mf_train_6.txt 110775 mf_test_6.txt 9999 MF fold knn_train_1.txt 45000 knn_test_1.txt 4999 KNN fold knn_train_2.txt 44999 knn_test_2.txt 5000 KNN fold knn_train_3.txt 44999 knn_test_3.txt 5000 KNN fold 10 knn_train_4.txt 44999 knn_test_4.txt 5000 KNN fold 11 knn_train_5.txt 44999 knn_test_5.txt 5000 KNN fold 12 knn_train_6.txt 44999 knn_test_6.txt 5000 KNN fold  Dữ liệu thử nghiểm phương pháp KNN 38 Trong phương pháp KNN, người dùng có nhiều thuộc tính trình bày mục 2.3 Nhưng phạm vi tiến hành thực nghiệp, chùng tơi sử dụng thuộc tính người dùng tổng tiêu dùng (tồng tiền cước) mà người dùng trả cho đầu mục Thoại, Nhắn tin, VAS Data để tính độ tương tự khách hàng Các doanh thu scale đoạn [0, 1] để bảo mật dễ tính toán Mỗi người dùng biểu diễn dạng vector U(mobile, sms, vas, data) Thuộc tính sản phẩm khơng sử dụng đến phạm vi thử nghiệm + Các file liệu train từ knn_train_1.txt đến knn_train_6.txt test từ knn_test_1.txt đến knn_test_6.txt (thử nghiệm lần) Mỗi ghi file gồm trường: trường đầu thuộc tính người dùng, trường cuối mã dịch vụ mà người dùng sử dụng (quy ước khách hàng sử dụng dịch vụ mức đánh giá cho dịch vụ 5) + Tập thuộc tính người dùng I = { mobile, sms, vas, data } (4 trường đầu file liệu), lúc k=4 Ví dụ ta có người dùng u(0.2, 0.5, 0, 0.1) v(0.3, 0.2, 01, 0.5), khoảng cách u v tính theo cơng thức (3.3) sau: ′ d Euclidean (u, v ) = k ∑ (I i =1 ui − I vi ) = (0.2 − 0.3) + (0.5 − 0.2) + (0 − 0.1) + (0.1 − 0.5)2 = 0.519615 + Sau tính khoản cách người dùng, ta tìm K người dùng gần nhất, từ tính ước lược đánh giá người dùng theo cơng thức (3.6) (3.7) Cuối ta so sánh ước lượng đánh giá tính với đánh giá thực tế người dùng với dịch vụ sử dụng (quy ước cho mã dịch vụ - trường số file knn_test_x.txt) Bảng 4.2 Dữ liệu thử nghiệm thuật toán KNN 39 Total_mobile Total_sms Total_vas Total_data Service_id 0.0013 0.0096 0.0796 1255 0.0117 0.0619 1276 0.1602 0.018 0.0036 0.0619 57 0.0804 0.041 0.0041 0.292 130 0.0002 0.0099 0.0637 704 0.0895 0.0156 0 61  Dữ liệu thử nghiểm phương pháp MF Trong phương pháp MF, liệu sử dụng để thử nghiệm ma trận R sử dụng dịch vụ VAS thuê bao di động, rij = tức người dùng i sử dụng dịch vụ VAS j:  Bảng 4.3 Ma trận sử dụng dịch vụ VAS p1 p2 p3 p4 … pm u1 ? ? ? ? ? u2 ? ? ? ? u3 ? ? ? ? … ? ? ? ? un 5 ? ? ? + Các file liệu train (từ mf_train_1.txt đến mf_train_6.txt) test (từ mf_test_1.txt đến mf_test_6.txt) thuật toán MF Cấu trúc file gồm trường mã thuê bao di động (khách hàng), mã dịch vụ mà thuê bao dùng (dịch vụ/sản phẩm), đánh giá thuê bao với dịch vụ mà họ dùng (vì khơng có liệu thuê 40 bao rating dịch vụ họ dùng, nên quy ước thuê bao dùng dịch vụ đánh giá cho dịch vụ đó) Bảng 4.4 Dữ liệu thử nghiệm thuật toán MF Ma_tb Ma_dv Rating 16213 63 234715 85 105976 83 228791 57 Tập liệu tạo với mục đích phục vụ cho việc nghiên cứu lọc cộng tác dự đốn đánh giá Dữ liệu trích lọc cho thuê bao sử dụng từ 12 dịch vụ trở lên dịch vụ có nhiều người dùng 4.2 Phương pháp thực nghiệm 4.2.1 Môi trường thực nghiệm - Cấu hình máy: Chip Intel(R) Core i3, Ram 2GB, 32-bit - Cơng cụ hỗ trợ: thuật tốn chạy Python 2.7, cmd Windows - Tập liệu sử dụng để thực nghiệm: gồm 123427 xếp hạng từ 7913 người dùng di động cho 1077 gói cước dịch vụ VAS Dữ liệu xây dựng mô từ tập thuê bao sử dụng dịch vụ VAS Viettel - Các phương pháp tham gia thực nghiệm: phương pháp KNN phương pháp MF - Tiêu chuẩn đánh giá: giá trị RMSE 4.2.2 Phương pháp tiến hành thực nghiệm Hai thuật toán KNN MF cài đặt ngôn ngữ Python, sử dụng thư viện đại số ma trận tuyến tính numpy, học máy sklearn để tính tốn Thuật tốn KNN: 1: Nạp liệu huấn luyện liệu kiểm tra vào mảng train_set test_set, chọn số K 2: for u in test_set 41 Mảng neighbors = getNeighbor(train_set, K) // cơng thức Euclidean (3.3) để tính K láng giềng gần u r$u = getRate(neighbors) // cơng thức (3.6) để tính ước lược đánh giá 3: Tính RMSE // theo cơng thức (3.16) để đánh giá kết Thuật toán MF: 1: Nạp liệu huấn luyện kiểm tra vào mảng train_set test_set, chọn số λ , K 2: Sử dụng thư viện pandas để ma trận hóa tập huấn luyện train_set 3: Sử dụng thư viện numpy để tách ma trận train_set thành ma tích hai ma trận người dùng U sản phẩm P 4: Sử dụng Gradient descent để giảm mát U P 5: for (u, i) in test_set r$ui = Uu x Pi // tính ước lược đánh giá u với i 6: Tính RMSE // theo cơng thức (3.16) để đánh giá kết Chúng sử dụng cách đánh giá Cross-Validation Chia liệu làm tập, thực lần: lấy tập làm tập test, tập lại dùng để huấn luyện, sau lấy kết trung bình Thuật tốn KNN thực huấn luyện tập knn_train_n.txt kiểm tra tập knn_test_n.txt tương ứng (n = 1, 2…6) Thuật toán MF thực huấn luyện tập mf_train_n.txt kiểm tra tập mf_test_n.txt tương ứng (n = 1, 2…6) Với phương pháp, thu hồi giá trị RMSE tương ứng Giá trị trung bình RMSE tb kết dùng để để dánh giá thuật toán 4.3 Kết thực nghiệm Sau tiến hành thực nghiệm, thu kết sau: Bảng 4.5 Kết RMSE ứng với liệu 42 Phương pháp Bộ liệu Bộ liệu Bộ liệu Bộ liệu Bộ liệu Bộ liệu RMSEtb KNN 4.911679 4.914127 4.912884 4.914404 4.915279 4.911859 4.913372 MF 1.172562 1.144632 1.131938 1.165666 1.120762 1.141586 1.146191 STT 4.4 So sánh đánh giá kết thực nghiệm Phương pháp KNN cho sai số RMSE lớn, điều cho thấy liệu tiêu dùng thuê bao (thoại, sms, vas, data) yếu tố có giá trị việc thuê bao đăng ký sử dụng dịch vụ VAS hay khơng Phương pháp thừa số hoa ma trận cho kết tốt nhiều so với phương pháp KNN, kết nhỏ so với độ thưa thớt liệu Như phương pháp phù hợp với việc xây dựng hệ thống khuyến nghị dịch vụ VAS Hình 4.1 Biểu đồ so sánh RMSE phương pháp KNN MF 43 KẾT LUẬN Kết đạt được: - Nghiên cứu hệ thống khuyến nghị, kỹ thuật, thuật toán sử dụng để xây dựng hệ thống khuyến nghị sản phẩm - Xây dựng đặc trưng toán khuyến nghị cho dịch vụ VAS ngành Viễn thơng - Tìm hiểu áp dụng, thử nghiệm hai phương pháp học máy KNN MF vào toàn khuyến nghị dịch vụ VAS Hướng nghiên cứu luận văn: - Thử nghiệm nhiều đặc trưng toán khuyến nghị VAS thuật toán KNN kết tốt - Kết hợp lọc cộng tác với lọc nội dung, áp dụng thêm deep learning - Thử nghiệm tư vấn số dịch vụ VAS cụ thể để đánh giá kết thực tế 44 TÀI LIỆU THAM KHẢO [1] Badrul Sarwar, George Karypis, Joseph Konstan, and John Riedl, Item-Based Collaborative Filtering Recommendation Algorithms, University of Minnesota, Minneapolis, MN 55455 [2] Francesco Ricci, Lior Rokach, Bracha Shapira, Paul B Kantor, Recommender Systems Handbook, Springer, 2011 [3] Markus Freitag, Jan-Felix Schwarz, Matrix Factorization Techniques For Recommender Systems, University Potsdam, 2011 [4] Michael D.Ekstrand, John T Riedl, Joseph A Konstan, Collaborative Filtering Recommender Systems, University of Minnesota, 2011 [5] ZhaYefei, Trust and Recommender System, 2013 Địa chỉ: http://www.slideshare.net/zhayefei/trust-recsys [6] Zheng Wen, Recommendation System Based on Collaborative Filtering, 2008 [7] Jonathan L Herlcocker, Joseph A Konstan, Loren G Terveen, and John T Riedl, Evaluating Collaborative Filtering Recommender Systems, Oregon State University and University of Minnesota, 2004 [8] Yehuda Koren, Robert Bell and Chris Volinsky, Matrix factorization techniques for recommender system, IEEE Computer, 2009 [9] Shameem Ahamed Puthiya Parambath, Matrix Factorization Methods for Recommender Systems, Master's Thesis in Computing Science, 2013 [10] Shuai Zhang, Lina Yao, Aixin Sun, Deep Learning based Recommender System: A Survey and New Perspectives, University of New South Wales, Nanyang Technological University, 2017 [11] Guy Shani and Asela Gunawardana, Evaluating Recommendation Systems, 2011 [12] Kilian Q Weinberger, John Blitzer and Lawrence K Sau, Distance Metric Learning for Large Margin Nearest Neighbor Classification, Department of Computer and Information Science, University of Pennsylvania, 2006 [13] Tong Zhao, Julian McAuley, Irwin King, Improving Latent Factor Models via Personalized Feature Projection for One Class Recommendation, The Chinese 45 University of Hong Kong, Department of Computer Science and Engineering, UC San Diego, La Jolla, CA, USA 2015 [14] Information Technology Professional Forum (ITPF), Prepare Regulatory Framework for Mobile Value Added Service (MVAS), Nepal Telecommunications Authority, 2016 [15] Digambar Jha, Consultation Paper on Licensing Provisions to Open Mobile Value Added Services in Nepal, Nepal Telecommunications Authority Kamaladi, Kathmandu Nepal, 2017 [16] Ths Nguyễn Văn Đát, Ths Nguyễn Thị Thu Hằng, Ks Lê Sỹ Đạt, Ks Lê Hải Châu, Tổng quan viễn thơng, Học viện Cơng nghệ Bưu viễn thơng, 2007 [17] Amit K Mogal, Wireless Mobile Communication - A Study of 3G Technology, Department of Computer Science, CMCS College, Nashik-13, 2012 ... QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ KIỀU XUÂN CHẤN NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG KHUYẾN NGHỊ CHO BÀI TOÁN DỊCH VỤ GIA? ? TRỊ GIA TĂNG TRONG NGÀNH VIỄN THƠNG Ngành: Cơng nghệ. .. tồn nội dung luận văn “ Nghiên cứu và xây dựng hệ thống khuyến nghị cho bài toán dịch vụ gia? ? trị gia tăng ngành Viễn thông. ” tơi tìm hiểu, nghiên cứu, tham khảo tổng hợp từ nguồn... thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Văn Vinh TS Nguyễn Hoàng Quân Hà Nội - 2017 LỜI CAM ĐOAN Tơi xin cam đoan tồn nội dung luận văn “ Nghiên cứu và

Ngày đăng: 02/01/2023, 14:20

Tài liệu cùng người dùng

Tài liệu liên quan