Xây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dung

56 985 2
Xây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dung

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Xây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dung

i LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn cơng trình nghiên cứu riêng tơi Nội dung trình bày luận văn cá nhân trích dẫn từ nguồn tài liệu Tất tài liệu tham khảo xuất rõ ràng trích dẫn hợp pháp Các số liệu, kết trình bày luận văn trung thực chưa cơng bố cơng trình khác TP.HCM, Ngày 01 tháng 09 năm 2016 Học viên thực luận văn NGUYỄN HỒNG HOAN SANG ii LỜI CẢM ƠN Tôi xin gửi lời biết ơn sâu sắc đến TS Lê Thanh Vân, hướng dẫn nhiệt tình, tận tâm suốt q trình giúp tơi thực luận văn Cô giúp cho định hướng, phương pháp nghiên cứu, tài liệu bổ ích đặt biệt kinh nghiệm quý giá Đồng thời xin cảm ơn tất người thân yêu gia đình tồn thể bạn bè, người ln giúp đỡ động viên tơi suốt q trình thực luận văn Cuối cùng, xin chân thành cảm ơn Học Viện Cơng Nghệ Bưu Chính Viễn Thơng tạo điều kiện đặc biệt gửi lời cám ơn sâu sắc tới thầy cô tận tụy hướng dẫn, giúp đỡ truyền dạy kiến thức quý báu suốt trình học tập TP.HCM, Ngày 01 tháng 09 năm 2016 Học viên thực luận văn NGUYỄN HỒNG HOAN SANG iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH SÁCH BẢNG vi DANH SÁCH HÌNH VẼ vii MỞ ĐẦU CHƢƠNG – TỔNG QUAN 1.1 Tính cấp thiết đề tài 1.2 Tổng quan vấn đề nghiên cứu 1.3 Mục đích nghiên cứu 1.4 Đối tƣợng phạm vi nghiên cứu 1.5 Hệ thống gợi ý 1.6 Các hƣớng tiếp cận 1.6.1 Lọc dựa nội dung (Content-based filtering) 1.6.2 Lọc cộng tác (Collaborative filtering) 1.6.3 Lọc kết hợp cộng tác nội dung (Hybrid) 1.7 Ứng dụng hệ thống gợi ý 1.8 Kết luận chƣơng CHƢƠNG – CƠ SỞ LÝ THUYẾT 2.1 Đối tƣợng phục vụ hệ thống 2.2 Định nghĩa Item User 2.3 Định nghĩa User profile Item profile 10 2.4 Định nghĩa liệu tƣờng minh liệu không tƣờng minh 10 2.5 Quan hệ Item User 11 2.6 Đo khoảng cách (Distance Measure) 11 2.7.1 Gom cụm (Cluster analysis Clustering) 13 2.7.2 Thuật toán K-mode 14 2.8 Kết luận chƣơng 17 CHƢƠNG – KỸ THUẬT THỰC HIỆN 18 3.1 Framework hệ thống gợi ý 18 3.2 Cơ sở liệu lƣu trữ 19 3.2.1 Thiết kế CSDL 21 iv 3.3 Xây dựng mối quan hệ user item 22 3.4 Thu thập liệu 23 3.4.1 Thu thập post từ fanpage cộng đồng facebook.com 23 3.4.2.Thu thập liệu thông tin sản phẩm từ trang thống 24 3.4.2.1 Thu thập liệu sản phẩm từ nguồn facebook 24 3.4.2.2 Thu thập liệu sản phẩm trang thống 24 3.5 Rút trích đặc trƣng sản phẩm 24 3.5.1 Kỹ thuật sử dụng rút trích đặc trƣng cho sản phẩm 28 3.5.2 Lƣu trữ đặc trƣng định dạng kiểu số 30 3.6 Thƣ viện máy học Apache Mahout 30 3.6.1 Cài đặt thuật toán Jaccard DistanceMeasure 31 3.6.2 Cải tiến phƣơng pháp tính C trung tâm cho cụm 31 3.7 Gom nhóm sản phẩm (item clustering) 32 3.7.1 Thuật toán K-Mode hệ thống phân tán 33 3.7.2 K-Mode xử lý gom cụm hệ phân tán Hadoop 34 3.7.2.1 Hàm xử lý MAP 35 3.7.2.2 Hàm xử lý REDUCE 36 3.8 Gợi ý sản phẩm, dịch vụ 36 3.9 Đánh giá gom nhóm (Evaluation Clustering) 37 3.9.1 Khoảng cách Inter-cluster 38 3.9.2 Khoảng cách Intra-cluster 39 3.10 Kết luận chƣơng 40 CHƢƠNG – KẾT QUẢ THỰC NGHIỆM 41 4.1 Kết gom cụm 41 4.2 Kết gợi ý 42 4.3 Giao diện chƣơng trình demo 43 4.4 Môi trƣờng sử dụng 45 4.5 Mã nguồn chƣơng trình 46 4.6 Kết luận chƣơng 46 KẾT LUẬN VÀ KIẾN NGHỊ 47 DANH MỤC TÀI LIỆU THAM KHẢO 48 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt CSDL Database Cơ sở liệu APP Application Phần mềm ứng dụng RS Recommender System Hệ thống gợi ý HDFS Hadoop Distributed File System Hệ phân tán tập tin Hadoop CF Collaborative Filtering Lọc cộng tác CB Content Based Filtering Lọc dựa vào nội dung vi DANH SÁCH BẢNG Bảng 3.1: Mô tả bảng liệu lưu trữ 21 Bảng 3.2: Cấu trúc bảng main user preference 22 Bảng 3.3: Dữ liệu thu thập post bao gồm thông tin sau 23 Bảng 3.4: Thống kê đặc trưng item 25 Bảng 3.5: Thống kê cập nhật cải tiến thuật toán 31 Bảng 3.6: Thông tin thiết lặp thuật toán gom cụm K-mode Hadoop 33 Bảng 4.1: Kết thực cluster với cấu hình cho trước 41 Bảng 4.2: Kết sau thi tính khoảng cách Intra-cluster 41 Bảng 4.3: Kết gợi ý sản phẩm thuộc cluster 42 khoảng cách nhỏ 0.5 43 Bảng 4.4: Thống kê môi trường hệ thống phần mềm hỗ trợ 45 Bảng 4.5: Chương trình hệ thống 46 vii DANH SÁCH HÌNH VẼ Hình 1.1: Mơ tả tăng trưởng kinh doanh Hình 2.1: Mơ tả ứng dụng hệ thống gợi ý số lĩnh vực Hình 2.2: Mơ tả liệu item user hệ thống gợi ý 10 Hình 2.3: Mơ tả quan hệ user item 11 Hình 2.4: Sử dụng thuật tốn k-mode để gom nhóm Bước đầu, chọn k phần tử tập đối tượng đầu vào làm phần tử trung tâm, tìm đối tượng gần gán đối tượng nhóm cluster cụ thể Tính lại phẩn tử trung tâm cách tính khoảng cách trung bình tất phần tử nhóm với 15 Hình 3.1: Framework hệ thống 18 Hình 3.2: Mơ hình CSDL hệ thống gợi ý 20 Hình 3.3: Lược đồ quan hệ hệ thống gợi ý 21 Hình 3.4: Mơ tả thu thập liệu post fanpage tiki.vn fahasa.com 23 Hình 3.5: Mơ tả xử lý thu thập liệu để lấy thông tin chi tiết post thông qua url, gồm bước hình 24 Hình 3.6: Lưu đồ xử lý rút trích đặc trưng 28 Hình 3.7: Mơ tả xử lý K-Means/K-Mode mơi trường hệ phân tán Hadoop [5] 35 Hình 3.8: Mô tả luồng xử lý gợi ý sản phẩm dựa vào thơng tin nhóm thuộc giá trị ngưỡng giới hạn 38 Hình 3.9: Thể khoảng cách nhỏ khoảng cách lớn inter-cluster [6] 38 Hình 4.1: Trang chủ hệ thống (Người dùng truy cập, hệ thống hiển thị sản phẩm) 43 Hình 4.2: Trang chi tiết sản phẩm (Người dùng truy cập vào sản phẩm thực yêu thích sản phẩm) 44 Hình 4.3: Trang gợi ý sản phẩm (dựa vào sản phẩm người dùng yêu thích, hệ thống gợi ý sản phẩm tương tự) 45 MỞ ĐẦU Ngày nay, ngành thương mại điện tử tăng trưởng mạnh mặt khác nhà đầu tư, doanh nghiệp gặp khó khăn việc kinh doanh trực tuyến mặt hàng, dịch vụ đa dạng, phong phú tăng dần hình thành khối liệu lớn (Big Data) dẫn đến khó khăn việc tìm kiếm lọc mặt hàng, dịch vụ phù hợp để giới thiệu đến khách hàng Do đó, việc phát triển hệ thống gợi ý (Recommender System) cần thiết nhằm hỗ trợ cho việc lọc tìm kiếm liệu hiệu quả, phù hợp với khách hàng cụ thể, giúp khách hàng tiết kiệm thời gian cơng sức việc tìm kiếm sản phẩm mà họ quan tâm, hướng đến tiện lợi khách hàng hướng đến lợi nhuận công ty, doanh nghiệp Vấn đề nghiên cứu: Ở nước ta ngành thương mại điện tử đà phát triển, ngày tăng nhanh Rất nhiều doanh nghiệp phát triển, kinh doanh cách hệ thống thương mại lĩnh vực như: Giáo dục, Giải trí, Dịch vụ, Thương mại… Bên cạnh ta thấy hệ thống gặp vấn đề liệu q lớn gây khó khăn việc tìm kiếm lọc thơng tin, lọc liệu để phù hợp với khách hàng, phù hợp với mong muốn người dùng Với lý đó, địi hỏi phải thay đổi, nâng cấp hệ thống cho hỗ trợ người dùng tìm đến thơng tin, sản phẩm, dịch vụ mà phù hợp với mong muốn họ Do xây dựng hệ thống dự đốn gợi ý cần thiết, hệ thống gợi ý áp dụng lọc liệu thơng minh phân tích, rút trích dự đốn liệu cần thiết, giúp cho người tìm kiếm thơng tin ưng ý với Với mục đích kinh doanh ngày tăng lợi nhuận Với khó khăn chiến lược kinh doanh trực tuyến nói đến trên, luận văn phân tích đưa giải pháp “Xây dựng hệ thống gợi ý dựa phân tích sở thích người dùng theo hướng tiếp cận lọc nội dung” Hệ thống gợi ý đề tài nghiên cứu có ảnh hưởng đến chiến lược kinh doanh công ty, tổ chức, tập đoàn Ngoài phần Mở đầu, Phần kết luận Phụ lục, nội dung luận văn gồm có chương chính: Chƣơng – Tổng quan Nội dung chương giới thiệu lợi ích nghiên cứu ứp dụng hệ thống gợi ý vào kinh doanh, phân tích lợi ích doanh nghiệp khách hàng sử dụng dịch vụ Giới thiệu tổng quan hệ thống gợi ý hướng tiếp cận phổ biến Chƣơng – Cơ sở lý thuyết Nội dung chương trình bày khái niệm, định nghĩa, thuật toán, yếu tố, thành phần liên quan đến hệ thống gợi ý Chƣơng – Kỹ thuật thực Nội dung chương trình bày mơ hình xây dựng hệ thống gợi ý, thành phần công nghệ sử dụng Chƣơng – Phần mềm kết thực nghiệm Nội dung chương trình bày kết thực nghiệm hệ thống gợi ý theo hướng tiếp cận nội dung CHƢƠNG – TỔNG QUAN 1.1 Tính cấp thiết đề tài Ngày nay, ngành thương mại điện tử tăng trưởng mạnh nhà đầu tư, doanh nghiệp gặp khó khăn việc kinh doanh trực tuyến mặt hàng, dịch vụ đa dạng phong phú hình thành khối liệu lớn dẫn đến khó khăn việc tìm kiếm lọc mặt hàng, dịch vụ phù hợp để giới thiệu đến khách hàng Do đó, việc phát triển hệ thống gợi ý cần thiết nhằm hỗ trợ cho việc lọc tìm kiếm liệu hiệu quả, phù hợp với khách hàng cụ thể, giúp khách hàng tiết kiệm thời gian công sức việc tìm kiếm sản phẩm mà quan tâm, hướng đến tiện lợi khách hàng hướng đến lợi nhuận công ty, doanh nghiệp 1.2 Tổng quan vấn đề nghiên cứu Ở nước ta ngành thương mại điện tử đà phát triển, ngày tăng nhanh Rất nhiều doanh nghiệp phát triển, kinh doanh cách hệ thống thương mại lĩnh vực như: Giáo dục, Giải trí, Dịch vụ, Thương mại… Bên cạnh ta thấy hệ thống gặp vấn đề liệu lớn gây khó khăn việc tìm kiếm lọc thơng tin, lọc liệu để phù hợp với khách hàng, phù hợp với mong muốn người dùng Với lý đó, địi hỏi phải thay đổi, nâng cấp hệ thống cho hỗ trợ người dùng tìm đến thơng tin, sản phẩm, dịch vụ mà phù hợp với mong muốn họ Do xây dựng hệ thống dự đoán gợi ý cần thiết, hệ thống gợi ý áp dụng lọc liệu thơng minh phân tích, rút trích dự đoán liệu cần thiết, giúp cho người tìm kiếm thơng tin ưng ý với Với mục đích kinh doanh ngày tăng lợi nhuận Với khó khăn chiến lược kinh doanh trực tuyến nói đến trên, luận văn phân tích đưa giải pháp “Xây dựng hệ thống gợi ý dựa phân tích sở thích người dùng theo hướng tiếp cận lọc nội dung” Dữ liệu thu thập từ nguồn tiki.vn, fahasa.com để chuẩn bị liệu cho việc phân tích cho hệ thống Thu thập liệu cộng đồng người dùng từ fanpage tiki, fahasa mạng xã hội facebook.com, sau tiến hành rút trích đặc trưng sản phẩm dựa tập luật định trước phục vụ cho việc xây dựng hệ thống Để đo độ tương tự sản phẩm, độ đo Jaccard sử dụng để phù hợp cho việc đo đạc với kiểu liệu phân loại Bài toán hướng tới việc xây dựng hệ thống hệ thống phân tán Hadoop sử dụng kỹ thuật xử lý liệu lớn 35 Hình 3.7: Mơ tả xử lý K-Means/K-Mode môi trường hệ phân tán Hadoop [5] 3.7.2.1 Hàm xử lý MAP Tập liệu (d1 d2 gửi đến node 1, d3 d4 gửi đến node 2) khởi tạo C trọng tâm (c1,c2 c3) xem già trị đầu vào cho pha MAP định dạng theo dạng file sequence 36 Trong suốt pha MAP, khoảng cách tính cho liệu phần tử đến tất trọng tâm, liệu phần tử gán đến trọng tâm gần để tìm phần tử liên kết với cluters Ví dụ: d1c1 nhỏ d1c3 d2c2, d1 gán vào c1 xem kết pha MAP Kết đầu theo định dạng cặp key-value (key = mã C trọng tâm, value = liệu phần tử) để sử dụng pha REDUCE [5] 3.7.2.2 Hàm xử lý REDUCE Dữ liệu phần tử thuộc C trọng tâm cụ thể xử lý máy node riêng độc lập pha REDUCE Ví dụ, kết từ pha MAP (c2, d4 c2, d2) xử lý máy node Trong suốt pha REDUCE, phần tử trung tâm tính lại phương thức tính khoảng cách phù hợp với liệu cụm cụ thể Dữ liệu phần từ xem xét vị trí để chọn trọng tâm Các trọng tâm xét vòng lặp vector trung tâm [5] 3.8 Gợi ý sản phẩm, dịch vụ Sau thực gom nhóm cho tập liệu, sản phẩm, dịch vụ có thêm thơng tin về: khoảng cách, nhóm mà sản phẩm thuộc Xét sản phẩm A khách hàng yêu thích ta biết sản phẩm A thuộc nhóm nào, từ chọn danh sách sản phẩm dịch vụ có nhóm với A ngưỡng khoảng cách giới hạn 0.5 37 Hình 3.8: Mơ tả luồng xử lý gợi ý sản phẩm dựa vào thơng tin nhóm thuộc giá trị ngưỡng giới hạn Luồng xử lý gợi ý sản phẩm, dịch vụ Bước 1: Khách hàng vào hệ thống kinh doanh mặt hàng Sau Khách hàng nhấn nút “yêu thích” thể yêu thích khách hàng sản phẩm Bước 2: Hệ thống lọc danh sách sản phẩm có kho liệu theo điều kiện: - Nhóm: nhóm sản phẩm mà khách hàng thể yêu thích - Khoảng cách: nhỏ 0.5, ngưỡng giới hạn để chọn sản phẩm phù hợp với khách hàng Bước 3: Giới thiệu sản phẩm 3.9 Đánh giá gom nhóm (Evaluation Clustering) Để đánh giá chất lượng kết gom nhóm ta xét khoảng cách Inter-cluster khoảng cách Intra-cluster Chúng ta cần phải đảm bảo độ tương tự intra-cluster cao độ tương tự inter-cluster thấp[6] 38 Cho tất phần tử trung tâm, khoảng cách tất cặp phần tử trung tâm tính cách sử dụng độ đo khoảng cách thể ma trận Ma trận khoảng cách Inter-cluster cho biết phần tử cluster thể khoảng cách xa gần cho cluster Hình 3.9: Thể khoảng cách nhỏ khoảng cách lớn inter-cluster [6] Khoảng cách inter-cluster đo đạt liệu phân bố hiệu quả, phụ thuộc vào kỹ thuật trọng số đặt trưng độ đo khoảng cách sử dụng Khoảng cách intra-cluster khoảng cách phần tử trọng cluster, tốt khoảng cách cluster phân biệt [6] 3.9.1 Khoảng cách Inter-cluster Khoảng cách Inter-cluster độ đo tốt chất lượng gom nhóm, phần tử gom nhóm tốt khơng có trung tâm gần với trung tâm cluster khác, điều thể việc xử lý phân nhóm tạo cluster có đặc trưng tương tự, tạo không gian khoảng cách phần tử bên cluster khó hỗ trợ [6] Tính khoảng cách cặp trung tâm với nhau, tìm kiếm giá trị max tất cặp trên, sau tính tỉ lệ khoảng cách trung bình inter-cluster: (3.9) Khoảng cách inter-cluster nhỏ cho biết có hai cluster ảo giống trùng Nếu giá trị max gần biên độ, cluster phân bố ổn định 39 Duyệt qua tất cluster để lấy thông tin phần tử trung tâm, thực đo khoảng cách phần tử với cụm xác định giá trị min, max, tính khoảng cách trung bình average dựa theo công thức đề cặp phần Input - Thông tin phần tử trung tâm cụm - Khoảng cách lớn (max) - Khoảng cách nhỏ (min) - Khoảng cách trung bình (average) Output Mã nguồn xử lý tính khoảng cách Inter-cluster Bước 1: Duyệt phần tử cluster trung tâm Bước 2: - Tính khoảng cách phần tử trung tâm gán vào biến d - Tìm khoảng cách d có giá trị ngắn gán vào biến - Tìm khoảng cách d có giá trị lớn gán vào biến max - Tính tổng khoảng cách gán vào biến sum - Đếm khoảng cách tính gán vào biến count Bước 3: Tính giá trị trung bình (average): (sum / count - min) / (max - min) 3.9.2 Khoảng cách Intra-cluster Khoảng cách Intra-cluster khoảng cách phần tử bên cluster, so sánh bên khoảng cách inter-cluster Khoảng cách tốt trả giá trị khoảng cách nhỏ đối tượng cho thấy giống gom nhóm cluster chặt chẽ phân biệt [6] Như ta thấy để có cluster tốt giá trị phần tử (vector) chất lượng, điều quan trọng để tạo cluster chất lượng lựa chọn phương thức đo khoảng cách phù hợp Ví dụ: phương thức tính khoảng cách Cosine tốt cho việc clustering tài liệu (text document) Duyệt qua tất cụm sau thực gom cụm phương pháp K-means Với cụm, tính khoảng cách phần tử bên cụm với nhau, tìm khoảng cách min, max average cụm Input - Thông tin tất phần tử cụm 40 Output - Tập liệu cho cụm riêng biệt, gồm thông tin: min, max, average - Số cluster, tổng số item cluster Mã nguồn xử lý tính khoảng cách Intra-cluster Cách tính tương tự tính inter-cluster Bước 1: Duyệt phần tử cụm cluster Bước 2: Tính giá trị min, max, sum, count average phần tử với cụm Tính số cluster, tổng số item cluster 3.10 Kết luận chƣơng Nội dung chương trình bày framework hệ thống giải pháp dùng để xây dựng hệ thống gợi ý theo hướng tiếp cận lọc nội dung Bao gồm giải pháp: thu thập liệu, rút trích đặc trưng sản phẩm, gom cụm K-means xử lý liệu môi trường Hadoop MapReduce 41 CHƢƠNG – KẾT QUẢ THỰC NGHIỆM 4.1 Kết gom cụm Thực cluster tập liệu gồm 1806 tin Lần lượt chọn giá trị k số lần lặp tối đa để thực cluster, ta có khoảng cách Inter-cluster sau: Bảng 4.1: Kết thực lần lƣợt cluster với cấu hình cho trƣớc Từ bảng thống kê ta thấy lần test thứ với số cluster k=50 có khoảng cách trung bình thấp Như với cluster k=50 có chất lượng tốt Tiếp theo, thực tính khoảng cách Intra-cluster với kết gom nhóm (k=50, số lần lặp 30) Ta có kết sau: Bảng 4.2: Kết sau thi tính khoảng cách Intra-cluster cluster id 10 11 12 13 14 15 16 17 total item 74 20 10 10 26 1 11 11 max 0.88 0.83 0.5 0.33 0.71 0.66 0.75 0.4 0.66 0 0.66 0.66 0.54 0.5 0.33 0.8 0.7 average 0.00 0.00 0.00 0.00 0.00 0.16 0.00 0.40 0.00 0.00 0.00 0.00 0.00 0.00 0.25 0.00 0.00 0.11 0.64 0.59 0.73 0.2 0.61 0.64 0.66 N/A 0.24 N/A N/A 0.72 0.57 0.77 0.44 0.28 0.62 0.44 42 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 11 10 17 96 373 42 11 79 29 13 11 15 29 315 330 2 140 18 0.7 0.71 0.7 0.33 0.4 0.8 0.33 0.33 0.88 0.6 0.77 0.75 0.77 0.54 0.81 0.94 0.5 0.44 0.8 0.58 0.88 0.9 0.75 0.66 0.33 0.09 0.33 0.94 0.77 0.70 0.00 0.00 0.00 0.40 0.00 0.19 0.00 0.00 0.60 0.00 0.00 0.00 0.00 0.00 0.00 0.50 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.33 0.09 0.33 0.00 0.00 0.14 4.2 Kết gợi ý Truy cập vào website hệ thống, thực yêu thích sản phẩm với mã “tiki_91094926” thuộc cluster 42, sau chọn 10 sản phẩm cluster ngưỡng khoảng cách chọn nhỏ 0.5, ta có kết sau: N/A 0.72 0.46 0.67 N/A 0.58 0.66 0.7 0.53 N/A 0.477 0.59 0.56 0.49 0.57 0.48 N/A 0.71 N/A 0.56 0.51 N/A 0.51 0.59 0.74 0.7 N/A N/A N/A N/A 0.49 0.54 43 Bảng 4.3: Kết gợi ý sản phẩm thuộc cluster 42 khoảng cách nhỏ 0.5 Từ bảng thống kê ta thấy liệu chọn gợi ý với thuật toán ý tưởng ta đề 4.3 Giao diện chƣơng trình demo Hình 4.1: Trang chủ hệ thống (Người dùng truy cập, hệ thống hiển thị sản phẩm) 44 Hình 4.2: Trang chi tiết sản phẩm (Người dùng truy cập vào sản phẩm thực yêu thích sản phẩm) 45 Hình 4.3: Trang gợi ý sản phẩm (dựa vào sản phẩm người dùng yêu thích, hệ thống gợi ý sản phẩm tương tự) 4.4 Môi trƣờng sử dụng Hệ thống sử dụng hệ điều hành hệ CSDL, máy ảo, hệ phân tán Hadoop, ngôn ngữ java số thư viện khác Bảng 4.4: Thống kê môi trƣờng hệ thống phần mềm hỗ trợ STT Tên Phần mềm Chú thích Hệ điều hành: Sử dụng để triển khai công cụ - Ubuntu 15 môi trường hỗ trợ phát triển hệ thống - Window Hệ thống phân tán: Apache Hadoop 2.6 Sử dụng để xử lý tính tốn liệu lớn, phép tốn máy học gom cụm Máy ảo: VMWare 10 Sử dụng cài hệ điều hành Ubuntu, phục vụ cho việc triển khai hệ thống phân tán 46 Apache Hadoop, sở liệu Hbase thư viện máy học Mahout Cơ sở liệu: Cơ sở liệu lưu trữ, phục vụ cho việc - MongoDB 3.2 khai thác liệu lưu trữ thông tin - Hbase 1.0 sản phẩm, dịch vụ, người dùng… - MySQL 5.6 Ngơn ngữ lập trình: Java 1.8 Sử dụng ngơn ngữ Java để phát triển Thư viện máy học: Apache Mahout 0.9 Thư viện dùng để gom cụm sản phẩm, dịch vụ Thư viện web crawler: Jsoup Thư viện dùng để thu thập thông tin từ trang web 4.5 Mã nguồn chƣơng trình Hệ thống gồm nhiều module phát triển đóng gói thành chương trình, gồm tiến trình web application Bảng 4.5: Chƣơng trình hệ thống STT Chƣơng trình Chú thích HbaseMigrate HbaseMigrate gồm nhiều module liên quan đến việc xử lý, crawler thu thập liệu, rút trích liệu, chuyển đổi, tạo cấu trúc liệu MahoutCluster MahoutCluster gồm nhiều module liên quan đến việc gom nhóm liệu, đánh giá gom nhóm, trích xuất liệu nhóm lưu trữ từ HDFS ghi vào CSDL WebAppRS WebAppRS có chức thể trình bày sản phẩm, gửi ý dựa vào liệu tạo từ chương trình HbaseMigrate MahoutCluster 4.6 Kết luận chƣơng Nội dung chương trình bày kết thực nghiệm hệ thống gợi ý dựa theo hướng tiếp cận nội dung Môi trường phần mềm sử dụng, hệ thống sử dụng hệ phân tán Hadoop để xử lý liệu lớn viết ngôn ngữ Java gồm chương trình chính: tiến trình web application 47 KẾT LUẬN VÀ KIẾN NGHỊ Hệ thống gợi ý xem hệ thống chiến lược việc kinh doanh trực truyến ngày nay, góp phần cho việc tăng lợi nhuận kinh doanh thu hút khách hàng đến viếng thăm.Hệ thống gợi ý giúp cho khách hàng tìm thấy, có điều họ muốn, họ mong đợi mà làm giảm thời gian tìm kiếm Hệ thống gơi ý ứng dụng phát triển mạnh mẽ mặt, lĩnh vực: giải trí, kinh doanh, giáo dục… Luận văn đóng góp sau: - Xử lý liệu lớn tảng Hadoop, dễ dàng mở rộng hệ thống - Cải tiến thuật tốn gom cụm thư viện Mahout để tính K-Mode - Bổ sung phương thức tính khoảng cách Jaccard cho thư viện Mahout - Gợi ý sản phẩm theo hướng tiếp cận lọc nội dung Luận văn nhiên cứu phát triển hệ thống gợi ý theo hướng tiếp cận dựa nội dung sản phẩm Góp phần cho việc giới thiệu sản phẩm đa dạng đến khách hàng 48 DANH MỤC TÀI LIỆU THAM KHẢO [1] Francesco Ricci, Lior Rokach, Bracha Shapira, Paul B Kantor (2011), Recommender Systems Handbook [2] Jure Leskovec, Anand Rajaraman, Jerey D.Ullman, Jerey D.Ullman (2014), Mining of Massive Datasets [3] Satnam Alag(2009), Collective Intelligence in Action [4] Pasquale Lops, Marco de Gemmis and Giovanni Semeraro, “Content-based Recommender system: State of the Art and Trends” [5] Chandramani Tiwary (2015), Learning Apache Mahout [6] Sea Owen, Robin Anil, Ted Dunning, Ellen Friedman (2011), Mahout in Action [7] Jiawei Han, Micheline Kamber, Jian Pei (2011), Data Mining Concepts and Techniques [8] Kohei ARAI, ANIK Nur Handayani (2014), “Predicting Quality of Answer in Collaborative Question Answer Learning”, International Journal of Advanced Research in Artificial Intelligence - IJARAI , vol 3, no [9] Winarko, Sri Hartati, Retantyo Wardoyo (2014), “Improving the Prediction Accuracy of Multicriteria Collaborative Filtering by Combination Algorithms”, International Journal of Advanced Computer Science and Applications - IJACSA , vol 5, no [10] Edi Winarko, Sri Hartati, Retantyo Wardoyo (2014), “The Effect of Diversity Implementation on Precision in Multicriteria Collaborative Filtering”, International Journal of Advanced Computer Science and Applications - IJACSA , vol 5, no [11] Kohei Arai, ANIK Nur Handayani (2013), “Predicting Quality of Answer in Collaborative Q/A Community”, International Journal of Advanced Research in Artificial Intelligence - IJARAI , vol 2, no [12] Ante Odi'c, Marko Tkalčič, Jurij F Tasic, Andrej Košir (2013), “Predicting and Detecting the Relevant Contextual Information in a Movie-Recommender System” [13] Saikat Guha, Mudit Jain, Venkata N Padmanabhan (2012), “A Location-Privacy Platform for Smartphone Apps” [14] W Zheng, Yu Zheng, Xing Xie, Qiang Yang (2012), “Towards Mobile Intelligence: Learning from GPS History Data for Collaborative Recommendation” 49 [15] Shahriar Nirjon, Robert F Dickerson, Qiang Li, Philip Asare, John A Stankovic, Dezhi Hong, Ben Zhang, Xiaofan Jiang, Guobin Shen, Feng Zhao (2012), “MusicalHeart: A Hearty Way of Listening to Music” [16] Shawn O'Banion, Larry Birnbaum, Kristian Hammond (2012), “Social media-driven news personalization” [17] Andrey Feuerverger, Yu He, Shashi Khatri (2012), “Statistical Significance of the Netflix Challenge”, Statistical Science - STAT SCI , vol 27, no 2012, pp 202-231 [18] Brian McFee, Thierry Bertin-Mahieux, Daniel P W Ellis, Gert R G (2012), “The million song dataset challenge” [19] Nikos Manouselis, Alan Said, Domonkos Tikk, Jannis Hermanns, Benjamin Kille, Hendrik Drachsler, Katrien Verbert, Kris Jack (2012), “Recommender systems challenge 2012” [20] Thiago Belluf, Leopoldo Xavier, Ricardo Giglio (2012), “Case study on the business value impact of personalized recommendations on a large online retailer” ... doanh trực tuyến nói đến trên, luận văn phân tích đưa giải pháp ? ?Xây dựng hệ thống gợi ý dựa phân tích sở thích người dùng theo hướng tiếp cận lọc nội dung? ?? Hệ thống gợi ý đề tài nghiên cứu có... lược kinh doanh trực tuyến nói đến trên, luận văn phân tích đưa giải pháp ? ?Xây dựng hệ thống gợi ý dựa phân tích sở thích người dùng theo hướng tiếp cận lọc nội dung? ?? Dữ liệu thu thập từ nguồn tiki.vn,... 1.5 Hệ thống gợi ý Hệ thống gợi ý hệ thống áp dụng công nghệ giải thuật lọc liệu cách thông minh, giúp cho người dùng tìm kiếm sản phẩm, dịch vụ mà họ ưng ý 1.6 Các hƣớng tiếp cận Hệ thống gợi ý

Ngày đăng: 18/12/2016, 00:11

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan