Xây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dung
1 PHẦN MỞ ĐẦU Ngày nay, ngành thương mại điện tử tăng trưởng mạnh nhà đầu tư, doanh nghiệp gặp khó khăn việc kinh doanh trực tuyến mặt hàng, dịch vụ đa dạng phong phú tăng dần hình thành khối liệu lớn (Big Data) dẫn đến khó khăn việc tìm kiếm lọc mặt hàng, dịch vụ phù hợp để giới thiệu đến khách hàng Do đó, việc phát triển hệ thống gợi ý (Recommender System) cần thiết nhằm hỗ trợ cho việc lọc tìm kiếm liệu hiệu quả, phù hợp với khách hàng cụ thể, giúp khách hàng tiết kiệm thời gian cơng sức việc tìm kiếm sản phẩm mà quan tâm, hướng đến tiện lợi khách hàng hướng đến lợi nhuận công ty, doanh nghiệp Hệ thống gợi ý đề tài nghiên cứu có ảnh hưởng đến chiến lược kinh doanh cơng ty, tổ chức, tập đồn Dữ liệu thu thập từ nguồn tiki.vn, fahasa book để chuẩn bị liệu cho việc phân tích cho hệ thống Thu thập bình luận cộng đồng người dùng từ nguồn vnexpress mạng xã hội facebook.com, sau tiến hành xử lý ngơn ngữ tự nhiên để phân tích cảm xúc người dùng phục vụ cho việc xây dựng hệ thống Ngoài phần Mở đầu, Phần kết luận Phụ lục, nội dung luận văn gồm có chương chính: Chương – Tổng quan Nội dung chương giới thiệu lợi ích nghiên cứu ứp dụng hệ thống gợi ý vào kinh doanh, phân tích lợi ích doanh nghiệp khách hàng sử dụng dịch vụ Giới thiệu tổng quan hệ thống gợi ý hướng tiếp cận phổ biến Chương – Cơ sở lý thuyết Nội dung chương trình bày khái niệm, định nghĩa, thuật toán, yếu tố, thành phần liên quan đến hệ thống gợi ý Chương – Kỹ thuật thực Nội dung chương trình bày mơ hình xây dựng hệ thống gợi ý, thành phần công nghệ sử dụng Chương – Phần mềm kết thực nghiệm Nội dung chương trình bày kết thực nghiệm Hệ thống gợi ý theo hướng tiếp cận nội dung 3 PHẦN NỘI DUNG CHƢƠNG – TỔNG QUAN 1.1 Tính cấp thiết đề tài Ngày nay, ngành thương mại điện tử tăng trưởng mạnh nhà đầu tư, doanh nghiệp gặp khó khăn việc kinh doanh trực tuyến mặt hàng, dịch vụ đa dạng phong phú hình thành khối liệu lớn dẫn đến khó khăn việc tìm kiếm lọc mặt hàng, dịch vụ phù hợp để giới thiệu đến khách hàng Do đó, việc phát triển hệ thống gợi ý cần thiết nhằm hỗ trợ cho việc lọc tìm kiếm liệu hiệu quả, phù hợp với khách hàng cụ thể, giúp khách hàng tiết kiệm thời gian cơng sức việc tìm kiếm sản phẩm mà quan tâm, hướng đến tiện lợi khách hàng hướng đến lợi nhuận công ty, doanh nghiệp 1.2 Tổng quan vấn đề nghiên cứu Ở nước ta ngành thương mại điện tử đà phát triển, ngày tăng nhanh Rất nhiều doanh nghiệp phát triển, kinh doanh cách hệ thống thương mại lĩnh vực như: Giáo dục, Giải trí, Dịch vụ, Thương mại… Bên cạnh ta thấy hệ thống gặp vấn đề liệu lớn gây khó khăn việc tìm kiếm lọc thơng tin, lọc liệu để phù hợp với khách hàng, phù hợp với mong muốn người dùng Với lý đó, đòi hỏi phải thay đổi, nâng cấp hệ thống cho hỗ trợ người dùng tìm đến thông tin, sản phẩm, dịch vụ mà phù hợp với mong muốn họ Do xây dựng hệ thống dự đoán gợi ý cần thiết, hệ thống gợi ý áp dụng lọc liệu thông minh phân tích, rút trích dự đốn liệu cần thiết, giúp cho người tìm kiếm thơng tin ưng ý với Với mục đích kinh doanh ngày tăng lợi nhuận Với khó khăn chiến lược kinh doanh trực tuyến nói đến trên, luận văn phân tích đưa giải pháp “Xây dựng hệ thống gợi ý dựa phân tích sở thích người dùng theo hướng tiếp cận lọc nội dung” Dữ liệu thu thập từ nguồn tiki.vn, fahasa.com để chuẩn bị liệu cho việc phân tích cho hệ thống Thu thập liệu cộng đồng người dùng từ fanpage tiki, fahasa mạng xã hội facebook.com, sau tiến hành rút trích đặc trưng sản phẩm dựa tập luật định trước phục vụ cho việc xây dựng hệ thống Để đo độ tương tự sản phẩm, độ đo Jaccard sử dụng để phù hợp cho việc đo đạc với kiểu liệu phân loại Bài toán hướng tới việc xây dựng hệ thống hệ thống phân tán Hadoop sử dụng kỹ thuật xử lý liệu lớn Kết đạt hệ thống gợi ý sản phẩm dịch vụ phù hợp với người dùng mà họ quan tâm, ưng ý 1.3 Mục đích nghiên cứu Xây dựng hệ thống gợi ý hỗ trợ khách hàng tìm sản phẩm u thích thơng qua lịch sử u thích lịch sử mua sắm họ, phân tích sở thích người dùng, dự đốn gợi ý mặt hàng dịch vụ đến khách hàng mà họ quan tâm, nhằm thu hút khách hàng tăng doanh thu Mục tiêu nghiên cứu: Thu thập liệu chuẩn bị cho việc phân tích dự đốn sản phẩm, dịch vụ Xây dựng lọc dựa nội dung (Content-based filtering [1]) để tích hợp vào hệ thống gợi ý sản phẩm, dịch vụ dựa vào thuật toán máy học Triển khai Hadoop MapReduce tích hợp lọc Content-based vào hệ thống Hadoop để phân tích xử lý liệu sau trainning để tập liệu gợi ý Xây dựng hệ thống website dựa tập liệu thu thập hệ thống Hadoop Sau thử nghiệm phân tích kiểm chứng kết 1.4 Đối tƣợng phạm vi nghiên cứu Nghiên cứu chiến lược kinh doanh trực tuyến Việt Nam, xây dựng ứng dụng hệ thống gợi ý vào việc kinh doanh sản phẩm, dịch vụ trực tuyến Nghiên cứu phân tích chi tiết đặc trưng sản phẩm dịch vụ, tìm hiểu mối quan hệ giữ sản phẩm dịch vụ với nhau, phân tích hành vi khách hàng tác động lên sản phẩm dịch vụ, phân tích sở thích khách hàng mặt hàng dịch vụ Nghiên cứu hướng tiếp cận lọc dựa nội dung để xây dựng hệ thống gợi ý, giúp cho khách hàng dễ dàng tìm kiếm sản phẩm mà họ ưng ý 1.5 Hệ thống gợi ý Hệ thống gợi ý hệ thống áp dụng công nghệ giải thuật lọc liệu cách thông minh, giúp cho người dùng tìm kiếm sản phẩm, dịch vụ mà họ ưng ý 1.6 Các hƣớng tiếp cận 1.6.1 Lọc dựa nội dung Hướng tiếp cận lọc nội dung, trả lời cho câu hỏi “Tôi muốn xem nhiều sản phẩm dịch vụ khác tương tự sản phẩm dịch vụ mà tơi xem, u thích mua, gợi ý cho sản phẩm dịch vụ phù hợp với tôi.” 1.6.2 Lọc cộng tác Hướng tiếp cận lọc cộng tác, trả lời cho câu hỏi “Tôi muốn xem sản phẩm dịch vụ phổ biến cộng đồng quan tâm phù hợp với tơi Bạn có gợi ý cho tơi khơng?” 1.6.3 Lọc kết hợp cộng tác nội dung Hướng tiếp cận kết hợp hướng tiếp cận lọc dựa nội dung hướng tiếp cận lọc cộng tác Hướng tiếp cận Hybrid kết hợp kỹ thuật A B, sử dụng điểm mạnh A để khác phục cải tiến điểm yếu B Ví dụ: CF có điểm yếu vấn đề item mới, phương pháp CF gợi ý item chưa đánh giá (rating) điều hướng tiếp cận CB giải được, CB dự đốn dựa vào đặc tính item để gợi ý 1.7 Ứng dụng hệ thống gợi ý Hệ thống gợi ý ứng dụng thành công lĩnh vực như: - Hệ thống giới ý giới thiệu sản phẩm: Amazon, Ebay - Hệ thống giải trí gợi ý phim ảnh: Youtube, Netflix 7 - Hệ thống gợi ý viết, tin tức: Google news, Yahoo news… - Hệ thống gợi ý cho trang xã hội: Facebook, Twitter 1.8 Kết luận chƣơng Nội dung chương trình bày vấn đề khó khăn gặp phải việc kinh doanh trực tuyến ngày nay, đưa lý lợi ích cho khách hàng doanh nghiệp ứng dụng hệ thống gợi ý vào việc kinh doanh họ, giới thiệu tổng quan hệ thống gợi ý hướng tiếp cận phổ biến CHƢƠNG – CƠ SỞ LÝ THUYẾT 2.1 Đối tƣợng phục vụ hệ thống Hệ thống phục vụ loại khách hàng: khách hàng thân thuộc khách hàng vãng lai Khách hàng thân thuộc khách hàng có hồ sơ thơng tin cá nhân, có lịch sử mua sắm thường xuyên đến thăm viếng website Ví dụ: anh Nguyễn quan tâm đến thiết bị công nghệ điện thoại, máy tính bảng,… Nguyễn đánh giá sản phẩm, yêu thích sản phẩm mua sản phẩm Nguyễn khách hàng thân thuộc có hồ sơ cá nhân Gần đây, anh Nguyễn quay lại website để tìm kiếm mua phụ kiện liên quan đến điện thoại mà mua cách vài hôm Từ thơng tin trên, hệ thống phân tích, xây dựng chiến lược để dự đoán giới thiệu phụ kiện sản phẩm tương tự dựa vào từ khóa sản phẩm mà tìm kiếm tốn trước Khách hàng vãng lai khách hàng chưa có hồ sơ thơng tin cá nhân, chưa mua sắm đến thăm viếng website Ví dụ: chị Hà người dùng mới, khơng có hồ sơ cá nhân, lần đầu đến thăm viếng website Hệ thống dựa vào kho lịch sử mua sắm, lịch sử yêu thích sản phẩm tuần qua để phân tích chọn top sản phẩm người dùng quan tâm công đồng mua sắm gần để hiển thị giới thiệu cho Hà Sau Hà chọn xem sản phẩm, hệ thống phân tích dự đốn sở thích chị Hà, từ hệ thống tận dụng thông tin để thực gợi ý sản phẩm đến Hà ưng ý 2.2 Định nghĩa Item User Hệ thống gợi ý bao gồm đối tượng: Item, user Item User có mối quan hệ mật thiết với Item đối tượng gợi ý đến user như: sản phẩm, dịch vụ, hát, báo, clip… user Item có đặc trưng metadata như: chủ đề, mơ tả, nơi dung, từ khóa, dung lượng, kích thước… Những đặc trưng hệ thống xử lý dự đoán gợi ý item tương tự đến user User đối tượng phục vụ hệ thống như: khách hàng đến mua sản phẩm, người dùng viếng thăm website để xem phim, đọc tin tức, nghe nhạc 2.3 Định nghĩa User profile Item profile Hệ thống gợi ý items phù hợp dựa nội dung đặc trưng profile user Item profile tập nội dung đặc trưng quan trọng mơ tả item Ví dụ như: tập phim ta xây dựng profile như: danh sách viễn viên, danh sách đạo diễn, năm phát hành, thể loại User profile tập item profile người dùng thông qua lịch sử mua sắm, yêu thích… Profile thể yêu thích người dùng quan tâm đến sản phẩm 2.4 Định nghĩa liệu Trong hệ thống gợi ý có loại liệu phân tích tạo thơng qua hàng động khách hàng tác động lên sản phẩm, dịch vụ Ví dụ như: đánh giá, yêu thích, mua sắm,… Dữ liệu tường minh liệu sau tạo người như: liệu log khách hàng đánh giá sản phẩm, dịch vụ; liệu log yêu thích sản phẩm, dịch vụ; liệu log bình luận sản phẩm, dịch vụ; liệu log mua sắm sản phẩm, dịch vụ Dữ liệu không tường minh liệu sau tạo người dùng như: liệu log xem trang sản phẩm, dịch vụ; liệu log tìm kiếm 2.5 Quan hệ Item User 2.6 Đo khoảng cách (Distance Measure) Như biết, thuật toán gom cụm phụ thuộc ảnh hưởng vào phương thức tính khoảng cách Tùy thuộc vào toán, cấu trúc liệu mà định lựa chọn phương pháp 10 tính khoảng cách phù hợp Ví dụ: để gom nhóm tài liệu, báo chọn phương pháp tính khoảng cách Cosine 2.7.1 Gom cụm (Cluster analysis Clustering) 2.7.2 Thuật toán K-mode Tương tự K-mean, thuật toán K-mode phiên cải tiến thuật toán K-means Do việc xử lý gom cụm sản phẩm, dịch vụ tốn khơng phù hợp với thuật toán K-means nên cải tiến K-means thành K-mode Thuật tốn K-mode dùng để phân nhóm, với trung tâm nhóm xác định giá trị khoảng cách nhỏ tất đối tượng nhóm 2.8 Kết luận chƣơng Nội dung chương trình lý thuyết hệ thống gợi ý, khái niệm liên quan đến hệ thống gợi ý như: user, item, mối quan hệ user với item, khái niệm liệu tường minh Cơ sở lý thuyết làm tảng để giải toán gợi ý: độ đo khoảng cách, gom nhóm cuối ví dụ minh họa 11 CHƢƠNG – GIẢI PHÁP THỰC HIỆN 3.1 Framework hệ thống gợi ý Hệ thống gợi ý gồm có thành phần xử lý chính: Xử lý feedback: module kiểm sốt hành động người dùng tác động lên sản phẩm, lưu liệu log người dùng thể quan tâm sản phẩm qua thao tác như: u thích, chia sẽ, đánh dấu, bình chọn comment Rút trích đặc trưng: module phân tích nội dung mơ tả item từ liệu thô không cấu trúc (như text), sau rút trích đặc tính sản phẩm, dịch vụ xây dựng thơng tin có cấu trúc cho sản phẩm, dịch vụ Xây dựng User preference: module tổng hợp liệu hành động người dùng thể yêu thích quan tâm sản phẩm qua lịch sử thao tác người dùng lên sản phẩm xây dựng thông qua kỹ thuật máy học như: gom nhóm, phân lớp Clustering: module thực gom nhóm item dựa vào đặt trưng, phục vụ cho việc dự đoán sản phẩm dịch vụ phù hợp với khách hàng Xử lý lọc: module tận dụng liệu user preference để gợi ý sản phẩm phù hợp qua việc phân tích, kết hợp với liệu gom nhóm item profile để đưa tập liệu gợi ý 12 3.2 Cơ sở liệu lƣu trữ Hệ thống gợi ý sử dụng hệ sở liệu sau: - Mysql CSDL dùng để lưu trữ thông tin quan trọng hệ thống sản phẩm, dịch vụ, khách hàng - Mongodb CSDL dùng để crawler thu thập liệu, chuẩn bị cho việc xử lý - Hbase CSDL dùng để xử lý tính tốn gom cụm môi trường Hadoop 3.3 Xây dựng mối quan hệ user item Mỗi khách hàng đến viếng thăm website, họ xem sản phẩm sản phẩm làm họ hài lịng họ vào nút “like” giao diện website để thể u thích sản phẩm Khi ta có quan hệ user item 3.4 Thu thập liệu Dữ liệu phân tích thu thập từ nguồn tiki.vn, fahasa.com fanpage tiki, fahasa từ cộng đồng facebook 3.4.1 Thu thập post từ fanpage facebook Dữ liệu post ta thu thập clawer từ nguồn fanpage facebook phục vụ cho việc rút trích đặc trưng, xây dựng hồ sơ người dùng hồ sơ item Dữ liệu thu thập lưu trữ vào Hệ CSDL MongoDB 3.4.2.Thu thập liệu thơng tin sản phẩm từ trang 13 Sau bước thu thập liệu từ fanpage, thực truy cập đến trang thống tiki.vn fahasa.com để crawler tiếp liệu chi tiết, đặc trưng item như: mô tả, giá tiền, màu sắc, thể loại, xuất bản,… để phục vụ cho việc tìm kiếm, tìm item tương tự 3.5 Rút trích đặc trƣng sản phẩm Chúng ta kinh doanh mặt hàng sản phẩm dịch vụ, thông tin quan trọng giúp cho hệ thống tìm kiếm dựa vào hướng tiếp cận “Lọc dựa nội dung” trường đặc trưng (feature) sản phẩm, dịch vụ Ví dụ: loại sản phẩm, giá tiền, màu sắc, trọng lượng, bảo hành Vì ta cần phải thống kê feature rút trích đặc trưng cho sản phẩm dịch vụ thông qua mô tả sản phẩm 3.5.1 Kỹ thuật sử dụng rút trích đặc trƣng cho sản phẩm 3.5.2 Lƣu trữ đặc trƣng định dạng kiểu số Trong kỹ thuật lọc dựa vào nội dung sử dụng K-Mode để gom cụm sản phẩm có độ tương tự với nhau, độ đo khoảng cách sử dụng phương pháp Jaccard distance measure Vì feature sản phẩm, dịch vụ phải chuyển dạng số đặc trưng cho giá trị feature 3.6 Thƣ viện máy học Apache Mahout Apache Mahout thư viện mã nguồn mở hỗ trợ việc xý lý tính tốn liệu như: gom cụm, phân lớp, định, 14 thống gợi ý [5]… Mahout hỗ trợ tính mở rộng, cho phép hoạt động môi trường hệ phân tán Hadoop framework [6] Trong luận văn sử dụng thư viện máy học Mahout Sử dụng thuật tốn K-Mode để gom cụm nhằm mục đích cho việc tìm kiếm sản phẩm tương tự, thuật tốn K-Mode sử dụng phương thức tính khoảng cách Jaccard K-Mode tiến từ K-Mean gói mã nguồn thư viện Mahout 3.6.1 Cài đặt thuật toán Jaccard DistanceMeasure 3.6.2 Cải tiến phƣơng pháp tính C trung tâm cho cụm 3.7 Gom nhóm sản phẩm (item clustering) Thực việc gom nhóm để xác định sản phẩm có độ tương tự với nhau, xem xét gom vào nhóm, giúp cho việc tìm kiếm sản phẩm tương tự gợi ý đến khách hàng cách nhanh chóng hiệu Gom nhóm có ảnh hưởng việc chọn k nhóm để phân bố phần tử việc chọn phương pháp đo khoảng cách có phù hợp với đối tượng hay khơng Trong kỹ thuật gom nhóm, sử dụng độ đo Jaccard, phương pháp chưa thư viện máy học Apache Mahout hỗ trợ, cài đặt thuật toán để giải vấn đề gom nhóm Ngồi ra, phương pháp khơng sử dụng cách tính C trung tâm cho cụm Apache hỗ trợ khơng phù hợp 3.7.1 Thuật toán K-Mode hệ thống phân tán 3.7.2 K-Mode xử lý gom cụm hệ phân tán Hadoop 15 3.8 Gợi ý sản phẩm, dịch vụ Sau thực gom nhóm cho tập liệu, sản phẩm, dịch vụ có thêm thơng tin về: khoảng cách, nhóm mà sản phẩm thuộc Xét sản phẩm A khách hàng yêu thích ta biết sản phẩm A thuộc nhóm nào, từ chọn danh sách sản phẩm dịch vụ có nhóm với A ngưỡng khoảng cách giới hạn 0.5 3.9 Đánh giá gom nhóm (Evaluation Clustering) Để đánh giá chất lượng kết gom nhóm ta xét khoảng cách Inter-cluster khoảng cách Intra-cluster Chúng ta cần phải đảm bảo độ tương tự intra-cluster cao độ tương tự inter-cluster thấp Cho tất phần tử trung tâm, khoảng cách tất cặp phần tử trung tâm tính cách sử dụng độ đo khoảng cách thể ma trận Ma trận khoảng cách Inter-cluster cho biết phần tử cluster thể khoảng cách xa gần cho cluster 3.9.1 Khoảng cách Inter-cluster Khoảng cách Inter-cluster độ đo tốt chất lượng gom nhóm, phần tử gom nhóm tốt khơng có trung tâm gần với trung tâm cluster khác, điều thể việc xử lý phân nhóm tạo cluster có đặc trưng tương tự, tạo không gian khoảng cách phần tử bên cluster khó hỗ trợ 16 Tính khoảng cách cặp trung tâm với nhau, tìm kiếm giá trị max tất cặp trên, sau tính tỉ lệ khoảng cách trung bình inter-cluster 3.9.2 Khoảng cách Intra-cluster Khoảng cách Intra-cluster khoảng cách phần tử bên cluster, so sánh bên khoảng cách intercluster Khoảng cách tốt trả giá trị khoảng cách nhỏ đối tượng cho thấy giống gom nhóm cluster chặt chẽ phân biệt Như ta thấy để có cluster tốt giá trị phần tử (vector) chất lượng, điều quan trọng để tạo cluster chất lượng lựa chọn phương thức đo khoảng cách phù hợp Ví dụ: phương thức tính khoảng cách Cosine tốt cho việc clustering tài liệu (text document) 3.10 Kết luận chƣơng Nội dung chương trình bày framework hệ thống giải pháp dùng để xây dựng hệ thống gợi ý theo hướng tiếp cận lọc nội dung Bao gồm giải pháp: thu thập liệu, rút trích đặc trưng sản phẩm, gom cụm K-means xử lý liệu môi trường Hadoop MapReduce 17 CHƢƠNG – PHẦN MỀM VÀ KẾT QUẢ THỰC NGHIỆM 4.1 Kết gom cụm Thực gom nhóm tập liệu gồm 1806 tin Lần lượt chọn giá trị k số lần lặp tối đa để thực cluster 4.2 Kết gợi ý Truy cập vào website hệ thống, thực yêu thích sản phẩm với mã “tiki_91094926” thuộc cluster 42, sau chọn 10 sản phẩm cluster ngưỡng khoảng cách chọn nhỏ 0.5 4.3 Giao diện chƣơng trình demo 4.4 Mơi trƣờng sử dụng Hệ thống sử dụng hệ điều hành hệ CSDL, máy ảo, hệ phân tán Hadoop, ngôn ngữ java số thư viện khác 4.5 Mã nguồn chƣơng trình Hệ thống gồm nhiều module phát triển đóng gói thành chương trình, gồm tiến trình web application 4.6 Kết luận chƣơng Nội dung chương trình bày kết thực nghiệm hệ thống gợi ý dựa theo hướng tiếp cận nội dung Môi trường phần mềm sử dụng, hệ thống sử dụng hệ phân tán Hadoop để xử lý liệu lớn viết ngôn ngữ Java gồm chương trình chính: tiến trình web application 18 PHẦN KẾT LUẬN Hệ thống gợi ý xem hệ thống chiến lược việc kinh doanh trực truyến ngày nay, góp phần cho việc tăng lợi nhuận kinh doanh thu hút khách hàng đến viếng thăm.Hệ thống gợi ý giúp cho khách hàng tìm thấy, có điều họ muốn, họ mong đợi mà làm giảm thời gian tìm kiếm Hệ thống gơi ý ứng dụng phát triển mạnh mẽ mặt, lĩnh vực: giải trí, kinh doanh, giáo dục… Luận văn đóng góp sau: - Xử lý liệu lớn tảng Hadoop, dễ dàng mở rộng hệ thống - Cải tiến thuật tốn gom cụm thư viện Mahout để tính K-Mode - Bổ sung phương thức tính khoảng cách Jaccard cho thư viện Mahout - Gợi ý sản phẩm theo hướng tiếp cận lọc nội dung Luận văn nhiên cứu phát triển hệ thống gợi ý theo hướng tiếp cận dựa nội dung sản phẩm Góp phần cho việc giới thiệu sản phẩm đa dạng đến khách hàng ... lược kinh doanh trực tuyến nói đến trên, luận văn phân tích đưa giải pháp ? ?Xây dựng hệ thống gợi ý dựa phân tích sở thích người dùng theo hướng tiếp cận lọc nội dung? ?? Dữ liệu thu thập từ nguồn tiki.vn,... cách Jaccard cho thư viện Mahout - Gợi ý sản phẩm theo hướng tiếp cận lọc nội dung Luận văn nhiên cứu phát triển hệ thống gợi ý theo hướng tiếp cận dựa nội dung sản phẩm Góp phần cho việc giới... ưng ý 1.5 Hệ thống gợi ý Hệ thống gợi ý hệ thống áp dụng công nghệ giải thuật lọc liệu cách thông minh, giúp cho người dùng tìm kiếm sản phẩm, dịch vụ mà họ ưng ý 1.6 Các hƣớng tiếp cận 1.6.1 Lọc