1. Trang chủ
  2. » Tất cả

Nghiên Cứu Và Xây Dựng Hệ Thống Gợi Ý Địa Điểm Du Lịch 7761804.Pdf

37 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 37
Dung lượng 2,24 MB

Nội dung

Luanvan ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA TRẦN HỮU PHƯỚC NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG GỢI Ý ĐỊA ĐIỂM DU LỊCH LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng Năm 2017 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌ[.]

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA TRẦN HỮU PHƯỚC NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG GỢI Ý ĐỊA ĐIỂM DU LỊCH LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng - Năm 2017 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA TRẦN HỮU PHƯỚC NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG GỢI Ý ĐỊA ĐIỂM DU LỊCH Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS Nguyễn Văn Hiệu Đà Nẵng - Năm 2017 LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực hướng dẫn trực tiếp TS Nguyễn Văn Hiệu Mọi tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian, địa điểm cơng bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm Tác giả luận văn Trần Hữu Phước MỤC LỤC LỜI CAM ĐOAN MỤC LỤC TÓM TẮT LUẬN VĂN DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC CÁC BẢNG DANH MỤC CÁC HÌNH MỞ ĐẦU 1 Lý chọn đề tài Mục tiêu nhiệm vụ đề tài Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Ý nghĩa khoa học thực tiễn đề tài Bố cục luận văn Chương - TỔNG QUAN DU LỊCH QUẢNG NAM VÀ HỆ THỐNG GỢI Ý 1.1 TỔNG QUAN VỀ DU LỊCH QUẢNG NAM 1.2 CÁC PHƯƠNG PHÁP GỢI Ý 1.2.1 Phương pháp gợi ý dựa nội dung 1.2.2 Phương pháp gợi ý dựa lọc cộng tác 1.2.3 Phương pháp gợi ý lai 1.3 HỆ THỐNG GỢI Ý 10 1.3.1 Giới thiệu hệ thống gợi ý 10 1.3.2 Chức hệ thống gợi ý 12 1.3.3 Dữ liệu nguồn tri thức 14 1.3.3.1 Sản phẩm 14 1.3.3.2 Người dùng 14 1.3.3.3 Giao dịch 15 1.3.4 Bài toán tổng quát hệ thống gợi ý 16 1.3.5 Các website du lịch Việt Nam 17 KẾT LUẬN CHƯƠNG 19 Chương - PHƯƠNG PHÁP GỢI Ý VÀ MƠ HÌNH ĐỀ XUẤT 20 2.1 PHƯƠNG PHÁP LỌC CỘNG TÁC 20 2.1.1 Ưu điểm phương pháp lọc cộng tác 22 2.1.2 Các hình thức tiếp cận 23 2.1.2.1 Phương pháp tiếp cận dựa nhớ (Memory base) 23 2.1.2.2 Phương pháp tiếp cận dựa mơ hình (Model-based) 23 2.2 KỸ THUẬT PHÂN RÃ MA TRẬN 24 2.3 MƠ HÌNH ĐỀ XUẤT 28 2.3.1 Xử lý đầu vào 28 2.3.2 Xử lý đầu 29 2.3.3 Kết hợp phương pháp gợi ý theo ngữ cảnh 31 KẾT LUẬN CHƯƠNG 32 Chương - XÂY DỰNG HỆ THỐNG GỢI Ý ĐỊA ĐIỂM DU LỊCH 33 3.1 MÔ TẢ HỆ THỐNG 33 3.2 PHÂN TÍCH, THIẾT KẾ VÀ XÂY DỰNG HỆ THỐNG 35 3.2.1 Sơ đồ ca sử dụng 36 3.2.2 Sơ đồ hoạt động sơ đồ 38 3.2.3 Cơ sở liệu 41 3.2.4 Một số giao diện minh họa hệ thống 44 3.3 ĐÁNH GIÁ 47 KẾT LUẬN CHƯƠNG 49 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50 TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (Bản sao) TÓM TẮT LUẬN VĂN NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG GỢI Ý ĐỊA ĐIỂM DU LỊCH Học viên: Trần Hữu Phước Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 Khóa: K31 Trường Đại học Bách khoa - ĐHĐN Tóm tắt - Hệ thống gợi ý (Recommender Systems - RS) ứng dụng rộng rãi nhiều lĩnh vực (như thương mại điện tử, giải trí, giáo dục, ) nhằm dự đốn sở thích người dùng nhờ vào thông tin cá nhân phản hồi (đánh giá) họ Luận văn tập trung nghiên cứu hệ thống gợi ý theo ngữ cảnh, áp dụng cho gợi ý du lịch nhằm gợi ý địa điểm du lịch phù hợp với người dùng Hệ thống kết hợp phương pháp lọc cộng tác, tích hợp kỹ thuật phân rã ma trận (matrix factorization) nhằm tăng độ xác cho hệ thống Sau xây dựng hệ thống tích hợp giải thuât gợi ý, thu thập thông tin từ người dùng thực nhằm đánh giá hiệu hệ thống đề xuất Thực nghiệm cho thấy việc ứng dụng giải pháp hỗ trợ phát triển du lịch hoàn tồn khả thi Từ khóa - Hệ thống gợi ý, kỹ thuật phân rã ma trận, lọc cộng tác RESEARCHING AND BUILDING TOURIS RECOMMENDATION SYSTEMS Abstract - Recommender Systems are widely used in many areas, such as in ecommerce (for online shopping), in entertainments (for movie recommendation, music recommendation, etc) and so on, to predict users’ preference based on their past preferences/behaviors In this work, propose an approach for Building Recommender Systems Then apply this approach for a Tourist recommendation system so that the system can recommend appropriate places to tourists This system combines several approaches such as matrix factorization to improve the prediction accuracy of the model Experimental results show that this is a promising approach for building Tourist Recommender Systems Key words - Recommender Systems, Context-Aware Tourist Recommender Systems, matrix factorization, collaborative filtering DANH MỤC CÁC TỪ VIẾT TẮT CF IF IR MF RS SGD Collaborative filtering (Lọc cộng tác) Information filtering (Lọc thông tin) Information retrieval (Thu thập thông tin) Matrix Factorization (Kỹ thuật phân rã ma trận) Recommender Systems (Hệ thống gợi ý) Stochastic Gradient Descent (Giảm độ lệch ngẫu nhiên) DANH MỤC CÁC CÁC BẢNG Số hiệu bảng 1.1 2.1 2.2 2.3 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 Tên bảng Dữ liệu ma trận người dùng x sản phẩm Minh hoạ tập liệu với ngữ cảnh Tập liệu sau sử dụng phương pháp xử lý ngữ cảnh đầu vào Hậu xử lý kết dự đoán Bảng khách hàng Bảng loại tin Bảng địa điểm Bảng quảng cáo Bảng đánh giá Bảng loại hình Bảng đặt lịch tham quan Bảng quản trị Bảng Menu Bảng liên hệ Bảng tin tức Trang 29 29 31 41 42 42 42 42 43 43 43 43 43 44 DANH MỤC CÁC HÌNH Số hiệu hình 1.1 1.2 1.3 1.4 2.1 2.2 2.3 2.4 2.5 2.6 2.7 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15 3.16 3.17 3.18 3.19 3.20 3.21 Tên hình Minh họa phương pháp gợi ý dựa lọc nội dung Minh họa phương pháp gợi ý dựa lọc cộng tác Minh hoạ hệ thống gợi ý Các thành phần hệ thống gợi ý Hệ thống gợi ý lọc cộng tác trang web Amazon.com Quy trình hệ thống gợi ý dựa lọc cộng tác Minh họa kỹ thuật phân rã ma trận Minh hoạ dự đoán người dùng thứ cho item thứ Mơ hình đề xuất quy trình gợi ý Sử dụng phương pháp xử lý ngữ cảnh đầu vào Xử lý thơng tin ngữ cảnh đầu Quy trình sử dụng website Sơ đồ kiến trúc tổng thể hệ thống Sơ đồ ca sử dụng tổng quát hệ thống Sơ đồ ca sử dụng khách hàng Sơ đồ ca sử dụng người quản trị Sơ đồ hoạt động chức gợi ý Sơ đồ chức gợi ý Sơ đồ hoạt động chức cập nhật nội dung Sơ đồ chức cập nhật nội dung Sơ đồ hoạt động chức đánh giá Sơ đồ chức đánh giá Sơ đồ quan hệ sở liệu Giao diện trang chủ website Giao diện xem tin tức du lịch Giao diện đánh giá địa điểm du lịch Giao diện liên hệ Giao diện đăng nhập Giao diện đăng ký Giao diện địa điểm du lịch Giao diện gợi ý theo loại hình So sánh RMSE phương pháp Trang 11 17 20 21 25 27 28 29 30 34 35 36 37 37 38 38 39 39 40 40 41 44 45 45 46 46 46 47 47 48 MỞ ĐẦU Lý chọn đề tài Trong thời đại bùng nổ thông tin, nhu cầu tìm kiếm thơng tin Internet ngày trở nên phổ biến Việc cần tìm thơng tin sản phẩm đó, giải pháp hầu hết người dùng sử dụng đưa câu hỏi vào công cụ tìm kiếm thay tìm website/forum chuyên ngành Tuy nhiên, cơng cụ tìm kiếm đưa danh sách lựa chọn đưa lựa chọn tốt Ví dụ, du khách lần đầu đến Quảng Nam, muốn tìm địa điểm du lịch cách tìm Google “Quang Nam tour”, nhận gần 20.000.000 kết trả Hầu hết địa điểm du lịch danh sách kết xa lạ tự quảng cáo tốt nhất, làm cho du khách bối rối biển thơng tin, vậy, du khách cần lời khuyên cho trường hợp Hệ thống gợi ý (Recommender system - RS) trở thành lĩnh vực nghiên cứu quan trọng kể từ báo lọc cộng tác (Collaborative filtering - CF) xuất vào năm 1990 [14] Hiện nay, quan tâm hệ thống gợi ý cao cần thiết ứng dụng giúp người dùng xử lý với tình trạng q tải thơng tin đưa nội dung lời khuyên phù hợp cho cá nhân Hệ thống gợi ý dạng kỹ thuật lọc thông tin sử dụng rộng rãi nhiều lĩnh vực (như thương mại điện tử, giải trí, giáo dục, ) nhằm dự đốn sở thích người dùng nhờ vào thông tin cá nhân phản hồi (đánh giá) từ người dùng Hệ thống gợi ý học từ người dùng gợi ý sản phẩm tốt số sản phẩm phù hợp Các hệ thống gợi ý thường dùng ứng dụng có hai thực thể người dùng sản phẩm mà khơng đặt chúng vào ngữ cảnh cung cấp gợi ý Nói cách khác hệ thống gợi ý đa số tập trung vào giới thiệu sản phẩm phù hợp với người dùng cá nhân mà không xem xét đến thông tin ngữ cảnh người dùng thời gian, địa điểm… Để hệ thống gợi ý dự đốn xác sở thích người dùng phụ thuộc vào mức độ mà hệ thống gợi ý kết hợp thông tin theo ngữ cảnh Với việc ngành du lịch năm qua phát triển mạnh mẽ, đem lại lợi ích to lớn kinh tế - xã hội, góp phần thúc đẩy ngành sản xuất dịch vụ phát triển Nhờ tiềm đa dạng phong phú với nhiều danh lam thắng cảnh, từ thu hút khơng khách du lịch nước Tuy nhiên, khách du lịch thường gặp phải khó khăn đến nơi lạ lẫm Du 14 dùng với phiên truy cập xác định Đây tác vụ hỗ trợ kỹ thuật đa phương tiện - Tìm kiếm gợi ý tin tưởng: Một số người dùng không tin tưởng vào hệ thống gợi ý, họ tham gia vào hệ thống để thấy hệ thống đưa gợi ý tốt tới mức Do đó, số hệ thống đưa chức xác phép họ thử nghiệm hành vi họ, yêu cầu gợi ý - Cải thiện hờ sơ cá nhân người dùng: Người dùng có khả cung cấp thơng tin, họ thích, khơng thích với hệ thống gợi ý Điều cần thiết để đưa gợi ý mang tính chất cá nhân hóa Nếu hệ thống khơng xác định tri thức người dùng hoạt động đưa gợi ý giống - Bày tỏ ý kiến mình: Một số người dùng khơng quan tâm tới gợi ý, hơn, quan trọng với họ góp ý kiến, đánh giá sản phẩm, giúp ích người khác lựa chọn sản phẩm - Tác động tới người dùng khác: Trong hệ thống gợi ý web, có nhiều người tham gia với mục tiêu họ tác động tới hệ thống gợi ý, dẫn tới ảnh hưởng tới người dùng khác mua sản phẩm cụ thể (Thông qua đánh giá sản phẩm,…) Tác động họ thúc đẩy gây bất lợi cho sản phẩm 1.3.3 Dữ liệu nguồn tri thức Hệ thống gợi ý hệ thống xử lý thông tin thu thập từ loại liệu khác để xây dựng gợi ý Dữ liệu chủ yếu sản phẩm cần gợi ý người dùng nhận gợi ý Tuy nhiên, liệu nguồn tri thức sẵn có cho hệ thống gợi ý đa dạng Trong trường hợp nào, liệu sử dụng hệ thống gợi ý thuộc ba loại: sản phẩm (Item), người dùng (User) giao dịch (Transactions), quan hệ người dùng sản phẩm 1.3.3.1 Sản phẩm Sản phẩm đối tượng gợi ý Các sản phẩm đặc trưng tiện ích giá trị Giá trị sản phẩm tích cực hữu ích cho người dùng, tiêu cực sản phẩm không phù hợp với người dùng Công nghệ cốt lõi hệ thống gợi ý sử dụng loạt thuộc tính tính item Ví dụ hệ thống gợi ý phim, thể loại (Hài, kinh dị, ) tên tuổi đạo diễn diễn viên sử dụng để mơ tả phim đặc điểm bật 1.3.3.2 Người dùng 15 Người dùng hệ thống gợi ý đối tượng để gợi ý có mục tiêu đặc điểm đa dạng Để cá nhân hoá gợi ý tương tác người-máy, hệ thống gợi ý khai thác loạt thông tin người dùng Những thơng tin cấu trúc theo nhiều cách khác việc chọn thông tin phụ thuộc vào kỹ thuật gợi ý Người dùng mơ tả mơ hình hành vi họ, ví dụ mơ hình trình duyệt, mơ hình tìm kiếm du lịch Ngồi ra, liệu người dùng cịn bao gồm mối quan hệ người dùng mức độ tin cậy mối quan hệ người dùng Hệ thống gợi ý sử dụng thơng tin để giới thiệu item từ người dùng đáng tin cậy khác thích item 1.3.3.3 Giao dịch Giao dịch tương tác người dùng hệ gợi ý Nó lưu trữ liệu, thơng tin đăng nhập quan trọng tạo trình tương tác người - máy tính có ích cho thuật tốn gợi ý mà hệ thống sử dụng Ví dụ, ghi giao dịch chứa tham chiếu đến sản phẩm lựa chọn người dùng mô tả bối cảnh (mục tiêu người dùng/truy vấn) cho gợi ý cụ thể Nếu có sẵn, giao dịch bao gồm thông tin phản hồi rõ ràng người dùng cung cấp, chẳng hạn đánh giá cho sản phẩm chọn Trên thực tế, hình thức phổ biến liệu giao dịch mà hệ thống gợi ý thu thập xếp hạng Những đánh giá thu thập cách rõ ràng dạng biến ẩn Trong trường hợp xếp hạng rõ ràng, người dùng yêu cầu cung cấp ý kiến mục thang điểm đánh giá Các xếp hạng hình thức sau: - Xếp hạng từ số đến - Xếp hạng thứ tự chẳng hạn như: hoàn toàn đồng ý, đồng ý, trung lập, không đồng ý Ở đây, người dùng yêu cầu chọn thuật ngữ tốt cho ý kiến - Xếp hạng nhị phân lựa chọn mơ hình người dùng việc chọn mục tốt hay xấu, thích hay khơng thích, - Hoặc có đánh giá khơng đánh giá Một hình thức khác để đánh giá gộp tất thẻ liên quan người dùng với item hệ thống Ví dụ, hệ thống gợi ý MovieLens 16 thẻ biểu diễn việc người dùng cảm thấy sau xem phim, "quá dài" "hành động" Trong giao dịch xếp hàng dạng ẩn, mục đích hệ thống để đưa ý kiến người dùng dựa cảc hành động người dùng Ví dụ, người dùng nhập từ khóa "Yoga" Amazon cung cấp danh sách dài sách có liên quan Mặt khác, người dùng click vào sách danh sách để nhận thêm thông tin Ở điểm này, hệ thống suy người dùng có phần quan tâm đến sách 1.3.4 Bài toán tổng quát hệ thống gợi ý Với khái niệm tốn gợi ý mô tả sau [10]: Cho U tập tất người dùng hệ thống gợi ý, I tập tất cảc sản phẩm gợi ý Hàm r(u,i) có tác dụng đo độ phù hợp sản phẩm i với người dùng u: r:U  I  R R tập đánh giá thứ tự Với người dùng u ∈ U, hệ thống gợi ý cần chọn sản phẩm i ∈ I chưa biết với người dùng u cho hàm r(u, i) đạt giá trị lớn Vậy cơng việc giải thuật tìm giá trị hàm r=f(u, i), với r lớn sản phẩm i người dùng u ưa thích Trong hệ thống gợi ý, mức độ phù hợp sản phẩm thường biểu diễn theo đánh giá thang điểm (rating), tùy vào ứng dụng đánh giá thực trực tiếp người dùng tính tốn hệ thống Hệ thống gợi ý gồm ba hoạt động chính: Bước 1: Thu thập thông tin người dùng người dùng tương tác với hệ thống lưu vào hồ sơ người dùng Bước 2: Hệ thống xác định mối quan tâm người dùng thực thi thuật toán tư vấn nhằm so sánh, đánh giá mối liên hệ hồ sơ người dùng tương tự khác hồ sơ sản phẩm có Bước 3: Đề xuất tập hợp sản phẩm người dùng quan tâm 17 Hình 1.4 Các thành phần hệ thống gợi ý [2] 1.3.5 Các website du lịch Việt Nam Hiện nay, Việt Nam, có nhiều website cung cấp thơng tin du lịch Tuy nhiên, hầu hết website thuộc vào hai dạng đây: * Các trang bán tour trực tuyến: Các website cung cấp thông tin giá tour, giá vé, giá khách sạn, hành trình tour… dịch vụ liên quan, tập trung quảng cáo thúc đẩy việc bán tour cho đơn vị lữ hành Website tiêu biểu dạng travel.com.vn trang mạng bán tour trực tuyến đơn vị lữ hành Vietravel Trang cho phép người dùng tìm tour theo số thơng tin : nơi đến, thời gian khởi hành, giá tour, khuyến mãi…sau đặt tour tốn trực tuyến website Trong thông tin tour du lịch, vấn đề giá hay khuyến website đưa thơng tin điểm du lịch đến điểm du lịch nào, làm gì, xem gì, mua đó… Bên cạnh đó, website cho phép người dùng viết lại ý kiến hay thắc mắc tour để giải đáp Ưu điểm: thiết kế giao diện đẹp mắt, thuận tiện cho người dùng, nội dung tour du lịch đầy đủ, chi tiết, phạm vi điểm du lịch rộng lớn nước Nhược điểm: thơng tin điểm du lịch cịn sơ sài, thấy tour giá rẻ mà không thấy tour ưa chuộng, không thấy thái độ khách điểm du lịch tour * Cẩm nang du lịch: So với trang bán tour trực tuyến website tập trung trình bày nhiều điểm đến điểm du lịch, cung cấp thơng tin chùm điểm du lịch, ẩm thực, văn hóa…tại điểm đến, có thu thập ý kiến đánh giá người dùng Tuy nhiên, trang web dạng mang tính quảng bá thúc đẩy tăng doanh thu cho nhà cung cấp, chưa tập trung vào tư vấn cho người dùng 18 Ưu điểm: blog có giao diện đơn giản thể đầy đủ nội dung, blog giới thiệu, miêu tả số điểm du lịch đầy đủ hấp dẫn, đưa thêm thông tin điểm ăn uống, phương tiện lại, khách sạn gần điểm du lịch Các điểm du lịch phân loại theo điểm đến cách chi tiết, cho phép người dùng đánh giá, like chia sẻ qua facebook Nhược điểm: số lượng phạm vi điểm du lịch giới thiệu lớn nên blog đưa nội dung chi tiết số điểm du lịch lại mang tính chất giới thiệu, khơng có nhiều hình ảnh thông tin địa cách thức liên hệ gây khó khăn cho khách du lịch cá nhân tự túc Tuy có phần đánh giá người dùng khơng có phần tạo tài khoản người dùng nên khó sử dụng liệu cho hệ thống gợi ý du lịch Như vậy, website du lịch Việt Nam chủ yếu tập trung hỗ trợ công việc đặt tour, bán tour cho đơn vị lữ hành Mặc dù thông tin người dùng với đánh giá họ nguồn CSDL quan trọng cho hệ thống gợi ý du lịch, song thực tế hệ thống gợi ý du lịch website cịn nghiêng phục vụ lợi ích nhà cung cấp nên không trọng việc thu thập thông tin cá nhân người dùng khơng có nguồn CSDL phù hợp để sử dụng Dữ liệu đánh giá người dùng website không đầy đủ dẫn đến việc gây khó khăn cho thống kê, làm giảm chất lượng kết gợi ý Một đặc điểm khác phạm vi điểm đến điểm du lịch giới thiệu website du lịch rộng lớn, nước, nước châu lục khác nhau, mạnh du lịch nhiên tạo nhược điểm lớn: liệu, thông tin cho điểm đến hay điểm du lịch thường đầy đủ hồn thiện Do đó, luận văn đề xuất phạm vi nội dung tập trung vào khu vực cụ thể Quảng Nam, vùng đất du lịch tiềm chưa khai thác hiệu hai đầu đất nước Từ đây, việc xây dựng website nhằm thu thập thông tin đánh giá số địa điểm du lịch Quảng Nam làm CSDL cho hệ thống gợi ý địa điểm du lịch vô cần thiết 19 KẾT LUẬN CHƯƠNG Trong chương 1, luận văn trình bày tổng quan du lịch Quảng Nam, phương pháp gợi ý hệ thống gợi ý: Khái niệm chung, chức hệ thống gợi ý sở liệu sử dụng hệ thống gợi ý Ngoài ra, chương nêu số website du lịch có Việt Nam để làm sở xây dựng hệ thống gợi ý địa điểm du lịch Quảng Nam 20 Chương - PHƯƠNG PHÁP GỢI Ý VÀ MƠ HÌNH ĐỀ XUẤT Mỗi phương pháp gợi ý có ưu điểm hạn chế riêng, khai thác mối liên hệ mạ trận đánh giá người dùng Không giống phương pháp lọc theo nội dung, lọc cơng tác khai thác sở thích người dùng để tạo gợi ý áp dụng kỹ thuật phân rã ma trận kỹ thuật tiến số kỹ thuật phương pháp CF 2.1 PHƯƠNG PHÁP LỌC CỘNG TÁC Lọc cộng tác (Collaborative Filtering - CF)[13] gợi ý sản phẩm dự đoán sản phẩm hợp lý cho người dùng, dựa hành vi khứ người dùng, ví dụ như: lịch sử giao dịch, đánh giá sản phẩm, thời gian xem mục tin…và đặc biệt khơng cần thiết phải tạo hồ sơ tường minh (Explicit feedback) cho người dùng Giả thuyết lọc cộng tác là: “nếu người dùng i j đánh giá cho n sản phẩm tương tự nhau, có hành vi tương tự ( như: xem, mua, nghe…) họ có đánh giá tương tự sản phẩm khác” Để gợi ý mục tin, hệ thống lọc cộng tác cần so sánh đối tượng khác mục tin (items) người dùng (users) Có hai nhánh nghiên cứu lọc cộng tác tiếp cận láng giềng (neighborhood approach) mô hình nhân tố ẩn (latent factor models) Hình 2.1 Hệ thống gợi ý lọc cộng tác trang web Amazon.com [3] Phương pháp gợi ý lọc cộng tác hoàn toàn khác so với phương pháp gợi ý dựa nội dung Thay giới thiệu sản phẩm, chúng tương tự sản phẩm người dùng thích khứ, cách tiếp cận lọc cộng tác gợi ý 21 sản phẩm dựa vào ý kiến người dùng khác Thơng thường, cách tính tốn giống người dùng, tập hợp láng giềng gần (nearest-neighbor) người dùng có sở thích tương quan đáng kể với người dùng định tìm thấy Như vậy, phương pháp này, người dùng chia sẻ sở thích họ sản phẩm mà họ tiêu dùng để người dùng khác hệ thống có định tốt sản phẩm Cách tiếp cận lọc cộng tác kỹ thuật gợi ý thành công chấp nhận rộng rãi Bài toán lọc cộng tác: Cho tập hợp hữu hạn U = {u1, u2, …, uN} tập gồm N người dùng, P = {p1, p2, …, pM} tập gồm M sản phẩm mà người dùng lựa chọn Mỗi sản phẩm pi ϵ P hàng hóa, phim, ảnh, tạp chí, tài liệu, sách, báo, dịch vụ dạng thông tin mà người dùng cần đến Mối quan hệ tập người dùng U tập sản phẩm P biểu diễn thông qua ma trận đánh giá R = { rij }, i = 1, , N, j = 1, , M ma trận đánh giá, người dùng ui ϵ U đưa đánh giá cho số sản phẩm pi ϵ P số rij Giá trị rij phản ánh mức độ ưa thích người dùng ui sản phẩm pj, giá trị rij thu thập trực tiếp cách hỏi ý kiến người dùng thu thập gián tiếp thông qua chế phản hồi người dùng Giá trị rij =  trường hợp người dùng ui chưa đánh giá chưa biết đến sản phẩm pj Với người dùng cần gợi ý ua, toán lọc cộng tác toán dự đoán đánh giá ua sản phẩm mà ua chưa đánh giá (rij = ), sở gợi ý cho ua sản phẩm đánh giá cao Hình 2.2 Quy trình hệ thống gợi ý dựa lọc cộng tác 22 Ma trận đánh giá R = (rij) thông tin đầu vào phương pháp lọc cộng tác Dựa ma trận đánh giá, phương pháp lọc cộng tác thực hai tác vụ: Dự đoán quan điểm người dùng thời (Active user) sản phẩm mà họ chưa đánh giá, đồng thời đưa danh sách sản phẩm có đánh giá cao phân bổ cho người dùng thời Hình 2.2 mơ tả thành phần hệ thống lọc cộng tác Như vậy, phương pháp lọc cộng tác phương pháp sử dụng sở thích người dùng để tạo gợi ý Phương pháp lọc cộng tác bao gồm kỹ thuật kỹ thuật láng giềng, kỹ thuật mạng Bayesian, kỹ thuật mạng Neural kết hợp SVD (Singular value decomposition), kỹ thuật quy tắc quy nạp Lọc cộng tác tiếp cận theo hai xu hướng chính: Lọc cộng tác dựa nhớ lọc cộng tác dựa mơ hình Mỗi phương pháp tiếp cận có ưu điểm hạn chế riêng, khai thác mối liên hệ ma trận đánh giá người dùng 2.1.1 Ưu điểm phương pháp lọc cộng tác Khi xây dựng hệ thống gợi ý dựa phương pháp tiếp cận nội dung (Content-Based Recommendation), có phát sinh gợi ý bị giới hạn, tốc độ xử lý bị ảnh hưởng nội dung đối tượng dùng để gợi ý có tính chất phức tạp Ngược lại với hướng tiếp cận dựa nội dung phương pháp tiếp cận lọc cộng tác có ưu điểm khắc phục hạn chế trên: + Lọc cộng tác dựa đánh giá người dùng nên khơng có giới hạn lĩnh vực, khơng cần phải phân tích, hiểu đánh số cho nội dung cần lọc + Lọc cộng tác không yêu cầu phải mô tả thông tin sản phẩm cách tường minh + Trong lọc cộng tác, sản phẩm gợi ý cho người dùng người dùng khác có sở thích tương đồng, có khả người dùng có sở thích tương đồng lại khơng phải mà người gợi ý tìm kiếm + Khả ứng dụng lọc cộng tác vào thực tiễn cao ứng dụng vào thương mại (website mua bán lớn giới Amazon) Sự chuyển dịch thành công lọc cộng tác từ nghiên cứu sang thương mại thời gian ngắn phần ưu điểm, tính hữu ích, với khả ứng dụng lớn cơng nhận 23 2.1.2 Các hình thức tiếp cận 2.1.2.1 Phương pháp tiếp cận dựa nhớ (Memory base) Ý tưởng: Giải thuật lọc cộng tác dựa nhớ sử dụng sở liệu người dùng - sản phẩm để dự đoán Những hệ thống triển khai kỹ thuật thống kê để tìm lựa chọn người dùng, biết người lân cận, có lịch sử phù hợp với người dùng đích (ví dụ, người dùng đánh giá tương tự sản phẩm khác có khuynh hướng mua sản phẩm tương tự nhau) Một lân cận người dùng hình thành, hệ thống sử dụng giải thuật khác để kết hợp sở thích người dùng lân cận để đề xuất dự đoán gợi ý cho người dùng Ưu điểm: - Tính đơn giản: triển khai đơn giản - Khả diễn giải: giúp người dùng hiểu đưa gợi ý - Tính hiệu quả: điểm mạnh hệ thống gợi ý - Tính ổn định: người dùng sản phẩm vào hệ thống cần tính tốn lại vài thơng số độ tương đồng sau vài hành vi người dùng Nhược điểm: - Thiếu tính bao quát (Limited Coverage): Phương pháp chủ yếu dựa độ tương đồng lân cận Chính đối tượng xem tương đồng chúng đánh người dùng xem tương đồng họ có đánh giá sản phẩm Giả định làm cho việc gợi ý bị giới hạn - Dữ liệu thưa: Khi hệ thống xuất nhiều người dùng, đồng thời số lượng đối tượng dùng gợi ý tăng lên, số lượng đánh giá người dùng đối tượng dừng lại mức đến 10 đánh giá Chính làm cho ma trận đánh giá UxI trở nên thưa, đồng thời làm tập đối tượng gợi ý chung người dùng trở nên nhỏ Cuối cùng, kết gợi ý trở nên khơng xác đáng tin cậy 2.1.2.2 Phương pháp tiếp cận dựa mơ hình (Model-based) Ý tưởng: Ngược lại với phương pháp dựa nhớ, phương pháp tiếp cận dựa mơ hình khơng sử dụng tất liệu có để đưa dự đốn Thay vào đó, chúng nắm bắt thông tin bước giống thoả thuận mơ hình sở thích người dùng Giải thuật loại thuộc phương pháp tính xác suất xử lý lọc cộng tác tính toán giá trị kỳ vọng dự đoán người dùng, cho đánh giá người với sản phẩm khác Xử lý xây 24 dựng mơ hình thực nhiều giải thuật học máy khác mạng Bayes, phân cụm, phương pháp dựa luật (rule-based), mơ hình hồi quy tuyến tính, mơ hình entropy cực đại…Phương pháp áp dụng tiếp cận dựa mơ hình: Phương pháp giảm số chiều phương pháp đồ thị Ưu điểm: Nó có nhiều thuận lợi việc cung cấp nhanh dự đốn xác, giảm thiểu tính nhạy cảm trường hợp liệu Nhược điểm: Chúng thường yêu cầu thời gian để nắm bắt mơ hình, làm giảm hiệu việc cài đặt ứng dụng trực tuyến - nơi mà liệu thường xuyên thêm vào Trên cở phân tích trên, ta sử dụng phương pháp lọc cộng tác dựa mơ hình kỹ thuật phân rã ma trận (Matrix Factorization - MF)[14] Kỹ thuật MF có độ tin cậy cao so với kỹ thuật khác 2.2 KỸ THUẬT PHÂN RÃ MA TRẬN Kỹ thuật phân rã ma trận xem kỹ thuật tiến số kỹ thuật dùng phương pháp CF cho phép ta khám phá đặc tính tiềm ẩn nằm bên tương tác người dùng hạng mục Một thành cơng mơ hình thuộc tính ẩn (Latent Factor Model) dựa phân tích ma trận Trong hình thức bản, ma trận thừa số đặc trưng sản phẩm người dùng vectơ yếu tố suy từ mơ hình đánh giá sản phẩm Phương pháp ngày trở nên phổ biến cách kết hợp khả mở rộng tốt độ xác cao Hệ thống gợi ý dựa loại liệu đầu vào khác nhau, thường đặt ma trận hai chiều với chiều biểu diễn cho người dùng chiều lại sản phẩm người dùng quan tâm Có phương pháp thu thập liệu Thu thập liệu trực tiếp qua thông tin phản hồi trực tiếp (explicit feedback) từ phía người dùng quan tâm họ dành cho sản phẩm Các quan tâm thường đặc trưng số gọi điểm đánh giá Ma trận điểm đánh giá từ thu thập trực tiếp thường ma trận thưa người dùng thường có xu hướng đánh giá tỉ lệ nhỏ hạng mục có sẵn Trường hợp không thu thập liệu trực tiếp được, hệ tư vấn phải thu thập liệu gián tiếp (implicit feedback) để suy diễn quan tâm người dùng cách quan sát thái độ người dùng khứ từ liệu lịch sử mua, duyệt liệu để tìm kiếm mơ hình, … Dữ liệu gián tiếp thường có khơng có kiện nên ma trận 25 liệu ma trận dầy đặc Điểm mạnh phương pháp phân rã ma trận khả cho phép kết hợp thông tin bổ sung, xử lý trường hợp mà Content filtering khó xử lý người dùng mới, sản phẩm Mục đích kỹ thuật phân rã ma trận việc chia ma trận lớn X thành hai ma trận có kích thước nhỏ W H, cho ta xây dựng lại X từ hai ma trận nhỏ xác tốt, nghĩa là: X ~ WH T Hình 2.3 Minh họa kỹ thuật phân rã ma trận Trong đó, W ∈ |U|×K ma trận mà dịng u véc-tơ bao gồm K nhân tố tiềm ẩn (latent factors) mơ tả người dùng u, H ∈|I|×K ma trận mà dòng i vectơ bao gồm K nhân tố tiềm ẩn mô tả cho item i Ví dụ, X ma trận tạo nên từ việc xếp hàng người dùng U Item(địa điểm du lịch) I Thông thường, tiến hành đánh giá xếp hạng dựa vào tiêu chí người dùng – địa điểm du lịch đánh giá khơng xác Do vậy, cần phải đánh giá nhiều tiêu chí khác, từ cần có số K tiêu chí để phân tích ma trận xếp hàng ban đầu thành hai ma trận nhỏ hơn, có tham gia tiêu chí ẩn Điều cho thấy việc đánh giá xếp hạng có độ xác cao Gọi wuk hik phần tử tương ứng hai ma trận W H, xếp hạng người dùng u mục tin i dự đoán công thức: 𝑘 𝑇 𝑟̂ 𝑢𝑖 = ∑ 𝑊𝑢𝑘 𝐻𝑖𝑘 = (𝑊 𝐻 )𝑢,𝑖 (2.1) 𝑘=1 eui  rui  rˆui ∀ u,i ∈ X ˆeui sai số huấn luyện xếp hạng thứ (u,i) Như vậy, vấn đề then chốt kỹ thuật phân rã ma trận làm để tìm giá trị hai tham số W H Hai tham số có cách tối 26 ưu hóa hàm mục tiêu (objective function) Trong hệ thống gợi ý, hàm mục tiêu phân rã ma trận hay sử dụng sau : 𝑘 2 𝑂𝑀𝐹 = ∑ 𝑒𝑢,𝑖 = ∑ (𝑟𝑢𝑖 − 𝑟̂) = ∑ (𝑟𝑢𝑖 − ∑ 𝑊𝑢𝑘 𝐻𝑖𝑘 ) (2.2) 𝑢𝑖 𝑢,𝑖∈𝑋 𝑢,𝑖∈𝑋 𝑢,𝑖∈𝑋 𝑘=1 Một kỹ thuật dùng để tối ưu hóa hàm mục tiêu giảm gradient ngẫu nhiên (Stochastic Gradient Descent) Để tối ưu hóa hàm mục tiêu (2.2), trước tiên ta khởi tạo giá trị ngẫu nhiên cho W H, sau bước cập nhật giá trị chúng hàm mục tiêu hội tụ giá trị nhỏ (convergence) Để làm điều đó, ta cần phải xác định nên tăng hay nên giảm giá trị W H qua lần cập nhật, cần phải tìm đạo hàm phần chúng:  OMF = 2(rui  rˆui )hik w uk  OMF= 2(rui  rˆui ) wuk hik Sau tìm đạo hàm, cần giảm thiểu tối đa độ lỗi cập nhập lại cho wuk hik lặp lặp lại (tối ưu hoá kỹ thuật Stochastic Gradient Descent- kỹ thuật giảm gradient ngẫu nhiên) Các phần tử W H cập nhập ngược hướng với giá trị đạo hàm, qua công thức :  new old old w uk  w uk  O MF  w uk  2 (rui  rˆui )hik w uk hiknew  hikold    MF O  hikold  2 (rui  rˆui )w uk hik  : tốc độ học (learning rate) Tải FULL (72 trang): https://bit.ly/3fQM1u2 Dự phịng: fb.com/KhoTaiLieuAZ Q trình cập nhập thực đến hàm mục tiêu đạt giá trị nhỏ đến số lần lặp xác định trước Sau trình tối ưu, ta có giá trị W H Chính tắc hóa (Regularization): Để ngăn ngừa khớp hay gọi học vẹt (overfitting – xảy mơ hình dự đoán cho kết tốt liệu huấn luyện, cho kết liệu thử nghiệm) người ta thay đổi hàm mục tiêu (2.2) cách thêm vào đại lượng gọi tắc hóa (regularization) để điều khiển độ lớn giá trị W H Hàm mục tiêu (2.2) trở thành: 27 O MF   u ,iDTrain K (rui   w uk hik )2   ( W k 1 F  H F) Trong  hệ số tắc hố (0  

Ngày đăng: 03/02/2023, 18:04

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w