6. Cấu trúc của đề tài
3.1. Tổng quan về bài toán khuyến nghị
3.1.3. Các hướng tiếp cận xây dựng hệ thống khuyến nghị
Việc sử dụng các kỹ thuật xây dựng hệ thống khuyến nghị hiệu quả và chính xác là rất quan trọng đối với một hệ thống cung cấp khuyến nghị tốt và hữu ích cho người dùng. Phần sau giới thiệu một số hướng tiếp cận xây dựng hệ thống khuyến nghị phổ biến (Hình 3.3) [18].
Hình 3.3. Các hướng tiếp cận hệ thống khuyến nghị
3.1.3.1. Kỹ thuật khuyến nghị dựa trên nội dung
Kỹ thuật khuyến nghị dựa theo nội dung (Content-based) sử dụng các mô tả về đối tượng và xây dựng các hồ sơ (profiles) người dùng chứa thơng tin về các sở thích của người dùng. Các sở thích này có thể là đạo diễn, diễn viên đối với phim ảnh, là tác giả, thể loại đối với sách v.v… Việc gợi ý một đối tượng cho người dùng dựa trên sụ tương đồng giữa mô tả về đối tượng và hồ sơ người dùng.
Phương pháp này có lợi thế là giới thiệu được những đối tượng chưa bao giờ được đánh giá, nhận xét đến người dùng.
Các mô tả về đối tượng thường là các thông tin dạng văn bản như các tài liệu, trang web, tin tức. Hồ sơ người dùng được mơ hình hóa thành vector trọng số của các mơ tả đối tượng. Ưu điểm của phương pháp này là khả năng giới thiệu một đối tượng hoàn toàn mới cho người dùng. Hệ thống khuyến nghị dựa trên nội dung u cầu phải có đầy đủ mơ tả đối tượng và chi tiết hồ sơ người dùng, đây cũng chính là hạn chế lớn nhất của phương pháp này.
3.1.3.2. Kỹ thuật lọc cộng tác lân cận dựa trên bộ nhớ
Kỹ thuật lọc cộng tác lân cận dựa trên bộ nhớ xác định mức độ quan tâm của một người dùng đối với một đối tượng dựa trên các người dùng khác gần giống với người dùng này. Việc gần giống nhau giữa các người dùng có thể được xác định thông qua mức độ quan tâm của các người dùng này tới các đối tượng khác mà hệ thống đã biết.
Kỹ thuật lọc cộng tác lân cận sử dụng một ma trận các đánh giá về đối tượng của người dùng. Mỗi một đánh giá của người dùng đối với một đối tượng thể hiện mức độ ưa thích của người dùng đối với đối tượng đó. Phương pháp này tính tốn một tập các người dùng cũng như các đối tượng gần nhau bằng cách sử dụng các phép đo độ tương tự như hệ số Pearson, khoảng cách cosine. Theo đó, kỹ thuật lọc cộng tác được chia thành nhóm dựa trên người dùng và nhóm dựa trên đối tượng.
Phương pháp dựa trên người dùng tính tốn độ tương tự giữa các người
dùng theo đánh giá của họ đối với các đối tượng, tạo ra một tập các người dùng tương tự đối với mỗi người dùng và dự đoán đánh giá cho các đối tượng chưa được đánh giá bằng cách sử dụng các thông tin đánh giá cho đối tượng đó từ những người dùng trong tập tương tự.
Phương pháp dựa trên đối tượng liên kết một đối tượng với một tập đối
tượng tương tự và dự đoán đánh giá của người dùng bằng cách sử dụng các đánh giá của người dùng đó cho các đối tượng khác trong tập tương tự.
Hình 3.4. Phương pháp dựa trên người dùng và dựa trên đối tượng
3.1.3.3. Kỹ thuật lọc cộng tác dựa trên mơ hình
Mơ hình được xây dựng từ việc học các đánh giá trước đó bằng các phương pháp học máy hoặc khai phá dữ liệu. Hệ thống khuyến nghị dựa trên mơ hình thường dùng các thuật toán phổ biến như luật kết hợp, phân cụm, cây quyết định, mạng nơ ron nhân tạo (ANN), hồi quy, phân loại Bayes để xây dựng mơ hình dự đoán. Một số phương pháp phổ biến của hướng tiếp cận này bao gồm các kỹ thuật giảm chiều dữ liệu như phân tích trị riêng (Singular Value Decomposition – SVD), kỹ thuật hoàn thiện ma trận (Matrix Completion), phương pháp ngữ nghĩa ẩn (Latent semantic), phân cụm và hồi quy, thừa số hóa ma trận (Matrix Factorization). Kỹ thuật dựa trên mơ hình phân tích ma trận đánh giá để xác định các quan hệ giữa các đối tượng từ đó đưa ra danh mục top-N gồm N gợi ý cho người dùng. Phương pháp dựa trên mơ hình giải quyết rất tốt vấn đề các ma trận đánh giá thưa (sparse) của các hệ thống khuyến nghị.
Thừa số hóa ma trận (Matrix factorization)
Mơ hình nhân tố ẩn (Latent factor model) biến đổi cả người dùng và đối tượng vào cùng một không gian đặc trưng ẩn là một trong những mơ hình thành cơng và phổ biến nhất của các hệ thống khuyến nghị. Mơ hình này đưa các yếu tố
đặc trưng của người dùng và đối tượng thành các vector có cùng kích thước và sử dụng tích vơ hướng để biểu diễn sự phù hợp của một đối tượng đối với một người dùng [19]. Đề tài chọn áp dụng phương pháp thừa số hóa ma trận, đây là một trong những phương pháp thuộc mơ hình nhân tố ẩn (latent factor model) điển hình cải thiện đáng kể chất lượng dự đoán của hệ thống khuyến nghị đối với vấn đề ma trận đánh giá thưa.
Ý tưởng của phương pháp thừa số hóa ma trận là chia một ma trận lớn X
thành hai ma trận có kích thước nhỏ hơn W và H, sao cho sau đó có thể phục dựng lại X từ hai ma trận nhỏ hơn này càng chính xác càng tốt, tức là 𝐗~𝐖. 𝐇𝑇.
Ở đây, W là một ma trận kích thước |U| x K mà mỗi dịng là một vector có K nhân tố ẩn mô tả người dùng u và H là một ma trận kích thước |V| x K mà mỗi dịng là một vector có K nhân tố ẩn mơ tả đối tượng v. Ta có K << |U| và K << |V|, K là số chiều dữ liệu đã giảm so với kích thước ma trận đánh giá.
Gọi 𝑤𝑖𝑘 và ℎ𝑗𝑘 là các phần tử tương ứng của hai ma trận W và H, khi đó xếp hạng của người dùng u đối với sản phẩm v được ước lượng bởi công thức:
𝑟̂𝑖𝑗 = ∑𝐾 𝑤𝑖𝑘ℎ𝑗𝑘
𝑘=1 = 𝑤. ℎ𝑇 (3.1)
Có thể thấy vấn đề then chốt của kỹ thuật thừa số hóa ma trận là làm sao để tìm được giá trị của hai tham số W và H. Hai tham số này có được bằng cách tối ưu hóa hàm mục tiêu. Trong đề tài này, hai tham số đó chính là kết quả các phép nhúng đỉnh u và v của đồ thị trong phương pháp nhúng đỉnh mạng đồ thị hai phía trình bày ở phần trước.
3.1.3.4. Một số hướng tiếp cận đang nghiên cứu phát triển
Kỹ thuật dựa trên đồ thị (graph-based)
Trong hướng tiếp cận dựa trên đồ thị, dữ liệu được biểu diễn dưới dạng đồ thị trong đó các đỉnh là người dùng, đối tượng hoặc cả hai và các cạnh là các tương tác hoặc độ tương tự giữa người dùng và đối tượng. Đối với dữ liệu được mơ hình hóa dưới dạng đồ thị hai phía trong đó hai tập hợp các đỉnh đại diện cho người
dùng và đối tượng, và một cạnh kết nối người dùng u với đối tượng i nếu u có đánh giá i trong hệ thống. Cạnh có thể mang theo một trọng số, chẳng hạn như giá trị của đánh giá tương ứng.
Trong các mơ hình này, các phương pháp tiếp cận thơng thường dựa trên sự tương quan dự đoán xếp hạng của một người dùng u đối với một đối tượng i chỉ sử dụng các đỉnh được kết nối trực tiếp với u hoặc i. Các phương pháp tiếp cận dựa trên đồ thị cho phép các đỉnh khơng có kết nối trực tiếp nhưng vẫn ảnh hưởng đến nhau bằng cách lan truyền thông tin dọc theo các cạnh của đồ thị. Trọng số của một cạnh càng lớn thì càng có nhiều thơng tin đi qua nó. Ngồi ra, ảnh hưởng của một đỉnh đối với đỉnh khác sẽ ít hơn nếu hai đỉnh ở xa hơn trong đồ thị, và ngược lại. Hai đặc tính này, được gọi là sự lan truyền và sự suy giảm, thường được quan sát trong các phép đo độ tương tự dựa trên đồ thị [17].
Các liên kết có tính chất bắc cầu thu được từ kỹ thuật dựa trên đồ thị có thể được sử dụng để đưa ra khuyến nghị theo hai cách. Trong cách đầu tiên, độ lân cận của đỉnh u đối với đỉnh i trong đồ thị được sử dụng trực tiếp để đánh giá mức độ phù hợp của đối tượng i đối với người dùng u. Theo ý tưởng này, các đối tượng
được hệ thống đề xuất cho người dùng u là những đối tượng “gần nhất” với đỉnh
u trong biểu đồ. Cách thứ hai xem xét độ lân cận giữa hai đỉnh người dùng hoặc
đối tượng như là một phép đo độ tương tự và dùng giá trị này trong kỹ thuật lọc cộng tác lân cận.
Kỹ thuật nhận biết ngữ cảnh (context aware-based)
Trong một số trường hợp, việc chỉ xem xét về người dùng và đối tượng là chưa đủ, mà cần phải kết hợp thơng tin ngữ cảnh mới có thể đề xuất các đối tượng phù hợp cho người dùng [17]. Ví dụ, sử dụng bối cảnh thời gian, một hệ thống khuyến nghị du lịch sẽ cung cấp một gợi ý địa điểm đi nghỉ vào mùa đông rất khác so với vào mùa hè. Đối với các trang tin tức thì các nội dung về thị trường chứng khốn nên được giới thiệu vào buổi sáng và phim ảnh thì vào chiều tối.
Hệ thống khuyến nghị nhận biết ngữ cảnh có thể gắn nhãn mỗi hành động của người dùng với ngữ cảnh thích hợp và điều chỉnh hiệu quả đầu ra của hệ thống cho người dùng trong ngữ cảnh nhất định đó [20].
Ngồi ra cịn rất nhiều phương pháp khác để xây dựng hệ thống khuyến nghị như kỹ thuật dựa trên nội dung nhận biết ngữ nghĩa (semantic aware content- based), kỹ thuật dựa trên ràng buộc (constraint-based), kỹ thuật khai phá dữ liệu cho hệ thống khuyến nghị, kỹ thuật dựa trên tri thức (knowledge-based), kỹ thuật kết hợp (hybrid) v.v… Tùy vào từng loại thông tin dữ liệu và yêu cầu cụ thể thì sẽ có một phương pháp phù hợp nhất để xây dựng hệ thống khuyến nghị