Ưu điểm của hướng tiếp cận collaborative cũng giống như demographic based là khơng yêu cầu tri thức về sản phẩm. Collaborative cĩ thể đưa ra những gợi ý một cách “ngồi khuơn khổ” bởi vì nĩ khơng nằm trong phạm vi sở thích từng người dùng cá nhân cụ thể. Lợi thế lớn nhất của hướng tiếp cận model-based là nĩ giảm thiểu tiêu tốn bộ nhớ và thời gian thực hiện.
Tuy vậy kỹ thuật này vẫn tồn tại nhiều nhược điểm, trong đĩ kích thước của tập dữ liệu cĩ tác động lớn đến chất lượng của gợi ý đầu ra. Và nĩ cũng gặp phải vấn đề “cold-start”, cĩ nghĩa là với các người dùng mới chưa cĩ đánh giá nào hoặc dữ liệu chưa đáp ứng được yêu cầu thì hệ thống dạng này khơng thể đưa ra được kết quả, bởi nếu chưa cớ dữ liệu về sở thích, ưu tiên, thì cũng khơng thể tìm ra được user cĩ sở thích tương đồng. Memory-based địi hỏi nhiều bộ nhớ và thời gian xử lý, nên chỉ thích hợp với những bộ dữ liệu nhỏ mà thơi.
2.1.4.Content-based
Trong khi lọc cộng tác giả sử rằng những người dùng cĩ cùng sở thích sẽ cĩ xu hướng đánh giá sản phẩm giống nhau thì kỹ thuật gợi ý dựa trên nội dung lại giả sử rằng những sản phẩm cĩ đặc điểm giống nhau sẽ được đánh giá tương tự nhau. Lọc cộng tác và demographic-based khơng yêu cầu các thơng tin về sản phẩm thì content-based lại dựa vào các mơ tả sản phẩm (cĩ thể được tạo ra thủ cơng hoặc trích xuất tự động) và một hồ sơ người dùng được gán thích hợp với các đặc điểm đĩ. Các
31
sản phẩm cĩ độ tương đồng cao nhất với truy vấn hoặc với hồ sơ người dùng thì sẽ được gợi ý cho người đĩ.
Dữ liệu hồ sơ về sở thích của người dùng được lưu dưới dạng vector các từ khĩa. Những hồ sơ cĩ được bằng cách phân tích nội dung mơ tả của sản phẩm đã được người dùng nhận biết và đánh giá trước đĩ, chúng thường được tạo ra bằng các kỹ thuật phân tích từ khĩa từ lĩnh vực tìm kiếm thơng tin (information retrieval) bao hàm việc phân bổ trọng số cho các từ khĩa sử dụng các thuật tốn như Winnow hay Rocchio.
Hình 2.5 Hướng tiếp cận content-based [2] Ưu điểm và nhược điểm: Ưu điểm và nhược điểm:
Bởi vì kỹ thuật content-based sẽ sử dụng các đặc trưng sản phẩm và so sánh nĩ với sản phẩm khác nên nĩ vẫn cĩ thể đưa ra được gợi ý bất kể sản phẩm cần gợi ý là gì. Hướng tiếp cận này khơng yêu cầu tri thức về một phạm vi cụ thể nào cả, nĩ làm việc hiệu quả với những sản phẩm cĩ khả năng biểu diễn dưới dạng một tập các đặc trưng.
Nhược điểm của kỹ thuật content-based là nếu sản phẩm khơng cĩ sẵn đặc tính thì bên bán sẽ phải thêm đặc tính sản phẩm một cách thủ cơng, nếu số lượng sản phẩm lớn thì sẽ mất nhiều thời gian và cơng sức. Và hướng tiếp cận này dựa trên các đặc trưng tương tự của sản phẩm, do vậy nếu tập sản phẩm chứa tồn sản phẩm đơn nhất
32
với các đặc trưng khác nhau thì hệ gợi ý content-based cũng chằng đưa ra nổi gợi ý cĩ giá trị nào. Và cũng do bị giới hạn trên các đặc tính sản phẩm nên content-based cũng phải đối mặt với vấn đề cold-start (khởi động nguội) hay vấn đề mâu thuẫn giữa tính ổn định và tính mềm dẻo.
2.1.5.Knowledge-based
Hệ thống gợi ý dựa trên tri thức (knowledge-based) sử dụng tri thức giữa người dùng và sản phẩm để suy luận ra sản phẩm nào đáp ứng yêu cầu của người dùng. Chẳng hạn hệ thống sẽ đưa ra các lựa chọn để đưa người dùng đi dần xuống dưới một cây quyết định các thuộc tính sản phẩm một cách hiệu quả hoặc hệ thống sẽ sử dụng một cơng cụ hỗ trợ quyết định định lượng để làm nhiệm vụ đĩ.
Constraint‐based (dựa trên ràng buộc) và Case‐based (dựa trên trường hợp) là các ví dụ của hướng tiếp cận này. Trong ví dụ về ứng dụng gợi ý phim ở trên, nếu một khách hàng, nếu anh ấy thích những bộ phim hài với âm nhạc, hệ thống sẽ tìm kiếm những bộ phim phù hợp với nhu cầu này. Trong hình minh họa dưới đây cho thấy bộ phim phù hợp nhất với người này là bộ phim C.
Hình 2.6 Hướng tiếp cận knowledge-based [2]
33
Ưu điểm của hướng tiếp cận dựa trên tri thức là nĩ khơng dựa vào dữ liệu quá khứ, hệ thống khơng phải lưu trữ dữ liệu người dùng trong một thời gian dài, do vậy bất cứ ai cũng cĩ thể cung cấp thơng tin về sở thích của mình cho hệ thống và sẽ cĩ được gợi ý ngay lập tức, khi sở thích của người dùng thay đổi hệ thống cũng dễ dàng thích nghi theo.
Nhược điểm là rõ ràng hệ thống chẳng học được gì từ bạn cả, mỗi lần bạn sử dụng lại phải khai báo thơng tin cần thiết cho hệ thống, khá là phiền phức. Hơn nữa, để cĩ thể đưa ra những gợi ý chính xác thì người xây dựng hệ thống buộc phải cĩ tri thức về lĩnh vực cần gợi ý.
2.2. Hệ gợi ý lai và các phương pháp lai
2.2.1.Giới thiệu về hệ gợi ý lai
Các website ngày nay cĩ thể sử dụng một trong các phương pháp như các chương trước đã nêu ra để gợi ý cho người dùng, bao gồm collaborative, content- based và knowledge-based. Mỗi một phương pháp lại cĩ ưu điểm và khuyết điểm riêng. Chương này sẽ nĩi về các hệ gợi ý lai giữa 4 phương pháp gợi ý, với những cách lai khác nhau.
Cĩ nhiều kỹ thuật gợi ý khác nhau được sử dụng trong hệ gợi ý trong website, mỗi thứ lại cĩ khuyết điểm chẳng hạn như vấn đề dữ liệu ban đầu (cold-start problem) của phương pháp collaborative-based và content-based, hay như việc thiếu hụt vốn tri thức của người xây dựng hệ thống knowledge-based. Một hệ thống gợi ý lai sẽ tận dụng được lợi thế cũng như khắc phục được nhược điểm của các hệ thống cơ bản, ví dụ kỹ thuật knowledge based sẽ bù đắp được vấn đề cold-start của kỹ thuật lọc cộng tác, nĩ sẽ cung cấp gợi ý cho những người dùng mới mà dữ liệu trong hồ sơ là quá ít để cĩ thể sử dụng lọc cộng tác, và ngược lại lọc cộng tác sẽ sử dụng khả năng tính
34
tốn thống kê trên từng người dùng của mình để tìm ra những thứ mà kỹ thuật dựa trên tri thức khơng thể tiên đốn trước được.
Phần trước ta đã nĩi về 4 kỹ thuật gợi ý cơ bản như hình dưới đây:
Hình 2.7 Bốn kỹ thuật gợi ý cơ bản [9]
Collaborative: Hệ thống đưa ra gợi ý hồn tồn chỉ dựa trên thơng tin đánh giá lấy từ hồ sơ của khách hàng. Nĩ sẽ tìm thấy người dùng cĩ lịch sử mua bán tương đồng với người dùng hiện thời rồi dựa vào đĩ để đưa ra gợi ý.
Content-based: Hệ thống dạng này hoạt động dựa trên 2 nguồn tri thức: Các thuộc tính đi kèm với sản phẩm và đánh giá của người dùng đối với chúng. Hệ gợi ý dựa trên nội dung đưa ra gợi ý bằng việc “học” những gì người dùng này thích và khơng thích dựa trên các tính năng sản phẩm .
Demographic-based: Hệ gợi ý dựa trên nhân khẩu học đưa ra gợi ý dựa trên Demographic profile – hồ sơ nhân khẩu của người dùng. Gợi ý được tạo ra trên thơng tin nhân khẩu học và kết hợp đánh giá của người dùng.
35
Knowledge-based: Hệ gợi ý dựa trên tri thức gợi ý sản phẩm cho người dùng dựa trên sự suy luận những gì họ thích và ưu tiên, tri thức này đơi khi chứa những hàm hiện để ước lượng mức độ cần thiết của người dùng đối với mĩn hàng.
Tất cả những kỹ thuật trên cơ sở “học” như collaborative, content-based và demographic-based sẽ phải đối mặt với vấn đề khởi động nguội – cold start. Đây là vấn đề xử lý đối với những người dùng mới hoặc người dùng chưa cĩ đủ dữ liệu để đưa ra gợi ý. Chẳng hạn như hệ thống lọc cộng tác, một sản phẩm khơng thể được gợi ý nếu nĩ chưa từng được đánh giá bởi người khác. Gợi ý cho một sản phẩm mới sẽ kém hiệu quả hơn những sản phẩm cũ đã được nhiều khách hàng đánh giá rồi, và hồn tồn thất bại với những người dùng mới.
Đây là vấn đề về việc cân bằng giữa tính mềm dẻo và tính bền vững. Khi hồ sơ của một người dùng đã được thiết lập trong hệ thống, rất khĩ để cĩ thể thay đổi mức độ ưu tiên của họ. Một người thường xuyên đọc tiểu thuyết một thời gian sẽ cứ nhận được những gợi ý về tiểu thuyết từ các hệ thống collaborative hay content-based kể cả khi họ đã chuyển sang đọc sách khoa học, chỉ đến khi những đánh giá mới đủ mạnh để thay đổi điều này. Một số hệ thống sẽ sử dụng những kỹ thuật cắt bớt để làm giảm ảnh hưởng của những đánh giá cũ, những điều này cũng cĩ nghĩa là đối mặt với nguy cơ mất đi thơng tin về những mối quan tâm cĩ tần suất thấp nhưng trong thời gian dài của khách hàng. Chằng hạn như người dùng cĩ thĩi quen xem các bản tin về động đất thiên tai, nhưng rõ ràng là những sự kiện này hiếm khi xảy ra, nếu hạn chế dữ liệu cũ thì chúng ta sẽ mất đi cơ sở để dự đốn về mối quan tâm này. Hệ thống gợi ý dùng kỹ thuật knowledge-based sẽ phản ứng lại với những nhu cầu cấp thiết nhất của người dùng mà khơng cần học lại bất cứ thứ gì khi sở thích người dùng thay đổi.
Nghiên cứu cho thấy rằng các kỹ thuật collaborative hay demographic-based cĩ khả năng kéo người dùng ra khỏi những lựa chọn quen thuộc của mình. Knowledge-based cũng làm được điều tương tự nhưng hạn chế là những thể loại đĩ phải được định nghĩa trước bởi người thiết kế hệ thống. Tuy nhiên thì vấn đề cold-
36
start sẽ ngăn cản người dùng hưởng dụng tối đa những lợi ích mà kỹ thuật collaborative hay content-based mang lại. Hệ thống dựa trên học tập làm việc hiệu quả nhất cho những khách hàng chịu đầu tư thời gian để cung cấp thơng tin cần thiết cho hệ thống. Knowledge-based khơng mắc phải những nhược điểm này vì nĩ khơng cần những thơng tin về sở thích của khách hàng trong quá khứ.
Hệ thống gợi ý lai là kết hợp của các kỳ thuật trên để tăng hiệu quả gợi ý, thường thường là để xử lý vấn đề cold-start. Chương này sẽ giới thiệu về các phương pháp lai ghép giữa các kỹ thuật, làm tiền đề để đưa ra một hệ gợi ý hiệu quả ở chương sau.
2.2.2.Các phương pháp lai ghép
Những nghiên cứu trước đây đã xác định ra 7 loại kết hợp sau [9]:
- Weighted: Kết hợp kiểu đánh trọng số, các gợi ý thành phần sẽ được đánh trọng số theo quy ước cho trước.
- Switching: Hệ thống chọn lựa một trong những gợi ý thành phần và áp dụng. - Mixed: Kết quả của từng gợi ý thành phần sẽ được trộn lẫn với nhau khi hiển
thị ra với người dùng.
- Feature Combination: Đặc trưng của từng nguồn tri thức khác nhau sẽ được tổ hợp để chuyển sang cho một thuật tốn gợi ý duy nhất.
- Feature Augmentation: Một kỹ thuật gợi ý sẽ được sử dụng để tính tốn một đặc trưng hoặc một tập đặc trưng, kết quả sẽ là đầu vào của một kỹ thuật khác. - Cascade: Mơ hình thác, hệ gợi ý đưa ra một thứ tự ưu tiên chặt chẽ, trong đĩ kỹ thuật cĩ thứ tự ưu tiên thấp sẽ khơng thay đổi quyết định của kỹ thuật cao hơn.
- Meta-level: Một hệ gợi ý được sử dụng để tạo ra một vài kiểu mơ hình, đầu ra sẽ được hệ gợi ý tiếp theo sử dụng.
37