Các nhĩm giải thuật của hệ thống gợi ý

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (Trang 38 - 41)

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

2.5. Hệ thống gợi ý và các kỹ thuật trong hệ thống gợi ý

2.5.2. Các nhĩm giải thuật của hệ thống gợi ý

Cĩ nhiều giải thuật được đề xuất trong RS. Thơng qua các nghiên cứu trước đây (Su and Khoshgoftaar, 2009; Ricci et al., 2011; Bobadilla et al., 2013), cĩ thể gom các giải thuật này thành các nhĩm chính, gồm lọc dựa trên nội dung (content-based filtering), lọc cộng tác (collaborative filtering), lọc lai (hybrid filtering) là sự kết hợp cả nhĩm giải thuật lọc trên nội dung và nhĩm giải thuật lọc cộng tác.

Trong nhĩm giải thuật lọc trên nội dung (Content-based Filtering - CB), người dùng được gợi ý những item dựa vào hồ sơ (profiles) của người dùng hoặc dựa vào nội dung/thuộc tính (attributes) của những item tương tự như item mà người dùng đã chọn trong quá khứ. Trong khi đĩ, đối với nhĩm giải thuật lọc cộng tác (Collaborative Filtering), gợi ý được đưa ra dựa trên sự tương đồng về sở thích giữa các người dùng. Người dùng sẽ được gợi ý những item mà những người cùng sở thích đã đánh giá cao. Nhĩm giải thuật gợi ý lai (Hybrid) là nhĩm giải thuật cĩ sự kết hợp cả hai phương pháp trên. Theo đĩ gợi ý được tạo ra dựa trên sự tương đồng giữa những người dùng với nhau hoặc sự tương đồng giữa những item cũng như phản hồi của người dùng trên item.

Mỗi nhĩm giải thuật được đề cập trên cĩ các cách tiếp cận khác nhau trong RS dựa vào bộ nhớ (Memory-Based Filtering), dựa vào mơ hình (Model-Based Filtering), dựa vào kết hợp giữa bộ nhớ và mơ hình, và dựa vào học sâu (Deep learning).

Memory-Based Filtering là phương pháp lưu lại tồn bộ các trường hợp huấn luyện. Khi cần dự đốn, hệ thống tìm các trường hợp huấn luyện giống trường hợp cần dự đốn nhất và đưa ra tư vấn. Trường hợp cụ thể của phương pháp lọc dựa vào bộ nhớ là thuật tốn k láng giềng gần nhất (kNN). Ưu điểm của phương pháp này là dễ cài đặt, tuy nhiên thời gian lọc chậm do việc dự đốn phải tìm kiếm trên tồn bộ người dùng và mục tin trong hệ thống.

Model-Based Filtering là phương pháp mà dữ liệu được sử dụng để xây dựng các mơ hình rút gọn như mơ hình xác suất hay mơ hình cây quyết định. Mơ hình này sau đĩ được sử dụng để đưa ra tư vấn. Phương pháp này cho phép dự đốn nhanh do quá trình dự đốn được thực hiện trên mơ hình đã xây dựng trước đĩ.

Cĩ nhiều nghiên cứu kết hợp giữa bộ nhớ và mơ hình, khắc phục những hạn chế của các phương pháp tiếp cận lọc riêng lẻ và cải thiện hiệu quả dự đốn, đặc biệt là khắc phục được các vấn đề về dữ liệu thưa. Tuy nhiên, phương pháp lai cĩ thể làm tăng độ phức tạp và tốn nhiều thời gian để thực hiện (Ghazanfar et al., 2012).

Các mơ hình dựa trên kỹ thuật học sâu (Deep Learning) được nghiên cứu nhiều trong thời gian qua. Ảnh hưởng của học sâu cĩ sức lan tỏa lớn khi những năm gần đây đã chứng tỏ tính hiệu quả của nĩ khi được áp dụng vào nghiên cứu các hệ thống gợi ý (Zhang et al., 2019). Học sâu được xem là một phần của lĩnh vực học máy. Thuật ngữ “Deep Learning” muốn nĩi rằng mơ hình Machine Learning được xây dựng với nhiều lớp ẩn (hidden layers) nằm giữa lớp input và lớp output. Cĩ nhiều kỹ thuật học sâu đã được sử dụng mang lại hiệu quả cao trong hệ thống gợi ý như mạng nơ-ron truyền thẳng đa tầng MLP, mạng nơ-ron tích chập CNN, bộ nhớ ngắn dài hạn LSTM,... Một số kỹ thuật sử dụng cho các hệ thống gợi ý sẽ được đề cập chi tiết hơn ở phần trình bày một số kỹ thuật trong hệ thống gợi ý.

2.5.2.1. Hệ thống gợi ý dựa trên lọc nội dung

Phương pháp lọc trên nội dung CB (Content-based Filtering) dựa trên giả định rằng người dùng ưu thích các item cĩ thuộc tính giống với những thuộc tính của những item khác mà người dùng đã đánh giá trước đây (Lops et al., 2011). Gợi ý CB được mơ tả như Hình 2.8.

Ý tưởng của thuật tốn gợi ý CB là từ thơng tin mơ tả của item, biểu diễn item dưới dạng véc-tơ thuộc tính. Sau đĩ dùng các véc-tơ này để học mơ hình của mỗi user, là ma trận trọng số của user với mỗi item. Trong các hệ thống gợi ý CB, thơng thường cần xây dựng một bộ profile cho mỗi item. Profile này được biểu diễn dưới dạng tốn học là một véc-tơ đặc trưng (feature vector) n chiều. Trong những trường hợp đơn giản (chẳng hạn như item là dữ liệu dạng văn bản), feature vector được trực tiếp trích xuất từ item. Từ đĩ, các item cĩ nội dung tương tự xác định bằng cách tính độ tương đồng giữa các feature vector của chúng. Cĩ một số phương pháp thường sử dụng để xây dựng feature vector, trong đĩ cĩ phương pháp tính tốn trọng số TF-IDF (Term Frequency - Inverse Document Frequency) để biểu diễn văn bản thành dạng khơng gian véc-tơ.

Hình 2.8: Minh họa phương pháp gợi ý dựa trên lọc nội dung (Doshi, 2019)

Tuy nhiên, các hệ thống gợi ý CB cĩ những giới hạn về khả năng phân tích nội dung, chỉ hoạt động tốt trên những miền nội dung mà thơng tin cĩ thể được trích xuất tự động (thơng tin dạng văn bản), đối với những thơng tin dạng đa phương tiện như hình ảnh, âm thanh thì gặp vấn đề khĩ khăn. Ngồi ra, hệ thống cũng gặp vấn đề đối với

những users mới (cold-start), khơng đủ dữ liệu ban đầu của user đĩ để cĩ thể đưa ra những gợi ý chính xác. Một trong những khuyết điểm của phương pháp lọc theo nội dung là khĩ khăn trong việc thu thập thơng tin (Nguyễn Thái Nghe, 2016). Vì vậy, hiện nay đa phần các nhà nghiên cứu cĩ xu hướng tập trung ở nhĩm lọc cộng tác.

2.5.2.2. Hệ thống gợi ý dựa trên lọc cộng tác (Collaborative Filtering - CF)

Hệ thống gợi ý sử dụng phương pháp lọc cộng tác (Collaborative Filtering - CF) (Koren and Bell, 2011) được xây dựng và phân tích dựa trên ma trận quan hệ giữa người dùng và mục dữ liệu, được mơ tả như Hình 2.9. Hệ thống CF là hướng tiếp cận thơng dụng nhất hiện nay.

Phương pháp CF cĩ thể được chia thành 2 nhĩm chính là tiếp cận dựa trên người dùng (user-based approach) như tìm kiếm những người dùng tương tự, nghĩa là người cĩ cùng sở thích, cùng sự quan tâm, cùng thị hiếu) và tiếp cận dựa trên mục tin (item- based approach) như tìm kiếm những mục dữ liệu tương tự trong ma trận quan hệ.

Hình 2.9: Minh họa phương pháp gợi ý dựa trên lọc cộng tác (Doshi, 2019)

Phương pháp tiếp cận dựa trên người dùng tập trung vào việc tìm kiếm user cĩ những sở thích, hoạt động gần giống nhau nhất (Tomasevic et al., 2019). Phương pháp này được thực hiện qua hai bước chính. Bước thứ nhất là xác định danh sách các user cĩ cùng sở thích. Ở bước này, các dịng của ma trận quan hệ giữa user và item tương ứng với những user khác nhau được so sánh để xác định một user cĩ sở thích, hoạt động gần giống nhất. Sau đĩ sử dụng các chỉ số tương tự như pearson, cosine để tìm ra danh sách các người dùng tương tự. Bước thứ hai là dự đốn giá trị đánh giá các item của user hiện tại để đưa ra danh sách gợi ý phù hợp. Ở bước này, giá trị dự đốn của user u cho item i được tạo ra dựa trên những đánh giá của user gần giống nhất với user hiện tại u đối với item i. Phương pháp tiếp cận dựa trên mục tin thường được sử dụng khi số lượng các mối quan hệ vượt xa số lượng các mục dữ liệu (số lượng dịng lớn hơn nhiều so với số lượng cột của ma trận biểu diễn dữ liệu trong RS), nhằm làm giảm thời gian tính độ tương đồng.

Tuy nhiên, kỹ thuật CF cũng cĩ những hạn chế nhất định. Thơng thường, ma trận đánh giá cĩ dữ liệu thưa, tức là số xếp hạng đã thu được thường rất nhỏ so với vị trí khơng xếp hạng. Vì vậy, độ chính xác của kỹ thuật phụ thuộc nhiều vào độ thưa của ma trận đánh giá, đặc biệt là trong hướng tiếp cận láng giềng gần nhất (nearest neighbors CF). Tương tự như các kỹ thuật lọc CB, các mơ hình dự đốn sử dụng kỹ thuật CF địi hỏi một số lượng tối thiểu của các xếp hạng cho mỗi người dùng, mục tin để đưa ra các gợi ý cĩ thể chấp nhận được. Chi phí tính tốn cho hướng tiếp cận láng giềng gần nhất tăng lên theo cấp số nhân với số lượng người dùng (user-based CF) và số lượng các mục dữ liệu (item-based CF). Vì lý do này, việc áp dụng những kỹ thuật trên với số lượng lớn user hoặc item là khơng khả thi. Trong trường hợp đĩ, các mơ hình gợi ý sử dụng kỹ thuật MF (được trình bày ở phần sau) là một lựa chọn tốt hơn bởi vì các mơ hình dự đốn cĩ thể làm việc trong một khơng gian ít chiều hơn so với số lượng user và item.

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (Trang 38 - 41)

Tải bản đầy đủ (PDF)

(148 trang)