Sơ đồ thể hiện quy trình của CF

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến (Trang 34 - 36)

Trong đó, ma trận R (đầu vào của CF) là ma trận rate (đánh giá) của m người dùng u với n tài nguyên i. Kết xuất chính là đầu ra của CF [27]:

+ raj là giá trị cần dự đoán thể hiện đánh giá có tiềm năng nhất của người dùng

a lên tài nguyên j

+ Ti1, Ti2,…Tin gợi ý danh sáchNtài nguyên (Ti,n) mà bộ lọc gợi ý cho người dùng ua

Thuật toán CF là trung tâm tính toán của một hệ thống tư vấn. Các thuật toán sẽ tính toán các đối tượng mà một người nào đó sẽ thích và có bao nhiêu người sẽ thích chúng. Các thuật toán CF thường được dùng để tạo ra các tư vấn tốt nhất cho người dùng, gợi ý một đối tượng tốt nhất hoặc đưa ra một danh sách các đối tượng được xếp hạng top đầu. Chúng ta đang đề cập đến hệ thống gợi ý dùng tốp N đối tượng, trong đó N thường trong khoảng 1-20 [21].

Theo như nghiên cứu của J.S. Breese, D.Heckerman, và C. Kadie [3] đã nhận xét các thuật toán dành cho gợi ý có hợp tác có thể được nhóm vào hai loại chính: dựa trên kinh nghiệm (memory – based hoặc heuristic- based) và dựa vào mô hình (model – based).

3.2.1. Lọc cộng tác dựa trên kinh nghiệm

Phương pháp lọc cộng tác dựa trên kinh nghiệm(memory – based) hay còn gọi là dựa trên bộ nhớ có đặc trưng cơ bản là nó thường sử dụng toàn bộ dữ liệu đã có để dự đoán đánh giá của một người dùng nào đó về đối tượng mới. Nhờ lợi thế là nó có khả năng đưa trực tiếp dữ liệu mới vào bảng dữ liệu, do đó nó đạt được khá nhiều thành công khi được áp dụng vào các ứng dụng thực tế. Cũng do đó mà các kỹ thuật này thường đưa ra các dự đoán chính xác hơn trong các hệ trực tuyến – nơi mà ở đó luôn có dữ liệu mới được cập nhật.

Dự đoán Tư vấn

raj (dự đoán đánh giá của người dùng ua lên sản phẩm ij)

{Ti1,Ti2,…..,TiN}Danh sách N sản phẩm tốt nhất tư vấn cho người dùng ui

Các thuật toán tư vấn dựa vào bộ nhớ dự đoán đánh giá của người dùng đối với một đối tượng dựa trên tất cả đánh giá của người dùng tương đồng trong quá khứ. Dự đoán thường là giá trị trung bình của tích trọng số và điểm đánh giá từ những người dùng khác. Trọng số có thể hiểu là độ “tương đồng” giữa các cặp người dùng. Thông thường độ đo tương đồng bao gồm hệ số tương quan Pearson [6] và độ đo Cosine giữa 2 vector đánh giá. Ma trận tương đồng w(ui,uj) giữa tập người dùng thường được tính toán trước. Gợi ý đối tượng s tới người dùng ui cho bởi công thức

, ( , ) * w(u , ) i u s j i j j i r I u s u   (3.9)

Trong đó: I(uj,s) là điểm (rate) đánh giá của người dùn uj với đối tượng s

w(ui,uj): độ tương đồng (tương tự) giữa ui và uj

Phương thức gợi ý dựa vào bộ nhớ phát triển nhanh chóng nhờ vào tính đơn giản và quá trình huấn luyện tương đối dễ hiểu. Tuy vậy một trong số những trở ngại chính cho phương thức này là khó có khả năng mở rộng.Thông thường có hai cách tiếp cận dựa trên bộ nhớ [16]: hệ dựa trên người dùng (user-based) và hệ dựa trên đối tượng (item-based).

3.2.1.1. Lọc cộng tác dựa vào người dùng

Theo cách tiếp cận lọc cộng tác dựa vào người dùng (user-based) thì bộ lọc sẽ dự đoán các đối tượng dựa trên sự tương tác giữa các người dùng. Hệ thống sẽ xác định sự tương tự giữa hai người dùng thông qua việc so sánh các đánh giá của họ trên cùng đối tượng, sau đó dự đoán đánh giá đối tượng s bởi người dùng u hay chính là đánh giá trung bình hoặc tổng của những người dùng tương tự với người dùng u hoặc đưa ra các gợi ý đối tượng dựa vào các đánh giá từ những người dùng tương tự. User- based thường dễ làm hơn khi số lượng đối tượng nhiều hơn nhiều so với số lượng người dùng trong ma trận user-item (ma trận R).

Mỗi hồ sơ người dùng là một vector hàng được sắp xếp không có thứ tự [3.1, [20]]. Điểm đánh giá (rating) của những người dùng tương tự góp phần đáng kể để dự đoán các rating của đối tượng và để tư vấn các đối tượng tới các người dùng. Do đó làm thế nào để chọn ra nhóm người dùng tương tự là một việc quan trọng quyết định kết quả dự đoán rate cũng như kết quả gợi ý đối tượng. Vấn đề này sẽ được trình bày chi tiết tại phần ’’Vấn đề lựa chọn hàng xóm“ cùng trong mục này.

Theo hướng tiếp cận này thường bàn đến các khía cạnh [16]: - Q1: Làm thế nào để đo độ tương tự giữa hai người dùng?

- Q2: Làm thế nào để lựa chọn nhóm người dùng tương tự với mình?

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến (Trang 34 - 36)

Tải bản đầy đủ (PDF)

(69 trang)