Nội dung, phương pháp nghiên cứu - Mô hình hóa ngư- 123docz.net

( ) ( , ,..., p)

D u  x x x

.D u( 2)( ,y y1 2,...,yp)

Trong D(u1), phần tử xi có giá trị bằng 1 nếu người dùng u1 đã từng đọc bản tin mi, ngược lại xi có giá trị bằng 0 nếu người dùng u1 chưa từng đọc bản tin mi. Tương tự đối với các phần tử trong D(u2).

Độ tương đồng lịch sử truy cập giữa hai người dùng u1 và u2 dựa theo công thức Cosine giữa vector D(u1) và vector D(u2)

1 1 2 2 2 1 1 ( , ) * p i i i p n i i i i x y similarity u u x y        (3.2)

Gọi U là tập hợp những người dùng cùng trong nhóm quan tâm tới thể loại c với người dùng u. Ta tính được độ tương đồng lịch sử truy cập tại thể loại c của u đối với tất cả những người dùng khác trong U. Điểm số đánh giá khả năng người dùng u quan tâm tới bản tin s là , ( , ) * ( , ) ( , ) 1 j j j j u U u u U I u s similarity u u r u s N      (3.3)

Trong công thức 3.3, NU là số lượng người dùng trong tập U, I(uj,s) nhận giá trị 1 nếu người dùng uj đã đọc bản tin s và nhận giá trị 0 nếu người dùng uj chưa đọc bản tin s, similarity(u,uj) tính theo công thức 3.2. Việc thêm (NU – 1) ở mẫu số nhằm đảm bảo r(u,s) nằm trong khoảng (0,1) do số lượng thành viên của tập người dùng quan tâm tới các thể loại là khác nhau.

Danh sách bản tin dùng để gợi ý cho người dùng u có thể lấy chính là danh sách bản tin mà những người dùng khác trong nhóm quan tâm tới thể loại c đã đọc nhưng người dùng u chưa đọc. Các bản tin được tính khả năng người dùng u quan tâm theo công thức 3.3 và sắp xếp theo điểm số giảm dần.

Tới đây có thể thấy mô hình người dùng trong bộ lọc cộng tác chính là vector phân bố lịch sử truy cập D(u,t) tại công thức 3.1 và tập hợp điểm số tương đồng lịch sử truy cập của u với những người dùng khác trong những thể loại tin mà người dùng quan tâm.

3.3.3. Bộ phận kiểm tra điều kiện ràng buộc

Từ kết quả của bộ phận tạo gợi ý, bộ phận kiểm tra có nhiệm vụ so sánh đối chiếu với các điều kiện khởi tạo khi bắt đầu tính toán, ví dụ danh sách đã gợi ý theo bộ lọc nội dung để tránh trùng lặp khi đưa ra kết quả.

Với bộ lọc nội dung sẵn có trong hệ thống xenoNews, người dùng còn có thể đánh dấu những bản tin thuộc loại họ muốn “bỏ qua” và hệ thống loại những tin có dạng tương tự ra khỏi kết quả gợi ý. Do đó bộ lọc cộng tác cũng phải tiếp nhận những điều kiện này nhằm đồng bộ với hệ thống chung.

Việc kiểm tra điều kiện có thể tiến hành trực tiếp trong quá trình tạo gợi ý tuy nhiên để cấu trúc bộ lọc một cách rõ ràng ta tách bước kiểm tra thành một phần riêng, nếu tiến hành cài đặt cho hệ thống gợi ý tin tức khác sẽ chỉ cần thay đổi về các điều kiện trong bộ phận kiểm tra, còn thuật toán áp dụng trong bộ tạo gợi ý vẫn làm việc với toàn bộ dữ liệu lịch sử và bản tin.

Chƣơng 4: Thực nghiệm và đánh giá 4.1. Thực nghiệm và đánh giá

Bộ lọc cộng tác được cài đặt trên máy chủ chung của hệ thống xenoNews. Các thông số chi tiết bao gồm:

- CPU: Core™ i5-2430M CPU 2* 2.40GHz - RAM: 4GB

- OS: Windows 7 - Bộ nhớ ngoài: 250GB - Cơ sở dữ liệu: MySQL

Trong quá trình thực nghiệm bộ lọc cộng tác, hệ thống xenoNews được cài đặt thêm chế độ chuyển giữa các bộ lọc. Dữ liệu đánh giá trên hệ thống gồm khoảng 10.000 bản tin thu thập từ các nguồn báo điện tử và khoảng 300 người dùng. Quá trình thực nghiệm chọn ngẫu nhiên 10 người dùng trong hệ thống và theo dõi lịch sử đọc tin của họ trong 3 tuần. Tuần đầu tiên hệ thống hoạt động như một trang thu thập thông tin thông thường, không tính toán các gợi ý. Tuần thứ 2 bật chức năng gợi ý cộng tác và tuần thứ 3 có tính toán lại nhóm sở thích của người dùng. Kết quả số lượng truy cập theo từng thể loại của nhóm 10 người dùng được chọn biểu diễn trong bảng

Bảng 4.1: Số lượng tin truy cập trong quá trình thử nghiệm

Tuần 1 Tuần 2 Tuần 3

Thời sự 413 530 546 Thị trường 340 421 408 Thể thao 406 486 511 Công nghệ 358 416 390 Phong cách 265 310 313 Giáo dục 214 248 256 Sức khỏe 154 140 166

Theo bảng 4.1 ta thấy số lượng lượt truy cập tin của tập người dùng thử nghiệm đã tăng lên khoảng 20% khi sử dụng kết quả gợi ý trong danh sách tin tức hiển thị. Kết quả này chứng tỏ bộ lọc cộng tác đã giúp đưa đến cho người dùng những tin tức đáng quan tâm hơn đối với họ.

Chất lượng của bộ lọc cộng tác được thể hiện qua 3 tiêu chí: độ chính xác (precesion), độ hồi tưởng (recall) và độ đo F1 tổng hợp từ độ chính xác và độ hồi tưởng. Độ chính xác là tỷ lệ số tin được người dùng đọc trên tổng số tin gợi ý mà bộ lọc trả về, độ hồi tưởng là tỷ lệ số tin được người dùng đọc trên tổng số tin mà người dùng đánh giá rằng họ quan tâm. Độ đo F1 cho bởi công thức:

1 2*precision recall* F precision recall   (4.1)

Các độ đo ứng với từng thể loại thể hiện theo bảng 4.2. Chỉ số được lấy

Bảng 4.2: Các độ đo theo thể loại

Precision (%) Recall (%) F1 (%) Thời sự 80.5 60.7 69.2 Thị trường 73.4 62.5 67.5 Thể thao 70.2 61.3 65.4 Công nghệ 70.9 63.7 67.1 Phong cách 68.6 57.8 62.7 Giáo dục 76.4 65.3 70.4 Sức khỏe 62.1 58.0 59.0 Trung bình 71.4 61.3 66.1

Theo bảng đánh giá 4.2, độ chính xác đạt giá trị cao ở các thể loại tin mang tính cập nhật, được nhiều người quan tâm như: thời sự, thị trường, giáo dục và giá trị thấp hơn trong các thể loại tin có tính phân loại hướng quan tâm như: phong cách, giáo dục, sức khỏe. Nhìn chung số đo độ chính xác cao hơn số đo độ hồi tưởng vì đa phần xu hướng

bản tin theo sở thích riêng của người dùng chưa đạt đủ ngưỡng trở thành bản tin gợi ý. Giá trị độ đo F1 trung bình là 66% chứng tỏ bộ lọc tạo ra đã đạt mức yêu cầu để cho kết quả gợi ý tới người dùng. Tuy nhiên giá trị này thấp hơn độ đo F1 của bộ lọc nội dung, lý do chính là số phân nhóm quan tâm của người dùng đang có giá trị nhỏ (17 nhóm) và các phân nhóm lại được cố định sẵn.

4.2. Hƣớng nghiên cứu tiếp theo

Việc nghiên cứu trong thời gian tiếp theo tập trung vào hai hướng

- Cải thiện thuật toán cộng tác thông qua việc tính toán nhóm sở thích người dùng sử dụng phương pháp phân cụm phân lớp thay vì sử dụng các nhóm tương ứng với thể loại do hệ thống định nghĩa sẵn. Mặt khác trong quá trình thực nghiệm tìm ra bộ tham số thích hợp cho ngưỡng phân nhóm, thời gian định kỳ phân nhóm. - Nghiên cứu kết hợp bộ lọc cộng tác với bộ lọc nội dung trong hệ thống xenoNews

thành một thể thống nhất (hybrid), sử dụng chung bộ tiêu chuẩn đánh giá có cả thành phần nội dung và cộng tác.

Kết luận

Với đề tài luận văn “Mô hình hóa người dùng và ứng dụng bộ lọc cộng tác trong hệ thống gợi ý tin tức”, tác giả đã tìm hiểu các vấn đề liên quan tới mô hình hóa người dùng, các loại hệ thống gợi ý tin tức và hướng sử dụng bộ lọc cộng tác trong hệ thống gợi ý tin tức. Các kết quả đạt được trong luận văn bao gồm:

- Về lý thuyết:

+ Tìm hiểu, làm rõ các khái niệm liên quan tới mô hình hóa người dùng trong hệ thống gợi ý, các phương pháp mô hình hóa người dùng.

+ Tìm hiểu về 3 loại hệ thống gợi ý tin tức cơ bản: hệ thống gợi ý dựa vào nội dung, hệ thống gợi ý dựa vào cộng tác, hệ thống kết hợp.

+ Mô tả cách thức hoạt động của một số mô hình hệ thống gợi ý dựa trên cộng tác đã từng được nghiên cứu và triển khai: mô hình cộng tác theo chuỗi sự kiện, mô hình sử dụng hệ tiêu chuẩn.

- Về thực tiễn:

+ Xây dựng một bộ lọc tin tức theo hướng cộng tác để gợi ý tin tức cho người dùng dựa vào nhóm sở thích.

+ Ghép bộ lọc cộng tác vào thành một module trong hệ thống gợi ý tin tức xenoNews. Trong quá trình hoạt động, bộ lọc cộng tác đạt chỉ số độ chính xác trung bình là 71% và độ hồi tưởng trung bình đạt 61%.

Về cơ bản luận văn đã đạt được yêu cầu trong việc tìm hiểu vấn đề mô hình hóa người dùng và bộ lọc cộng tác trong hệ thống gợi ý tin tức. Tuy nhiên các chỉ số đạt được vẫn chưa thật sự cao do bộ lọc cộng tác mới dừng ở mức phân nhóm sở thích người dùng theo thể loại tin định sẵn và đồng thời môi trường áp dụng là các bản tin tiếng Việt.

Hướng nghiên cứu tiếp theo của đề tài là cải thiện tốc độ xử lý của bộ lọc đồng thời hướng tới việc đưa bộ lọc cộng tác gộp với bộ lọc dựa trên nội dung để xenoNews trở thành hệ thống kết hợp hoàn chỉnh.

Tài liệu tham khảo Tài liệu tiếng Anh

[1] A. Das, M. Datar, and A. Garg, “Google News Personalization : Scalable Online,” pp. 271–280, 2007.

[2] D. Billsus and M. Pazzani, “A hybrid user model for news story classification,”

Proceedings of the seventh international conference on User modeling, pp. 99–108,

1999.

[3] C. Froschl, “User modeling and user profiling in adaptive e-learning systems,”

Master’s thesis, Graz University, …, 2005.

[4] N. de Koch, “Software engineering for adaptive hypermedia systems,” 2001. [5] B. Ernesto, “User Modeling and Recommendation Strategies for Tourism,” 2009. [6] R. Baeza-Yates and B. Ribeiro-Neto, Modern information retrieval. 1999.

[7] M. Pazzani, “Learning and Revising User Profiles : The Identification of Interesting Web Sites,” vol. 331, pp. 313–331, 1997.

[8] D. Billsus and M. Pazzani, “User modeling for adaptive news access,” User

modeling and user-adapted interaction, pp. 147–180, 2000.

[9] P. Resnick, N. Iacovou, and M. Suchak, “GroupLens: an open architecture for collaborative filtering of netnews,” Proceedings of the Computer Supported

Cooperative Work Conf, 1994.

[10] K. Yu, X. Xu, J. Tao, M. Ester, and H. Kriegel, “Instance selection techniques for memory-based collaborative filtering,” Proc. Second SIAM Int’l Conf. Data …, pp. 59–74, 2002.

[11] J. Breese, D. Heckerman, and C. Kadie, “Empirical analysis of predictive algorithms for collaborative filtering,” Proceedings of 14th Conference on

Uncertainty in Artificial Intelligence, 1998.

[12] B. Sarwar, G. Karypis, J. Konstan, and J. Riedl, “Application of dimensionality reduction in recommender system-a case study,” 2000.

[13] T. Hofmann, “Latent semantic models for collaborative filtering,” ACM

[14] B. Marlin and R. S. Zemel, “The multiple multiplicative factor model for

collaborative filtering,” Twenty-first international conference on Machine learning

- ICML ’04, p. 73, 2004.

[15] G. Shani, D. Heckerman, and R. Brafman, “An MDP-based recommender system,”

Journal of Machine Learning Research, vol. 6, pp. 1265–1295, 2005.

[16] D. Blei, A. Ng, and M. Jordan, “Latent dirichlet allocation,” the Journal of machine Learning research, vol. 3, pp. 993–1022, 2003.

[17] M. Claypool, A. Gokhale, and T. Miranda, “Combining content-based and

collaborative filters in an online newspaper,” Proceedings of ACM CHI’95, 1999. [18] M. Pazzani, “A framework for collaborative, content-based and demographic

filtering,” Artificial Intelligence Review, pp. 1–16, 1999.

[19] A. Gunawardana and C. Meek, “A unified approach to building hybrid

recommender systems,” the third ACM conference on Recommender systems, pp. 117–124, 2009.

[20] F. Garcin, K. Zhou, B. Faltings, and V. Schickel, “Personalized News Recommendation Based on Collaborative Filtering,” Web Intelligence and

Intelligent Agent Technology (WI-IAT), 2012 IEEE/WIC/ACM International Conferences, pp. 437–441, 2012.

[21] K. Lakiotaki, N. F. Matsatsinis, and A. Tsoukiàs, “Multi-Criteria User Modeling in Recommender Systems,” IEEE Intelligent Systems, vol. 26, no. 2, pp. 64–76, 2011. [22] J. Liu, P. Dolan, and E. Pedersen, “Personalized news recommendation based on

click behavior,” Proceedings of the 15th international conference on Intelligent