40
4.3.2. Ví dụ phân tích sở thích người dùng
Các tin tức được phiên duyệt web lưu trữ được dùng để phân tích sở thích người dùng tại thời điểm hiện tại. Q trình phân tích sẽ tiến hành như trong mơ hình đề xuất ở
chương 3 với 2 bước là phân tích chủ đề ẩn và nhận dạng các thực thể có trong tin tức. Ví
dụ, đối với 4 url được nêu ra trong bảng dưới, hệ thống sẽ phân tích ra 3 chủ đề ẩn nổi trội trong từng tin tức và các thực thể tồn tại trong các tin tức đấy (thực thể là các từ được tơ màu). Bảng 8. Ví dụ về phân tích sở thích người dùng. STT Tin tức Chủ đề 1 Chủ đề 2 Chủ đề 3 1 Url: http://dantri.com.vn/c26/s26-393724/quy-do-mu-uu-tien- chi-20-trieu-bang-mua-benzema.htm
“Quỷ đỏ” MU ưu tiên chi 20 triệu bảng mua Benzema
(Dân trí) - Lo ngại về hàng tấn công phụ thuộc quá nhiều vào
phong độ Wayne Rooney hiện nay, Manchester United có kế
hoạch chi ra 20 triệu bảng để mua chân sút Karim Benzema trong mùa Hè này.
Do sự sa sút phong độ thảm hại của tiền đạo Berbatov, hàng công của Manchester United hiện nay dựa nhiều vào phong
độ của Wayne Rooney. Trước nguy cơ chân sút này bị quá tải ở mùa tới do phải thi đấu liên miên từ World Cup cho tới các
chuyến du đấu, MU đang có kế hoạch lên phương án dự
phòng. … 19 70 72 2 Url: http://dantri.com.vn/c25/s20-393779/bo-hoi-tai-di-sieu- thi-ngay-nghi-le.htm
“Bở hơi tai” đi siêu thị ngày nghỉ lễ
(Dân trí) - Chen nhau mua hàng, ngạt thở chờ tính tiền, thậm chí nhiều người phải bỏ hàng “thốt thân”… Đó là tình cảnh nhiều người gặp phải khi đi siêu thị trong những ngày nghỉ lễ vừa qua.
Thay vì đi du lịch, một bộ phận không nhỏ người dân ở
41
TPHCM lại vung tiền cho mua sắm trong dịp nghỉ lễ dài ngày 30/4 - 1/5 vừa qua. Đáp lại, các siêu thị cũng có nhiều chương trình khuyến mãi hấp dẫn để tạo sức hút với người dân…
3
Url: http://dantri.com.vn/c26/s26-394037/wayne-rooney-tiep-
tuc-boi-thu-danh-hieu-ca-nhan.htm
Wayne Rooney tiếp tục bội thu danh hiệu cá nhân
(Dân trí) - Với phong độ chói sáng trong mùa giải năm nay, Wayne Rooney một lần nữa lại ẵm về các danh hiệu cá nhân cao quý. Mới đây anh đã đoạt thêm 2 giải thưởng Cầu thủ
xuất sắc nhất do các CĐV MU và các đồng đội bình chọn.
Với tỷ lệ phiếu bầu áp đảo 83% Rooney đã vượt qua các đồng
đội Patrice Evra và Antonio Valencia để trở thành Cầu thủ
xuất sắc nhất năm 2010 của MU (Sir Matt Busby Player of
the Year). Giải thưởng do các CĐV của Quỷ đỏ khắp nơi trên
thế giới bình chọn thơng qua website ManUtd.com. Đây là lần thứ hai chân sút người Anh có được vinh dự này sau thành
công lần đầu vào năm 2006.
19 4 70
4
Url: http://dantri.com.vn/c26/s26-381415/owen-rooney-giup-
mu-bao-ve-thanh-cong-carling-cup.htm
Owen, Rooney giúp MU bảo vệ thành cơng Carling Cup
(Dân trí) - Dù để Aston Villa vượt lên dẫn trước ngay đầu trận
nhưng với bản lĩnh của mình, “Quỷ đỏ” đã lội ngược dòng để
giành chiến thắng 2-1 nhờ hai pha lập cơng của Owen và Rooney, qua đó lần thứ hai liên tiếp vô địch Carling Cup.
Trận chung kết tại Wembley tối nay, 28/2, diễn ra cởi mở và hấp dẫn ngay sau tiếng còi khai cuộc. Aston Villa bất ngờ mở tỷ số ngay phút 4 sau cú sút penalty thành công của James Milner. Bị dội “gáo nước lạnh” từ sớm nhưng MU khơng hề nao núng và nhanh chóng qn bình tỷ số chỉ sau đó 9 phút, với pha chớp thời cơ của Owen.
Dù sau đó cựu tiền đạo Newcastle phải rời sân ở cuối hiệp 1
do bị đau nhưng người vào thay anh, Wayne Rooney tiếp tục hoàn thành xuất sắc nhiệm vụ. Tiền đạo đang có phong độ ghi bàn “cực khủng” này chính là tác giả bàn thắng ấn định tỷ số 2-1 ở phút 74, giúp MU đăng quang chức vô địch Carling Cup lần thứ hai liên tiếp...
42
Hệ thống nhận ra điểm tương đồng chủ đề giữa các tin tức mới được đọc. Như trong ví dụ, chủ đề phổ biến là : 19 (3 lần), 70 (2 lần) (ví dụ một số từ khóa có trọng số cao trong 2 chủ đề 19 và 70 được nêu trong bảng dưới) và các thực thể nổi trội như: MU, Wayne Rooney, Newcastle, Carling Cup, Owen,...
Phân phối trên các từ của chủ đề 19 Phân phối trên các từ của chủ đề 70 giải vô_địch cầu_thủ đội mùa bóng vịng trận hạng bóng_đá đấu thi_đấu … 0.06996495208178817 0.028954524962552533 0.025173421752977616 0.021828599682969036 0.01935633989209313 0.014993528496429764 0.014266393263819203 0.011503279379899072 0.011212425286854849 0.011212425286854849 0.010921571193810624 0.010485290054244287 đồng hàng tiền triệu tỷ chiếm lừa trăm chục giả chiếm_đoạt nghìn … 0.07584530113531 0.03834504357859601 0.03463622689716275 0.03133950095811097 0.02227350462571858 0.011765190694991037 0.008674510127129994 0.008262419384748521 0.006614056415222632 0.006408011044031896 0.00620196567284116 0.0053777841880782145 4.3.3. Tư vấn tin tức
Các tin tức được xem là liên quan nếu nó thuộc vào cùng chủ đề phổ biến trong các tin tức người dùng quan tâm, ví dụ với các tin tức được liệt kê trong bảng 8. Các tin tức liên quan là các tin tức có chủ đề thuộc vào 19 hoặc 70.
43
Tuy nhiên, nếu chỉ tư vấn các tin tức thuộc cùng chủ đề thì có thể có q nhiều tin tức được lựa chọn, cần có một giải pháp để sắp xếp lại các tin tức này, khóa luận sử dụng những thực thể nằm trong các tin tức đã được xem thuộc về chủ đề được quan tâm phổ
biến (như MU, Wayne Rooney, Newcastle, Carling Cup, Owen,...) để xếp hạng lại những kết quả thu được.
Top N các tin tức thu được sẽ được sử dụng để đưa ra tư vấn với người dùng. Ví dụ, tin tức có thể được tư vấn.
Garry Neville và 10 sự kiện đáng nhớ trong sự nghiệp ở MU - Bóng đá - Tin bên lề. Score: 4
Gary Neville, tên đầy đủ là Gary Alexander Neville, hiện nay đang là người đứng thứ 5 trong
danh sách những cầu thủ khoác áo nhiều nhất của MU với 597 trận đấu trên tất cả các đấu
trường. Xếp trên anh là Paul Scholes với 641 lần ra sân và Ryan Giggs đang là người dẫn đầu
danh sách này với 836 lần. Neville cũng là 1 trong 9 cầu thủ trong top hơn 500 lần xuất hiện
trong màu áo đỏ của MU.
Neville là sản phẩm của lò đào tạo trẻ MU những năm 90 và đã có vinh dự được đeo băng đội
trưởng trong đội hình Manchester United đoạt cúp vô địch FA dành cho các đội trẻ năm
1992. Mùa bóng đó chứng kiến sự ra đời của lứa cầu thủ tài năng như David Beckham, Ryan
4.4. Kết quả thực nghiệm và đánh giá
Chúng tôi tiến hành đánh giá độ chính xác của mơ hình dựa vào 2 phương pháp
đánh giá đã được nêu ở mục 3.4:
Đánh giá mơ hình phân tích sở thích dựa vào tính tương đồng chủ đề giữa mối
quan tâm người dùng nhận ra từ lịch sử duyệt web lưu trong máy khách và mối quan tâm người dùng nhận ra từ phiên duyệt web lưu tại máy chủ.
Đánh giá độ chính xác của mơ hình dựa vào đánh giá của người sử dụng: thống
kê các đánh giá trực tiếp của người dùng qua việc kiểm tra thông tin tư vấn là
phù hợp hay khơng phù hợp. Kết quả đo độ chính xác là độ chính xác trung bình
44
Bảng 9. Đánh giá mơ hình phân tích sở thích.
Chủ đề Độ chính xác của chủ đề với mối quan
tâm người dùng Chủ đề đứng đầu 85% Chủ đề đứng thứ hai 79% Chủ đề đứng thứ ba 72% Chủ đề đứng thứ tư 66% Chủ đề đứng thứ năm 57%
Kết quả so sánh độ tương đồng chủ đề giữa phiên duyệt web và các trang web người dùng truy cập trước và sau phiên duyệt web cho thấy những phân tích về mối quan tâm
người dùng có thể sử dụng để tổng hợp các mối quan tâm hiện tại và dự đoán các tin tức
có thể được người dùng ưa thích trong tương lai.
Bảng 10. Độ chính xác của mơ hình dựa vào đánh giá của người sử dụng.
Số lượng các tin tức người dùng đã duyệt qua Độ chính xác của 1 kết quả tư vấn Độ chính xác của 3 kết quả tư vấn Độ chính xác của 5 kết quả tư vấn 1 tin tức 70% 68.3% 65.2% 3 tin tức 76.7% 64.3% 66.4% 5 tin tức 83.3% 79.4% 76.5% 7 tin tức 56.7% 43.7% 42%
Từ các số liệu bảng 10, có thể đưa ra các kết luận sau:
Kết quả tư vấn đạt tốt nhất ở trường hợp phiên duyệt web lưu trữ 5 tin tức. Các trường hợp phiên duyệt web lưu trữ 1 và 3 tin tức hiệu quả thấp hơn là vì
đơi khi người dùng quan tâm đến các tin tức thuộc các lĩnh vực hoàn toàn độc lập, chưa xuất hiện tính phổ biến trong các chủ đề được phân tích. Ở
trường hợp cịn lại khi số tin tức lưu trong phiên là 7, nhiễu do một số chủ đề ít được quan tâm trong các tin tức cũ tăng lên. Vì hệ thống chỉ xác định các
45
trường hợp, những chủ đề ít được quan tâm trở thành phổ biến, làm giảm độ
chính xác của mơ hình.
Nhìn chung, độ chính xác của mơ hình tư vấn giảm dần theo số lượng các tin tức được tư vấn. Tuy nhiên việc đưa ra nhiều tư vấn cung cấp cho người dùng nhiều lựa chọn hơn.
46
Kết luận
Các hệ thống tư vấn đã nhận được nhiều quan tâm từ cộng đồng nghiên cứu và các tổ chức kinh tế vì những đóng góp của nó trong giải quyết vấn đề tràn ngập thông tin và cung cấp các dịch vụ hướng cá nhân. Tuy nhiên, đối với lĩnh vực tư vấn tin tức, các hướng tiếp cận hiện nay vẫn còn nhiều vấn đề cần giải quyết. Nắm bắt được nhu cầu đó, khóa luận tiến hành nghiên cứu, khảo sát một số hướng tiếp cận giải quyết bài tốn tư vấn đã
có. Sau đó, dựa trên các khảo sát này, khóa luận đề xuất một giải pháp tư vấn cho các hệ
thống cung cấp tin tức.
Các kết quả chính đạt được
Khóa luận đã tìm hiểu các khái niệm, thuật ngữ, kĩ thuật liên quan đến các hệ thống
tư vấn. Dựa vào khảo sát các đặc trưng của tư vấn tin tức, phân tích ưu nhược điểm của các phương pháp xây dựng hai thành phần chính của hệ tư vấn là mơ hình sở thích người
dùng và các thuật tốn tư vấn, khóa luận đề xuất một giải pháp tư vấn tin tức dựa trên khai phá ngữ cảnh sử dụng hiện tại của người dùng. Trong đó, hệ thống thực thi một thuật toán
tư vấn dựa trên phân tích chủ đề ẩn và các thực thể trong nội dung của những tin tức
người dùng vừa truy cập (hướng tiếp cận dựa trên nội dung). Hướng tiếp cận này có nhiều
tiềm năng và đã được chứng minh thông qua một số số liệu thống kê kết quả ban đầu.
Một số vấn đề cần tiếp tục giải quyết
Tuy mơ hình đã bước đầu đạt được một số kết quả khả quan, nhưng vẫn còn tồn tại nhiều vấn đề cần giải quyết. Đầu tiên, vì chưa có các độ đo ngữ nghĩa cho các hệ thống tư vấn tương tự, các đánh giá chủ yếu dựa trên các nhận định chủ quan về tính phù hợp hay khơng phù hợp của kết quả tư vấn. Thêm vào đó, hạn chế về số lượng và chất lượng của kho dữ liệu tin tức cũng ảnh hưởng xấu đến chất lượng của sự tư vấn. Cuối cùng, do hệ thống sử dụng dữ liệu từ phiên duyệt web người dùng, kết quả tư vấn khi người dùng mới truy cập một vài tin tức đầu còn chưa cao.
47
Hướng nghiên cứu tiếp theo
Trong thời gian tới, ngoài việc tiếp tục giải quyết các vấn đề còn tồn tại, chúng tôi định hướng một số nghiên cứu tiếp theo:
- Nghiên cứu thêm về các yếu tố ngữ cảnh và ảnh hưởng của chúng đến quyết định của người dùng.
- Nghiên cứu các hướng áp dụng của giải pháp mở rộng thông tin ngữ cảnh người
48
Tài liệu tham khảo
Tiếng Việt
[1] Uông Huy Long, Nguyễn Đạo Thái, Trần Xuân Tứ. Mơ hình tư vấn dựa trên
việc phân tích chủ đề ẩn sự quan tâm của người dùng, Cơng trình sinh viên nghiên cứu khoa học, Đại học Công Nghệ, ĐHQGHN, 2009.
Tiếng Anh
[2] G.Adomavicius, A.Tuzhilin. Towards the Next Generation of Recommender
Systems:A Survey of the State-of-the-Art and Possible Extensions, IEEE Transactions on Knowledge and Data Engineering, 2005.
[3] Aho, Alfred V.; Margaret J. Corasick. "Efficient string matching: An aid to
bibliographic search". Communications of the ACM 18 (6): 333–340, June 1975.
[4] Ansari, A., S. Essegaier, and R. Kohli. Internet recommendations systems. Journal of Marketing Research, pages 363-375, 2000.
[5] Basu, C., H. Hirsh, and W. Cohen. Recommendation as classification:
Using social and content-based information in recommendation. In Recommender Systems. Papers from 1998 Workshop. Technical Report WS-98-08. AAAI Press, 1998.
[6] Balabanovic, M. and Y. Shoham. Fab: Content-based, collaborative
recommendation. Communications of the ACM, 40(3):66-72, 1997.
[7] Bamshad Mobasher: Data Mining for Web Personalization. The Adaptive
Web 2007:90-135.
[8] Belkin, N.J., Croft, W.B.: Information filtering and information retrieval: two
sides of the same coin?. Communications of the ACM 35(12), 29–38 (1992).
[9] Billsus, D. and M. Pazzani. Learning collaborative information filters.
49
1998.
[10] Breese, J. S., D. Heckerman, and C. Kadie. Empirical analysis of predictive
algorithms for collaborative filtering. In Proceedings of the Fourteenth Conference on
Uncertainty in Artificial Intelligence, Madison, WI, 1998.
[11] Burke, R. Hybrid Recommender Systems: Survey and Experiments. User Modeling and User-Adapted Interaction 12, 4 (Nov. 2002), 331-370.
[12] Chen, L., Sycara, K.: A Personal Agent for Browsing and Searching. In:
Proceedings of the 2nd International Conference on Autonomous Agents,
Minneapolis/St. Paul, May 9-13, (1998) 132-139.
[13] David M. Blei, Andrew Y. Ng, Michael I. Jordan: Latent Dirichlet Allocation.
Journal of Machine Learning Research (JMLR) 3:993-1022 (2003).
[14] Gauch, S., Speretta, M., Chandramouli, A., Micarelli, A. User profiles for
personalized information access, In: Brusilovsky, P., Kobsa, A., and Neidl, W., Eds.
The Adaptive Web: Methods and Strategies of Web Personalization. Springer- Verlag, Berlin Heidelberg New York, 2007, 54-89.
[15] Gentili, G., Micarelli, A., Sciarrone, F.: Infoweb: An Adaptive Information
Filtering System for the Cultural Heritage Domain. Applied Artificial Intelligence
17(8-9) (2003) 715-744.
[16] Guarino, N., Masolo, C., Vetere, G.: OntoSeek: Content-Based Access to the
Web. IEEE Intelligent Systems, May 14(3) (1999) 70-80.
[17] Heinrich, G., “Parameter Estimation for Text Analysis”, Technical Report.
[18] Herlocker, .L., Konstan, J.A., Terveen, L.G., Riedl, J.T.: Evaluating
Collaborative Filtering Recommender Systems. ACM Transactionson Information Systems 22(1), 5–53(2004).
50
SIGIR-99, (1999) 35–44.
[20] Kelly, D., Teevan, J.: Implicit feedback for inferring user preference: a
bibliography. ACM SIGIR Forum 37(2) (2003) 18-28.
[21] Le Dieu Thu. Online context advertising, Undergraduate Thesis, College of
Technology, Vietnam National University, Hanoi, 2008.
[22] Nguyen Cam Tu. Hidden Topic Discovery toward Classification and Clustering in Vietnamese Web Documents, Master Thesis, College of Technology, Vietnam
National University, Hanoi, 2008.
[23] Pazzani, M., Muramatsu, J., Billsus, D.: Syskill & Webert: Identifying
Interesting Web Sites. In: Proceedings of the 13th National Conference On Artificial
Intelligence Portland, Oregon, August 4–8 (1996) 54-61.
[24] Pretschner, A.: Ontology Based Personalized Search. Master’s thesis. University of Kan- sas, June (1999).
[25] Popescul, A., L. H. Ungar, D. M. Pennock, and S. Lawrence. Probabilistic
Models for Unified Collaborative and Content-Based Recommendation in Sparse- Data Environments. In Proc. of the 17th Conf. on Uncertainty in Artificial Intelligence, Seattle, WA, 2001.
[26] R.Baeza, F.Silvestri. Web Query Log Mining, ACM SIGIR Conference tutorial, 2009.
[27] G. Salton, A. Wong, C.S. Yang. A Vector Space Model for Automatic Indexing,
Communication of the ACM, 18 (11), 1975.
[28] Sieg, A., Mobasher, B., Burke, R.: Inferring users information context:
Integrating user profiles and concept hierarchies. In: 2004 Meeting of the International Federation of Classification Societies, IFCS, Chicago, July (2004).
51
text filtering. In 43 IJCAI'99 Workshop: Machine Learning for Information Filtering,
1999.
[30] The Open Directory Project (ODP), http://dmoz.org
[31] Widyantoro, D.H., Yin, J., El Nasr, M., Yang, L., Zacchi, A., Yen, J.: Alipes: A Swift Messenger In Cyberspace. In: Proc. 1999 AAAI Spring Symposium Workshop