ISSN 1859 3100 TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HỒ CHÍ MINH TẠP CHÍ KHOA HỌC KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ Tập 14, Số 6 (2017) 138 145 HO CHI MINH CITY UNIVERSITY OF EDUCATION JOURNAL OF SCIENCE NATURAL SCI[.]
TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HỒ CHÍ MINH TẠP CHÍ KHOA HỌC ISSN: 1859-3100 HO CHI MINH CITY UNIVERSITY OF EDUCATION JOURNAL OF SCIENCE KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ Tập 14, Số (2017): 138-145 NATURAL SCIENCES AND TECHNOLOGY Vol 14, No (2017): 138-145 Email: tapchikhoahoc@hcmue.edu.vn; Website: http://tckh.hcmue.edu.vn TỐI ƯU HỆ THỐNG TÌM KIẾM WEB BẰNG VIỆC KHAI THÁC DỮ LIỆU MẠNG Xà HỘI Nguyễn Thành Luân*, Vũ Thanh Nguyên Trường Đại học Công nghệ Thông tin - ĐHQG TPHCM Ngày Tòa soạn nhận bài: 31-12-2016; ngày phản biện đánh giá: 19-01-2017; ngày chấp nhận đăng: 19-6-2017 TĨM TẮT Với bùng nổ thơng tin nay, vấn đề tìm kiếm thơng tin cho người dùng cịn nhiều thách thức Chính vậy, mục tiêu nghiên cứu (1) khai thác thích cộng đồng từ mạng xã hội Twitter, (2) chuẩn hóa câu truy vấn theo hướng người dùng, (3) kết hợp sử dụng giải thuật SoPRa để xếp hạng kết tìm kiếm, (4) xây dựng hệ thống tìm kiếm hỗ trợ người dùng tìm kiếm cách nhanh chóng hiệu Từ khóa: thích xã hội, mạng xã hội, tìm kiếm thơng tin, tối ưu truy vấn, xếp hạng trang web ABSTRACT Improving Web Search By Exploiting Social Data With the booming of information nowadays, the issue of searching for information for users is facing many challenges Therefore, the study aims at: (1) exploiting social annotation from Twitter, (2) standardizing query following a user-orientated approach, (3) utilizing SoPRa to perform ranking of search results, (4) developing a search system to facilitate users to search information quickly and effectively Keywords: social annotation, web ranking, query optimization, information search Giới thiệu Hiện nay, Internet phát triển cách mạnh mẽ, sâu vào lĩnh vực sống trở thành kênh thông tin quan trọng sống người Các website phát triển ngày nhiều ngày đa dạng cấu trúc lẫn nội dung trang web Vì vậy, khơng có ngạc nhiên lượng thông tin tải, hỗn độn, rối rắm thường làm sai lệch thơng tin mà người dùng muốn tìm kiếm duyệt web Chính lẽ mà hệ thống tìm kiếm (Search Engine) xây dựng công cụ để giúp người dùng tìm chọn thơng tin phù hợp với Theo nghiên cứu từ [1], có hướng cải tiến là: (i) chuẩn hóa câu truy vấn, bao gồm việc thêm bớt từ khóa cho câu truy vấn, (ii), xếp lại kết tìm kiếm dựa ngữ cảnh thơng tin người dùng, (iii) cải tiến mơ hình tìm kiếm thơng tin * Email: thanhluan.uit@gmail.com TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM Tập 14, Số (2017): 138145 Với phát triển công nghệ Web 2.0, nhiều hệ thông web hỗ trợ người dùng đánh dấu, chia sẻ bình luận tài nguyên mà họ quan tâm Đặc biệt, hệ thống cho phép người sử dụng web tổ chức chia sẻ trực tuyến trang web mà họ quan tâm cách sử dụng thích cộng đồng Các thích thường tóm lược trang web tương ứng Vậy làm cách để tận dụng tốt lợi ích thích cộng đồng vào cơng cụ tìm kiếm Trong nghiên cứu này, kết hợp hướng cải tiến chuẩn hóa câu truy vấn xếp hạng lại kết tìm kiếm theo hướng người dùng dựa thích cộng đồng, để từ xây dựng hệ thống tìm kiếm hiệu Các cơng trình liên quan Năm 2006, P A Dmitriev, N Eiron, M Fontoura, and E Shekita [2], nghiên cứu cách sử dụng thích cộng đồng Enterprise Search Năm 2007, Shenghua Bao, Xiaoyuan Wu, Ben Fei, Guirong Xue, Zhong Su, and Yong Yu [3] lần đề cập đến quan tâm người dùng cách xem xét đến thích cộng đồng Qua tác giả xây dựng giải thuật SocialSimRank SocialPageRank Độ đo phản ánh phần mối quan hệ từ khóa xuất trang web Năm 2008, Ding Zhou cộng [4] nghiên cứu sử dụng thích cộng đồng truy xuất thông tin (Information Retrieval) mang lại kết khả quan Noll and Meinel [5] đề xuất phương pháp tìm kiếm hướng người dùng, phương pháp khai thác thích người dùng trang web để cải thiện hệ thống tìm kiếm web Phương pháp đơn giản mang lại hiểu cao Xu et al [6] xây dựng framework tận dụng folksonomy để cải thiện kết tìm kiếm Năm 2010, Vallet et al [7] sử dụng thông tin liên quan đến người dùng trang web cho tìm kiếm web theo hướng người dùng Năm 2011, Bouadjenek cộng ông [8] đề xuất phương pháp chuẩn hóa câu truy từ người dùng - SoQuES Phương pháp khai thác tương đồng ngữ nghĩa giữ thích câu truy vấn mối quan tâm người dùng thông qua thông tin họ Năm 2013, M.R Bouadjenek, H Hacid, M Bouzeghoub [9] đề xuất phương pháp xếp hạng gọi SoPRa, dựa personalized social ranking Phương pháp nghiên cứu việc sử dụng thích cộng đồng kết hợp khai thác mối quan tâm người dùng để nâng cao hiệu tìm kiếm Năm 2015, M Lu, X Sun, S Wang, D Lo, and Y Duan nâng cao hiệu việc chuẩn hóa câu truy vấn việc sử dụng từ điển WordNet mang lại hiệu định [10] Bên cạnh đó, năm 2015, Khodaei với cộng [11] đề xuất phương pháp nhằm cải tiến việc tìm kiếm theo hướng người dùng dựa cấu trúc mối liên hệ thành phần mạng xã hội Hầu hết hướng tiếp cận thực ngữ cảnh folksonomies có chung ý tưởng độ quan trọng trang web (xếp hạng trang) dựa hai yếu tố độ tương đồng nội dung độ tương đồng mối quan tâm người dùng trang web Phương pháp Social Personalized Ranking (SoPRa) Trong phần này, chúng tơi trình bày chi tiết phương pháp SoPRa – phương pháp xếp hạng trang web theo hướng người dùng Cách tiếp cận phương pháp khai thác thích cộng đồng ngữ cảnh folksonomies Theo Bouadjenek cộng [9], SoPRa xếp hạng trang web dựa yếu tố là: (i) độ tương đồng nội dung trang web với câu truy vấn, (ii) mức độ quan tâm người dùng trang web Ở yếu tố đầu tiên, tác giả cho độ tương đồng trang web với câu truy vấn dựa độ tương đồng nội dung văn (textual matching score) độ tương đồng yếu tố xã hội (social matching score) Trong đó, textual matching score thể tương đồng nội dung trang web với câu truy vấn Còn social matching score thể tương đồng “social representation” với câu truy vấn Với social representation thể thông qua thích dùng để đánh dấu trang web Cuối cùng, độ đo nhân tố tính cách kết hợp chúng hàm tuyến tính sau: Score(q, d) = β × Cos( �̅⃗, �̅ ̅�⃗ ) + (1 - β) × Sim( �̅⃗, ̅�̅⃗) (1) Trong đó, hệ số β chúng tơi chọn 0.5, �̅ ̅�⃗ vectơ đại diện cho social representation trang web, Sim( �̅⃗, �)̅⃗ biểu thị độ tương đồng nội dung trang web d với câu truy vấn q Ở yếu tố thứ 2, độ đo mối quan tâm người dùng (social interest score) trang web tính độ tương đồng thông tin người dùng với thích trang web (social representation of a document) Tiếp đến, cộng độ đo mối quan tâm người dùng với độ đo tính cơng thức (1) Cuối cùng, cơng thức tính độ đo trang web d phù hợp với câu truy vấn q, tìm kiếm người dùng u thể sau: Rank(d, q, u)= � × ̅�⃗, �̅ ̅�⃗) + (1 - �) × Score(q, d) (2) Cos( � Tóm lại, phương pháp SoPRa xếp hạng trang web dựa trên: Độ tương đồng nội dung văn trang web với câu truy vấn; độ tương đồng mặt social trang web với câu truy vấn; mức độ quan tâm người dùng trang web Bên cạnh thơng tin người dung “social representations” trang web tính tốn dựa thích xã hội mà liên kết với mơ hình khơng gian vectơ (Vector Space Model) Nếu xem trang web người dùng tài liệu thích từ, thiết lập cho VSM Một điểm quan trọng VSM trọng số từ Và nghiên cứu này, trọng số thích xã hội tính phương pháp tf-idf (term frequency– inverse document frequency) sau: w = tf × 𝑙𝑜� (3) � �i Trong đó, tf tần suất xuất từ tài liệu (term frequency), N tổng số tài liệu dataset �i số lượng tài liệu mà từ xuất Phần tiếp theo, chúng tơi trình bày giải thuật mở rộng câu truy vấn SoQuES Giải thuật Personalized Social Query Expansion (SoQuES) Với lượng thông tin khổng lồ việc tìm thơng tin liên quan ngày trở nên khó khăn cho người dùng cuối vì: (i) thơng thường, người dùng ko thực biết rõ tìm kiếm tìm thấy nó, (ii) có biết người dùng khơng biết dùng câu truy vấn cho phù hợp với nhu cầu Và việc chuẩn hóa câu truy vấn việc mở rộng (query expansion) giải pháp tốt cho vấn đề Phương pháp làm phong phú thêm cho câu truy vấn ban đầu người dùng thông tin bổ sung liên quan tới câu truy vấn ban đầu để hệ thống đề xuất kết phù hợp đáp ứng tốt nhu cầu người sử dụng Trong nghiên cứu này, sử dụng phương pháp mở rộng câu truy vấn (query expansion) Bouadjenek đồng nghiệp ông đề xuất [8] để chuẩn hóa câu truy vấn cho hệ thống tìm kiếm 4.1 Định nghĩa vấn đề Cho câu truy vấn Q = {t1, t2, , tm} nhập người dùng u, làm cách để cung cấp cho ti ∈ Q danh sách xếp hạng từ khóa liên quan đến {ti1, ti2, , tik}, khoảng cách mong đợi người dùng kết trả từ hệ thống giảm thiểu Mục tiêu để chuyển đổi câu truy vấn Q thành câu truy vấn Q' cho: (i) Q thiết phải có Q', (ii) kết Q có Q ', (iii) kết thu với Q' nên tăng độ xác kết không làm giảm hài lòng người dùng Phần chi tiết giải thuật SoQuES cho việc giải vấn đề 4.2 Giải thuật SoQuES Algorithm: Personalized Social Query Expansion (SoQuES) Require: A social folksonomy Graph G; u: a User; Q: a Query; 1: for all ti ∈ Q 2: L ← list of neighbor of ti in tag graph Gtag 3: 4: for all tj ∈ L tj.Value ← ������i (�j ) 5: Sort L by tj.Value and take top k terms in L 6: Make a logical OR (∨) between ti and all terms of L 7: Update Q′ 8: return Q′ Thông tin người dùng (user profile) biểu diễn vectơ trọng số ̅ ⃗ = � � {wt1 , wt2 , , wtn }, wti tính phương pháp tf-idf (term frequency inverse document frequency) (dòng 1) Ở dòng 3, lấy tất thích láng giềng tj ti đồ thị thích G tag Sau đó, dịng 5, với t j, tính độ tương đồng thích ti tj người dùng u ���� � (�j ) tính toán sau: � ∑� ���� � (�i ) = γ × Sim(t, ti) + (1i - γ) × �i�(�i , �j ) (4) × �� � � �j ∈ �� j Trong đó, Sim(t, ti) độ tương đồng từ khóa t ti, m chiều dài user profile wtj trọng số tj user profile Chúng sử dụng thuật giải SocialSimRank (SSR) [3] để tính độ tương đồ Sim(ti, tj) � Tiếp theo, xếp danh sách thích dòng dựa vào giá trị ���� (�j ) � i giữ top k thích (dịng 6) Cuối kết hợp t i với từ danh sách xếp Ví dụ: Khi người dùng nhập vào câu truy vấn: Q = t1 ∧t2 ∧ ∧tm, mở rộng để trở thành câu truy vấn mới: Q′ = (t1∨ t11∨ ∨ t1l) ∧ (t2∨ t21∨ ∨ t2k) ∧ ∧ (tm∨ tm1∨ ∨ tmr) Trong phần này, vừa trình bày chi tiết bước giải thuật SoQuES Phần tiếp theo, chúng tơi nói việc thu thập liệu từ mạng xã hội Twitter Khai thác liệu mạng xã hội Twitter Twitter [12] dịch vụ mạng xã hội trực tuyến miễn phí cho phép người sử dụng đọc, nhắn cập nhật mẩu tin nhỏ gọi tweets, dạng tiểu blog Theo số liệu ngành truyền thông xã hội gần đây, Twitter mạng xã hội hàng đầu toàn giới dựa thành viên hoạt động Tính đến quý IV năm 2015, Twitter có 305 triệu người sử dụng hàng tháng hoạt động 500 triệu tweet ngày tạo [13] Bên cạnh đó, Twitter cho phép tương tác với liệu tweets liệu khác liên quan đến tweets thông qua Twitter APIs Đặc biệt, thu thập liệu tweets theo thời gian thực thông qua Twitter’s Streaming API Vì vậy, chúng tơi tiến hành khai thác liệu từ để cung cấp liệu cho hệ thống tìm kiếm 6 Kết thực nghiệm đánh giá 6.1 Dữ liệu thích cộng đồng Để chuẩn bị liệu cho việc thực nghiệm, xây dựng module để tiến hành thu thập liệu từ Twitter thông qua Twitter’s Streaming API Sau thu thập liệu từ Twitter, tiến hành chuẩn hóa liệu thao tác sau trước sử dụng cho thực nghiệm: (1) lọc bỏ tweets mà không thuộc ngôn ngữ tiếng Anh khơng có chứa URL, (2) trích xuất thích (hashtag) địa web (URL) từ tweets, (3) loại bỏ thích vơ nghĩa “!picspam”, “atthissummer” dựa từ điển WordNet, (4) loại bỏ địa trang web mà không thuộc ngôn ngữ tiếng Anh thông qua Apache Tika toolkit Bảng mô tả số liệu cụ thể liệu thu thập sau chuẩn hóa: Bảng Dữ liệu từ Twitter Tweets 2.520.358 Người dùng 365.939 Chú thích 162.987 6.2 Phương pháp đánh giá Ý tưởng việc đánh giá thực sau: Cho câu truy vấn q = {t} nhập người dùng u với từ khóa truy vấn t, kết tìm kiếm liên quan trang web người dùng u với thích từ khóa t Chúng tơi sử dụng độ đo Mean Average Precision để tiến hành thực nghiệm cho cơng cụ tìm kiếm Cụ thể hơn, chúng tơi tính tốn MAP cho người dùng sau tính tốn giá trị trung bình tất giá trị MAP (Mean MAP) MMAP = � ∑ � 𝑀𝐴�i i=1 �� Trong đó, MAPi giá trị độ đo MAP người dung thứ i, N u số lượng người dùng thực nghiệm Chúng chọn ngẫu nhiên 1000 cặp (u,t) Trong cặp, user u gửi câu truy q = {t} đến hệ thống tìm kiếm Tiếp theo, hệ thống tìm kiếm xếp hạng kết tìm kiếm phù hợp với câu truy vấn Cuối cùng, chúng tơi tính độ đo MAP cho 1000 câu truy vấn Đánh giá liên kết trả có tương quan hay khơng tương quan tùy vào ý kiến chủ quan người dùng, thực nghiệm chọn 10 kết để đánh giá 6.3 Kết đánh giá Trong công thức xếp hạng trang web (2), thực nghiệm với ≤ α ≤ β = 0.5 Công thức (4), chọn γ = 0.5 kích thước câu truy vấn cho từ khóa Hình mơ tả kết thực nghiệm hệ thống tìm kiếm URL 745.286 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.780.80.81 0.69 0.65 0.61 0.67 0.72 0.65 0.7 0.76 00.20.40.60.81 Giá trị � Hình Giá trị Mean Average Precision theo � Theo hình 1, hiệu hệ thống tìm kiếm đạt tốt � ∈ [0.6, 0.8] Kết luận Trong báo này, nghiên cứu làm để khai thác sử dụng thích xã hội việc tìm kiếm thơng tin Chú thích xã hội khơng cung cấp nội dung mà cịn tóm tắt, đồng thời phổ biến trang web Thơng qua cài đặt thuật tốn chuẩn hóa câu truy vấn xếp hạng trang web ứng dụng cơng cụ tìm kiếm Kết tìm kiếm khắc phục cứng nhắc việc tìm kiếm xác từ khóa câu truy vấn Nghiên cứu tận dụng ưu điểm thơng tin mối quan tâm sở thích người dùng web để hỗ trợ người dùng tìm kiếm cách nhanh chóng thơng tin mà họ cần Kết thực nghiệm khơng chứng minh tính hiệu cơng cụ tìm kiếm chúng tơi, mà cịn cho thấy mơ hình ứng dụng thích cộng đồng vào cơng cụ tìm kiếm hướng nghiên cứu khả thi có tiềm ứng dụng cao cơng cụ tìm kiếm [1] [2] [3] TÀI LIỆU THAM KHẢO M.R Bouadjenek, A Bennamane, H Hacid, M Bouzeghoub, “Social Networks and Information Retrieval, How Are They Converging? A Survey, a Taxonomy and an Analysis of Social Information Retrieval Approaches and Platforms,” Information Systems, Elsevier, 2016 Pavel A Dmitriev, Nadav Eiron, Marcus Fontoura, and Eugene Shekita, “Using annotations in enterprise search,” In WWW ’06: Proceedings of the 15th international conference on World Wide Web, pp 811–817, New York, NY, USA, 2006 S Bao, G Xue, X Wu, Y Yu, B Fei, Z Su, “Optimizing web search using social annotations,” in: Proceedings of the 16th International Conference on World Wide Web, pp 501–510, WWW '07, ACM, New York, NY, USA, 2007 [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] Ding Zhou, Jiang Bian, Shuyi Zheng, Hongyuan Zha, and C Lee Giles, “Exploring social annotations for information retrieval,” In WWW ’08: Proceeding of the 17th international conference on World Wide Web, pp 715– 724, New York, NY, USA, 2008 M.G Noll, C Meinel, “Web search personalization via social bookmarking and tagging,” in: ISWC'07 and ASWC'07, 2007 S Xu, S Bao, B Fei, Z Su, Y Yu, “Exploring folksonomy for personalized search,” In: SIGIR, 2008 D Vallet, I Cantador, and J M Jose, “Personalizing web search with folksonomy based user and document profiles,” In ECIR, 2010 M.R Bouadjenek, H Hacid, M Bouzeghoub, Johann Daigremont, “Personalized social query expansion using social bookmarking systems,” in Proceeding of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval, Beijing, China, July 25-29, 2011 M.R Bouadjenek, H Hacid, M Bouzeghoub, “SoPRa: a new social personalized ranking function for improving web search,” in: Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval, ACM, New York, NY, USA, 2013 M Lu, X Sun, S Wang, D Lo, and Y Duan, “Query expansion via WordNet for effective code search,” in Proceedings of IEEE 22nd International Conference on Software Analysis, Evolution, and Reengineering, pp 545-549, 2015 Khodaei, Ali, Sina Sohangir, and Cyrus Shahabi, “Personalization of Web Search Using Social Signals,” Recommendation and Search in Social Networks, Springer International Publishing, pp 139-163, 2015 Twitter (2016) [Online] Available: https://twitter.com Statista Inc (2016, Oct 1) Twitter Statistics & Facts [Online] Available: https://www.statista.com/topics/737/twitter ... giải thuật SoQuES Phần tiếp theo, chúng tơi nói việc thu thập liệu từ mạng xã hội Twitter Khai thác liệu mạng xã hội Twitter Twitter [12] dịch vụ mạng xã hội trực tuyến miễn phí cho phép người sử... theo � Theo hình 1, hiệu hệ thống tìm kiếm đạt tốt � ∈ [0.6, 0.8] Kết luận Trong báo này, nghiên cứu làm để khai thác sử dụng thích xã hội việc tìm kiếm thơng tin Chú thích xã hội khơng cung cấp... từ để cung cấp liệu cho hệ thống tìm kiếm 6 Kết thực nghiệm đánh giá 6.1 Dữ liệu thích cộng đồng Để chuẩn bị liệu cho việc thực nghiệm, xây dựng module để tiến hành thu thập liệu từ Twitter