3 Phân bÍ chßt l˜Òng các câu tr£ lÌi trên Yahoo!Answers [14]
1.2 B£ng so sánh gi˙a hª thËng KBQA và cQA
KBQA cQA
Lo§i câu h‰i Các câu h‰i s¸th™t (factoid question) Các câu h‰i s¸ th™t (factoid ques- tion) và phi s¸ th™t (non-factoid) Câu tr£ lÌi Trích rút trong kho l˜u tr˙ (Cor-
pora, Dictionaries, Databases, Docu- ments,. . . ) óng góp bi các chuyên gia, ng˜Ìi s˚dˆng cQA Chßt l˜Òng câu tr£lÌi Cao, câu tr£ lÌi ˜Òc trích rút t¯ các nguÁn tài nguyên có uy tín
Khác nhau, phˆ thuÎc vào câu tr£
lÌi óng góp cıa ng˜Ìi dùng Tính sÆn có cıa siêu d˙ liªu Không có Câu tr£ lÌi tËt nhßt ˜Òc chÂn bi ng˜Ìi h‰i, votes bi ng˜Ìi dùng ThÌi gian chÌ câu tr£ lÌi T¸ Îng và ngay l™p t˘c Ng˜Ìi h‰i c¶n chÌ ng˜Ìi khác g˚i câu tr£lÌi.
xußt mÎt thu™t toán x∏p h§ng có tên là InfluenceRank. Nó ho§t Îng nh˜là cÏ
s ∫ phân tích mËi quan hª gi˙a các ho§t Îng cıa ng˜Ìi dùng và s¸hi∫u bi∏t l®n nhau cıa hÂ. InfluenceRank k∏t hÒp phân tích m§ng xã hÎi (Social Network Analysis - SNA) ∫ ánh giá th©m quy∑n cıa ng˜Ìi dùng. B¨ng cách áp dˆng SNA, nó tính toán các ho§t Îng và Î phù hÒp trong m§ng QA. Nghiên c˘u cıa Jiang Bain [47] t™p trung vào viªc xác ‡nh các chuyên gia và ng˜Ìi dùng có th©m quy∑n nh˜ là nh˙ng ng˜Ìi cung cßp các câu tr£ lÌi ti∑m n´ng cho các hª thËng cQA
1.3 MÎt sË hª thËng cQA thông dˆng
H‰i áp cÎng Áng, theo Shah và cÎng s¸[12], bao gÁm ba thành ph¶n chính: mÎt cÏ ch∏ ∫ ng˜Ìi dùng g˚i câu h‰i b¨ng ngôn ng˙ t¸nhiên, mÎt ‡a i∫m ∫
ng˜Ìi dùng g˚i câu tr£ lÌi cho các câu h‰i và cÎng Áng ˜Òc xây d¸ng xung quanh trao Íi này. Nhìn vào ∞c i∫m này, các cÎng Áng tr¸c tuy∏n ã th¸c hiªn ch˘c n´ng tr£lÌi câu h‰i có l≥ t¯s¸ra Ìi cıa các hª thËng Usenet. Vì v™y theo mÎt nghæa nào ó cQA không có gì mÓi. Tuy nhiên, các trang web dành riêng cho cQA ã phát tri∫n m§nh m≥ chø trong vài n´m qua. Trang cQA ¶u tiên là Naver Knowledge iN cıa Hàn QuËc, ra m≠t vào n´m 2002. VÓi Knowledge iN, ng˜Ìi dùng có th∫ ∞t câu h‰i v∑ bßt k˝ chı ∑ nào và chÂn câu tr£ lÌi hay
nhßt trong sË các câu tr£ lÌi do ng˜Ìi dùng khác cung cßp, Áng thÌi có th∫
trao i∫m cho ng˜Ìi dùng ˜a ra câu tr£ lÌi hay nhßt. Knowledge iN ra Ìi sÓm hÏn 3 n´m so vÓi d‡ch vˆt˜Ïng t¸Yahoo!Answers cıa Yahoo và hiªn ã s h˙u d˙ liªu khÍng lÁ vÓi hÏn 200 triªu câu tr£ lÌi. M∞c dù có l‡ch s˚ ng≠n, nh˜ng cQA ã thu hút ˜Òc rßt nhi∑u s¸ chú ˛ t¯ các nhà nghiên c˘u nhi∑u lænh v¸c khác nhau nh˜: i∑u tra hành vi tìm ki∏m thông tin (information seeking behaviors) [54], l¸a chÂn tài nguyên (selection of resources) [34], chú thích xã hÎi (social annotations) [26], so sánh vÓi các lo§i khác cıa các d‡ch vˆ h‰i áp [83] và mÎt lo§t các hành vi liên quan ∏n thông tin khác. ∞c i∫m chính cıa các cQA là chúng d¸a vào nÎi dung do ng˜Ìi dùng t§o ra thay vì nÎi dung truy∑n thËng ˜Òc trích rút t¯ các kho l˜u tr˙ ˜Òc xây d¸ng sÆn. Ph¶n ti∏p theo lu™n án s≥ trình bày v∑ mÎt sË hª thËng cQA phÍ bi∏n hiªn nay.
1.3.1 Yahoo!Answer
Yahoo! Answers là mÎt d‡ch vˆcÎng Áng tr¸c tuy∏n, mÎt trang h‰i áp tr¸c tuy∏n ˜Òc xây d¸ng bi Yahoo ˜Òc ra m≠t t¯ tháng 12 n´m 2005 bi Jerry Yang và David Filo. Trang web này nh¨m chia s¥ ki∏n th˘c qua cách h‰i - áp và cho phép ng˜Ìi dùng ∞t các câu h‰i v∑ nhi∑u lænh v¸c ∫ mong nh™n ˜Òc các câu tr£ lÌi t¯ cÎng Áng ng˜Ìi dùng cÙng nh˜tr£lÌi các câu h‰i cıa nh˙ng ng˜Ìi dùng khác. Trang web cÙng cung cßp cho các thành viên cÏ hÎi ∫ ki∏m
˜Òc sË i∫m nh˜ mÎt cách ∫ khuy∏n khích s¸ tham gia. Yahoo!Answer cho phép ng˜Ìi dùng ∞t câu h‰i mÓi và óng góp câu tr£ lÌi cıa h trong bßt k˝
lænh v¸c quan tâm nào. T¯ quan i∫m cıa công nghª ngôn ng˙, Yahoo!Answer có th∫ ˜Òc coi là mÎt n∑n t£ng t§o d˙ liªu khÍng lÁ. Trong nh˙ng n´m qua, nó ã thu hút s¸ tham gia cıa mÎt l˜Òng lÓn ng˜Ìi dùng, nh˙ng ng˜Ìi ã óng góp mÎt khËi l˜Òng d˙ liªu h‰i- áp quan trÂng trong vô sËcác mi∑n.
MÈi câu h‰i trong Yahoo!Answer có hai thành ph¶n: chı ∑ câu h‰i (QSub- ject), t˘c là ph¶n chính cıa câu h‰i th∫ hiªn nhu c¶u thông tin chính xác c¶n h‰i và ph¶n mô t£ chi ti∏t câu h‰i (QBody) cung cßp ng˙ c£nh thông tin bÍ
sung, ví dˆ:
(1) QSubject: What is the best affordable Italian restaurant in London? (2) QBody: I need to know where I can get great Italian food without having to sell my house! Please, give name and address (or area). Thank you!
ghi chép chßt l˜Òng v´n b£n. MÎt câu h‰i sau ó s≥ ˜Òc ˜a ra và ng˜Ìi dùng có th∫ óng góp câu tr£lÌi cıa hÂvà b‰phi∏u cho các câu tr£lÌi do ng˜Ìi khác cung cßp. Sau ó ng˜Ìi h‰i có th∫ chÂn "câu tr£ lÌi tËt nhßt" (BestAnswer):
(3) BestAnswer: I’d recommend Pane Vino on Kentish Town Road, NW5 - right by the Kentish Town tube, Northern Line. The pizza is as close to Tuscany as you’re going to find anywhere (except Tuscany, of course).
Khi g˚i mÎt câu h‰i, ng˜Ìi dùng có th∫ s≥ ˜Òc thông báo n∏u mÎt câu h‰i t˜Ïng t¸ ã ˜Òc h‰i. Ng˜Ìi h‰i v®n có th∫ g˚i câu h‰i cıa riêng h và ph¶n lÓn ng˜Ìi dùng làm nh˜ v™y. Nó t§o ra s¸ d˜ th¯a d˙ liªu áng k∫ trong Yahoo!Answer, Ëi vÓi c£ câu h‰i và câu tr£ lÌi.
1.3.2 StackOverflow
StackOverflow ˜Òc xây d¸ng t¯n´m 2008 bi Joel Spolsky và Jeff Atwood. ây là mÎt trong nh˙ng trang web v∑ cQA lÓn nhßt, nÏi ng˜Ìi dùng có th∫
chia s¥ ki∏n th˘c, tìm ki∏m lÌi khuyên cıa các chuyên gia v∑ mÎt lo§t các chı ∑ trong l™p trình máy tính. Ng˜Ìi dùng trên StackOverflow có kh£ n´ng ∞t câu h‰i, tr£ lÌi các câu h‰i, b‰ phi∏u bình chÂn cho các câu h‰i và mÎt sË tính n´ng khác. StackOverflow s˚ dˆng các kˇ thu™t gamification ∫ th˜ng i∫m cho ng˜Ìi dùng ∫ th¸c hiªn các bÎ hành Îng khác nhau. Ph¶n th˜ng bao gÁm tích lÙy i∫m và huy hiªu danh ti∏ng, khi v˜Òt qua ng˜Ông hÂs≥ ˜Òc cung cßp các ∞c quy∑n bÍ sung.
VÓi hÏn 9 triªu ng˜Ìi dùng và hÏn 16 triªu câu h‰i (tính ∏n tháng 8 n´m 2018, https://en.wikipedia.org/wiki/StackOverflow), StackOverflow ã tr thành kho l˜u tr˙tri th˘c khÍng lÁ. MÈi câu h‰i ˜Òc g≠n th¥ theo mÎt chı ∑. Sáu chı ∑ ˜Òc th£o lu™n nhi∑u nhßt trên StackOverflow là: C#, Java, PHP, JavaScript, Android và jQuery. H¶u h∏t các câu h‰i th˜Ìng liên quan ∏n mÎt vßn ∑ l™p trình cˆ th∫, mÎt thu™t toán ph¶n m∑m ho∞c các công cˆ ph¶n m∑m.
MÈi ng˜Ìi dùng có mÎt i∫m danh ti∏ng, i∑u này bi∫u th‡ m˘c Î tin t˜ng cıa cÎng Áng Ëi vÓi ng˜Ìi dùng ó. MÈi câu h‰i và câu tr£ lÌi có th∫ ˜Òc bình chÂn tËt (up votes) ho∞c không tËt (down votes) bi nh˙ng ng˜Ìi dùng khác, nh˙ng ng˜Ìi c£m thßy câu h‰i ho∞c câu tr£ lÌi ó có h˙u ích hay không. MÈi câu h‰i ã ˜Òc bình chÂn tËt ˜Òc thêm 5 i∫m cho ng˜Ìi h‰i, trong khi mÈi câu tr£ lÌi ˜Òc bình chÂn tËt làm t´ng danh ti∏ng cıa ng˜Ìi tr£lÌi lên 10
Ng˜Ìi h‰i có th∫ chßp nh™n mÎt trong nh˙ng câu tr£ lÌi là câu tr£lÌi tËt nhßt, sau ó danh ti∏ng cıa ng˜Ìi cung cßp câu tr£lÌi tËt nhßt s≥ t´ng thêm 15 i∫m. Ngoài ra, có mÎt giÓi h§n v∑ sË phi∏u bình chÂn cho mÎt ng˜Ìi trong mÎt ngày. D¸a trên các i∫m danh ti∏ng, ng˜Ìi dùng ˜Òc cung cßp các ∞c quy∑n nh˜
chønh s˚a bài ´ng, retag câu h‰i, b‰ phi∏u ∫ óng, m l§i ho∞c di chuy∫n bßt k˝ câu h‰i nào, vv. B£ng 1.3 là mÎt sË thËng kê v∑ d˙ liªu trên StackOverflow tính ∏n ngày 12/04/2015.