B ng 2.4 trình bày hi u qu c a thu t toán trong ả ệ ả ủ ậ xác định thực th có tên, ể cũng như ạ t o ra các chú thích ng ữ nghĩa bao gồm chú thích b ộ ba đơn giản, chú thích v ềchủ đề tin t c, chú ứ thích v tuyên b gián ti p. Có th ề ố ế ểthấy r ng, v i nh ng c i tiằ ớ ữ ả ến đã thực hi n, giá tr chính ệ ị độ xác (P) và độ bao ph ủ (R) thu được cao hơn so với th c nghiự ệm đầu tiên, c trong phát hi n ả ệ thực th có tên và sinh chú thích ng ể ữ nghĩa. Ngoài ra, những b ba ph c t p ộ ứ ạ như tuyên bố gián tiếp bây gi ờ đã được xác định và sinh chú thích. Đây là kết qu c a vi c áp d ng nh ng mô ả ủ ệ ụ ữ hình và lu t do tác gi xu t. Tuy nhiêậ ả đề ấ n, độ bao ph (R) v n củ ẫ ần được c i thi n b i vì khả ệ ở ối
66
lượng d liữ ệu trong cơ sở tri th c c a BKSport vứ ủ ẫn chưa đủ l n và phong phú. Bên cớ ạnh đó, số lượng các m u lu t trích chẫ ậ ọn để nh n ra các quan h ậ ệ là chưa đủ để bao ph mủ ọi trường h p. ợ
B ng 2.4.ả Thống kê xác định th c th có tên và b ba c a ự ể ộ ủ thực nghiệm 2
TR RR TRE P% R% Named Entities
Recognition 2699 2692 4415 99,74 60,97 Triples
Extraction 1002 890 1663 88,82 53,52
Thực nghi m 3:ệ Đánh giá hi u qu c a thu t toán sinh chú thích cho tin t c chuyệ ả ủ ậ ứ ển nhượng. Đố ới v i bài toán sinh chú thích ng ữ nghĩa tin tức chuyển nhượng, t p d li u th c nghi m ậ ữ ệ ự ệ được m r ng lên 237 tin t c chuyở ộ ứ ển nhượng đượ ấ ừc l y t ngu n Sky Sports. Thông qua tác v ồ ụ chú thích ng ữ nghĩa thủ công trên t p d u này, 264 b ba ng ậ ữliệ ộ ữ nghĩa liên quan đế n chuyển nhượng bóng đá đã được xây d ng. Lu n án ti n hành th nghi m ự ậ ế ử ệ phương pháp trong hai k ch ị b n: ả
• Không s d ng các luử ụ ật xác định i t . đạ ừ
• S d ng các luử ụ ật xác địnhđại t . ừ
B ng 2.5 trình bày nh ng k t qu ả ữ ế ảthực nghiệm thu đượ ừ ầc t l n th c hi n phiên b n u tiên ự ệ ả đầ của thu t toán. S u cho th y, vi c s d ng các luậ ốliệ ấ ệ ử ụ ật xác định i t giúp nâng cao hi u qu đạ ừ ệ ả của phương pháp.
B ng 2.5.ả K t qu ế ả bước đầu c a th c nghiủ ự ệm xác định quan h ng ệ ữ nghĩa
TRE TR RR P% R% Case(1) 264 167 134 80.2 50.8 Case(2) 264 195 158 81.0 59.8
Điều này có th ể được minh họa trong đoạn tin t c ứ “Torino have signed Serbian goalkeeper Vlada Avromov following his release from Cagliari. The 35-year-old was a free agent after leaving the Sardinian club”. Có th ể thấy r ng tin tằ ức đó có hai quan hệ ng ữ nghĩa chuyển nhượng. Đầu tiên là quan h ng ệ ữ nghĩa “signWith” giữa câu l c b Torino v i th môn Vlada ạ ộ ớ ủ Avramov. Th hai là quan h ng ứ ệ ữ nghĩa “leave” (goalkeeper Vlada Avramov leaves Sardinian club). Tuy nhiên, trong trường h p không dùng các luợ ật xác định i t , thì h đạ ừ ệthống ch xác ỉ định được quan h ng ệ ữ nghĩa đầu tiên vì trong đoạn tin t c này c m t ứ ụ ừ “The 35-year-old” được dùng để thay th ế cho “goalkeeper Vlada Avramov”.
Tuy nhiên, thu t toán ậ ởthời điểm này v n còn m t s h n ch . Hình 2.25 cho th y m t vài ẫ ộ ố ạ ế ấ ộ b ba ng ộ ữ nghĩa không xác định được do c u trúc ph c t pấ ứ ạ , đó là những quan h ệ tương đương mang nhiều nghĩa nhập nh ng. Ví dằ ụ, “Queens Park Rangers boss Harry Rednapp is eyeing a reunion with former Tottenham star Rafael van der Vaart”.
Một vài trường h p b ợ ị xác định nhầm vì các lý do sau đây. Trong câu, cùng lúc có mộ ốt s thực th có tên gi ng nhau và h ể ố ệthống không th ể xác định ra được th c th chính c a quan hự ể ủ ệ. Thông tin ng c nh (mô t ữ ả ả cái đã không xảy ra và các s ki n ph ự ệ ủ định) không được bao gồm trong các t khóa mà l i nừ ạ ằm trong ý nghĩa của câu. Ví d , mụ ột thông báo sau: “The odds on Antoine Griezmann joining Monaco have shortened again”, hệ thống xác định như là <Antoine Griezmann> <transferTo> <Monaco>. Nhưng thự ế ự ện đã không xảy ra, điều này được t s ki c thể ệ hi n trong hình 2.24. Hình 2.23 minh họa trường h p các chú thích ng ợ ữ nghĩa được xác định đúng.
Khi phân tích k t qu ế ảthực nghiệm đầu tiên, tác gi nh n thả ậ ấy độ bao ph không cao là do ủ c u trúc ph c t p c a các câu và chấ ứ ạ ủ ất lượng c a t p t vủ ậ ừ ựng được dùng để xác định ng t độ ừ câu. Do đó, luận án đã thực hi n nh ng c i ti n nh b ng cách xem xét l i các quan h trong ệ ữ ả ế ỏ ằ ạ ệ ontology, thêm vào t ừ đồng nghĩa và các biến th cể ủa động t vào trong b t v ng. Thêm vào ừ ộ ừ ự đó, bước ti n x ề ử lý câu đã và đang được th c hiự ện để chuy n nhể ững trường h p ch c ch n sang ợ ắ ắ
67
d ng chu n. Ví dạ ẩ ụ, <Named Entity>’s signature được chuy n thành the signature of <Named ể Entity>. Nh ờ có bước này, các ng ữ nghĩa về chuyển nhượng bóng đá được n m b t nhiắ ắ ều hơn b i các luở ật xác định đang có.
Hình 2.23Ví d v các chú thích ụ ề được xác định đúng
Hình 2.24Ví d v các chú thích ụ ề được xác định không đúng
68
B ng 2.6 cho th y nh ng k t qu ả ấ ữ ế ả thực nghiệm thu đượ ừc t nh ng n lữ ỗ ực nêu trên. Độ bao ph ủ được c i thi n kho ng 10ả ệ ả % trong khi độ chính xác không thay đổi nhi u. ề
B ng 2.6.ả C i thi n hiả ệ ệu năng củ xác địa nh quan h ng ệ ữ nghĩa
TRE TR RR P% R% Case (1) 264 180 145 80.5 54.9 Case (2) 264 213 173 81.2 65.5
Hình 2.26 minh h a chú thích v ng ọ ề ữ nghĩa chuyển nhượng được sinh ra v i nghiên cớ ứu trong luận án. Các b ba ng ộ ữ nghĩa sau khi được trích rút được đưa vào dạng N-triples và rất d dàng khi chuy n chúng sang hình thễ ể ức khác như RDF hay OWL.
Hình 2.26Các b ba ng ộ ữ nghĩa được trích rút là k t qu u ra ế ả đầ
2.4.3 Đánh giá chung
Những k t qu th c nghi m cho thế ả ự ệ ấy, phương pháp đề xu t trong luấ ận án đã đáp ứng m c ụ tiêu nghiên c u v i k t qu tích cứ ớ ế ả ực. Độ chính xác trong xác định thực th có tên là trên 90% ể và độ chính xác trong phát hi n và t o ra chú thích ng ệ ạ ữ nghĩa là trên 80%.
Theo hi u bi t c a tác gi , nghiên c u th c hi n trong lu n án là m t trong nh ng nghiên ể ế ủ ả ứ ự ệ ậ ộ ữ cứu đầu tiên về sinh chú thích ng ữ nghĩa về tin t c th thao. Có nhi u nghiên c u khác nhau v ứ ể ề ứ ề bài toán t o ra chú thích ng ạ ữ nghĩa cho văn bản nói chung. Nhưng xét cụthể ề v các d ng chú ạ thích ng ữ nghĩa mà luận án hướng tới, chưa có nghiên cứu nào đề ập đến. Đó là lý do trong c các th c nghi m, luự ệ ận án chưa so sánh hiệu qu cả ủa phương pháp đề xu t vấ ới các phương pháp khác, do mục tiêu hướng đến khác nhau. N u áp dế ụng các phương pháp chú thích ngữ nghĩa tự động được đề xuất cho lĩnh vự ổc t ng quát, vào một lĩnh vực c th ụ ể như thể thao thì k t qu s ế ả ẽ khiêm t n, do kh ố ả năng xác định thực th có tên h n ch ể ạ ế hơn. Nền t ng KIM [36] hay ASKNET ả [115] s gẽ ặp khó khăn lớn khi xác định thực th có tên c a b t k c u th ể ủ ấ ỳ ầ ủ bóng đá nổi ti ng nào ế trong ng c nh chuyên môn c a h , và do vữ ả ủ ọ ậy gần như không thể sinh các chú thích m t cách ộ t ng v các hoự độ ề ạt động, s ki n, nhân v t th thao. Mự ệ ậ ể ột lý do khác là chưa có tập d ữ liệu chu n v chú thích ng ẩ ề ữ nghĩa cho văn bản trong lĩnh vực th ể thao được công b ố đểđánh giá so sánh gi a nghiên c u c a lu n án v i các nghiên c u liên quan, trong khi ữ ứ ủ ậ ớ ứ đó trong lĩnh vực y t và sinh hế ọc đã có.
69
So sánh v i nh ng nghiên cớ ữ ứu liên quan đến trích rút thông tin ng ữ nghĩa trong lĩnh vực tổng quát và lĩnh vực c ụthể như: PANKOW [34] (độ chính xác tối đa là 69%), KIM (độ chính xác là 86%, độ bao ph ủ là 82%), SemTag (độ chính xác là 82%) và h th ng Asknet [115] ệ ố (độ chính xác t ng th 79.1%), ti p c n cổ ể ế ậ ủa [38] (độ chính xác 81.2%), phương pháp sử ụ d ng mô hình ng ữ nghĩa để trích rút các quan h gi a các th c th trong y h c b [39] ệ ữ ự ể ọ ởi (độ chính xác 74.21%), m c dù không cùng t p d ặ ậ ữliệu nhưng những k t qu ế ả thu được c a luủ ận án là đáng khích l . ệ
2.5 K t luế ận chương
Chương này trình bày những nghiên c u v sinh chú thích ng ứ ề ữ nghĩa cho tin tức th thao, ể đó là một ph n công vi c c a luầ ệ ủ ận án v i ch M t ti p cớ ủ đề “ ộ ế ận xây d ng h ự ệthống t ng h p tin ổ ợ t c th thao d a trên Web ng ứ ể ự ữ nghĩa”. Sau khi tìm hiểu v ề cơ sở lý thuy t c a sinh chú thích ế ủ ng ữ nghĩa cho tài liệu và các phương pháp tạo chú thích ng ữ nghĩa, tác giả đề xu t các thuấ ật toán sinh chú thích ng ữ nghĩa cho các tin t c th thao (c ứ ể ụthể là bóng đá) và đánh giá về nh ng ữ hi u qu ệ ả đạt được trong các th nghiử ệm ở ừ t ng nghiên c u. ứ
Tiếp c n nghiên cậ ứu cho bài toán này được tri n khai trong m t quá trình khá dài và liên t c. ể ộ ụ Các k t qu nghiên cế ả ứu đã trình bày được tác gi công b ả ố trong bài báo “A novel approach for automatic extraction of semantic data about football transfer in sport news” ạ ạ t i t p chí
International Journal of Pervasive Computing and Communications (2015); và trong bài báo “Automatic Semantic Annotation of Sport News Using Knowledge Base and Extraction Patterns” ạ ạ t i t p chí Journal of Science & Technology Technical Universities (2018). Chúng tiếp n i và k ố ếthừa m t s k t qu nghiên cộ ố ế ả ứu trước đó của tác gi [119] [120] và b sung nhả ổ ững đóng góp mới.
T i xuạ ất phát điểm c a nghiên c u, tác gi ủ ứ ả xác định được ý tưởng gi i quyả ết vấn đề sinh chú thích ng ữ nghĩa từ các tin t c thứ ể thao là d a trên các th c th có tên. Nghiên cự ự ể ứu đề xuất được phương pháp c địxá nh th c th ự ể có tên như là các thể ệ hi n của ontology, đạt được mức độ chi tiết hơn về ng ữ nghĩa so với khái niệm xác định của KIM. Sau đó, một thu t toán phát hi n ng ậ ệ ữ nghĩa mô tả ộ ố m t s thông tin quan trọng và cơ bản trong các tin t c th ứ ể thao được đề xu t nh ấ ờ s ph i hự ố ợp mô tơ trích rút KIM với cơ sở tri th c và ontology th ứ ể thao được xây d ng hoàn ự toàn m ới.
K ếthừa và c i thi n nh ng thuả ệ ữ ật toán đã xây dựng ởgiai đoạn đầu, luận án ti p t c t p trung ế ụ ậ c i thi n hi u qu c a tác v ả ệ ệ ả ủ ụ xác định thực th có tên rút g n, th c th cùng tên khác ki u. Quan ể ọ ự ể ể trọng hơn, nghiên cứu đã bổ sung thêm kh ả năng sinh chú thích ngữnghĩa về tuyên b gián tiố ếp vào thu t toán. Vi c c i ti n trong thuậ ệ ả ế ật toán đã mang lại nh ng k t qu kh quan. ữ ế ả ả Sau đó, tác gi t p trung gi i quy t mả ậ ả ế ột lĩnh vực đặc thù trong tin t c th ứ ể thao đó là trích rút các quan hệ ng ữ nghĩa về chuyển nhượng bóng đá dùng mô hình ngôn ngữ. Các mô hình ngôn ng ữ được xây d ng d a trên các luự ự ật xác định n m b t các quan h ng để ắ ắ ệ ữ nghĩa. Để c i thiả ện độ bao ph , ủ tác gi xu t thêm mả đề ấ ột phương pháp giải quyết đồng tham chi u th c th d a vào viế ự ể ự ệc xác định i t . đạ ừ
Có th nói, ti p c n xuyên su t trong các nghiên cể ế ậ ố ứu đã trình bày là sử ụng cơ sở d tri thức và ontology th thao trong viể ệc xác định thực th có tên, và phát hi n các khái ni m (class) và ể ệ ệ m t s quan h c bi t trong tin tộ ố ệ đặ ệ ức. Phương pháp phát hiện các b ba ng ộ ữ nghĩa dựa trên các luật được định nghĩa dựa trên ontology. K t qu là chế ả ất lượng các chú thích ng ữ nghĩa được phát hiện được c i thi n qua các nghiên cả ệ ứu và được lưu trữ như một thành ph n quan tr ng ầ ọ c a h ủ ệthống BKSport.
Nh ng nghiên c u trong ữ ứ tương lai sẽ ậ t p trung vào vấn đề ọ h c các luật trích rút để nâng cao kh ả năng mở ộ r ng c a ti p c n. Tác gi ủ ế ậ ả cũng có ý định trích rút nhi u ng ề ữ nghĩa phứ ạp hơnc t
t các tin t c và bi u di n chúng trong m t mô hình thích h p ch ng hừ ứ ể ễ ộ ợ ẳ ạn như bộ ố b n (quadruple).
70
CHƯƠNG 3. MỘT PHƯƠNG PHÁP TRUY VẤN TIN TỨC THỂ THAO VỚI NGÔN NGỮ TỰ NHIÊN
Chương này nghiên c u bài toán th hai c a lu n án là chuyứ ứ ủ ậ ển đổi câu h i b ng ngôn ng ỏ ằ ữ t nhiên sang câu truy v n vi t b ng cú pháp SPARQL. Sau m c các nghiên c u liên quan, ự ấ ế ằ ụ ứ luận án trình bày các bước của phương pháp đề xuất.Đầu tiên là phân loại câu hỏi đầu vào và cấu trúc truy vấn đầu ra, ti p theo ế trình bày phương pháp, thu t toán chuyển đổi câu h i ngôn ng ậ ỏ ữ t nhiên sang truy vự ấn SPARQL. Cuối cùng là đánh giá hiệu qu cả ủa phương pháp đề xuất trên t p câu hậ ỏi bóng đá và kết lu n.ậ
3.1 Giới thi u ệ
Web hiện đang là một trong nh ng ngu n cung c p thông tin ph bi n nh t, ph c v mữ ồ ấ ổ ế ấ ụ ụ ột cách đầy đủ và nhanh chóng tin t c v các s ki n di n ra hàng ngày trên th giứ ề ự ệ ễ ế ới. Trong đó, tin t c v ứ ề lĩnh vực th ể thao thu hút đượ ực s quan tâm c a hàng triủ ệu người đọc. Các bài vi t v ế ề lĩnh vực th ể thao được c p nh t liên t c trên các trang tin c a Web t r t nhi u ngu n khác ậ ậ ụ ủ ừ ấ ề ồ nhau. Điều này dẫn đến tình trạng người đọc đối m t vặ ới lượng thông tin r t lấ ớn trong đó có nhi u thông tin trùng lề ặp, dư thừa ho c không n m trong s quan tâm c a h . Chính vì v y, vặ ằ ự ủ ọ ậ ấn đề tìm ki m thông tin m t cách nhanh chóng, chính xác và ti n lế ộ ệ ợi cho người đọc luôn là m t ộ thách th c v i các h ứ ớ ệthống tin t c trên Web. Nhi u h ứ ề ệthống tìm ki m tin t c d a vào t khóa ế ứ ự ừ đã được xây d ng [121]. Tuy nhiên, cách tìm kiự ếm này thường ch ỉhướng t i vi c tr v các tin ớ ệ ả ề t c mà n i dung c a chúng ch a các t khóa trong câu truy v n ch không ph i tin t c có nứ ộ ủ ứ ừ ấ ứ ả ứ ội dung phù h p vợ ới ý nghĩa của câu truy v n. Ví d , n u mấ ụ ế ột người dùng mu n tìm ki m nh ng ố ế ữ thông tin v vi c Arda Turan chuyề ệ ển đến câu l c b Barcelona, anh ta/ch ta có th s s d ng ạ ộ ị ể ẽ ử ụ m t máy tìm ki m t khóa truy n th ng và nh p: Arda Turan transfer to Barcelona. Máy tìm ộ ế ừ ề ố ậ
ki m s v t t c nh ng tài li u ch a m t trong các t ế ẽ trả ề ấ ả ữ ệ ứ ộ ừ khóa “Arda Turan”, “transfer”, “Barcelona”. Tuy nhiên, một tài li u ch a c ba t ệ ứ ả ừ khóa này chưa hẳn đã nói về ộ n i dung mà người dùng tìm ki m mong muế ốn, do thông thường ba t ừ khóa này không đi liền v i nhau nên ớ không mang ý nghĩa rằng Arda Turan chuy n n Barcelona. Vi c áp d ng tìm ki m ngể đế ệ ụ ế ữnghĩa