Những k t qu th c nghi m cho thế ả ự ệ ấy, phương pháp đề xu t trong luấ ận án đã đáp ứng m c ụ tiêu nghiên c u v i k t qu tích cứ ớ ế ả ực. Độ chính xác trong xác định thực th có tên là trên 90% ể và độ chính xác trong phát hi n và t o ra chú thích ng ệ ạ ữ nghĩa là trên 80%.
Theo hi u bi t c a tác gi , nghiên c u th c hi n trong lu n án là m t trong nh ng nghiên ể ế ủ ả ứ ự ệ ậ ộ ữ cứu đầu tiên về sinh chú thích ng ữ nghĩa về tin t c th thao. Có nhi u nghiên c u khác nhau v ứ ể ề ứ ề bài toán t o ra chú thích ng ạ ữ nghĩa cho văn bản nói chung. Nhưng xét cụthể ề v các d ng chú ạ thích ng ữ nghĩa mà luận án hướng tới, chưa có nghiên cứu nào đề ập đến. Đó là lý do trong c các th c nghi m, luự ệ ận án chưa so sánh hiệu qu cả ủa phương pháp đề xu t vấ ới các phương pháp khác, do mục tiêu hướng đến khác nhau. N u áp dế ụng các phương pháp chú thích ngữ nghĩa tự động được đề xuất cho lĩnh vự ổc t ng quát, vào một lĩnh vực c th ụ ể như thể thao thì k t qu s ế ả ẽ khiêm t n, do kh ố ả năng xác định thực th có tên h n ch ể ạ ế hơn. Nền t ng KIM [36] hay ASKNET ả [115] s gẽ ặp khó khăn lớn khi xác định thực th có tên c a b t k c u th ể ủ ấ ỳ ầ ủ bóng đá nổi ti ng nào ế trong ng c nh chuyên môn c a h , và do vữ ả ủ ọ ậy gần như không thể sinh các chú thích m t cách ộ t ng v các hoự độ ề ạt động, s ki n, nhân v t th thao. Mự ệ ậ ể ột lý do khác là chưa có tập d ữ liệu chu n v chú thích ng ẩ ề ữ nghĩa cho văn bản trong lĩnh vực th ể thao được công b ố đểđánh giá so sánh gi a nghiên c u c a lu n án v i các nghiên c u liên quan, trong khi ữ ứ ủ ậ ớ ứ đó trong lĩnh vực y t và sinh hế ọc đã có.
69
So sánh v i nh ng nghiên cớ ữ ứu liên quan đến trích rút thông tin ng ữ nghĩa trong lĩnh vực tổng quát và lĩnh vực c ụthể như: PANKOW [34] (độ chính xác tối đa là 69%), KIM (độ chính xác là 86%, độ bao ph ủ là 82%), SemTag (độ chính xác là 82%) và h th ng Asknet [115] ệ ố (độ chính xác t ng th 79.1%), ti p c n cổ ể ế ậ ủa [38] (độ chính xác 81.2%), phương pháp sử ụ d ng mô hình ng ữ nghĩa để trích rút các quan h gi a các th c th trong y h c b [39] ệ ữ ự ể ọ ởi (độ chính xác 74.21%), m c dù không cùng t p d ặ ậ ữliệu nhưng những k t qu ế ả thu được c a luủ ận án là đáng khích l . ệ
2.5 K t luế ận chương
Chương này trình bày những nghiên c u v sinh chú thích ng ứ ề ữ nghĩa cho tin tức th thao, ể đó là một ph n công vi c c a luầ ệ ủ ận án v i ch M t ti p cớ ủ đề “ ộ ế ận xây d ng h ự ệthống t ng h p tin ổ ợ t c th thao d a trên Web ng ứ ể ự ữ nghĩa”. Sau khi tìm hiểu v ề cơ sở lý thuy t c a sinh chú thích ế ủ ng ữ nghĩa cho tài liệu và các phương pháp tạo chú thích ng ữ nghĩa, tác giả đề xu t các thuấ ật toán sinh chú thích ng ữ nghĩa cho các tin t c th thao (c ứ ể ụthể là bóng đá) và đánh giá về nh ng ữ hi u qu ệ ả đạt được trong các th nghiử ệm ở ừ t ng nghiên c u. ứ
Tiếp c n nghiên cậ ứu cho bài toán này được tri n khai trong m t quá trình khá dài và liên t c. ể ộ ụ Các k t qu nghiên cế ả ứu đã trình bày được tác gi công b ả ố trong bài báo “A novel approach for automatic extraction of semantic data about football transfer in sport news” ạ ạ t i t p chí
International Journal of Pervasive Computing and Communications (2015); và trong bài báo “Automatic Semantic Annotation of Sport News Using Knowledge Base and Extraction Patterns” ạ ạ t i t p chí Journal of Science & Technology Technical Universities (2018). Chúng tiếp n i và k ố ếthừa m t s k t qu nghiên cộ ố ế ả ứu trước đó của tác gi [119] [120] và b sung nhả ổ ững đóng góp mới.
T i xuạ ất phát điểm c a nghiên c u, tác gi ủ ứ ả xác định được ý tưởng gi i quyả ết vấn đề sinh chú thích ng ữ nghĩa từ các tin t c thứ ể thao là d a trên các th c th có tên. Nghiên cự ự ể ứu đề xuất được phương pháp c địxá nh th c th ự ể có tên như là các thể ệ hi n của ontology, đạt được mức độ chi tiết hơn về ng ữ nghĩa so với khái niệm xác định của KIM. Sau đó, một thu t toán phát hi n ng ậ ệ ữ nghĩa mô tả ộ ố m t s thông tin quan trọng và cơ bản trong các tin t c th ứ ể thao được đề xu t nh ấ ờ s ph i hự ố ợp mô tơ trích rút KIM với cơ sở tri th c và ontology th ứ ể thao được xây d ng hoàn ự toàn m ới.
K ếthừa và c i thi n nh ng thuả ệ ữ ật toán đã xây dựng ởgiai đoạn đầu, luận án ti p t c t p trung ế ụ ậ c i thi n hi u qu c a tác v ả ệ ệ ả ủ ụ xác định thực th có tên rút g n, th c th cùng tên khác ki u. Quan ể ọ ự ể ể trọng hơn, nghiên cứu đã bổ sung thêm kh ả năng sinh chú thích ngữnghĩa về tuyên b gián tiố ếp vào thu t toán. Vi c c i ti n trong thuậ ệ ả ế ật toán đã mang lại nh ng k t qu kh quan. ữ ế ả ả Sau đó, tác gi t p trung gi i quy t mả ậ ả ế ột lĩnh vực đặc thù trong tin t c th ứ ể thao đó là trích rút các quan hệ ng ữ nghĩa về chuyển nhượng bóng đá dùng mô hình ngôn ngữ. Các mô hình ngôn ng ữ được xây d ng d a trên các luự ự ật xác định n m b t các quan h ng để ắ ắ ệ ữ nghĩa. Để c i thiả ện độ bao ph , ủ tác gi xu t thêm mả đề ấ ột phương pháp giải quyết đồng tham chi u th c th d a vào viế ự ể ự ệc xác định i t . đạ ừ
Có th nói, ti p c n xuyên su t trong các nghiên cể ế ậ ố ứu đã trình bày là sử ụng cơ sở d tri thức và ontology th thao trong viể ệc xác định thực th có tên, và phát hi n các khái ni m (class) và ể ệ ệ m t s quan h c bi t trong tin tộ ố ệ đặ ệ ức. Phương pháp phát hiện các b ba ng ộ ữ nghĩa dựa trên các luật được định nghĩa dựa trên ontology. K t qu là chế ả ất lượng các chú thích ng ữ nghĩa được phát hiện được c i thi n qua các nghiên cả ệ ứu và được lưu trữ như một thành ph n quan tr ng ầ ọ c a h ủ ệthống BKSport.
Nh ng nghiên c u trong ữ ứ tương lai sẽ ậ t p trung vào vấn đề ọ h c các luật trích rút để nâng cao kh ả năng mở ộ r ng c a ti p c n. Tác gi ủ ế ậ ả cũng có ý định trích rút nhi u ng ề ữ nghĩa phứ ạp hơnc t
t các tin t c và bi u di n chúng trong m t mô hình thích h p ch ng hừ ứ ể ễ ộ ợ ẳ ạn như bộ ố b n (quadruple).
70
CHƯƠNG 3. MỘT PHƯƠNG PHÁP TRUY VẤN TIN TỨC THỂ THAO VỚI NGÔN NGỮ TỰ NHIÊN
Chương này nghiên c u bài toán th hai c a lu n án là chuyứ ứ ủ ậ ển đổi câu h i b ng ngôn ng ỏ ằ ữ t nhiên sang câu truy v n vi t b ng cú pháp SPARQL. Sau m c các nghiên c u liên quan, ự ấ ế ằ ụ ứ luận án trình bày các bước của phương pháp đề xuất.Đầu tiên là phân loại câu hỏi đầu vào và cấu trúc truy vấn đầu ra, ti p theo ế trình bày phương pháp, thu t toán chuyển đổi câu h i ngôn ng ậ ỏ ữ t nhiên sang truy vự ấn SPARQL. Cuối cùng là đánh giá hiệu qu cả ủa phương pháp đề xuất trên t p câu hậ ỏi bóng đá và kết lu n.ậ
3.1 Giới thi u ệ
Web hiện đang là một trong nh ng ngu n cung c p thông tin ph bi n nh t, ph c v mữ ồ ấ ổ ế ấ ụ ụ ột cách đầy đủ và nhanh chóng tin t c v các s ki n di n ra hàng ngày trên th giứ ề ự ệ ễ ế ới. Trong đó, tin t c v ứ ề lĩnh vực th ể thao thu hút đượ ực s quan tâm c a hàng triủ ệu người đọc. Các bài vi t v ế ề lĩnh vực th ể thao được c p nh t liên t c trên các trang tin c a Web t r t nhi u ngu n khác ậ ậ ụ ủ ừ ấ ề ồ nhau. Điều này dẫn đến tình trạng người đọc đối m t vặ ới lượng thông tin r t lấ ớn trong đó có nhi u thông tin trùng lề ặp, dư thừa ho c không n m trong s quan tâm c a h . Chính vì v y, vặ ằ ự ủ ọ ậ ấn đề tìm ki m thông tin m t cách nhanh chóng, chính xác và ti n lế ộ ệ ợi cho người đọc luôn là m t ộ thách th c v i các h ứ ớ ệthống tin t c trên Web. Nhi u h ứ ề ệthống tìm ki m tin t c d a vào t khóa ế ứ ự ừ đã được xây d ng [121]. Tuy nhiên, cách tìm kiự ếm này thường ch ỉhướng t i vi c tr v các tin ớ ệ ả ề t c mà n i dung c a chúng ch a các t khóa trong câu truy v n ch không ph i tin t c có nứ ộ ủ ứ ừ ấ ứ ả ứ ội dung phù h p vợ ới ý nghĩa của câu truy v n. Ví d , n u mấ ụ ế ột người dùng mu n tìm ki m nh ng ố ế ữ thông tin v vi c Arda Turan chuyề ệ ển đến câu l c b Barcelona, anh ta/ch ta có th s s d ng ạ ộ ị ể ẽ ử ụ m t máy tìm ki m t khóa truy n th ng và nh p: Arda Turan transfer to Barcelona. Máy tìm ộ ế ừ ề ố ậ
ki m s v t t c nh ng tài li u ch a m t trong các t ế ẽ trả ề ấ ả ữ ệ ứ ộ ừ khóa “Arda Turan”, “transfer”, “Barcelona”. Tuy nhiên, một tài li u ch a c ba t ệ ứ ả ừ khóa này chưa hẳn đã nói về ộ n i dung mà người dùng tìm ki m mong muế ốn, do thông thường ba t ừ khóa này không đi liền v i nhau nên ớ không mang ý nghĩa rằng Arda Turan chuy n n Barcelona. Vi c áp d ng tìm ki m ngể đế ệ ụ ế ữnghĩa s giúp gi i quy t vẽ ả ế ấn đề trên, cho phép tr v k t qu là các tài li u ch a chính xác n i dung ả ề ế ả ệ ứ ộ theo k v ng cỳ ọ ủa người dùng. Hơn nữa, ngày nay bên c nh viạ ệc đọc tin, người đọc còn có th ể quan tâm đến nh ng thữ ông tin liên quan đến m t s th c th xu t hi n trong tin tộ ố ự ể ấ ệ ức như những nhân v t, t ậ ổchức, địa điểm nào đó. Đặc điểm này th hi n rõ r t v i các tin t c th thao, ví d ể ệ ệ ớ ứ ể ụ người đọc có xu hướng theo dõi các thông tin v Lionel Messi hay Cristiano Ronaldo cùng về ới việc đọc các tin t c v ứ ềtrận siêu kinh điển (El Clásico). Vì v y, các kênh cung c p thông tin l n ậ ấ ớ (như BBC) đã bắ ịt k p nhu c u này và t o ra mầ ạ ột xu hướng đổi m i trong các giao di n c a h ớ ệ ủ ệ thống tin t c cho phép hi n th tin t c kèm theo các thông tin ứ ể ị ứ nói trên. Trên cơ sở đó, luận án xác định chức năng tìm kiếm c a h th ng tin t c BKSport phủ ệ ố ứ ải đáp ứng được c hai yêu c u: ả ầ (1) tìm tin tức liên quan đến câu truy v n m t cách chính xác, và (2) b ấ ộ ổtrợ thông tin k t qu ế ả c a câu truy v n trong nhủ ấ ững trường h p có thợ ể. Để làm tốt được điều này, h ệthống c n phầ ải hiểu được ý nghĩa của tin tức cũng như của câu truy v n, và ph i k t hấ ả ế ợp được tin t c và kho ứ tri th c v ứ ềmiền lĩnh vực.
Trong các nghiên c u ứ đã trình bày ở chương 1, luận án đã đề xu t xây d ng m t h ấ ự ộ ệthống tin t c thứ ể thao d a trên ng ự ữ nghĩa và biện lu n v nh ng l i ích mà hậ ề ữ ợ ệthống này mang lại. Để minh chứng điều đó, nghiên cứu được khởi đầu b ng vi c gi i quy t vằ ệ ả ế ấn đề t ự động/bán t ự động sinh chú thích ng ữ nghĩa cho tin tức, bi u di n m t tin b ng c u trúc RDF ể ễ ộ ằ ấ như vừa trình bày trong chương 2. Nhi m v nghiên c u ti p theo c a lu n án là làm sao có th xây dệ ụ ứ ế ủ ậ ể ựng được m t h ộ ệ thống tìm ki m ng ế ữ nghĩa tin tức có kh ả năng vừa tr v tin tả ề ức xác đáng và phù hợp v i yêu c u cớ ầ ủa người đọc, đồng th i cung c p thêm các thông tin b h u ích. S ờ ấ ổtrợ ữ ự xác đáng c a tin t c cung c p mà luủ ứ ấ ận án hướng đến không nằm ở ự s trùng kh p c a n i dung tin t c vớ ủ ộ ứ ới các t khóa trong câu truy vừ ấn như các chức năng tìm kiếm ph bi n trên các trang tin hi n nay. ổ ế ệ Nó ph i d a trên s phù h p v ả ự ự ợ ề ý nghĩa giữa n i dung tin t c và n i dung câu truy vộ ứ ộ ấn. Hơn
71
n a, h ữ ệthống tìm ki m này ph i thân thi n vế ả ệ ới người dùng là những người đọc thông thường v i v n hi u bi t t i thi u v công ngh . ớ ố ể ế ố ể ề ệ
Đã có nhiều công trình nghiên c u v vứ ề ấn đề truy h i thông tin t kho d li u ng ồ ừ ữ ệ ữ nghĩa. Trong đó, có những nghiên c u s d ng tr c ti p các câu lứ ử ụ ự ế ệnh SPARQL để truy v n ra thông ấ tin t kho tri th c ng ừ ứ ữ nghĩa [122]. Tuy nhiên, vi c s d ng cú pháp SPARQL có nhiệ ử ụ ều điểm h n ch nhạ ế ư: cú pháp ngôn ngữ truy v n ph c t p, m t khác l i yêu cấ ứ ạ ặ ạ ầu người dùng ph i hiả ểu ki n trúc bên trong c a kho tri th c ng ế ủ ứ ữ nghĩa. Một s nghiên c u khác nâng cao tính thân thiố ứ ện người dùng v i vi c cung c p giao diớ ệ ấ ện đồ ọa ngườ h i dùng dựa trên ontoloy để ấ c u trúc nên (formulate) câu truy v n SPARQL [123]. Tuy nhiên, các nghiên c u trên vấ ứ ẫn đòi hỏi người dùng th c hi n m t s thao tác nhự ệ ộ ố ất định và ph i hi u biả ể ết cơ bản v ontology. Vì v y, m c tiêu ề ậ ụ c a lu n án là xây d ng m t h ủ ậ ự ộ ệthống tìm ki m b ng ngôn ng t nhiên, thân thi n vế ằ ữ ự ệ ới người dùng, không đòi hỏi h ọphải có ki n th c v ngôn ng truy v n ph c t p mà v n có th s dế ứ ề ữ ấ ứ ạ ẫ ể ử ụng hi u qu h ệ ả ệ thống. Thành ph n tìm ki m tin tầ ế ức trong h ệ thống tin t c th thao mà lu n án ứ ể ậ hướng t i bao g m 2 thành ph n: (1) thành phớ ồ ầ ần đầu tiên đảm nh n vi c chuyậ ệ ển đổi câu truy v n ấ ở d ng ngôn ng t nhiên v d ng truy v n có c u trúc SPARQL, và (2) thành ph n th hai ạ ữ ự ề ạ ấ ấ ầ ứ nh n nhi m v s d ng câu truy vậ ệ ụ ử ụ ấn SPARQL thu được để truy v n vào kho d ấ ữliệu ng ữ nghĩa và tr v tin t c liên quan k t h p v i câu tr l i cho câu truy v n. Do chả ề ứ ế ợ ớ ả ờ ấ ức năng của thành ph n th ầ ứ hai đã được cung c p bấ ởi các mô tơ tìm kiếm ng ữ nghĩa như Allegrograph, nên việc xây d ng chúng n m ngoài ph m vi nghiên c u cự ằ ạ ứ ủa luận án. Tóm lại, chương này trình bày nghiên c u v mứ ề ột phương pháp chuyển đổi câu h i v tin tỏ ề ức dướ ại d ng ngôn ng t nhiên ữ ự sang truy v n ng ấ ữ nghĩa ạ d ng SPARQL. Chương này tập trung vào trình bày các phương pháp và k thuỹ ật để xây d ng thành ph n th nh t (1). ự ầ ứ ấ
Các m c còn l i cụ ạ ủa chương 3 được t ổchức như sau: mục 3.2 điểm qua m t s ộ ố hướng nghiên c u lứ iên quan đến vi c xây d ng h ệ ự ệthống tìm ki m truy h i thông tin nh t là nh ng h ế ồ ấ ữ ệthống lớn cho phép người dùng s d ng các câu truy v n d ng ngôn ng t ử ụ ấ ạ ữ ự nhiên để tìm ki m thông ế tin t kho d u ng ừ ữliệ ữ nghĩa. Mục 3.3 trình bày v phân lo i các d ng câu truy v n cề ạ ạ ấ ủa người đọc tin t c và gi i thi u v mô hình bi u di n ng ứ ớ ệ ề ể ễ ữ nghĩa của tin t c th thao cùng các truy v n ứ ể ấ ng ữ nghĩa – chính là đầu ra c a h ủ ệthống. Mục 3.4 trình bày phương pháp chuyển đổ ừi t câu truy v n ngôn ng t nhiên sang truy v n ng ấ ữ ự ấ ữ nghĩa SPARQL, bao g m c quá trình x lý ồ ả ử chung và nguyên lý hoạt động chi ti t c a t ng thành ph n (pha) trong h ế ủ ừ ầ ệthống hỏi đáp. ụM c 3.5 trình bày đánh giá và nhận xét k t qu ế ảthử nghi m. K t luệ ế ận và đề xuất hướng c i ti n trong ả ế