Đánh giá chung

Một phần của tài liệu Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa767 (Trang 79)

Những k t qu th c nghi m cho thế ả ự ệ ấy, phương pháp đề xu t trong luấ ận án đã đáp ứng m c ụ tiêu nghiên c u v i k t qu tích cứ ớ ế ả ực. Độ chính xác trong xác định thực th có tên là trên 90% ể và độ chính xác trong phát hi n và t o ra chú thích ng ệ ạ ữ nghĩa là trên 80%.

Theo hi u bi t c a tác gi , nghiên c u th c hi n trong lu n án là m t trong nh ng nghiên ể ế ủ ả ứ ự ệ ậ ộ ữ cứu đầu tiên về sinh chú thích ng ữ nghĩa về tin t c th thao. Có nhi u nghiên c u khác nhau v ứ ể ề ứ ề bài toán t o ra chú thích ng ạ ữ nghĩa cho văn bản nói chung. Nhưng xét cụthể ề v các d ng chú ạ thích ng ữ nghĩa mà luận án hướng tới, chưa có nghiên cứu nào đề ập đến. Đó là lý do trong c các th c nghi m, luự ệ ận án chưa so sánh hiệu qu cả ủa phương pháp đề xu t vấ ới các phương pháp khác, do mục tiêu hướng đến khác nhau. N u áp dế ụng các phương pháp chú thích ngữ nghĩa tự động được đề xuất cho lĩnh vự ổc t ng quát, vào một lĩnh vực c th ụ ể như thể thao thì k t qu s ế ả ẽ khiêm t n, do kh ố ả năng xác định thực th có tên h n ch ể ạ ế hơn. Nền t ng KIM [36] hay ASKNET ả [115] s gẽ ặp khó khăn lớn khi xác định thực th có tên c a b t k c u th ể ủ ấ ỳ ầ ủ bóng đá nổi ti ng nào ế trong ng c nh chuyên môn c a h , và do vữ ả ủ ọ ậy gần như không thể sinh các chú thích m t cách ộ t ng v các hoự độ ề ạt động, s ki n, nhân v t th thao. Mự ệ ậ ể ột lý do khác là chưa có tập d ữ liệu chu n v chú thích ng ẩ ề ữ nghĩa cho văn bản trong lĩnh vực th ể thao được công b ố đểđánh giá so sánh gi a nghiên c u c a lu n án v i các nghiên c u liên quan, trong khi ữ ứ ủ ậ ớ ứ đó trong lĩnh vực y t và sinh hế ọc đã có.

69

So sánh v i nh ng nghiên cớ ữ ứu liên quan đến trích rút thông tin ng ữ nghĩa trong lĩnh vực tổng quát và lĩnh vực c ụthể như: PANKOW [34] (độ chính xác tối đa là 69%), KIM (độ chính xác là 86%, độ bao ph ủ là 82%), SemTag (độ chính xác là 82%) và h th ng Asknet [115] ệ ố (độ chính xác t ng th 79.1%), ti p c n cổ ể ế ậ ủa [38] (độ chính xác 81.2%), phương pháp sử ụ d ng mô hình ng ữ nghĩa để trích rút các quan h gi a các th c th trong y h c b [39] ệ ữ ự ể ọ ởi (độ chính xác 74.21%), m c dù không cùng t p d ặ ậ ữliệu nhưng những k t qu ế ả thu được c a luủ ận án là đáng khích l . ệ

2.5 K t luế ận chương

Chương này trình bày những nghiên c u v sinh chú thích ng ứ ề ữ nghĩa cho tin tức th thao, ể đó là một ph n công vi c c a luầ ệ ủ ận án v i ch M t ti p cớ ủ đề “ ộ ế ận xây d ng h ự ệthống t ng h p tin ổ ợ t c th thao d a trên Web ng ứ ể ự ữ nghĩa”. Sau khi tìm hiểu v ề cơ sở lý thuy t c a sinh chú thích ế ủ ng ữ nghĩa cho tài liệu và các phương pháp tạo chú thích ng ữ nghĩa, tác giả đề xu t các thuấ ật toán sinh chú thích ng ữ nghĩa cho các tin t c th thao (c ứ ể ụthể là bóng đá) và đánh giá về nh ng ữ hi u qu ệ ả đạt được trong các th nghiử ệm ở ừ t ng nghiên c u. ứ

Tiếp c n nghiên cậ ứu cho bài toán này được tri n khai trong m t quá trình khá dài và liên t c. ể ộ ụ Các k t qu nghiên cế ả ứu đã trình bày được tác gi công b ả ố trong bài báo “A novel approach for automatic extraction of semantic data about football transfer in sport news” ạ ạ t i t p chí

International Journal of Pervasive Computing and Communications (2015); và trong bài báo “Automatic Semantic Annotation of Sport News Using Knowledge Base and Extraction Patterns” ạ ạ t i t p chí Journal of Science & Technology Technical Universities (2018). Chúng tiếp n i và k ố ếthừa m t s k t qu nghiên cộ ố ế ả ứu trước đó của tác gi [119] [120] và b sung nhả ổ ững đóng góp mới.

T i xuạ ất phát điểm c a nghiên c u, tác gi ủ ứ ả xác định được ý tưởng gi i quyả ết vấn đề sinh chú thích ng ữ nghĩa từ các tin t c thứ ể thao là d a trên các th c th có tên. Nghiên cự ự ể ứu đề xuất được phương pháp c địxá nh th c th ự ể có tên như là các thể ệ hi n của ontology, đạt được mức độ chi tiết hơn về ng ữ nghĩa so với khái niệm xác định của KIM. Sau đó, một thu t toán phát hi n ng ậ ệ ữ nghĩa mô tả ộ ố m t s thông tin quan trọng và cơ bản trong các tin t c th ứ ể thao được đề xu t nh ấ ờ s ph i hự ố ợp mô tơ trích rút KIM với cơ sở tri th c và ontology th ứ ể thao được xây d ng hoàn ự toàn m ới.

K ếthừa và c i thi n nh ng thuả ệ ữ ật toán đã xây dựng ởgiai đoạn đầu, luận án ti p t c t p trung ế ụ ậ c i thi n hi u qu c a tác v ả ệ ệ ả ủ ụ xác định thực th có tên rút g n, th c th cùng tên khác ki u. Quan ể ọ ự ể ể trọng hơn, nghiên cứu đã bổ sung thêm kh ả năng sinh chú thích ngữnghĩa về tuyên b gián tiố ếp vào thu t toán. Vi c c i ti n trong thuậ ệ ả ế ật toán đã mang lại nh ng k t qu kh quan. ữ ế ả ả Sau đó, tác gi t p trung gi i quy t mả ậ ả ế ột lĩnh vực đặc thù trong tin t c th ứ ể thao đó là trích rút các quan hệ ng ữ nghĩa về chuyển nhượng bóng đá dùng mô hình ngôn ngữ. Các mô hình ngôn ng ữ được xây d ng d a trên các luự ự ật xác định n m b t các quan h ng để ắ ắ ệ ữ nghĩa. Để c i thiả ện độ bao ph , ủ tác gi xu t thêm mả đề ấ ột phương pháp giải quyết đồng tham chi u th c th d a vào viế ự ể ự ệc xác định i t . đạ ừ

Có th nói, ti p c n xuyên su t trong các nghiên cể ế ậ ố ứu đã trình bày là sử ụng cơ sở d tri thức và ontology th thao trong viể ệc xác định thực th có tên, và phát hi n các khái ni m (class) và ể ệ ệ m t s quan h c bi t trong tin tộ ố ệ đặ ệ ức. Phương pháp phát hiện các b ba ng ộ ữ nghĩa dựa trên các luật được định nghĩa dựa trên ontology. K t qu là chế ả ất lượng các chú thích ng ữ nghĩa được phát hiện được c i thi n qua các nghiên cả ệ ứu và được lưu trữ như một thành ph n quan tr ng ầ ọ c a h ủ ệthống BKSport.

Nh ng nghiên c u trong ữ ứ tương lai sẽ ậ t p trung vào vấn đề ọ h c các luật trích rút để nâng cao kh ả năng mở ộ r ng c a ti p c n. Tác gi ủ ế ậ ả cũng có ý định trích rút nhi u ng ề ữ nghĩa phứ ạp hơnc t

t các tin t c và bi u di n chúng trong m t mô hình thích h p ch ng hừ ứ ể ễ ộ ợ ẳ ạn như bộ ố b n (quadruple).

70

CHƯƠNG 3. MỘT PHƯƠNG PHÁP TRUY VẤN TIN TỨC THỂ THAO VỚI NGÔN NGỮ TỰ NHIÊN

Chương này nghiên c u bài toán th hai c a lu n án là chuyứ ứ ủ ậ ển đổi câu h i b ng ngôn ng ỏ ằ ữ t nhiên sang câu truy v n vi t b ng cú pháp SPARQL. Sau m c các nghiên c u liên quan, ự ấ ế ằ ụ ứ luận án trình bày các bước của phương pháp đề xuất.Đầu tiên là phân loại câu hỏi đầu vào và cấu trúc truy vấn đầu ra, ti p theo ế trình bày phương pháp, thu t toán chuyển đổi câu h i ngôn ng ậ ỏ ữ t nhiên sang truy vự ấn SPARQL. Cuối cùng là đánh giá hiệu qu cả ủa phương pháp đề xuất trên t p câu hậ ỏi bóng đá và kết lu n.ậ

3.1 Gii thi u

Web hiện đang là một trong nh ng ngu n cung c p thông tin ph bi n nh t, ph c v mữ ồ ấ ổ ế ấ ụ ụ ột cách đầy đủ và nhanh chóng tin t c v các s ki n di n ra hàng ngày trên th giứ ề ự ệ ễ ế ới. Trong đó, tin t c v ứ ề lĩnh vực th ể thao thu hút đượ ực s quan tâm c a hàng triủ ệu người đọc. Các bài vi t v ế ề lĩnh vực th ể thao được c p nh t liên t c trên các trang tin c a Web t r t nhi u ngu n khác ậ ậ ụ ủ ừ ấ ề ồ nhau. Điều này dẫn đến tình trạng người đọc đối m t vặ ới lượng thông tin r t lấ ớn trong đó có nhi u thông tin trùng lề ặp, dư thừa ho c không n m trong s quan tâm c a h . Chính vì v y, vặ ằ ự ủ ọ ậ ấn đề tìm ki m thông tin m t cách nhanh chóng, chính xác và ti n lế ộ ệ ợi cho người đọc luôn là m t ộ thách th c v i các h ứ ớ ệthống tin t c trên Web. Nhi u h ứ ề ệthống tìm ki m tin t c d a vào t khóa ế ứ ự ừ đã được xây d ng [121]. Tuy nhiên, cách tìm kiự ếm này thường ch ỉhướng t i vi c tr v các tin ớ ệ ả ề t c mà n i dung c a chúng ch a các t khóa trong câu truy v n ch không ph i tin t c có nứ ộ ủ ứ ừ ấ ứ ả ứ ội dung phù h p vợ ới ý nghĩa của câu truy v n. Ví d , n u mấ ụ ế ột người dùng mu n tìm ki m nh ng ố ế ữ thông tin v vi c Arda Turan chuyề ệ ển đến câu l c b Barcelona, anh ta/ch ta có th s s d ng ạ ộ ị ể ẽ ử ụ m t máy tìm ki m t khóa truy n th ng và nh p: Arda Turan transfer to Barcelona. Máy tìm ộ ế ừ ề ố ậ

ki m s v t t c nh ng tài li u ch a m t trong các t ế ẽ trả ề ấ ả ữ ệ ứ ộ ừ khóa “Arda Turan”, “transfer”, “Barcelona”. Tuy nhiên, một tài li u ch a c ba t ệ ứ ả ừ khóa này chưa hẳn đã nói về ộ n i dung mà người dùng tìm ki m mong muế ốn, do thông thường ba t ừ khóa này không đi liền v i nhau nên ớ không mang ý nghĩa rằng Arda Turan chuy n n Barcelona. Vi c áp d ng tìm ki m ngể đế ệ ụ ế ữnghĩa s giúp gi i quy t vẽ ả ế ấn đề trên, cho phép tr v k t qu là các tài li u ch a chính xác n i dung ả ề ế ả ệ ứ ộ theo k v ng cỳ ọ ủa người dùng. Hơn nữa, ngày nay bên c nh viạ ệc đọc tin, người đọc còn có th ể quan tâm đến nh ng thữ ông tin liên quan đến m t s th c th xu t hi n trong tin tộ ố ự ể ấ ệ ức như những nhân v t, t ậ ổchức, địa điểm nào đó. Đặc điểm này th hi n rõ r t v i các tin t c th thao, ví d ể ệ ệ ớ ứ ể ụ người đọc có xu hướng theo dõi các thông tin v Lionel Messi hay Cristiano Ronaldo cùng về ới việc đọc các tin t c v ứ ềtrận siêu kinh điển (El Clásico). Vì v y, các kênh cung c p thông tin l n ậ ấ ớ (như BBC) đã bắ ịt k p nhu c u này và t o ra mầ ạ ột xu hướng đổi m i trong các giao di n c a h ớ ệ ủ ệ thống tin t c cho phép hi n th tin t c kèm theo các thông tin ứ ể ị ứ nói trên. Trên cơ sở đó, luận án xác định chức năng tìm kiếm c a h th ng tin t c BKSport phủ ệ ố ứ ải đáp ứng được c hai yêu c u: ả ầ (1) tìm tin tức liên quan đến câu truy v n m t cách chính xác, và (2) b ấ ộ ổtrợ thông tin k t qu ế ả c a câu truy v n trong nhủ ấ ững trường h p có thợ ể. Để làm tốt được điều này, h ệthống c n phầ ải hiểu được ý nghĩa của tin tức cũng như của câu truy v n, và ph i k t hấ ả ế ợp được tin t c và kho ứ tri th c v ứ ềmiền lĩnh vực.

Trong các nghiên c u ứ đã trình bày ở chương 1, luận án đã đề xu t xây d ng m t h ấ ự ộ ệthống tin t c thứ ể thao d a trên ng ự ữ nghĩa và biện lu n v nh ng l i ích mà hậ ề ữ ợ ệthống này mang lại. Để minh chứng điều đó, nghiên cứu được khởi đầu b ng vi c gi i quy t vằ ệ ả ế ấn đề t ự động/bán t ự động sinh chú thích ng ữ nghĩa cho tin tức, bi u di n m t tin b ng c u trúc RDF ể ễ ộ ằ ấ như vừa trình bày trong chương 2. Nhi m v nghiên c u ti p theo c a lu n án là làm sao có th xây dệ ụ ứ ế ủ ậ ể ựng được m t h ộ ệ thống tìm ki m ng ế ữ nghĩa tin tức có kh ả năng vừa tr v tin tả ề ức xác đáng và phù hợp v i yêu c u cớ ầ ủa người đọc, đồng th i cung c p thêm các thông tin b h u ích. S ờ ấ ổtrợ ữ ự xác đáng c a tin t c cung c p mà luủ ứ ấ ận án hướng đến không nằm ở ự s trùng kh p c a n i dung tin t c vớ ủ ộ ứ ới các t khóa trong câu truy vừ ấn như các chức năng tìm kiếm ph bi n trên các trang tin hi n nay. ổ ế ệ Nó ph i d a trên s phù h p v ả ự ự ợ ề ý nghĩa giữa n i dung tin t c và n i dung câu truy vộ ứ ộ ấn. Hơn

71

n a, h ữ ệthống tìm ki m này ph i thân thi n vế ả ệ ới người dùng là những người đọc thông thường v i v n hi u bi t t i thi u v công ngh . ớ ố ể ế ố ể ề ệ

Đã có nhiều công trình nghiên c u v vứ ề ấn đề truy h i thông tin t kho d li u ng ồ ừ ữ ệ ữ nghĩa. Trong đó, có những nghiên c u s d ng tr c ti p các câu lứ ử ụ ự ế ệnh SPARQL để truy v n ra thông ấ tin t kho tri th c ng ừ ứ ữ nghĩa [122]. Tuy nhiên, vi c s d ng cú pháp SPARQL có nhiệ ử ụ ều điểm h n ch nhạ ế ư: cú pháp ngôn ngữ truy v n ph c t p, m t khác l i yêu cấ ứ ạ ặ ạ ầu người dùng ph i hiả ểu ki n trúc bên trong c a kho tri th c ng ế ủ ứ ữ nghĩa. Một s nghiên c u khác nâng cao tính thân thiố ứ ện người dùng v i vi c cung c p giao diớ ệ ấ ện đồ ọa ngườ h i dùng dựa trên ontoloy để ấ c u trúc nên (formulate) câu truy v n SPARQL [123]. Tuy nhiên, các nghiên c u trên vấ ứ ẫn đòi hỏi người dùng th c hi n m t s thao tác nhự ệ ộ ố ất định và ph i hi u biả ể ết cơ bản v ontology. Vì v y, m c tiêu ề ậ ụ c a lu n án là xây d ng m t h ủ ậ ự ộ ệthống tìm ki m b ng ngôn ng t nhiên, thân thi n vế ằ ữ ự ệ ới người dùng, không đòi hỏi h ọphải có ki n th c v ngôn ng truy v n ph c t p mà v n có th s dế ứ ề ữ ấ ứ ạ ẫ ể ử ụng hi u qu h ệ ả ệ thống. Thành ph n tìm ki m tin tầ ế ức trong h ệ thống tin t c th thao mà lu n án ứ ể ậ hướng t i bao g m 2 thành ph n: (1) thành phớ ồ ầ ần đầu tiên đảm nh n vi c chuyậ ệ ển đổi câu truy v n ấ ở d ng ngôn ng t nhiên v d ng truy v n có c u trúc SPARQL, và (2) thành ph n th hai ạ ữ ự ề ạ ấ ấ ầ ứ nh n nhi m v s d ng câu truy vậ ệ ụ ử ụ ấn SPARQL thu được để truy v n vào kho d ấ ữliệu ng ữ nghĩa và tr v tin t c liên quan k t h p v i câu tr l i cho câu truy v n. Do chả ề ứ ế ợ ớ ả ờ ấ ức năng của thành ph n th ầ ứ hai đã được cung c p bấ ởi các mô tơ tìm kiếm ng ữ nghĩa như Allegrograph, nên việc xây d ng chúng n m ngoài ph m vi nghiên c u cự ằ ạ ứ ủa luận án. Tóm lại, chương này trình bày nghiên c u v mứ ề ột phương pháp chuyển đổi câu h i v tin tỏ ề ức dướ ại d ng ngôn ng t nhiên ữ ự sang truy v n ng ấ ữ nghĩa ạ d ng SPARQL. Chương này tập trung vào trình bày các phương pháp và k thuỹ ật để xây d ng thành ph n th nh t (1). ự ầ ứ ấ

Các m c còn l i cụ ạ ủa chương 3 được t ổchức như sau: mục 3.2 điểm qua m t s ộ ố hướng nghiên c u lứ iên quan đến vi c xây d ng h ệ ự ệthống tìm ki m truy h i thông tin nh t là nh ng h ế ồ ấ ữ ệthống lớn cho phép người dùng s d ng các câu truy v n d ng ngôn ng t ử ụ ấ ạ ữ ự nhiên để tìm ki m thông ế tin t kho d u ng ừ ữliệ ữ nghĩa. Mục 3.3 trình bày v phân lo i các d ng câu truy v n cề ạ ạ ấ ủa người đọc tin t c và gi i thi u v mô hình bi u di n ng ứ ớ ệ ề ể ễ ữ nghĩa của tin t c th thao cùng các truy v n ứ ể ấ ng ữ nghĩa – chính là đầu ra c a h ủ ệthống. Mục 3.4 trình bày phương pháp chuyển đổ ừi t câu truy v n ngôn ng t nhiên sang truy v n ng ấ ữ ự ấ ữ nghĩa SPARQL, bao g m c quá trình x lý ồ ả ử chung và nguyên lý hoạt động chi ti t c a t ng thành ph n (pha) trong h ế ủ ừ ầ ệthống hỏi đáp. ụM c 3.5 trình bày đánh giá và nhận xét k t qu ế ảthử nghi m. K t luệ ế ận và đề xuất hướng c i ti n trong ả ế

Một phần của tài liệu Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa767 (Trang 79)

Tải bản đầy đủ (PDF)

(130 trang)