.22 Chú thích ngữ nghĩa về tuyê nb gián t iố ếp được trích rút

Một phần của tài liệu Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa767 (Trang 76)

B ng 2.4 trình bày hi u qu c a thu t toán trong ả ệ ả ủ ậ xác định thực th có tên, ể cũng như ạ t o ra các chú thích ng ữ nghĩa bao gồm chú thích b ộ ba đơn giản, chú thích v ềchủ đề tin t c, chú ứ thích v tuyên b gián ti p. Có th ề ố ế ểthấy r ng, v i nh ng c i tiằ ớ ữ ả ến đã thực hi n, giá tr chính ệ ị độ xác (P) và độ bao ph ủ (R) thu được cao hơn so với th c nghiự ệm đầu tiên, c trong phát hi n ả ệ thực th có tên và sinh chú thích ng ể ữ nghĩa. Ngoài ra, những b ba ph c t p ộ ứ ạ như tuyên bố gián tiếp bây gi ờ đã được xác định và sinh chú thích. Đây là kết qu c a vi c áp d ng nh ng mô ả ủ ệ ụ ữ hình và lu t do tác gi xu t. Tuy nhiêậ ả đề ấ n, độ bao ph (R) v n củ ẫ ần được c i thi n b i vì khả ệ ở ối

66

lượng d liữ ệu trong cơ sở tri th c c a BKSport vứ ủ ẫn chưa đủ l n và phong phú. Bên cớ ạnh đó, số lượng các m u lu t trích chẫ ậ ọn để nh n ra các quan h ậ ệ là chưa đủ để bao ph mủ ọi trường h p. ợ

B ng 2.4. Thống kê xác định th c th có tên và b ba c a ự ể ộ ủ thực nghiệm 2

TR RR TRE P% R% Named Entities

Recognition 2699 2692 4415 99,74 60,97 Triples

Extraction 1002 890 1663 88,82 53,52

Thực nghi m 3:ệ Đánh giá hi u qu c a thu t toán sinh chú thích cho tin t c chuyệ ả ủ ậ ứ ển nhượng. Đố ới v i bài toán sinh chú thích ng ữ nghĩa tin tức chuyển nhượng, t p d li u th c nghi m ậ ữ ệ ự ệ được m r ng lên 237 tin t c chuyở ộ ứ ển nhượng đượ ấ ừc l y t ngu n Sky Sports. Thông qua tác v ồ ụ chú thích ng ữ nghĩa thủ công trên t p d u này, 264 b ba ng ậ ữliệ ộ ữ nghĩa liên quan đế n chuyển nhượng bóng đá đã được xây d ng. Lu n án ti n hành th nghi m ự ậ ế ử ệ phương pháp trong hai k ch ị b n: ả

• Không s d ng các luử ụ ật xác định i t . đạ ừ

• S d ng các luử ụ ật xác địnhđại t . ừ

B ng 2.5 trình bày nh ng k t qu ả ữ ế ảthực nghiệm thu đượ ừ ầc t l n th c hi n phiên b n u tiên ự ệ ả đầ của thu t toán. S u cho th y, vi c s d ng các luậ ốliệ ấ ệ ử ụ ật xác định i t giúp nâng cao hi u qu đạ ừ ệ ả của phương pháp.

B ng 2.5. K t qu ế ả bước đầu c a th c nghiủ ự ệm xác định quan h ng ệ ữ nghĩa

TRE TR RR P% R% Case(1) 264 167 134 80.2 50.8 Case(2) 264 195 158 81.0 59.8

Điều này có th ể được minh họa trong đoạn tin t c ứ “Torino have signed Serbian goalkeeper Vlada Avromov following his release from Cagliari. The 35-year-old was a free agent after leaving the Sardinian club”. Có th ể thấy r ng tin tằ ức đó có hai quan hệ ng ữ nghĩa chuyển nhượng. Đầu tiên là quan h ng ệ ữ nghĩa “signWith” giữa câu l c b Torino v i th môn Vlada ạ ộ ớ ủ Avramov. Th hai là quan h ng ứ ệ ữ nghĩa “leave” (goalkeeper Vlada Avramov leaves Sardinian club). Tuy nhiên, trong trường h p không dùng các luợ ật xác định i t , thì h đạ ừ ệthống ch xác ỉ định được quan h ng ệ ữ nghĩa đầu tiên vì trong đoạn tin t c này c m t ứ ụ ừ “The 35-year-old” được dùng để thay th ế cho “goalkeeper Vlada Avramov”.

Tuy nhiên, thu t toán ậ ởthời điểm này v n còn m t s h n ch . Hình 2.25 cho th y m t vài ẫ ộ ố ạ ế ấ ộ b ba ng ộ ữ nghĩa không xác định được do c u trúc ph c t pấ ứ ạ , đó là những quan h ệ tương đương mang nhiều nghĩa nhập nh ng. Ví dằ ụ, “Queens Park Rangers boss Harry Rednapp is eyeing a reunion with former Tottenham star Rafael van der Vaart”.

Một vài trường h p b ợ ị xác định nhầm vì các lý do sau đây. Trong câu, cùng lúc có mộ ốt s thực th có tên gi ng nhau và h ể ố ệthống không th ể xác định ra được th c th chính c a quan hự ể ủ ệ. Thông tin ng c nh (mô t ữ ả ả cái đã không xảy ra và các s ki n ph ự ệ ủ định) không được bao gồm trong các t khóa mà l i nừ ạ ằm trong ý nghĩa của câu. Ví d , mụ ột thông báo sau: “The odds on Antoine Griezmann joining Monaco have shortened again”, hệ thống xác định như là <Antoine Griezmann> <transferTo> <Monaco>. Nhưng thự ế ự ện đã không xảy ra, điều này được t s ki c thể ệ hi n trong hình 2.24. Hình 2.23 minh họa trường h p các chú thích ng ợ ữ nghĩa được xác định đúng.

Khi phân tích k t qu ế ảthực nghiệm đầu tiên, tác gi nh n thả ậ ấy độ bao ph không cao là do ủ c u trúc ph c t p c a các câu và chấ ứ ạ ủ ất lượng c a t p t vủ ậ ừ ựng được dùng để xác định ng t độ ừ câu. Do đó, luận án đã thực hi n nh ng c i ti n nh b ng cách xem xét l i các quan h trong ệ ữ ả ế ỏ ằ ạ ệ ontology, thêm vào t ừ đồng nghĩa và các biến th cể ủa động t vào trong b t v ng. Thêm vào ừ ộ ừ ự đó, bước ti n x ề ử lý câu đã và đang được th c hiự ện để chuy n nhể ững trường h p ch c ch n sang ợ ắ ắ

67

d ng chu n. Ví dạ ẩ ụ, <Named Entity>’s signature được chuy n thành the signature of <Named ể Entity>. Nh ờ có bước này, các ng ữ nghĩa về chuyển nhượng bóng đá được n m b t nhiắ ắ ều hơn b i các luở ật xác định đang có.

Hình 2.23Ví d v các chú thích ụ ề được xác định đúng

Hình 2.24Ví d v các chú thích ụ ề được xác định không đúng

68

B ng 2.6 cho th y nh ng k t qu ả ấ ữ ế ả thực nghiệm thu đượ ừc t nh ng n lữ ỗ ực nêu trên. Độ bao ph ủ được c i thi n kho ng 10ả ệ ả % trong khi độ chính xác không thay đổi nhi u. ề

B ng 2.6. C i thi n hiả ệ ệu năng củ xác địa nh quan h ng ệ ữ nghĩa

TRE TR RR P% R% Case (1) 264 180 145 80.5 54.9 Case (2) 264 213 173 81.2 65.5

Hình 2.26 minh h a chú thích v ng ọ ề ữ nghĩa chuyển nhượng được sinh ra v i nghiên cớ ứu trong luận án. Các b ba ng ộ ữ nghĩa sau khi được trích rút được đưa vào dạng N-triples và rất d dàng khi chuy n chúng sang hình thễ ể ức khác như RDF hay OWL.

Hình 2.26Các b ba ng ộ ữ nghĩa được trích rút là k t qu u ra ế ả đầ

2.4.3 Đánh giá chung

Những k t qu th c nghi m cho thế ả ự ệ ấy, phương pháp đề xu t trong luấ ận án đã đáp ứng m c ụ tiêu nghiên c u v i k t qu tích cứ ớ ế ả ực. Độ chính xác trong xác định thực th có tên là trên 90% ể và độ chính xác trong phát hi n và t o ra chú thích ng ệ ạ ữ nghĩa là trên 80%.

Theo hi u bi t c a tác gi , nghiên c u th c hi n trong lu n án là m t trong nh ng nghiên ể ế ủ ả ứ ự ệ ậ ộ ữ cứu đầu tiên về sinh chú thích ng ữ nghĩa về tin t c th thao. Có nhi u nghiên c u khác nhau v ứ ể ề ứ ề bài toán t o ra chú thích ng ạ ữ nghĩa cho văn bản nói chung. Nhưng xét cụthể ề v các d ng chú ạ thích ng ữ nghĩa mà luận án hướng tới, chưa có nghiên cứu nào đề ập đến. Đó là lý do trong c các th c nghi m, luự ệ ận án chưa so sánh hiệu qu cả ủa phương pháp đề xu t vấ ới các phương pháp khác, do mục tiêu hướng đến khác nhau. N u áp dế ụng các phương pháp chú thích ngữ nghĩa tự động được đề xuất cho lĩnh vự ổc t ng quát, vào một lĩnh vực c th ụ ể như thể thao thì k t qu s ế ả ẽ khiêm t n, do kh ố ả năng xác định thực th có tên h n ch ể ạ ế hơn. Nền t ng KIM [36] hay ASKNET ả [115] s gẽ ặp khó khăn lớn khi xác định thực th có tên c a b t k c u th ể ủ ấ ỳ ầ ủ bóng đá nổi ti ng nào ế trong ng c nh chuyên môn c a h , và do vữ ả ủ ọ ậy gần như không thể sinh các chú thích m t cách ộ t ng v các hoự độ ề ạt động, s ki n, nhân v t th thao. Mự ệ ậ ể ột lý do khác là chưa có tập d ữ liệu chu n v chú thích ng ẩ ề ữ nghĩa cho văn bản trong lĩnh vực th ể thao được công b ố đểđánh giá so sánh gi a nghiên c u c a lu n án v i các nghiên c u liên quan, trong khi ữ ứ ủ ậ ớ ứ đó trong lĩnh vực y t và sinh hế ọc đã có.

69

So sánh v i nh ng nghiên cớ ữ ứu liên quan đến trích rút thông tin ng ữ nghĩa trong lĩnh vực tổng quát và lĩnh vực c ụthể như: PANKOW [34] (độ chính xác tối đa là 69%), KIM (độ chính xác là 86%, độ bao ph ủ là 82%), SemTag (độ chính xác là 82%) và h th ng Asknet [115] ệ ố (độ chính xác t ng th 79.1%), ti p c n cổ ể ế ậ ủa [38] (độ chính xác 81.2%), phương pháp sử ụ d ng mô hình ng ữ nghĩa để trích rút các quan h gi a các th c th trong y h c b [39] ệ ữ ự ể ọ ởi (độ chính xác 74.21%), m c dù không cùng t p d ặ ậ ữliệu nhưng những k t qu ế ả thu được c a luủ ận án là đáng khích l . ệ

2.5 K t luế ận chương

Chương này trình bày những nghiên c u v sinh chú thích ng ứ ề ữ nghĩa cho tin tức th thao, ể đó là một ph n công vi c c a luầ ệ ủ ận án v i ch M t ti p cớ ủ đề “ ộ ế ận xây d ng h ự ệthống t ng h p tin ổ ợ t c th thao d a trên Web ng ứ ể ự ữ nghĩa”. Sau khi tìm hiểu v ề cơ sở lý thuy t c a sinh chú thích ế ủ ng ữ nghĩa cho tài liệu và các phương pháp tạo chú thích ng ữ nghĩa, tác giả đề xu t các thuấ ật toán sinh chú thích ng ữ nghĩa cho các tin t c th thao (c ứ ể ụthể là bóng đá) và đánh giá về nh ng ữ hi u qu ệ ả đạt được trong các th nghiử ệm ở ừ t ng nghiên c u. ứ

Tiếp c n nghiên cậ ứu cho bài toán này được tri n khai trong m t quá trình khá dài và liên t c. ể ộ ụ Các k t qu nghiên cế ả ứu đã trình bày được tác gi công b ả ố trong bài báo “A novel approach for automatic extraction of semantic data about football transfer in sport news” ạ ạ t i t p chí

International Journal of Pervasive Computing and Communications (2015); và trong bài báo “Automatic Semantic Annotation of Sport News Using Knowledge Base and Extraction Patterns” ạ ạ t i t p chí Journal of Science & Technology Technical Universities (2018). Chúng tiếp n i và k ố ếthừa m t s k t qu nghiên cộ ố ế ả ứu trước đó của tác gi [119] [120] và b sung nhả ổ ững đóng góp mới.

T i xuạ ất phát điểm c a nghiên c u, tác gi ủ ứ ả xác định được ý tưởng gi i quyả ết vấn đề sinh chú thích ng ữ nghĩa từ các tin t c thứ ể thao là d a trên các th c th có tên. Nghiên cự ự ể ứu đề xuất được phương pháp c địxá nh th c th ự ể có tên như là các thể ệ hi n của ontology, đạt được mức độ chi tiết hơn về ng ữ nghĩa so với khái niệm xác định của KIM. Sau đó, một thu t toán phát hi n ng ậ ệ ữ nghĩa mô tả ộ ố m t s thông tin quan trọng và cơ bản trong các tin t c th ứ ể thao được đề xu t nh ấ ờ s ph i hự ố ợp mô tơ trích rút KIM với cơ sở tri th c và ontology th ứ ể thao được xây d ng hoàn ự toàn m ới.

K ếthừa và c i thi n nh ng thuả ệ ữ ật toán đã xây dựng ởgiai đoạn đầu, luận án ti p t c t p trung ế ụ ậ c i thi n hi u qu c a tác v ả ệ ệ ả ủ ụ xác định thực th có tên rút g n, th c th cùng tên khác ki u. Quan ể ọ ự ể ể trọng hơn, nghiên cứu đã bổ sung thêm kh ả năng sinh chú thích ngữnghĩa về tuyên b gián tiố ếp vào thu t toán. Vi c c i ti n trong thuậ ệ ả ế ật toán đã mang lại nh ng k t qu kh quan. ữ ế ả ả Sau đó, tác gi t p trung gi i quy t mả ậ ả ế ột lĩnh vực đặc thù trong tin t c th ứ ể thao đó là trích rút các quan hệ ng ữ nghĩa về chuyển nhượng bóng đá dùng mô hình ngôn ngữ. Các mô hình ngôn ng ữ được xây d ng d a trên các luự ự ật xác định n m b t các quan h ng để ắ ắ ệ ữ nghĩa. Để c i thiả ện độ bao ph , ủ tác gi xu t thêm mả đề ấ ột phương pháp giải quyết đồng tham chi u th c th d a vào viế ự ể ự ệc xác định i t . đạ ừ

Có th nói, ti p c n xuyên su t trong các nghiên cể ế ậ ố ứu đã trình bày là sử ụng cơ sở d tri thức và ontology th thao trong viể ệc xác định thực th có tên, và phát hi n các khái ni m (class) và ể ệ ệ m t s quan h c bi t trong tin tộ ố ệ đặ ệ ức. Phương pháp phát hiện các b ba ng ộ ữ nghĩa dựa trên các luật được định nghĩa dựa trên ontology. K t qu là chế ả ất lượng các chú thích ng ữ nghĩa được phát hiện được c i thi n qua các nghiên cả ệ ứu và được lưu trữ như một thành ph n quan tr ng ầ ọ c a h ủ ệthống BKSport.

Nh ng nghiên c u trong ữ ứ tương lai sẽ ậ t p trung vào vấn đề ọ h c các luật trích rút để nâng cao kh ả năng mở ộ r ng c a ti p c n. Tác gi ủ ế ậ ả cũng có ý định trích rút nhi u ng ề ữ nghĩa phứ ạp hơnc t

t các tin t c và bi u di n chúng trong m t mô hình thích h p ch ng hừ ứ ể ễ ộ ợ ẳ ạn như bộ ố b n (quadruple).

70

CHƯƠNG 3. MỘT PHƯƠNG PHÁP TRUY VẤN TIN TỨC THỂ THAO VỚI NGÔN NGỮ TỰ NHIÊN

Chương này nghiên c u bài toán th hai c a lu n án là chuyứ ứ ủ ậ ển đổi câu h i b ng ngôn ng ỏ ằ ữ t nhiên sang câu truy v n vi t b ng cú pháp SPARQL. Sau m c các nghiên c u liên quan, ự ấ ế ằ ụ ứ luận án trình bày các bước của phương pháp đề xuất.Đầu tiên là phân loại câu hỏi đầu vào và cấu trúc truy vấn đầu ra, ti p theo ế trình bày phương pháp, thu t toán chuyển đổi câu h i ngôn ng ậ ỏ ữ t nhiên sang truy vự ấn SPARQL. Cuối cùng là đánh giá hiệu qu cả ủa phương pháp đề xuất trên t p câu hậ ỏi bóng đá và kết lu n.ậ

3.1 Gii thi u

Web hiện đang là một trong nh ng ngu n cung c p thông tin ph bi n nh t, ph c v mữ ồ ấ ổ ế ấ ụ ụ ột cách đầy đủ và nhanh chóng tin t c v các s ki n di n ra hàng ngày trên th giứ ề ự ệ ễ ế ới. Trong đó, tin t c v ứ ề lĩnh vực th ể thao thu hút đượ ực s quan tâm c a hàng triủ ệu người đọc. Các bài vi t v ế ề lĩnh vực th ể thao được c p nh t liên t c trên các trang tin c a Web t r t nhi u ngu n khác ậ ậ ụ ủ ừ ấ ề ồ nhau. Điều này dẫn đến tình trạng người đọc đối m t vặ ới lượng thông tin r t lấ ớn trong đó có nhi u thông tin trùng lề ặp, dư thừa ho c không n m trong s quan tâm c a h . Chính vì v y, vặ ằ ự ủ ọ ậ ấn đề tìm ki m thông tin m t cách nhanh chóng, chính xác và ti n lế ộ ệ ợi cho người đọc luôn là m t ộ thách th c v i các h ứ ớ ệthống tin t c trên Web. Nhi u h ứ ề ệthống tìm ki m tin t c d a vào t khóa ế ứ ự ừ đã được xây d ng [121]. Tuy nhiên, cách tìm kiự ếm này thường ch ỉhướng t i vi c tr v các tin ớ ệ ả ề t c mà n i dung c a chúng ch a các t khóa trong câu truy v n ch không ph i tin t c có nứ ộ ủ ứ ừ ấ ứ ả ứ ội dung phù h p vợ ới ý nghĩa của câu truy v n. Ví d , n u mấ ụ ế ột người dùng mu n tìm ki m nh ng ố ế ữ thông tin v vi c Arda Turan chuyề ệ ển đến câu l c b Barcelona, anh ta/ch ta có th s s d ng ạ ộ ị ể ẽ ử ụ m t máy tìm ki m t khóa truy n th ng và nh p: Arda Turan transfer to Barcelona. Máy tìm ộ ế ừ ề ố ậ

ki m s v t t c nh ng tài li u ch a m t trong các t ế ẽ trả ề ấ ả ữ ệ ứ ộ ừ khóa “Arda Turan”, “transfer”, “Barcelona”. Tuy nhiên, một tài li u ch a c ba t ệ ứ ả ừ khóa này chưa hẳn đã nói về ộ n i dung mà người dùng tìm ki m mong muế ốn, do thông thường ba t ừ khóa này không đi liền v i nhau nên ớ không mang ý nghĩa rằng Arda Turan chuy n n Barcelona. Vi c áp d ng tìm ki m ngể đế ệ ụ ế ữnghĩa

Một phần của tài liệu Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa767 (Trang 76)

Tải bản đầy đủ (PDF)

(130 trang)