Các phương pháp tạo chú thích ngữ nghĩa

Thu t ng "chú thích ng ậ ữ ữ nghĩa" ểu theo nghĩa chung nhấhi t là g n d ắ ữliệu vào m t s ph n ộ ố ầ d u khác. Cho t i hi n t i, chú thích ng ữliệ ớ ệ ạ ữ nghĩa có thể được phân lo i là th công, bán t ạ ủ ự động và t ự động hoàn toàn. Nhóm các h ệthống s khác nhau v cẽ ề ấu trúc, phương pháp và công c rút trích thông tin. ụ để

Phương pháp chú thích thủ công

Đây là phương pháp đòi hỏi chuyên gia người tr c ti p th c hi n quá trình chú thích các tài ự ế ự ệ nguyên (g n th c th v i siêu d u), chuy n các tài nguyên cú pháp hi n có thành các cắ ự ể ớ ữliệ ể ệ ấu trúc tri thức được liên k t b ng cách thêế ằ m thông tin vào văn bản. M t s công c ph bi n h ộ ố ụ ổ ế ỗ trợ chú thích th công là CREAM OntoM , SMORE, Amaya ... Các công c biên t p th công ủ at ụ ậ ủ cho phép con người mô t ả ý nghĩa của tài nguyên. Nó đem lại chú thích có chất lượng tin c y ậ và chính xác hơn so với chú thích t ng. ự độ

Tuy nhiên, nhược điểm của phương pháp này là cần nhi u th i gian và công sề ờ ức, do đó nó thường ch ỉ được áp d ng trong m t s ụ ộ ố trường h p ng dợ ứ ụng đặc biệt như dữ ệ li u ít hoặc để ổ b sung cho phương pháp tự độ ng/bán t ng. ự độ

Phương pháp chú thích bán tự động

Đây là phương pháp cần đến s can thiự ệp con ngườ ở ội m t mức độ nào đó trong quá trình chú thích để nâng cao chất lượng đầu ra, tuy nhiên m t s ộ ố quá trình đã được t ự động hóa. GATE [30] là m t công c ộ ụ thực hi n chú thích ng ệ ữ nghĩa bán tự độ ng. B chú thích NCBO [31]và ộ cTAKE [32] là công c ụ khác đểthực hi n chú thích ng ệ ữ nghĩa bán tự độ ng.

Phương pháp chú thích tự động

Đây là phương pháp không cần đến s can thi p cự ệ ủa con người trong quá trình chú thích. Phương pháp tự độ ng d a trên các thu t toán phân tích nự ậ ội dung tài nguyên để sinh ra các chú thích, và có th d a trên các thu t toán thể ự ậ ống kê để chú thích nh và video. ả Nó được áp d ng ụ khi c n x lý d u quy mô lầ ử ữliệ ở ớn. Đây là một nhi m v quan tr ng cệ ụ ọ ủa Web ng ữ nghĩa. Siêu d u Web ng ữliệ ữ nghĩa đượ ạc t o ra nh các công c chú thích t ng v i các k t qu t t nhờ ụ ự độ ớ ế ả ố ất d a trên nhi u thu t toán h c máy khác nhau cùng v i các t p hu n luy n. Tuy nhiên, các thuự ề ậ ọ ớ ậ ấ ệ ật toán này không có kh ả năng như con người để ểu đượ hi c các n i dung có ng ộ ữ nghĩa phứ ạc t p, và có th còn có nhi u. Vì vể ễ ậy, các chú thích hi n nay d a trên các thu t toán t ng c n phệ ự ậ ự độ ầ ải được c i ti n ả ế độ chính xác hơn ữn a.

M t s công c chú thích ng ộ ố ụ ữ nghĩa tựđộng điển hình là PANKOW [34], C-PANKOW [35], KIM [36]. Trong đó KIM là mộ ề ảt n n t ng chú thích t ng d a trên h ự độ ự ệthống rút trích thông tin GATE [30] v i ph n m rớ ầ ở ộng Annie được nhóm nghiên c u quan tâm và s d ng. ứ ử ụ

2.2.3 Một số nghiên c u liên quan ứ

Những nghiên cứu đầu tiên t p trung phát tri n các h th ng biên t p chú thích ng ậ ể ệ ố ậ ữ nghĩa

m t cách th công. M t s ví d n i b t là Semantator [27], M-OntoMat Annotizer [28]ộ ủ ộ ố ụ ổ ậ , Annotea [29], Zemanta (http://www.zemanta.com).

Trong những năm gần đây nhiều nghiên c u [112] [113] [34] [33] [114] ứ đã được th c hi n ự ệ để phát tri n các h ể ệthống chú thích ng ữ nghĩa tự độ ng và bán t ự động. Tuy nhiên, không có h ệ thống nào được thi t k làm viế ế để ệc cho lĩnh vực th thao. ể

H ệthống Pankow (Pattern-based Annotation through Knowledge on the Web) [34] đã khai thác mô hình b m t và s ề ặ ự dư thừa d ữliệu trên Web để ự độ t ng phân lo i các th c th trong ạ ự ể văn bản s d ng m t ontology có s n. Các mô hình là các nhóm t ử ụ ộ ẵ ừ như <Concept> <Instance> và <Instance> <is_a> <Concept>. H ệ thống xây d ng nên các mô hình này b ng cách nh n ự ằ ậ d ng t t c ạ ấ ả các tên riêng trong văn bản (s d ng Part-of-Speech Tagger) và k t h p m i tên ử ụ ế ợ ỗ riêng v i m t trong 58 khái ni m c a ontology vào trong m t gi thiớ ộ ệ ủ ộ ả ết. Sau đó mỗi gi thiả ết được th nghi m v i trang Web thông qua các truy v n Google và s ử ệ ớ ấ ố ợlư ng xu t hiấ ện là thước đo để đánh giá độ chính xác c a mô hình. Hiủ ệu năng tốt nh t c a h th ng là 24,9% khi hoàn ấ ủ ệ ố toàn t ng, và 62,09% khi hoự độ ạt động dướ ự điềi s u khi n cể ủa chuyên gia người.

SemTag [33] là thành ph n chú thích ng ầ ữ nghĩa của n n tề ảng Seeker, được dùng đểthực hi n vi c chú thích các trang Web quy mô l n. Nó làm vi c v i m t ontology h ng nh có ệ ệ ở ớ ệ ớ ộ ạ ẹ tên là TAP, trong đó bao gồm m t lo t thông tin t v ng và phân lo i các m c tin thôộ ạ ừ ự ạ ụ ng thường. Sau khi chú thích mọi đề ậ c p có th c a các th c th t ontology TAP, SemTag th c hi n thuể ủ ự ể ừ ự ệ ật toán gi i nh p nh ng d a trên nguyên t c phân lo i. Nó s d ng mả ậ ằ ự ắ ạ ử ụ ột mô hình vectơ không gian để ắ g n khái niệm đúng hoặc để xác định đề ập này không tươn ứ c g ng v i m t khái ni m trong ớ ộ ệ ontology. Độ chính xác t t nh t c a SemTag là khoố ấ ủ ảng 82%, trong khi đó độ bao ph ủ chưa được công b . ố

Trong [115], các tác gi ả đã mô tả ệ h thống Asknet, m t h ộ ệthống trích rút thông tin dành cho vi c xây d ng d u Web ng ệ ự ữ liệ ữ nghĩa quy mô l n t ớ ừ văn bản phi c u trúc. Trình t trích rút ấ ự thông tin của Asknet là như sau. Đầu tiên cú pháp của các câu trong văn bản được phân tích bởi b ộ phân tích cú pháp C&C. Giai đoạn nh n d ng th c th ậ ạ ự ể có tên được th c hi n b ng cách s ự ệ ằ ử d ng b ụ ộ đánh dấu NER C&C. Sau đó các câu được phân tích, Asknet s d ng mử ụ ột mô tơ phân tích ng ữ nghĩa có tên là Boxer để sinh ra các bi u di n logic b c m t. H ể ễ ậ ộ ệthống đạt được độ chính xác t ng th là 79,1%. ổ ể

Nghiên c u cứ ủa [38] đã đề xu t m t thu t toán d a trên cây hấ ộ ậ ự ạt nhân để trích rút các quan h gi a hai th c th . H ệ ữ ự ể ọ đã đề xu t m t cây h t nhân mấ ộ ạ ới, được gọi là “hạt nhân cây được làm giàu chức năng” để, vượt qua các vấn đề nh p nh ng trong cây cú pháp truy n th ng nh m nậ ằ ề ố ằ ắm b t quan h ng ắ ệ ữ nghĩa tốt hơn.

Nhóm tác gi [39] ả đã giới thi u m t ti p cệ ộ ế ận để trích rút các quan h gi a các th c th trong ệ ữ ự ể lĩnh vực y h c có s d ng mô hình ngôn ng . H ọ ử ụ ữ ọ đã sử dụng MetaMap để trích rút các th c th ự ể có tên trong lĩnh vực y học như tên thuốc, tên bệnh nhân ... Để trích rút các quan h mong mu n, ệ ố

h ọ đã thiết k m t mô hình ngôn ng d a trên s l a ch n các bài báo c a PubMed Central. ế ộ ữ ự ự ự ọ ủ Các th nghi m c a h ử ệ ủ ọ đạt độ chính xác 74,21%.

Nhóm nghiên c u [114] ứ đã đề xuất m t ti p cộ ế ận để trích rút các quan h ng ệ ữ nghĩa ữgi a các nhóm t danh t ừ ừ (các danh định) d a trên s ph i h p các thông tin ng ự ự ố ợ ữ nghĩa được cung cấp bởi ResearchCyc để ử x lý các b ộ phân tích cú pháp sơ yếu. Phương pháp đã đạt giá tr ị đo tổng thể F1 là 77,62% t i SemEval 2010. ạ

Trong m i h ọ ệ thống ng d ng công ngh Web ng ứ ụ ệ ữ nghĩa, nội dung c a chú thích s quyủ ẽ ết định các chức năng xử lý thông tin thông minh mà h th ng cung c p tệ ố ấ ới người dùng. Trong luận án này, thông tin ng ữ nghĩa trong các chú thích cần hướng đến vi c b ệ ổ sung “ý nghĩa” về các d u mà ng i dùng quan tâm khi tìm ki m tra c u tin tữliệ ườ ế – ứ ức. Nói cách khác, các chú thích ng ữ nghĩa nếu được sinh ra c n biầ ểu đạt được nh ng gì mà các chữ ức năng tìm kiếm ng ữ nghĩa hay gợi ý tin t c yêu c u. Khi truy c p m t trang tin th ứ ầ ậ ộ ể thao, người đọc thường có ưu tiên mu n tìm ki m thông tin v k t qu c a các s ki n th ố ế ề ế ả ủ ự ệ ể thao như trận đấu, các hành động – hoạt động di n ra. Hễ ọ cũng quan tâm đế n các thông tin g n vắ ới các nhân v t, t ậ ổchức th thao ể n i ti ng, các hoổ ế ạt động chuyển nhượng … Để ệ h thống có th l các câu hểtrả ời ỏi như “Đội bóng nào đã đánh bại Barcelona tuần qua?” “Cầu th ủ nào đã ghi bàn?” “Chuyện gì di n ra giễ ữa Ronaldo và Messi?”, cần có các chú thích ng ữ nghĩa chứa đựng các thông tin tương ứng.

Trong khi đó, kết qu c a các nghiên c u liên quan nói tr ả ủ ứ ênchưa đáp ứng được yêu c u này ầ m t cách thộ ỏa đáng. Đầu tiên, trong h ệthống t ng h p tin t c th thao tin tổ ợ ứ ể ức được thu th p t ậ ừ nhi u ngu n nên có s ề ồ ố lượng l n và có t n su t c p nhớ ầ ấ ậ ật cao. Do đó, phương pháp tạo chú thích thủ công [27] [29] chỉ dành cho biên t p viên v i mậ ớ ục đích thẩm định, nâng cao chất lượng của chú thích. Gi i pháp này không phù hả ợp để áp d ng trên t p toàn b các tin tụ ậ ộ ức.

Các nghiên c u [35] [36] cho phép phát hi n các th c th ứ ệ ự ể có tên, nhưng do thiế ết k cho bài toán tổng quát nên các phương pháp này chỉ gán các th c th trên vào các lự ể ớp thông tin cơ bản là: Người, T chổ ức, Địa ch , Ti n t , Thỉ ề ệ ời gian … Trong khi đó, SemTag ch s d ng TAP ỉ ử ụ ontology và không h s dỗtrợ ử ụng ontology lĩnh vực khác. Các nghiên c u khác th c hi n tác ứ ự ệ v ụ này trong lĩnh vực đặc thù như y tế, sinh học.

M t s ộ ố phương pháp hướng đến vi c phát hi n quan h [114] [38] [39], tuy nhiên vệ ệ ệ ẫn chưa cho phép t o ra các b ba ng ạ ộ ữ nghĩa dướ ại d ng RDF, OWL. Ví d [115] t o ra các bi u diụ, ạ ể ễn logic b c mậ ột. Phương pháp [39] được xây dựng để áp dụng cho lĩnh vực y học, nó đòi hỏi tri thức mi n t ề ừ MetaMap và PubMed, do đó không khả thi để áp dụng vào lĩnh vực th thao. ể

V i nhớ ững phân tích đã nêu, tác giảthấy r ng bài toán sinh chú thích ng ằ ữ nghĩa trong lĩnh vực đặc thù như thể thao v n là m t bài toán mẫ ộ ở, chưa có lời gi i thả ỏa đáng. Nghiên cứu một phương pháp tựđộng t o chú thích ng ạ ữ nghĩa cho số ợlư ng l n tin t c th thao v i th i gian x ớ ứ ể ớ ờ ử lý ngắn và độ chính xác tương đối có ý nghĩa quan trọng.

2.3 Một phương pháp sinh chú thích ng ữ nghĩa cho tin tức th thao d a trên ể ự

ontology và lu t trích ch n ậ ọ

2.3.1 T ng quan v ổ ề phương pháp đề xu tấ

T nh ng vừ ữ ấn đề còn t n tồ ại được nêu trên, luở ận án đề xu t mấ ột phương pháp sinh chú thích ng ữ nghĩa cho các tin tức th thao d a trên vi c s dể ự ệ ử ụng ontology, cơ sở tri th c và luứ ật trích chọn. Để ạ t o ra chú thích ng ữ nghĩa tựđộng, lu n án t p trung vào vi c nh n di n các thậ ậ ệ ậ ệ ực thể có tên trong lĩnh vực th thao. N u s d ng các k t qu nghiên c u c a bài toán ể ế ử ụ ế ả ứ ủ xác định thực th có tên và g n nhãn, các th c th này ch ể ắ ự ể ỉ được xác định như là thể ệ hi n c a các l p ủ ớ chung như Người, Địa điểm, T ổChức, Thời gian … và chúng s không có nhiẽ ều ý nghĩa trong vi c t o ra ng ệ ạ ữ nghĩa hữu ích. Lu n án ti n hành ậ ế xác định chúng trên cơ sở so kh p chúng vớ ới các th hiể ện trong cơ sở tri th c th thao, t ứ ể ừ đó xác định l p c a chúng là các khái ni m thuớ ủ ệ ộc ontology BKSport được lu n án xây d ng. D a trên các th hi n c a các th c th ậ ự ự ể ệ ủ ự ểthểthao được phát hi n, m t s thuệ ộ ố ật toán đã được luận án đề xuất để phát hi n các d ng ng ệ ạ ữ nghĩa khác nhau. D a trên lu t trích ch n xây d ng nên ph n l n các thuự ậ ọ để ự ầ ớ ật toán là tư tưởng chung của luận án. Nh ng lu t này di n t mô hình bi u di n ng ữ ậ ễ ả ể ễ ữ nghĩa cần trích rút dưới d ng liên kạ ết gi a các th c th và các quan h trong ontology. Có th nói, m c dù trình bày trong t ng th ữ ự ể ệ ể ặ ổ ể

một phương pháp, nhưng đây là kết qu t ng h p c a nhi u nghiên cả ổ ợ ủ ề ứu tr i dài trong quá trình ả thực hi n lu n án. ệ ậ

Các giai đoạn trong phương pháp tổng th ể được minh h a hình 2ọ ở .2 dưới đây: 0. Thiết kế Ontology

1. Thu thập và tiền xử lý tin tức

1'. Xây dựng cơ sở tri thức thể thao

2. Nhận dạng, trích rút và xác định lớp ngữ nghĩa cho thực thể có tên

BKSport Ontology 3. Trích rút ngữ nghĩa từ tin tức Ngữ nghĩa bộ ba đơn giản Ngữ nghĩa về tuyên bố gián tiếp

Ngữ nghĩa quan hệ chuyển nhượng

4. Sinh chú thích ngữ nghĩa ở dạng biểu diễn hình thức hóa (RDF/OWL) Ngữ nghĩa về

thực thể quan trọng

Hình 2.2Quá trình chú thích ng ữ nghĩa

Phương pháp đượ chia làm 5 bước c, mỗi bước c th ụ ể được gi i thích trong các ti u m c t ả ể ụ ừ 2.4.2 n 2.4.6 không k đế ể giai đoạn thu th p t ng tin t c t nhi u ngu n trên World Wide ậ ự độ ứ ừ ề ồ Web và lưu trữ trong cơ sở ữ ệ d li u.

• Bước đầu tiên là thi t k và xây d ng m t ontology mi n ng d ng mà luế ế ự ộ ề ứ ụ ận án đề ậ c p t ới.

• Xây d ng mự ột cơ sở tri th c v ứ ềthể thao d a trên các t vự ừ ựng trong ontology.

• Xác định các th c th ự ể có tên, xác định l p ng ớ ữ nghĩa cho các thực th ể này. Đối với bước này, luận án đã đề xu t mấ ột phương pháp cho phép xác định các th c th có tên thuự ể ộc lĩnh vực th thao có hi u qu ể ệ ả cao hơn các nghiên cứu liên quan.

• Phát hi n trích rút ng ệ – ữ nghĩa từ tin t c th thao. Th c chứ ể ự ất bước này bao g m m t s ồ ộ ố phương pháp cụ th ể được luận án đề xu t nh m sinh ra nh ng ng ấ ằ ữ ữ nghĩa khác nhau trong tin t c th ứ ể thao. Các phương pháp này được xây d ng trong quá trình thự ực hiện luận án, và lần lượt công b qua các công trình khác nhau. Nh ng ng ố ữ ữ nghĩa mà luận án phát hi n khác bi t v i ệ ệ ớ các phương pháp sinh chú thích ngữ nghĩa đề ậ c p trong các nghiên c u liên quan. Nh ng ng ứ ữ ữ nghĩa mới được lu n án ậ đưa cra ụ ể th là:

➢ Ngữ nghĩa ộ ba đơn giả – ễ ảb n di n t các hoạt động, s ki n di n ra trong tin t c. ự ệ ễ ứ

➢ Ngữ nghĩa về tuyên b gián ti p. ố ế

➢ Ngữ nghĩa về ch quan tr ng mà tin tủ đề ọ ức đề ậ c p.

➢ Ngữ nghĩa về các hoạt động chuyển nhượng trong tin t c th thao. ứ ể

Các ti u mể ục dưới đây sẽ trình bày cụ ể th n i dung chi ti t cộ ế ủa các bước trong phương pháp sinh chú thích ng ữ nghĩa cho tin tức th thao mà luể ận án đề xu ất.

2.3.2 Xây dựng Ontology cho h ệthống

Đầu tiên, có th khể ẳng định vi c xây d ng m– ệ ự ột ontology định nghĩa một cách tường minh và hình thức các thành t t vố ừ ựng đóng vai trò làm nề ản t ng bi u di n tri th c trong mi n ng ể ễ ứ ề ứ d ng th thao là m t n i dung quan tr ng và liên quan t i t t c các nghiên c u c a lu n án. ụ ể ộ ộ ọ ớ ấ ả ứ ủ ậ

Các phương pháp tạo chú thích ngữ nghĩa

Phương pháp luận Grüninger và Fox

Kho dữ liệu ngữ nghĩa