Phương pháp đượ chia làm 5 bước c, mỗi bước c th ụ ể được gi i thích trong các ti u m c t ả ể ụ ừ 2.4.2 n 2.4.6 không k đế ể giai đoạn thu th p t ng tin t c t nhi u ngu n trên World Wide ậ ự độ ứ ừ ề ồ Web và lưu trữ trong cơ sở ữ ệ d li u.
• Bước đầu tiên là thi t k và xây d ng m t ontology mi n ng d ng mà luế ế ự ộ ề ứ ụ ận án đề ậ c p t ới.
• Xây d ng mự ột cơ sở tri th c v ứ ềthể thao d a trên các t vự ừ ựng trong ontology.
• Xác định các th c th ự ể có tên, xác định l p ng ớ ữ nghĩa cho các thực th ể này. Đối với bước này, luận án đã đề xu t mấ ột phương pháp cho phép xác định các th c th có tên thuự ể ộc lĩnh vực th thao có hi u qu ể ệ ả cao hơn các nghiên cứu liên quan.
• Phát hi n trích rút ng ệ – ữ nghĩa từ tin t c th thao. Th c chứ ể ự ất bước này bao g m m t s ồ ộ ố phương pháp cụ th ể được luận án đề xu t nh m sinh ra nh ng ng ấ ằ ữ ữ nghĩa khác nhau trong tin t c th ứ ể thao. Các phương pháp này được xây d ng trong quá trình thự ực hiện luận án, và lần lượt công b qua các công trình khác nhau. Nh ng ng ố ữ ữ nghĩa mà luận án phát hi n khác bi t v i ệ ệ ớ các phương pháp sinh chú thích ngữ nghĩa đề ậ c p trong các nghiên c u liên quan. Nh ng ng ứ ữ ữ nghĩa mới được lu n án ậ đưa cra ụ ể th là:
➢ Ngữ nghĩa ộ ba đơn giả – ễ ảb n di n t các hoạt động, s ki n di n ra trong tin t c. ự ệ ễ ứ
➢ Ngữ nghĩa về tuyên b gián ti p. ố ế
➢ Ngữ nghĩa về ch quan tr ng mà tin tủ đề ọ ức đề ậ c p.
➢ Ngữ nghĩa về các hoạt động chuyển nhượng trong tin t c th thao. ứ ể
Các ti u mể ục dưới đây sẽ trình bày cụ ể th n i dung chi ti t cộ ế ủa các bước trong phương pháp sinh chú thích ng ữ nghĩa cho tin tức th thao mà luể ận án đề xu ất.
41
2.3.2 Xây dựng Ontology cho h ệthống
Đầu tiên, có th khể ẳng định vi c xây d ng m– ệ ự ột ontology định nghĩa một cách tường minh và hình thức các thành t t vố ừ ựng đóng vai trò làm nề ản t ng bi u di n tri th c trong mi n ng ể ễ ứ ề ứ d ng th thao là m t n i dung quan tr ng và liên quan t i t t c các nghiên c u c a lu n án. ụ ể ộ ộ ọ ớ ấ ả ứ ủ ậ Ontology liên quan đến vi c t o ra chú thích ng ệ ạ ữ nghĩa lẫn sinh ra các truy v n tìm ki m ng ấ ế ữ nghĩa, ảnh hưởng t i thu t toán g i ý tin t c. Vì v y, xây d ng ontology thớ ậ ợ ứ ậ ự ể thao không ph i là ả m t tác v ộ ụ chỉ ằ n m trong quy trình sinh chú thích ng ữ nghĩa. Tuy nhiên, nội dung và cách ontology th ể thao BKSport được xây d ng có ự ảnh hưởng l n t i k t qu c a các thu t toán sinh ớ ớ ế ả ủ ậ chú thích ng ữ nghĩa mà luận án đề xu ất.Đó là lý do nội dung này được tác gi quyả ết định trình bày trong chương 2.
Năm 1993 [62] Gruber đã định nghĩa rằng “ontology là một đặc t rõ ràng c a mả ủ ột khái niệm hóa (được chia sẻ)”. Các nguyên tắc cơ bản được định nghĩa bởi Gruber để thi t k và xây d ng ế ế ự ontology là như sau:
• Rõ ràng và khách quan: các thu t ng cậ ữ ần được định nghĩa bằng ngôn ng t nhiên s ữ ự ử d ng ontology m t cách rõ ràng và khách quan. ụ ộ
• Tính toàn vẹn: định nghĩa phải đầy đủ và bi u th ể ị ý nghĩa của m t thu t ng c ộ ậ ữ ụthể.
• Tính nh t quán: không có mâu thu n gi a các k t lu n phát sinh t các tri th c lý luấ ẫ ữ ế ậ ừ ứ ận và các ng ữ nghĩa của thu t ng . ậ ữ
• Tối đa khả năng mở ộ r ng m t chi u: không c n thi t ph i sộ ề ầ ế ả ửa đổi các thu t ng hi n ậ ữ ệ hành khi chúng ta thêm các thu t ng khái quát ho c c ậ ữ ặ ụthể vào trong ontology.
• T i thi u các ràng bu c: các ràng buố ể ộ ộc trong mô hình nên được gi i h n càng ít càng t ớ ạ ốt. Ontology BKSport được xây d ng trong lu n án tuân th các nguyên t c cự ậ ủ ắ ủa Gruber. Đồng thời, để ở ộ m r ng n n t ng KIM và th c hi n ề ả ự ệ xác định các th c th ự ể có tên trong lĩnh vực th ể thao, ontology này cũng được thi t k ế ế để tương thích với ontology PROTON.
2.3.2.1 Ontology PROTON
Ontology PROTON c a n n tủ ề ảng KIM được c i ti n t ả ế ừ ontology KIMO. PROTON được mã hóa b ng ngôn ng OWL Lite m nh m và tiên tiằ ữ ạ ẽ ến hơn ngôn ngữ RDFS của KIMO. N n t ng ề ả KIM s dử ụng ontology PROTON để chú thích ng ữ nghĩa và tìm kiếm đa mô hình cho các tài liệu, d ữliệu, và tri th c. Ontology PROTON c a n n tứ ủ ề ảng KIM được trình bày trong [36].
PROTON ch a kho ng 250 l p và 100 thu c tính, cung c p các khái ni m khái quát c n ứ ả ớ ộ ấ ệ ầ thi t cho m t lo t các tác v , bao g m chú thích ng ế ộ ạ ụ ồ ữ nghĩa, lập ch m c và truy h i tài li u. ỉ ụ ồ ệ PROTON là m t ontology có nhộ ững ưu điểm n i bổ ật sau: độ ậc l p mi n, bao ph t t các thề ủ ố ực thể có tên v ề con người, t chổ ức, địa điểm, con số, địa chỉ, ngày tháng năm (cơ sở tri th c c a ứ ủ nó có kho ng 200.000 mô t ả ảthực thể).
PROTON đượ ổc t ch c theo ba c p v i b n mô-ứ ấ ớ ố đun độ ập như ởc l hình 2.3 dưới đây. Mô- đun ontology System chứa các khái niệm cơ bản và trừu tượng nhất. Sau đó, những ontology Top, Upper, và KM (knowledge management) được nâng c p dấ ựa trên nó để ạ t o ra ki n trúc ế mô-đun đặc biệt và đặc trưng của PROTON.
42