.2 Quá trình chú thích ngữ nghĩa

Một phần của tài liệu Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa767 (Trang 51 - 53)

Phương pháp đượ chia làm 5 bước c, mỗi bước c th ụ ể được gi i thích trong các ti u m c t ả ể ụ ừ 2.4.2 n 2.4.6 không k đế ể giai đoạn thu th p t ng tin t c t nhi u ngu n trên World Wide ậ ự độ ứ ừ ề ồ Web và lưu trữ trong cơ sở ữ ệ d li u.

• Bước đầu tiên là thi t k và xây d ng m t ontology mi n ng d ng mà luế ế ự ộ ề ứ ụ ận án đề ậ c p t ới.

• Xây d ng mự ột cơ sở tri th c v ứ ềthể thao d a trên các t vự ừ ựng trong ontology.

• Xác định các th c th ự ể có tên, xác định l p ng ớ ữ nghĩa cho các thực th ể này. Đối với bước này, luận án đã đề xu t mấ ột phương pháp cho phép xác định các th c th có tên thuự ể ộc lĩnh vực th thao có hi u qu ể ệ ả cao hơn các nghiên cứu liên quan.

• Phát hi n trích rút ng ệ – ữ nghĩa từ tin t c th thao. Th c chứ ể ự ất bước này bao g m m t s ồ ộ ố phương pháp cụ th ể được luận án đề xu t nh m sinh ra nh ng ng ấ ằ ữ ữ nghĩa khác nhau trong tin t c th ứ ể thao. Các phương pháp này được xây d ng trong quá trình thự ực hiện luận án, và lần lượt công b qua các công trình khác nhau. Nh ng ng ố ữ ữ nghĩa mà luận án phát hi n khác bi t v i ệ ệ ớ các phương pháp sinh chú thích ngữ nghĩa đề ậ c p trong các nghiên c u liên quan. Nh ng ng ứ ữ ữ nghĩa mới được lu n án ậ đưa cra ụ ể th là:

➢ Ngữ nghĩa ộ ba đơn giả – ễ ảb n di n t các hoạt động, s ki n di n ra trong tin t c. ự ệ ễ ứ

➢ Ngữ nghĩa về tuyên b gián ti p. ố ế

➢ Ngữ nghĩa về ch quan tr ng mà tin tủ đề ọ ức đề ậ c p.

➢ Ngữ nghĩa về các hoạt động chuyển nhượng trong tin t c th thao. ứ ể

Các ti u mể ục dưới đây sẽ trình bày cụ ể th n i dung chi ti t cộ ế ủa các bước trong phương pháp sinh chú thích ng ữ nghĩa cho tin tức th thao mà luể ận án đề xu ất.

41

2.3.2 Xây dng Ontology cho h thng

Đầu tiên, có th khể ẳng định vi c xây d ng m– ệ ự ột ontology định nghĩa một cách tường minh và hình thức các thành t t vố ừ ựng đóng vai trò làm nề ản t ng bi u di n tri th c trong mi n ng ể ễ ứ ề ứ d ng th thao là m t n i dung quan tr ng và liên quan t i t t c các nghiên c u c a lu n án. ụ ể ộ ộ ọ ớ ấ ả ứ ủ ậ Ontology liên quan đến vi c t o ra chú thích ng ệ ạ ữ nghĩa lẫn sinh ra các truy v n tìm ki m ng ấ ế ữ nghĩa, ảnh hưởng t i thu t toán g i ý tin t c. Vì v y, xây d ng ontology thớ ậ ợ ứ ậ ự ể thao không ph i là ả m t tác v ộ ụ chỉ ằ n m trong quy trình sinh chú thích ng ữ nghĩa. Tuy nhiên, nội dung và cách ontology th ể thao BKSport được xây d ng có ự ảnh hưởng l n t i k t qu c a các thu t toán sinh ớ ớ ế ả ủ ậ chú thích ng ữ nghĩa mà luận án đề xu ất.Đó là lý do nội dung này được tác gi quyả ết định trình bày trong chương 2.

Năm 1993 [62] Gruber đã định nghĩa rằng “ontology là một đặc t rõ ràng c a mả ủ ột khái niệm hóa (được chia sẻ)”. Các nguyên tắc cơ bản được định nghĩa bởi Gruber để thi t k và xây d ng ế ế ự ontology là như sau:

• Rõ ràng và khách quan: các thu t ng cậ ữ ần được định nghĩa bằng ngôn ng t nhiên s ữ ự ử d ng ontology m t cách rõ ràng và khách quan. ụ ộ

• Tính toàn vẹn: định nghĩa phải đầy đủ và bi u th ể ị ý nghĩa của m t thu t ng c ộ ậ ữ ụthể.

• Tính nh t quán: không có mâu thu n gi a các k t lu n phát sinh t các tri th c lý luấ ẫ ữ ế ậ ừ ứ ận và các ng ữ nghĩa của thu t ng . ậ ữ

• Tối đa khả năng mở ộ r ng m t chi u: không c n thi t ph i sộ ề ầ ế ả ửa đổi các thu t ng hi n ậ ữ ệ hành khi chúng ta thêm các thu t ng khái quát ho c c ậ ữ ặ ụthể vào trong ontology.

• T i thi u các ràng bu c: các ràng buố ể ộ ộc trong mô hình nên được gi i h n càng ít càng t ớ ạ ốt. Ontology BKSport được xây d ng trong lu n án tuân th các nguyên t c cự ậ ủ ắ ủa Gruber. Đồng thời, để ở ộ m r ng n n t ng KIM và th c hi n ề ả ự ệ xác định các th c th ự ể có tên trong lĩnh vực th ể thao, ontology này cũng được thi t k ế ế để tương thích với ontology PROTON.

2.3.2.1 Ontology PROTON

Ontology PROTON c a n n tủ ề ảng KIM được c i ti n t ả ế ừ ontology KIMO. PROTON được mã hóa b ng ngôn ng OWL Lite m nh m và tiên tiằ ữ ạ ẽ ến hơn ngôn ngữ RDFS của KIMO. N n t ng ề ả KIM s dử ụng ontology PROTON để chú thích ng ữ nghĩa và tìm kiếm đa mô hình cho các tài liệu, d ữliệu, và tri th c. Ontology PROTON c a n n tứ ủ ề ảng KIM được trình bày trong [36].

PROTON ch a kho ng 250 l p và 100 thu c tính, cung c p các khái ni m khái quát c n ứ ả ớ ộ ấ ệ ầ thi t cho m t lo t các tác v , bao g m chú thích ng ế ộ ạ ụ ồ ữ nghĩa, lập ch m c và truy h i tài li u. ỉ ụ ồ ệ PROTON là m t ontology có nhộ ững ưu điểm n i bổ ật sau: độ ậc l p mi n, bao ph t t các thề ủ ố ực thể có tên v ề con người, t chổ ức, địa điểm, con số, địa chỉ, ngày tháng năm (cơ sở tri th c c a ứ ủ nó có kho ng 200.000 mô t ả ảthực thể).

PROTON đượ ổc t ch c theo ba c p v i b n mô-ứ ấ ớ ố đun độ ập như ởc l hình 2.3 dưới đây. Mô- đun ontology System chứa các khái niệm cơ bản và trừu tượng nhất. Sau đó, những ontology Top, Upper, và KM (knowledge management) được nâng c p dấ ựa trên nó để ạ t o ra ki n trúc ế mô-đun đặc biệt và đặc trưng của PROTON.

42

Một phần của tài liệu Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa767 (Trang 51 - 53)

Tải bản đầy đủ (PDF)

(130 trang)