SINH CHÚ THÍCH NGỮ NGHĨA CHO TIN TỨC THỂ THAO

Một phần của tài liệu Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa767 (Trang 46 - 48)

TIN TỨC THỂ THAO

Chương này trình bày những nghiên c u v sinh chú thích ng ứ ề ữ nghĩa cho tin tức th thao, ể đây là nhi m v nghiên cệ ụ ứu đầu tiên c a lu n án. Sau trình bày ủ ậ cơ sở lý thuy t c a bài toán ế ủ sinh chú thích ng ữ nghĩa cho tài liệu và các nghiên c u liên quan, ứ luận án đề xu t một phương ấ pháp m i cho phép t o ra các chú thích v tin t c th thao v i các ng ớ ạ ề ứ ể ớ ữ nghĩa đặc thù và c n ầ thi t cho h ế ệ thống t ng h p tin t c. ổ ợ ứ Phương pháp cải ti n hi u qu c a tác v ế ệ ả ủ ụ xác định thực th ể có tên trong mi n th thao, s dề ể ử ụng ontology và cơ sở tri thức. Trên cơ sở đó, luận án đề xuất các thu t toán sinh chú thích ng ậ ữ nghĩa cho các tin tức th thao (c ể ụ thể là tin tức bóng đá) dựa trên vi c s d ng các lu t (m u) trích ch n. M t s ệ ử ụ ậ ẫ ọ ộ ố thực nghiệm được tiến hành cho phép đánh giá nh ng hi u qu ữ ệ ả đạt được trong các th nghiử ệm ở ừ t ng nghiên c u thành ph n. ứ ầ

2.1 Đặ ấn đềt v

Tìm kiếm thông tin chính xác, nâng cao trải nghiệm duyệt đọc tin, tổ chức tin tức một cách phù hợp và phân loại chúng theo các chủ đề là những mục tiêu mà các nhà phát triển các hệ thống tin tức đang hướng đến. Đó cũng là mục tiêu chung của luận án. Như đã thảo luận ở chương trước, hướng tiếp cận mà luận án lựa chọn hứa hẹn mang lại kết quả khả quan đó là ứng dụng công nghệ Web ngữ nghĩa. Ý tưởng xuyên suốt là xây dựng một mô hình biểu diễn thông tin thống nhất và tường minh để thông tin từ nhiều nguồn khác nhau có thể được diễn đạt theo cách mà máy tính có thể “hiểu” và xử lý hiệu quả.

Trong định nghĩa của Tim Berners-Lee về Web ngữ nghĩa, có một phần đề cập trực tiếp đến siêu dữ liệu, chú thích ngữ nghĩa. Có thể thấy rằng, chú thích ngữ nghĩa là một thành phần không thể thiếu trong mọi hệ thống thông tin và phần mềm dựa trên công nghệ ngữ nghĩa. Một trong những tư tưởng quan trọng trong tiếp cận nghiên cứu của luận án là mô hình hóa các tin tức thể thao bằng chính các chú thích ngữ nghĩa của các tin tức đó. Mô hình biểu diễn thông tin có ngữ nghĩa sẽ giúp cho máy tính hiểu được một số ý nghĩa hoặc ngữ cảnh của tin tức. Do đó, để đạt được mục tiêu nghiên cứu của luận án, cần phải giải quyết được bài toán: làm thế nào tạo ra chú thích ngữ nghĩa cho các tin tức thể thao.

Tạo ra các chú thích ngữ nghĩa cho văn bản hay các tài nguyên eb là một vấn đề ngW hiên cứu quan trọng trong lĩnh vực Web ngữ nghĩa. Đã có nhiều phương pháp được đề xuất, nhưng nhìn chung có thể phân chia vào ba loại: phương pháp thủ công, bán tự động và tự động. Tuy nhiên, chú thích ngữ nghĩa như định nghĩa về nó, bao hàm mô tả “ngữ nghĩa” mà người tạo ra nó muốn mô tả về chủ thể, do đó có những yêu cầu về nội dung biểu đạt phụ thuộc vào lĩnh vực ứng dụng. Ví dụ, với tin tức về một trận đấu bóng đá, ngữ nghĩa quan trọng thường là kết quả của trận đấu hay cầu thủ ghi bàn. Với các tin tức hậu trường, người đọc sẽ quan tâm và muốn tìm kiếm thông tin về tuyên bố hay thái độ của các nhân vật thể thao.

Các nghiên cứu liên quan, với phạm vi áp dụng là lĩnh vực chung hay một vài lĩnh vực cụ thể khác, mới giải quyết một phần yêu cầu của chú thích ngữ nghĩa cho tin tức thể thao. Do đó, luận án tập trung giải quyết thách thức đang tồn tại, nghiên cứu các phương pháp tạo ra những chú thích có khả năng chứa đựng một số ngữ nghĩa đặc thù, cần thiết và là cơ sở cho việc xây dựng các tính năng tìm kiếm, gợi ý tin tức hiệu quả.

Dựa trên cơ sở các công nghệ Web ngữ nghĩa sẵn có, tác giả thấy rằng có thể mô hình hóa các tin tức thể thao bằng chính các chú thích ngữ nghĩa của các tin tức đó. Mô hình biểu diễn thông tin có ngữ nghĩa sẽ giúp cho máy tính hiểu được một số ý nghĩa hoặc ngữ cảnh của tin tức.

Với mục đích trên, chương này có bố cục như sau: sau mục .1 Đặt vấn đề, trong mục 2 2.2, tác giả trình bày một số khái niệm quan trọng về chú thích ngữ nghĩa cho tài liệu và một số nghiên cứu liên quan. Mục 2.3 trình bày nội dung chính tổng hợp những đặc điểm chung phương pháp sinh chú thích ngữ nghĩa trong các nghiên cứu, cũng như giải thích những đóng góp riêng

36

trong kết quả của từng nghiên cứu. Mục .4 giới thiệu kết quả thu được. Mục .5 là kết luận 2 2 chương và các công việc trong tương lai.

2.2 Chú thích ng ữ nghĩa cho tài li u

Chú thích ng ữ nghĩa là một tiền đề cơ bản để thực hi n các x lý có ng ệ ử ữ nghĩa ví dụ, tìm ki m ngế ữnghĩa. Chú thích ngữnghĩa có quan h v i nhi u b i cệ ớ ề ố ảnh ng d ng khác nhau, ví d ứ ụ ụ như quản lý tri th c y t , nông nghi p, truyứ ế ệ ền thông, thương mại điệ ửn t . Nhi u h thề ệ ống được thực hi n trên quy mô lệ ớn đã triển khai và s d ng nó. ử ụ

2.2.1 Khái nim

Thu t ng ậ ữ“chú thích” có th bi u th c quá trình chú thích và k t qu cể ể ị ả ế ả ủa quá trình đó. Khi chúng ta nói "chú thích", chúng ta ám ch n k t qu . Chú thích là g n m t s d ỉ đế ế ả ắ ộ ố ữliệu vào một s d u khác. Nó thi t l p nên, trong m t b i cố ữliệ ế ậ ộ ố ảnh nào đó, một quan h ệ được định ki u giể ữa d ữliệu được chú thích và d u chú thích. ữliệ

Theo [111] có thể phân biệt ba loại chú thích: a) Chú thích phi hình thức

b) Chú thích hình thức: định nghĩa một cách hình thức các thành phần và vì vậy máy có thể hiểu được chúng, và

c) Chú thích dựa trên ontology: định nghĩa hình thức các thành phần và chỉ sử dụng các thuật ngữ ontology mà được mọi người hiểu và chấp nhận.

Trong phạm vi của luận án này, tác giả quan tâm đến chú thích dựa trên ontology và tập trung vào chú thích ngữ nghĩa cho tài liệu.

Khi phân tích khái niệm “chú thích ngữ nghĩa”. Có nhi u cách hi u về ể ề chú thích ng ữ nghĩa tùy theo từng góc độ:

Ở góc độ hành động, chú thích ng ữ nghĩa cho tài liệ đượu c hi u là quy trình t o ra các mô ể ạ t ng ả ữ nghĩa của tài li u, nó chuyệ ển đổi các c u trúc cú pháp trong tài li u thành c u trúc tri ấ ệ ấ thức. Trong quá trình này, các th c th ự ể trong văn bản được liên k t t i mô t ng ế ớ ả ữ nghĩa của chúng thông qua vi c k t n i mô hình ng ệ ế ố ữ nghĩa với ngôn ng t nhiên. ữ ự

Ở góc độ ế k t quả, chú thích ng ữ nghĩa cho tài liệu sinh ra các siêu d u c ữliệ ụthể và lược đồ s dử ụng để ạo điề t u ki n cho tìm ki m d a trên khái ni m, suy lu n v các tài nguyên Web và ệ ế ự ệ ậ ề trực quan hóa thông tin d a trên ontology. ự

Ở góc độ ỹ k thu tậ, chú thích ng ữ nghĩa là chú thích v ề các đề ập đế c n các khái ni m cệ ủa ontology (như lớp, th hi n, thu c tính, quan h ) có ể ệ ộ ệ ở trong văn bản, d a vào siêu d liự ữ ệu đề cập đến các URI c a chúng trong ontology. C ủ ụ thể hơn, chú thích ngữ nghĩa là gắn m t thộ ực thể (m t chu i ký t , m t câu, mộ ỗ ự ộ ột đoạn, m t ph n c a m t b n ghi ho c m t tài li u) v i m t ộ ầ ủ ộ ả ặ ộ ệ ớ ộ siêu d u mà ng ữ liệ ữ nghĩa của nó được định nghĩa trong một ontology. Chú thích ng ữ nghĩa giúp các h ệthống d a trên Web truy n thự ề ống được m r ng thành các h ở ộ ệthống dựa Web ng ữ nghĩa thông qua vi c g n thêm ng ệ ắ ữ nghĩa vào các thông tin có sẵn trong Web truy n thề ống. Để vi c chú thích ng ệ ữ nghĩa được phù h p và chu n xác cợ ẩ ần đến m t ontology. T p các khái niộ ậ ệm, thu c tính, quan h ộ ệ được định nghĩa trước trong ontology làm cho chú thích ng ữ nghĩa trở thành s diự ễn đạt m t góc nhìn tộ ốt hơn về ấ c u trúc và n i dung tài li u, lo i b s nh p nh ng v ng ộ ệ ạ ỏ ự ậ ằ ề ữ nghĩa của tri th c c n mô t . ứ ầ ả

37

Một phần của tài liệu Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa767 (Trang 46 - 48)

Tải bản đầy đủ (PDF)

(130 trang)