Luận án TS: Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa

Để khắc phục những hạn chế trên, trong tiểu mục 4.3.1.1.a) dưới đây, luận án trình bày phương pháp để tính trọng số quan hệ giữa các thực thể dựa vào ontology và cơ sở tri thức. Tiếp [r]

(1)

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

NGUYỄN QUANG MINH

MỘT TIẾP CẬN XÂY DỰNG HỆ THỐNG

TỔNG HỢP TIN TỨC THỂ THAO

DỰA TRÊN WEB NGỮ NGHĨA

LUẬN ÁN TIẾN SĨ MẠNG MÁY TÍNH VÀ TRUYỀN THƠNG DỮ LIỆU

(2)

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

NGUYỄN QUANG MINH

MỘT TIẾP CẬN XÂY DỰNG HỆ THỐNG

TỔNG HỢP TIN TỨC THỂ THAO

NGÀNH: MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG DỮ LIỆU MÃ SỐ: 9480102

LUẬN ÁN TIẾN SĨ MẠNG MÁY TÍNH

VÀ TRUYỀN THƠNG DỮ LIỆU

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1.

PGS TS NGÔ HỒNG SƠN

PGS TS CAO TUẤN DŨNG

(3)

i

LỜI CAM ĐOAN

Tôi xin cam đoan cơng trình nghiên cứu khoa học riêng Các

số liệu, kết công bố với tác giả khác đồng ý đồng

tác giả trước đưa vào luận án Trong q trình làm luận án, tơi kế thừa thành

tựu nhà khoa học với trân trọng biết ơn Các số liệu, kết trình

bày luận án trung thực chưa tác giả khác công bố

Hà Nội, ngày tháng năm 2019

GIẢNG VIÊN HƯỚNG DẪN

TÁC GIẢ LUẬN ÁN

PGS TS Ngô Hồng Sơn

Nguyễn Quang Minh

(4)

ii

LỜI CẢM ƠN

Tác giả xin bày tỏ lòng biết ơn sâu sắc tới Thầy hướng dẫn PGS.TS Ngô

Hồng Sơn PGS.TS Cao Tuấn Dũng, người Thầy hướng dẫn giúp

đỡ tác giả nhiều học tập, nghiên cứu khoa học, thực luận án tiến

sĩ Các Thầy ln khích lệ, động viên cho tác giả lời khuyên bổ ích,

đặc biệt Thầy chia sẻ thời gian quý báu để giúp tác giả hồn thành

Luận án

Bên cạnh đó, tác giả xin gửi lời cảm ơn chân thành tới Ban giám hiệu

trường Đại học Bách Khoa Hà Nội, Thầy/Cô Viện Công nghệ thông tin

và Truyền thông, Thầy/Cô Bộ môn Truyền thông mạng máy tính, lãnh

đạo chuyên viên Phòng Đào tạo – Bộ phận đào tạo sau đại học tạo

điều kiện, hỗ trợ giúp đỡ tác giả học tập, nghiên cứu công

việc suốt thời gian thực Luận án Sự tận tình họ khiến tác giả vơ

xúc động biết ơn nhiều

Tác giả xin chân thành cảm ơn Thầy/Cô phản biện, Thầy/Cô

Hội đồng cấp trao đổi cho tác giả nhiều dẫn quý báu, giúp cho Luận

án tác giả hồn thiện, trình bày khoa học logic

Tác giả xin chân thành cảm ơn đến nhóm nghiên cứu gồm bạn: Nguyễn

Hồng Cơng, Phan Thanh Hiền, Nguyễn Thanh Tâm tác giả thực

một số nội dung Luận án

Tác giả xin bày tỏ lòng biết ơn chân thành tới ban giám đốc Viện Điện

tử-Viễn thơng tạo điều kiện cho tác giả có điều kiện vừa học tập vừa công tác,

cảm ơn đồng nghiệp môn Điện tử - Kỹ thuật máy tính gánh vác

phần cơng việc giảng dạy suốt thời gian tác giả thực Luận án

(5)

iii

DANH MỤC CÁC TỪ VIẾT TẮT

STT

Từ viết tắt

Dạng đầy đủ

Diễn giải

Engineering

Kiến trúc chung cho kỹ thuật văn

4 HTML Hyper Text Markup Language Ngôn ngữ đánh dấu siêu văn

5 HTTP Hyper Text Transfer Protocol Giao thức truyền tải siêu văn

6 IRI Internationalized Resource Identifier

Định danh tài nguyên quốc tế hóa

7 JAPE Java Annotation Patterns Engine Cơng cụ tạo mơ hình thích Java

8 KBE Knowledge Base Enrichment Làm giàu sở tri thức KIM Knowledge and Information

Management

Quản lý tri thức thơng tin

10 NEE Named Entity Extraction Trích rút thực thể có tên 11 NER Named Entity Recognition Nhận dạng thực thể có tên 12 OKBC Open Knowledge Base

Connectivity

Kết nối sở tri thức mở

13 OWL Web Ontology Language Ngôn ngữ ontology web

14 QA Question Answering Hỏi đáp

15 RDF Resource Description Framework

Khung mô tả tài nguyên

16 RDFS RDF Schema Lược đồ RDF

17 RIF Rule Interchange Format Định dạng trao đổi luật 18 SPARQL SPARQL Protocol and RDF

Query Language

Giao thức SPARQL ngôn ngữ truy vấn RDF

19 TF-IDF Term Frequency-Inverse Document Frequency

Tần số xuất từ văn – Tần số nghịch từ tập văn

20 URI Uniform Resource Identifier Định danh tài nguyên thống

(6)

iv

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

DANH MỤC CÁC TỪ VIẾT TẮT iii

MỤC LỤC iv

DANH MỤC CÁC HÌNH VẼ viii

DANH MỤC CÁC BẢNG ix

MỞ ĐẦU

CHƯƠNG KIẾN THỨC NỀN TẢNG VÀ TIẾP CẬN PHÁT TRIỂN HỆ THỐNG TIN TỨC THỂ THAO DỰA TRÊN WEB NGỮ NGHĨA

1.1 Giới thiệu Web ngữ nghĩa

1.1.1 Nguồn gốc Web ngữ nghĩa

1.1.2 Khái niệm Web ngữ nghĩa

1.1.3 Kiến trúc Web ngữ nghĩa

1.2 Ontology 10

1.2.1 Định nghĩa 11

1.2.2 Các lĩnh vực ứng dụng vai trò ontology 11

1.2.3 Các phương pháp luận phát triển ontology 12

1.2.3.1 Phương pháp luận Methontology 13

1.2.3.2 Phương pháp luận Uschold King 13

1.2.3.3 Phương pháp luận Grüninger Fox 14

1.2.4 Các công cụ phát triển ontology 15

1.3 Ngôn ngữ biểu diễn ontology liệu ngữ nghĩa 15

1.3.1 XML 15

1.3.2 RDF 16

1.3.2.1 Các khái niệm cú pháp trừu tượng RDF 16

1.3.2.2 Sử dụng URI cho đối tượng giới thực 17

1.3.2.3 Phân lớp tường minh tài nguyên 17

1.3.2.4 Tài nguyên URI, nút trắng, giá trị 18

1.3.3 RDFS (RDF SCHEMA) 18

1.3.3.1 Các lớp thuộc tính 18

1.3.3.2 Miền áp dụng phạm vi giá trị thuộc tính (Domain and Range of Properties) 20

1.3.3.3 Hệ thống kiểu (Type System) 20

1.3.4 OWL (Web Ontology Language) 20

1.3.4.1 Tiên đề luật suy diễn kéo theo 21

1.3.4.2 Các tính OWL 21

(7)

v

1.4 Tìm kiếm ngữ nghĩa 22

1.4.1 Các ngơn ngữ truy vấn RDF 22

1.4.2 SPARQL 23

1.4.2.1 Truy vấn SELECT…WHERE 23

1.4.2.2 Truy vấn ASK 23

1.5 Kho liệu ngữ nghĩa mở 24

1.6 Một số lĩnh vực ứng dụng Web ngữ nghĩa 25

1.6.1 Thương mại điện tử 25

1.6.2 Chăm sóc sức khỏe khoa học đời sống (HCLS) 25

1.6.3 Chính phủ điện tử 25

1.6.4 E-Learning 26

1.7 Một số nghiên cứu Web ngữ nghĩa tiêu biểu 26

1.7.1 Swoogle 26

1.7.2 Dự án ARTEMIS 27

1.7.3 Dartgrid 27

1.7.4 Kho nội dung Web ngữ nghĩa cho nghiên cứu lâm sàng 28

1.7.5 Ứng dụng Web ngữ nghĩa lĩnh vực nông nghiệp tổ chức nông-lương thực Liên hiệp quốc (FAO) 28

1.8 Website cổng thông tin tin tức có ngữ nghĩa 28

1.8.1 Dự án SWEPT 29

1.8.2 Dự án ARKive 30

1.8.3 Cổng thông tin Esperonto 30

1.8.4 Mondeca ITM 30

1.9 Ứng dụng Web ngữ nghĩa lĩnh vực thể thao 30

1.10 Tiếp cận Web ngữ nghĩa xây dựng hệ thống tin tức thể thao 31

1.11 Mơ hình kiến trúc hệ thống tổng hợp tin tức thể thao 31

1.11.1 Crawler 32

1.11.2 Ontology thể thao 33

1.11.3 Sinh thích ngữ nghĩa 33

1.11.4 Cổng thông tin ngữ nghĩa 34

1.11.5 Mơ tơ suy diễn tìm kiếm ngữ nghĩa 34

1.11.6 Kho liệu ngữ nghĩa 34

1.12 Kết luận chương 35

CHƯƠNG SINH CHÚ THÍCH NGỮ NGHĨA CHO TIN TỨC THỂ THAO 36

2.1 Đặt vấn đề 36

2.2 Chú thích ngữ nghĩa cho tài liệu 37

2.2.1 Khái niệm 37

2.2.2 Các phương pháp tạo thích ngữ nghĩa 38

(8)

vi

2.3 Một phương pháp sinh thích ngữ nghĩa cho tin tức thể thao dựa ontology

luật trích chọn 40

2.3.1 Tổng quan phương pháp đề xuất 40

2.3.2 Xây dựng Ontology cho hệ thống 42

2.3.2.1 Ontology PROTON 42

2.3.2.2 Ontology thể thao hãng BBC 47

2.3.2.3 Xây dựng Ontology BKSport 48

2.3.3 Thu thập tiền xử lý tin tức 50

2.3.4 Xây dựng sở tri thức thể thao 50

2.3.5 Nhận dạng, trích rút xác định lớp ngữ nghĩa cho thực thể có tên 51

2.3.5.1 Nhận dạng thực thể có tên tin tức thể thuộc sở tri thức 51

2.3.5.2 Phát bí danh thực thể 52

2.3.5.3 Nhận dạng thực thể mức khái niệm chi tiết 52

2.3.5.4 Cải tiến nhận dạng thực thể có tên dạng rút gọn 53

2.3.5.5 Nhận dạng thực thể tên khác kiểu 53

2.3.6 Trích rút “ngữ nghĩa” từ tin tức 53

2.3.6.1 Các ngữ nghĩa ba đơn giản 53

2.3.6.2 Ngữ nghĩa thực thể quan trọng tin tức 53

2.3.6.3 Chú thích ngữ nghĩa tuyên bố gián tiếp 54

2.3.6.4 Chú thích ngữ nghĩa tin tức chuyển nhượng 56

2.4 Thực nghiệm 60

2.4.1 Nhận dạng thực thể có tên tin tức 61

2.4.2 Trích rút ngữ nghĩa từ tin tức thể thao 65

2.4.3 Đánh giá chung 68

CHƯƠNG MỘT PHƯƠNG PHÁP TRUY VẤN TIN TỨC THỂ THAO VỚI NGÔN NGỮ TỰ NHIÊN 70

3.1 Giới thiệu 70

3.2 Các nghiên cứu liên quan 71

3.3 Phân loại câu hỏi đầu vào cấu trúc truy vấn đầu 74

3.3.1 Phân loại câu hỏi 74

3.3.2 Chú thích truy vấn ngữ nghĩa tin tức thể thao 75

3.4 Phương pháp chuyển đổi câu hỏi ngôn ngữ tự nhiên sang truy vấn SPARQL 76

3.4.1 Tiền xử lý câu hỏi 77

3.4.2 Phân tích cú pháp 77

3.4.3 Biểu diễn ngữ nghĩa cho câu hỏi 79

3.4.3.1 Mơ hình biểu diễn ngữ nghĩa cho câu hỏi 79

3.4.3.2 Chuyển từ cấu trúc ngữ pháp sang biểu diễn ngữ nghĩa 80

(9)

vii

3.4.4.1 Xác định mệnh đề hỏi 85

3.4.4.2 Xây dựng mệnh đề điều kiện – Mệnh đề WHERE 85

3.4.5 Xác định thực thể, khái niệm vị từ 87

3.4.5.1 Nhận dạng lớp 87

3.4.5.2 Nhận dạng thuộc tính 87

3.4.6 Sinh truy vấn SPARQL hoàn chỉnh 88

3.5 Thử nghiệm đánh giá 89

3.5.1 Kịch thử nghiệm kết 89

3.5.2 Nhận xét đánh giá 91

3.5.2.1 Phân tích cú pháp 91

3.5.2.2 Nhận dạng quan hệ phụ thuộc ba 92

3.5.2.3 Nhận dạng khái niệm vị từ 92

3.5.2.4 Xử lý nhãn thời gian 92

3.5.2.5 Một số trường hợp đặc biệt chưa xử lý 92

CHƯƠNG GỢI Ý TIN TỨC DỰA TRÊN NGỮ NGHĨA CHO HỆ THỐNG TỔNG HỢP TIN TỨC THỂ THAO 94

4.1 Giới thiệu 94

4.2 Nghiên cứu liên quan 95

4.3 Độ tương đồng tin 96

4.3.1 Độ tương đồng ngữ nghĩa 96

4.3.1.1 Quan hệ ngữ nghĩa thực thể 96

4.3.1.2 Loại thực thể xuất tin 100

4.3.1.3 Các thích ngữ nghĩa tin 101

4.3.2 Độ tương đồng nội dung 102

4.3.3 Thuật toán gợi ý tin tức với độ tương đồng kết hợp 103

4.4 Cài đặt thử nghiệm đánh giá 104

4.4.1 Kịch thử nghiệm 104

4.4.2 Kết thử nghiệm đánh giá 105

KẾT LUẬN 107

Các kết đạt luận án 107

Hướng phát triển 108

DANH MỤC CÁC CƠNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN 110

(10)

viii

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Kiến trúc Web ngữ nghĩa [59]

Hình 1.2 Ví dụ đồ thị RDF – Tài ngun mơ tả hình elip, ký tự mơ tả hình chữ nhật Cạnh có nhãn URI vị ngữ sử dụng tiền tố khơng gian tên 17

Hình 1.3 Ví dụ minh họa đồ thị RDF nhiều nút 18

Hình 1.4 Định nghĩa FOAF Person phần bảng từ vựng FOAF 19

Hình 1.5 Một phần Dữ Liệu Liên Kết Mở Web, ngày tháng năm 2019 [95] 24

Hình 1.6 Kiến trúc Swoogle [7] 26

Hình 1.7 Kiến trúc tổng thể hệ thống BKSport 32

Hình 2.1 Ví dụ thích ngữ nghĩa 38

Hình 2.2 Quá trình thích ngữ nghĩa 41

Hình 2.3 Các mơ đun ontology PROTON 43

Hình 2.4 Hệ thống phân lớp mô đun PROTON System 43

Hình 2.5 Các thuộc tính mơ đun PROTON System 44

Hình 2.6 Tóm lược mơ đun ontology PROTON Top 45

Hình 2.7 Tóm lược mơ đun ontology PROTON Upper 46

Hình 2.8 Các lớp thuộc tính mơ đun PROTON KM 47

Hình 2.9 Một phần ontology thể thao hãng BBC 47

Hình 2.10 Một phần ontology BKSport 49

Hình 2.11 Trích rút xác định lớp ngữ nghĩa cho thực thể có tên 50

Hình 2.12 Một số ánh xạ từ BKSport đến PROTON 51

Hình 2.13 Nhận dạng thực thể có tên tin tức thể thao thể sở tri thức 52

Hình 2.14 Các thành phần ngơn ngữ tự nhiên mẫu nhận dạng quan hệ chuyển nhượng 56

Hình 2.15 Các mẫu biểu diễn cụm động từ 57

Hình 2.16 Ví dụ kết nhận dạng đại từ 60

Hình 2.17 Giao diện phần mềm sinh thích ngữ nghĩa 62

Hình 2.18 Các thể nhận dạng KIM phương pháp đề xuất 63

Hình 2.19 Chú thích ngữ nghĩa sinh với tin tức hình 2.18 63

Hình 2.20 Các thể nhận dạng KIM phương pháp đề xuất 64

Hình 2.21 Chú thích ngữ nghĩa sinh với tin tức hình 2.20 64

Hình 2.22 Chú thích ngữ nghĩa tuyên bố gián tiếp trích rút 65

Hình 2.23 Ví dụ thích nhận dạng 67

Hình 2.24 Ví dụ thích nhận dạng khơng 67

Hình 2.25 Ví dụ thích khơng nhận dạng 67

Hình 2.26 Các ba ngữ nghĩa trích rút kết đầu 68

Hình 3.1 Phân loại câu truy vấn 75

Hình 3.2 Quy trình chuyển đổi câu hỏi từ ngôn ngữ tự nhiên sang SPARQL 77

Hình 3.3 Ví dụ cấu trúc cụm từ câu 78

Hình 3.4 Quy trình xác định biến truy vấn 80

Hình 3.5 Xác định biến thường ràng buộc quan hệ biến 81

Hình 3.6 Phương pháp kết hợp hai phụ thuộc theo loại thành quan hệ ba 82

Hình 3.7 Quy trình xác định ràng buộc số lượng loại (1) 83

Hình 3.8 Quy trình sinh truy vấn SPARQL trung gian 84

Hình 4.1 Một ví dụ độ tương đồng hai tin dựa vào loại thực thể tin tức 101

(11)

ix

DANH MỤC CÁC BẢNG

Bảng 2.1. Từ khóa cho câu tuyên bố gián tiếp 55

Bảng 2.2. Độ xác (P) độ bao phủ (R) trình trích rút từ 150 tin tức thể thao 61

Bảng 2.3. Kết trích rút thơng tin ngữ nghĩa thực nghiệm 65

Bảng 2.4. Thống kê nhận dạng thực thể có tên ba thực nghiệm 66

Bảng 2.5. Kết bước đầu thực nghiệm nhận dạng quan hệ ngữ nghĩa 66

Bảng 2.6. Cải thiện hiệu nhận dạng quan hệ ngữ nghĩa 68

Bảng 3.1. Mơ hình biểu diễn ngữ nghĩa câu hỏi 79

Bảng 3.2. Một phần tập câu hỏi để đánh giá hệ thống đề xuất 91

(12)

1

MỞ ĐẦU

1.

Đặt vấn đề

Thế kỉ XXI sống thời đại mà khoa học công nghệ ảnh hưởng sâu sắc thay đổi toàn diện sống người Đặc biệt mà giới dần chuyển sang kinh tế tri thức, việc tiếp cận với thơng tin có giá trị trở thành yếu tố quan trọng định thành công cá nhân tổ chức Bên cạnh thơng tin cịn có mục đích phục vụ nhu cầu mở rộng hiểu biết, đời sống tinh thần người, thể rõ tin tức Tin tức loại hình thơng tin mà người tiếp cận hàng ngày hàng Có nhiều nguồn tin tức từ truyền hình, truyền thanh, báo chí truyền thống Web So với nguồn tin khác, Web có ưu điểm vượt trội nhanh, đơn giản, dễ tạo nội dung Hơn nữa, độc giả hoàn toàn chủ động việc lựa chọn thông tin để đọc trang tin điện tử Vì bên cạnh người dùng Web cá nhân, nhiều hãng tin tức, công ty truyền thông lớn sử dụng Web để phát triển, đưa thông tin cập nhật họ tới người dùng Từ dẫn đến Web trở thành nguồn tin tức lớn nhất, phong phú, đa dạng liên tục cập nhật Hơn nữa, phát triển thiết bị cơng nghệ đại máy tính xách tay, máy tính bảng, điện thoại thơng minh giúp cho người dùng tiếp cận tin tức Web dễ dàng, không bị giới hạn không gian, thời gian Kết số lượng người dùng tiếp cận thông tin thông qua Web ngày lớn tin tức Web trở thành xu hướng cho người dùng ngành công nghiệp tin tức đại

Thể thao nói chung, đặc biệt bóng đá nói riêng, lĩnh vực giải trí hấp dẫn, thu hút quan tâm người đọc kết thi đấu, chuyển nhượng, diễn biến trận đấu, cầu thủ, huấn luyện viên… bình luận, lời tuyên bố, phát biểu nhân vật thể thao … giải thi đấu lớn giới hay châu lục Hiện nay, thông tin sẵn có Web Hãng Akamai [1] cho biết lưu lượng internet trung bình World Cup 2014 4.3 Tbps gấp 2.5 lần lưu lượng trung bình Thế vận hội Mùa đơng Sochi 2014 gấp lần lưu lượng trung bình World Cup 2010 [2] Số lượng độc giả truy cập vào trang Web để đọc tin tức thể thao gia tăng nhanh chóng Espn.com chào đón khoảng 13 triệu khách khác thời gian diễn World Cup 2014, tăng 40% so với World Cup 2010 [3] Vào đầu mùa bóng mới, Sky Sports thu hút triệu khách khác truy cập hệ thống tin tức thể thao thiết bị Android iOS [4] Yahoo! Sport đón khoảng 1,6 triệu khách khác ghé thăm hàng ngày [5]

Các website thể thao có nội dung phong phú, đa dạng khổng lồ, khối lượng thông tin khổng lồ làm người đọc phải nhiều thời gian công sức để truy cập tin tức phù hợp Họ phải truy cập vào nhiều trang tin khác để tìm, chọn lọc tin tức thường xuyên phải đọc tin tức trùng lặp không cần thiết trình tìm kiếm Vì hệ thống tổng hợp tin tức xây dựng nhằm giải khó khăn cho người đọc Với vai trò tổng hợp tin tức từ nhiều nguồn website khác lĩnh vực cụ thể đó, hiển thị chúng trang Web, hệ thống ví dụ Google News hay Baomoi, giúp cho người đọc với vài lần truy cập nhận đầy đủ thông tin lĩnh vực quan tâm thay phải truy cập nhiều lần vào website khác

(13)

2

ngơn ngữ tự nhiên Mơ hình hướng dẫn máy tính làm để trình bày thơng tin trình duyệt phục vụ cho người mà khơng hỗ trợ việc hiểu ý nghĩa tin tức

Web ngữ nghĩa [6] mở rộng Web Ý tưởng Web ngữ nghĩa mở rộng nguyên tắc Web áp dụng tài liệu, để chúng hoạt động liệu Công nghệ Web ngữ nghĩa hướng tới phát triển tiêu chuẩn cơng nghệ chung cho phép máy tính hiểu nhiều thơng tin Web hơn, để chúng hỗ trợ tốt việc khám phá thơng tin, tích hợp liệu, tự động hóa nhiệm vụ Ưu điểm công nghệ Web ngữ nghĩa cung cấp giải pháp tảng để tìm kiếm, trích chọn, tổng hợp thơng tin tốt

Đã có nhiều nghiên cứu cho thấy thành công ứng dụng công nghệ Web ngữ nghĩa giải toán tìm kiếm thơng tin [7] [8] [9], hiển thị thơng tin phù hợp ngữ cảnh người dùng [10] tích hợp liệu [11] [12] [13] [14] lĩnh vực khác y tế [14] [8], nông nghiệp [12], thương mại điện tử [15], phủ điện tử [10] , e-Learning [16] … Tuy nhiên chưa có nhiều nghiên cứu mang tính hệ thống việc xây dựng hệ thống tổng hợp tin tức sử dụng tiếp cận

Xác định việc nghiên cứu cải thiện, nâng cao chất lượng tìm kiếm, truy cập tin tức quan tâm hàng đầu, tác giả lựa chọn hướng nghiên cứu ứng dụng cơng nghệ Web ngữ nghĩa Mục tiêu tổng thể giới thiệu giải pháp toàn diện cho việc xây dựng hệ thống tổng hợp tin tức thể thao, lý luận án đặt tên “Mơ hình ngữ nghĩa cho hệ thống tìm kiếm tin tức thể thao”

2.

Mục tiêu luận án

Trên thực tế nay, website tin tức hay hệ thống tổng hợp tin tức dựa việc sử dụng hệ quản trị nội dung (CMS) với đặc trưng lưu trữ tin tức sử dụng sở liệu Các nhà nghiên cứu thường mặc định việc tìm kiếm cách dùng từ khóa, mục, tồn văn mà chưa có nhiều nghiên cứu chuyên sâu cho vấn đề tìm kiếm thơng tin tốt hệ thống [17], [18], [19]

Các nghiên cứu sở lý thuyết tảng công nghệ Web ngữ nghĩa giới thiệu kiến trúc công nghệ Web ngữ nghĩa gọi Semantic Web Stack, tầng liên quan tới tốn thành phần cần giải Cụ thể hơn, mơ hình chung khuyến nghị triển khai công nghệ Web ngữ nghĩa cho hệ thống phần mềm mô tả nghiên cứu [20] [21] [7] Ở thành phần (hệ thống con) hệ thống Web ngữ nghĩa giới thiệu Tuy nhiên thực tế áp dụng vào lĩnh vực cụ thể, ontology thành phần thiếu tập trung xây dựng [22] [14], việc sử dụng thành phần triển khai cách linh hoạt có khác Tác giả Ding cộng [7] tập trung vào thành phần khám phá liệu, tạo thích ngữ nghĩa, phân tích liệu giao diện, Dogac đề xuất dịch vụ Web ngữ nghĩa nhằm nâng cao tính liên tác hệ thống [14] Thành phần giúp chuyển đổi hay lưu trữ thích ngữ nghĩa trọng tâm số nghiên cứu [13] Tuy nhiên, chưa có nghiên cứu trình bày mơ hình kiến trúc đầy đủ cho toán phát triển hệ thống tin tức thể thao nói chung

(14)

3

Các nghiên cứu nói cho thấy để xây dựng hệ thống ứng dụng công nghệ Web ngữ nghĩa cần giải tốt toán: mơ hình hóa ontology, tạo thích ngữ nghĩa, thực tính tốn dựa suy diễn ngữ nghĩa Đây vấn đề mà luận án quan tâm

Bài toán tạo thích ngữ nghĩa tất yếu mạnh Web ngữ nghĩa tích hợp liệu, tìm kiếm thơng tin dựa tập thích ngữ nghĩa tài nguyên mà hệ thống quan tâm Các nghiên cứu sinh thích ngữ nghĩa theo hướng Hướng thứ phát triển công cụ phần mềm để biên tập thích ngữ nghĩa Semantator [27], M-OntoMat Annotizer [28], Annotea [29], Zemanta (http://www.zemanta.com) … Các thích ngữ nghĩa tạo cách thủ cơng người có chất lượng tốt tốn công sức thời gian Đối với hệ thống có liệu khối lượng lớn thường xuyên cập nhật phương pháp gặp khó khăn Nghiên cứu khác phương pháp bán tự động GATE [30], NCBO [31], cTAKE [32] hay tự động SemTag [33], PANKOW [34] tập trung cho lĩnh vực tổng quát lĩnh vực chuyên biệt khác sinh học, y tế Những phương pháp có số hạn chế triển khai vào lĩnh vực thể thao Nhiều phương pháp C-PANKOW [35], KIM [36], AeroDAML [37] tập trung vào việc xác định gán lớp cho thực thể có tên, mục tiêu hướng đến lĩnh vực tổng quát nên lớp khái quát người, địa điểm, thời gian, tiền tệ Một số phương pháp trích chọn quan hệ (thuộc tính) [38] [39] nhiên hiệu phụ thuộc vào tri thức miền ứng dụng Trong lĩnh vực thể thao để đáp ứng yêu cầu xử lý thơng tin với ngữ nghĩa ngữ nghĩa tạo có số đặc điểm riêng cần nghiên cứu Ví dụ, làm để nhận biết nhân vật thể thao, biểu diễn kiện hay kết thi đấu … Để đạt yêu cầu nói cần nghiên cứu phương pháp để nhận dạng thực thể có tên lĩnh vực thể thao hay sinh thích ngữ nghĩa dạng ba, bốn

Một vấn đề điển hình có ý nghĩa ứng dụng cao bài tốn tính tốn dựa trên suy luận ngữ nghĩa tìm kiếm ngữ nghĩa Trong ngữ cảnh luận án hiệu tìm kiếm ngữ nghĩa đóng vai trị quan trọng việc tạo giá trị đóng góp cải thiện độ xác kết tìm kiếm hệ thống tin tức thể thao Quy trình tìm kiếm ngữ nghĩa gồm bước bản: hình thành câu truy vấn ngữ nghĩa, thực truy vấn ngữ nghĩa xử lý kết tìm kiếm Hiện tốn thực truy vấn ngữ nghĩa có nhiều kết chín muồi, thể đời mơ tơ tìm kiếm ngữ nghĩa phổ biến cộng đồng nghiên cứu Jena (https://jena.apache.org), Allegrograph (https://allegrograph.com), OpenLink Virtuoso (https://virtuoso.openlinksw.com) Do đó, tạo truy vấn ngữ nghĩa phù hợp lĩnh vực thể thao nội dung nghiên cứu cấp thiết

SPARQL ngôn ngữ truy vấn ngữ nghĩa khuyến nghị W3C Gửi trực tiếp câu truy vấn SPARQL hình thức tìm kiếm ngữ nghĩa phổ biến nghiên cứu vấn đề [40] Hiển nhiên phương pháp thiếu tính thân thiện người dùng, không phù hợp với người đọc thông thường Để hỗ trợ người dùng, [41] tạo giao diện đồ họa dựa ontology để hình thành câu tìm kiếm SPARQL Ngơn ngữ tự nhiên có kiểm sốt sử dụng để tìm kiếm ngữ nghĩa đem lại độ xác cao [42] [43], nhiên thiếu linh hoạt phù hợp cho miền ứng dụng cụ thể Tìm kiếm ngữ nghĩa sử dụng ngôn ngữ tự nhiên hướng nghiên cứu xây dựng hệ thống hỏi đáp Từ thấy việc tìm hình thức để diễn đạt yêu cầu tìm kiếm thân thiện với người dùng cho phép tìm kiếm ngữ nghĩa hệ thống tổng hợp tin tức toán nghiên cứu mà luận án sâu

(15)

4

lường đánh giá tương đồng nội dung, thuộc tính mục cần gợi ý [47] [48] Trong thời gian gần đây, bắt đầu xuất số nghiên cứu quan tâm đến ngữ nghĩa khuyến nghị [49] [50] Các nghiên cứu đề xuất độ đo tương đồng ngữ nghĩa khái niệm xuất văn Đây hướng nghiên cứu có tiềm khai thác ứng dụng lĩnh vực tin tức

Mục tiêu nghiên cứu luận án xây dựng mơ hình, đề xuất phương pháp, kỹ thuật mới… nhằm nâng cao hiệu truy cập tin tức hệ thống tổng hợp tin tức Tiếp cận lựa chọn dựa tảng Web ngữ nghĩa Từ phân tích tốn xây dựng hệ thống thông tin dựa Web ngữ nghĩa tình hình nghiên cứu liên quan trên, luận án tập trung giải mục tiêu nghiên cứu cụ thể sau:

• Tìm mơ hình kiến trúc cho hệ thống tổng hợp tin tức nói chung thể thao nói riêng dựa tảng cơng nghệ Web ngữ nghĩa

• Nghiên cứu đề xuất phương pháp sinh cách tự động bán tự động siêu liệu cịn gọi thích ngữ nghĩa cho tin tức thể thao Kết nhiệm vụ sở để tiến hành kỹ thuật tìm kiếm ngữ nghĩa tin tức Luận án hướng tới việc sinh tự động thích ngữ nghĩa mà nội dung phục vụ cho việc tìm kiếm, đối sánh, giới thiệu, khuyến nghị tin tức Do đó, ngữ nghĩa tin tức thể thao có số khác biệt (ví dụ, diễn đạt kiện xảy ra, người liên quan, chủ đề liên quan…)

• Thực tìm kiếm ngữ nghĩa hệ thống hình thức câu hỏi ngôn ngữ tự nhiên Luận án hướng đến giải toán chuyển đổi câu hỏi hay yêu cầu tin tức dạng ngôn ngữ tự nhiên sang dạng thức truy vấn SPARQL

• Nghiên cứu phương pháp gợi ý tin tức tới người đọc sở phù hợp với nội dung tin tức đọc, có khai thác khía cạnh ngữ nghĩa

3.

Đối tượng phạm vi nghiên cứu

Đối tượng nghiên cứu luận án toán xử lý liệu tin tức dựa tiếp cận Web ngữ nghĩa Như luận án vừa phải tìm hiểu kiến thức sở lý thuyết tảng Web ngữ nghĩa, vừa phải nắm phương pháp phân tích xử lý văn bản, vấn đề độ tương quan văn Ontology

Luận án thực phạm vi tin tức tiếng Anh lĩnh vực thể thao Các tin tức dạng thức phổ biến văn (text)

Đặt mục tiêu nâng cao hiệu nghiên cứu, luận án xác định khơng giải tốn phạm vi rộng, bao trùm nhiều lĩnh vực trị, văn hóa, kinh tế … mà tập trung vào lĩnh vực thể thao Một nguyên nhân khác chưa có nhiều nghiên cứu tương tự lĩnh vực Luận án không xét đến tiếng Việt, lý so với tiếng Việt, tiếng Anh có phạm vi áp dụng rộng nhiều

4.

Phương pháp nghiên cứu

Để thực nội dung nghiên cứu luận án, tác giả tiến hành theo phương pháp tiếp cận từ xuống, đồng thời kết hợp nghiên cứu lý thuyết với nghiên cứu thực nghiệm

Về lý thuyết

Bên cạnh nghiên cứu tổng quan lý thuyết kỹ thuật Web ngữ nghĩa, hệ thống tổng hợp tin tức, tác giả phân tích tổng hợp kết nghiên cứu liên quan công bố hội thảo tạp chí quốc tế Trên sở đó, tác giả xác định tốn nghiên cứu đề xuất phương pháp nghiên cứu cho toán nêu

Về thực nghiệm

(16)

5

5.

Ý nghĩa khoa học & thực tiễn luận án, kết nghiên cứu

Ý nghĩa khoa học nghiên cứu:

Các phương pháp đề xuất luận án cho tốn sinh thích ngữ nghĩa cho tin tức thể thao, tìm kiếm với câu hỏi ngôn ngữ tự nhiên, gợi ý tin tức có đóng góp phạm vi nghiên cứu tin tức thể thao tiếng Anh:

• Các đề xuất nghiên cứu “sinh thích ngữ nghĩa cho tin tức thể thao” làm sở cho nghiên cứu vấn đề tạo thích ngữ nghĩa cho văn bản/tin tức

• “Phương pháp truy vấn tin tức thể thao với ngôn ngữ tự nhiên” làm sở cho nghiên cứu chuyển đổi từ câu hỏi ngôn ngữ tự nhiên sang truy vấn ngữ nghĩa sau

• Các kết “Gợi ý tin tức dựa ngữ nghĩa” làm sở cho nghiên cứu trọng số kết hợp độ đo liên quan tương đồng ngữ nghĩa hai văn

Ý nghĩa thực tiễn:

Kết nghiên cứu luận án sử dụng hệ thống tổng hợp tin tức thể thao

Cùng với kết nghiên cứu, luận án tiến hành xây dựng mẫu thử nghiệm BKSport minh họa thực nghiệm để triển khai ba nghiên cứu Một số nội dung kết luận án áp dụng cho lĩnh vực khác, phần không gắn với đặc thù mặt ngôn từ diễn tả lĩnh vực ứng dụng

Hệ thống tổng hợp tin tức lĩnh vực thể thao mà luận án xây dựng ứng dụng thực tế để giúp người dùng tìm kiếm tin tức xác thích hợp với câu hỏi họ, giúp gợi ý tin tức phù hợp

Mô hình dựa ngữ nghĩa cho hệ thống luận án tạo điều kiện cho nghiên cứu trực quan hóa, tổ chức nội dung cổng thơng tin

Các kết nghiên cứu chính:

• Luận án đề xuất phương pháp để sinh thích ngữ nghĩa cho tin tức thể thao văn cách tự động Phương pháp kết trình nhiều nghiên cứu với cải tiến đóng góp vào giải pháp chung, tập trung vào dạng thức ngữ nghĩa sau:

➢ ngữ nghĩa ba đơn giản để diễn tả kiện, hành động, chủ đề, thực thể gắn với tin tức

➢ ngữ nghĩa thực thể quan trọng tin tức

➢ số ngữ nghĩa phức tạp tuyên bố gián tiếp, xử lý đại từ, chuyển nhượng

• Luận án đề xuất phương pháp chuyển đổi câu hỏi diễn đạt ngôn ngữ tự nhiên tiếng Anh thành truy vấn ngữ nghĩa biểu diễn dạng thức SPARQL Truy vấn sở để thực tìm kiếm ngữ nghĩa hệ thống sử dụng mơ tơ tìm kiếm ngữ nghĩa

• Luận án đề xuất cơng thức tính độ tương đồng liên quan ngữ nghĩa hai tin tức thể thao sử dụng phương pháp gợi ý tin tức tới người đọc dựa tin tức mà người đọc

(17)

6

6.

Bố cục luận án

Phần lại luận án tổ chức thành chương Trong đó, chương giới thiệu kiến thức tảng cho vấn đề nghiên cứu chương luận án Đầu tiên luận án trình bày sở lý thuyết công nghệ Web ngữ nghĩa phục vụ cho việc sinh thích ngữ nghĩa tin tức tìm kiếm ngữ nghĩa chương 2, chương Phần chương tổng hợp thông tin nghiên cứu liên quan, đề cập đến nghiên cứu ứng dụng Web ngữ nghĩa nhiều lĩnh vực, tập trung vào lĩnh vực thể thao Phần cuối chương, tác giả khẳng định tiếp cận Web ngữ nghĩa xây dựng hệ thống tổng hợp tin tức đề xuất nội dung nghiên cứu luận án Kiến trúc tổng quan hệ thống tổng hợp tin tức thể thao BKSport dựa công nghệ Web ngữ nghĩa giới thiệu

Chương trình bày nội dung nghiên cứu phương pháp sinh thích ngữ nghĩa cho tin tức thể thao dựa Ontology, sở tri thức luật trích chọn Kết thu thích ngữ nghĩa với ý nghĩa thể độ phức tạp khác Bắt đầu từ phương pháp phát kiểu thực thể có tên ba đơn giản, thích tuyên bố gián tiếp cuối ngữ nghĩa phức tạp chuyển nhượng bóng đá

Chương đề xuất phương pháp chuyển đổi câu hỏi ngôn ngữ tự nhiên sang truy vấn SPARQL Đây sở để hệ thống tổng hợp tin tức thực tìm kiếm ngữ nghĩa hình thức tương tác thân thiện với người dùng

Chương trình bày nội dung kết nghiên cứu phương pháp gợi ý tin tức thể thao có quan tâm đến khía cạnh ngữ nghĩa Luận án đề xuất độ đo tương đồng hai tin tức sở kết hợp độ liên quan ngữ nghĩa độ tương đồng nội dung

(18)

7

CHƯƠNG KIẾN THỨC NỀN TẢNG VÀ

TIẾP CẬN PHÁT TRIỂN HỆ THỐNG TIN TỨC THỂ THAO

Nội dung chương trình bày tổng quan cơng nghệ Web ngữ nghĩa bao gồm nguồn gốc Web ngữ nghĩa, khái niệm Web ngữ nghĩa, kiến trúc Web ngữ nghĩa, ontology, ngôn ngữ biểu diễn ontology liệu ngữ nghĩa, tìm kiếm ngữ nghĩa, kho liệu ngữ nghĩa mở Các nghiên cứu liên quan nước Web ngữ nghĩa đề cập phân tích Đề xuất tiếp cận Web ngữ nghĩa xây dựng hệ thống tổng hợp tin tức, nội dung nghiên cứu luận án với kiến trúc tổng quan hệ thống tổng hợp tin tức thể thao BKSport dựa cơng nghệ Web ngữ nghĩa trình bày cụ thể.

1.1

Giới thiệu Web ngữ nghĩa

World Wide Web (hay viết tắt Web) trở thành kho tàng thông tin khổng lồ tạo tổ chức, cộng đồng nhiều cá nhân WorldWideWebSize.com ước tính kích thước Web tồn giới cho biết: từ năm 1990 đến năm 2019, Web lập mục có chứa tỉ trang Tuy nhiên, Web ban đầu thiết kế với mục đích tạo cơng cụ giúp người chia sẻ thông tin cách dễ dàng, nội dung Web hướng tới người Vì vậy, Web có nhiều hạn chế cần xử lý tự động máy tính Vấn đề Web người dùng dễ dàng bị lạc, hay phải xử lý lượng thông tin không hợp lý không liên quan trả từ kết tìm kiếm Web Câu hỏi đặt là: làm có kết tìm kiếm xác cách nhanh chóng theo mà muốn

Với hạn chế trên, bùng nổ thông tin Web đặt thách thức cho nhà nghiên cứu Đó làm để khai thác thơng tin Web cách hiệu Vấn đề thúc đẩy đời ý tưởng Web ngữ nghĩa

Web ngữ nghĩa không sinh để thay toàn Web Mục tiêu Web ngữ nghĩa phát triển tiêu chuẩn cơng nghệ chung mà cho phép máy tính hiểu nhiều thơng tin Web hơn, để chúng hỗ trợ tốt việc khám phá thơng tin, tích hợp liệu, tự động hóa nhiệm vụ Thực tế cho thấy Web ngữ nghĩa chứng tỏ điểm mạnh áp dụng vào lĩnh vực thông tin bị giới hạn, ví dụ quản lý tri thức, phát triển dịch vụ Web có ngữ nghĩa

Với hỗ trợ Web ngữ nghĩa, thơng tin mong muốn tìm nhanh xác Web ngữ nghĩa hỗ trợ tích hợp liệu liên kết từ nhiều nguồn, tìm kiếm động liệu sẵn có nguồn liệu

1.1.1 Nguồn gốc Web ngữ nghĩa

Tim Berners-Lee nhà khoa học máy tính người Anh, tiếng phát minh World Wide Web với ngôn ngữ đánh dấu siêu văn đơn giản khuôn dạng cho phép biểu diễn nội dung giàu thông tin bao gồm văn liệu đa phương tiện Ngôn ngữ đánh dấu siêu văn ngôn ngữ đánh dấu mà trình duyệt Web sử dụng để trình bày văn bản, hình ảnh, âm thanh, tài liệu khác trang web Tuy nhiên, Tim Berners-Lee thấy nhiều điểm hạn chế Web nội dung biểu diễn sử dụng HTML hướng đến người mà chưa thể hiểu xử lý tự động máy tính Từ ơng có ý tưởng thêm ngữ nghĩa vào trang Web từ gần cuối năm 1990 Ý tưởng Web ngữ nghĩa phần mở rộng Web thơng tin xác định rõ ý nghĩa, cho phép máy tính người cộng tác với tốt [6]

(19)

8

và cấp nhãn URI có khả hỗ trợ cho thực thể trừu tượng, nhóm Semantic Web Activity đưa để thay cho nhãn PICS vốn đề cập đến tài nguyên Web thực (URL)

RDF viết tắt Resource Description Framework W3C tạo ra, sử dụng phương pháp chung để mơ tả khái niệm mơ hình hóa thơng tin tài ngun Web RDF trở thành mơ hình liệu cho ontology Web, với RDF đối tượng có URI mơ tả mà khơng cần phải có tài ngun Web thực tồn tương ứng

Từ năm 2001, W3C chuẩn hóa khái niệm cốt lõi Web ngữ nghĩa cụ thể RDF, RDFS, OWL (Web Ontology Language), SPARQL, RIF (Rule Interchange Format) Sau năm kể từ ngày phát hành phiên SPARQL [51], phiên SPARQL 1.1 [52] phát hành vào năm 2013 Phiên OWL [53], ký hiệu OWL2 [54], công bố vào năm 2012 Phiên RIF [55] công bố vào ngày 5/2/2013

1.1.2 Khái niệm Web ngữ nghĩa

Năm 2001, Tim Berners-Lee lần giới thiệu thức Web ngữ nghĩa báo đăng tạp chí Scientific American Ơng đưa định nghĩa: “Web ngữ nghĩa mở rộng Web mà thơng tin định nghĩa cách rõ ràng, cho phép máy tính người hợp tác với tốt hơn” [6]

Có nhiều nghiên cứu khác với nhiều góc nhìn khác Web ngữ nghĩa đưa nhà khoa học

Lassila cộng [56] mô tả Web ngữ nghĩa loạt tiêu chuẩn, ngôn ngữ mơ hình hóa sáng kiến phát triển cơng cụ nhằm thích trang Web với siêu liệu định nghĩa rõ ràng, cho tác nhân thơng minh lập luận hiệu dịch vụ cung cấp site cụ thể

Theo Nigel Shadbolt cộng [57], Web ngữ nghĩa Web thông tin hành động – thông tin thu từ liệu nhờ lý thuyết ngữ nghĩa để diễn dịch ký hiệu Lý thuyết ngữ nghĩa cung cấp kê “ý nghĩa” kết nối logic thuật ngữ thiết lập khả liên tác (interoperability) hệ thống

Lee Feigenbaum cộng [58] phát biểu Web ngữ nghĩa không khác với World Wide Web Nó nâng cao Web, cung cấp cho Web tiện ích lớn nhiều Dựa lược đồ chung, công cụ Web ngữ nghĩa cho phép liên kết lược đồ đó, hiểu thuật ngữ chúng để phần mềm dựa Web ngữ nghĩa cộng đồng tự động hiểu Web ngữ nghĩa Web liệu Ý tưởng Web ngữ nghĩa mở rộng nguyên tắc Web áp dụng tài liệu, để chúng hoạt động liệu Khi đó, liệu truy cập kiến trúc Web chung, ví dụ URI Dữ liệu liên kết với giống tài liệu Web liên kết Việc xây dựng Web ngữ nghĩa thành công tạo khung (framework) cho phép liệu chia sẻ tái sử dụng ứng dụng khác nhau, doanh nghiệp khác nhau, cộng đồng khác Như liệu Web ngữ nghĩa xử lý tự động/bán tự động thủ công cơng cụ Web ngữ nghĩa có thành phần quan trọng ontology, thích ngữ nghĩa, tìm kiếm ngữ nghĩa:

1 Ontology cung cấp vốn từ vựng mô tả khái niệm mối quan hệ chúng cho Web ngữ nghĩa Ontology thể hiểu biết chung lĩnh vực mà tái sử dụng chia sẻ qua ứng dụng cộng đồng quan tâm

(20)

9

3 Tìm kiếm ngữ nghĩa quy trình tìm kiếm tài liệu dựa khai thác tri thức lĩnh vực hình thức hóa ontology Nó phương pháp cải thiện kết tìm kiếm truyền thống cách sử dụng liệu từ Web ngữ nghĩa

1.1.3 Kiến trúc Web ngữ nghĩa

Hình 1.1 minh họa kiến trúc Web ngữ nghĩa Kiến trúc (hoặc ngăn xếp) đề xuất Berners-Lee cộng vào năm 2006 [59], thường sử dụng để mô tả thành phần cốt lõi khác kiến trúc Web ngữ nghĩa Những thành phần khảo sát theo thứ tự từ đáy tới đỉnh ngăn xếp Web ngữ nghĩa

Hình 1.1 Kiến trúc Web ngữ nghĩa [59]

URI (Uniform Resource Identifier) IRI (Internationalized Resource Identifier) chuỗi ký tự dùng để xác định tài nguyên Web ngữ nghĩa IRI tổng quát URI, IRI chứa ký tự từ tập hợp ký tự quốc tế (Unicode/ISO 10646) bao gồm Trung Quốc, Nhật Bản, Hàn Quốc v.v Web ngữ nghĩa cần nhận dạng phép thao tác chứng minh với tài nguyên lớp URI/IRI chế cho phép xác định tài nguyên Web ngữ nghĩa Unicode cần thiết để biểu diễn ngơn ngữ tồn cầu Unicode đảm nhiệm việc biểu diễn thao tác văn nhiều ngơn ngữ khác nhau, đặc biệt hữu dụng cho trao đổi ký hiệu

XML (Extensible Markup Language) ngôn ngữ đánh dấu mà cho phép tạo tài liệu liệu có cấu trúc XML ngơn ngữ định chuẩn cơng nghiệp chuyển giao liệu có cấu trúc Web Tuy nhiên XML hình thức hóa cấu trúc tài liệu, chưa thể hình thức hóa nội dung tài liệu

RDF (Resource Description Framework) khung để tạo phát biểu dạng ba <Chủ_thể (S), Đặc_tính (P), Đối_tượng (O)> Hình thức cho phép biểu diễn thông tin tài nguyên mối quan hệ chúng dạng đồ thị RDF tảng để xử lý siêu liệu, đảm bảo tính liên tác ứng dụng trao đổi thơng tin mà máy hiểu xử lý Web

(21)

10

OWL (Web Ontology Language) tăng cường RDFS cách đưa tính tiên tiến để biểu diễn ngữ nghĩa phát biểu RDF OWL thiết kế để sử dụng ứng dụng mà cần xử lý nội dung thơng tin thay trình bày thơng tin tới người dùng OWL tạo điều kiện cho máy tính hiểu nội dung Web nhiều so với hỗ trợ XML, RDF, RDFS OWL cung cấp từ vựng bổ sung với ngữ nghĩa hình thức để biểu diễn tường minh ý nghĩa thuật ngữ tập từ vựng mối quan hệ chúng Nó có ba ngơn ngữ xếp theo thứ tự tăng dần khả diễn tả sau: OWL Lite, OWL DL OWL Full Các ngôn ngữ ontology dựa cú pháp XML

SPARQL (SPARQL Protocol and RDF Query Language) ngôn ngữ để biểu diễn truy vấn ngữ nghĩa qua nhiều nguồn liệu khác nhau, cho dù liệu lưu trữ định dạng RDF xem RDF nhờ phần mềm trung gian Truy vấn liệu ngữ nghĩa ontology công việc quan trọng, ứng dụng túy khai thác liệu ngữ nghĩa khơng thể thiếu truy vấn Kết truy vấn SPARQL tập kết đồ thị RDF Ngôn ngữ truy vấn SPARQL ngôn ngữ truy vấn liệu ngữ nghĩa theo chuẩn hệ thống W3C

RIF (Rule Interchange Format) chuẩn dùng cho việc trao đổi luật hệ thống luật, đặc biệt mô tơ luật Web RIF tập trung vào trao đổi cố gắng phát triển ngôn ngữ luật phù hợp cho tất Nguyên nhân ngôn ngữ chuẩn đáp ứng nhu cầu nhiều mơ hình phổ biến sử dụng luật biểu diễn tri thức mơ hình hóa cơng việc

Unifying Logic thực lý luận logic suy luận kiện kiểm tra tính quán

Proof giải thích rõ bước lý luận logic Unifying Logic

Cryptography bảo vệ liệu RDF thông qua mật mã hóa Nó phê chuẩn nguồn kiện chữ ký số cho liệu RDF

Trust xác thực độ tin cậy nguồn tin kiện suy

User Interface & applications giao diện người dùng cho ứng dụng Web ngữ nghĩa

1.2

Ontology

Thuật ngữ ontology bắt nguồn từ tiếng Hy Lạp, onto- (ὄντος) có nghĩa tồn -logy (λογία) có nghĩa khoa học hay lý thuyết Như ontology có nghĩa khoa học tồn Vai trò ontology tìm thực thể có giới, chất thuộc tính chúng, chúng có quan hệ với Nhưng nói tóm lại theo cách nhìn triết học, ontology “một môn khoa học nhận thức, cụ thể nhánh siêu hình học tự nhiên chất giới, nhằm xem xét vấn đề tồn hay không tồn vật” [60] Ontology – thể học với ý nghĩa triết học chuyên nghiên cứu tự nhiên tổ chức, cấu tạo giới thực

Định nghĩa bao quát phạm vi rộng cho phép ontology hiểu theo nhiều cách Ví dụ, ontology ngơn ngữ tự nhiên, mơ hình sở liệu cho toán ứng dụng cụ thể hay hệ thống phân lớp báo cáo khoa học Chúng khác mức độ diễn tả Hiển nhiên, việc tìm ontology có khả diễn tả giới hay vũ trụ

Hiểu đặc thù chức ontology triết học, đứng trước vấn đề cần diễn tả hay mô tả vật tượng thông tin… miền lĩnh vực đó, nhà nghiên cứu lĩnh vực CNTT vay mượn khái niệm từ triết học Mục đích ontology CNTT xây dựng hệ thống khái niệm để đặc tả rõ ràng nhận thức, hay biểu diễn tri thức lĩnh vực cụ thể

(22)

11

1.2.1 Định nghĩa

Các nhà khoa học có nhiều nhìn ý kiến khác ontology Họ đưa nhiều định nghĩa khác ontology Sau tác giả thống kê lại định nghĩa thừa nhận rộng rãi sau:

Neches cộng [61] định nghĩa ontology sau: “Một ontology định nghĩa

thuật ngữ quan hệ bao gồm từ điển lĩnh vực với luật kết hợp thuật ngữ với quan hệ nhằm xác định mở rộng cho từ điển” Định nghĩa xác định ontology bao gồm thuật ngữ bản, quan hệ thuật ngữ luật để kết hợp thuật ngữ Neches cho ontology bao gồm thuật ngữ định nghĩa rõ ràng tri thức suy từ chúng

Định nghĩa ontology trích dẫn nhiều tài liệu trí tuệ nhân tạo định nghĩa Gruber [62]: “Ontology đặc tả rõ ràng cho việc khái niệm hóa lĩnh vực” Theo tác giả này, thuật ngữ ontology mượn từ triết học có nghĩa gốc giải thích có hệ thống tồn

Guarino [63] cho hiểu ontology tập hợp tiền đề logic thiết kế để giải thích cho ý nghĩa mong đợi từ vựng

Swartout cộng [64] định nghĩa ontology tập thuật ngữ có cấu trúc phân cấp để mơ tả lĩnh vực mà sử dụng tảng xương cho sở tri thức Studer cộng [65] định nghĩa ontology “Một đặc tả rõ ràng, hình thức

khái niệm hóa chia sẻ” Studer đồng nghiệp giải thích sau: “Sự khái niệm hóa có nghĩa mơ hình trừu tượng vật, tượng giới xác định qua khái niệm liên quan vật, tượng Rõ ràng có nghĩa kiểu khái niệm ràng buộc chúng xác định rõ ràng Cịn hình thức có nghĩa Ontology phải hiểu máy tính Chia sẻ có nghĩa ontology không thứ riêng tư số cá nhân, mà thứ sử dụng rộng rãi nhiều người”

Từ định nghĩa ta đưa khái niệm mang tính chất tổng hợp ontology sau Một ontology tập từ vựng bao gồm định nghĩa khái niệm thuộc tính chúng mà máy tính hiểu lĩnh vực Tập từ vựng giúp chia sẻ thơng tin lĩnh vực

1.2.2 Các lĩnh vực ứng dụng vai trò ontology

Các cách hiểu khác ontology cho thấy việc đạt thống ngữ nghĩa vấn đề giao tiếp người Nghiên cứu ứng dụng ontology có mục đích cải thiện dần vấn đề Những năm vừa qua, ontology chủ đề nghiên cứu quan tâm nhiều lĩnh vực [66], khoa học đời sống, thiên văn học, toán học, tin học ứng dụng v.v Đây lĩnh vực mà tri thức thu nhận từ lượng liệu lớn tạo Nhiều công ty tổ chức nghiên cứu ứng dụng ontology công nghệ Web ngữ nghĩa để quản lý tri thức họ Theo Mohammad Mustafa Taye [66], ontology chủ đề nghiên cứu phổ biến nhiều lĩnh vực như:

1 Web ngữ nghĩa – ontology giúp Web ngữ nghĩa biểu diễn liệu mà máy hiểu Nó đóng vai trị quan trọng việc trao đổi thông tin môi trường phân tán

2 Khám phá dịch vụ Web ngữ nghĩa – ontology đóng vai trị cốt yếu việc tìm câu trả lời phù hợp cho truy vấn môi trường kinh doanh điện tử

3 Trí tuệ nhân tạo – vai trị ontology tạo điều kiện cho việc chia sẻ tái sử dụng tri thức, cho phép xử lý qua nhiều chương trình, nhiều dịch vụ, nhiều tác tử, nhiều tổ chức lĩnh vực cụ thể

4 Đa tác tử - ontology giữ vai trò quan trọng việc cung cấp hiểu biết chung tri thức lĩnh vực, nâng cao chất lượng giao tiếp tác tử

(23)

12

6 Thương mại điện tử – Giao dịch người bán người mua tạo điều kiện dễ dàng nhờ việc sử dụng ontology để mơ tả hàng hóa dịch vụ Ontology giúp giao dịch xử lý tự động máy

7 Khả tương tác – ontology cải thiện đáng kể khả tương tác hệ thống ứng dụng phân tán phi nhờ khả tích hợp thơng tin vốn có Li Ding cộng [67] cho ứng dụng ontology cho Web ngữ nghĩa đem lại hai lợi ích to lớn sau:

1 Dữ liệu xuất có từ vựng ngữ pháp chung

2 Mô tả ngữ nghĩa cho liệu lưu giữ ontology để phục vụ việc suy luận Tác giả cho ontology có ba ứng dụng Web ngữ nghĩa sau:

1 Khám phá dịch vụ ngữ nghĩa – ontology sử dụng để mô tả dịch vụ liệu khác mạng ad-hoc, để lý luận khả thiết bị cảm biến v.v Một ứng dụng bật ontology Service với tính mở rộng Tích hợp hồ sơ cá nhân dựa ontology – ontology sử dụng để xây dựng

CSDL quy mô mạng toàn cầu hồ sơ cá nhân Một ứng dụng bật ontology FOAF đánh giá có tầm nhìn xa

3 Suy diễn dựa logic mơ tả cho cảm biến thích nghi – ontology sử dụng để suy luận trạng thái thiết bị cảm biến dựa tiền đề có OWL-DL Một ứng dụng bật ontology Sensor State đánh giá cao khả suy luận

Theo Ian Horrocks [68], ontology ứng dụng rộng rãi nhiều lĩnh vực khác sinh học, y học, địa lý học, địa chất học, nơng nghiệp quốc phịng Lĩnh vực khoa học đời sống cho thấy thành tựu to lớn việc ứng dụng ontology với sản phẩm bật lĩnh vực y sinh học SNOMED, GO and BioPAX, Foundational Model of Anatomy (Mơ Hình Nền Tảng Của Giải Phẫu Học), the National Cancer Institute thesaurus (bộ từ điển thesaurus Viện Ung Thư Quốc Gia) Ontology sử dụng rộng rãi để tạo điều kiện thuận lợi cho việc chia sẻ tích hợp thơng tin Trong ứng dụng tích hợp thơng tin, ontology dùng để:

1 cung cấp vốn từ vựng định nghĩa hình thức mở rộng để sử dụng thích ngữ nghĩa,

2 mơ tả cấu trúc nguồn có thơng tin chúng lưu trữ,

3 cung cấp mơ hình chi tiết lĩnh vực để đáp ứng truy vấn nâng cao Những truy vấn trả lời cách sử dụng thích ngữ nghĩa tri thức có cấu trúc để truy tìm kết hợp thơng tin từ nhiều nguồn khác

Nhóm tác giả Aarti Singh Poonam Anand [69] đưa lý sau việc phát triển ontology:

• Để chia sẻ hiểu biết chung cấu trúc thông tin người tác tử phần mềm

• Để cho phép tái sử dụng tri thức lĩnh vực cụ thể

• Để làm cho giả định lĩnh vực tường minh

• Để tách tri thức lĩnh vực khỏi tri thức thao tác

• Để phân tích tri thức lĩnh vực

1.2.3 Các phương pháp luận phát triển ontology

Trong năm gần đây, có nhiều phương pháp luận khác đưa để hỗ trợ việc phát triển ontology Những phương pháp luận cổ điển bao gồm Cyc [70], Uschold King [71], Grüninger Fox [72], KACTUS [73], Methontology [74] Những phương pháp luận cung cấp hướng dẫn có cấu trúc chung giúp đẩy nhanh trình phát triển cải thiện chất lượng ontology kết Trong báo “Apport de l’ingénierie ontologique aux environnements de formation distance” [75], Psyché cộng phân loại phương pháp luận xây dựng ontology cổ điển thành năm nhóm:

(24)

13

• tích hợp với ontology khác, ví dụ Gruninger Fox [72]

• tái kỹ nghệ

• xây dựng cộng tác

• đánh giá ontology

1.2.3.1 Phương pháp luận Methontology

Phương pháp luận thiết kế ontology phổ biến “Methontology” Khung Methontology cho phép xây dựng ontology mức tri thức giới thiệu về: quy trình phát triển ontology, vòng đời ontology, kỹ thuật cụ thể để thực hoạt động

Methontology bao gồm hoạt động sau để phát triển ontology:

1 Đặc tả: nhiệm vụ thứ pha xác định mục đích ontology, bao gồm người dùng mà hướng đến, kịch sử dụng nó, mức độ hình thức u cầu… Nhiệm vụ thứ hai xác định phạm vi ontology Cụ thể cần xác định tập thuật ngữ ontology biểu diễn, đặc tính độ chi tiết yêu cầu tập thuật ngữ Kết pha tài liệu đặc tả ontology dạng ngôn ngữ tự nhiên

2 Thu nhận tri thức: giai đoạn phần lớn thực song song với giai đoạn đặc tả (1) Vai trò vấn với chuyên gia phân tích văn quan tâm đặc biệt Tuy nhiên, hoạt động không tuân theo quy tắc cứng nhắc ví dụ phải khai thác từ loại nguồn tri thức sử dụng phương pháp khơi gợi

3 Khái niệm hóa: thuật ngữ miền lĩnh vực định nghĩa khái niệm, thể hiện, quan hệ dạng động từ thuộc tính, thuật ngữ biểu diễn dạng biểu diễn phi hình thức khả dụng

4 Tích hợp: nhằm đạt số đồng ontology định nghĩa từ ontology khác Hoạt động giúp đẩy nhanh tiến độ xây dựng ontology giúp tái sử dụng định nghĩa từ ontology khác

5 Phát triển: ontology biểu diễn hình thức ngơn ngữ đó, chẳng hạn RDF hay OWL

6 Đánh giá: Methontology trọng vào giai đoạn Hoạt động sử dụng kỹ thuật dùng thẩm định kiểm chứng hệ sở tri thức, ví dụ tìm kiếm khơng đầy đủ, thiếu quán dư thừa ontology …

7 Tư liệu hóa: đối chiếu tài liệu có từ hoạt động khác

Vòng đời ontology

Các hoạt động xếp thứ tự chu trình gọi vòng đời ontology Một ontology qua trạng thái sau: đặc tả, khái niệm hóa, hình thức hóa, tích hợp, phát triển Cuối cùng, ontology vào trạng thái bảo trì Pha thu nhận tri thức, đánh giá tài liệu hóa thực tồn vịng đời

Giống Tove, khía cạnh đặc biệt Methontology tập trung vào bảo trì Sự khác biệt hai phương pháp luận chỗ Methontology tập trung vào việc giải tồn diện giai đoạn bảo trì chu trình sống ontology, Tove sử dụng kỹ thuật hình thức để giải số lượng hạn chế vấn đề bảo trì

1.2.3.2 Phương pháp luận Uschold King

Dựa kinh nghiệm xây dựng Enterprise ontology – ontology cần thiết quy trình mơ hình hóa doanh nghiệp, Đại học Edinburgh tác giả Uschold King đưa phương pháp luận để phát triển ontology Phương pháp luận gồm giai đoạn sau:

(25)

14

2 Xác định phạm vi: cách dùng kịch câu hỏi kiểm chứng khả dạng phi hình thức, giai đoạn đưa đặc tả yêu cầu phác thảo đầy đủ phạm vi thông tin mà ontology mô tả

3 Xây dựng ontology: giai đoạn xác định khái niệm mối quan hệ miền lĩnh vực quan tâm, tạo định nghĩa văn rõ ràng xác cho khái niệm mối quan hệ, xác định thuật ngữ để khái niệm mối quan hệ Sau xem xét khả tích hợp với ontology có sẵn

4 Hình thức hóa cách tạo “mã”, định nghĩa hình thức tiên đề thuật ngữ đặc tả Công việc bao gồm việc biểu diễn tường minh tri thức thu ngơn ngữ hình thức

5 Đánh giá hình thức: việc đánh giá giai đoạn sử dụng tiêu chuẩn đánh giá cụ thể cho ontology riêng biệt, sử dụng tiêu chuẩn đánh giá khái quát [76] cho đa số ontology

Nói chung, với hầu hết phương pháp luận phát triển hệ sở tri thức gần đây, phương pháp tiếp cận Uschold & King phân biệt pha phi hình thức hình thức việc xây dựng ontology Pha phi hình thức liên quan đến việc xác định khái niệm quan trọng sau đưa định nghĩa văn cho khái niệm mối quan hệ, sử dụng kỹ thuật thu nhận tri thức sẵn có

Nhược điểm phương pháp luận Uschold & King không đủ chi tiết để mơ tả xác kỹ thuật sử dụng thao tác

1.2.3.3 Phương pháp luận Grüninger Fox

Từ kinh nghiệm xây dựng ontology lĩnh vực mơ hình hóa hoạt động quy trình nghiệp vụ, Grüninger Fox đề xuất phương pháp luận Tove (Toronto Virtual Enterprise) [72] [77] dự án tên Các ontology bao gồm: Enterprise Design Ontology, Project Ontology, Scheduling Ontology, Service Ontology Dưới giai đoạn chính:

1 Biên tập kịch bản: điểm bắt đầu việc xây dựng ontology Các kịch thường vấn đề gặp phải tổ chức mà không giải thỏa đáng ontology sẵn có kèm với giải pháp mang tính trực giác tương ứng Nó thường dạng câu chuyện kể lại ví dụ

2 Đặt câu hỏi kiểm chứng khả dạng phi hình thức: dựa kịch giai đoạn (1), yêu cầu ontology mô tả dạng câu hỏi phi hình thức (tới lúc chúng cịn chưa thể ngơn ngữ hình thức ontology) Một ontology phải có khả biểu diễn câu hỏi hệ thống thuật ngữ nó, mơ tả câu trả lời cho câu hỏi tiền đề định nghĩa

3 Đặc tả thuật ngữ: từ câu hỏi kiểm chứng phi hình thức, thuật ngữ ontology khái niệm, thuộc tính mối quan hệ diễn tả sử dụng hệ hình thức

4 Hình thức hóa câu hỏi kiểm chứng khả năng: giai đoạn thực đơn giản việc dùng thuật ngữ hình thức ontology biểu diễn câu hỏi kiểm chứng khả phi hình thức

5 Đặc tả tiên đề: tiên đề đặc tả định nghĩa ràng buộc mặt diễn dịch thuật ngữ đưa dạng logic bậc Các tiên đề điều kiện cần đủ để diễn đạt câu hỏi kiểm chứng khả đáp án tương ứng

6 Thiết lập điều kiện tính đầy đủ ontology: giai đoạn định nghĩa điều kiện mà theo đáp án nói đầy đủ Vì điều kiện gọi định lý tính đầy đủ

(26)

15

1.2.4 Các công cụ phát triển ontology

Ontology xây dựng nhằm mục đích nắm bắt tri thức cách hình thức theo cách chung Nó tái sử dụng chia sẻ qua ứng dụng nhóm người Ontology đóng vai trị quan trọng Web ngữ nghĩa, trích chọn thơng tin, trí tuệ nhân tạo, xử lý ngơn ngữ tự nhiên, quản lý tri thức, vv… Xây dựng ontology nhiệm vụ đầy thử thách Phương pháp phổ biến xây dựng thủ công ontology tốn thời gian phức tạp Có nhiều cơng cụ có sẵn để xây dựng ontology Những công cụ hỗ trợ trình phát triển ontology, giúp người dùng xây dựng nên ontology cần phải chọn cơng cụ thích hợp cho mục đích Mục khảo sát phân tích so sánh cơng cụ sẵn có cho việc xây dựng ontology

Có hai loại cơng cụ xây dựng ontology chủ yếu:

1 Các công cụ soạn thảo ontology: cho phép người dùng định nghĩa khái niệm mới, mối quan hệ mới, thể Các công cụ thường bao gồm trình duyệt đồ họa, chức tìm kiếm, kiểm tra ràng buộc Một số ví dụ điển hình công cụ Protégé [78], OntoEdit [79], WebODE [80]

2 Các công cụ ánh xạ, chỉnh trộn ontology: công cụ giúp người dùng tìm thấy điểm tương tự điểm khác biệt ontology nguồn Chúng xác định cách tự động tương ứng tiềm cung cấp mơi trường cho người sử dụng tìm xác định tương ứng này, hai Những công cụ ánh xạ thường phần mở rộng cơng cụ phát triển Một số ví dụ điển hình cơng cụ PROMPT, ONION, Chimaera [81] [82]

1.3

Ngôn ngữ biểu diễn ontology liệu ngữ nghĩa

1.3.1 XML

XML phát triển XML Working Group (ban đầu Ban Biên Tập Đánh Giá SGML) Nhóm thành lập bảo trợ W3C vào năm 1996 XML, chữ viết tắt Extensible Markup Language, trở thành khuyến nghị W3C vào ngày 10/02/1998 XML thay cho HTML, bổ sung thơng tin cho HTML XML thiết kế để cấu trúc hóa, trao đổi, chia sẻ, vận chuyển lưu trữ liệu, tập trung vào liệu Trong đó, HTML thiết kế để hiển thị liệu, tập trung vào liệu trông Ngôn ngữ XML thẻ tiền định nghĩa, thẻ XML cấu trúc tài liệu XML định nghĩa tác giả tài liệu XML Khi ta cần hiển thị liệu động tài liệu HTML, nhiều công sức để chỉnh sửa tài liệu HTML liệu thay đổi Với XML, liệu lưu trữ tập tin XML riêng biệt Do đó, thay đổi liệu nằm không ảnh hưởng tới việc hiển thị bố trí với HTML/CSS Dữ liệu XML độc lập với phần cứng phần mềm, dễ dàng chia sẻ tái sử dụng ứng dụng khác Việc trao đổi liệu hệ thống khơng tương thích internet giảm đáng kể độ phức tạp chi phí thời gian sử dụng liệu XML

(27)

16

Trong XML hoàn toàn phù hợp cho việc trao đổi liệu có cấu trúc, có ba khía cạnh quan trọng mà cịn thiếu Thứ nhất, phần tử lược đồ, thuộc tính, thực thể định nghĩa không bổ sung thêm ngữ nghĩa cho tên chúng Ví dụ, thuộc tính có tên tempValue có nghĩa giá trị nhiệt độ biểu thị giá trị tạm thời Để diễn dịch liệu XML cách xác, bên cạnh suy diễn người người ta cịn thường cần đến số tư liệu bổ sung cho lược đồ XML Thứ hai, XML có khả hạn chế mô tả mối quan hệ phần tử có liên quan tới đối tượng Mặc dù sử dụng thuộc tính ID IDREF để định danh phần tử tham chiếu tới phần tử khác, tham chiếu khơng có ý nghĩa kết hợp đặc biệt Thứ ba, XML dựa giả định giới đóng, khơng thể thêm thơng tin bổ sung cho tài liệu XML tồn tại, khơng thể kết hợp với tập thơng tin XML phân tán

Do đó, ngôn ngữ đánh dấu Web mạnh mẽ XML cần thiết để thực nhiệm vụ xử lý thông tin phức tạp Một cách để giải vấn đề liên kết ý nghĩa máy xử lý với thẻ sử dụng kỹ thuật biểu diễn tri thức RDF, RDFS hay OWL

1.3.2 RDF

RDF (Resource Description Framework) mơ hình liệu cốt lõi tất ứng dụng dựa Web ngữ nghĩa Các đặc tả RDF chia thành sáu chuẩn khuyến nghị đề xuất W3C: nhập môn RDF (RDF Primer), khái niệm cú pháp trừu tượng RDF (RDF Concepts and Abstract Syntax), đặc tả cú pháp RDF/XML (RDF/XML Syntax Specification), ngữ nghĩa RDF (RDF Semantics), lược đồ RDF (RDF Schema), ca kiểm thử RDF (RDF Test Cases) Các mục trình bày số nội dung quan trọng RDF Đó khái niệm bản, làm để sử dụng RDF hiệu quả, cách thức để định nghĩa từ vựng sử dụng RDF Schema, ứng dụng sử dụng RDF

1.3.2.1 Các khái niệm cú pháp trừu tượng RDF

Sức mạnh RDF rõ ràng nằm mơ hình liệu cốt lõi đơn giản dựa tập tuyên bố RDF có dạng (S, P, O), với S biểu thị chủ ngữ, P biểu thị vị ngữ, O biểu thị tân ngữ tương tự câu ngôn ngữ tự nhiên Một tuyên bố như:

Trang web http://ronaldo.com/ tạo Cristiano Ronaldo

có thể diễn đạt đồ thị RDF thể hình 1.2a Trong ví dụ này, chủ ngữ tài nguyên với URI http://ronaldo.com/, vị ngữ dc:creator (một thuộc tính Dublin Core tiền định nghĩa với URI http://purl.org/dc/elements/1.1/creator), ký tự "Cristiano Ronaldo" tân ngữ

Hình 1.2b mơ tả đồ thị tương ứng với sáu tuyên bố sau (được thể định dạng Turtle):

@prefix foaf: <http://xmlns.com/foaf/0.1/> @prefix ex: <http: //example.org#>

<http://ronaldo.com/> dc:creator <http://ronaldo.com/foaf.rdf#me> <http://ronaldo.com/foaf.rdf#me> foaf:homepage <http://ronaldo.com/>

<http://ronaldo.com/foaf.rdf#me> foaf:name "Cristiano Ronaldo" <http://ronaldo.com/foaf.rdf#me> foaf:mbox <mailto: cr7@gmz.com> <http://ronaldo.com/foaf.rdf#me> foaf:title “Forward”

(28)

17

http://ronaldo.com “Cristiano Ronaldo”

SUBJECT PREDICATE OBJECT

dc:creator

(a) Đồ thị tuyên bố RDF

http://ronaldo.com

http://ronaldo.com/foaf.rdf#me

foaf:homepage

dc:creator

mailto:cr7@gmz.com “Cristiano Ronaldo”

foaf:mbox foaf:name

“Forward” “male”

foaf:title foaf:gender

(b) Đồ thị sáu tuyên bố RDF

Hình 1.2 Ví dụ đồ thị RDF – Tài ngun mơ tả hình elip, ký tự mơ tả bằng hình chữ nhật Cạnh có nhãn URI vị ngữ sử dụng tiền tố không gian tên

Mỗi tuyên bố biểu diễn đồ thị cung có hướng Hai ký hiệu foaf: ex: tiền tố không gian tên tạo theo cú pháp tổng quát sau:

@prefix [prefix-name]: <[namespace-uri]>

Do đó, foaf:name dạng rút gọn URI http://xmlns.com/foaf/0.1/name FOAF ontology Friend-of-a-Friend, cung cấp từ vựng để mô tả người mạng xã hội người với người Mỗi không gian tên xác định từ vựng RDF cụ thể

Để thêm thơng tin thực thể Cristiano Ronaldo, cần có tài nguyên khác bổ sung ngữ nghĩa cho chuỗi ký tự "Cristiano Ronaldo" Chỉ có tài ngun dùng làm chủ ngữ câu tuyên bố RDF

URI http://ronaldo.com/foaf.rdf#me giới thiệu tài nguyên RDF mới, đại diện cho nhân vật thể thao có foaf:name dẫn đến "Cristiano Ronaldo" có URI foaf:mbox dẫn đến <mailto: cr7@gmz.com>

1.3.2.2 Sử dụng URI cho đối tượng giới thực

Nguyên lý tất thứ mơ tả người Web nhận URI để lấy thơng tin nguồn tài nguyên, URI phân giải client HTTP [83] Trong số trường hợp, xảy khả tài nguyên không địi hỏi phải có URI tường minh Để giải vấn đề này, RDF hỗ trợ khái niệm nút trắng, nút tài ngun mà khơng có URI toàn cục

1.3.2.3 Phân lớp tường minh tài nguyên

Để diễn tả tài nguyên thể lớp, RDF hỗ trợ thuộc tính rdf:type để diễn tả quan hệ ”là thể của” Ví dụ: tuyên bố

<http://ronaldo.com/foaf.rdf#me> rdf:type foaf:Person

cho biết Ronaldo thể foaf:Person, từ vựng ontology FOAF đại diện cho người

(29)

18 Hình 1.3 minh họa đồ thị RDF nhiều nút

http://ronaldo.com http://ronaldo.com/foaf.rdf#me mailto:cr7@gmz.com “Cristiano Ronaldo” “Forward” “male” dc:creator foaf:homepage foaf:mbox foaf:name foaf:title foaf:gender http://garethbale.net/foaf.rdf#me foaf:knows foaf:knows “Gareth Bale” foaf:name http://benzema.net/foaf.rdf#me foaf:knows foaf:knows “Karim Benzema” foaf:name foaf:knows foaf:knows http://mourinho.name/foaf.rdf#me http://zidane.me/foaf.rdf#me http://rooney.info/foaf.rdf#me foaf:knows foaf:knows

“Zinédine Zidane” foaf:name

foaf:knows foaf:knows “José Mourinho” foaf:name foaf:knows foaf:knows foaf:knows foaf:knows “Wayne Rooney” foaf:name

Hình 1.3 Ví dụ minh họa đồ thị RDF nhiều nút

1.3.2.4 Tài nguyên URI, nút trắng, giá trị hằng

Nếu tài nguyên xác định URI gọi tài nguyên URI, ngược lại nút trắng ẩn danh Vị ngữ câu tài nguyên URI Các thuộc tính RDF thực tế tài nguyên RDF cụ thể Chúng thuộc lớp rdf:Property định nghĩa RDFS Vì vậy, thuộc tính sử dụng vị ngữ tuyên bố

Hằng giá trị RDF có hai dạng xâu ký tự đơn giản giá trị có định kiểu

Giá trị định kiểu có thẻ kiểu liệu sử dụng để biểu diễn giá trị số, ngày, tháng, Boolean, v.v RDF dùng kiểu liệu XML cho phép định nghĩa kiểu liệu tùy chỉnh Ví dụ, cú pháp Turtle giá trị định kiểu "22.30"^^xsd:float biểu diễn số thực 22.30

Xâu ký tự đơn giản có thêm thẻ ngơn ngữ Ví dụ cú pháp Turtle xâu ký tự "Cristiano Ronaldo"@en cho thấy ngôn ngữ ký tự đơn giản tiếng Anh Điều cho phép thêm nhiều xâu ký tự nhiều ngôn ngữ khác vào đồ thị

1.3.3 RDFS (RDF SCHEMA)

RDFS (RDF Schema) mở rộng từ vựng RDF Core Nó chứa số khái niệm định nghĩa trước để định nghĩa lớp (chính khái niệm) thuộc tính ontology rdfs:Class, rdfs:Property v.v

1.3.3.1 Các lớp thuộc tính

Trong RDF, tài nguyên sử dụng vị ngữ lớp (được định dùng thuộc tính rdf:type) Ví dụ như:

<http://ronaldo.com/foaf.rdf#me> rdf:type foaf:Person

(30)

19

Tuy nhiên, để hiểu ngữ nghĩa foaf:Person dc:creator, tài ngun phải mơ tả Nơi chứa định nghĩa ontology mà RDFS (cùng với OWL) ngôn ngữ biểu diễn Trong ví dụ foaf:Person lớp (hay khái niệm) ontology FOAF Friends-of-a-Friend [84] công bố http://xmlns.com/foaf/spec/, cịn dc:creator thuộc tính từ vựng Dublin Core định nghĩa http://dublincore.org/documents/dcmi-terms/

Khai báo rdfs:Class cho phép định nghĩa khái niệm RDF Nói cách khác lớp (hay khái niệm) thể rdfs:Class:

@prefix vs: <http://www.w3.org/2003/06/sw-vocab-status/ns#>

foaf:Person a rdfs:Class, owl:Class ;

rdfs:comment “A person.” ;

rdfs:isDefinedBy “foaf:” ;

rdfs:label “Person” ;

rdfs:subClassOf foaf:Agent , <http://xmlns.com/wordnet/1.6/Agent> ,

<http://www.w3.org/2000/10/swap/pim/contact#Person> ,

<http://www.w3.org/2003/01/geo/wgs84_pos#SpatialThing>,

<http://xmlns.com/wordnet/1.6/Person> ; owl:disjointWith foaf:Document , foaf:Organization, foaf:Project 10

vs:term_Status “stable” 11

Ví dụ giải thích ý nghĩa foaf:Person, nói FOAF Person lớp khái niệm khác foaf:Agent http://xmlns.com/wordnet/1.6/Agent Dạng biểu diễn đồ thị ví dụ thể hình 1.4 đây:

Hình 1.4 Định nghĩa FOAF Person phần bảng từ vựng FOAF

(31)

20

1.3.3.2 Miền áp dụng phạm vi giá trị thuộc tính (Domain and Range of Properties)

Cho thuộc tính xác định p’, tập tuyên bố RDF (s, p’, o) diễn dịch thành quan hệ nhị phân p’(s, o), liên kết giá trị o với chủ ngữ s Sử dụng cách biểu diễn trên, miền Dp’ tập giá trị s phạm vi Rp’ tập giá trị o RDFS cung cấp hai thuộc tính dùng để định nghĩa miền phạm vi thuộc tính RDF Ví dụ, thuộc tính rdf:type định nghĩa sau:

rdf:type

rdf:type rdf:Property ;

rdfs:label “type” ;

rdfs:comment “The subject is an instance of a class” ;

rdfs:domain rdfs:Resource ;

rdfs:range rdfs:Class ;

rdfs:isDefinedBy <http://www.w3.org/1999/02/22-rdf-syntax-ns#> Ví dụ từ vựng RDF Core RDFS định nghĩa linh hoạt RDF Tun bố dịng xác định rdf:type thể lớp rdf:Property, nghĩa thuộc tính Miền rdf:type tài nguyên RDF (dòng 5) phạm vi tập tất lớp (dịng 6)

Những thuộc tính RDF khơng có miền phạm vi xác định, chúng dùng với tài nguyên mà khơng cần quan tâm lớp tài ngun Đây khác biệt lớn với lược đồ sở liệu, nơi mà thuộc tính định nghĩa ngữ cảnh quan hệ cụ thể

1.3.3.3 Hệ thống kiểu (Type System)

Bên cạnh việc định nghĩa thể lớp thuộc tính rdf:type, RDFS cung cấp cách thức để định nghĩa phân cấp lớp RDFS cung cấp hệ thống định kiểu để mơ hình phân cấp lớp theo hướng cụ thể hóa, khái quát hóa Các lớp định nghĩa lớp lớp khác với thuộc tính rdf:subClassOf Ví dụ:

foaf:Person rdf:subClassOf foaf:Agent

Theo luật suy diễn kéo theo RDFS [85], thể foaf:Person thành viên foaf:Agent Các thuộc tính xác định theo cách tương tự Ví dụ để tìm tác giả báo hội nghị, người mà bình phẩm viên cần liên hệ, có dc:creator chun dụng định nghĩa:

ex:primaryAuthor rdf:type rdf:Property ; rdfs:subPropertyOf dc:creator

Do hệ luật suy diễn kéo theo RDF-S, báo có ex:primaryAuthor (tác giả chính) Johnson, có nghĩa dc:creator (tạo viên) báo Johnson

1.3.4 OWL (Web Ontology Language)

OWL (Web Ontology Language) ngôn ngữ biểu diễn tri thức đại phát triển dựa RDF nhằm cho phép biểu diễn thông tin phân tán Web với mức độ biểu đạt cao suy diễn thơng tin

Tùy thuộc vào khả diễn tả cần có ứng dụng, có ba biến thể khác OWL [53]:

• OWL Lite

• OWL-DL

(32)

21

Ngơn ngữ Ontology có khả diễn đạt suy diễn phải áp dụng nhiều luật ảnh hưởng tới hiệu tính tốn Do đó, phân chia nói nhằm tạo phiên ngôn ngữ phù hợp với đặc thù cụ thể toán ứng dụng

OWL Lite có hình thức phức tạp thấp Nó bổ sung vài tính cho RDFS, ví dụ ràng buộc đẳng thức/bất đẳng thức cho lớp cá thể, ràng buộc lực lượng cho thuộc tính (nhưng có giá trị 1)

OWL-DL thiết kế để hướng tới khả diễn đạt tối đa đảm bảo tính đầy đủ tính giải q trình tính tốn (bộ suy diễn kết thúc thời gian định)

OWL Full không đặt giới hạn thành phần cấu trúc có sẵn ngơn ngữ (ví dụ, lớp thể lớp khác thời điểm, điều không phép OWL-DL) Nó cung cấp khả diễn tả tối đa khơng đảm bảo tính giải

Tiểu mục trình bày tóm tắt đặc tính quan trọng OWL khác biệt với RDF/RDFS

1.3.4.1 Tiên đề luật suy diễn kéo theo

Các khuyến nghị W3C ngữ nghĩa OWL ngữ nghĩa RDF [86] định nghĩa chế suy diễn ontology OWL RDFS Các đặc tả bao gồm tiên đề luật mà suy diễn cần biết để tạo xác kiện Tất phát biểu định nghĩa sẵn có RDF Core RDFS tiên đề Ví dụ:

rdf:type rdf:type rdf:Property

là tiên đề Sau ví dụ luật suy diễn kéo theo Cho trước đồ thị RDF có tên E:

u rdfs:subClassOf x v rdf:type u

với u, v tham chiếu URI định danh nút trắng, x tham chiếu URI bất kỳ, định danh nút trắng, chuỗi ký tự Bộ ba sau suy ra:

v rdf:type x

1.3.4.2 Các tính OWL

Các tính hỗ trợ ba phiên OWL là:

1 Các phần tử lược đồ RDF (RDF Schema elements): lớp, cá thể (thể hiện), thuộc tính; miền phạm vi thuộc tính, quan hệ lớp thuộc tính con, kiểu liệu Đẳng thức/bất đẳng thức (Equality/Inequality): lớp, thuộc tính cá thể tương đương;

các cá thể khác biệt

3 Đặc tính thuộc tính (Property characteristics): nghịch đảo, bắc cầu, đối xứng, hàm, quan hệ thuộc tính chức nghịch đảo

4 Ràng buộc định lượng giá trị thuộc tính (Restriction on quantification of property values): định lượng với (all values from…), định lượng tồn (some values from…) Lưu ý ràng buộc định nghĩa dựa thuộc tính sử dụng với lớp cụ thể Để ràng buộc tổng quát phạm vi thuộc tính, người ta dùng cấu trúc range RDFS

5 Ràng buộc lực lượng (Cardinality restriction): lực lượng bị giới hạn cận cận giá trị xác Ví dụ, để đội bóng đá có xác 11 cầu thủ hợp lệ

(33)

22

1.3.4.3 Những tính bổ sung OWL Full OWL-DL

1 Lớp liệt kê (Enumerated classes): định nghĩa lớp dựa liệt kê cá thể Ràng buộc giá trị thuộc tính (Property value restriction): ràng buộc thuộc tính

trên giá trị cụ thể Ví dụ, lớp cầu thủ Brazil tất cầu thủ mà thuộc tính quốc gia họ có giá trị Brazil

3 Tính rời lớp (Disjointness of classes): hai phiên OWL cho phép tuyên bố tính rời lớp

4 Định nghĩa lớp dựa tập hợp (Set-based class definition): định nghĩa lớp dựa Tập-kết hợp lớp khác xác định phép hợp, giao, phần bù

Với việc hỗ trợ tập tính phong phú, Ontology OWL biểu diễn tri thức phức tạp xác Bộ suy diễn suy ba bổ sung dựa luật suy diễn kéo theo định nghĩa trước

1.4

Tìm kiếm ngữ nghĩa

Tìm kiếm ngữ nghĩa phương pháp cải thiện độ xác tìm kiếm cách hiểu mục đích người tìm kiếm ý nghĩa theo bối cảnh thuật ngữ tìm kiếm chúng xuất khơng gian liệu tìm kiếm, mạng hay hệ thống khép kín, để sinh kết phù hợp

Tìm kiếm ngữ nghĩa thể mạnh vượt trội Web ngữ nghĩa lĩnh vực tìm kiếm thơng tin Khác với mơ tơ tìm kiếm truyền thống tập trung đếm tần số xuất từ, mơ tơ tìm kiếm ngữ nghĩa cố gắng hiểu ý nghĩa ẩn tàng bên truy vấn người dùng bên thông tin phản hồi Dựa vào tìm hiểu cơng trình [87], luận án nhận thấy tìm kiếm ngữ nghĩa có dạng thức sau:

• Tìm kiếm dựa giao diện người dùng theo ngữ nghĩa: hệ thống tìm kiếm thơng tin theo truy vấn ban đầu, người dùng dựa vào thông tin chọn thông tin bổ sung cho truy vấn ban đầu Hệ thống dựa vào tìm kiếm xếp lại thông tin trả cho người dùng

• Tìm kiếm hỏi đáp: hệ thống tìm kiếm trả lời tương ứng cho câu hỏi tài liệu chứa câu trả lời

• Truy tìm tài liệu ngơn ngữ có cấu trúc: hệ thống truy tìm thơng tin thể tài liệu ngơn ngữ có cấu trúc ví dụ sử dụng ngơn ngữ RDF, sử dụng ngơn ngữ OWL

• Truy tìm tài liệu ngôn ngữ tự nhiên: hệ thống sử dụng ngôn ngữ tự nhiên để thể truy vấn, truy tìm tài liệu viết ngơn ngữ tự nhiên Trong trình tìm kiếm, truy vấn tài liệu thích ngữ nghĩa Các tài liệu trả xếp hạng theo độ liên quan với truy vấn

1.4.1 Các ngôn ngữ truy vấn RDF

Tìm kiếm ngữ nghĩa thực thơng qua phương tiện ngôn ngữ truy vấn ngữ nghĩa Ngôn ngữ truy vấn ngữ nghĩa ngôn ngữ cung cấp tảng cho trích rút thơng tin từ đồ thị ngữ nghĩa Trong đồ thị ngữ nghĩa thông tin biểu diễn đỉnh đồ thị liên kết với cạnh Cấu trúc đồ thị mơ tả ontology định nghĩa loại đỉnh, loại cạnh cạnh liên kết với đỉnh để tạo thành đồ thị có hướng

Nghiên cứu ngôn ngữ truy vấn RDF phân chia chúng thành ba nhóm vào khác biệt mơ hình liệu, tính diễn tả, hỗ trợ thông tin lược đồ kiểu truy vấn Ba nhóm là:

(34)

23

• RQL [89] mở rộng SeRQL [90]: nhóm có điểm chung hỗ trợ kết hợp truy vấn liệu lược đồ Mơ hình liệu RDF sử dụng lệch so với mơ hình liệu chuẩn RDF RDFS, làm chu trình phân cấp bao hàm yêu cầu miền xác định miền giá trị định nghĩa cho thuộc tính Mặt khác, ngôn ngữ phức tạp khiến khả biểu diễn yếu so với SPARQL

• TRIPLE [91]: vừa ngơn ngữ truy vấn vừa ngơn ngữ luật TRIPLE khơng có khả phân biệt luật truy vấn TRIPLE không tin cậy cho phép thực luật không chắn Các ngữ nghĩa mong muốn tiết hóa thành tập luật với truy vấn TRIPLE không hỗ trợ kiểu liệu

1.4.2 SPARQL

SPARQL (SPARQL Protocol and RDF Query Language) [51] ngôn ngữ truy vấn liệu RDF phát triển nhóm RDF Data Access Working Group W3C khuyến cáo thức từ năm 2008 ưu điểm so với ngôn ngữ truy vấn khác Triple, RDQL, RQL, SeRQL v.v SPARQL giúp truy vấn thơng tin từ Ontology nhanh chóng hiệu SPARQL hỗ trợ hầu hết tính truy vấn cần có là: hỗ trợ mơ hình liệu RDF, tính đóng, tính đầy đủ, tính trực giao, biểu thức đường dẫn, OPTIONAL Path, phép hợp UNION, phép hiệu DIFFERENCE, định lượng, tổng hợp gom nhóm

Chính SPARQL lựa chọn tốt cho truy vấn ngữ nghĩa Dưới số dạng truy vấn SPARQL thường dùng:

1.4.2.1 Truy vấn SELECT…WHERE

Truy vấn dạng gồm mệnh đề:

• Mệnh đề SELECT biến cần tìm

• Mệnh đề WHERE mẫu đồ thị - điều kiện cần khớp biến Ví dụ:

select ?uri ?label where {

?uri rdf:type BKSport:Stadium ?uri rdfs:label ?label

filter(lang(?label)=’en’)

?uri BKSport:hasLocation ?location

?location BKSport:isPartOf BKSport:manchester-city ?uri BKSport:isWellKnown “true”^^xsd:boolean }

1.4.2.2 Truy vấn ASK

Truy vấn tương tự truy vấn SELECT…WHERE có điểm khác sau:

• Khơng cần biến cần lấy giả trị, cần mẫu đồ thị

• Kết trả giá trị logic: o True: tồn lời giải

o False: không tồn lời giải Ví dụ:

ask {

BKSport:manchester-city-footballclub rdf:type BKSport:FootballClub }

(35)

24

1.5

Kho liệu ngữ nghĩa mở

Công nghệ Web ngữ nghĩa cung cấp môi trường để tạo xuất liệu có cấu trúc Web Theo Tim Berners-Lee, siêu liệu hữu ích hơn, biểu diễn với từ vựng chung (tái sử dụng ontology có) kết nối tới tập liệu khác Web (các liên kết tập liệu) Từ nhu cầu này, thuật ngữ Dữ Liệu Liên Kết đưa Tim Berners-Lee ghi ông kiến trúc Web Dữ Liệu Liên Kết Thuật ngữ nói đến trình bày, chia sẻ kết nối liệu có cấu trúc Web ngữ nghĩa Giá trị tính hữu dụng liệu tăng kết nối với liệu khác Khi liệu công bố Web ngữ nghĩa kết nối với tập liệu khác, việc khám phá thơng tin cải thiện Dữ Liệu Liên Kết kết nỗ lực cộng đồng Dự án cộng đồng Dữ Liệu Mở Liên Kết nhóm W3C Semantic Web Education and Outreach hướng đến tăng cường Web Dữ Liệu Liên Kết cách xuất tập liệu mở khác định dạng RDF Web cách kết nối chúng tới nguồn liệu khác

Một số ví dụ Dữ Liệu Liên Kết là: DBpedia [92], Faceted DBLP [93], Geonames [94] DBpedia nỗ lực cộng đồng nhắm đến trích xuất thơng tin có cấu trúc từ Wikipedia xuất thông tin Web ngữ nghĩa liên kết tài nguyên tới tập liệu khác Cơ sở liệu thư mục học DBLP cung cấp siêu liệu báo khoa học, hội nghị, tạp chí tác giả Geonames cung cấp siêu liệu liệu địa lý (ví dụ tên địa điểm ngôn ngữ khác nhau, dân số v.v) vĩ độ/ kinh độ địa điểm

Hình 1.5 minh họa phần liệu liên kết mở Web đến ngày tháng năm 2019

FOAF

MusicBrainz

DBTune

Jamendo

US

Census

Data

Geonames

Revyu

Project

Gutenberg

RDF

Book

Mashup

DBLP

DBpedia

World

Factbook

Hình 1.5Một phần Dữ Liệu Liên Kết Mở Web, ngày tháng năm 2019 [95] Nguyên lý Dữ Liệu Liên Kết

(36)

25

• Sử dụng URI để định danh vật (các tài nguyên)

• Sử dụng HTTP URI để người ứng dụng tìm kiếm tra cứu URI qua giao thức HTTP

• Khi người tra cứu URI, phải cung cấp thơng tin hữu ích sử dụng chuẩn RDF, SPARQL

• Liên kết với liệu khác Mô tả tài nguyên cần chứa liên kết tới URI liên quan phát biểu RDF liên kết rdfs:seeAlso owl:sameAs Trong đơn vị Web siêu văn tài liệu HTML kết nối với siêu liên kết không định kiểu, Dữ Liệu Liên Kết dựa tài liệu chứa liệu định dạng RDF Tuy nhiên, thay đơn giản kết nối tài liệu đó, Dữ Liệu Liên Kết sử dụng RDF để tạo tuyên bố định kiểu, liên kết vật riêng lẻ Kết thu mà gọi Web Dữ Liệu, hiểu cách xác Web vật, mô tả liệu Web

1.6

Một số lĩnh vực ứng dụng Web ngữ nghĩa

1.6.1 Thương mại điện tử

Lĩnh vực sau thương mại điện tử có nhiều khả hưởng lợi nhờ việc đời công nghệ Web ngữ nghĩa Quản lý chuỗi cung ứng điện tử (eSCM) khái niệm đưa để đáp ứng yêu cầu khả thích ứng linh hoạt môi trường thương mại điện tử động, tập trung vào tích hợp mạng thơng qua liên kết điện tử cấu trúc dựa quan hệ kích hoạt cơng nghệ Chuỗi cung ứng thân mạng lưới động phức tạp liên quan đến nhiều nhà cung cấp, nhà sản xuất, nhà kho, nhà bán lẻ, khách hàng Ali Ahmad cộng đề xuất phương pháp luận xây dựng ontology cho lĩnh vực quản lý chuỗi cung ứng sở nhận thức ontology giúp cho việc chia sẻ tri thức giao tiếp bên liên quan hệ thống trở nên hiệu [15]

1.6.2 Chăm sóc sức khỏe khoa học đời sống (HCLS)

Trong [97], tác giả cho hoạt động quản lý tri thức chăm sóc sức khỏe tập trung vào việc thu thập lưu trữ thông tin thiếu khả chia sẻ chuyển giao tri thức hệ thống tổ chức để hỗ trợ hiệu công việc người dùng cá nhân Công nghệ Web ngữ nghĩa cho phép tích hợp thơng tin sức khỏe, cung cấp suốt cho tiến trình liên quan đến chăm sóc sức khỏe bao gồm tất thực thể bệnh viện, bên liên quan hiệu thuốc, nhà cung cấp bảo hiểm, nhà cung cấp dịch vụ chăm sóc sức khỏe, phịng thí nghiệm lâm sàng Ứng dụng công nghệ tiên tiến khám phá quản lý tri thức có vai trị quan trọng lĩnh vực chăm sóc sức khỏe Trong [22], tác giả cho Web ngữ nghĩa khung làm việc phù hợp cho tốn quản lý tri thức quy mơ lớn phân tán Để ứng dụng hiệu công nghệ cần vượt qua thách thức phát triển phương pháp biểu diễn tri thức trực quan quán có sở vững cho nghiệp vụ Dumontier đề xuất sử dụng thuật ngữ ontology hình thức để biểu diễn mơ tả tri thức làm tăng liên tác ngữ nghĩa lĩnh vực

1.6.3 Chính phủ điện tử

(37)

26

về thơng tin có tính đến ngữ cảnh người dùng Hệ thống qua định việc hiển thị thông tin phù hợp với cá nhân Nghiên cứu tốn mà cơng nghệ Web ngữ nghĩa cần tiếp tục ứng dụng để giải chi phí lợi nhuận tổ chức, tham gia đóng góp chuyên gia, tích hợp cơng nghệ

1.6.4 E-Learning

Web ngữ nghĩa tảng phù hợp cho việc thực hệ thống e-Learning hoàn chỉnh, đáp ứng u cầu học lúc kiến thức Điều giải thích nghiên cứu [16] sau: ontology giúp mô tả tập hợp tài liệu học tập phân tán Web mà phù hợp với cá nhân người học Trước vào năm 2001, Stojanovic , Staab Studer nêu toán mà Web ngữ nghĩa trợ giúp e-Learning sau: người dùng cần tìm tài liệu học tập mong muốn, hệ thống cung cấp thông tin cách chủ động để tạo môi trường học tập động, tri thức cần cung cấp nhiều hình thức khác nhau, tạo tác tử đại diện cho người dùng có khả giao tiếp với tác tử khác để có tài liệu [98]

1.7

Một số nghiên cứu Web ngữ nghĩa tiêu biểu

1.7.1 Swoogle

Web ngữ nghĩa lĩnh vực nghiên cứu ngày phát triển có ứng dụng rộng khắp, nhiều lĩnh vực: y tế, nông nghiệp, truyền thông, thương mại điện tử, quản lý tri thức… Cũng ontology liệu ngữ nghĩa ngày phong phú Web Làm tìm kiếm ontology liệu ngữ nghĩa phù hợp, từ khai thác chúng người làm việc lĩnh vực Web ngữ nghĩa có vai trị quan trọng, ví dụ tái sử dụng ontology hay tích hợp liệu ngữ nghĩa Dự án nghiên cứu phát triển máy tìm kiếm ontology liệu ngữ nghĩa Li Ding cộng thực từ năm 2004 [7] Swoogle sản phẩm dự án nói đem lại nhiều tính hữu ích Ngồi việc cho phép tìm kiếm theo từ khóa, hệ thống cịn thực tìm kiếm theo ràng buộc thuộc tính lớp, làm bật thuộc tính cấu trúc thú vị Web ngữ nghĩa kết nối nào, ontology tham chiếu nào, ontology sửa đổi từ bên ngồi Hình 1.6 minh họa kiến trúc Swoogle

Hình 1.6 Kiến trúc Swoogle [7]

(38)

27

Thành phần khám phá liệu ngữ nghĩa tìm kiếm liệu ngữ nghĩa tiềm Web ln cập nhật liệu ngữ nghĩa Nó gồm hai thành phần chính, cụ thể Google Crawler Focused Crawler Google Crawler sử dụng dịch vụ Web Google để thu thập URL, với tập trung vào mở rộng kiểu “.rdf”, “.owl”, “.daml”, “.n3” Trong đó, Focused Crawler thu thập tài liệu bên Website tồn Để giảm độ phức tạp tìm kiếm tăng độ xác, Heuristic đơn giản ràng buộc mở rộng ràng buộc tập trung sử dụng để lọc tài liệu cho khơng thích hợp

Thành phần tạo siêu liệu gồm liệu Web ngữ nghĩa, siêu liệu liệu Web ngữ nghĩa sinh khách quan mức cú pháp mức ngữ nghĩa Siêu liệu liệu ngữ nghĩa thu thập để làm cho phép tìm kiếm liệu Web ngữ nghĩa trở nên có hiệu lực có hiệu Swoogle nhận ba loại siêu liệu: (1) siêu liệu bản, (2) quan hệ, (3) kết phân tích phân loại ontology hay sở liệu Web ngữ nghĩa, xếp hạng liệu Web ngữ nghĩa

Thành phần phân tích liệu sử dụng liệu ngữ nghĩa lưu trữ siêu liệu tạo để có báo cáo phân tích, chẳng hạn phân loại ontology Web ngữ nghĩa sở liệu Web ngữ nghĩa, hạng liệu Web ngữ nghĩa, số tìm kiếm thơng tin liệu Web ngữ nghĩa

Thành phần giao diện tập trung vào cung cấp dịch vụ liệu tới cộng đồng Web ngữ nghĩa Một giao diện Web thực http://www.swoogle.umbc.edu

1.7.2 Dự án ARTEMIS

Các hệ thống thông tin sức khỏe thường phục vụ riêng cho tổ chức y tế khác nhau, hạn chế việc trao đổi liệu truy nhập tính Cải thiện tính liên tác hệ thống cần thiết ARTEMIS [14] dự án nghiên cứu với mục tiêu giải vấn đề tính liên tác mức ngữ nghĩa mức chức Tính liên tác chức thực thông qua kiến trúc hướng dịch vụ, tính liên tác ngữ nghĩa tạo nhờ thích ngữ nghĩa dịch vụ Web nói Kết dịch vụ Web ngữ nghĩa tạo Hệ thống ARTEMIS có kiến trúc mạng ngang hàng Viện chăm sóc sức khỏe tham gia với vai trị phần tử Mỗi phần tử ngang hàng cung cấp giao diện tới hệ thống thơng tin chăm sóc sức khỏe phép chúng khám phá sử dụng dịch vụ Web cung cấp phần tử khác Ví dụ truy cập vào hồ sơ chăm sóc sức khỏe bệnh nhân, tiếp nhận bệnh nhân, hay hệ thống thơng tin phịng thí nghiệm Các dịch vụ Web ngữ nghĩa có đặc thù triệu gọi linh hoạt dựa ý nghĩa tính chúng Ontology giúp xây dựng dịch vụ ánh xạ dạng biểu diễn liệu khác tổ chức

1.7.3 Dartgrid

(39)

28

kiếm toàn văn tất CSDL Một số tính kỹ thuật bật cơng cụ ánh xạ ngữ nghĩa trực quan hóa, viết lại truy vấn SPARQL với nhiều khả suy luận bổ sung, giao diện người dùng truy vấn ngữ nghĩa dựa ontology, cơng cụ tìm kiếm dựa ontology với xếp hạng khái niệm điều hướng ngữ nghĩa

1.7.4 Kho nội dung Web ngữ nghĩa cho nghiên cứu lâm sàng

Các tiến y tế dẫn tới đời nhiều sở liệu lớn cho chuyên ngành riêng Các liệu lưu trữ riêng rẽ sở liệu với nhập nhằng khơng thống thuật ngữ gây khó khăn việc tích hợp, cản trở đổi nghiên cứu lâm sàng tin sinh học Dự án nghiên cứu bệnh viện Cleveland [8] có mục tiêu cải thiện khả bệnh viện cách sử dụng liệu bệnh nhân để sinh tri thức mới, cải thiện chăm sóc bệnh nhân tương lai thông qua nghiên cứu lâm sàng chiều dọc tiếp cận Web ngữ nghĩa lựa chọn để tạo kiến trúc tích hợp cho hệ thống

Kho chứa nội dung thống SemanticDB liệu bệnh nhân xây dựng thông qua phương pháp thu thập liệu, quản lý tài liệu, biểu diễn tri thức Nhóm nghiên cứu phát triển ứng dụng để chuyển đổi tự động liệu RDF Dữ liệu ngữ nghĩa biến đổi lưu trữ CSDL MySQL Kho nội dung kênh thơng tin cho tồn ứng dụng cung cấp tính tìm kiếm, tổng hợp, tóm tắt thơng tin bệnh nhân

Cơ chế suy diễn tri thức mới, hệ chuyên gia hỏi đáp bệnh nhồi máu tim phát triển Lợi ích sử dụng công nghệ Web ngữ nghĩa sử dụng thuật ngữ địa phương quen thuộc, hỗ trợ phần mở rộng mô hình hóa khơng dự kiến trước, hỗ trợ tự động hóa cao, tích hợp có độ xác cao ánh xạ với hệ thống thuật ngữ, hỗ trợ trả lời xác truy vấn có nghĩa

1.7.5 Ứng dụng Web ngữ nghĩa lĩnh vực nông nghiệp tổ chức

nông-lương thực Liên hiệp quốc (FAO)

Một nhiệm vụ trọng tâm tổ chức lương thực nông nghiệp Liên Hiệp Quốc (Food and Agriculture Organization of the United Nation) đưa thông tin tới người cần chúng Hoạt động gồm bốn lĩnh vực chính: (1) đưa thông tin vào tầm tay người dùng, (2) chia sẻ kinh nghiệm sách, (3) tạo nơi gặp gỡ cho quốc gia, (4) đưa tri thức vào thực tế Tuy nhiên tài ngun thơng tin nơng nghiệp có đặc tính phân tán khác nhau, khác biệt khuôn dạng, quan trọng mức độ bao phủ chuyên sâu khác Nhóm nghiên cứu Margherita Sini, Gauri Salokhe cộng [12] [9] nghiên cứu sử dụng Web ngữ nghĩa nhằm làm tốt mục tiêu

Ontology AgRIS xây dựng để bao gồm khái niệm, từ vựng cần thiết để mô tả nguồn tài nguyên thông tin nông nghiệp, tài liệu (ví dụ tổ chức, loại tài nguyên, loại chủ đề, tiêu đề tài liệu, người viết, nhà xuất bản…) Ontology giúp giải trở ngại gây không ngữ nghĩa nguồn liệu Ngồi ra, cịn dùng với bách khoa thư AGROVOC để mở rộng truy vấn tìm kiếm Một cổng thơng tin xây dựng cho phép người dùng tra cứu tìm kiếm báo tạp chí Lương thực, Dinh dưỡng Nông nghiệp (FNA) bao trùm nhiều chủ đề khác Các báo có metadata mơ tả sử dụng AGRIS cho phép thực tìm kiếm ngữ nghĩa, tìm kiếm xác theo từ đồng nghĩa

1.8

Website cổng thông tin tin tức có ngữ nghĩa

(40)

29

Ontology Web ngữ nghĩa để đem đến tảng cho việc tích hợp cơng khai tất nguồn liệu cách tự động suốt Web

Cổng thơng tin hiểu điểm truy cập cho việc trình bày, trao đổi, thu thập thơng tin từ nhiều nguồn khác Internet site phục vụ cộng đồng cụ thể Trong nghiên cứu [23], Hyvưnen phân loại cổng thơng tin thành ba loại Loại thứ nhất, cổng thơng tin dịch vụ tập hợp tập lớn dịch vụ lại với Trong đó, cổng thơng tin cộng đồng hành động nơi gặp gỡ ảo cộng đồng, cổng thơng tin hướng thơng tin hoạt động kho chứa liệu

Cổng thông tin cho thấy giới hạn nghiêm trọng liên quan đến tiện ích cho tìm kiếm, truy cập, rút trích, diễn dịch xử lý thông tin Hướng áp dụng kỹ thuật Web ngữ nghĩa xây dựng cổng thơng tin có tiềm vượt qua hạn chế Mặt khác, cần cổng thông tin ngữ nghĩa có khả xuất nhiều nội dung Web ngữ nghĩa Dưới khái niệm cổng thông tin ngữ nghĩa đưa từ góc nhìn khác

Tác giả Abrahams [99] đưa khái niệm cổng thông tin ngữ nghĩa tập hợp tài nguyên dựa ontology với từ khóa tìm kiếm Việc tìm kiếm tài ngun cổng thông tin ngữ nghĩa thường dựa khai thác cấu trúc ontology nêu

Trong [100] Holger Lausen cộng sự, cổng thông tin ngữ nghĩa định nghĩa Website cung cấp thông tin trao đổi tiện ích cho cộng đồng có mối quan tâm dựa việc sử dụng cơng nghệ Web ngữ nghĩa

Theo Hyvưnen [23], cổng thông tin ngữ nghĩa dựa chuẩn Web ngữ nghĩa Trong đó, Web ngữ nghĩa bao gồm metadata, ontology, luật để biểu diễn có cấu trúc, tính mở rộng cho thiết kế cổng thơng tin truyền thống

Việc áp dụng Web ngữ nghĩa vào cổng thơng tin đem lại lợi ích cho nhiều đối tượng khác nhau:

• Đối với người sử dụng, hệ thống cung cấp cho người sử dụng nhìn tổng quát tới nội dung phân tán phi nhất, tự động tổng hợp thông tin [101], tìm kiếm ngữ nghĩa theo metadata giúp cho việc tìm kiếm xác Reynolds Shabajee [101] giải thích ưu việt tính tìm kiếm khả biểu diễn ý nghĩa câu hỏi dựa tập từ vựng kiểm soát (ontology) trả kết phù hợp Một số lợi ích khác hiển thị ngữ nghĩa khuyến nghị nội dung cho người sử dụng, cung cấp dịch vụ thơng minh khác cá nhân hóa giao diện [102], trực quan hóa ngữ nghĩa khám phá tri thức

• Đối với nhà xuất nội dung, cổng thơng tin có ngữ nghĩa cho phép tạo nội dung phân tán, trì liên kết tự động dựa vào metadata ontology, tạo kênh xuất thơng tin chia sẻ để giảm chi phí, bổ sung ngữ nghĩa cho loại thông tin khác, tăng khả tái sử dụng nội dung Ví dụ, cộng đồng quan tâm chia sẻ truy cập tới thông tin sở sử dụng cấu trúc duyệt, phương tiện tìm kiếm định dạng trình bày khác

• Các nhà phát triển sử dụng ontology việc mơ hình hóa cấu trúc cổng thơng tin Điều giúp cổng thơng tin có khả hỗ trợ trao đổi liệu cộng đồng chuyên môn dễ dàng xử lý tự động thông tin

Các tiểu mục trình bày số dự án nghiên cứu cổng thông tin ngữ nghĩa

1.8.1 Dự án SWEPT

(41)

30

1.8.2 Dự án ARKive

ARKive [101] [103] dự án chứng tỏ rõ ràng cho lợi phi tập trung cổng thông tin ngữ nghĩa Cổng thông tin xuất thực thể đa phương tiện miêu tả lồi có nguy tuyệt chủng Dự án nhận thấy cộng đồng người dùng có mối quan tâm khác cần duyệt cổng theo nhiều cách khác nhau, tìm kiếm thơng tin theo tiêu chí khác Do đó, thơng tin cần trình bày giao diện tùy biến theo nhu cầu họ Giải pháp nhóm nghiên cứu đưa sử dụng ontology làm cấu trúc xương sống cho tài nguyên cổng thông tin ARKive Sau đó, cộng đồng người dùng bổ sung thêm phân loại riêng, thích, giao diện duyệt phù hợp với nhu cầu họ Ngoài ra, liệu ARKive dễ dàng tích hợp với liệu từ cổng thông tin khác

1.8.3 Cổng thông tin Esperonto

Cổng thông tin Esperonto [25] tảng cho dự án EU Esperonto Nó sinh từ cổng thông tin tri thức ODESeW phát triển nhóm nghiên cứu đại học Politécnica de Madrid Cổng thông tin Esperonto sử dụng ontology lĩnh vực cụ thể Project ontology, Meeting ontology, Documentation ontology, Organization ontology, Person ontology Lược đồ ontology thể thay đổi nhà quản trị thành viên đăng ký Người sử dụng cổng thông tin phân loại thành nhà quản trị, người sử dụng khách, thành viên Mục thông tin tạo tự động công bố cho người sử dụng cổng thông tin Ba mức truy cập cổng thông tin Esperonto tìm kiếm dựa từ khóa, duyệt ontology truy tìm tất thể cho khái niệm khái niệm bước duyệt, tìm kiếm dựa ontology Điểm mạnh cổng thơng tin Esperonto tiện ích quản lý ontology dựa WebODE [80] Tuy vậy, giao diện người dùng cổng thông tin Esperonto không thân thiện cho người sử dụng, tính xử lý truy cập thơng tin cịn số hạn chế Thêm vào cổng khơng cung cấp chức cá nhân hóa

1.8.4 Mondeca ITM

Mondeca ITM (Intelligent Topic Manager) [26] tảng phát triển công cụ cho hệ thống quản lý tri thức thu thập tri thức tự động dựa công nghệ Web ngữ nghĩa, ontology xử lý ngôn ngữ học Nó tạo Mondeca – nhà cung cấp phần mềm cho thị trường tổ chức tài liệu quản lý tri thức

ITM sử dụng kỹ thuật biểu diễn ontology Topic Map để mô hình hóa tri thức nội dung cổng thơng tin Nó sử dụng thêm ontology biểu diễn OWL để mô tả liệu quản lý Hệ thống cung cấp tính quản lý soạn thảo ontology đơn giản không hỗ trợ công cụ suy diễn Các nhà phát triển sử dụng hàm API Mondeca ITM với đầu định dạng XML, chưa thể hưởng lợi từ dịch vụ Web hay dịch vụ Web ngữ nghĩa hệ thống khác

Hệ thống hỗ trợ ba chức truy cập thơng tin: duyệt cấu trúc, tìm kiếm qua từ khóa, tìm kiếm ngữ nghĩa Ba chức giúp người dùng tìm kiếm duyệt thông tin cách trực quan Tuy nhiên việc hỗ trợ cá nhân hóa người dùng khơng thiết lập quyền họ Mondeca ITM dùng nhiều hệ thống tri thức khiến cho hệ thống trở nên phức tạp Ưu điểm bật Mondeca ITM chọn khái niệm tìm khái niệm ontology khai thác tốt vào q trình truy cập thơng tin, tạo bảo trì thơng tin

1.9

Ứng dụng Web ngữ nghĩa lĩnh vực thể thao

Đã có vài nghiên cứu ứng dụng cơng nghệ Web ngữ nghĩa lĩnh vực thể thao chưa nhiều

(42)

31

Một số nghiên cứu khác thích ngữ nghĩa hình ảnh, đoạn phim quay thi đấu thể thao Falcon-S [41] thu thập Web để lấy hình ảnh thuộc lĩnh vực bóng đá, phân tích bối cảnh hình ảnh đó, lập mục chúng theo đối tượng đội bóng, cầu thủ v.v mà có sở tri thức Nhóm tác giả [105] giới thiệu khung chung cho thích ngữ nghĩa, lập mục tìm kiếm trận thi đấu thể thao dựa văn web-casting video thể thao phát quảng bá Trong khung này, họ đề xuất tiếp cận cho phân tích văn bản, phân tích video, chỉnh văn bản/video tìm kiếm cá nhân hóa

Một số tổ chức xây dựng Ontology thể thao Hãng truyền thơng BBC [106] [107] có nghiên cứu sử dụng Ontology kho liệu ngữ nghĩa Dbpedia tích hợp CSDL thuộc nhiều lĩnh vực Muthu lakshmi Uma [108] xây dựng Ontology giáo dục trực tuyến cung cấp ngữ nghĩa mong muốn cho người học lĩnh vực thể thao

1.10

Tiếp cận Web ngữ nghĩa xây dựng hệ thống tin tức thể thao

Như trình bày trên, cơng nghệ Web ngữ nghĩa đem lại nhiều lợi ích áp dụng vào hệ thống thông tin, phần mềm nhiều lĩnh vực khác Chức hệ thống thơng tin, cổng thơng tin tra cứu cải thiện Nhiều nghiên cứu ứng dụng Web ngữ nghĩa phát triển tính tra cứu, đánh dấu thơng tin (bookmark) [11] mở rộng tìm kiếm dựa thuật ngữ ontology [12] [9] Web ngữ nghĩa giúp nâng cao chất lượng xử lý thông tin chẩn đốn, tìm kiếm thơng minh dựa suy diễn ngữ nghĩa [8] [12]

Ngữ nghĩa mô tả dịch vụ Web giúp việc xử lý tự động hóa Các khái niệm, thơng tin, tri thức có cấu trúc phức tạp chưa có thống cách thức biểu diễn mơ hình hóa sử dụng ontology [9] Việc tích hợp sử dụng ontology giúp giảm thiểu giải vấn đề nhập nhằng thuật ngữ CSDL, hệ thống hệ thống tổng thể [8]

Khảo sát cho thấy ứng dụng Web ngữ nghĩa lĩnh vực thể thao nói chung tin tức thể thao chưa quan tâm Với kết nghiên cứu ứng dụng Web ngữ nghĩa công bố, luận án lựa chọn Web ngữ nghĩa tiếp cận chủ đạo việc giải hạn chế tìm kiếm, xếp, trực quan hóa thông tin nhằm đạt mục tiêu nghiên cứu chung

Tư tưởng chủ đạo tiếp cận sau Đầu tiên với đơn vị thông tin hệ thống tin tức, cần tạo tầng ngữ nghĩa mơ tả mà người dùng quan tâm tin tức Thay lựa chọn mơ hình biểu diễn thơng tin truyền thống, luận án dựa mơ hình biểu diễn tin tức thể thao có ngữ nghĩa Điều dẫn đến việc nghiên cứu xây dựng ontology thể thao

Đặc thù hệ thống tổng hợp tin tức phải làm việc với số lượng lớn tin tức Việc sử dụng công cụ biên tập thích ngữ nghĩa thủ cơng chắn chưa phải giải pháp tồn diện Bài tốn quan trọng nghiên cứu phương pháp, kỹ thuật để sinh thích ngữ nghĩa cho số lượng lớn tin tức

Sau có thích ngữ nghĩa cho tin tức, tốn nghiên cứu khai thác chúng để tạo hệ thống tổng hợp tin tức mục tiêu mà luận án hướng tới Luận án đặt trọng tâm vào việc cải tiến tính tìm kiếm gợi ý tin tức, ứng dụng công nghệ ngữ nghĩa

Như vậy, công nghệ ngữ nghĩa công nghệ tảng xuyên suốt ba toán nghiên cứu luận án: sinh thích ngữ nghĩa, tìm kiếm ngữ nghĩa tin tức, gợi ý tin tức dựa ngữ nghĩa Ở mục luận án đề xuất mơ hình kiến trúc cho hệ thống tổng hợp tin tức thể thao Kiến trúc tổng thể minh họa tiếp cận Web ngữ nghĩa thể thành phần hệ thống Đồng thời, làm rõ vai trị thành phần mối quan hệ chúng

1.11

Mơ hình kiến trúc hệ thống tổng hợp tin tức thể thao

(43)

32

dụng mơ hình có ngữ nghĩa sau xử lý tin tức dựa khai thác mơ hình ngữ nghĩa Ba nhiệm vụ nghiên cứu cụ thể (1) phương pháp sinh thích ngữ nghĩa từ tin tức thể thao, (2) phương pháp tìm kiếm ngữ nghĩa tin tức thể thao với câu truy vấn diễn đạt ngôn ngữ tự nhiên (3) gợi ý tin tức dựa ngữ nghĩa cho hệ thống tin tức thể thao Kết nghiên cứu thành phần quan trọng nằm hệ thống cần nghiên cứu Bên cạnh đó, hệ thống cần thành phần khác để hoạt động hệ thống tin tức hoàn chỉnh Kiến trúc tổng thể hệ thống tin tức thể thao có ngữ nghĩa mơ tả hình 1.7 sau:

Hình 1.7 Kiến trúc tổng thể hệ thống BKSport

Hệ thống tổng thể đặt tên BKSport Đối với người dùng, hệ thống hoạt động trang tin tức thơng thường mà người dùng xem tin tức tổng hợp từ số nguồn tin cậy, hỗ trợ tính tìm kiếm gợi ý tin tức

1.11.1Crawler

(44)

33

Trong tính cần có Crawler nêu [110], tính tươi mới, chất lượng tính bao phủ thơng tin quan trọng Luận án không đặt mục tiêu nghiên cứu kỹ thuật thu thập tin tức để phát triển web crawler mà sử dụng kỹ thuật công bố Các tin tức thể thao lấy nhờ crawler phân tích giữ lại thông tin cần thiết tiêu đề, mơ tả, nội dung, đường dẫn ảnh… Sau đó, chúng lưu vào sở liệu tin tức (News Database) để thành phần sinh thích ngữ nghĩa truy cập để hiển thị hệ thống cho người dùng cuối

1.11.2Ontology thể thao

Trong hệ thống ứng dụng Web ngữ nghĩa, ontology ln đóng vai trị thiết yếu Ontology cung cấp tập từ vựng có kiểm sốt, định nghĩa cách chặt chẽ để biểu diễn thông tin, liệu, tri thức miền lĩnh vực ứng dụng quan tâm Trong hệ thống tin tức thể thao đề xuất, ontology thể thao quan trọng, xây dựng đặt tên BKSport Ontology cung cấp tập từ vựng để tạo lên mơ hình ngữ nghĩa hệ thống Ontology BKSport nằm trung tâm hệ thống đóng vai trị dẫn dắt hoạt động thành phần quan trọng khác hệ thống Cụ thể thành phần thích ngữ nghĩa, nơi tạo thích ngữ nghĩa tin tức thể thao, thuật tốn sinh thích ngữ nghĩa phải khai thác thành phần từ vựng ontology BKSport kết hợp với nội dung văn để tạo ngữ nghĩa trình sinh thích ngữ nghĩa

Trong thành phần cổng thơng tin, chức quan trọng tìm kiếm ngữ nghĩa cách thơng minh, xác ontology BKSport sử dụng diễn đạt câu hỏi ngữ nghĩa để máy tính hiểu Trong nghiên cứu chức tìm kiếm ngữ nghĩa câu hỏi tự nhiên luận án, vấn đề đặt chuyển đổi suốt câu hỏi ngôn ngữ tự nhiên sang dạng truy vấn ngữ nghĩa, phương pháp thuật toán để thực điều phải làm theo cách cho tương ứng thành phần ngơn ngữ tự nhiên với thành phần có ontology BKSport

Với vai trò quan trọng ontology BKSport kiến trúc hoạt động hệ thống tổng hợp tin tức thể thao nêu trên, tác giả thấy thành công hệ thống phụ thuộc vào chất lượng ontology BKSport xây dựng lên Chất lượng ontology BKSport định chất lượng hiệu làm việc thành phần khác hệ thống Một ontology BKSport chất lượng cao cần đảm bảo u cầu: đầy đủ, xác, khơng dư thừa, khơng nhập nhằng

• Đầy đủ để diễn đạt thơng tin thành phần cần mảnh thông tin, nội dung, sắc thái, ý nghĩa tin tức thể thao …

• Chính xác để diễn đạt quan hệ thành phần thơng tin, khơng xác dẫn đến sai lệch thuật toán xử lý, diễn đạt sai ý nghĩa

• Và khơng dư thừa, nhập nhằng Chức quan trọng hệ thống ngữ nghĩa giúp cho máy tính hiểu yêu cầu người dùng …muốn khái niệm không nhập nhằng, không dư thừa

1.11.3Sinh thích ngữ nghĩa

Hệ thống sinh thích ngữ nghĩa thành phần quan trọng cấu trúc hệ thống tổng hợp tin tức thể thao mà luận án cần xây dựng Nó thể ý tưởng cốt lõi nhiệm vụ trọng tâm nghiên cứu luận án Một cách khái quát, thành phần sinh thích ngữ nghĩa chịu trách nhiệm tạo nên thích ngữ nghĩa cho tin tức thể thao với đầu vào tài liệu HTML crawler lấy

(45)

34

Tác giả cài đặt thuật toán sinh thích khác nhau, có điểm chung dựa vào ontology sở tri thức Các kỹ thuật phân tích văn bản, xử lý ngơn ngữ tự nhiên kết hợp với cấu trúc thích ngữ nghĩa khác để tạo kiểu thích khác Các thích ngữ nghĩa tạo dạng metadata n-quad gắn với tin tức thể thao tương ứng, rời rạc Chú thích ngữ nghĩa tạo đầu vào lưu giữ kho liệu ngữ nghĩa hệ thống (Annotation Base)

1.11.4Cổng thông tin ngữ nghĩa

Cổng thông tin mặt mà người dùng nhìn nhận hệ thống Giống trang tin thể thao thơng dụng khác, gồm đầy đủ tính giúp cho người dùng xem tin tức, duyệt, liên kết tin tức liên quan Nó cung cấp mơi trường tích hợp để người dùng truy cập dễ dàng vào nguồn tin tức thể thao khơng máy tính để bàn, máy tính xách tay thiết bị di động

Trọng tâm thành phần thể kết nghiên cứu quan trọng thứ hai luận án, chức tìm kiếm ngữ nghĩa trang tin dựa việc cài đặt thuật tốn tìm kiếm ngữ nghĩa với câu hỏi ngôn ngữ tự nhiên (nội dung trình bày chi tiết chương luận án) Để làm điều phải thực thuật toán tự động chuyển đổi câu hỏi ngôn ngữ tự nhiên sang dạng câu hỏi ngữ nghĩa Câu truy vấn dạng ngôn ngữ tự nhiên trước tiên chuyển đổi truy vấn (Query Transformer) chuyển câu truy vấn SPARQL Bộ trả lời truy vấn (Query Answering) nhận câu truy vấn SPARQL truy vấn vào thành phần sở thích (Annotation Base) sở liệu tin tức (News Database) để lấy tin tức thông tin liên quan phục vụ hiển thị kết cho người dùng Kết trả cho người dùng tin tức phù hợp với ý nghĩa (ngữ nghĩa) câu hỏi

Ngoài ra, thành phần quan trọng khác cổng thông tin ngữ nghĩa phân hệ gợi ý tin tức (Recommender) Thành phần có chức tự động gợi ý tin tức khác có liên quan ngữ nghĩa nội dung với tin tức mà người dùng đọc Chương trình bày kết nghiên cứu luận án liên quan đến việc phát triển phân hệ Hướng nghiên cứu đề xuất thuật toán dựa yếu tố ngữ nghĩa để gợi ý khơng tin tức chủ đề với tin đọc mà cịn gợi ý tin tức nói thực thể có quan hệ ngữ nghĩa với tin tức mục tiêu

1.11.5Mô tơ suy diễn tìm kiếm ngữ nghĩa

Mơ tơ suy diễn tìm kiếm ngữ nghĩa loại máy ngữ nghĩa đặc thù Nó phần mềm, sản phẩm công nghệ thông tin, thường phát triển cộng đồng khoa học công nghệ công ty phần mềm lớn Trong hệ thống tổng hợp tin tức thể thao luận án, thành phần phục vụ cách tự động cho nhiều thành phần khác sinh thích ngữ nghĩa, tìm kiếm ngữ nghĩa Nó chịu trách nhiệm tìm kiếm ngữ nghĩa phép xử lý, tính tốn suy diễn liệu ngữ nghĩa bao gồm thích ngữ nghĩa ontology BKSport ontology với tập luật xây dựng dựa sở tri thức thể thao nạp vào mô tơ

Khi nhận câu truy vấn ngữ nghĩa, mơ tơ tìm kiếm Allegrograph dựa khả hiểu thuật ngữ, ý nghĩa, ngữ cảnh câu truy vấn, thực việc tìm kiếm cách xác sở thích ngữ nghĩa tin tức thể thao để lấy tin tức phù hợp với câu truy vấn gửi hệ thống

Đã có nhiều nghiên cứu chuyên sâu việc phát triển mô tơ ngữ nghĩa xuất sản phẩm thương mại hóa Hệ thống luận án sử dụng mô tơ ngữ nghĩa Allegrograph xây dựng công ty phần mềm Franz để suy diễn tìm kiếm ngữ nghĩa Tác giả khơng sâu nghiên cứu mô tơ suy diễn tìm kiếm ngữ nghĩa cơng việc địi hỏi có đầu tư nghiên cứu quy mô lớn

1.11.6Kho liệu ngữ nghĩa

(46)

35

kiếm ngữ nghĩa Việc quản lý bảo trì kho liệu địi hỏi người quản lý có chun mơn, theo dõi thường xun, liệu cập nhật bổ sung liên tục

Trong hệ thống luận án, kho liệu lưu trữ liệu dạng ba RDF Hiện tại, kho liệu luận án xây dựng tảng Allegrograph Framework Người dùng muốn khai thác thủ công kho liệu thơng qua Web View (giao diện Web) tra cứu, tìm kiếm thơng tin Tuy nhiên, với cách thức này, kết trả xử lý hoàn toàn người Đối với nhà phát triển dịch vụ Web nhà lập trình, họ khai thác liệu kho cách tự động thơng qua máy tìm kiếm ngữ nghĩa Thành phần cho phép khai thác tương tác trực tiếp với nhiều giao diện khác

1.12

Kết luận chương

Trong chương luận án trình bày cách tóm tắt kiến thức tảng cho nội dung chương Mục 1.1 giới thiệu nguồn gốc, khái niệm kiến trúc Web ngữ nghĩa Mục 1.2 mục 1.3 dành quan tâm đặc biệt đến ontology, ngôn ngữ biểu diễn ontology liệu ngữ nghĩa kiến thức áp dụng cho chương Mục 1.4 luận án đề cập đến tìm kiếm ngữ nghĩa để tìm phương pháp cải thiện độ xác tìm kiếm Mục 1.5 quan tâm đến kho liệu ngữ nghĩa mở Mục 1.6, mục 1.7, 1.8 trình bày số lĩnh vực ứng dụng Web ngữ nghĩa, số nghiên cứu Web ngữ nghĩa tiêu biểu, website cổng thông tin tin tức có ngữ nghĩa Mục 1.9 đề cập đến ứng dụng Web ngữ nghĩa lĩnh vực thể thao Trong mục 1.10, tác giả đề xuất tiếp cận Web ngữ nghĩa xây dựng hệ thống tin tức thể thao Mơ hình kiến trúc hệ thống tổng hợp tin tức thể thao trình bày mục 1.11 Cuối cùng, mục 1.12 kết luận chương

(47)

36

CHƯƠNG SINH CHÚ THÍCH NGỮ NGHĨA CHO

TIN TỨC THỂ THAO

Chương trình bày nghiên cứu sinh thích ngữ nghĩa cho tin tức thể thao, đây nhiệm vụ nghiên cứu luận án Sau trình bày sở lý thuyết toán sinh thích ngữ nghĩa cho tài liệu nghiên cứu liên quan, luận án đề xuất phương pháp cho phép tạo thích tin tức thể thao với ngữ nghĩa đặc thù cần thiết cho hệ thống tổng hợp tin tức Phương pháp cải tiến hiệu tác vụ nhận dạng thực thể có tên miền thể thao, sử dụng ontology sở tri thức Trên sở đó, luận án đề xuất thuật tốn sinh thích ngữ nghĩa cho tin tức thể thao (cụ thể tin tức bóng đá) dựa việc sử dụng luật (mẫu) trích chọn Một số thực nghiệm tiến hành cho phép đánh giá hiệu đạt thử nghiệm nghiên cứu thành phần

2.1

Đặt vấn đề

Tìm kiếm thơng tin xác, nâng cao trải nghiệm duyệt đọc tin, tổ chức tin tức cách phù hợp phân loại chúng theo chủ đề mục tiêu mà nhà phát triển hệ thống tin tức hướng đến Đó mục tiêu chung luận án Như thảo luận chương trước, hướng tiếp cận mà luận án lựa chọn hứa hẹn mang lại kết khả quan ứng dụng cơng nghệ Web ngữ nghĩa Ý tưởng xun suốt xây dựng mơ hình biểu diễn thông tin thống tường minh để thơng tin từ nhiều nguồn khác diễn đạt theo cách mà máy tính “hiểu” xử lý hiệu

Trong định nghĩa Tim Berners-Lee Web ngữ nghĩa, có phần đề cập trực tiếp đến siêu liệu, thích ngữ nghĩa Có thể thấy rằng, thích ngữ nghĩa thành phần thiếu hệ thống thông tin phần mềm dựa công nghệ ngữ nghĩa Một tư tưởng quan trọng tiếp cận nghiên cứu luận án mơ hình hóa tin tức thể thao thích ngữ nghĩa tin tức Mơ hình biểu diễn thơng tin có ngữ nghĩa giúp cho máy tính hiểu số ý nghĩa ngữ cảnh tin tức Do đó, để đạt mục tiêu nghiên cứu luận án, cần phải giải tốn: làm tạo thích ngữ nghĩa cho tin tức thể thao

Tạo thích ngữ nghĩa cho văn hay tài nguyên Web vấn đề nghiên cứu quan trọng lĩnh vực Web ngữ nghĩa Đã có nhiều phương pháp đề xuất, nhìn chung phân chia vào ba loại: phương pháp thủ công, bán tự động tự động Tuy nhiên, thích ngữ nghĩa định nghĩa nó, bao hàm mơ tả “ngữ nghĩa” mà người tạo muốn mơ tả chủ thể, có yêu cầu nội dung biểu đạt phụ thuộc vào lĩnh vực ứng dụng Ví dụ, với tin tức trận đấu bóng đá, ngữ nghĩa quan trọng thường kết trận đấu hay cầu thủ ghi bàn Với tin tức hậu trường, người đọc quan tâm muốn tìm kiếm thơng tin tun bố hay thái độ nhân vật thể thao

Các nghiên cứu liên quan, với phạm vi áp dụng lĩnh vực chung hay vài lĩnh vực cụ thể khác, giải phần yêu cầu thích ngữ nghĩa cho tin tức thể thao Do đó, luận án tập trung giải thách thức tồn tại, nghiên cứu phương pháp tạo thích có khả chứa đựng số ngữ nghĩa đặc thù, cần thiết sở cho việc xây dựng tính tìm kiếm, gợi ý tin tức hiệu

Dựa sở công nghệ Web ngữ nghĩa sẵn có, tác giả thấy mơ hình hóa tin tức thể thao thích ngữ nghĩa tin tức Mơ hình biểu diễn thơng tin có ngữ nghĩa giúp cho máy tính hiểu số ý nghĩa ngữ cảnh tin tức

(48)

37

trong kết nghiên cứu Mục 2.4 giới thiệu kết thu Mục 2.5 kết luận chương công việc tương lai

2.2

Chú thích ngữ nghĩa cho tài liệu

Chú thích ngữ nghĩa tiền đề để thực xử lý có ngữ nghĩa ví dụ, tìm kiếm ngữ nghĩa Chú thích ngữ nghĩa có quan hệ với nhiều bối cảnh ứng dụng khác nhau, ví dụ quản lý tri thức y tế, nông nghiệp, truyền thông, thương mại điện tử Nhiều hệ thống thực quy mô lớn triển khai sử dụng

2.2.1 Khái niệm

Thuật ngữ “chú thích” biểu thị q trình thích kết q trình Khi nói "chú thích", ám đến kết Chú thích gắn số liệu vào số liệu khác Nó thiết lập nên, bối cảnh đó, quan hệ định kiểu liệu thích liệu thích

Theo [111] phân biệt ba loại thích: a) Chú thích phi hình thức

b) Chú thích hình thức: định nghĩa cách hình thức thành phần máy hiểu chúng,

c) Chú thích dựa ontology: định nghĩa hình thức thành phần sử dụng thuật ngữ ontology mà người hiểu chấp nhận

Trong phạm vi luận án này, tác giả quan tâm đến thích dựa ontology tập trung vào thích ngữ nghĩa cho tài liệu

Khi phân tích khái niệm “chú thích ngữ nghĩa” Có nhiều cách hiểu thích ngữ nghĩa tùy theo góc độ:

Ở góc độ hành động, thích ngữ nghĩa cho tài liệu hiểu quy trình tạo mơ tả ngữ nghĩa tài liệu, chuyển đổi cấu trúc cú pháp tài liệu thành cấu trúc tri thức Trong trình này, thực thể văn liên kết tới mô tả ngữ nghĩa chúng thông qua việc kết nối mô hình ngữ nghĩa với ngơn ngữ tự nhiên

Ở góc độ kết quả, thích ngữ nghĩa cho tài liệu sinh siêu liệu cụ thể lược đồ sử dụng để tạo điều kiện cho tìm kiếm dựa khái niệm, suy luận tài ngun Web trực quan hóa thơng tin dựa ontology

Ở góc độ kỹ thuật, thích ngữ nghĩa thích đề cập đến khái niệm ontology (như lớp, thể hiện, thuộc tính, quan hệ) có văn bản, dựa vào siêu liệu đề cập đến URI chúng ontology Cụ thể hơn, thích ngữ nghĩa gắn thực thể (một chuỗi ký tự, câu, đoạn, phần ghi tài liệu) với siêu liệu mà ngữ nghĩa định nghĩa ontology Chú thích ngữ nghĩa giúp hệ thống dựa Web truyền thống mở rộng thành hệ thống dựa Web ngữ nghĩa thông qua việc gắn thêm ngữ nghĩa vào thơng tin có sẵn Web truyền thống Để việc thích ngữ nghĩa phù hợp chuẩn xác cần đến ontology Tập khái niệm, thuộc tính, quan hệ định nghĩa trước ontology làm cho thích ngữ nghĩa trở thành diễn đạt góc nhìn tốt cấu trúc nội dung tài liệu, loại bỏ nhập nhằng ngữ nghĩa tri thức cần mô tả

(49)

38

Hình 2.1 Ví dụ thích ngữ nghĩa

Chú thích ngữ nghĩa cho tài liệu thực tế hình thức hóa sử dụng ngôn ngữ RDF OWL

2.2.2 Các phương pháp tạo thích ngữ nghĩa

Thuật ngữ "chú thích ngữ nghĩa" hiểu theo nghĩa chung gắn liệu vào số phần liệu khác Cho tới tại, thích ngữ nghĩa phân loại thủ công, bán tự động tự động hồn tồn Nhóm hệ thống khác cấu trúc, phương pháp công cụ để rút trích thơng tin

Phương pháp thích thủ cơng

Đây phương pháp địi hỏi chuyên gia người trực tiếp thực trình thích tài nguyên (gắn thực thể với siêu liệu), chuyển tài nguyên cú pháp có thành cấu trúc tri thức liên kết cách thêm thông tin vào văn Một số công cụ phổ biến hỗ trợ thích thủ cơng CREAM OntoMat, SMORE, Amaya Các công cụ biên tập thủ công cho phép người mô tả ý nghĩa tài ngun Nó đem lại thích có chất lượng tin cậy xác so với thích tự động

Tuy nhiên, nhược điểm phương pháp cần nhiều thời gian công sức, thường áp dụng số trường hợp ứng dụng đặc biệt liệu để bổ sung cho phương pháp tự động/bán tự động

Phương pháp thích bán tự động

(50)

39

Phương pháp thích tự động

Đây phương pháp khơng cần đến can thiệp người trình thích Phương pháp tự động dựa thuật tốn phân tích nội dung tài ngun để sinh thích, dựa thuật tốn thống kê để thích ảnh video Nó áp dụng cần xử lý liệu quy mô lớn Đây nhiệm vụ quan trọng Web ngữ nghĩa Siêu liệu Web ngữ nghĩa tạo nhờ cơng cụ thích tự động với kết tốt dựa nhiều thuật toán học máy khác với tập huấn luyện Tuy nhiên, thuật tốn khơng có khả người để hiểu nội dung có ngữ nghĩa phức tạp, cịn có nhiễu Vì vậy, thích dựa thuật toán tự động cần phải cải tiến độ xác

Một số cơng cụ thích ngữ nghĩa tự động điển hình PANKOW [34], C-PANKOW [35], KIM [36] Trong KIM tảng thích tự động dựa hệ thống rút trích thơng tin GATE [30] với phần mở rộng Annie nhóm nghiên cứu quan tâm sử dụng

2.2.3 Một số nghiên cứu liên quan

Những nghiên cứu tập trung phát triển hệ thống biên tập thích ngữ nghĩa cách thủ cơng Một số ví dụ bật Semantator [27], M-OntoMat Annotizer [28], Annotea [29], Zemanta (http://www.zemanta.com)

Trong năm gần nhiều nghiên cứu [112] [113] [34] [33] [114] thực để phát triển hệ thống thích ngữ nghĩa tự động bán tự động Tuy nhiên, khơng có hệ thống thiết kế để làm việc cho lĩnh vực thể thao

Hệ thống Pankow (Pattern-based Annotation through Knowledge on the Web) [34] khai thác mơ hình bề mặt dư thừa liệu Web để tự động phân loại thực thể văn sử dụng ontology có sẵn Các mơ hình nhóm từ <Concept> <Instance> <Instance> <is_a> <Concept> Hệ thống xây dựng nên mơ hình cách nhận dạng tất tên riêng văn (sử dụng Part-of-Speech Tagger) kết hợp tên riêng với 58 khái niệm ontology vào giả thiết Sau giả thiết thử nghiệm với trang Web thông qua truy vấn Google số lượng xuất thước đo để đánh giá độ xác mơ hình Hiệu tốt hệ thống 24,9% hoàn toàn tự động, 62,09% hoạt động điều khiển chuyên gia người

SemTag [33] thành phần thích ngữ nghĩa tảng Seeker, dùng để thực việc thích trang Web quy mơ lớn Nó làm việc với ontology hạng nhẹ có tên TAP, bao gồm loạt thông tin từ vựng phân loại mục tin thơng thường Sau thích đề cập thực thể từ ontology TAP, SemTag thực thuật toán giải nhập nhằng dựa ngun tắc phân loại Nó sử dụng mơ hình vectơ không gian để gắn khái niệm để xác định đề cập không tương ứng với khái niệm ontology Độ xác tốt SemTag khoảng 82%, độ bao phủ chưa công bố

Trong [115], tác giả mơ tả hệ thống Asknet, hệ thống trích rút thông tin dành cho việc xây dựng liệu Web ngữ nghĩa quy mô lớn từ văn phi cấu trúc Trình tự trích rút thơng tin Asknet sau Đầu tiên cú pháp câu văn phân tích phân tích cú pháp C&C Giai đoạn nhận dạng thực thể có tên thực cách sử dụng đánh dấu NER C&C Sau câu phân tích, Asknet sử dụng mơ tơ phân tích ngữ nghĩa có tên Boxer để sinh biểu diễn logic bậc Hệ thống đạt độ xác tổng thể 79,1%

Nghiên cứu [38] đề xuất thuật toán dựa hạt nhân để trích rút quan hệ hai thực thể Họ đề xuất hạt nhân mới, gọi “hạt nhân làm giàu chức năng”, để vượt qua vấn đề nhập nhằng cú pháp truyền thống nhằm nắm bắt quan hệ ngữ nghĩa tốt

(51)

40

họ thiết kế mơ hình ngơn ngữ dựa lựa chọn báo PubMed Central Các thử nghiệm họ đạt độ xác 74,21%

Nhóm nghiên cứu [114] đề xuất tiếp cận để trích rút quan hệ ngữ nghĩa nhóm từ danh từ (các danh định) dựa phối hợp thông tin ngữ nghĩa cung cấp ResearchCyc để xử lý phân tích cú pháp sơ yếu Phương pháp đạt giá trị đo tổng thể F1 77,62% SemEval 2010

Trong hệ thống ứng dụng công nghệ Web ngữ nghĩa, nội dung thích định chức xử lý thông tin thông minh mà hệ thống cung cấp tới người dùng Trong luận án này, thông tin ngữ nghĩa thích cần hướng đến việc bổ sung “ý nghĩa” liệu mà người dùng quan tâm tìm kiếm – tra cứu tin tức Nói cách khác, thích ngữ nghĩa sinh cần biểu đạt mà chức tìm kiếm ngữ nghĩa hay gợi ý tin tức yêu cầu Khi truy cập trang tin thể thao, người đọc thường có ưu tiên muốn tìm kiếm thơng tin kết kiện thể thao trận đấu, hành động – hoạt động diễn Họ quan tâm đến thông tin gắn với nhân vật, tổ chức thể thao tiếng, hoạt động chuyển nhượng … Để hệ thống trả lời câu hỏi “Đội bóng đánh bại Barcelona tuần qua?” “Cầu thủ ghi bàn?” “Chuyện diễn Ronaldo Messi?”, cần có thích ngữ nghĩa chứa đựng thông tin tương ứng

Trong đó, kết nghiên cứu liên quan nói chưa đáp ứng yêu cầu cách thỏa đáng Đầu tiên, hệ thống tổng hợp tin tức thể thao tin tức thu thập từ nhiều nguồn nên có số lượng lớn có tần suất cập nhật cao Do đó, phương pháp tạo thích thủ công [27] [29] dành cho biên tập viên với mục đích thẩm định, nâng cao chất lượng thích Giải pháp khơng phù hợp để áp dụng tập toàn tin tức

Các nghiên cứu [35] [36] cho phép phát thực thể có tên, thiết kế cho tốn tổng quát nên phương pháp gán thực thể vào lớp thông tin là: Người, Tổ chức, Địa chỉ, Tiền tệ, Thời gian … Trong đó, SemTag sử dụng TAP ontology không hỗ trợ sử dụng ontology lĩnh vực khác Các nghiên cứu khác thực tác vụ lĩnh vực đặc thù y tế, sinh học

Một số phương pháp hướng đến việc phát quan hệ [114] [38] [39], nhiên chưa cho phép tạo ba ngữ nghĩa dạng RDF, OWL Ví dụ, [115] tạo biểu diễn logic bậc Phương pháp [39] xây dựng để áp dụng cho lĩnh vực y học, địi hỏi tri thức miền từ MetaMap PubMed, khơng khả thi để áp dụng vào lĩnh vực thể thao

Với phân tích nêu, tác giả thấy tốn sinh thích ngữ nghĩa lĩnh vực đặc thù thể thao toán mở, chưa có lời giải thỏa đáng Nghiên cứu phương pháp tự động tạo thích ngữ nghĩa cho số lượng lớn tin tức thể thao với thời gian xử lý ngắn độ xác tương đối có ý nghĩa quan trọng

2.3

Một phương pháp sinh thích ngữ nghĩa cho tin tức thể thao dựa

ontology luật trích chọn

2.3.1 Tổng quan phương pháp đề xuất

(52)

41

một phương pháp, kết tổng hợp nhiều nghiên cứu trải dài trình thực luận án

Các giai đoạn phương pháp tổng thể minh họa hình 2.2 đây:

0 Thiết kế Ontology Thu thập tiền xử lý

tin tức

1' Xây dựng sở tri thức thể thao

2 Nhận dạng, trích rút xác định lớp ngữ nghĩa cho thực thể có tên BKSport

Ontology

3 Trích rút ngữ nghĩa từ tin tức

Ngữ nghĩa ba đơn giản

Ngữ nghĩa tuyên bố gián tiếp

Ngữ nghĩa quan hệ chuyển nhượng

4 Sinh thích ngữ nghĩa dạng biểu diễn hình thức hóa (RDF/OWL) Ngữ nghĩa

thực thể quan trọng

Hình 2.2 Q trình thích ngữ nghĩa

Phương pháp chia làm bước, bước cụ thể giải thích tiểu mục từ 2.4.2 đến 2.4.6 không kể giai đoạn thu thập tự động tin tức từ nhiều nguồn World Wide Web lưu trữ sở liệu

• Bước thiết kế xây dựng ontology miền ứng dụng mà luận án đề cập tới

• Xây dựng sở tri thức thể thao dựa từ vựng ontology

• Nhận dạng thực thể có tên, xác định lớp ngữ nghĩa cho thực thể Đối với bước này, luận án đề xuất phương pháp cho phép nhận dạng thực thể có tên thuộc lĩnh vực thể thao có hiệu cao nghiên cứu liên quan

• Phát – trích rút ngữ nghĩa từ tin tức thể thao Thực chất bước bao gồm số phương pháp cụ thể luận án đề xuất nhằm sinh ngữ nghĩa khác tin tức thể thao Các phương pháp xây dựng trình thực luận án, công bố qua cơng trình khác Những ngữ nghĩa mà luận án phát khác biệt với phương pháp sinh thích ngữ nghĩa đề cập nghiên cứu liên quan Những ngữ nghĩa luận án đưa cụ thể là:

➢ Ngữ nghĩa ba đơn giản – diễn tả hoạt động, kiện diễn tin tức

➢ Ngữ nghĩa tuyên bố gián tiếp

➢ Ngữ nghĩa chủ đề quan trọng mà tin tức đề cập

➢ Ngữ nghĩa hoạt động chuyển nhượng tin tức thể thao

(53)

42

2.3.2 Xây dựng Ontology cho hệ thống

Đầu tiên, khẳng định – việc xây dựng ontology định nghĩa cách tường minh hình thức thành tố từ vựng đóng vai trị làm tảng biểu diễn tri thức miền ứng dụng thể thao nội dung quan trọng liên quan tới tất nghiên cứu luận án Ontology liên quan đến việc tạo thích ngữ nghĩa lẫn sinh truy vấn tìm kiếm ngữ nghĩa, ảnh hưởng tới thuật tốn gợi ý tin tức Vì vậy, xây dựng ontology thể thao tác vụ nằm quy trình sinh thích ngữ nghĩa Tuy nhiên, nội dung cách ontology thể thao BKSport xây dựng có ảnh hưởng lớn tới kết thuật tốn sinh thích ngữ nghĩa mà luận án đề xuất Đó lý nội dung tác giả định trình bày chương

Năm 1993 [62] Gruber định nghĩa “ontology đặc tả rõ ràng khái niệm hóa (được chia sẻ)” Các nguyên tắc định nghĩa Gruber để thiết kế xây dựng ontology sau:

• Rõ ràng khách quan: thuật ngữ cần định nghĩa ngôn ngữ tự nhiên sử dụng ontology cách rõ ràng khách quan

• Tính tồn vẹn: định nghĩa phải đầy đủ biểu thị ý nghĩa thuật ngữ cụ thể

• Tính qn: khơng có mâu thuẫn kết luận phát sinh từ tri thức lý luận ngữ nghĩa thuật ngữ

• Tối đa khả mở rộng chiều: không cần thiết phải sửa đổi thuật ngữ hành thêm thuật ngữ khái quát cụ thể vào ontology

• Tối thiểu ràng buộc: ràng buộc mơ hình nên giới hạn tốt Ontology BKSport xây dựng luận án tuân thủ nguyên tắc Gruber Đồng thời, để mở rộng tảng KIM thực nhận dạng thực thể có tên lĩnh vực thể thao, ontology thiết kế để tương thích với ontology PROTON

2.3.2.1 Ontology PROTON

Ontology PROTON tảng KIM cải tiến từ ontology KIMO PROTON mã hóa ngơn ngữ OWL Lite mạnh mẽ tiên tiến ngôn ngữ RDFS KIMO Nền tảng KIM sử dụng ontology PROTON để thích ngữ nghĩa tìm kiếm đa mơ hình cho tài liệu, liệu, tri thức Tổng quan toàn diện tảng KIM trình bày [36]

PROTON chứa khoảng 250 lớp 100 thuộc tính, cung cấp khái niệm khái quát cần thiết cho loạt tác vụ, bao gồm thích ngữ nghĩa, lập mục truy hồi tài liệu PROTON ontology có ưu điểm bật sau: độc lập miền, bao phủ tốt thực thể có tên người, tổ chức, địa điểm, số, địa chỉ, ngày tháng năm (cơ sở tri thức có khoảng 200.000 mô tả thực thể)

(54)

43

Hình 2.3 Các mơ đun ontology PROTON a) Mô-đun ontology PROTON System (protons.owl)

Ontology PROTON System có sẵn http://proton.semanticweb.org/2005/04/protons# Mơ-đun System PROTON chứa đựng phân loại số siêu từ vựng gốc mà chấp nhận số công cụ đặc thù có chứa thành phần PROTON cơng cụ thích ngữ nghĩa, cơng cụ truy cập tri thức Nó thành phần PROTON mà khơng thay đổi mục đích mở rộng ontology Mơ đun System có lớp thuộc tính, tham chiếu tiền tố "protons:"

6 lớp mô đun PROTON System protons:Entity, protons:EntitySource, protons:Recognized, protons:Trusted, protons:LexicalResource, protons:Alias mơ tả hình 2.4 Lớp protons:Entity gốc “thực sự” ontology, lớp cha mơ đun PROTON Top với nhiều lớp thực thể đa dạng Các lớp lại PROTON System xem lớp phụ trợ Các thể lớp cha protons:EntitySource dùng để lấy thông tin tin cậy sở tri thức từ thơng tin trích rút tự động Lớp protons:Recognized dùng để xác định nguồn (chẳng hạn chương trình mơ đun) mà có khả nhận dạng sinh thực thể từ văn với tư cách phận tác vụ khai phá liệu trích rút thơng tin Lớp protons:Trusted dùng để thực thể nhập từ nguồn “đáng tin cậy” World Fact Book, gazetteer GATE/MUSE/KIM … Lớp protons:LexicalResource dành riêng cho việc mã hóa dạng liệu khác hậu tố cơng ty (ví dụ, “AG”, “Ltd.”), tên người (ví dụ, Nicolas Sarkozy, Massaki Shirakawa) mà có liên quan đến q trình trích rút thơng tin khai phá liệu Lớp protons:Alias lớp quan trọng, dùng để diễn tả tên thể lớp protons:Entity

(55)

44

7 thuộc tính mơ đun PROTON System protons:description, protons:laconicDescription, protons:generatedBy, protons:hasAlias, protons:hasMainAlias, protons:systemPrimitive, protons:transitiveOver

Hai thuộc tính thích protons:systemPrimitive protons:transitiveOver Thuộc tính protons:systemPrimitive dùng để mã hóa thơng tin hệ thống với thể chúng thông tin có liên quan Những thơng tin khơng trình bày cho người dùng cuối, nhiên mơ đun giao diện người dùng trực quan hóa thực tế lọc từ gốc Thuộc tính protons:transitiveOver cho biết thuộc tính bắc cầu thuộc tính khác, nhờ ta thực việc mơ hình hóa mẫu hình đặc thù Ngữ nghĩa định nghĩa dựa vào tiên đề sau: (p, transitiveOver, q) (x, p, y) (y, q, z) ⇒ (x, p, z) Ví dụ cách sử dụng protons:transitiveOver sau: (locatedIn, transitiveOver, subRegionOf) (OldTraffordStadium, locatedIn, Manchester) (Manchester, subRegionOf, England) ⇒ (OldTrafford, locatedIn, England)

Hai thuộc tính liệu protons:description protons:laconicDescription Thuộc tính protons:description dùng để trình bày mơ tả văn thực thể dạng văn phi cấu trúc diễn tả ngơn ngữ tự nhiên Thuộc tính protons:laconicDescription dùng để trình bày mơ tả ngắn gọn (thường câu) thực thể protons:laconicDescription thuộc tính protons:description

Ba thuộc tính đối tượng protons:generatedBy, protons:hasAlias, protons:hasMainAlias Thuộc tính protons:generatedBy dùng để xác định bên mà đưa thực thể vào sở tri thức tương ứng, liên kết siêu lớp protons:Entity với siêu lớp protons:EntitySource mô đun PROTON System Thuộc tính protons:has Alias dùng để đề cập đến bí danh thực thể, liên kết lớp protons:Entity với lớp protons:Alias Thuộc tính protons:hasMainAlias dùng để đề cập đến bí danh thức (tức bí danh quan trọng nhất) thức thể, thuộc tính protons:has Alias

Các thuộc tính mơ đun PROTON System minh họa hình 2.5

Hình 2.5 Các thuộc tính mô đun PROTON System b) Mô đun ontology PROTON Top (protont.owl)

Ontology PROTON Top có sẵn http://proton.semanticweb.org/2005/04/protont#

Mô-đun Top PROTON mức khái niệm cao nhất, tổng quát nhất, bao gồm 20 lớp Mô đun ontology PROTON Top tham chiếu tiền tố “protont:” bắt đầu với lớp thiết yếu nhất: protont:Object, protont:Happening, proton:Abstract (chúng lớp lớp cha protons:Entity) Lớp protont:Object chứa thực thể hữu tác nhân, địa điểm, phương tiện giao thông Lớp protont:Happening chứa thực thể kiện tình Lớp proton:Abstract chứa thực thể trừu tượng mà không đối tượng (Object) biến cố (Happening) Sau đó, ba lớp nêu chuyên biệt hóa để có lớp mơ tả loại thực thể giới thực trọng yếu có tầm quan trọng chung như: họp, kiện thể thao, vị trí việc làm, phủ, tổ chức, người, địa điểm, số, thời gian, tiền bạc, giá trị cụ thể… Ngoài ra, loại thực thể có thuộc tính quan hệ đặc trưng mô đun PROTON Top hỗ trợ protont:subRegionOf, protont:hasPosition, protont:locatedIn, protont:hasMember …

(56)

45

Hình 2.6 Tóm lược mơ đun ontologyPROTON Top c) Mơ đun ontology PROTON Upper (protonu.owl)

PROTON Upper có sẵn http://proton.semanticweb.org/2005/04/protonu#

Mô đun PROTON Upper tham chiếu tiền tố “protonu:” nằm lớp thứ ba ontology PROTON Nó mở rộng mơ đun PROTON Top Các lớp, thuộc tính, tiên đề PROTON Upper nhánh thành phần tương ứng mơ đun PROTON Top Ví dụ, lớp protonu:Mountain lớp lớp protont:Location, lớp protonu:ResourceColection lớp lớp protont:InformationResource

Mô đun PROTON Upper bao phủ 200 lớp thực thể tổng quát mà thường xuất nhiều lĩnh vực phổ biến loại tổ chức khác nhau, hàng loạt địa điểm v.v

Một số lớp ontology PROTON upper protonu:BusinessAbstraction, protonu:Address, protonu:NaturalPhenomenon, protonu:SocialAbstraction, protonu:TemporalAbstraction, protonu:Meeting, protonu:JobTitle, protonu:Sport, protonu:Chairman, protonu:President, protonu:SportEvent, protonu:OlympicGames, protonu:SportGames, protonu:Tournament, protonu:Date, protonu:SportOrganization, protonu:SportClub, protonu:SoccerClub, protonu:Team, protonu:Man, protonu:Woman, protonu:Building, protonu:SportBuilding, protonu:Stadium, protonu:Country …

Một số thuộc tính đối tượng PROTON Upper protonu:hasCapital, protonu:hasProfession, protonu:hasTitle, protonu:officialPositionIn …

Một số thuộc tính liệu PROTON Upper protonu:datePublished, protonu:hasUnit, protonu:ISBN, protonu:ISSN, protonu:stockExchangeIndex …

(57)

46

Hình 2.7 Tóm lược mơ đun ontology PROTON Upper d) Mơ đun ontology PROTON KM (protonkm.owl)

PROTON KM có sẵn http://proton.semanticweb.org/2005/04/protonkm#

Mô đun PROTON KM (Knowledge Management) phát triển từ ontology SKULO chứa 38 lớp thực thể chuyên dụng dành riêng cho tác vụ ứng dụng quản lý tri thức điển hình PROTON KM tham chiếu thông qua tiền tố “protonu:” Mô đun PROTON KM Module phụ thuộc vào mô đun PROTON Sytem PROTON Top

Một số lớp mô đun PROTON KM protonkm:InformationSpace, protonkm:SoftwareAgent, protonkm:Profile, protonkm:InformationSpaceProfile, protonkm:User, protonkm:UserProfile, protonkm:Mention …

Một số thuộc tính liệu mơ đun PROTON KM protonkm:hasSartOffset, protonkm:hasEndOffset, protonkm:hasString …

Một số thuộc tính đối tượng mơ đun PROTON KM protonkm:occursIn, protonkm:refersInstance …

(58)

47

Hình 2.8 Các lớp thuộc tính mơ đun PROTON KM

2.3.2.2 Ontology thể thao hãng BBC

Ontology BBC Sport có sẵn http://www.bbc.co.uk/ontologies/sport/2011-02-17.shtml BBC hãng truyền thông dịch vụ công xây dựng Website Giải vơ địch bóng đá giới FIFA World Cup 2010 theo kiến trúc xuất ngữ nghĩa động [104] Hãng truyền thơng BBC [106] [107] có nghiên cứu sử dụng ontology

Ontology thể thao hãng BBC ontology hạng nhẹ đơn giản dùng để xuất liệu kiện thi đấu thể thao Nó mơ tả nhiều khía cạnh đa dạng thi đấu thể thao giải thưởng thi đấu làm để nhận nó, cạnh tranh tác nhân thi đấu, quy tắc thi đấu thể thao, cấu trúc giải đấu thể thao …

Trong mơ hình đồ thị ontology BBC đây, tác giả xác định số lớp (khái niệm) thuộc tính hữu ích cần thiết để mô tả tri thức ngữ nghĩa tin tức thể thao để từ chúng tái sử dụng kế thừa vào ontology BKSport

Hình 2.9 mơ tả phần ontology thể thao hãng BBC nước Anh

(59)

48

2.3.2.3 Xây dựng Ontology BKSport

Để phục vụ tác vụ sau nhận dạng thực thể có tên tin tức, phát ngữ nghĩa tìm kiếm ngữ nghĩa, luận án xây dựng ontology dành cho lĩnh vực thể thao đặt tên BKSport

Ontology BKSport thiết kế cho thỏa mãn yêu cầu sau: đầy đủ từ vựng để mô tả thông tin lĩnh vực thể thao, khả cung cấp khái niệm thuộc tính để biểu diễn kiện quan trọng tin tức thể thao Gruber nêu Một ví dụ “Rashford is a forward, and plays for Manchester United, head coach of which is Jose Mourinho” Một ví dụ khác “Real Madrid defeats Barcelona with score 2-0”

Ngoài ra, ontology BKSport phải tương thích với ontology PROTON để tái sử dụng tảng trích rút thơng tin KIM [36] KIM xây dựng để phục vụ miền mở, trang bị ontology mức cao (ontology PROTON) sở tri thức chứa số lượng lớn thực thể có tầm quan trọng chung Được phát triển khuôn khổ dự án SEKT (www.sektproject.com/), PROTON định nghĩa khoảng 250 khái niệm 100 thuộc tính cung cấp gần tất khái niệm cần thiết mức cao cho thích, lập mục tìm kiếm ngữ nghĩa Tuy nhiên, ontology PROTON định nghĩa khái niệm thuộc tính tổng qt Do đó, PROTON lựa chọn tảng để xây dựng ontology BKSport luận án Ontology BKSport dùng để nhận dạng tự động thực thể trích rút thơng tin từ văn bản, dùng để thích ngữ nghĩa mức cụ thể Ontology PROTON mở rộng để chứa đựng tri thức khái niệm mã hóa tập liệu phổ biến liệu mở liên kết DBpedia, GeoNames v.v Bốn nhóm từ vựng quan trọng thừa kế để mơ hình hóa ngữ nghĩa tin tức thể thao Person, Organization, Location Time Vì vậy, ontology BKSport có lớp thuộc tính mức thấp chi tiết tích hợp vào ontology PROTON KIM

Ontology BKSport giữ vai trò định hệ thống thích ngữ nghĩa, mơ tả thực thể giới thực môi trường lĩnh vực thể thao đặc tính mối quan hệ chúng Nó cần có tập từ vựng đầy đủ để mô tả thông tin tin tức thể thao tin tức chuyển nhượng Để đạt điều đó, bên cạnh việc dựa PROTON kết khảo sát số ontology thể thao, luận án cố gắng tái sử dụng số thuật ngữ phù hợp từ ontology BBC Các khái niệm thuộc tính tái sử dụng có mức độ chi tiết ngữ nghĩa mức độ trung bình, nằm mức khái quát tập từ vựng kế thừa từ PROTON chưa đủ chi tiết để diễn tả hết ngữ nghĩa tin tức thể thao

Cuối cùng, thực tác vụ phân tích tin tức bóng đá, luận án định nghĩa khái niệm quan trọng lĩnh vực thể thao cầu thủ, huấn luyện viên, câu lạc bộ, giải đấu … bổ sung quan hệ trọng điểm biểu diễn hoạt động thi đấu chuyển nhượng bóng đá Chúng thuộc tính liên kết khái niệm trừu tượng ontology BKSport Ví dụ, SportPerson, SportTeam, Defender, Forward, Goalkeeper, Midfielder, SportPerson move-to SportTeam, SportTeam sign-with SportTeam, SportTeam concern-with SportPerson, Coach buy Defender Có thể nói ontology BKSport có ba tầng ngữ nghĩa: tầng trừu tượng khái quát từ vựng kế thừa từ PROTON, tầng trung gian tái sử dụng phần từ ontology BBC Sport, tầng chi tiết khái niệm thuộc tính thiết kế bổ sung tác giả

Hình 2.10 mô tả cách trực quan phần ontology BKSport Các hình ơvan biểu diễn lớp, cịn cạnh có mũi tên biểu diễn cho quan hệ lớp Theo chiều mũi tên cạnh, lớp thứ “Domain” quan hệ lớp thứ hai “Range” quan hệ Khi cạnh có mũi tên hai đầu, nghĩa lớp tương ứng với cạnh vừa đóng vai trị “Domain”, vừa đóng vai trị “Range” Các lớp Team, Forward, Defender lớp chi tiết cho lĩnh vực thể thao Các lớp Organization, SportEvent, Person lớp mức cao PROTON

Dưới mô tả ngắn gọn số lớp BKSport ontology:

(60)

49

• Player: bao gồm thông tin mô tả cầu thủ tên, tuổi, giới tính, đội bóng thi đấu … Nó lớp cha lớp chi tiết Forward, Defender Các lớp chứa thêm thơng tin vị trí thi đấu cầu thủ đội bóng

• Coach: bao gồm thơng tin mô tả huấn luyện viên tên, tuổi, câu lạc huấn luyện …

• Competition: bao gồm thông tin mô tả trận thi đấu hai đội bóng

• Result: mơ tả kết thi đấu hai đội bóng Một số quan hệ lớp liệt kê sau:

• competeIn: Một đội bóng thi đấu giải đấu

• playFor: Thể quan hệ cầu thủ chơi cho câu lạc

• subClassOf: Một lớp lớp lớp khác Lớp lớp kế thừa thông tin lớp cha, đồng thời bổ sung thông tin mức độ chi tiết Ví dụ, Forward lớp (subClassOf) lớp Player Ngồi thơng tin chung cầu thủ, lớp Forward cho biết cầu thủ chơi vị trí tiền đạo (chứ khơng phải vị trí khác hậu vệ hay thủ mơn)

• hasResult: Một trận đấu có kết thi đấu Ví dụ: trận đấu Chelsea Liverpool (Competition) có kết (hasResult) 1-1 (Result)

Organization Forward Defender

Location

Team

Award

Player

Coach

Competition

Result SportEvent

Card Person

Match UnitCompetition

Document faceWith

defeat isTrainingBy

hasAward

subClassOf

pickUp

competeIn

subClassOf

subClassOf hasResult

relateTo subClassOf

subClassOf

isContractedBy

(61)

50

2.3.3 Thu thập tiền xử lý tin tức

Đầu tiên, liệu từ Website thể thao tiếng Sky Sports, ESPN thu thập thành phần Crawler Sau đó, thành phần Preprocessor tiền xử lý liệu thu từ Crawler, loại bỏ tin tức dư thừa (ví dụ, nội dung quảng cáo) giữ lại nội dung tin tức Các liệu có ích tiêu đề tin tức, liên kết có liên quan giữ lại liệu có ràng buộc với tin tức, việc phân tích chúng giúp cho hệ thống nhận dạng trích rút thơng tin xác

2.3.4 Xây dựng sở tri thức thể thao

Để trích rút thơng tin ngữ nghĩa, cần phải có sở tri thức đủ lớn Thành phần Web Scrapper thu thập sở liệu liên quan đến thể thao cầu thủ (tên, tuổi, môn thể thao, …), câu lạc (tên, sân nhà, ), trận thi đấu, giải thưởng, sân vận động gửi chúng đến thành phần làm giàu sở tri thức (Knowledge Base Enrichment) Một mơ đun – mơ đun chuyển đổi liệu tự động sinh RDF – chuyển đổi tự động liệu sang định dạng RDF

Một mô đun khác KBE chịu trách nhiệm nhập thủ cơng bí danh thực thể từ đồng nghĩa mà thu thập chuyển đổi tự động Dữ liệu RDF chuyển đổi sau nhập vào sở tri thức thể thao hệ thống

Cho đến nay, luận án bổ sung sở tri thức cầu thủ, huấn luyện viên, sân vận động bóng đá v.v giải đấu Premier League, La Liga, Champions League, tay vợt tennis từ ATP rankings

Hình 2.11 mơ tả phần q trình làm giàu sở tri thức KIM với liệu thể thao Phần bên trái hình 2.11 phần trang Web HTML hiển thị liệu Wayne Rooney, phần bên phải hình 2.11 phần ontology thể thao BKSport biểu diễn lĩnh vực bóng đá phần hình 2.11 sở tri thức Wayne Rooney sau xử lý

(62)

51

2.3.5 Nhận dạng, trích rút xác định lớp ngữ nghĩa cho thực thể có tên

2.3.5.1 Nhận dạng thực thể có tên tin tức thể thuộc sở tri thức

Để hiểu ngữ nghĩa văn bản, hệ thống cần hiểu ngữ nghĩa thực thể có tên mà tên chúng xuất văn Các thực thể có tên lĩnh vực thể thao bao gồm tên cầu thủ, huấn luyện viên, câu lạc bộ, sân vận động, kiện thể thao v.v Ví dụ, câu “Cordoba has completed the loan signing of Brazillian Winger Ryder Matos”, hệ thống cần hiểu Cordoba tên câu lạc bóng đá Ryder Matos tên Winger Để làm điều này, phải có bước nhận dạng thực thể có tên

Sau tiền xử lý, thông tin chuyển đến thành phần nhận dạng thực thể có tên để phát xuất cầu thủ, huấn luyện viên, câu lạc bộ, tác nhân v.v tin tức Mơ đun trích rút thực thể có tên lấy tất thể khái niệm sở tri thức mà xuất trang Web Đóng vai trị tác vụ NER hệ thống BKSport có tái sử dụng Ontology Proton KIM

KIM [36] tảng mà luận án tái sử dụng để nhận dạng thực thể có tên KIM xây dựng để nhận dạng thực thể lĩnh vực tổng qt chung, khơng đặc thù cho lĩnh vực cụ thể Vì để nhận dạng thực thể mức sâu chi tiết lĩnh vực thể thao, tác giả thêm tập khái niệm thuộc tính vào ontology KIM, bổ sung thực thể vào sở tri thức KIM Trong ontology mặc định KIM (ontology PROTON), thực thể có tên biểu diễn mức khái qt (ví dụ, Person (người), Location (địa điểm)), khơng chi tiết (ví dụ, Winger, Forward) Do đó, tác giả tích hợp ontology BKSport với PROTON theo cách thức khái niệm cụ thể BKSport thay khái niệm trừu tượng PROTON trình nhận dạng Nhờ tính mở tảng KIM, việc tích hợp thực cách ánh xạ khái niệm chúng Ví dụ, lớp ontology BKSport Coach, Winger, Forward Defender hiểu lớp lớp Person PROTON Hình 2.12 miêu tả số lớp ánh xạ từ ontology BKSport tới ontology PROTON

Hình 2.12 Một số ánh xạ từ BKSport đến PROTON

(63)

52

các tác nhân bóng đá giải đấu bóng đá hàng đầu châu Âu thu thập chuyển đổi thành thích ngữ nghĩa sử dụng ontology BKSport Với việc mở rộng PROTON ontology BKSport sử dụng thư viện tảng KIM, thực thể có tên tin tức thể thao nhận dạng với lớp khái niệm định nghĩa ontology Trong hình 2.13, Steven Caulker khơng hiểu Person mà cịn hiểu SportPerson, cụ thể Defender

Hình 2.13 Nhận dạng thực thể có tên tin tức thể thao thể sở tri thức

2.3.5.2 Phát bí danh thực thể

Một đặc thù lĩnh vực thể thao nhân vật, tổ chức tiếng ngồi tên gọi thức thường hay có biệt danh biết đến rộng rãi công chúng Ví dụ huấn luyện viên Alex Ferguson có biệt hiệu Fergie, Lionel Messi gắn với “La Pulga”, hay đội bóng đá FC Barcelona có biệt danh Barca Blaugrana Do đó, việc phát biệt danh từ văn ánh xạ chúng với thực thể có tên đại diện thức tương ứng làm tăng hiệu tác vụ nhận dạng thực thể có tên Luận án thực tác vụ cách tạo thơng tin bí danh xây dựng sở tri thức thể thao cách tự động (đã trình bày tiểu mục 2.3.4) sử dụng thuộc tính proton:hasAlias

Khi thơng tin tên gọi khác thực thể bổ sung vào sở tri thức BKSport dạng bí danh (Alias) thực thể nhận dạng thực thể

2.3.5.3 Nhận dạng thực thể mức khái niệm chi tiết

(64)

53

2.3.5.4 Cải tiến nhận dạng thực thể có tên dạng rút gọn

Trong văn bản, thường sau sử dụng tên đầy đủ thực thể, thực thể nhắc lại với tên rút gọn để khiến viết trở nên ngắn gọn dễ đọc (Ví dụ “Lionel Messi” viết thành “Messi”) Bởi vậy, việc cải tiến để cung cấp khả nhận biết thực thể biểu diễn với tên rút gọn quan trọng Tên rút gọn thường phần tên đầy đủ Do đó, thực thể biểu diễn với tên rút gọn nhận biết phát với tên đầy đủ trước qua việc sử dụng phép tốn so khớp phần

2.3.5.5 Nhận dạng thực thể tên khác kiểu

Đây trường hợp thường gặp thích văn thực thể có tên xuất văn thuộc kiểu khác Ví dụ, Santiago Bernabéu tên cầu thủ, tên sân vận động Ở trường hợp này, tiến hành kiểm tra mẫu thực thể, tùy vào hậu tố theo sau để xác định kiểu thực thể Ở ví dụ Santiago Bernabéu theo sau khái niệm stadium thực thể bắt nhận dạng sân vận động

2.3.6 Trích rút “ngữ nghĩa” từ tin tức

Phát trích rút ngữ nghĩa thông tin nội dung nghiên cứu quan trọng để tạo thích ngữ nghĩa Tác vụ sử dụng kết từ giai đoạn nhận dạng thực thể có tên Có nhiều khía cạnh ngữ nghĩa khác luận án quan tâm

2.3.6.1 Các ngữ nghĩa ba đơn giản

Trong tin tức thể thao, có số ngữ nghĩa phổ biến dạng ba <subject> <predicate> <object> diễn tả kiện, hành động, kết … Ví dụ, tin tức thể thao chứa “Barcelona won Arsenal”, “Alex Ferguson defends Wayne Rooney”, “Cristiano Ronaldo’s transfer to Juventus” … Người dùng tìm đọc tin tức muốn tìm kiếm thơng tin Vì vậy, thuật toán đề xuất để phát ngữ nghĩa

Có ba mẫu trừu tượng mơ tả ngữ nghĩa sau:

a) <Person> <relation> <Person> Ví dụ, <Marcus Rashford> <be against> <Jose Mourinho> b) <Organization> <relation> <Organization> Ví dụ, <Manchester City> <defeat> <Arsenal> <Barcelona> <1:3> <Real Madrid>

c) <Person> <relation> <Organization> Ví dụ, <Romelu Lukaku> <transferTo> <Manchester United>

Với mẫu đầu tiên, Person thực thể có tên Marcus Rashford, Lionel Messi, khái niệm Striker, Coach, đại từ he, they Quan hệ Person nhận dạng ontology, ví dụ <Person> <support> <Person>, <Person> <remind> <Person> Một quan hệ mơ tả nhiều nhãn khác tương ứng với từ đồng nghĩa, ví dụ “surprise” “stun” mơ tả quan hệ <surprise>

Với mẫu thứ hai (<Organization> <relation> <Organization>), luận án tập trung vào kết trận đấu thông tin CLB đối đầu với CLB khác

Luận án sử dụng mẫu cuối để trích rút thơng tin thái độ cầu thủ/huấn luyện viên/trọng tài CLB/liên đoàn/giải đấu

2.3.6.2 Ngữ nghĩa thực thể quan trọng tin tức

(65)

54

thể với khái niệm khác có ontology Ngồi ra, áp dụng luật trích chọn, trọng số phụ thuộc lớp thể so khớp với luật Thuật tốn trích rút kiện đơn giản thực thể quan trọng tin tức trình bày sau:

Thuật tốn 1: Sinh thích ngữ nghĩa thực thể quan trọng tin tức Input: wcc - weight of concept c for the news content

wtc - weight of concept c for the news title

wdc - distance weight of concept c with other concepts wrc - weight of concept c with extraction rule r R - set of extraction rules, Wtotal =

Output: tập ba (triple) diễn đạt thông tin tin tức có tiêu đề gì, liên quan đến thực thể quan trọng

Extract triple: <webpage.uri bk:hasTitle webpage.title>

for each named entity i recognized as instance of concept c m = number of occurences of i in title

Wtitle-i = m* wtc

k = number of occurences of i in content Wcontent-i = k* (wcc + wdc), Wsemantic-i =

foreachsen in {news sentences} foreach rule r in R

compare r with annotations in sen if r matchs instance i{

Extract triple corresponding r Wsemantic-i = Wsemantic-i + wrc

endfor

Wi = Wtitle-i + Wcontent-i + Wsemantic-i Wtotal = Wtotal + Wi

endfor

meanW = Wtotal / number of entities

for each named entity i recognized in news if Wi > meanW

Extract triple <webpage.uri bk:about element.uri.> else Extract triple

<webpage.uri bk:contain element.uri.>

endfor

Ý tưởng thuật tốn đề xuất là: luật so khớp với nhãn thích phát mơ đun trích rút thực thể có tên (NEE) câu để tìm thơng tin ngữ nghĩa Vấn đề số nhiều thực thể có tên phát hiện, thực thể định quan trọng với tin tức Trọng số cuối thể tương ứng với thích đánh giá dựa số lần xuất tin tức trọng số luật so khớp Mỗi thể lựa chọn quan trọng tin tức trọng số lớn trọng số trung bình tất thể

Dữ liệu thông tin quan trọng tin tức tiêu đề chứa ý tin tức Trong nhiều trường hợp, ngữ nghĩa trích rút từ tiêu đề thơng tin tin tức Do đó, luận án tập trung phân tích tiêu đề tin tức Mỗi thể nhận dạng tiêu đề có trọng số lớn thể khác

2.3.6.3 Chú thích ngữ nghĩa tuyên bố gián tiếp

(66)

55

Bảng 2.1 Từ khóa cho câu tuyên bố gián tiếp

Từ khóa Mơ hình

“say that”, “said that”, “announce”, “speech” {SportPerson} [từ khóa] {Statement} “statement”, “added” {Statement}, {SportPerson} [từ khóa]

Từ quan hệ mô tả BKSport Ontology mô hình tương ứng với quan hệ đó, tác giả sử dụng JAPE để xây dựng luật nhận dạng quan hệ Mỗi quan hệ có luật tương ứng nhận dạng Tuy nhiên, tất hoạt động theo ngun tắc chung: mơ hình tìm thấy, sinh quan hệ tương ứng

Riêng trường hợp nhận dạng câu tuyên bố gián tiếp, luận án sâu vào phân tích mệnh đề gián sau "said that ", "announce" Việc nhận dạng sinh thích ngữ nghĩa trường hợp trình bày sau:

Thuật tốn 2: Sinh thích ngữ nghĩa tuyên bố gián tiếp Input: P = {A “said that”/”announce B”};

//P mẫu tuyên bố gián tiếp (ví dụ, A “said that” B, A “announce” B…)

Output: Các ba (triple) diễn đạt tuyên bố gián tiếp

foreach (Chú_thích p P) { statement = p.get(“B”);

//chú thích tuyên bố

annotationSet = BKSport.annotate(statement);

foreach (Annotation annotation in annotationSet){

if (annotation.contains(“semantic”)) {

//Tạo tuyên bố giống với thích subject=annotation.get(“subject”);

predicate=annotation.get(“predicate”);

object=annotation.get(“object”);

//Sinh ba

<A> <bksport:said that> <statement>;

<statement> <rdf:subject> subject; <statement> <rdf:predicate> predicate;

<statement> <rdf:object> object;

endif

endfor

(67)

56

2.3.6.4 Chú thích ngữ nghĩa tin tức chuyển nhượng

Trong thể thao, chuyển nhượng phân khúc tin tức hấp dẫn với độc giả Các tin tức cầu thủ chuyển từ câu lạc sang câu lạc khác ký kết hợp đồng hai câu lạc đăng tải nhiều nguồn tin tức khác Các thích ngữ nghĩa tin tức chủ đề đặc thù này, tạo làm phong phú thêm tập thích ngữ nghĩa hệ thống BKSport khai thác chức cổng tin tức ví dụ giao diện tổng hợp tin tức chuyển nhượng, tìm kiếm ngữ nghĩa, liệt kê tin tức liên quan Tuy nhiên, chưa có nhiều nghiên cứu quan tâm đến vấn đề Không giống thông tin kết trận đấu thông tin thể thao khác, thông tin chuyển nhượng bóng đá hàm chứa nhiều ngữ nghĩa đặc thù việc trích rút chúng sử dụng mơ hình ba đơn giản khó đạt hiệu cao Luận án đề xuất phương pháp thích hợp để trích rút ngữ nghĩa này, bổ sung vào kết chung luận án tốn sinh thích ngữ nghĩa cho tin tức thể thao Các kết nghiên cứu liên quan tác giả trình bày báo “A novel approach for automatic extraction of semantic data about football transfer in sport news” tạp chí

International Journal of Pervasive Computing and Communications (2015)

a) Một số mẫu nhận dạng quan hệ chuyển nhượng tin tức

Tin tức diễn đạt ngôn ngữ tự nhiên với cấu trúc văn phạm ngữ nghĩa đa dạng phức tạp Luận án khơng đặt mục tiêu tìm tập mơ hình đại diện cho tất ngữ nghĩa chuyển nhượng mà hướng tới việc xác định thành phần ngôn ngữ cấu thành nên ngữ nghĩa quan trọng Từ khảo sát nghiên cứu nhiều tin tức chuyển nhượng bóng đá để cố gắng tìm số điểm chung cấu trúc thành phần văn phạm ngữ nghĩa này, tác giả sâu phân tích mơ hình ba đơn giản để đề xuất ba mẫu nhận dạng ngữ nghĩa chuyển nhượng hình 2.14 sau:

Hình 2.14 Các thành phần ngơn ngữ tự nhiên mẫu nhận dạng quan hệ chuyển nhượng

Các thành phần cấu thành mẫu nhận dạng bao gồm thực thể có tên (named entity), cụm động từ (phrasal verb) Vì lĩnh vực xem xét lĩnh vực chuyển nhượng bóng đá, “thực thể có tên” thường người thể thao đội bóng “Phrasal Verb” cụm từ chứa “verb” + “adverb” “verb” + “preposition” Các động từ mơ tả thuộc tính quan hệ chuyển nhượng, “thời” động từ xác định quan hệ thuộc ba trường hợp sau đây:

• Chuyển nhượng xảy

• Chuyển nhượng xảy tương lai gần,

• Chuyển nhượng khơng thành công

(68)

57

signed a two-year deal at Hearts”, động từ “signed” cho thấy chuyển nhượng xảy Một ví dụ khác: “Barcelona forward Messi will make a new contract” Từ “will” đứng trước động từ “make” cho thấy trường hợp chuyển nhượng chưa xảy xảy tương lai gần

Cụ thể hơn, hình 2.15 bên dưới, luận án trình bày mơ hình nhận dạng cụm động từ sau:

<Extra Verb> <Main Verb> <Adverb/Preposition> Trong đó:

• “Extra Verb” (trợ động từ) từ đứng trước động từ chính, cho biết hành động kiện chuyển nhượng rơi vào ba trường hợp sau: (1) kiện chưa xảy xảy tương lai gần, (2) kiện xảy ra, (3) kiện khơng xảy

• “Main Verb” động từ “phrasal verb”

• “Adverb/Preposition” trạng từ giới từ làm thay đổi động từ

Hình 2.15 Các mẫu biểu diễn cụm động từ

Nếu khơng có “extra verb” trước “main verb”, tác giả cho kiện xảy (ngữ nghĩa tích cực)

Nếu có “extra verb” trước “main verb”, có hai trường hợp xảy ra: ngữ nghĩa phủ định ngữ nghĩa đại diện cho khả năng:

• “extra verb” mang ý nghĩa tương lai gần, cho biết hành động kiện xảy tương lai, ví dụ “could”, “prepare”, “will”, “consider”

• “extra verb” mang ý nghĩa phủ định, cho biết hành động kiện không khơng xảy ra, ví dụ “not”, “no”, “don’t”, “fail”, “reject”

b) Quy trình nhận dạng ngữ nghĩa quan hệ chuyển nhượng

Để thực nhận dạng ngữ nghĩa quan hệ chuyển nhượng, luật nhận dạng để trích rút nhận biết quan hệ ngữ nghĩa chuyển nhượng thiết kế.JAPE [116] lựa chọn ngơn ngữ biểu diễn luật có nhiều ưu điểm JAPE thành phần GATE, dùng để nhận dạng thực thể xác định luật, ngơn ngữ sử dụng để viết nên biểu thức quy thơng qua thích

Đầu tiên, văn chia thành câu, câu mang nội dung Các câu thường bắt đầu kết thúc dấu câu dấu chấm “.”, dấu chấm phảy “;” từ cho biết bắt đầu nội dung “while”, “however”, “but”, ta dùng luật để dễ dàng thực điều Sau đó, câu đem so khớp với danh sách luật

(69)

58

và nhiều từ khác diễn tả loại quan hệ ngữ nghĩa (ví dụ, “move to”, “big moves”, “transferred to” tất diễn tả quan hệ “bksport:transferTo”), định nghĩa luật, động từ có liên quan tập hợp vào tập từ vựng Ví dụ, tập từ vựng biểu diễn việc ký kết định nghĩa sau:

Macro: SIGN (

{Token.string=="sign"}|{Token.string=="signs"}|{Token.string=="signed"}|{Token.string=="signing"}|{ Token.string=="signature"}

)

Dưới phần hai luật nhận dạng, Sign01 Transfer01:

Rule:Sign01 Priority:80 (

({SportPerson}):p1

({Token.string!=”.” Token.string!=”;”, !SportPerson})* (SIGN)

({Token.string!=”.”, Token.string!=”;”, Token.string!=”,”})* ):sign

Rule: Transfer01 Priority: 70 (

({SportPerson})p

({Token.string!=”.”, !SportPerson})* (TRANSFER)

({Token.string!=”.”, !SportPerson})* ({SportTeam}:t

):transfer

Để nhận dạng hai trường hợp này: kiện chuyển nhượng xảy tương lai gần kiện chuyển nhượng không xảy ra, luận án dựa vào mơ hình xây dựng Theo đó, ngồi nhận dạng động từ tin tức trình bày, luận án phải nhận dạng “extra verb” Tương ứng với hai trường hợp trên, luận án tạo hai tập từ vựng “extra verb” Tập thứ chứa từ/cụm từ biểu diễn kiện xảy tương lai gần:

Macro: COULD

({Token.string==”could”} | {Token.string==”will”} | {Token.string==”prepare”} | {Token.string==”consider”} | […])

Tập thứ hai chứa từ/cụm từ mà biểu diễn kiện không xảy ra:

Macro: NOT

({Token.string==”not”} | {Token.string==”deny”} | {Token.string==”reject”} | {Token.string==”fail”} | […])

Sau hai luật đơn giản Sign02 Sign03 để nhận dạng ngữ nghĩa mà thuộc hai trường hợp nêu trên:

Rule: CouldSign01 Priority: 90 (

({SportPerson}):p1

({Token.string!=”.”, Token.string!=”;”, !SportPerson})* (COULD)

({Token.string!=”.”, Token.string!=”;”, !SportPerson})* (SIGN)

({Token.string!=”.”, Token.string!=”;”, Token.string!=”,”})* ({SportPerson}):p2

(70)

59

Rule: NotSign01 Priority: 100 (

({SportPerson}):p1

({Token.string!=”.”, Token.string!=”;”, !SportPerson})* (NOT)

({Token.string!=”.”, Token.string!=”;”, !SportPerson})* (SIGN)

({Token.string!=”.”, Token.string!=”;”, Token.string!=”,”})* ({SportPerson}):p2

):notsign

Gặp trường hợp đoạn văn khớp với nhiều luật, luận án xử lý để chọn luật phù hợp theo nguyên tắc sau:

• Nếu nhiều luật khớp với vùng tài liệu bắt đầu điểm X, luật khớp với vùng dài chọn Ví dụ, với hai luật nêu (Sign01 Transfer01), giả sử có văn “Alexis Sanchez signed a contract with Pep Guardiola to move to Manchester City in the next season”, luật Transfer01 áp dụng khớp với vùng văn dài điểm “Alexis Sanchez signed a contract with Pep Guardiola to move to Manchester City in the next season” Trong đó, luật Sign01 khớp với “Alexis Sanchez signed a contract with Pep Guardiola”

• Nếu nhiều luật khớp với vùng tài liệu có độ dài, luật có độ ưu tiên cao chọn (luận án gán cho luật giá trị độ ưu tiên định, ví dụ, với hai luật trên, độ ưu tiên luật Sign01 80 độ ưu tiên luật Transfer01 70)

• Nếu nhiều luật có độ ưu tiên, luật định nghĩa trước chọn

• Nếu tất điều kiện nêu nhau, luật chọn ngẫu nhiên

Cuối cùng, luật ánh xạ quan hệ nhận dạng vào quan hệ tương ứng ontology để sinh biểu diễn RDF

c) Chú thích đại từ cụm bí danh đặc biệt

Trong văn dài, để tránh việc phải nhắc lại tên thực thể nhiều lần, người ta thường dùng đại từ để thay Điều trực tiếp gây khó khăn đến việc nhận dạng quan hệ ngữ nghĩa, để nhận dạng quan hệ, thực thể có tên phải nhận dạng Có số nghiên cứu xoay quanh vấn đề nhận dạng đại từ [117] thực nghiên cứu mô tả thực độc lập mà công bố rộng rãi Resolution of Anaphorea Procedure (RAP) Lappin Leass xây dựng Nó xử lý đại từ người thứ ba, trùng lặp từ vựng, nhận dạng đại từ dư thừa (pleonastic pronouns) ngơn ngữ tiếng Anh Nó đạt độ xác 57,9% với khn dạng đầu vào MUC-6

Trong [118], tác giả đề xuất hệ thống giải dư thừa có tên “Automatic Pronominal Anaphora Resolution in English Texts” dựa WordNet ontology luật Heuristic Hệ thống đề xuất có khả giải tượng trùng lặp liên câu nội dung câu văn tiếng Anh xử lý thích hợp với đại từ dư thừa Hệ thống đạt tỉ lệ thành công tổng thể 77%

Nhằm nâng cao hiệu sinh thích ngữ nghĩa hoạt động chuyển nhượng, luận án đề xuất phương pháp để trích rút đại từ cụm bí danh đặc biệt, dựa vào luật trích rút thơng tin Chúng thích hợp áp dụng vào lĩnh vực thể thao Tập luật luận án xây dựng để biểu thị đại từ phải tuân thủ nguyên tắc sau đây:

• Các đại từ ‘he’, ‘him’, ‘I’, ‘me’ đại diện cho SportPerson Những đại từ ‘they’, ‘them’, ‘we’, ‘us’ đại diện cho SportTeam

(71)

60

➢ tác nhân đứng trước câu nói gián tiếp

➢ tác nhân đứng sau câu nói gián tiếp

• Các đại từ đại diện cho thực thể có tên SportPerson SportTeam mà xuất trước gần với đại từ Trong trường hợp câu tuyên bố gián tiếp đại từ đại diện cho thực thể phía sau

• Sau nhận dạng đại từ, luật đặt lại trường class đại từ vào trường class thực thể mà đại diện, để hỗ trợ cho việc nhận dạng quan hệ chuyển nhượng

Bên cạnh đó, tin tức chuyển nhượng thường xuyên sử dụng cụm từ đặc biệt khác để biểu diễn thực thể có tên Ví dụ dùng <’the’ + number-year-old> để biểu diễn cầu thủ nhắc tới trước Xem xét tin tức sau:

“Inter Milan continue to work on new signings and reports in Italy claim there has been contact with Bundesliga side Hoffenheim regarding a deal for Roberto Firmino The 22-year-old Brazilian attacking midfielder has previously been linked with the likes of Liverpool, and Hoffenheim reportedly want $7million (£5.5m) for him”

Trong tin này, cụm từ “The-22-year-old” dùng để thay cho cầu thủ Roberto Firmino, thể hình 2.16

Hình 2.16 Ví dụ kết nhận dạng đại từ

2.4

Thực nghiệm

Để đánh giá phương pháp đề xuất, luận án tiến hành thực nghiệm thuật toán sinh thích ngữ nghĩa tập tin tức thể thao thu thập từ nhiều nguồn Do phương pháp tổng thể kết nhiều nghiên cứu cho toán nhận dạng gán lớp cho thực thể có tên, trích xuất thích ngữ nghĩa khác dạng ba, kết thực nghiệm trình bày theo thứ tự nghiên cứu

(72)

61

Tập liệu thực nghiệm

Trong giai đoạn đầu nghiên cứu chủ đề này, luận án thực thực nghiệm tập tin tức bóng đá Giải bóng đá Ngoại hạng Anh (Premier League) Giải bóng đá vơ địch câu lạc châu Âu (Champions League) Hệ thống thu thập tin tức từ nhiều nguồn tiếng skysports.com, premierleague.com với số lượng 150 tin tức (75 tin tức Giải bóng đá Ngoại hạng Anh 75 tin tức Giải bóng đá vơ địch câu lạc châu Âu)

Kịch thực nghiệm

Các thuật toán thực thi tin tức tập liệu thực nghiệm Kết thu so sánh với kết việc thực tác vụ tương ứng cách thủ công người để xác định kết thuật toán xác hay khơng xác

Để đánh giá hiệu thuật toán nhận dạng thực thể có tên thuật tốn sinh thích, luận án sử dụng hai tham số tiêu chuẩn: độ xác (precision) độ bao phủ (recall) Độ bao phủ (R) xác định tỉ lệ kết xác thu thuật toán (RR) tổng số kết xác cần xác định (TRE) Độ xác (P) xác định tỉ lệ kết xác thu thuật tốn (RR) tổng số kết nhận dạng mà thuật toán đưa (TR)

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛(𝑃) = 𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡 𝑟𝑒𝑐𝑜𝑔𝑛𝑖𝑧𝑒𝑑 𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑒𝑠 (𝑡𝑟𝑖𝑝𝑙𝑒𝑠) (𝑅𝑅) 𝑇𝑜𝑡𝑎𝑙 𝑟𝑒𝑔𝑐𝑜𝑛𝑖𝑧𝑒𝑑 𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑒𝑠 (𝑇𝑅)

(2.1)

𝑅𝑒𝑐𝑎𝑙𝑙 (𝑅) = 𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡 𝑟𝑒𝑐𝑜𝑔𝑛𝑖𝑧𝑒𝑑 𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑒𝑠 (𝑅𝑅) 𝑇𝑜𝑡𝑎𝑙 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡 𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑒𝑠 (𝑇𝑅𝐸)

(2.2)

Kết tính thực thể nhận dạng, ba ngữ nghĩa trích rút, tùy theo nội dung cần đánh giá Thực nghiệm đánh giá phương pháp đề xuất hai tác vụ là:

• Phát thực thể có tên tin tức thể thao

• Phát trích rút ngữ nghĩa tin tức thể thao

2.4.1 Nhận dạng thực thể có tên tin tức

Thực nghiệm có mục đích đánh giá khả phát thực thể có tên tin tức gán chúng với lớp ontology thể thao phương pháp đề xuất luận án Thuật toán luận án đề xuất có khả mở rộng KIM với sở tri thức thể thao nhận dạng bí danh Kết thực nghiệm trình bày bảng 2.2

Bảng 2.2 Độ xác (P) độ bao phủ (R) q trình trích rút từ 150 tin tức thể thao

TR RR TRE P% R%

Premier League 2018 1960 2674 97.1 73.3

Champion League 1240 1175 2590 94.7 45.3

Những số liệu cung cấp bảng 2.2 cho thấy thuật tốn đạt độ xác cao phát tên cầu thủ câu lạc nhờ có thành phần sở tri thức thể thao chuyển đổi tự động Hình 2.18 cho thấy Wayne Rooney trích rút thể lớp Forward Ontology thể thao thay lớp Person PROTON KIM làm Nó xác cụ thể thể khái niệm Person hệ thống KIM đưa cho thực thể có tên Wayne Rooney

(73)

62

dạng bí danh CLB bóng đá Swansea mơ tả hình 2.18 hình 2.20 Tuy nhiên, độ bao phủ chưa cao mong đợi, với nguyên nhân xác định là:

• Thiếu từ đồng nghĩa, bí danh sở tri thức Những từ vựng nhập vào hệ thống theo cách thủ cơng địi hỏi nhiều thời gian để hồn thành

• Tập luật trích rút chưa đầy đủ

Hình 2.17 Giao diện phần mềm sinh thích ngữ nghĩa

Để tiến hành thực nghiệm phát triển thành phần phần mềm sinh thích ngữ nghĩa cho hệ thống BKSport, luận án cài đặt thuật toán phần mềm chạy dạng ứng dụng dạng dịch vụ phần mềm Phần mềm với giao diện đồ họa cho phép xem kết thuật toán tin tức, phục vụ thực nghiệm dịch vụ thích ngữ nghĩa triển khai kết nối với thành phần khác hệ thống tổng hợp tin tức

Hình 2.17 thể giao diện đồ họa người dùng phần mềm phát triển ngôn ngữ Java, minh chứng khả nhận dạng thực thể có tên thể khái niệm (lớp) ontology thể thao BKSport

(74)

63

Hình 2.18 Các thể nhận dạng KIM phương pháp đề xuất

(75)

64

Hình 2.20 Các thể nhận dạng KIM phương pháp đề xuất

(76)

65

2.4.2 Trích rút ngữ nghĩa từ tin tức thể thao

Thực nghiệm 1: Trong lần thực nghiệm đầu tiên, luận án đánh giá hiệu thuật tốn sinh thích ngữ nghĩa cho tin tức thể thao phiên thứ Tại thời điểm thuật toán cho phép phát ngữ nghĩa dạng ba đơn giản ngữ nghĩa chủ đề mà tin tức liên quan tới Các kết trình bày bảng 2.3, TG, CT ET tương ứng số ba sinh thuật toán, số ba sinh thuật toán xác định số ba tạo người

Bảng 2.3 Kết trích rút thơng tin ngữ nghĩa thực nghiệm

TG CT ET P% R% Premier League 213 198 313 92.9 68.0

Champion League 177 150 252 84.7 59.5

Thực nghiệm 2: Thực nghiệm tiến hành thời điểm luận án đề xuất thêm phương pháp sinh thích tuyên bố gián tiếp, tiến hành số cải tiến nhằm nâng cao hiệu tác vụ nhận dạng thực thể có tên bao gồm: nhận dạng thực thể mức khái niệm chi tiết, nhận dạng thực thể có tên dạng rút gọn, nhận dạng thực thể tên khác kiểu

Hình 2.22 minh họa kết thích ngữ nghĩa tuyên bố gián tiếp sinh thuật toán lần cải tiến

Hình 2.22 Chú thích ngữ nghĩa tun bố gián tiếp trích rút

(77)

66

lượng liệu sở tri thức BKSport chưa đủ lớn phong phú Bên cạnh đó, số lượng mẫu luật trích chọn để nhận quan hệ chưa đủ để bao phủ trường hợp

Bảng 2.4 Thống kê nhận dạng thực thể có tên ba thực nghiệm 2

TR RR TRE P% R% Named Entities

Recognition

2699 2692 4415 99,74 60,97

Triples Extraction

1002 890 1663 88,82 53,52

Thực nghiệm 3: Đánh giá hiệu thuật tốn sinh thích cho tin tức chuyển nhượng Đối với toán sinh thích ngữ nghĩa tin tức chuyển nhượng, tập liệu thực nghiệm mở rộng lên 237 tin tức chuyển nhượng lấy từ nguồn Sky Sports Thông qua tác vụ thích ngữ nghĩa thủ cơng tập liệu này, 264 ba ngữ nghĩa liên quan đến chuyển nhượng bóng đá xây dựng Luận án tiến hành thử nghiệm phương pháp hai kịch bản:

• Khơng sử dụng luật nhận dạng đại từ

• Sử dụng luật nhận dạng đại từ

Bảng 2.5 trình bày kết thực nghiệm thu từ lần thực phiên thuật toán Số liệu cho thấy, việc sử dụng luật nhận dạng đại từ giúp nâng cao hiệu phương pháp

Bảng 2.5 Kết bước đầu thực nghiệm nhận dạng quan hệ ngữ nghĩa

TRE TR RR P% R%

Case(1) 264 167 134 80.2 50.8

Case(2) 264 195 158 81.0 59.8

Điều minh họa đoạn tin tức “Torino have signed Serbian goalkeeper Vlada Avromov following his release from Cagliari The 35-year-old was a free agent after leaving the Sardinian club” Có thể thấy tin tức có hai quan hệ ngữ nghĩa chuyển nhượng Đầu tiên quan hệ ngữ nghĩa “signWith” câu lạc Torino với thủ môn Vlada Avramov Thứ hai quan hệ ngữ nghĩa “leave” (goalkeeper Vlada Avramov leaves Sardinian club) Tuy nhiên, trường hợp không dùng luật nhận dạng đại từ, hệ thống xác định quan hệ ngữ nghĩa đoạn tin tức cụm từ “The 35-year-old” dùng để thay cho “goalkeeper Vlada Avramov”

Tuy nhiên, thuật tốn thời điểm cịn số hạn chế Hình 2.25 cho thấy vài ba ngữ nghĩa không nhận dạng cấu trúc phức tạp, quan hệ tương đương mang nhiều nghĩa nhập nhằng Ví dụ, “Queens Park Rangers boss Harry Rednapp is eyeing a reunion with former Tottenham star Rafael van der Vaart”

Một vài trường hợp bị nhận dạng nhầm lý sau Trong câu, lúc có số thực thể có tên giống hệ thống nhận dạng thực thể quan hệ Thơng tin ngữ cảnh (mô tả không xảy kiện phủ định) không bao gồm từ khóa mà lại nằm ý nghĩa câu Ví dụ, thông báo sau: “The odds on Antoine Griezmann joining Monaco have shortened again”, hệ thống xác định <Antoine Griezmann> <transferTo> <Monaco> Nhưng thực tế kiện không xảy ra, điều thể hình 2.24 Hình 2.23 minh họa trường hợp thích ngữ nghĩa nhận dạng

(78)

67

dạng chuẩn Ví dụ, <Named Entity>’s signature chuyển thành the signature of <Named Entity> Nhờ có bước này, ngữ nghĩa chuyển nhượng bóng đá nắm bắt nhiều luật nhận dạng có

Hình 2.23 Ví dụ thích nhận dạng

Hình 2.24 Ví dụ thích nhận dạng khơng

(79)

68

Bảng 2.6 cho thấy kết thực nghiệm thu từ nỗ lực nêu Độ bao phủ cải thiện khoảng 10% độ xác khơng thay đổi nhiều

Bảng 2.6 Cải thiện hiệu nhận dạng quan hệ ngữ nghĩa

TRE TR RR P% R%

Case (1) 264 180 145 80.5 54.9

Case (2) 264 213 173 81.2 65.5

Hình 2.26 minh họa thích ngữ nghĩa chuyển nhượng sinh với nghiên cứu luận án Các ba ngữ nghĩa sau trích rút đưa vào dạng N-triples dễ dàng chuyển chúng sang hình thức khác RDF hay OWL

Hình 2.26 Các ba ngữ nghĩa trích rút kết đầu

2.4.3 Đánh giá chung

Những kết thực nghiệm cho thấy, phương pháp đề xuất luận án đáp ứng mục tiêu nghiên cứu với kết tích cực Độ xác nhận dạng thực thể có tên 90% độ xác phát tạo thích ngữ nghĩa 80%

(80)

69

So sánh với nghiên cứu liên quan đến trích rút thơng tin ngữ nghĩa lĩnh vực tổng quát lĩnh vực cụ thể như: PANKOW [34] (độ xác tối đa 69%), KIM (độ xác 86%, độ bao phủ 82%), SemTag (độ xác 82%) hệ thống Asknet [115] (độ xác tổng thể 79.1%), tiếp cận [38] (độ xác 81.2%), phương pháp sử dụng mơ hình ngữ nghĩa để trích rút quan hệ thực thể y học [39] (độ xác 74.21%), khơng tập liệu kết thu luận án đáng khích lệ

2.5

Chương trình bày nghiên cứu sinh thích ngữ nghĩa cho tin tức thể thao, phần công việc luận án với chủ đề “Mơ hình ngữ nghĩa cho hệ thống tìm kiếm tin tức thể thao” Sau tìm hiểu sở lý thuyết sinh thích ngữ nghĩa cho tài liệu phương pháp tạo thích ngữ nghĩa, tác giả đề xuất thuật toán sinh thích ngữ nghĩa cho tin tức thể thao (cụ thể bóng đá) đánh giá hiệu đạt thử nghiệm nghiên cứu

Tiếp cận nghiên cứu cho toán triển khai trình dài liên tục Các kết nghiên cứu trình bày tác giả công bố báo “A novel approach for automatic extraction of semantic data about football transfer in sport news” tạp chí

International Journal of Pervasive Computing and Communications (2015); báo “Automatic Semantic Annotation of Sport News Using Knowledge Base and Extraction Patterns” tạp chí Journal of Science & Technology Technical Universities (2018) Chúng tiếp nối kế thừa số kết nghiên cứu trước tác giả [119] [120] bổ sung đóng góp

Tại xuất phát điểm nghiên cứu, tác giả xác định ý tưởng giải vấn đề sinh thích ngữ nghĩa từ tin tức thể thao dựa thực thể có tên Nghiên cứu đề xuất phương pháp nhận dạng thực thể có tên thể ontology, đạt mức độ chi tiết ngữ nghĩa so với khái niệm nhận dạng KIM Sau đó, thuật tốn phát ngữ nghĩa mô tả số thông tin quan trọng tin tức thể thao đề xuất nhờ phối hợp mơ tơ trích rút KIM với sở tri thức ontology thể thao xây dựng hoàn toàn

Kế thừa cải thiện thuật toán xây dựng giai đoạn đầu, luận án tiếp tục tập trung cải thiện hiệu tác vụ nhận dạng thực thể có tên rút gọn, thực thể tên khác kiểu Quan trọng hơn, nghiên cứu bổ sung thêm khả sinh thích ngữ nghĩa tuyên bố gián tiếp vào thuật toán Việc cải tiến thuật toán mang lại kết khả quan Sau đó, tác giả tập trung giải lĩnh vực đặc thù tin tức thể thao trích rút quan hệ ngữ nghĩa chuyển nhượng bóng đá dùng mơ hình ngơn ngữ Các mơ hình ngơn ngữ xây dựng dựa luật nhận dạng để nắm bắt quan hệ ngữ nghĩa Để cải thiện độ bao phủ, tác giả đề xuất thêm phương pháp giải đồng tham chiếu thực thể dựa vào việc nhận dạng đại từ

Có thể nói, tiếp cận xuyên suốt nghiên cứu trình bày sử dụng sở tri thức ontology thể thao việc nhận dạng thực thể có tên, phát khái niệm (class) số quan hệ đặc biệt tin tức Phương pháp phát ba ngữ nghĩa dựa luật định nghĩa dựa ontology Kết chất lượng thích ngữ nghĩa phát cải thiện qua nghiên cứu lưu trữ thành phần quan trọng hệ thống BKSport

(81)

70

CHƯƠNG MỘT PHƯƠNG PHÁP TRUY VẤN

TIN TỨC THỂ THAO VỚI NGÔN NGỮ TỰ NHIÊN

Chương nghiên cứu toán thứ hai luận án chuyển đổi câu hỏi ngôn ngữ tự nhiên sang câu truy vấn viết cú pháp SPARQL Sau mục nghiên cứu liên quan, luận án trình bày bước phương pháp đề xuất.Đầu tiên phân loại câu hỏi đầu vào cấu trúc truy vấn đầu ra, trình bày phương pháp, thuật tốn chuyển đổi câu hỏi ngôn ngữ tự nhiên sang truy vấn SPARQL Cuối đánh giá hiệu phương pháp đề xuất tập câu hỏi bóng đá kết luận

3.1

Giới thiệu

Web nguồn cung cấp thông tin phổ biến nhất, phục vụ cách đầy đủ nhanh chóng tin tức kiện diễn hàng ngày giới Trong đó, tin tức lĩnh vực thể thao thu hút quan tâm hàng triệu người đọc Các viết lĩnh vực thể thao cập nhật liên tục trang tin Web từ nhiều nguồn khác Điều dẫn đến tình trạng người đọc đối mặt với lượng thơng tin lớn có nhiều thơng tin trùng lặp, dư thừa khơng nằm quan tâm họ Chính vậy, vấn đề tìm kiếm thơng tin cách nhanh chóng, xác tiện lợi cho người đọc ln thách thức với hệ thống tin tức Web Nhiều hệ thống tìm kiếm tin tức dựa vào từ khóa xây dựng [121] Tuy nhiên, cách tìm kiếm thường hướng tới việc trả tin tức mà nội dung chúng chứa từ khóa câu truy vấn khơng phải tin tức có nội dung phù hợp với ý nghĩa câu truy vấn Ví dụ, người dùng muốn tìm kiếm thơng tin việc Arda Turan chuyển đến câu lạc Barcelona, anh ta/chị ta sử dụng máy tìm kiếm từ khóa truyền thống nhập: Arda Turan transfer to Barcelona Máy tìm kiếm trả tất tài liệu chứa từ khóa “Arda Turan”, “transfer”, “Barcelona” Tuy nhiên, tài liệu chứa ba từ khóa chưa hẳn nói nội dung mà người dùng tìm kiếm mong muốn, thơng thường ba từ khóa không liền với nên không mang ý nghĩa Arda Turan chuyển đến Barcelona Việc áp dụng tìm kiếm ngữ nghĩa giúp giải vấn đề trên, cho phép trả kết tài liệu chứa xác nội dung theo kỳ vọng người dùng Hơn nữa, ngày bên cạnh việc đọc tin, người đọc cịn quan tâm đến thông tin liên quan đến số thực thể xuất tin tức nhân vật, tổ chức, địa điểm Đặc điểm thể rõ rệt với tin tức thể thao, ví dụ người đọc có xu hướng theo dõi thơng tin Lionel Messi hay Cristiano Ronaldo với việc đọc tin tức trận siêu kinh điển (El Clásico) Vì vậy, kênh cung cấp thông tin lớn (như BBC) bắt kịp nhu cầu tạo xu hướng đổi giao diện hệ thống tin tức cho phép hiển thị tin tức kèm theo thơng tin nói Trên sở đó, luận án xác định chức tìm kiếm hệ thống tin tức BKSport phải đáp ứng hai yêu cầu: (1) tìm tin tức liên quan đến câu truy vấn cách xác, (2) bổ trợ thông tin kết câu truy vấn trường hợp Để làm tốt điều này, hệ thống cần phải hiểu ý nghĩa tin tức câu truy vấn, phải kết hợp tin tức kho tri thức miền lĩnh vực

(82)

71

nữa, hệ thống tìm kiếm phải thân thiện với người dùng người đọc thông thường với vốn hiểu biết tối thiểu cơng nghệ

Đã có nhiều cơng trình nghiên cứu vấn đề truy hồi thơng tin từ kho liệu ngữ nghĩa Trong đó, có nghiên cứu sử dụng trực tiếp câu lệnh SPARQL để truy vấn thông tin từ kho tri thức ngữ nghĩa [122] Tuy nhiên, việc sử dụng cú pháp SPARQL có nhiều điểm hạn chế như: cú pháp ngơn ngữ truy vấn phức tạp, mặt khác lại yêu cầu người dùng phải hiểu kiến trúc bên kho tri thức ngữ nghĩa Một số nghiên cứu khác nâng cao tính thân thiện người dùng với việc cung cấp giao diện đồ họa người dùng dựa ontoloy để cấu trúc nên (formulate) câu truy vấn SPARQL [123] Tuy nhiên, nghiên cứu đòi hỏi người dùng thực số thao tác định phải hiểu biết ontology Vì vậy, mục tiêu luận án xây dựng hệ thống tìm kiếm ngôn ngữ tự nhiên, thân thiện với người dùng, khơng địi hỏi họ phải có kiến thức ngơn ngữ truy vấn phức tạp mà sử dụng hiệu hệ thống Thành phần tìm kiếm tin tức hệ thống tin tức thể thao mà luận án hướng tới bao gồm thành phần: (1) thành phần đảm nhận việc chuyển đổi câu truy vấn dạng ngôn ngữ tự nhiên dạng truy vấn có cấu trúc SPARQL, (2) thành phần thứ hai nhận nhiệm vụ sử dụng câu truy vấn SPARQL thu để truy vấn vào kho liệu ngữ nghĩa trả tin tức liên quan kết hợp với câu trả lời cho câu truy vấn Do chức thành phần thứ hai cung cấp mơ tơ tìm kiếm ngữ nghĩa Allegrograph, nên việc xây dựng chúng nằm phạm vi nghiên cứu luận án Tóm lại, chương trình bày nghiên cứu phương pháp chuyển đổi câu hỏi tin tức dạng ngôn ngữ tự nhiên sang truy vấn ngữ nghĩa dạng SPARQL Chương tập trung vào trình bày phương pháp kỹ thuật để xây dựng thành phần thứ (1)

Các mục lại chương tổ chức sau: mục 3.2 điểm qua số hướng nghiên cứu liên quan đến việc xây dựng hệ thống tìm kiếm truy hồi thông tin hệ thống lớn cho phép người dùng sử dụng câu truy vấn dạng ngơn ngữ tự nhiên để tìm kiếm thơng tin từ kho liệu ngữ nghĩa Mục 3.3 trình bày phân loại dạng câu truy vấn người đọc tin tức giới thiệu mơ hình biểu diễn ngữ nghĩa tin tức thể thao truy vấn ngữ nghĩa – đầu hệ thống Mục 3.4 trình bày phương pháp chuyển đổi từ câu truy vấn ngôn ngữ tự nhiên sang truy vấn ngữ nghĩa SPARQL, bao gồm trình xử lý chung nguyên lý hoạt động chi tiết thành phần (pha) hệ thống hỏi đáp Mục 3.5 trình bày đánh giá nhận xét kết thử nghiệm Kết luận đề xuất hướng cải tiến nghiên cứu tương lai nội dung mục 3.6

3.2

Các nghiên cứu liên quan

Ở khía cạnh nói hệ thống QA (Question Answering) sinh từ nghiên cứu truy hồi thông tin từ kho liệu, thông tin lớn Sự phát triển Web ngữ nghĩa mở hướng nghiên cứu lĩnh vực

Trong nghiên cứu [124], tác giả cho việc khai thác tri thức có ý nghĩa quan trọng việc cải thiện tính hiệu hệ thống hỏi đáp, kỹ thuật Web ngữ nghĩa hỗ trợ tốt việc Tìm kiếm ngữ nghĩa với mạnh vốn có quan tâm nghiên cứu Ban đầu, nghiên cứu xuất phát từ ý tưởng đơn giản thực truy vấn ngữ nghĩa hệ thống thông tin Trong [122], tác giả xây dựng ontology thể thao với mục đích sử dụng để truy hồi ngữ nghĩa thông tin thể thao World Wide Web Việc tìm kiếm ngữ nghĩa thực cách gửi trực tiếp câu truy vấn SPARQL vào hệ thống Một số nghiên cứu tập trung vào việc tạo truy vấn SPARQL từ giao diện đồ họa người dùng xây dựng dựa ontology [123] [93]

Một số cơng trình dựa ngơn ngữ tự nhiên có kiểm sốt, Squall2Sparql [42] GiNSENG [43], thường xem xét tập hợp hạn chế rõ ràng ngơn ngữ tự nhiên mà dịch trực tiếp sang SPARQL Mặc dù đem lại độ xác cao, cách tiếp cận có hạn chế linh hoạt khó có khả áp dụng lĩnh vực khác

(83)

72

trọng tính khả thi hệ thống hỏi đáp ngôn ngữ tự nhiên Trung Quốc Hệ thống hỏi đáp họ xây dựng dựa ba mơ hình: mơ hình hiểu ngữ nghĩa câu hỏi dựa ontology Web ngữ nghĩa, mơ hình so khớp độ tương tự câu hỏi dựa FAQ (Frenquently Asked Questions), mơ hình tự động tìm nạp câu trả lời dựa kho lưu trữ văn Nó cài đặt với mơ đun chính: mơ đun phân tích câu hỏi mơ đun trích xuất câu trả lời Với câu truy vấn đầu vào, mơ đun phân tích câu hỏi sinh vài chuỗi viết lại có trọng số, sau chuyển truy vấn thành véc tơ Đồng thời, mơ đun cịn có phân loại câu hỏi, nhằm xác định kiểu câu trả lời cần trả Mơ đun trích xuất câu trả lời bao gồm thành phần truy hồi tài liệu, thành phần tìm kiếm đoạn văn so khớp câu trả lời Cuối cùng, hệ thống tính trọng số cho câu trả lời đưa câu trả lời có trọng số lớn

Trong vài năm gần đây, số hệ thống hỏi đáp ngôn ngữ tự nhiên tiếng Anh phát triển Điều cho thấy nhu cầu cần cung cấp thông tin từ người dùng nguồn tin nguồn tri thức lớn

PANTO [126] giao diện ngôn ngữ tự nhiên khả chuyển tới ontology cho phép người dùng biểu diễn nhu cầu thông tin ngơn ngữ tự nhiên mà khơng cần quan tâm đến cú pháp RDF hay OWL, ngôn ngữ truy vấn SPARQL từ vựng ontology Nó sử dụng từ điển tổng hợp Wordnet thuật toán đo chuỗi để ánh xạ từ câu truy vấn người dùng vào thành phần ontology (khái niệm, thể hiện, quan hệ) Nó sử dụng phân tích cú pháp StandfordParser để phân tích câu hỏi đầu vào thành phân tích, sau trích xuất cụm từ danh định để hình thành nên dạng biểu diễn trung gian QueryTriples Để truy vấn ontology, biểu diễn trung gian sau ánh xạ sang dạng OntoTriples Hệ thống thử nghiệm liệu cung cấp Mooney đạt độ xác tốt 90.87% độ bao phủ tốt 96.64% cho liệu nhà hàng Tuy nhiên, hệ thống hạn chế việc xử lý câu hỏi phủ định chưa xử lý câu hỏi số lượng

Querix [127] hệ thống hỏi đáp hỗ trợ ontology, dựa việc yêu cầu người dùng làm rõ trường hợp nhập nhằng cách hộp thoại cho người dùng lựa chọn Hệ thống gồm thành phần giao diện người dùng, quản lý ontology, phân tích truy vấn, trung tâm so khớp, sinh truy vấn, thành phần hộp thoại, lớp truy cập ontology Querix sử dụng từ điển tổng hợp Wordnet để xác định từ đồng nghĩa cho từ câu hỏi ngôn ngữ tự nhiên đầu vào nhằm mục đích nhận diện thể xuất câu hỏi đầy đủ Việc xác định quan hệ ba Querix dựa việc ánh xạ dãy loại từ (kết bước phân tích cú pháp Stanford Parser) với tập mẫu hơrixtic Thử nghiệm ontology xây dựng dựa vào sở tri thức thông tin địa lý nước Mỹ Mooney đồng Hệ thống chạy thử nghiệm 215 câu hỏi khác đạt độ xác 77.67% độ bao phủ 78.6%

QuestIO (Question-based Interface to Ontologies) [128] công cụ phục vụ cho việc truy vấn kho tri thức lớn lưu trữ ontology sử dụng ngôn ngữ tự nhiên Điểm đặc biệt công cụ độc lập miền Chính điều mà QuestIO nhúng vào hệ thống sử dụng với ontology sở tri thức mà không cần phải tùy chỉnh Điểm hạn chế công cụ đến từ việc nhận dạng quan hệ xuất câu truy vấn đầu vào dựa luật mà không phân tích cú pháp câu truy vấn mức sâu, khơng xử lý câu truy vấn có ngữ nghĩa phức tạp Tiến hành thử nghiệm liệu gồm 22 câu hỏi từ danh sách gửi thư người dùng GATE (đây nơi mà người dùng hỏi mô đun plugin đa dạng GATE), cơng cụ đạt độ xác 71.88%

(84)

73

ORAKEL [130] đem đến giao diện ngơn ngữ tự nhiên có khả chuyển đổi câu truy vấn ngôn ngữ tự nhiên dạng câu truy vấn có cấu trúc ứng với ontology cho trước Sự chuyển đổi thực dựa vào diễn dịch truy vấn (diễn dịch câu hỏi đầu vào chuyển biểu diễn dạng logic bậc nhất) chuyển đổi truy vấn (chuyển từ dạng biểu diễn logic câu hỏi dạng truy vấn SPARQL) Nó yêu cầu hai từ vựng: từ vựng miền cụ thể từ vựng độc lập miền Hệ thống cần ontology cho trước từ vựng miền cụ thể hoạt động Hạn chế hệ thống xử lý câu hỏi có từ để hỏi (dạng wh-question), không xử lý câu hỏi khơng có từ hỏi (dạng yes/no-question)

PowerAqua [131] hệ thống hỏi đáp đa ontology, nhận đầu vào câu truy vấn dạng ngôn ngữ tự nhiên trả câu trả lời lấy từ nguồn khác Web ngữ nghĩa Điểm đặc biệt PowerAqua khơng thiết kế để hướng tới ontology cụ thể cho miền cả, hệ thống mạnh hỏi đáp miền liệu lớn không đồng Cách tiếp cận PowerAqua ánh xạ câu truy vấn dạng ngôn ngữ tự nhiên biểu diễn ba Sau đó, việc sử dụng tìm kiếm hơrixtic, trả đồ thị phù hợp từ kho ngữ liệu RDF Tuy nhiên, PowerAqua xử lý tốt câu truy vấn có cấu trúc đơn giản, dễ dàng chuyển đổi dạng biểu diễn ba Nó xử lý sai câu truy vấn người dùng phức tạp hơn, ví dụ câu hỏi chứa "the most", "at least" "more than", "less than" Trong áp dụng việc phân tích sâu cấu trúc ngữ pháp câu truy vấn đầu vào, câu có dạng xử lý xác

AquaLog [132] hệ thống hỏi đáp khả chuyển, nhận câu truy vấn dạng ngôn ngữ tự nhiên ontology làm đầu vào, trả câu trả lời lấy từ nhiều sở tri thức AquaLog kết hợp sử dụng tảng xử lý ngôn ngữ tự nhiên GATE, thuật toán đo khoảng cách chuỗi ký tự, từ điển tổng hợp WordNet, dịch vụ tính độ tương đồng dựa ontology cho quan hệ lớp để ánh xạ thành phần câu truy vấn đầu vào đến ontology sở tri thức mục tiêu AquaLog áp dụng kỹ thuật học máy để trích rút quan hệ đối tượng, nhiên thực cách bán tự động Điểm hạn chế AquaLog tương tự PowerAqua đến từ chế so khớp cấu trúc cú pháp câu truy vấn với số mẫu cấu trúc có sẵn Do phạm vi hoạt động hiệu bị giới hạn, xử lý tốt câu có cấu trúc đơn giản

Pythia [133] hệ thống hỏi đáp nhận đầu vào câu truy vấn dạng ngôn ngữ tự nhiên Tuy nhiên, cách tiếp cận để xử lý câu truy vấn đầu vào khác với hai hệ thống PowerAqua AquaLog Pythia phân tích cấu trúc ngữ pháp câu truy vấn đầu vào cách sâu Vì thế, xử lý câu truy vấn đầu vào phức tạp, câu chứa cụm từ "more than", "the most" Tuy nhiên, điểm yếu Pythia hoạt động dựa từ điển biểu diễn ngữ nghĩa ontology cho trước Bộ từ điển xây dựng cách thủ cơng, không khả thi triển khai tập liệu kích thước lớn Trong báo “Template-based Question Answering over RDF Data” [134], Unger đồng nghiệp trình bày cách tiếp cận dựa phân tích cấu trúc ngữ pháp câu truy vấn đầu vào Ý tưởng đề xuất tiến hành phân tích cấu trúc câu truy vấn để sinh mẫu truy vấn SPARQL Bước bao gồm bước nhận dạng thực thể thống kê bước phát vị ngữ Mặc dù hệ thống xử lý câu truy vấn có cấu trúc phức tạp hỏi số lượng, so sánh hơn, so sánh nhất, chưa xử lý dạng câu có nhiều chủ thể, nhiều tân ngữ hay câu có đề cập đến ngữ cảnh thời gian

(85)

74

xác Tác giả đề xuất phương pháp gồm nhiều giai đoạn nhằm thực điều lĩnh vực tin tức thể thao Trong việc mơ hình hóa câu hỏi, phân tích nhận biết cấu trúc ngữ pháp chuyển đổi sang dạng biểu diễn ngữ nghĩa tương ứng đóng vai trò định

3.3

Phân loại câu hỏi đầu vào cấu trúc truy vấn đầu ra

3.3.1 Phân loại câu hỏi

Trước nhận biết câu truy vấn chuyển đổi chúng sang dạng ngữ nghĩa, ta cần phân loại chúng Có nhiều yếu tố định việc phân loại Dựa vào cấu trúc ngữ pháp, luận án phân chia câu truy vấn thành hai loại: câu hỏi có từ hỏi câu hỏi nghi vấn (yes/no) Đối với dạng câu hỏi có từ hỏi, dựa vào thông tin thể thao mà người dùng quan tâm, luận án tập trung xử lý dạng câu hỏi có từ hỏi who, which, what, where how many

Ngoài ra, câu truy vấn cịn phân loại dựa loại câu trả lời kỳ vọng mô tả hình 3.1 Từ ý tưởng này, luận án phân loại câu truy vấn thành loại sau:

Câu hỏi vị ngữ (Predicative question), ví dụ:

• Which team defeated Chelsea this season?

• Who transferred to Barcelona this year?

• Which news is about Lionel Messi? • Whom did Wayne Rooney dispute with?

Câu hỏi nghi vấn (Yes/No question), ví dụ:

• Did Real Madrid win Bayern Munich yesterday? • Was Barcelona defeated by Chelsea yesterday?

Câu hỏi định nghĩa (Definition question), ví dụ:

• Who is Lionel Messi? • What is FIFA?

Câu hỏi kết hợp (Association question), ví dụ:

• What is result of the match between Real Madrid and Barcelona? • What happen between Real Madrid and Barcelona?

Câu hỏi số lượng (Quantity question), ví dụ:

• How many goals were scored by Lionel Messi yesterday?

Câu hỏi nhiều chủ ngữ, nhiều tân ngữ (Multi-subject, multi-object question), ví dụ:

• Which team defeated Chelsea and Barcelona?

• Did Chelsea and Real Madrid defeat Barcelona in this season?

Câu hỏi ý kiến (Opinion question), ví dụ:

• What did Lionel Messi say/think/about Manchester United?

Câu hỏi so sánh hơn, so sánh (Comparative, superlative question), ví dụ:

• Which team won games this year?

• Which news contains at least teams?

Thêm vào đó, hệ thống chấp nhận câu mệnh lệnh như:

Câu mệnh lệnh (Imperative sentence), ví dụ:

• Show me news about Lionel Messi

(86)

75

Đ

ầ

u vào

Câu m

ệ

nh l

ệ

nh

Câu h

ỏ

i

C

ụ

m danh t

ừ

nhúng

Câu h

nhúng

ỏ

i

có t

Câu h

ừ

h

ỏ

i

Câu h

ỏ

i

nghi v

ấ

n

Câu rút g

ọ

n

(c

ụ

m danh t

ừ

)

Câu h

ỏ

i

đ

ị

nh ch

ắ

c

(predicate)

Câu h

ỏ

i

đ

ị

nh nghĩa

(definition)

Câu h

ỏ

i

liên k

ế

t

(association)

Câu h

ỏ

i

s

ố

l

ượ

ng

(quantity)

Câu h

ỏ

i

có nhi

ề

u

ch

ủ

ng

ữ

, tân ng

ữ

Câu h

ỏ

i ý ki

ế

n,

quan đi

ể

m

(opinion)

C

ắ

t t

ừ

m

ệ

nh l

ệ

nh

C

ắ

t t

ừ

m

ệ

nh l

ệ

nh

Hình 3.1 Phân loại câu truy vấn

Hệ thống mà luận án xây dựng không đơn hệ thống hỏi đáp ngữ nghĩa (semantic-based QA) Nó cịn xây dựng theo tiêu chí trợ giúp tối đa người dùng đọc tin tức, giúp cho họ không tìm kiếm tin tức cách xác nhanh chóng, mà cịn trả thơng tin tri thức có liên quan Do đó, loại câu truy vấn nêu trên, hệ thống chuyển đổi câu truy vấn dạng SPARQL, đảm bảo từ câu truy vấn SPARQL sinh tin tức thơng tin khác liên quan trả chúng tồn sở tri thức

3.3.2 Chú thích truy vấn ngữ nghĩa tin tức thể thao

Các truy vấn ngữ nghĩa đầu phương pháp đề xuất nghiên cứu này, trước tiên ta cần xác định chúng biểu diễn Để tìm kiếm thơng tin từ kho liệu ngữ nghĩa, câu truy vấn cần có cấu trúc phù hợp với cấu trúc diễn đạt liệu kho liệu ngữ nghĩa Tiểu mục trình bày phương pháp biểu diễn tin tức dạng thích ngữ nghĩa mẫu truy vấn ngữ nghĩa tương ứng

Luận án xác định nội dung xoay quanh tin tức cần thích ngữ nghĩa bao gồm hai kiểu:

(1) Các thuộc tính tin tức (ví dụ như: URL, createtime, chủ đề …), thực thể nhắc đến tin tức (ví dụ như: cầu thủ, đội bóng, giải đấu …), thuộc tính thực thể (ví dụ như: vị trí chơi cầu thủ, đội bóng mà cầu thủ chơi, giải đấu mà đội bóng tham gia ) Đối với nội dung này, luận án biểu diễn thích ngữ nghĩa dạng RDF

Ví dụ:

<owl:NamedIndividual rdf:about="http://bk.sport.owl#jonathan-viera">

<bksport:playFor rdf:resource="http://bk.sport.owl#ud-las-palmas"/>

<protons:generatedBy rdf:resource="http://bk.sport.owl"/> <protons:hasAlias>Jonathan Viera</protons:hasAlias>

<rdfs:label>Jonathan Viera</rdfs:label>

(87)

76

<rdf:type rdf:resource="http://bk.sport.owl#Midfield"/>

</owl:NamedIndividual>

(2) Các hoạt động mà tin tức đề cập đến (ví dụ: cầu thủ ghi bàn, chuyển nhượng cầu thủ, trận đấu hai đội bóng …) Đối với nội dung này, luận án đề xuất bốn (quadruple) để thích ngữ nghĩa, kiện diễn ngữ cảnh tin tức

Ví dụ:

PREFIX bksport: <http://bk.sport.owl#>

<bksport#Romelu_Lukaku> <bksport#playFor> <bksport#manchester_united_fc> <bksport#namedgraph>

Để truy vấn thông tin sở tri thức, luận án sử dụng cú pháp truy vấn SPARQL Ngôn ngữ SPARQL ngôn ngữ truy vấn ngữ nghĩa cho sở liệu, có khả truy hồi thao tác liệu lưu trữ định dạng RDF

Tương ứng với hai dạng biểu diễn thích ngữ nghĩa trên, luận án định nghĩa hai dạng khác câu truy vấn ngữ nghĩa SPARQL sau:

• Đối với biểu diễn ba, câu truy vấn SPARQL có khung sau:

SELECT/ASK WHERE

{

// Query triple patterns }

• Đối với biểu diễn bốn, câu truy vấn SPARQL có khung sau:

SELECT/ASK WHERE

{

?namedgraph {

// Query triple patterns

} }

3.4

Phương pháp chuyển đổi câu hỏi ngôn ngữ tự nhiên sang truy vấn

SPARQL

(88)

77

Hình 3.2 Quy trình chuyển đổi câu hỏi từ ngôn ngữ tự nhiên sang SPARQL

3.4.1 Tiền xử lý câu hỏi

Mô đun tiền xử lý có nhiệm vụ chuẩn hóa câu hỏi đầu vào dạng ngôn ngữ tự nhiên để nâng cao hiệu xử lý cho mô đun sau Những công việc tiền xử lý bao gồm:

• Chuẩn hóa token khơng chuẩn: viết người dùng thường có thói quen sử dụng nhiều ký hiệu viết tắt Luận án thống kê ký hiệu viết tắt thơng thường xây dựng nên bảng chuẩn hóa gồm hai trường Trường thứ ký hiệu viết tắt thường dùng trường thứ hai từ ngữ có ý nghĩa tương đương Sau đó, luận án tiến hành duyệt token câu truy vấn, ký hiệu viết tắt thay nhóm từ tương ứng

• Xác định thuộc tính thời gian câu truy vấn: luận án thống kê phân loại nhãn thời gian thành loại sau:

+ Khoảng thời gian ngày: ví dụ “today”, “yesterday”, … + Khoảng thời gian tuần: ví dụ “next week”, “last week”, … + Khoảng thời gian tháng: ví dụ “next month”, “last month”, … + Khoảng thời gian năm: ví dụ “next year”, “last year”, …

Dựa vào thời điểm người dùng truy vấn, hệ thống tính giá trị thời gian cụ thể tương ứng với loại nhãn thời gian, sau thay nhãn thời gian câu truy vấn giá trị cụ thể

Chuyển đổi tương đương truy vấn: hệ thống chấp nhận đầu vào câu mệnh lệnh câu rút gọn Để phân tích cú pháp hoạt động để đơn giản hóa việc xử lý bước sau, hệ thống chuyển đổi câu hai dạng câu hỏi chuẩn có ý nghĩa tương đương: dạng câu hỏi có từ hỏi dạng câu hỏi nghi vấn (yes/no) Ví dụ câu hỏi: “news about Lionel Messi” chuyển đổi thành câu hỏi chuẩn ngữ pháp “Which news is about Lionel Messi?”

3.4.2 Phân tích cú pháp

(89)

78

(Typed Dependencies) Kết bước phân tích sử dụng tác vụ giai đoạn sau xác định dạng câu truy vấn, xây dựng quan hệ ba, thích thực thể, lớp thuộc tính

Cây cấu trúc cụm từ cách trực quan để biểu diễn đầu q trình phân tích cú pháp câu Nó ba khía cạnh cấu trúc câu sau:

• Thứ tự tuyến tính từ câu

• Các nhóm từ với tạo thành cụm từ

• Cấu trúc phân cấp cụm từ

Ví dụ, với câu truy vấn “Which news is about Lionel Messi?”, ta thu cấu trúc cụm từ minh họa hình 3.3 đây:

Hình 3.3 Ví dụ cấu trúc cụm từ câu

Trong đó, nút gốc xác định dạng câu truy vấn

Phụ thuộc theo loại biểu diễn quan hệ ngữ pháp từ câu Chúng dễ hiểu hữu ích cho muốn trích rút quan hệ văn Mỗi phụ thuộc theo loại ba của: tên quan hệ, thành phần điều khiển, thành phần phụ thuộc Ví dụ, câu truy vấn “Which news is about Lionel Messi?”, hệ thống phân tích phụ thuộc theo loại sau:

det(news-2, Which-1)

attr(is-3, news-2)

root(ROOT-0, is-3)

nn(Messi-6, Lionel-5)

prep_about(is-3, Messi-6)

Ở từ viết tắt định nghĩa báo [135] sau:

Det (viết tắt determiner) quan hệ phần đầu cụm danh từ từ hạn định (determiner) Một số ví dụ từ hạn định là: a, an, the, some, which, your

Attr (viết tắt attributive) quan hệ dành cho bổ ngữ động từ nối (copular verb) “to be (is, am, are, was, were)”, “to seem”, “to appear”, “to look”, “to sound”, “to smell”, “to taste” …

Root: quan hệ ngữ pháp gốc (root) đến gốc câu

Nn: quan hệ tính từ ghép với danh từ

(90)

79

Các phụ thuộc theo loại xác định từ quan trọng câu mối quan hệ chúng Trên sở đó, luận án xây dựng nên ràng buộc quan hệ ba (constraint by triple patterns) câu truy vấn SPARQL

Luận án cài đặt tác vụ phân tích gắn nhãn từ loại, cấu trúc cụm từ phụ thuộc theo loại có tái sử dụng thư viện Stanford Parser

3.4.3 Biểu diễn ngữ nghĩa cho câu hỏi

3.4.3.1 Mơ hình biểu diễn ngữ nghĩa cho câu hỏi

Luận án đề xuất mơ hình biểu diễn ngữ nghĩa bao phủ hai dạng câu hỏi bản: dạng câu hỏi có từ hỏi dạng câu hỏi nghi vấn (yes/no) Mơ hình biểu diễn ngữ nghĩa câu hỏi trình bày chi tiết bảng 3.1

Bảng 3.1 Mơ hình biểu diễn ngữ nghĩa câu hỏi

Danh sách biến:

+ Biến truy vấn (truy vấn số lượng, truy vấn đối tượng) + Biến thông thường

Các ràng buộc cho biến: + Ràng buộc nhãn biến

+ Ràng buộc quan hệ phụ thuộc biến + Ràng buộc số lượng

Ràng buộc cho quan hệ phụ thuộc: + Ràng buộc AND/OR

+ Ràng buộc thời gian

Ý nghĩa thành phần mơ hình ngữ nghĩa sau:

a) Danh sách biến

Mỗi biến danh sách biến đại diện cho từ (token) câu hỏi Tên biến đặt theo quy tắc: “chuỗi kí tự” + ID (ví dụ: ?x1, ?x2, …) Nhãn biến từ mà đại diện Các biến chia thành hai loại:

• Biến truy vấn: biến ẩn chứa thông tin cần trả câu truy vấn • Biến thường: biến lại

Đối với dạng câu hỏi có từ hỏi, u cầu tồn biến truy vấn danh sách biến, cịn dạng câu hỏi nghi vấn (yes/no) không tồn biến truy vấn Tên biến truy vấn thêm dấu “?” phía trước để phân biệt với biến thường Tác giả biểu diễn biến truy vấn hai dạng: biến truy vấn số lượng câu hỏi có từ hỏi “how many” (biểu diễn danh sách biến COUNT(?tên_biến)) biến truy vấn đối tượng câu hỏi có từ hỏi “who/what/which/where” (biểu diễn danh sách biến ?tên_biến)

b) Các ràng buộc cho biến

• Ràng buộc nhãn biến: biến có nhãn từ mà đại diện

• Ràng buộc quan hệ phụ thuộc biến: mối quan hệ hai biến ?subject ?object thể biến ?predicate dạng ba (?subject, ?predicate, ?object)

(91)

80

c) Ràng buộc cho quan hệ phụ thuộc

• Ràng buộc AND/OR: thể việc quan hệ phụ thuộc xảy đồng thời hay khơng thiết đồng thời

• Ràng buộc thời gian: giới hạn quan hệ phụ thuộc (ví dụ như: trận đấu, chuyển nhượng cầu thủ…) xảy khoảng thời gian

Để sinh câu truy vấn SPARQL, luận án cần phải chuyển từ câu truy vấn dạng ngôn ngữ tự nhiên mơ hình biểu diễn ngữ nghĩa cho câu hỏi Mơ hình biểu diễn trung gian để sinh truy vấn SPARQL

3.4.3.2 Chuyển từ cấu trúc ngữ pháp sang biểu diễn ngữ nghĩa

a) Xác định biến truy vấn

Hình 3.4 trình bày quy trình xác định biến truy vấn luận án đề xuất Như trình bày trên, tồn biến truy vấn danh sách biến tùy thuộc vào dạng thức câu truy vấn đầu vào Nếu đầu vào câu hỏi nghi vấn khơng tồn biến truy vấn danh sách biến Ngược lại, đầu vào câu hỏi có từ hỏi, mơ đun xác định chủ thể hỏi tương ứng với từ hỏi Đối với từ hỏi “who/what/where”, mô đun xác định chủ thể hỏi từ hỏi; cịn từ hỏi “how many/which” mơ đun xác định chủ thể hỏi danh từ sau từ hỏi, từ xác định biến truy vấn

Như trình bày tiểu mục mơ hình biểu diễn ngữ nghĩa cho câu hỏi, tác giả chia biến truy vấn thành hai loại: biến truy vấn số lượng (cho từ hỏi “how many”) biến truy vấn đối tượng (cho từ hỏi “who/what/where/which”) Tùy thuộc vào loại từ hỏi, mô đun xác định loại biến truy vấn

(92)

81

b) Xác định biến thường ràng buộc quan hệ phụ thuộc biến

Hình 3.5 minh họa quy trình xác định biến thường ràng buộc quan hệ phụ thuộc biến thực luận án Mỗi phụ thuộc theo loại ba của: tên quan hệ, thành phần điều khiển thành phần phụ thuộc Từ phụ thuộc theo loại thu từ bước phân tích cú pháp, ta suy từ có quan hệ với mối quan hệ chúng (dựa vào tên phụ thuộc theo loại) Các từ đại diện biến, bao gồm biến truy vấn biến thường

Như trình bày, thành phần quan trọng câu truy vấn SPARQL tập ba định nghĩa ràng buộc câu hỏi Tuy nhiên, quan hệ phụ thuộc biến xác định từ phụ thuộc theo loại quan hệ hai, quan hệ phụ thuộc thuộc hai loại: subject - predicate predicate – object Vì thế, để sinh ràng buộc ba cần kết hợp phụ thuộc theo loại Luận án thực theo nguyên tắc sau: hai phụ thuộc theo loại biểu diễn hai loại quan hệ phụ thuộc khác mà có chung vị ngữ (predicate) xem xét để xây dựng nên quan hệ ba có dạng (subject, predicate, object)

Hình 3.5 Xác định biến thường ràng buộc quan hệ biến

(93)

82

dobject(?x-defeat, ?z-Chelsea) Trong đó, nsubject biểu diễn quan hệ subject – predicate dobject biểu diễn quan hệ predicate – object Tổng hợp hai phụ thuộc theo loại lại, ta thu quan hệ ba (?y-Barcelona, ?x-defeat, ?z-Chelsea) Hình 3.6 hình ảnh trực quan mơ tả việc kết hợp hai phụ thuộc theo loại thành quan hệ ba

nsubject(?x-defeat, ?y-Barcelona) dobject(?x-defeat, ?z-Chelsea)

?y-Barcelona ?x-defeat ?z-Chelsea

Hình 3.6 Phương pháp kết hợp hai phụ thuộc theo loại thành quan hệ ba

Trong trường hợp câu bị động: “was Chelsea defeated by Barcelona?”, mô đun phân tích cú pháp trả hai phụ thuộc theo loại nsubjectpass(?x-defeated, ?y-Chelsea) agent(?x-defeated, ?z-Barcelona) Trong đó, nsubjectpass biểu diễn quan hệ predicate – object agent biểu diễn quan hệ subject – predicate Tương tự trên, kết hợp hai phụ thuộc theo loại lại ta quan hệ ba (?z-Barcelona, ?x-defeated, ?y-Chelsea)

Đối với dạng câu hỏi có ngữ nghĩa hỏi phức tạp câu có nhiều chủ thể, tân ngữ, mơ đun phân tích cú pháp khơng sinh phụ thuộc theo loại để biểu diễn quan hệ subject – predicate predicate – object, mà sinh phụ thuộc theo loại dạng conj_and(?x, ?y) conj_or(?x, ?y) Trong trường hợp này, hệ thống sinh hai ba có subject (hoặc object) ?x ?y Tùy thuộc vào loại liên kết “and” hay “or”, câu truy vấn mang ý nghĩa “đồng thời xảy ra” hay “không thiết đồng thời xảy ra” hai quan hệ ba

Ví dụ, câu truy vấn “Which team defeated Chelsea and Barcelona?”, mơ đun phân tích cú pháp sinh tập phụ thuộc theo loại chứa nsubject(?x-defeated, ?y-team), dobject(?x-defeated, ?z-Chelsea) conj_and(?z-Chelsea, ?t-Barcelona) Từ phụ thuộc theo loại này, hệ thống sinh hai quan hệ đồng thời team, ?x-defeated, ?z-Chelsea) (?y-team, ?x-defeated, ?t-Barcelona)

c) Xác định ràng buộc số lượng

Để xác định ràng buộc số lượng, luận án dựa tập phụ thuộc theo loại sinh từ bước phân tích cú pháp

Luận án xem xét hai loại ràng buộc số lượng: (1) ràng buộc so sánh số lượng đối tượng với giá trị số cụ thể (ví dụ: Who scored more than goals?) (2) ràng buộc số lượng đối tượng lớn hay bé (ví dụ: Who scored the most goals?, Which team conceded the least goals?)

Quy trình luận án đề xuất nhằm xác định ràng buộc số lượng thuộc loại (1) trình bày hình 3.7 Đối với loại (1), phụ thuộc theo loại num(?object, ?quantvalue) cho biết tồn ràng buộc số lượng cho đối tượng ?object dựa vào mối quan hệ với giá trị ?quantvalue Để xác định quan hệ đối tượng giá trị số lượng này, luận án xem xét tồn phụ thuộc theo loại khác quantmod(?quantvalue, “than”) Nếu phụ thuộc theo loại không tồn tại, nghĩa số lượng ?object giá trị ?quantvalue Ngược lại, phụ thuộc theo loại tồn tại, dựa vào giá trị hai trường governor dependent phụ thuộc theo loại mwe (?gov, ?dep) để xác định quan hệ bất đẳng thức ?object ?quantvalue (“>”, “>=”, “<”, “<=”)

(94)

83

Hình 3.7 Quy trình xác định ràng buộc số lượng loại (1) d) Xác định ràng buộc thời gian

Yếu tố thời điểm quan trọng kiện thể thao Khác với hệ thống QA khác, nghiên cứu này, luận án có tham vọng trả lời câu hỏi có ràng buộc thời gian Qua khảo sát, tác giả phân loại câu hỏi loại thành hai loại: ràng buộc gắn với thời điểm ràng buộc gắn với khoảng thời gian

Ví dụ:

• Loại 1: “today”, “yesterday”, “last sunday”, “in 01/01/2015”, …

• Loại 2: “last week”, “last month”, “this season”, “this year”, …

Một vấn đề đặt phải xác định thành phần câu hỏi liên quan đến thời gian chuyển đổi vào mơ hình ngữ nghĩa Như công việc định nghĩa cách biểu diễn ngữ nghĩa mặt thời gian cho câu hỏi Để làm điều này, mơ hình ngữ nghĩa, tác giả định nghĩa “Interval” gồm hai trường: Interval(BEGIN, END) Kiểu Interval thể ràng buộc thời điểm kiện diễn phải nằm khoảng BEGIN END

(95)

84

Dưới số ví dụ biểu diễn câu hỏi mơ hình ngữ nghĩa: Ví dụ 1: “Which team defeated Chelsea in 08/05/2015?”

?x y z x = “team” y = “defeated” z = “Chelsea” Triple1: (x, y, z)

Interval (08/05/2015, 08/05/2015)

Ví dụ 2: “Was Chelsea defeated by both Real Madrid and Barcelona in 2015?”

x y z t x = “Chelsea” y = “defeated” z = “Barcelona” t = “Real Madrid” Triple1: (z, y, x) Triple2: (t, y, x) AND(Triple1, Triple2)

Interval (01/01/2015, 31/12/2015)

Từ mơ hình biểu diễn ngữ nghĩa, mô đun sinh câu truy vấn SPARQL trung gian

3.4.4 Sinh câu truy vấn SPARQL trung gian

Từ mơ hình ngữ nghĩa câu hỏi, giai đoạn xử lý sinh câu truy vấn SPARQL trung gian mô tả hình 3.8 Câu truy vấn trung gian có khung chứa biến, gồm hai thành phần mệnh đề hỏi mệnh đề điều kiện Ngoài ra, câu hỏi dạng đặc biệt (câu hỏi có ràng buộc số lượng, câu hỏi có ràng buộc thời gian) cịn có thêm mệnh đề ràng buộc khác

Mơ hình ngữ nghĩa câu hỏi

Xác định mệnh đề điều kiện

(WHERE)

Xác định

mệnh đề hỏi

Xác định mệnh đề GROUP BY cho

câu hỏi có ràng buộc số lượng

(1) Có biến truy vấn số lượng COUNT(?x) + biến thường

➔

SELECT COUNT(?x)

(2) Có biến truy vấn đối tượng + biến thường

➔

SELECT ?x

(3) Khơng có biến truy vấn

➔

ASK

(1) Sinh mẫu ba (kết hợp với

ràng buộc AND/OR (nếu có))

(2) Sinh đồ thị Named Graph tồn

ràng buộc thời gian

(3) Sinh mệnh đề FILTER

(4) Sinh mệnh đề ORDER

Hình 3.8 Quy trình sinh truy vấn SPARQL trung gian

(96)

85

3.4.4.1 Xác định mệnh đề hỏi

Mệnh đề hỏi câu truy vấn SPARQL gồm hai loại: mệnh đề SELECT mệnh đề ASK (tương ứng với hai dạng câu hỏi bản: dạng câu hỏi có từ hỏi dạng câu hỏi nghi vấn (yes/no)) Câu truy vấn dạng ASK trả giá trị yes/no, xác định mơ hình ngữ nghĩa khơng có biến truy vấn Câu truy vấn dạng SELECT trả giá trị cụ thể cho biến truy vấn Như phân biệt mơ hình ngữ nghĩa, có hai loại biến truy vấn: biến truy vấn số lượng (COUNT(?x)) biến truy vấn đối tượng (?x) Nếu danh sách biến chứa biến truy vấn số lượng (và biến thường) mệnh đề hỏi “SELECT COUNT(?x)” Còn danh sách biến chứa biến truy vấn đối tượng (và biến thường) mệnh đề hỏi “SELECT ?x”

3.4.4.2 Xây dựng mệnh đề điều kiện – Mệnh đề WHERE

a) Sinh ba biểu diễn mối quan hệ chúng dựa vào ràng buộc AND/OR

Mệnh đề WHERE chứa mẫu ba ba RDF dạng {<?subject> <?predicate> <?object>} Các ba xây dựng dựa quan hệ ba (?subject, ?predicate, ?object) mơ hình ngữ nghĩa Một quan hệ ba mơ hình ngữ nghĩa sinh ba mệnh đề WHERE Ví dụ, mơ hình ngữ nghĩa có chứa ba (?x, ?y, ?z), mô đun sinh ba có dạng: {<?x> <?y> <?z>} Sự kết hợp ba mệnh đề WHERE (kết hợp đồng thời không thiết đồng thời) tùy thuộc vào ràng buộc AND/OR mơ hình ngữ nghĩa Nếu mơ hình ngữ nghĩa có hai quan hệ ba: ba 1: (?x1, ?y1, ?z1) ba 2: (?x2, ?y2, ?z2) tồn ràng buộc AND(Bộ_Ba_1, Bộ_Ba_2) hai ba chuyển thành ba RDF mệnh đề WHERE sau:

{

<?x1> <?y1> <?z1> <?x2> <?y2> <?z2> }

Mặt khác, tồn ràng buộc OR(Bộ_Ba_1, Bộ_Ba_2), tác giả biểu diễn hai quan hệ dạng hợp sau:

{

{<?x1> <?y1> <?z1>} UNION {<?x2> <?y2> <?z2>} }

Mặc định, không tồn ràng buộc AND/OR ba tuân theo ràng buộc AND

b) Sinh ràng buộc số lượng

Luận án biểu diễn ràng buộc số lượng mơ hình ngữ nghĩa mệnh đề GROUP BY với mệnh đề phụ bổ sung: HAVING ORDER

Mệnh đề HAVING

Mệnh đề HAVING dùng để biểu diễn ràng buộc so sánh số lượng đối tượng với giá trị số cụ thể Giả sử mơ hình ngữ nghĩa có ràng buộc moreORequal(?object, 3), tác giả biểu diễn câu truy vấn SPARQL sau:

GROUP BY ?object

HAVING ( COUNT(?object) >= )

Mệnh đề ORDER:

(97)

86

GROUP BY ?object

ORDER BY DESC(COUNT(?object)) OFFSET LIMIT

Từ khóa “DESC” thể kết truy vấn xếp giảm dần theo giá trị COUNT(?object) (ngược lại với “ASC” xếp tăng dần, dùng ràng buộc theleast(?object)) Ràng buộc “OFFSET LIMIT 1” ví dụ nghĩa đưa kết ?object có giá trị COUNT(?object) lớn

c) Biểu diễn ràng buộc thời gian câu truy vấn SPARQL

Khác với ràng buộc xét (ràng buộc giá trị nhãn cho biến, ràng buộc quan hệ phụ thuộc biến, ràng buộc số lượng, chúng ràng buộc cho biến ?subject, ?object), ràng buộc thời gian xem xét nghiên cứu ràng buộc cho quan hệ phụ thuộc biến, nghĩa ràng buộc thời gian cho quan hệ ba Để làm điều này, luận án sử dụng mơ hình NamedGraph để gom nhóm quan hệ ba lại đồ thị ?graph sau:

?graph {

// RDF triple }

Sau đó, luận án định nghĩa ràng buộc thời gian cho ba RDF thông qua việc định nghĩa ràng buộc thời gian cho đồ thị ?graph sau:

?g <http://bk.sport.owl#hasTime> ?t

?t rdf:type time:Instant

?t time:inXSDDateTime ?instantDate

FILTER (?instantDate >= "BEGIN"^^<xsd:dateTime> && ?instantDate <= "END"^^<xsd:dateTime>) Trong BEGIN END hai giá trị xác định từ ràng buộc Interval (BEGIN, END) mơ hình ngữ nghĩa câu hỏi

Ví dụ 1: với câu hỏi đầu vào “Which team defeated Chelsea in 08/05/2015?”, luận án biểu diễn mơ hình ngữ nghĩa ví dụ tiểu mục 4.4.3.2 d) Dựa vào mơ hình ngữ nghĩa này, hệ thống sinh câu truy vấn SPARQL trung gian sau:

PREFIX rdf: http://www.w3.org/1999/02/22-rdf-syntax-ns# PREFIX time: <http://www.w3.org/2006/time#>

SELECT ?x WHERE {

?graph {

?x ?y ?z }

?g <http://bk.sport.owl#hasTime> ?t ?t rdf:type time:Instant

(98)

87

}

Để câu truy vấn SPARQL trung gian trở thành câu truy vấn SPARQL hoàn chỉnh, hệ thống cần phải xác định giá trị kiểu cho biến ?x, ?y, ?z Cơng việc luận án trình bày tiểu mục tiếp theo: mô đun xác định thực thể, khái niệm vị từ

3.4.5 Xác định thực thể, khái niệm vị từ

Dựa vào ràng buộc giá trị nhãn biến mơ hình biểu diễn ngữ nghĩa, mơ đun “xác định thực thể, khái niệm vị từ” tính tốn kiểu giá trị cho biến Mô đun ánh xạ nhãn biến vào sở tri thức ontology để xác định xem nhãn tương ứng với thực thể, lớp hay thuộc tính

Sau tích hợp ontology BKSport vào ontology PROTON làm giàu sở tri thức KIM, hệ thống KIM mở rộng tùy chỉnh sẵn sàng sử dụng để nhận dạng thực thể có tên lĩnh vực thể thao xuất câu hỏi đầu vào Mỗi biến mô hình ngữ nghĩa câu hỏi có nhãn riêng tương ứng KIM dựa vào nhãn để thích ngữ nghĩa cho biến Hầu hết biến có nhãn danh từ riêng thường tương ứng với thực thể sở tri thức Một biến nhận dạng thực thể sở tri thức thay URI thực thể Trường hợp nhãn danh từ riêng mà không nhận dạng KIM, hệ thống bổ sung vào câu truy vấn SPARQL trung gian câu lệnh lọc FILTER để ràng buộc giá trị nhãn cho biến Chi tiết tác vụ nhận dạng thực thể có tên trình bày chương 2, mục tập trung trình bày tác vụ xác định khái niệm (lớp) vị từ (thuộc tính)

3.4.5.1 Nhận dạng lớp

Các biến đóng vai trị subject object ràng buộc ba thực thể luận án xây dựng ràng buộc lớp cho biến Luận án tiến hành nhận dạng lớp cho biến theo bước sau Đầu tiên, luận án xây dựng danh sách gồm hai trường: trường thứ URI tất lớp có ontology trường thứ hai nhãn tương ứng lớp Sau đó, luận án dùng Wordnet để tìm từ đồng nghĩa với nhãn URI trên, tạo tập từ đại diện cho URI Hệ thống tiến hành kiểm tra nhãn biến thuộc tập từ đại diện nào, từ hệ thống xác định URI tương ứng với biến bổ sung vào câu truy vấn SPARQL mẫu ba (triple pattern) có cú pháp <tên_biến> <rdf:type> <URI_của_class> nhằm xác định kiểu biến

3.4.5.2 Nhận dạng thuộc tính

Việc nhận dạng thuộc tính biến đóng vai trị vị ngữ ba tiến hành tương tự việc nhận dạng lớp Tuy nhiên, có số vấn đề khác nảy sinh cần phải xử lý riêng trình Luận án nêu số vấn đề cách giải quyết:

a) Xử lý vấn đề nhãn biến vị ngữ tương ứng với nhiều thuộc tính ontology

Khi nhãn biến động từ động từ nhận dạng thuộc nhiều tập từ đại diện URI khác nhau, sinh nhiều vị ngữ thỏa mãn (tuy nhiên, thường có vị ngữ ý nghĩa câu hỏi) Nguyên nhân nhãn thuộc tính ontology hợp thành động từ giới từ kèm với Tuy nhiên, động từ lại kèm với nhiều giới từ khác (ví dụ: play with, play for) Do đó, nhãn biến động từ nhận dạng thuộc nhiều lớp thuộc tính (do thiếu thơng tin giới từ) Cách giải động từ nhận dạng thuộc nhiều tập từ đại diện khác nhau, dựa vào phụ thuộc theo loại prep_“preposition”(?verb, ?object) hệ thống lấy giới từ động từ Nhãn biến ?predicate bao gồm động từ giới từ kèm, giúp ta xác định kết

b) Xử lý vấn đề vị ngữ động từ “to be”

(99)

88

giả sử dụng thuộc tính bksport:hasAbstract Do đó, biến đóng vai trị vị ngữ mà có nhãn động từ “to be“, hệ thống thay thuộc tính bksport:hasAbstract

c) Xử lý vấn đề với vị ngữ động từ “happen”

Khi người dùng muốn biết việc diễn xoay quanh (hay vài) đối tượng, họ thường sử dụng động từ “happen” Trong ontology BKSport, tác giả tự định nghĩa thuộc tính

bksport:happen Đây thuộc tính mức cao, tổng quát, diễn tả điều xảy Các thuộc tính hành động mức thấp, cụ thể thuộc tính Thơng tin mà người dùng cần thuộc tính Do vậy, luận án tạo biến ?predicate khác thay biến cho thuộc tính bksport:happen, đồng thời, biến ?predicate phải thuộc

tính thuộc tính bksport:happen Điều kiện thỏa mãn cách thêm vào

câu truy vấn SPARQL ba dạng “?predicate rdfs:subPropertyOf bksport:happen” Ví dụ 1: với câu hỏi đầu vào “Which team defeated Chelsea in 08/05/2015?”, mơ hình ngữ nghĩa sinh biểu diễn ví dụ tiểu mục 3.4.3.2 d) Các ràng buộc nhãn biến sau:

x = “team” y = “defeated” z = “Chelsea”

Mô đun xác định thực thể, khái niệm vị từ xác định giá trị kiểu biến x, y, z sau:

Type(x) = http://bk.sport.owl#team URI(y) = http://bk.sport.owl#defeat URI(y) = http://bk.sport.owl#Chelsea

3.4.6 Sinh truy vấn SPARQL hoàn chỉnh

Sau mô đun xác định thực thể, khái niệm vị ngữ, tất biến mơ hình ngữ nghĩa xác định Công việc sinh truy vấn SPARQL hoàn chỉnh đơn giản thay biến câu truy vấn SPARQL trung gian URI tương ứng

Ví dụ 1: Kết hợp câu truy vấn trung gian ví dụ tiểu mục 3.4.4.2 c) giá trị kiểu biến ví dụ tiểu mục 3.4.5.3 c), hệ thống sinh câu truy vấn SPARQL hoàn chỉnh sau:

PREFIX xsd: <http://www.w3.org/2001/XMLSchema#> PREFIX time: <http://www.w3.org/2006/time#>

PREFIX owl: <http://www.w3.org/2002/07/owl#>

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX bksport: <http://bk.sport.owl#>

SELECT ?x WHERE {

?graph {

(100)

89

?x rdf:type <http://bk.sport.owl#team> ?g <http://bk.sport.owl#hasTime> ?t ?t rdf:type time:Instant

FILTER (?instantDate >= 08"^^<xsd:dateTime> && ?instantDate <= "2015-05-08"^^<xsd:dateTime>)

}

3.5

Thử nghiệm đánh giá

3.5.1 Kịch thử nghiệm kết

Trong nghiên cứu này, luận án tập trung trình bày hệ thống chuyển đổi từ câu truy vấn người dùng sang câu truy vấn SPARQL chưa đề cập đến việc sử dụng truy vấn SPARQL để trả câu trả lời từ kho tri thức ngữ nghĩa Vì thế, phần này, luận án tiến hành đánh giá xác việc chuyển đổi câu truy vấn Tất thực nghiệm thực máy tính Intel Core i7, CPU 2.30 GHz với RAM 8GB, hệ điều hành Microsoft Windows Server 2008 Các thuật tốn cài đặt ngơn ngữ lập trình Java, sử dụng thư viện xử lý ngôn ngữ tự nhiên Stanford NLP version 1.3.5

Để đánh giá hệ thống, luận án tiến hành đánh giá câu truy vấn chuyển đổi từ liệu câu hỏi tự nhiên đầu vào Việc xác định câu truy vấn SPARQL sinh tự động hệ thống hay sai thực người có kiến thức truy vấn SPARQL Để làm điều này, người đánh giá xem liệu câu truy vấn SPARQL sinh đầy đủ xác thơng tin mà thể câu truy vấn ngôn ngữ tự nhiên đầu vào hay khơng Tuy nhiên, để đánh giá “mức độ đúng” câu truy vấn SPARQL điều khó Điều câu truy vấn SPARQL cấu thành nhiều thành phần, thành phần lại đóng vai trị khác Một câu truy vấn SPARQL gồm có loại mệnh đề chính, loại mệnh đề cấu thành thành phần thành phần đơn vị biến:

1 Mệnh đề hỏi: có thành phần biến hỏi (cũng thành phần đơn vị)

2 Mệnh đề WHERE: có thành phần ba, ba cấu thành từ thành phần đơn vị (subject, predicate, object) biến (các biến nhận dạng chưa)

3 Mệnh đề ràng buộc khác (mệnh đề ràng buộc thời gian, mệnh đề ràng buộc số lượng…): cấu thành từ câu lệnh, câu lệnh chứa thành phần đơn vị biến Ví dụ, phân tích câu truy vấn có dạng sau:

SELECT ?x1 ?x3 WHERE

{

?x1 ?x2 ?x3 }

GROUP BY ?x1

ORDER BY DESC(COUNT(?x3)) OFFSET LIMIT

Theo định nghĩa trên, ta thấy rằng:

(101)

90

• Mệnh đề WHERE: có ba nhất, ba cấu thành từ thành phần đơn vị: ?x1, ?x2 ?x3

• Mệnh đề ràng buộc số lượng: bao gồm hai câu lệnh, câu lệnh thứ chứa thành phần đơn vị ?x1, câu lệnh thứ hai chứa thành phần đơn vị ?x3

Để đo lường độ xác câu truy vấn, trước tiên ta phải đo độ xác loại mệnh đề Để làm điều này, luận án dựa vào thành phần đơn vị Tác giả định nghĩa “thành phần đơn vị đúng” biến thỏa mãn điều kiện sau:

• Đã nhận dạng (tương ứng với URI)

• Đã xác định rõ kiểu

• Đã xác định rõ ràng buộc giá trị nhãn

Luận án khơng đơn đánh giá độ xác câu truy vấn sinh hệ thống dựa số lượng thành phần xác định với ý muốn mà dựa độ quan trọng thành phần Để làm điều này, luận án đánh trọng số cho loại mệnh đề câu truy vấn dựa vào quan điểm tác giả mức độ quan trọng Gọi wi trọng số

của mệnh đề i câu truy vấn, luận án đánh trọng số sau:

• wi = 3, ứng với mệnh đề hỏi • wi = 2, ứng với mệnh đề WHERE

• wi = 1, ứng với mệnh đề ràng buộc khác

Gọi ni số thành phần đơn vị loại mệnh đề i, Ni số thành phần đơn vị cần xác

định loại mệnh đề i câu truy vấn viết chuyên gia, ni/ Ni độ

xác mệnh đề i Một trường hợp đặc biệt mệnh đề hỏi “SELECT *” mà khơng có biến hỏi cụ thể, luận án mặc định gán cho mệnh đề hỏi độ xác 0.5

Cuối cùng, luận án xác định công thức tổng quát để đo độ xác câu truy vấn q sinh hệ thống sau:

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛(𝑞) = 𝑏 ×

∑ (𝑎𝑖 × 𝑤𝑖×𝑁𝑛𝑖 𝑖) 𝑀

𝑖=1

∑𝑀 (𝑎𝑖× 𝑤𝑖) 𝑖=1

(3.1)

Trong đó:

• b nhận giá trị 1:

➢ b = xác định sai loại mệnh đề hỏi (SELECT hay ASK) xác định sai tất biến hỏi Các biến hỏi định đối tượng cần truy vấn gì, tất biến hỏi xác định sai precision =

➢ b = trường hợp lại

• M số loại mệnh đề có câu truy vấn viết chuyên gia

• = mệnh đề loại i tồn câu truy vấn sinh hệ thống, = ngược

lại

(102)

91

Bảng 3.2 Một phần tập câu hỏi để đánh giá hệ thống đề xuất

ID Question Precision

*** Definition question

1 Who is Lionel Messi? 1

*** Yes/no question

2 Was Chelsea defeated by Barcelona last year? 1

3 Did Barcelona defeat Chelsea? 1

4 Did Wayne Rooney dispute with Alex Ferguson yesterday? 1

*** Predicative question

5 Which team defeated Chelsea? 1

6 Which team defeated Chelsea this season? 0.83

7 Which event relates to Lionel Messi? 1

8 Which team did Lionel Messi transfer to? 1

*** Opinion question

12 What did Lionel Messi say about Chelsea? 1

*** Phrase-verb

13 news about Chelsea 1

*** Quantity question

14 How many clubs defeated Chelsea? 1

*** Comparative, superlative question

15 Who won the most games this year?

16 Who won more than games this year? 1

*** Association question:

20 What is the result of the match between Chelsea and Barcelona? 1

21 What happened between Chelsea and Barcelona? 1

*** Multi-subject, multi-object question

22 Which team defeated Chelsea and Barcelona? 1

23 Which team defeated Chelsea and Barcelona in 2014? 1

24 Was Barcelona defeated by Manchester United and Chelsea this year? 1

3.5.2 Nhận xét đánh giá

Vì hệ thống luận án bao gồm nhiều bước nhỏ, khơng hồn hảo kết bước góp phần làm giảm độ xác việc chuyển đổi câu truy vấn Trong nghiên cứu này, luận án trình bày sau phân tích số khó khăn đến từ bước số nguyên nhân gây lỗi Hướng khắc phục hạn chế trình bày nội dung nghiên cứu tương lai

3.5.2.1 Phân tích cú pháp

(103)

92

2014?” Với câu hỏi đầu vào trên, phân tích cú pháp sinh quan hệ phụ thuộc sai như: nn(defeat-6, Chelsea-5) conj_and(United-3, defeat-6) Trong phân tích đúng, phân tích cú pháp cần trả kết rằng: nsubj(defeat-6, Chelsea-5) conj_and(United-3, Chelsea-5) Đây hạn chế phương pháp xử lý ngôn ngữ tự nhiên Tuy nhiên, điều cải thiện phiên xử lý ngôn ngữ tự nhiên tốt

3.5.2.2 Nhận dạng quan hệ phụ thuộc ba

Việc nhận dạng quan hệ phụ thuộc ba việc xác định thành phần: subject, predicate, object dựa vào phụ thuộc theo loại sinh bước phân tích cú pháp Tuy nhiên, trường hợp phân tích cú pháp việc nhận dạng quan hệ ba sai Nguyên nhân dẫn đến điều có phụ thuộc theo loại sinh q trình phân tích cú pháp câu hỏi đầu vào không nằm phụ thuộc theo loại mà luận án xem xét, phụ thuộc theo loại sinh biểu diễn mối quan hệ phức tạp dẫn đến trình ghép quan hệ thành quan hệ bị nhầm lẫn

3.5.2.3 Nhận dạng khái niệm vị từ

Bước nhận dạng khái niệm vị từ bước ánh xạ từ/cụm từ câu hỏi tự nhiên vào lớp thuộc tính tương ứng sở tri thức ontology nhằm sinh ràng buộc kiểu giá trị cho biến câu truy vấn SPARQL (khơng xét bước nhận dạng thực thể có tên, bước khơng có trường hợp sai)

a) Nhận dạng khái niệm

Việc xác định sai kiểu (hay lớp) biến thường xảy ra, nhiên có xảy trường hợp khơng xác định Nguyên nhân ontology không chứa lớp tương ứng Để giải vấn đề này, cần phải xây dựng ontology phủ hầu hết khái niệm lĩnh vực xét

b) Nhận dạng vị từ

Việc xác định sai giá trị biến vị từ (biến thuộc tính biến ?predicate quan hệ ba <?subject> <?predicate> <?object>) xảy Trường hợp không xác định giá trị biến vị từ xảy có thuộc tính tương ứng chưa định nghĩa ontology Ví dụ trường hợp câu hỏi đầu vào “Which football player noun as CR7?” quan hệ “noun as” khơng nhận dạng chưa định nghĩa quan hệ ontology

3.5.2.4 Xử lý nhãn thời gian

Tồn nhãn thời gian mà hệ thống xác định ràng buộc “this season” Vì có nhiều giải đấu, mùa giải thời điểm bắt đầu kết thúc lại không giống nhau, nên xác định ràng buộc

3.5.2.5 Một số trường hợp đặc biệt chưa xử lý

a) Trường hợp “Who is the best player in Chelsea?”

Mặc dù phân tích cú pháp phân tích xác, nhiên ontology lại không định nghĩa quan hệ thể “cầu thủ chơi tốt nhất”, khơng xác định giá trị biến vị từ

b) Trường hợp: “Which player will leave Chelsea?”

Hệ thống chưa quan tâm đến “thì” câu truy vấn đầu vào mà coi độc giả hỏi kiện xảy Trên thực tế nghiên cứu sinh thích ngữ nghĩa, số predicate biểu thị độ chắn kết nghiên cứu chương Do đó, tương lai gần lỗi khắc phục nhờ biện pháp kết hợp với việc xử lý ràng buộc thời gian

3.6

(104)

93

tự động qua nhiều mô đun để sinh câu truy vấn SPARQL hoàn chỉnh Câu truy vấn trước tiên tiền xử lý, sau phân tích cú pháp phân tích để nhận biết thành phần ngữ pháp mối quan hệ thành phần ngữ pháp đó, từ biểu diễn câu truy vấn dạng mơ hình ngữ nghĩa Từ mơ hình ngữ nghĩa, mơ đun sinh truy vấn SPARQL trung gian tạo khung truy vấn SPARQL chứa biến Cuối cùng, mô đun xác định thực thể, khái niệm vị từ thích sinh ràng buộc cho biến khung truy vấn SPARQL trung gian URI ontology sở tri thức, sinh câu truy vấn SPARQL hoàn chỉnh

Kết tác giả công bố báo “Sport News Semantic Search with Natural Language Questions” báo cáo hội nghị quốc tế European Alliance for Innovation (EAI) International Conference on Industrial Networks and Intelligent Systems

(INISCOM 2018)

Dựa việc tiền xử lý phân tích sâu cấu trúc ngữ pháp câu truy vấn, nên hệ thống mà luận án đề xuất có khả xử lý số dạng câu truy vấn phức tạp câu hỏi so sánh hơn, so sánh nhất, câu hỏi có nhiều chủ ngữ, tân ngữ, câu hỏi có cấu trúc ngữ pháp khơng chuẩn tắc… Một số trường hợp kết phân tích cú pháp sinh phức tạp, hay ngữ nghĩa câu hỏi phức tạp mà hệ thống xử lý chưa Tuy nhiên, câu hỏi phức tạp vậy, hệ thống xử lý phần Qua thử nghiệm đánh giá câu hỏi gồm nhiều loại câu hỏi khác cho thấy hệ thống đề xuất đạt độ xác cao

(105)

94

CHƯƠNG GỢI Ý TIN TỨC DỰA TRÊN NGỮ NGHĨA CHO

HỆ THỐNG TỔNG HỢP TIN TỨC THỂ THAO

Ngày nay, tin tức Internet đóng vai trị quan trọng việc giúp người tiếp cận thông tin diễn hàng ngày giới Tuy nhiên, số lượng tin tức Internet liên tục tăng gây khó khăn cho độc giả muốn tiếp cận tin tức mà quan tâm Để giải quyết vấn đề này, hệ thống gợi ý tin tức xây dựng Có nhiều phương pháp gợi ý tin tức nghiên cứu, hầu hết phương pháp dựa độ đo tương đồng (độ tương đồng hai tin với sở thích cá nhân độc giả tin) Trong nghiên cứu này, luận án đề xuất cài đặt thực nghiệm phương pháp gợi ý tin tức thể thao dựa kết hợp độ tương đồng ngữ nghĩa với độ tương đồng nội dung hai tin tức Kết thử nghiệm cho thấy kết hợp hai độ đo cho kết gợi ý tốt dùng hai độ đo

4.1

Giới thiệu

Khi người bắt đầu đọc tin tức trực tuyến ngày nhiều việc tìm thấy tin tức thú vị hợp với yêu cầu họ trở thành thách thức Trong chương chương 3, luận án hướng đến việc cải thiện tính tìm kiếm cho hệ thống tổng hợp tin tức thể thao, nhiên thực tế lúc ta biết rõ tin tức mà muốn xem

Các hệ thống gợi ý nói chung xây dựng để giúp dễ dàng tìm thơng tin phù hợp Internet Không giống hệ thống tư vấn cơng cụ tìm kiếm, mang đến thơng tin cho người dùng mà khơng có nỗ lực tìm kiếm thủ cơng Điều đạt cách sử dụng tương đồng người dùng mục tin Có nhiều phương pháp để xây dựng hệ thống gợi ý phương pháp áp dụng cho nhiều lĩnh vực cụ thể mua sắm (ví dụ Amazon), phim ảnh (ví dụ Netflix), nhạc (ví dụ Pandora Radio)

Các hệ thống gợi ý tin tức có mục đích đưa gợi ý viết phù hợp cho độc giả, mà có cân nhắc đến dự đoán theo ưu tiên sở thích cá nhân họ

Gợi ý tin tức lĩnh vực thể thao nhiệm vụ thách thức nhất, lĩnh vực thể thao khác hẳn với lĩnh vực khác âm nhạc, mua sắm, phim ảnh Một ví dụ điển hình tính thời tính phổ biến tin tức thể thao thay đổi nhanh theo thời gian Vì vậy, tập trung vào giải vấn đề tính tươi lĩnh vực tin tức khó Ngồi ra, số tin tức liên kết với để giúp độc giả theo dõi tiếp tin tức có liên quan đến tin tức mà họ đọc có quan tâm

Có nhiều tiếp cận khác cho tốn gợi ý nói chung gợi ý tin tức nói riêng, bật phương pháp gợi ý dựa tương đồng tin tức với nhau, gọi phương pháp dựa nội dung Một tiếp cận khác dựa tương đồng tin tức sở thích cá nhân người đọc [136] Lọc cộng tác kỹ thuật phổ biến ứng dụng trường Tuy nhiên, tìm hiểu sở thích người đọc giải pháp không đầy đủ cho việc gợi ý tin tức, độc giả muốn đọc tin tức không thực quan tâm đến chủ đề lại nghĩ quan trọng Ví dụ, họ muốn đọc tin bầu cử không quan tâm đến lĩnh vực trị

Chương luận án trình bày nghiên cứu khai thác khía cạnh ngữ nghĩa nhằm cải thiện khả hoạt động hệ thống tổng hợp tin tức, giúp khơng có tính tìm kiếm mà cịn có chức khuyến nghị (gợi ý) Mục tiêu xác định nâng cao hiệu quả phương pháp dựa nội dung với ý tưởng kết hợp độ tương đồng nội dung với độ tương đồng ngữ nghĩa.

(106)

95

Các mục lại chương tổ chức sau Mục 4.2 mô tả nghiên cứu trước liên quan đến đo độ tương đồng ngữ nghĩa hai tin tức Mục 4.3 trình bày chi tiết phương pháp đề xuất Mục 4.4 trình bày thử nghiệm thực cách sử dụng cài đặt chuyên gia gợi ý đề xuất đánh giá kết thu Sau đó, ưu điểm nhược điểm phương pháp biện pháp khắc phục hướng nghiên cứu tương lai kết luận mục 4.5

4.2

Nghiên cứu liên quan

Như đề cập, phương pháp gợi ý dựa lọc cộng tác sử dụng sở thích độc giả khác mà có tương đồng với sở thích khứ độc giả xác định Tin tức gợi ý cho độc giả tin tức đọc nhiều người có sở thích tương đồng với sở thích độc giả [44, 45, 46] Tuy nhiên, tiếp cận đòi hỏi thông tin lịch sử đọc tin nhiều người dùng Vì vậy, luận án khơng theo tiếp cận

Nhiều nghiên cứu cho thấy hệ thống khuyến nghị dựa nội dung thường cố gắng giới thiệu tin tức có độ tương đồng cao với tin tức người đọc quan tâm Xây dựng mơ hình để tính độ tương đồng tin tức đóng vai trị quan trọng tiếp cận

Trong tiếp cận túy dựa nội dung (content-based), độ tương đồng tin tức tính tốn dựa thống kê từ vựng xuất nội dung tin tức hầu hết tin gợi ý tập trung vào chủ đề mục tiêu mà tin tức hướng tới Ngược lại, tiếp cận dựa ngữ nghĩa (semantic-based) [137], độ tương đồng tin tức thường dựa sở tri thức có sẵn để khai thác mối quan hệ ngữ nghĩa yếu tố xuất tin Vì vậy, tin tức gợi ý có khả mở rộng chủ đề so với cách tiếp cận dựa nội dung

Theo truyền thống, nhiều nhà nghiên cứu chủ đề gợi ý hướng nội dung (content-based recommenders) [47, 48] sử dụng phương pháp trích rút thuật ngữ TF-IDF (Term Frequency-Inverse Document Frequency) [138] kết hợp TF-IDF với phép đo độ tương đồng cosin để so sánh độ tương đồng hai tài liệu TF-IDF sử dụng để đo độ quan trọng từ tài liệu dựa tần xuất xuất tồn tập liệu tài liệu (hoặc tập liệu) Sau tính giá trị TF-IDF cho từ tài liệu, số kết hợp với phép đo Cosine phép đo Jacard để tính độ tương đồng hai tài liệu

Giá trị TF-IDF từ xuất tài liệu tính theo cơng thức sau:

𝑇𝐹 - 𝐼𝐷𝐹𝑖𝑗= 𝑇𝐹𝑖𝑗× 𝐼𝐷𝐹𝑖 (4.1)

Trong đó:

𝑇𝐹𝑖𝑗 = 𝑛𝑖𝑗 ∑ 𝑛𝑘 𝑘𝑗

(4.2)

và

𝐼𝐷𝐹𝑖𝑗 = 𝑙𝑜𝑔 |𝐷| |{𝑑: 𝑡𝑖 ∈ 𝑑}|

(4.3)

nij số lần xuất từ 𝑖 tài liệu 𝑗, | 𝐷 | tổng số tài liệu tập liệu, |{𝑑: 𝑡𝑖 ∈ 𝑑}| số tài liệu 𝑑 tập D mà chứa từ i (𝑡𝑖)

Sau đó, tài liệu biểu diễn véc tơ 𝑉𝑖 có chiều 𝑁 (với 𝑁 kích thước từ điển), giá trị phần tử vectơ giá trị TF-IDF từ Nếu từ từ điển không thuộc tin tức, giá trị phần tử tương ứng vectơ

(107)

96

• Cây từ điển WordNet thành phần từ - ký hiệu 𝑠𝑖𝑚𝑆𝑆

• Phép đo PMI thành phần thực thể có tên - ký hiệu 𝑠𝑖𝑚𝐵𝑖𝑛𝑔 Phương pháp

này liên quan đến tần số thống kê xuất thành phần xuất đồng thời chúng

Công thức cuối kết hợp hai độ đo 𝑠𝑖𝑚𝑆𝑆 𝑠𝑖𝑚𝐵𝑖𝑛𝑔 để tính độ tương đồng ngữ nghĩa hai tin sau (α tham số hiệu chỉnh):

𝑠𝑖𝑚𝐵𝑖𝑛𝑔SS = α × 𝑠𝑖𝑚𝐵𝑖𝑛𝑔 + (1-α) × 𝑠𝑖𝑚𝑆𝑆 (4.4)

Ngồi khai thác mối quan hệ thành phần hai tin tức với nhau, [139] đưa vài phương pháp gợi ý tin sử dụng tiếp cận theo hướng dựa nội dung Tương tự [50], cơng trình họ hướng đến hệ thống gợi ý cá nhân hóa (PRS) Tuy nhiên hồ sơ người dùng độc giả xây dựng dựa tin tức mà độc giả đọc, tính độ tương đồng hồ sơ người dùng với tin tức giống cách tính độ tương đồng hai tin Các phương pháp trình bày nghiên cứu sử dụng ontology sở tri thức để khai thác mối quan hệ ngữ nghĩa khái niệm (các lớp ontology) Thử nghiệm cho thấy phương pháp Ranked Semantic Recommendation 2 hiệu phương pháp Tuy nhiên, hạn chế cịn tồn luận án trình bày mục sau, đồng thời phương pháp khắc phục đề xuất

4.3

Độ tương đồng tin

Có hai phương pháp tiếp cận để tính độ tương đồng tin dạng văn bản, hướng dựa nội dung hướng dựa ngữ nghĩa Mỗi phương pháp tiếp cận có ưu điểm nhược điểm riêng Với kỳ vọng khắc phục hạn chế phương pháp giúp cho việc gợi ý hiệu hơn, luận án kết hợp hai phương pháp tiếp cận cách kết hợp độ đo tương đồng nội dung độ đo tương đồng ngữ nghĩa

4.3.1 Độ tương đồng ngữ nghĩa

Để tính toán độ tương đồng ngữ nghĩa, luận án tập trung khai thác quan hệ ngữ nghĩa lẫn thành phần tin tức Các mối quan hệ xác định dựa ontology sở tri thức sẵn có hệ thống tổng hợp tin tức thể thao BKSport Các thành phần tin bao gồm: thực thể, loại thực thể thích ngữ nghĩa trích rút phân tích Các tiểu mục trình bày cách khai thác thành phần để tính độ tương đồng ngữ nghĩa tin Sau pha thực

4.3.1.1 Quan hệ ngữ nghĩa thực thể

Để tính tương đồng mục tin, luận án đề xuất khai thác mối quan hệ thực thể Tác giả mở rộng phương pháp Ranked Semantic Recommendation 2 mà Frasincar cộng đề xuất [139] Trong phương pháp này, Frasincar cộng sử dụng ontology sở tri thức để khai thác mối quan hệ thực thể, nhiên phương pháp số hạn chế như:

• Chỉ xem xét mối quan hệ trực tiếp thực thể mà chưa xét đến mối quan hệ gián tiếp

• Chưa xét đến độ quan trọng thực thể chúng xuất vị trí khác tin tức tiêu đề hay mô tả …

(108)

97

a) Trọng số quan hệ thực thể dựa vào ontology sở tri thức

Trong nghiên cứu [140], nhóm tác giả trình bày phương pháp để tính việc xếp hạng liên kết ngữ nghĩa dựa vào đường ngữ nghĩa hai thực thể để xác định trọng số quan hệ thực thể Các tác giả định nghĩa liên kết ngữ nghĩa đường ngữ nghĩa sau:

Định nghĩa: hai thực thể 𝑒1và 𝑒𝑛 kết nối với nhiều

dãy 𝑒1, 𝑃1, 𝑒2, 𝑃2, 𝑒3, 𝑃3, … , 𝑒𝑛−1, 𝑃𝑛−1 , 𝑒𝑛 , 𝑒𝑛 đồ thị RDF; Ở 𝑒𝑖 (1 ≤ 𝑖≤ 𝑛) các thực thể 𝑃𝑗 (1 ≤ 𝑗≤ 𝑛) quan hệ ontology, ta nói có tồn mối quan hệ

ngữ nghĩa giữa 𝑒1và 𝑒𝑛

Và kết dãy 𝑒1, 𝑃1, 𝑒2, 𝑃2, 𝑒3, 𝑃3, … , 𝑒𝑛−1, 𝑃𝑛−1 , 𝑒𝑛, đường ngữ nghĩa.

Ví dụ, sở tri thức, ta có:

• <Lionel-Messi> <playFor> <Barcelona-FC>

• <Luis-Suarez> < playFor > <Barcelona-FC>

Khi đó, hai thực thể Lionel Messi Luis Suarez tồn đường ngữ nghĩa sau:

<Lionel-Messi> → <playFor> → <Barcelona-FC>  <playFor>  <Luis-Suarez>

Như vậy, tồn mối quan hệ ngữ nghĩa hai thực thể Lionel Messi Luis Suarez Dựa vào tính chất đường ngữ nghĩa, luận án xác định giá trị xếp hạng đường đi (path rank) thể trọng số quan hệ hai thực thể hai điểm đầu đường Bởi hai thực thể tồn nhiều đường ngữ nghĩa, luận án chọn giá trị xếp hạng đường đi cao để đại diện cho trọng số quan hệ Trong [140], tác giả sử dụng bốn đặc trưng đường ngữ nghĩa để tính giá trị xếp hạng đường đi Chúng bốn trọng số sau:

• Trọng số gộp (Subsumption Weight): dựa cấu trúc ontology để xác định trọng số thành phần (component weight) cho thành phần (quan hệ thực thể) đường đi, từ tính trọng số cho tồn đường

• Trọng số độ dài đường đi (Path Length Weight): tính dựa độ dài đường

• Trọng số ngữ cảnh (Context Weight): dựa việc xác định thành phần đường thuộc vùng ontology Mỗi vùng ontology có trọng số riêng tùy thuộc vào sở thích người dùng

• Trọng số tín nhiệm (Trust Weight): tính dựa trọng số thuộc tính ontology

Khi áp dụng vào toán đặc thù gợi ý tin tức lĩnh vực bóng đá, tác giả thấy hai

trọng sốđộ dài đường đi trọng số tín nhiệm hai trọng số lớn phù hợp Vì lý này, luận án quan tâm đến hai trọng số tính toán giá trị xếp hạng đường đi đường ngữ nghĩa

Trọng số xếp hạng dựa vào độ dài đường ngữ nghĩa (Path Length Weight)

Độ dài đường ngữ nghĩa 𝑒1, 𝑃1, 𝑒2, 𝑃2, 𝑒3, 𝑃3, … , 𝑒𝑛−1, 𝑃𝑛−1 , 𝑒𝑛 số thực thể

các quan hệ đường (khơng tính hai thực thể 𝑒1 𝑒𝑛 hai đầu mút) Chúng ta thấy hai thực thể có quan hệ gián tiếp với thông qua nhiều thực thể quan hệ, hai thực thể có độ tương đồng thấp Do đó, giá trị xếp hạng đường đi đường ngữ nghĩa phải tỉ lệ nghịch với độ dài đường

Trọng số xếp hạng đường ngữ nghĩa dựa vào độ dài (Path Length Weight) định nghĩa [140] sau:

𝑊𝑙𝑒𝑛𝑔𝑡ℎ=

𝑙𝑒𝑛𝑔𝑡ℎ𝑝𝑎𝑡ℎ

(4.5)

Trong đó: 𝑙𝑒𝑛𝑔𝑡ℎ𝑝𝑎𝑡ℎ độ dài đường ngữ nghĩa Ví dụ, ta có hai đường ngữ nghĩa:

• 𝑃1: <Lionel-Messi> → <playFor> → <Barcelona-FC> → <competeIn> → <La-Liga>  <competeIn>  <Real-Madrid>  <playFor>  <Sergio-Ramos>

(109)

98

𝑊𝑙𝑒𝑛𝑔𝑡ℎ(𝑃1) =

𝑙𝑒𝑛𝑔𝑡ℎ𝑝𝑎𝑡ℎ=

1 𝑃2 có độ dài đường 3, ta tính được:

𝑊𝑙𝑒𝑛𝑔𝑡ℎ(𝑃2) =

𝑙𝑒𝑛𝑔𝑡ℎ𝑝𝑎𝑡ℎ=

1

Từ đó, ta thấy độ tương đồng Lionel Messi Luis Suarez cao Lionel Messi Sergio Ramos

Trọng số xếp hạng dựa vào quan hệ đường ngữ nghĩa (Path Relation Weight)

Có nhiều quan hệ định nghĩa ontology, quan hệ thể ý nghĩa khác Do đóng vai trò liên kết hai thực thể, quan hệ có trọng số khác thể liên quan thực thể Một số quan hệ thể liên quan mật thiết, số quan hệ khác lại thể liên quan yếu Ví dụ, ta có ba sở tri thức sau:

o <Luis-Enrique> <managerOf> <Barcelona-FC> o <Luis-Suarez> <cầu thủ> <Barcelona-FC>

Ở đây, tồn hai quan hệ quan hệ <managerOf> quan hệ <playFor> Ta thấy quan hệ <managerOf> thể mối liên quan mật thiết mối quan hệ <playFor> đội có huấn luyện viên thời điểm Tuy nhiên, lại có nhiều cầu thủ Do đó, ta đánh trọng số cho mối quan hệ <managerOf> cao <playFor> Và lý này, từ hai ba trên, ta kết luận <Barcelona-FC> có độ tương đồng với <Luis-Enrique> cao <Luis-Suarez>

Trọng số quan hệ nằm khoảng (0,1) Cơng thức tính trọng số xếp hạng đường ngữ nghĩa dựa vào quan hệ có đường (Path Relation Weight) [140] sau:

𝑊𝑝𝑟𝑒𝑑𝑖𝑐𝑎𝑡𝑒 = ∏ 𝑤𝑝

𝑝∈𝑝𝑎𝑡ℎ

(4.6)

Trọng số quan hệ hai thực thể dựa vào Ontology sở tri thức

Kết hợp hai trọng số 𝑊𝑙𝑒𝑛𝑔𝑡ℎ 𝑊𝑝𝑟𝑒𝑑𝑖𝑐𝑎𝑡𝑒 cặp hệ số 𝛼𝑤𝑙 𝛼𝑤𝑝, ta tính

path- rank đường ngữ nghĩa sau:

𝑊𝑝𝑎𝑡ℎ =

𝑊𝑙𝑒𝑛𝑔𝑡ℎ× 𝛼𝑤𝑙+ 𝑊𝑝𝑟𝑒𝑑𝑖𝑐𝑎𝑡𝑒× 𝛼𝑤𝑝

𝛼𝑤𝑙+ 𝛼𝑤𝑝

(4.7)

Trong đó, giá trị hệ số 𝛼𝑤𝑙 𝛼𝑤𝑝 có tổng 1.0 tinh chỉnh tùy theo quan

điểm đánh giá độ ảnh hưởng hai trọng số Giá trị 𝑊𝑝𝑎𝑡ℎ công thức giá trị độ tương đồng hai thực thể dựa vào ontology sở tri thức

b) Trọng số quan hệ thực thể dựa vào thống kê đồng xuất tin

Luận án kế thừa ý tưởng [50] độ đo PMI, hai thực thể đồng xuất mục tin nhiều lần, hai thực thể có độ tương đồng với nhaucao Sự đồng xuất cặp thực thể có tên tập liệu tin tức bóng đá thống kê để tính trọng số PMI Cơng thức định nghĩa sau:

𝑊𝑃𝑀𝐼(𝑒1, 𝑒2) = 𝑙𝑜𝑔

𝑐(𝑒1, 𝑒2) 𝑁 𝑐(𝑒1)

𝑁 ×𝑐(𝑒𝑁2)

(4.8)

Trong đó:

• 𝑁 số lượng tin có sẵn tập liệu

(110)

99

• 𝑐 (𝑒1) số tin liệu chứa thực thể 𝑒1, 𝑐(𝑒2) số tin liệu chứa thực

thể 𝑒2

Như vậy, cặp thực thể bất kỳ, luận án đề xuất sử dụng hai giá trị để tính trọng số quan hệ là: Trọng số 𝑊𝑝𝑎𝑡ℎ (được tính dựa vào đường ngữ nghĩa) trọng số

𝑊𝑃𝑀𝐼 (được tính dựa thống kê đồng xuất cặp thực thể) Trước kết hợp hai

trọng số với nhau, chúngcần chuẩn hóa cơng thức (4.9):

𝑤𝑛𝑒𝑤 =

𝑤𝑜𝑙𝑑 − 𝑀𝐼𝑁 𝑀𝐴𝑋 − 𝑀𝐼𝑁

(4.9)

Trong đó: 𝑀𝐴𝑋 𝑀𝐼𝑁 giá trị lớn nhỏ chuỗi giá trị 𝑤

Sau chuẩn hóa, hai giá trị 𝑊𝑝𝑎𝑡ℎ 𝑊𝑃𝑀𝐼 kết hợp với cặp hệ số 𝛽𝑝𝑎𝑡ℎ 𝛽𝑃𝑀𝐼để tính độ tương đồng cặp thực thể sau:

𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑒𝑛𝑡𝑖𝑡𝑦(𝑒1, 𝑒2) =

𝑊𝑝𝑎𝑡ℎ× 𝛽𝑝𝑎𝑡ℎ+ 𝑊𝑃𝑀𝐼 × 𝛽𝑃𝑀𝐼 𝛽𝑝𝑎𝑡ℎ+ 𝛽𝑃𝑀𝐼

(4.10)

Ta quy ước 𝑒1 ≡ 𝑒2 giá trị 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑒𝑛𝑡𝑖𝑡𝑦(𝑒1, 𝑒2) =

c) Phương pháp tính độ tương đồng hai tin dựa vào mối quan hệ thực thể

Trước hết, ta cần định nghĩa tập thực thể liên quan đến thực thể e tập chứa thực thể có độ tương đồng với e lớn ký hiệu sau:

𝐸(𝑒) = {𝑒1, 𝑒2, 𝑒3, … , 𝑒𝑛}

Giả sử có tin A, tập thực thể có tên nhận dạng tin A ký hiệu sau:

𝐴 = {𝑎1, 𝑎2, 𝑎3, … , 𝑎𝑚}

Với thực thể 𝑎𝑖 tập A, ta xây dựng tập thực thể liên quan đến 𝑎𝑖 tương

ứng với 𝐸(𝑎𝑖) = {𝑎𝑖1, 𝑎𝑖2, 𝑎𝑖3, … , 𝑎𝑖𝑘} Hợp tất tập 𝐸(𝑎𝑖) lại (𝑖: → 𝑚), ta có

tập tất thực thể không nằm A, liên quan đến A:

𝐸 = ⋃ 𝐸(𝑎𝑖) 𝑖:1→𝑚

Cuối cùng, ta hợp hai tập A E lại để thu tập 𝐴𝐸 gọi tập mở rộng tin A:

𝐴𝐸 = 𝐴 ∪ 𝐸

Bước tiếp theo, giá trị xếp hạng tính cho thực thể tập 𝐴𝐸 Mỗi giá trị xếp hạng đặc trưng cho mức độ liên quan thực thể tương ứng với tin A Những giá trị xếp hạng cần thỏa mãn số tính chất:

(1) Nếu thực thể xuất nhiều lần tin, giá trị xếp hạng thực thể lớn

(2) Nếu thực thể liên quan đến nhiều thực thể xuất tin A thực thể có giá trị xếp hạng lớn

(3) Giá trị xếp hạng phụ thuộc vào vị trí xuất thực thể tin

Về đặc tính (3), thực thể xác định xuất vị trí khác tin sau: tiêu đề, mô tả, chữ bật (chữ đậm, tiêu đề ảnh, v.v ) nội dung Vậy trọng số độ quan trọng xác định cho vị trí tin nêu sau:

(111)

100

Để tính giá trị xếp hạng cho thực thể tập 𝐴𝐸, dựa kỹ thuật Ranked Semantic

Recommendation 2 [139], luận án biểu diễn thực thể ma trận, hàng biểu diễn thực thể tập 𝐴𝐸 cột biểu diễn thực thể tập A Ma trận có dạng sau:

𝒆𝟏 𝒆𝟐 … 𝒆𝒒

𝒂𝟏 ℎ11 ℎ12 … ℎ1𝑞

𝒂𝟐 ℎ21 ℎ22 … ℎ2𝑞

… … … … …

𝒂𝒎 ℎ𝑚1 ℎ𝑚2 … ℎ𝑚𝑞

Trong ma trận trên, giá trị ℎ𝑖𝑗 tính sau:

ℎ𝑖𝑗 = 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦(𝑎𝑖, 𝑒𝑗) × 𝑊𝐸(𝑎𝑖) (4.11)

Trong 𝑊𝐸 (𝑎𝑖) trọng số quan trọng thực thể 𝑎𝑖 tin Trọng số tính sau: Giả sử 𝑎𝑖 thực thể xuất tin,

𝑁𝑡𝑖𝑡𝑙𝑒, 𝑁𝑑𝑒𝑠𝑐𝑟𝑖𝑝𝑡𝑖𝑜𝑛, 𝑁𝑏𝑜𝑙𝑑𝑒𝑟𝑡𝑒𝑥𝑡, 𝑁𝑐𝑜𝑛𝑡𝑒𝑛𝑡 tương ứng với số lần xuất 𝑎𝑖 phầntiêu

đề, phần mô tả, phần chữ bật phần nội dung mục tin tức Trọng số quan trọng thực thể 𝑎𝑖 tính theo cơng thức đây:

𝑊𝐸(𝑎𝑖) = 𝑁𝑡𝑖𝑡𝑙𝑒 × 𝑊𝑡𝑖𝑡𝑙𝑒+ 𝑁𝑑𝑒𝑠𝑐𝑟𝑖𝑝𝑡𝑖𝑜𝑛× 𝑊𝑑𝑒𝑠𝑐𝑟𝑖𝑝𝑡𝑖𝑜𝑛

+𝑁𝑏𝑜𝑙𝑑𝑒𝑟𝑡𝑒𝑥𝑡× 𝑊𝑏𝑜𝑙𝑑𝑒𝑟𝑡𝑒𝑥𝑡 + 𝑁𝑐𝑜𝑛𝑡𝑒𝑛𝑡× 𝑊𝑐𝑜𝑛𝑡𝑒𝑛𝑡

(4.12)

Cuối cùng, theo công thức định nghĩa [139], trọng số xếp hạng thực thể

𝑒𝑗 tập 𝐴𝐸 tính sau:

𝑅𝑎𝑛𝑘(𝑒𝑗) = ∑ ℎ𝑖𝑗 𝑚

𝑖=1

(4.13)

Gọi 𝑉𝐴 là vectơ có chứa giá trị 𝑅𝑎𝑛𝑘(𝑒𝑖) tính Ta chuẩn hóa giá trị phần tử 𝑉𝐴trong phạm vi [0, 1] Cơng thức chuẩn hóa sau:

𝑣𝑖 = 𝑣𝑖 − 𝑀𝐼𝑁 𝑀𝐴𝑋 − 𝑀𝐼𝑁

(4.14)

Trong MAX MIN giá trị lớn nhỏ phần tử vectơ 𝑉𝐴 Nếu

𝑀𝐴𝑋 = 𝑀𝐼𝑁 ≠ 𝑣𝑖 = 1, với giá trị 𝑖

Kết là, sau thực tất bước đây, ta thu vectơ cho tin tức Bước cuối tính độ tương đồng hai tin dựa vectơ chúng

Giả sử ta có hai tin A, B hai vectơ 𝑉𝐴, 𝑉𝐵 Vì hai vectơ không số chiều,

độ tương đồng hai vectơ 𝑉𝐴, 𝑉𝐵 (cũng độ tương đồng hai tin A B) xác định

như biến thể độ tương đồng cosin, theo công thức sau:

𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑏𝑎𝑠𝑒𝑑−𝑒𝑛𝑡𝑖𝑡𝑦 (𝐴, 𝐵) = 𝑐𝑜𝑠𝑖𝑛𝑒(𝑉𝐴, 𝑉𝐵) = ∑ 𝑣𝑎× 𝑣𝑏

𝑒𝑎∈𝐴, 𝑒𝑏∈𝐵 𝑒𝑎≡𝑒𝑏

√∑𝑒𝑎∈𝐴𝑣𝑎2

𝑎

× √∑𝑒𝑏∈𝐵𝑣𝑏2

𝑏

(4.15)

Trong 𝑣𝑎, 𝑣𝑏 giá trị 𝑅𝑎𝑛𝑘(𝑒𝑎), 𝑅𝑎𝑛𝑘(𝑒𝑏) vectơ 𝑉𝐴, 𝑉𝐵

4.3.1.2 Độ tương đồng dựa loại thực thể xuất tin

(112)

101

cầu thủ sân vận động Do đó, hai tin có tương đồng loại thực thể, độ tương đồng hai tin cao Hình 4.1 ví dụ độ tương đồng hai tin dựa vào loại thực thể tin tức

Hình 4.1 Một ví dụ độ tương đồng hai tin dựa vào loại thực thể tin tức

Trong ontology, thực thể định nghĩa sở tri thức thuộc lớp đối tượng định nghĩa Các lớp coi loại thực thể Ví dụ, hai thực thể Lionel Messi Luis Suarez sở tri thức có loại, chúng thuộc lớp FootballPlayer Nhưng hai không loại với thực thể Barcelona-FC, thực thể thuộc FootballTeam

Việc thống kê loại thực thể xuất tin tương tự thống kê thực thể Hai thực thể khác loại Vị trí xuất thực thể ảnh hưởng đến trọng số liên quan loại thực thể với tin tương ứng Những trọng số tính dựa vào tần xuất xuất vị trí xuất thực thể thuộc loại Giả sử, ta tính trọng số liên quan cho loại thực thể 𝐶 tin 𝐴 Gọi 𝑐𝑖 thực thể thuộc lớp 𝐶 xuất

trong tin 𝐴, trọng số liên quan loại thực thể 𝐶 với tin 𝐴 tính theo cơng thức sau:

𝑊𝐶(𝐶) = ∑ 𝑊𝐸(𝑐𝑖) (4.16)

Một vectơ cho tin xây dựng với phần tử trọng số 𝑊𝐶 tương tự xây dựng vectơ dựa thực thể mục 4.3.1.1 c) Các phần tử vectơ chuẩn hóa trước sử dụng biến thể cơng thức để tính độ tương đồng vectơ sử dụng phần 4.3.1.1 c) Ký hiệu giá trị tính 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑡𝑖𝑦𝑏𝑎𝑠𝑒𝑑−𝑡𝑦𝑝𝑒

4.3.1.3 Độ tương đồng dựa thích ngữ nghĩa tin

(113)

102

Hình 4.2 Một ví dụ độ tương đồng hai tin dựa thích ngữ nghĩa tin

Một tin có nhiều ba ba xuất nhiều lần Những ba xuất nhiều lần tin ba quan trọng, thể nội dung mà tin đề cập Hơn nữa, vị trí xuất ba tin thể độ quan trọng chúng Độ quan trọng vị trí tin (phần tiêu đề, phần mơ tả, phần nhấn mạnh, phần nội dung) tương tự trình bày phần trước Hai tin mà có nhiều ba giống có độ tương đồng cao

Với ba, ta ký hiệu 𝑁𝑡𝑖𝑡𝑙𝑒, 𝑁𝑑𝑒𝑠𝑐𝑟𝑖𝑝𝑡𝑖𝑜𝑛, 𝑁𝑏𝑜𝑙𝑑𝑒𝑟𝑡𝑒𝑥𝑡, 𝑁𝑐𝑜𝑛𝑡𝑒𝑛𝑡 số lần xuất ba phần tiêu đề, phần mô tả tin, phần nhấn mạnh phần nội dung Công thức sử dụng tương tự công thức tính trọng số quan trọng thực thể mục 4.3.1.1 c), để tính trọng số quan trọng 𝑊𝑇 ba tin Sau đó, giá trị trọng số biểu diễn phần tử vectơ, sử dụng công thức chuẩn hóa vectơ để đưa giá trị trọng số đoạn [0, 1] Để tính độ tương đồng hai tin dựa vào thích ngữ nghĩa, biến thể công thứcCosine sử dụng mục 4.3.1.1 c) Để tính tốn khoảng cách hai vectơ, giá trị ký hiệu 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑏𝑎𝑠𝑒𝑑−𝑎𝑛𝑛𝑜𝑡𝑎𝑡𝑖𝑜𝑛

Vì vậy, tham số sử dụng để xác định độ tương đồng ngữ nghĩa hai tin dựa vào yếu tố:

• Mối liên quan thực thể có tên,

• Loại thực thể xuất tin,

• Chú thích ngữ nghĩa tin

Mỗi thông số thông số có ý nghĩa khác việc xác định mức độ tương đồng ngữ nghĩa hai tin Ba thông số lại kết hợp với để xác định giá trị cuối thể mức độ tương đồng ngữ nghĩa hai tin Để kết hợp thông số này, tham số 𝜃𝑒𝑛𝑡𝑖𝑡𝑦, 𝜃𝑎𝑛𝑛𝑜𝑡𝑎𝑡𝑖𝑜𝑛, 𝜃𝑡𝑦𝑝𝑒 sử dụng để thể mức độ quan

trọng thông số Cơng thức cuối để tính độ tương đồng ngữ nghĩa hai tin, xác định sau:

𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑠𝑒𝑚𝑎𝑛𝑡𝑖𝑐(𝐴, 𝐵) = 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑏𝑎𝑠𝑒𝑑−𝑒𝑛𝑡𝑖𝑡𝑦(𝐴, 𝐵) × 𝜃𝑒𝑛𝑡𝑖𝑡𝑦 +𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑏𝑎𝑠𝑒𝑑−𝑎𝑛𝑛𝑜𝑡𝑎𝑡𝑖𝑜𝑛(𝐴, 𝐵) ×𝜃𝑎𝑛𝑛𝑜𝑡𝑎𝑡𝑖𝑜𝑛

+𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑏𝑎𝑠𝑒𝑑−𝑡𝑦𝑝𝑒(𝐴, 𝐵) × 𝜃𝑡𝑦𝑝𝑒

(4.17)

4.3.2 Độ tương đồng nội dung

Với phương pháp gợi ý tin tức sử dụng độ tương đồng ngữ nghĩa đề xuất trên, gặp phải số vấn đề như:

• Nhận dạng khơng đủ nhận dạng khơng xác thực thể có tên xuất tin tức

(114)

103

Sự xuất hạn chế xảy giới hạn thông tin ontology sở tri thức Điều khó tránh khỏi việc xây dựng ontology sở tri thức phải thực thủ công bán tự động nên nhiều công sức Hơn nữa, tri thức giới thực thường xuyên thay đổi,ví dụ cầu thủ xuất cầu thủ thay đổi câu lạc thi đấu, Nó gây khó khăn cho việc cập nhật kịp thời Để khắc phục hạn chế này, việc kết hợp tính độ tương đồng ngữ nghĩa với độ tương đồng dựa nội dung của hai tin đề xuất

Mục mô tả độ tương đồng nội dung tính cách sử dụng trọng số TF-IDF từ tin kết hợp với phép đo cosin

Những từ có trọng số TF-IDF cao thường từ quan trọng, cho biết nội dung tin Vì vậy, luận án quan tâm đến từ có trọng số TF-IDF cao Các bước xây dựng tập từ quan trọng tin bao gồm:

• Bước 1: Loại bỏ từ stopword. Các từ stopword từ không mang ý nghĩa việc thể nội dung tin, chẳng hạn như: "a", "an", "the", v.v

• Bước 2: Chuẩn hoá từ dạng nguyên thể Các động từ danh từ thường tồn nhiều dạng tùy vào ngữ cảnh, chúng diễn tả ý nghĩa Ví dụ: "make", "made" "made" Vì vậy, chuyển tất chúng dạng ngun thể

• Bước 3: Tính TF-IDF cho từ tin (Sau chuẩn hóa Bước 2)

• Bước 4: Sắp xếp lấy tốp từ có TF-IDF cao dựa vào ngưỡng xác định Sau bước trên, có tập từ có TF-IDF cao Tin biểu diễn dạng vectơ có giá trị 𝑣𝑘là giá trị TF-IDF từ tập Độ tương đồng hai tin A B có hai tập từ quan trọng SA,SB, hai vectơ tương ứng 𝑉𝐴, 𝑉𝐵sẽ tính

dựa biến thể công thức Cosine sau:

𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑇𝐹−𝐼𝐷𝐹(𝐴, 𝐵) =

∑𝑡𝑎∈𝑆𝐴, 𝑡𝑏∈𝑆𝐵𝑣𝑎× 𝑣𝑏 𝑡𝑎≡𝑡𝑏

√∑𝑡𝑎∈𝑆𝐴𝑣𝑎2 𝑎

× √∑𝑡𝑏∈𝑆𝐵𝑣𝑏2 𝑏

(4.18)

Trong đó:

• 𝑡𝑎, tb từ tương ứng hai 𝑆𝐴, SB.

• 𝑣𝑎, vb giá trị TF-IDF từ 𝑡𝑎, 𝑡𝑏

4.3.3 Thuật toán gợi ý tin tức với độ tương đồng kết hợp

Để kết độ tương đồng ngữ nghĩa 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑠𝑒𝑚𝑎𝑛𝑡𝑖𝑐 độ tương đồng nội dung 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑇𝐹−𝐼𝐷𝐹 hai tin, ta sử dụng cặp trọng số 𝛾𝑠𝑒𝑚𝑎𝑛𝑡𝑖𝑐, 𝛾𝑐𝑜𝑛𝑡𝑒𝑛𝑡 Công thức kết hợp

được xác định sau:

𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑐𝑜𝑚𝑏𝑖𝑛𝑒𝑑(𝐴, 𝐵) =

𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑠𝑒𝑚𝑎𝑛𝑡𝑖𝑐(𝐴, 𝐵) × 𝛾𝑠𝑒𝑚𝑎𝑛𝑡𝑖𝑐+ 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑇𝐹−𝐼𝐷𝐹× 𝛾𝑐𝑜𝑛𝑡𝑒𝑛𝑡

(4.19)

Thuật tốn gợi ý tin tức, trình bày sau:

Đầu vào: Tin mục tiêu A tập N tin ứng viên C

Đầu ra: Tập K tin có độ tương đồng ngữ nghĩa với A cao

• Bước 1: Nhận dạng thực thể có tên, thích ngữ nghĩa cho tin A tin ứng viên tập C

• Bước 2: Xây dựng tập từ có trọng số TF-IDF cao cho tin A tin tập C

• Bước 3: Với tin tức 𝐶𝑖 tập C, thực bước sau:

➢ Bước 3.1: Tính giá trị 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑏𝑎𝑠𝑒𝑑−𝑒𝑛𝑡𝑖𝑡𝑦(𝐴, 𝐶𝑖)

(115)

104

➢ Bước 3.3: Tính giá trị trị 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑏𝑎𝑠𝑒𝑑−𝑡𝑦𝑝𝑒(𝐴, 𝐶𝑖)

➢ Bước 3.4: Tính giá trị𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑠𝑒𝑚𝑎𝑛𝑡𝑖𝑐(𝐴, 𝐶𝑖) dựa vào kết bước 3.1,

3.2 3.3

➢ Bước 3.5: Tính giá trị 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑇𝐹−𝐼𝐷𝐹(𝐴, 𝐶𝑖)

➢ Bước 3.6: Tính giá trị 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑐𝑜𝑚𝑏𝑖𝑛𝑒𝑑(𝐴, 𝐶𝑖) dựa vào kết bước 3.4 3.5

• Bước 4: Sắp xếp tin 𝐶𝑖 tập C theo thứ tự giảm dần theo giá trị 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑐𝑜𝑚𝑏𝑖𝑛𝑒𝑑(𝐴, 𝐶𝑖)

• Bước 5: Lấy k tin đầu danh sách xếp bước để gợi ý cho tin A

Giả sử ntlà số trung bình thẻ tin n số tin tập liệu C Chúng

ta thấy rằng, bước 1, độ phức tạp việc nhận dạng thực thể có tên thích ngữ nghĩa tin O (ncnt), Trong đó, nc tổng lớp, thực thể thuộc tính Ontology

cơ sở tri thức Do đó, n tin tập C tin A, độ đo thời gian (time complexity) bước O(nncnt) Bước chuyển n+1 tin thành vectơ TF-IDF Vì tính IDF cho

tất thẻ từ điển trước chạy thuật toán, độ đo thời gian (time complexity) chuyển tin thành TF-IDF độ đo thời gian tính giá trị TF cho tất thẻ tin đó, O(nt) Do độ đo thời gian (complexity) bước O (nnt) Mặt khác, bước lặp

lại n lần cho phần tử C Các bước từ 3,1 đến 3,4 phép nhân cặp vectơ TF-IDF, độ đo thời gian lần lặp lại O (nt) bước O (nnt) Độ đo thời gian

thuật toán xếp bước O (nlogn) Kết độ đo thời gian thuật toán đề xuất O (nncnt + nlogn)

4.4

Cài đặt thử nghiệm đánh giá

4.4.1 Kịch thử nghiệm

Mục tiêu tiểu mục đánh giá so sánh hiệu phương pháp gợi ý:

• Chỉ sử dụng độ tương đồng ngữ nghĩa tin

• Chỉ sử dụng độ tương đồng nội dung tin

• Kết hợp hai độ tương đồng

Tương tự nghiên cứu trước, môi trường tiến hành thực nghiệm đánh giá phương pháp gợi ý tin tức luận án đề xuất máy tính có vi xử lý Intel Core i7, CPU 2.30 GHz với RAM 8GB, hệ điều hành Microsoft Windows Server 2008 Các thuật tốn cài đặt ngơn ngữ lập trình Java

Việc đánh giá phương pháp khác thực cách đo độ xác Do chưa xây dựng hệ thống online, nên nghiên cứu này, luận án sử dụng phương pháp đánh giá offline để đánh giá Để đánh giá offline, tập N = 100 tin (ký hiệu tập 𝐴) chọn từ số trang web thể thao tiếng http://www.skysports.com/, http://www.espnfcasia.com/, http: //sports.yahoo.com/ tiếp theo, cộng tác viên yêu cầu đánh giá tin có liên quan hay khơng liên quan đến tin khác Sau đó, ta thu tập liệu thử nghiệm, tin 𝐴𝑖 có tin liên quan 𝐾𝐴𝑖 (0 ≤ 𝐾𝐴𝑖 ≤ 𝑁 −

1) tin tức không liên quan (𝑁−1−𝐾𝐴𝑖) Các phương pháp thực chạy riêng cho tin 𝐴𝑖 tập 𝐴 sinh 𝐾𝐴𝑖 tin có độ tương đồng cao với (tin 𝐴𝑖), sau so sánh với 𝐾𝐴𝑖 tin mà cộng tác viên xác định liệu thử nghiệm Ví dụ, với tin 𝐴1, cộng tác viên phát tin 99 tin lại liên quan đến 𝐴1 sau thuật tốn tự động chạy sinh tin, so sánh chúng với tin mà cộng tác viên xác định

Ký hiệu:

• 𝑇𝑃𝐴𝑖 số tin mà thuật tốn gợi ý xác cho tin 𝐴𝑖 • 𝐹𝑃𝐴𝑖là số tin mà thuật tốn gợi ý khơng xác cho tin 𝐴𝑖

• 𝐹𝑁𝐴𝑖là số tin liên quan mà thuật tốn khơng gợi ý cho tin 𝐴𝑖

(116)

105

𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛(𝐴𝑖) =

𝑇𝑃𝐴𝑖 𝑇𝑃𝐴𝑖+ 𝐹𝑃𝐴𝑖

(4.20)

Thực theo cách trên, ta có 𝐹𝑃𝐴𝑖= 𝐹𝑁𝐴𝑖, 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 (𝐴i) = 𝑟𝑒𝑐𝑎𝑙𝑙 (𝐴𝑖) Trong nghiên cứu này, luận án quan tâm đến 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 để đánh giá phương pháp Độ xác cuối phương pháp xác định bình quân độ xác cho tồn tin tập liệu thử nghiệm:

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛(𝐴) =∑𝐴𝑖∈𝐴𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛(𝐴𝑖) 𝑁

(4.21)

Một vài thông số dùng để xác định độ quan trọng thành phần thành phần kết hợp với Trong thực nghiệm này, luận án lựa chọn giá trị tham số sở phân tích liệu thực thể, quan hệ, tần suất xuất theo đặc thù miền ứng dụng Ví dụ:

• Trọng số 𝑤𝑝 quan hệ ontology để tính 𝑊𝑝𝑎𝑡ℎ thiết lập dựa việc phân tích mức độ liên kết hay kết nối thực thể quan hệ lĩnh vực thể thao, phân tích mục 4.3.1.1 a): 𝑤𝑚𝑎𝑛𝑎𝑔𝑒𝑟𝑂𝑓= 0.8, 𝑤𝑝𝑙𝑎𝑦𝐹𝑜𝑟 = 0.6,

𝑤𝑠𝑡𝑎𝑑𝑖𝑢𝑚𝑂𝑓 = 0.5,…

• 𝛾𝑠𝑒𝑚𝑎𝑛𝑡𝑖𝑐 𝛾𝑐𝑜𝑛𝑡𝑒𝑛𝑡 hai tham số dùng kết hợp hai phép đo độ tương đồng

về ngữ nghĩa với độ tương đồng nội dung tin Trên quan điểm cho với tin tức thể thao mức độ ảnh hưởng độ tương đồng nội dung sở, độ tương đồng ngữ nghĩa đóng vai trị bổ trợ, tác giả lựa chọn 𝛾𝑠𝑒𝑚𝑎𝑛𝑡𝑖𝑐= 1, 𝛾𝑐𝑜𝑛𝑡𝑒𝑛𝑡=

4.4.2 Kết thử nghiệm đánh giá

Sau chạy phương pháp riêng biệt cho tập 𝐴 chứa 100 tin kịch thử nghiệm trình bày mục 4.4.1, kết độ xác thu phương pháp thể Bảng 4.1

Bảng 4.1. Độ xác gợi ý tin tức trường hợp

Precision

Chỉ sử dụng độ tương đồng ngữ nghĩa (semantic-based) 75.8 % Chỉ sử dụng độ tương đồng nội dung (content-based) 82.2 % Kết hợp hai độ tương đồng (combined) 85.6 %

Nhận xét kết thử nghiệm

Bảng 4.1 rằng, liệu kiểm thử A chứa 100 tin, phương pháp gợi ý

semantic-based có độ xác không tốt phương pháp gợi ý content-based Trong đó, kết hợp hai độ tương đồng mang lại kết tốt Điều giải thích sau:

• Khi sử dụng độ tương đồng ngữ nghĩa (hướng semantic-based), chủ yếu dựa vào thực thể xuất tin Do đó, số trường hợp, thuật tốn gợi ý tin thực thể liên quan chủ đề hoàn toàn khác Đối với số cộng tác viên, họ xem không liên quan

• Theo hướng content-based, chủ đề tin gợi ý thường sát với tin mục tiêu Tuy nhiên, phương pháp khơng có khả mở rộng chủ đề Nếu có hai tin câu lạc Barcelona, tin thứ nói thi đấu câu lạc tin thứ hai lại nói việc chuyển nhượng cầu thủ Câu lạc bộ, hướng

(117)

106

• Khi kết hợp hai độ tương đồng về nội dung ngữ nghĩa, tin gợi ý

khắc phục hạn chế độ đo riêng biệt, dẫn đến gợi ý tin hiệu

4.5

Chương trình bày phương pháp gợi ý tin tức dựa kết hợp độ tương đồng nội dung ngữ nghĩa tin Độ đo dựa vào ngữ nghĩa tính dựa vào mối quan hệ ngữ nghĩa đối tượng Nó cho phép việc gợi ý không dừng gợi ý tin chủ đề tin xoay quanh chủ đề tin mục tiêu, mà cịn có khả suy diễn để gợi ý tin nói thực thể (đối tượng) khác mà thực thể có quan hệ ngữ nghĩa với thực thể mục tin mục tiêu Tuy nhiên, đo độ tương đồng chủ yếu tập trung vào thực thể mà không đề cập tới ngữ cảnh mà tin nhắc đến Độ đo dựa vào nội dung khắc phục nhược điểm độ đo ngữ nghĩa cách trích xuất tin từ có số TF-IDF cao từ thường từ đặc trưng cho ngữ cảnh nhắc đến tin

Luận án đánh giá so sánh độ xác phương pháp đề xuất phương pháp gợi ý sử dụng riêng lẻ loại tương đồng Kết thử nghiệm cho thấy việc kết hợp hai độ tương đồng giúp cho nâng cao hiệu hai phương pháp, đồng thời phương pháp lại khắc phục điểm yếu phương pháp kia, cuối làm tăng hiệu việc gợi ý tin Kết nghiên cứu nói luận án công bố báo “Semantic-Based Recommendation Method for Sport News Aggregation System” hội nghị quốc tế the 2016 International Conference on Research and Practical Issues of Enterprise Information Systems (CONFENIS 2016)

(118)

107

KẾT LUẬN

Căn vào chương trình bày luận án, phần tổng kết kết đạt được, đồng thời đưa hạn chế chưa giải được, đề xuất hướng phát triển

Các kết đạt luận án

Web ngữ nghĩa mở rộng Web thơng tin bổ sung ý nghĩa rõ ràng, hỗ trợ máy người cộng tác với tốt Với liệu định nghĩa liên kết Web ngữ nghĩa, máy tính xử lý, chuyển đổi, lắp ráp, tái sử dụng tích hợp chúng qua ứng dụng khác

Thực tế chứng tỏ Web ngữ nghĩa thể điểm mạnh áp dụng vào lĩnh vực thông tin bị giới hạn, ví dụ quản lý tri thức, phát triển dịch vụ Web có ngữ nghĩa Với hỗ trợ Web ngữ nghĩa, thơng tin mong muốn tìm nhanh xác Web ngữ nghĩa hỗ trợ tích hợp liệu liên kết từ nhiều nguồn, tìm kiếm động liệu sẵn có nguồn liệu

Luận án tận dụng ưu điểm vượt trội Web ngữ nghĩa tìm kiếm tốt hơn, tổ chức, xếp, trực quan hóa cách tự động Luận án ứng dụng cơng nghệ Web ngữ nghĩa để xây dựng mơ hình ngữ nghĩa hệ thống tổng hợp tin tức thể thao đặt tên BKSport Đối với người dùng, hệ thống hoạt động trang tin tức thông thường mà người dùng xem tin tức tổng hợp từ số nguồn tin cậy hỗ trợ tính tìm kiếm gợi ý tin tức

Các đóng góp luận án sau:

Thứ nhất, luận án đề xuất số phương pháp sinh thích ngữ nghĩa cho tin tức thể thao văn cách tự động

Ý tưởng xuyên suốt sử dụng ontology sở tri thức để nhận dạng xác định lớp cho thực thể có tên Một số kỹ thuật luận án đề xuất để nâng cao hiệu tác vụ phát bí danh thực thể, nhận dạng thực thể mức khái niệm chi tiết, cải tiến nhận dạng thực thể có tên dạng rút gọn, nhận dạng thực thể tên khác kiểu

Sau dựa việc xây dựng luật trích chọn mà thực thể có tên thành phần, luận án nhận dạng sinh thành công dạng thức ngữ nghĩa khác tin tức thể thao bao gồm ngữ nghĩa ba đơn giản để diễn tả kiện, ngữ nghĩa thực thể quan trọng tin tức, số ngữ nghĩa phức tạp tuyên bố gián tiếp, xử lý đại từ, ngữ nghĩa chuyển nhượng

Thứ hai, luận án đề xuất phương pháp chuyển đổi câu hỏi ngôn ngữ tự nhiên tiếng Anh sang truy vấn ngữ nghĩa biểu diễn dạng thức SPARQL Truy vấn dùng để thực tìm kiếm ngữ nghĩa Từ đó, hệ thống thực tìm kiếm sử dụng mơ tơ tìm kiếm ngữ nghĩa Luận án xây dựng mơ hình ngữ nghĩa để biểu diễn truy vấn SPARQL cần sinh Mơ hình có khả diễn đạt số dạng câu hỏi phức tạp câu hỏi so sánh hơn, so sánh nhất, câu hỏi có nhiều chủ ngữ, tân ngữ Nội dung cốt lõi phương pháp nằm việc ánh xạ kết việc phân tích cú pháp vào q trình sinh truy vấn trung gian hoàn chỉnh câu truy vấn Cơ sở tri thức ontology khai thác để nhận dạng thực thể có tên, thuộc tính, lớp Luận án đề xuất kỹ thuật xử lý cụ thể để xác định thành phần định nghĩa mơ hình ngữ nghĩa tương ứng với dạng câu hỏi khác Kết thực nghiệm cho thấy phương pháp sinh nhiều dạng câu hỏi với độ xác cao phù hợp với lĩnh vực thể thao

(119)

108

Mặc dù luận án có mục tiêu tìm phương pháp nhằm xây dựng hệ thống tổng hợp tin tức đem lại hiệu thân thiện người dùng việc truy cập thông tin lĩnh vực thể thao, giá trị ứng dụng kết nghiên cứu đạt không giới hạn lĩnh vực Một số giai đoạn phương pháp đề xuất áp dụng lĩnh vực khác đem lại kết ontology sở tri thức xây dựng tốt cho lĩnh vực Cụ thể hơn, số thuật toán sinh thích ngữ nghĩa tự động cho tin tức, thuật toán phát ngữ nghĩa ba đơn giản, tuyên bố gián tiếp thực thể quan trọng tin tức không phụ thuộc vào đặc thù cụ thể miền lĩnh vực, việc sử dụng sở tri thức Trong nghiên cứu thứ hai, toán chuyển đổi câu hỏi diễn đạt ngôn ngữ tự nhiên sang truy vấn SPARQL phụ thuộc nhiều vào kiểu câu hỏi với ngữ nghĩa đặc thù lĩnh vực thể thao Tuy nhiên, với số dạng câu hỏi tin tức (tài liệu) liên quan hay nhiều thực thể, quan hệ hai thực thể, phương pháp đề xuất chuyển đổi thành công chuyển sang lĩnh vực khác Yếu tố đặc thù miền có ảnh hưởng tới độ tương đồng tin tức mà luận án đề xuất nghiên cứu thứ ba chủ yếu liên quan đến trọng số xếp hạng độ quan trọng quan hệ ngữ nghĩa Do áp dụng sang lĩnh vực khác, phương pháp hồn tồn có khả áp dụng trọng số cập nhật Tóm lại kết luận án đáp ứng mục tiêu nghiên cứu đặt ban đầu Những kết luận án thể cơng trình cơng bố tạp chí hội thảo chuyên ngành có phản biện nước, minh họa hệ thống tổng hợp tin tức BKSport triển khai thực tế

Hướng phát triển

Luận án đề xuất phương pháp sinh thích ngữ nghĩa, tìm kiếm ngữ nghĩa với câu hỏi ngôn ngự nhiên, gợi ý dựa ngữ nghĩa Các phương pháp đề xuất đạt số kết định bước đầu Với mong muốn đưa giải pháp tương đối hoàn thiện cho toán xây dựng hệ thống tổng hợp tin tức, luận án quan tâm đến nhiều vấn đề nghiên cứu chắn cịn nhiều cơng việc nghiên cứu cần thực tương lai Dưới số hướng nghiên cứu luận án

Trong quy trình tổng thể hệ thống, chất lượng tin tức đầu vào có ảnh hưởng quan trọng tới hiệu bước xử lý phía sau Luận án cần nâng cao chất lượng thu thập tin tức Crawler nhằm loại bỏ tin tức trùng lặp chủ đề, sử dụng Ontology để định hướng tác vụ nói xem xét Đồng thời ontology sở tri thức cần cập nhật để theo sát với thay đổi thực tế lĩnh vực thể thao Ví dụ, cầu thủ chuyển sang CLB khác, CLB xuống hạng lên hạng

Đối với tốn sinh thích ngữ nghĩa cho tin tức thể thao, luận án xem xét phát số ngữ nghĩa thường gặp giới hạn phạm vi chủ đề bóng đá Nhìn chung đa phần số thuật toán đề xuất áp dụng chủ đề khác ten nít, bóng rổ số ngữ nghĩa đặc biệt thuộc chủ đề cụ thể chưa phát Do hướng nghiên cứu tương lai phát nhiều ngữ nghĩa phức tạp từ tin tức biểu diễn chúng với mơ hình thích hợp Kết việc sinh thích ngữ nghĩa phụ thuộc vào luật (quy tắc) trích rút Trong tương lai, nghiên cứu sinh thích ngữ nghĩa nhắm vào việc học luật trích rút để tăng cường khả mở rộng tiếp cận Tác giả cộng nhắm vào việc trích rút ngữ nghĩa phức tạp từ tin tức thể thao biểu diễn chúng mơ hình thích hợp bốn

(120)

109

(121)

110

DANH MỤC CÁC CƠNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN

1 Nguyen, Q.-M & Cao, T.-D (2015) A Novel Approach for Automatic Extraction of Semantic Data about Football Transfer in Sport News International Journal of Pervasive Computing and Communications, 11(2), 233-252 DOI:10.1108/IJPCC-03-2015-0018

2 Nguyen, Q.-M., Nguyen, T.-T & Cao, T.-D (2016) Semantic-Based Recommendation Method for Sport News Aggregation System Proceedings of the 2016 International Conference on Research and Practical Issues of Enterprise Information Systems (CONFENIS 2016) LNBIP 268, pp 32-47 Vienna, Austria: Springer DOI:10.1007/978-3-319-49944-4_3

3 Nguyen, Q.-M., Ngo, H.-S & Cao, T.-D (2018) Automatic Semantic Annotation of Sport News Using Knowledge Base and Extraction Patterns Journal of Science & Technology Technical Universities, 128(06/2018), 55-62 Retrieved from http://jst.hust.edu.vn/NewsFiles/119_News_So_128_up.rar

(122)

111

TÀI LIỆU THAM KHẢO

[1] Akamai, "Akamai Company History", March 2019 [Online] Available: https://www.akamai.com/uk/en/about/company-history.jsp [Accessed March 2019] [2] C Nicholson, "WORLD CUP 2014: THE DRAMA IN THE DATA", 31 July 2014

[Online] Available: Nicholson, C (2014, ngày 31/07) WORLD CUP 2014: THE DRAMA IN THE DATA The Akamai Bloghttps://blogs.akamai.com/2014/07/world-cup-2014-the-drama-in-the-data.html [Accessed 18 February 2019]

[3] M Castillo, "Univision, ESPN Score Digital Victories During 2014 World Cup", 15 July 2014 [Online] Available: https://www.adweek.com/digital/univision-espn-score-digital-victories-during-2014-world-cup-158929/ [Accessed 18 February 2019] [4] N Adie, "Sky Sports sees record digital traffic over summer", September 2013

[Online] Available: https://www.cable.co.uk/news/sky-sports-sees-record-digital-traffic-over-summer-801634665/ [Accessed 15 February 2019]

[5] E Fisher, "ESPN Back On Top Of ComScore Sports Ranking For March", 18 April

2018 [Online] Available:

https://www.sportsbusinessdaily.com/Daily/Issues/2018/04/18/Media/Comscores.aspx [Accessed 19 February 2019]

[6] T Berners-Lee, J Hendler and O Lassila, "The Semantic Web", Scientific American,

vol 284, no 5, pp 34-43, May 2001

[7] L Ding, T Finin, A Joshi, R Pan, R Scott Cost, Y Peng, P Reddivari, V Doshi and J Sachs, "Swoogle: A Search and Metadata Engine for the Semantic Web", in

Proceedings of the thirteenth ACM Conference on Information and Knowledge Management (CIKM 2004), Washingtion, D.C., USA, 2004

[8] C Ogbuji, E Blackstone and C Pierce, "Case Study: A Semantic Web Content Repository for Clinical Research", October 2007 [Online] Available: https://www.w3.org/2001/sw/sweo/public/UseCases/ClevelandClinic/ [Accessed 15 February 2019]

[9] AGRIS, "AGRIS: International Information System for the Agricultural Science and Technology", 2019 [Online] Available: http://agris.fao.org/agris-search/index.do [Accessed 15 February 2019]

[10] R Klischewski, "Semantic Web for E-Government", in EGOV 2003, 2003

[11] C Clarke, "Case Study: A Linked Open Data Resource List Management Tool for Undergraduate Students", January 2009 [Online] Available: https://www.w3.org/2001/sw/sweo/public/UseCases/Talis/ [Accessed 15 February 2019]

[12] M Sini, G Salokhe, C Pardy, J Albert, J Keizer and S Katz, "Ontology-based Navigation of Bibliographic Metadata: Example from the Food, Nutrition and Agriculture Journal", in Proceedings of the International Conference on the Semantic Web and Digital Libraries (ICSD 2007), Bangalore, India, 2007

[13] H Chen, Y Wang, H Wang, Y Mao, J Tang, C Zhou, A Yin and Z Wu, "Towards a Semantic Web of Relational Databases: A Practical Semantic Toolkit and an In-Use Case from Traditional Chinese Medicine", in The 5th International Semantic Web Conference (ISWC 2006), Athens, GA, USA, 2006

[14] A Dogac, G B Laleci, S Kirbas, Y Kabak, S S Sinir, A Yildiz and G Y., "Artemis: Deploying semantically enriched Web services in the healthcare domain", Information Systems, vol 31, no 4-5, pp 321-339, 2006

(123)

112

[16] Y A Alsultanny, "e-learning System Overview based on Semantic Web", The Electronic Journal of e-Learning, vol 4, no 2, pp 111-118, 2006

[17] T Schlachter, R Ebel, W Geiger, A Sawade, M Tauber and R Weidermann, "Environmental Information Network of Baden-Wuerttemberg-Integration of the Authorities' Environmental Information", in 18th International Conference Informatics for Environmental Protection (EnviroInfo 2004), Geneva, Switzerland, 2004

[18] J Souer, P Honders, J Versendaal and S Brinkkemper, "Defining Operations and Maintenance in Web Engineering: a Framework for CMS-based Web Applications", in

The Second IEEE International Conference on Digital Information Management (ICDIM07), Lyon, France, 2007

[19] N Suradi, H Subramaniam, M Hassan and S Omar, "Development of Knowledge Portal using Open Source Tools: A Case Study of FIIT, UNISEL", WASET International Journal of Industrial and Manufacturing Engineering, vol 4, no 2, pp 94-97, 2010 [20] F Christ and B Nagel, "A Reference Architecture for Semantic Content Management

Systems", in Proceedings of the 4th International Workshop on Enterprise Modelling and Information Systems Architectures (EMISA 2011), Hamburg, Germany, 2011 [21] B Heitmann, S Kinsella, C Hayes and S Decker, "Implementing Semantic Web

Applications: Reference Architecture and Challenges", in Proceedings of the 5th International Workshop on Semantic Web Enabled Software Engineering (SWESE2009), Washington DC, USA, 2009

[22] M Dumontier, "Building an effective Semantic Web for health care and the life sciences", Semantic Web, vol 1, pp 131-135, 2010

[23] E Hyvönen, "Semantic Portals for Cultural Heritage", in Handbook on Ontologies – Second Edition, Berlin, Springer-Verlag Berlin Heidelberg, 2009, pp 757-778

[24] F F Ahmed and F S Hmed, "Dynamic Tourism Information System Using the Semantic Web", International Journal of Computer Science and Artificial Intelligence,

vol 3, no 3, pp 120-124, 2013

[25] Ĩ Corcho, A Gómez-Pérez, A López-Cima, V López-García and M C Srez-Figueroa, "ODESeW Automatic Generation of Knowledge Portals for Intranets and Extranets", in The Second International Semantic Web Conference (ISWC 2003), Sanibel Island, Florida, USA, 2003

[26] M Stollberg, H Lausen, R Lara, Y Ding, S.-K Han and D Fensel, "Towards Semantic Web Portals", in Proceedings of WWW2004 Workshop on Application Design, Development and Implementation Issues in the Semantic Web, New York, NY, USA, 2004

[27] D Song, C Chute and C Tao, "Semantator: a Semi-automatic Semantic Annotation Tool for Clinical Narratives", in The 10th International Semantic Web Conference, Poster (ISWC2011), Bonn, Germany, 2011

[28] S Bloehdorn, K Petridis, C Saathoff, N Simou, V Tzouvaras, Y Avrithis, S Handschuh, Y Kompatsiaris, S Staab and M Strintzis, "Semantic Annotation of Images and Videos for Multimedia Analysis", in The 2nd European Semantic Web Conference (ESWC 2005), Heraklion, Greece, 2005

[29] R Schroeter, J Hunter and A Newman, "Annotating Relationships Between Multiple Mixed-Media Digital Objects by Extending Annotea", in Proceedings of The Fourth European Semantic Web Conference (ESWC 2007), Innsbruck, Austria, 2007

[30] H Cunningham, "GATE, a General Architecture for Text Engineering", Computers and the Humanities, vol 36, no 2, pp 223-254, 2002

(124)

113

resources at the click of a mouse", Nucleic Acids Research, vol 37, no suppl_2, pp W170-W173, 2009

[32] T Slimani, "Semantic Annotation: The Mainstay of Semantic Web", International Journal of Computer Applications Technology and Research, vol 2, no 6, pp 763-770, 2013

[33] S Dill, N Eiron, D Gibson, D Gruhl, R Guha, A Jhingran, T Kanungo, S Rajagopalan, A Tomkins, J A Tomlin and J Y Zien, "SemTag and Seeker: Bootstrapping the semantic web via automated semantic annotation", in Proceedings of the Twelfth International Conference on World Wide Web (WWW 2003), Budapest, Hungary, 2003

[34] P Cimiano, S Handschuh and S Staab, "Towards the Self-Annotating Web", in

Proceedings of the 13th International Conference on World Wide Web (WWW 2004), New York, New York, USA, 2004

[35] P Cimiano, G Ladwig and S Staab, "Gimme' The Context: Context-driven Automatic with C-PANKOW", in Proceedings of the 14th International Conference on World Wide Web (WWW 2005), Chiba, Japan, 2005

[36] B Popov, A Kiryakov, D Ognyanoff, D Manov and A Kirilov, "KIM - a semantic platform for information extraction and retrieval", Natural Language Engineering, vol 10, no 3/4, pp 375-392, 2004

[37] P Kogut and W Holmes, "AeroDAML: Applying Information Extraction to Generate DAML Annotations from Web Pages", in The First International Conference on Knowledge Capture (K-CAP 2001) Workshop on Knowledge Markup and Semantic Annotation, Victoria, British Columbia, Canada, 2001

[38] L Sun and X Han, "A Feature-Enriched Tree Kernel for Relation Extraction", in

Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Short Papers), Baltimore, Maryland, USA, 2014

[39] A Ben Abacha and P Zweigenbaum, "Automatic extraction of semantic relations between medical entities: a rule based approach", Journal of Biomedical Semantics, vol 2, no Supplement 5, p S4, 2011

[40] A Bhandari and S Batra, "SEMANTIC RETRIEVAL FOR HOMONYMS USING RDF AND SPARQL", Journal of Global Research in Computer Science, vol 2, no 4, pp 88-91, 2011

[41] H Wu, G Cheng and Y Qu, "Falcon-S: An Ontology-Based Approach to Search Objects and Images in the Soccer Domain", in Supplemental Proceedings of the 5th International Semantic Web Conference (ISWC 2006), Athens, GA, USA, 2006 [42] S Ferré, "SQUALL: A Controlled Natural Language for Querying and Updating RDF

Graphs", in The Third International Workshop on Controlled Natural Language (CNL 2012), Zurich, Switzerland, 2012

[43] A Bernstein, E Kaufmann and C Kaiser, "Querying the Semantic Web with Ginseng: A Guided Input Natural Language Search Engine", in 15th Workshop on Information Technologies and and Systems (WITS 2005), Las Vegas, Nevada, USA, 2005

[44] B Sarwar, G Karypis, J Konstan and J Riedl, "Item-Based Collaborative Filtering Recommendation Algorithms", in Proceedings of the 10th International Conference on World Wide Web (WWW 2001), Hong Kong, Hong Kong, 2001

(125)

114

[46] X Wu, F Xie, G Wu and W Ding, "Personalized News Filtering and Summarization on the Web", in 2011 23rd IEEE International Conference on Tools with Artificial Intelligence, Boca Raton, Florida, USA, 2011

[47] A Elahi, R J Alitappeh and A S Rostami, "Improvement Tfidf for News Document Using Efficient Similarity", Research Journal of Applied Sciences, Engineering and Technology, vol 4, no 19, pp 3592-3600, 2012

[48] A Huang, "Similarity Measures for Text Document Clustering", in Proceedings of the 6th New Zealand Computer Science Research Student Conference (NZCSRSC 2008), Christchurch, New Zealand, 2008

[49] M Batet, D Sánchez and A Valls, "An ontology-based measure to compute semantic similarity in biomedicine", Journal of Biomedical Informatics, vol 44, no 1, pp 118-125, 2011

[50] M Capelle, F Hogenboom, A Hogenboom and F Frasincar, "Semantic News Recommendation Using WordNet and Bing Similarities", in Proceedings of the 28th Annual ACM Symposium on Applied Computing (SAC 2013), Coimbra, Portugal, 2013 [51] E Prud’hommeaux and A Seaborne, "SPARQL Query Language for RDF W3C

Recommendation 15 January 2008", 15 January 2008 [Online] Available: https://www.w3.org/TR/2008/REC-rdf-sparql-query-20080115/ [Accessed 19 February 2019]

[52] W3C SPARQL Working Group, "SPARQL 1.1 Overview W3C Recommendation 21 March 2013", 21 March 2013 [Online] Available: https://www.w3.org/TR/2013/REC-sparql11-overview-20130321/ [Accessed 19 February 2019]

[53] D L McGuinness and F van Harmelen, "OWL Web Ontology Language Overview W3C Recommendation 10 February 2004", 10 February 2004 [Online] Available: https://www.w3.org/TR/2004/REC-owl-features-20040210/ [Accessed 11 February 2019]

[54] W3C OWL Working Group, "OWL2 Web Ontology Language Document Overview (Second Edition) W3C Recommendation 11 December 2012", 11 December 2012 [Online] Available: https://www.w3.org/TR/2012/REC-owl2-overview-20121211/ [Accessed 11 February 2019]

[55] M Kifer and H Boley, "RIF Overview (Second Edition) W3C Working Group Note February 2013", February 2013 [Online] Available: https://www.w3.org/TR/2013/NOTE-rif-overview-20130205/ [Accessed 30 January 2019]

[56] O Lassila, F Van Harmelen, I Horrocks, J A Hendler and D L McGuinness, "The Semantic Web and its languages", IEEE Intelligent Systems & their Applications, vol 15, no 6, pp 67-73, 2000

[57] N Shadbolt, T Berners-Lee and W Hall, "The Semantic Web Revisited", IEEE Intelligent Systems, vol 21, no 3, pp 96-101, 2006

[58] L Feigenbaum, I Herman, T Hongsermeier, E Neuman and S Stephens, "The Semantic Web in Action", Scientific American, vol 297, no 6, pp 90-97, December 2007

[59] T Berners-Lee, W Hall, J A Hendler, K O’Hara and N & W D J Shadbolt, "A Framework for Web Science", Berners-Lee, T., Hall, W., Hendler, J A., O’Hara, K., ShadbolFoundations and Trends in Web Science, vol 1, no 1, pp 1-130, 2006 [60] T H Lê, M P Từ and Q T Huỳnh, Tác tử công nghệ phần mềm hướng tác tử, Hanoi:

(126)

115

[61] R Neches, R Fikes, T Finin, T Gruber, R Patil, T Senator and W R Swartout, "Enabling Technology for Knowledge Sharing", AI Magazine, vol 12, no 3, pp 36-56, 1991

[62] T R Gruber, "A translation approach to portable ontology specifications", Knowledge Acquisition, vol 5, no 2, pp 199-220, 1993

[63] N Guarino, "Formal Ontology and Information Systems", in Formal Ontology in Information System 1998 (FOIS'98), Trento, Italy, 1998

[64] B Swartout, R Patil, K Knight and T Russ, "Toward Distributed Use of Large-Scale Ontologies", Ontological Engineering, AAAI-97 Spring Symposium Series, pp 138-148, 1997

[65] R Studer, V R Benjamins and D Fensel, "Knowledge Engineering: Principles and Methods", Data Knowledge Engineering, vol 25, no 1-2, pp 161-197, 1998

[66] M M Taye, "Understanding Semantic Web and Ontologies: Theory and Applications",

Journal of Computing, vol 2, no 6, 2010

[67] L Ding, P Kolari, Z Ding and S Avancha, "Chapter 4: Using Ontologies in the Semantic Web: A Survey", in Ontologies: A HandBook of Principles, Concepts and Applications in Information Systems, New York, USA, Springer, 2007, pp 79-113 [68] I Horrocks, "Ontologies and the Semantic Web", Communications of the ACM, vol 51,

no 12, pp 58-67, 2008

[69] A Singh and P Anand, "State of Art in Ontology Development Tools", International Journal of Advances in Computer Science and Technology, vol 2, no 7, pp 96-101, 2013

[70] R V Guha and D B Lenat, "Cyc: A Midterm Report", AI magazine, vol 11, no 3, pp 32-59, 1990

[71] M Uschold and M King, "Towards a Methodology for Building Ontologies", in

Workshop on Basic Ontological Issues in Knowledge Sharing, held in conjunction with IJCAI-95, Montreal, Quebec, Canada, 1995

[72] M Grüninger and M S Fox, "Methodology for the Design and Evaluation of Ontologies", in Workshop on Basic Ontological Issues in Knowledge Sharing, IJCAI-95, Montreal, Quebec, Canada, 1995

[73] G Schreiber, B Wielinga and W Jansweijer, "The KACTUS View on the ‘O’ Word", in IJCAI95 Workshop on Basic Ontological Issues in Knowledge Sharing, Montreal, Quebec, Canada, 1995

[74] M Fernández, A Gómez-Pérez and N Juristo, "METHONTOLOGY: From Ontological Art Towards Ontological Engineering", in Proceedings of the AAAI97 Spring Symposium Series on Ontological Engineering, Palo Alto, California, USA, 1997

[75] V Psyché, O Mendes and J Bourdeau, "Apport de l’ingénierie ontologique aux environnements de formation distance", Sciences et Technologies de l’Information et

de la Communication pour l’Éducation et la Formation, ATIEF, vol 10, pp 89-126, 2003

[76] A Gómez-Pérez, "Toward a Framework to Verify Knowledge Sharing Technology",

Expert Systems with Application, vol 11, no 4, pp 519-529, 1996

[77] M Uschold and M Grüninger, "Ontologies: Principles, Methods and Applications",

Knowledge Engineering Review, vol 11, no 2, pp 93-136, 1996

(127)

116

[79] Y Sure, M Erdmann, J Angele, S Staab, R Studer and D Wenke, "OntoEdit: Collaborative Ontology Development for the Semantic Web", in Proceedings of the 1st International Semantic Web Conference (ISWC2002), Sardinia, Italia, 2002

[80] J C Arpírez, O Corcho, M Fernández-López and A Gómez-Pérez, "WebODE: a Scalable Workbench for Ontological Engineering", in Proceedings of the First International Conference on Knowledge Capture (K-CAP 2001), Victoria, British Columbia, Canada, 2001

[81] R Mizoguchi, "Tutorial on Ontological Engineering Part 2: Ontology Development, Tools and Languages", New Generation Computing, vol 22, no 1, pp 61-96, 2004 [82] Y Ding and S Foo, "Ontology research and development Part - a review of ontology

mapping and evolving", Journal of Information Science, vol 28, no 5, pp 375-388, 2002

[83] L Sauermann and R Cyganiak, "Cool URIs for the Semantic Web", December 2008 [Online] Available: http://www.w3.org/TR/cooluris [Accessed 15 February 2019] [84] D Brickley and L Miller, "FOAF Vocabulary Specification 0.99", 14 January 2014

[Online] Available: http://xmlns.com/foaf/spec/ [Accessed 16 February 2019]

[85] P Hayes and B McBride, "RDF Semantics W3C Recommendation 10 February 2004", 10 February 2004 [Online] Available: http://www.w3.org/TR/2004/REC-rdf-mt-20040210/ [Accessed 16 February 2019]

[86] P F Patel-Schneider, P Hayes and I Horrocks, "OWL Web Ontology Language – Semantics and Abstract Syntax W3C Recommendation 10 February 2004", February 2004 [Online] Available: http://www.w3.org/TR/2004/REC-owl-semantics-20040210 [Accessed 16 February 2019]

[87] B Fazzinga and T Lukasiewicz, "Semantic search on the Web", Semantic Web Journal,

vol 1, pp 89-96, 2010

[88] A Seaborne, "A Query Language for RDF", January 2004 [Online] Available: http://www.w3.org/Submission/RDQL [Accessed 12 February 2019]

[89] G Karvounarakis, S Alexaki, V Christophides, D Plexousakis and M Scholl, "RQL: A Declarative Query Language for RDF", in Proceedings of the 11th International World Wide Web Conference (WWW 2002), Honolulu, Hawaii, USA, 2002

[90] J Broekstra and A Kampman, "SeRQL: An RDF Query and Transformation Language", in Semantic Web and Peer-to-Peer, Berlin, Springer-Verlag Berlin Heidelberg, 2006, pp 23-39

[91] M Sintek and S Decker, "TRIPLE – A Query, Inference and Transformation Language for the Semantic Web", in International Semantic Web Conference 2002 (ISWC 2002), Sardinia, Italia, 2002

[92] C Bizer, J Lehmann, G Kobilarov, S Auer, C Becker, R Cyganiak and S Hellmann, "DBpedia - A crystallization point for the Web of Data", Journal of Web Semantics: Science, Services and Agents on the World Wide Web, vol 7, no 3, pp 154-165, 2009 [93] J Diederich and W Balke, "FacetedDBLP-navigational access for digital libraries",

Bulletin of IEEE Technical Committee on Digital Libraries, vol 4, no 1, 2008

[94] M Wick, "GeoNames Ontology Version 3.1", November 2012 [Online] Available: http://www.geonames.org/ontology/documentation.html [Accessed 12 February 2019] [95] J McCrae, "The Linked Open Data Cloud version 2019-01-08", January 2019

[Online] Available: https://lod-cloud.net/versions/2019-01-08/lod-cloud.png

[96] T Berners-Lee, "Linked Data", 27 July 2006 [Online] Available: http://www.w3.org/DesignIssues/LinkedData.html [Accessed 12 February 2019] [97] D Pollard, "Knowledge integration leading to personal knowledge management", 15

(128)

117

https://barryhardy.blogs.com/theferryman/2004/06/knowledge_integ.html [Accessed 12 February 2019]

[98] L Stojanovic, S Staab and R Studer, "eLearning based on the Semantic Web", in

WebNet2001-World Conference on the WWW and Internet, Orlando, Florida, USA, 2001

[99] B Abrahams, "Tourism Information Systems Integration and Utilization Within the Semantic Web (PhD Thesis)", 2006 [Online] Available: http://vuir.vu.edu.au/1477/ [Accessed 15 February 2019]

[100] H Lausen, Y Ding, M Stollberg, D Fensel, R Lara Hernández and S.-K Han, "Semantic web portals: state-of-the-art survey", Journal of Knowledge Mangement, vol 9, no 5, pp 40-49, 2005

[101] D Reynolds and P Shabajee, "SWAD-Europe deliverable 12.1.5: Semantic Portals – Requirements Specification", World Wide Web Consortium (W3C), London, 2004 [102] Z Jrad and M A Aufaure, "Personalized Interfaces for a Semantic Web Portal: Tourism

Information Search", in Proceedings of 11th International Conference on Knowledge-Based Intelligent Information and Engineering Systems, and the 17th Italian Workshop on Neural Networks (KES 2007 / WIRN 2007), Part III, Vietri sul Mare, Italy, 2007 [103] J A DeCesare, "ARKive – An Intersection of Conservation, Multimedia and Usability",

Journal of Media Literacy Education, vol 4, no 2, pp 193-195, 2012

[104] J Rayfield, "BBC World Cup 2010 dynamic semantic publishing", 12 July 2010

[Online] Available:

http://www.bbc.co.uk/blogs/bbcinternet/2010/07/bbc_world_cup_2010_dynamic_sem html [Accessed 16 February 2019]

[105] C Xu, J Wang, H Lu and Y Zhang, "A Novel Framework for Semantic Annotation and Personalized Retrieval of Sports Video", IEEE Transactions on Multimedia, vol 10, no 3, pp 421-436, 2008

[106] J Rayfield, P Wilton and S Oliver, "BBC Sport Ontology", 17 February 2011 [Online] Available: http://www.bbc.co.uk/ontologies/sport/2011-02-17.shtml [Accessed 12 February 2019]

[107] G Kobilarov, T Scott, Y Raimond, S Oliver, C Sizemore, M Smethurst, C Bizer and R Lee, "Media Meets Semantic Web – How the BBC Uses DBpedia and Linked Data to Make Connections", in The 6th European Semantic Web Conference (ESWC 2009), Heraklion, Crete, Greece, 2009

[108] S Muthu lakshmi and G V Uma, "Semantic Web based e-Learning System for Sports Domain", International Journal of Computer Applications, vol 8, no 14, pp 21-25, 2010

[109] C Olston and M Najork, "Web Crawling", Foundations and Trends in Information Retrieval, vol 4, no 3, pp 175-246, 2010

[110] R Iswary and K Nath, "WEB CRAWLER", International Journal of Advanced Research in Computer and Communication Engineering, vol 2, no 10, pp 4009-4012, 2013

[111] E Oren, K H Mӧller, S Scerri, S Handschuh and M Sintek., "What are Semantic Annotations? (Technical report)", DERI , Galway, Ireland, 2006

[112] D P T Nguyen, Y Matsuo and M Ishizuka, "Exploiting Syntactic and Semantic Information for Relation Extraction from Wikipedia", in IJCAI Workshop on Text-Mining & Link-Analysis (TextLink 2007), Hyderabad, India, 2007

(129)

118

[114] K Tymoshenko and C Giuliano, "FBK-IRST: Semantic Relation Extraction using Cyc", in Proceedings of the 5th International Workshop on Semantic Evaluation, ACL 2010, Uppsala, Sweden, 2010

[115] B Harrington and S Clark, "ASKNet: Creating and Evaluating Large Scale Integrated Semantic Networks", in 2008 IEEE International Conference on Semantic Computing, Santa Clara, California, USA, 2008

[116] H Cunningham, D Maynard and V Tablan, "JAPE: a Java Annotation Patterns Engine (Research Memo CS – 00 - 10)", University of Sheffield, Sheffield, South Yorkshire, England, 2000

[117] L Qiu, M Y Kan and T S Chua, "A Public Reference Implementation of the RAP Anaphora Resolution Algorithm", in Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC 2004), Lisbon, Portugal, 2004

[118] T Liang and D S Wu, "Automatic Pronominal Anaphora Resolution in English Texts",

Computational Linguistics and Chinese Language Processing, vol 9, no 1, pp 21-40, 2004

[119] Q.-M Nguyen, T.-D Cao, H.-C Nguyen and T Hagino, "Towards efficient sport data integration through semantic annotation", in The Fourth International Conference on Knowledge and Systems Engineering (KSE 2012), Danang, Vietnam, 2012

[120] Q.-M Nguyen, T.-D Cao, T.-H Phan, H.-C Nguyen and T Hagino, "A Method for the Generation of Semantic Annotation from Sport News Using Ontology Based Patterns", in Proceedings of the 7th KES Conference on Agent and Multi-Agent Systems – Technologies and Applications (KES-AMSTA 2013), Hue, Vietnam, 2013

[121] A H Tan and C Teo, "Learning User Profiles for Personalized Information Dissemination", in Proceedings of the 1998 IEEE International Joint Conference on Neural Networks, Anchorage, Alaska, USA, 1998

[122] J Zhai and K Zhou, "Semantic Retrieval for Sports Information Based on Ontology and SPARQL", in 2010 International Conference of Information Science and Management Engineering, Xi'an, China, 2010

[123] T.-D Cao and Q.-M Nguyen, "Semantic approach to travel information search and itinerary recommendation", International Journal of Web Information System, vol 8, no 3, pp 256-277, 2012

[124] D L McGuinness, "Question Answering on the Semantic Web", IEEE Intelligent System, vol 19, no 1, pp 82-85, 2004

[125] Q Guo and M Zhang, "Question Answering System Based on Ontology and Semantic Web", in The Third International Conference on Rough Sets and Knowledge Technology (RSKT 2008), Chengdu, China, 2008

[126] C Wang, M Xiong, Q Zhou and Y Yu, "PANTO: A Portable Natural Language Interface to Ontologies", in The 4th European Semantic Web Conference (ESWC 2007), Innsbruck, Austria, 2007

[127] E Kaufmann and A Bernstein, "How useful Are Natural Language Interfaces to the Semantic Web for Casual End-Users?", in Proceedings of the 6th International Semantic Web Conference and the 2nd Asian Semantic Web Conference (ISWC / ASWC 2007), Busan, Korea, 2007

[128] D Damljanovic, V Tablan and K Bontcheva, "A text-based Query Interface to OWL ontologies", in The 6th International Conference on Language Resources and Evaluation (LREC 2008), Marrakech, Morocco, 2008

(130)

119

User Interaction", in 7th Extended Semantic Web Conference (ESWC 2010), Heraklion, Crete, Greece, 2010

[130] S Bloehdorn, P Cimiano, A Duke, P Haase, J Heizmann, I Thurlow and J Völker, "Ontology-Based Question Answering for Digital Libraries", in 11th European Conference on Research and Advanced Technology for Digital Libraries (ECDL 2007), Budapest, Hungary, 2007

[131] V Lopez, E Motta and V Uren, "Poweraqua: Fishing the Semantic Web", in The 3rd European Semantic Web Conference (ESWC 2006), Budva, Montenegro, 2006

[132] V Lopez, M Pasin and E Motta, "AquaLog: An Ontology-Portable Question Answering System for the Semantic Web", in The 2nd European Semantic Web Conference 2005 (ESWC 2005), Heraklion, Crete, Greece, 2005

[133] C Unger and P Cimiano, "Pythia: Compositional Meaning Construction for Ontology-Based Question Answering on the Semantic Web", in The 16th International Conference on Applications of Natural Language to Information Systems (NLDB 2011), Alicante, Spain, 2011

[134] C Unger, L Bühmann, J Lehmann, A.-C Ngonga Ngomo, D Gerber and P Cimiano, "Template-based Question Answering over RDF Data", in Proceedings of the 21st International Conference on World Wide Web (WWW 2012), Lyon, France, 2012 [135] M De Marneffe and C D Manning, "Stanford typed dependencies manual (Technical

Report)", Stanford University, Stanford, California, USA, 2016

[136] B Mobasher, X Jin and Y Zhou, "Semantically Enhanced Collaborative Filtering on the Web", in First European Web Mining Forum (EWMF 2003), Cavtat-Dubrovnik, Croatia, 2003

[137] A M B Abdelrahman and A Kayed, "A Survey on Semantic Similarity Measures between Concepts in Health Domain", American Journal of Computational Mathematics, vol 5, pp 204-214, 2015

[138] G Salton and C Buckley, "TERM-WEIGHTING APPROACHES IN AUTOMATIC TEXT RETRIEVAL", Information Processing & Management, vol 24, no 5, pp 513-523, 1988

[139] F Frasincar, W IJntema, F Goossen and F Hogenboom, "Chapter 5: A Semantic Approach for News Recommendation", in Business Intelligence Applications and the Web: Models, Systems and Technology, Hershey, Pennsylvania, USA, IGI Global, 2012, pp 102-121