Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
28
Dung lượng
753,25 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Nguyễn Quang Minh MỘT TIẾP CẬN XÂY DỰNG HỆ THỐNG TỔNG HỢP TIN TỨC THỂ THAO DỰA TRÊN WEB NGỮ NGHĨA Ngành: Mạng máy tính truyền thơng liệu Mã số: 9480102 TĨM TẮT LUẬN ÁN TIẾN SĨ MẠNG MÁY TÍNH VÀ TRUYỀN THƠNG DỮ LIỆU Hà Nội – 2019 Cơng trình hồn thành tại: Trường Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: PGS.TS Ngô Hồng Sơn PGS TS Cao Tuấn Dũng Phản biện 1: PGS TS Trương Ninh Thuận Phản biện 2: PGS TS Nguyễn Hữu Quỳnh Phản biện 3: TS Nguyễn Duy Phương Luận án bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Trường họp Trường Đại học Bách khoa Hà Nội Vào hồi …… giờ, ngày … tháng … năm ……… Có thể tìm hiểu luận án thư viện: Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội Thư viện Quốc gia Việt Nam MỞ ĐẦU Đặt vấn đề Ngày nay, số lượng người dùng tiếp cận thông tin thông qua Web ngày lớn tin tức Web trở thành xu hướng cho người dùng ngành công nghiệp tin tức đại Thể thao nói chung, đặc biệt bóng đá nói riêng, lĩnh vực giải trí hấp dẫn, thu hút quan tâm người đọc kết thi đấu, chuyển nhượng, diễn biến trận đấu, cầu thủ, huấn luyện viên… bình luận, lời tuyên bố, phát biểu nhân vật thể thao … giải thi đấu lớn giới hay châu lục Các website thể thao có nội dung phong phú, đa dạng khổng lồ, làm người đọc phải nhiều thời gian công sức để truy cập, tìm kiếm tin tức phù hợp Vì vậy, hệ thống tổng hợp tin tức xây dựng nhằm giải khó khăn cho người đọc Tuy nhiên, hệ thống tổng hợp tin tức chủ yếu cung cấp chức tìm kiếm thông tin theo phương pháp truyền thống dựa từ khóa dẫn tới kết tìm kiếm khơng xác Nguồn gốc vấn đề nói mơ hình liệu Web truyền thống Mơ hình hướng dẫn máy tính làm để trình bày thơng tin trình duyệt phục vụ cho người mà khơng hỗ trợ việc hiểu ý nghĩa tin tức Công nghệ Web ngữ nghĩa hướng tới phát triển tiêu chuẩn công nghệ chung cho phép máy tính hiểu nhiều thơng tin Web hơn, để chúng hỗ trợ tốt việc khám phá thơng tin, tích hợp liệu tự động hóa nhiệm vụ Đã có nhiều nghiên cứu cho thấy thành công ứng dụng công nghệ Web ngữ nghĩa giải toán tìm kiếm thơng tin, hiển thị thơng tin phù hợp ngữ cảnh người dùng tích hợp liệu lĩnh vực khác y tế, nông nghiệp, thương mại điện tử… Tuy nhiên chưa có nhiều nghiên cứu mang tính hệ thống việc xây dựng hệ thống tổng hợp tin tức sử dụng tiếp cận Xác định việc nghiên cứu cải thiện, nâng cao chất lượng tìm kiếm, truy cập tin tức quan tâm hàng đầu, tác giả lựa chọn hướng nghiên cứu ứng dụng cơng nghệ Web ngữ nghĩa Mục tiêu tổng thể giới thiệu giải pháp toàn diện cho việc xây dựng hệ thống tổng hợp tin tức thể thao, lý luận án đặt tên “Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa Web ngữ nghĩa” Mục tiêu luận án Luận án tập trung giải mục tiêu nghiên cứu cụ thể sau: • Tìm mơ hình kiến trúc cho hệ thống tổng hợp tin tức nói chung thể thao nói riêng dựa tảng công nghệ Web ngữ nghĩa • Nghiên cứu đề xuất phương pháp sinh cách tự động bán tự động siêu liệu cịn gọi thích ngữ nghĩa cho tin tức thể thao Kết nhiệm vụ sở để tiến hành kỹ thuật tìm kiếm ngữ nghĩa tin tức Luận án hướng tới việc sinh tự động thích ngữ nghĩa mà nội dung phục vụ cho việc tìm kiếm, đối sánh, giới thiệu, khuyến nghị tin tức Do đó, ngữ nghĩa tin tức thể thao có số khác biệt (ví dụ diễn đạt kiện xảy ra, người liên quan, chủ đề liên quan…) • Thực tìm kiếm ngữ nghĩa hệ thống hình thức câu hỏi ngơn ngữ tự nhiên Luận án hướng đến giải toán chuyển đổi câu hỏi hay yêu cầu tin tức dạng ngôn ngữ tự nhiên sang dạng thức truy vấn SPARQL • Nghiên cứu phương pháp gợi ý tin tức tới người đọc sở phù hợp với nội dung tin tức đọc, có khai thác khía cạnh ngữ nghĩa Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu luận án toán xử lý liệu tin tức dựa tiếp cận Web ngữ nghĩa Luận án thực phạm vi tin tức tiếng Anh lĩnh vực thể thao Các tin tức dạng thức phổ biến văn (text) Phương pháp nghiên cứu Về lý thuyết: Nghiên cứu tổng quan lý thuyết, kỹ thuật Web ngữ nghĩa, hệ thống tổng hợp tin tức, nghiên cứu liên quan công bố hội thảo tạp chí quốc tế Về thực nghiệm: Luận án tiến hành cài đặt chạy thực nghiệm, sau đánh giá kết phương pháp đề xuất tập liệu xây dựng từ miền lĩnh vực toán Các kết nghiên cứu chính: • Luận án đề xuất phương pháp để sinh thích ngữ nghĩa cho tin tức thể thao văn cách tự động Phương pháp kết trình nhiều nghiên cứu với cải tiến đóng góp vào giải pháp chung, tập trung vào dạng thức ngữ nghĩa sau: ➢ ngữ nghĩa ba đơn giản để diễn tả kiện hành động kiện, chủ đề, thực thể gắn với tin tức ➢ ngữ nghĩa thực thể quan trọng tin tức ➢ số ngữ nghĩa phức tạp tuyên bố gián tiếp, xử lý đại từ, chuyển nhượng • Luận án đề xuất phương pháp chuyển đổi câu hỏi tiếng Anh thành truy vấn ngữ nghĩa biểu diễn dạng thức SPARQL Truy vấn dùng để thực tìm kiếm ngữ nghĩa Từ đó, thực tìm kiếm sử dụng mơ tơ tìm kiếm ngữ nghĩa • Luận án đề xuất cơng thức tính độ tương đồng liên quan ngữ nghĩa tin tức thể thao sử dụng gợi ý tin tức tới người đọc dựa tin tức mà người đọc • Hệ thống tổng hợp tin tức mẫu thử BKSport ứng dụng công nghệ Web ngữ nghĩa triển khai để chứng minh kết nghiên cứu nói Bố cục luận án Phần cịn lại luận án tổ chức thành chương Chương 1: giới thiệu kiến thức tảng, nghiên cứu liên quan ứng dụng Web ngữ nghĩa, tập trung vào lĩnh vực thể thao Phần cuối, tác giả khẳng định tiếp cận Web ngữ nghĩa xây dựng hệ thống tổng hợp tin tức giới thiệu nội dung nghiên cứu Kiến trúc tổng quan hệ thống tổng hợp tin tức thể thao BKSport trình bày Chương 2: trình bày nội dung nghiên cứu phương pháp sinh thích ngữ nghĩa cho tin tức thể thao dựa Ontology, sở tri thức luật trích chọn Chương 3: đề xuất phương pháp chuyển đổi câu hỏi ngôn ngữ tự nhiên sang truy vấn SPARQL Đây sở để hệ thống tổng hợp tin tức thực tìm kiếm ngữ nghĩa hình thức tương tác thân thiện với người dùng Chương 4: trình bày phương pháp gợi ý tin tức thể thao có quan tâm đến khía cạnh ngữ nghĩa Luận án đề xuất độ đo tương đồng hai tin tức sở kết hợp độ liên quan ngữ nghĩa độ tương đồng nội dung Cuối phần kết luận tổng hợp đóng góp luận án thảo luận hướng nghiên cứu tương lai CHƯƠNG KIẾN THỨC NỀN TẢNG VÀ TIẾP CẬN PHÁT TRIỂN HỆ THỐNG TIN TỨC THỂ THAO DỰA TRÊN WEB NGỮ NGHĨA 1.1 Giới thiệu Web ngữ nghĩa 1.1.1 Khái niệm Web ngữ nghĩa Năm 2001, Tim Berners-Lee đưa định nghĩa: “Web ngữ nghĩa mở rộng Web mà thơng tin định nghĩa cách rõ ràng, cho phép máy tính người hợp tác với tốt hơn” 1.1.2 Kiến trúc Web ngữ nghĩa Hình 1.1 kiến trúc (hoặc ngăn xếp) đề xuất Berners-Lee cộng vào năm 2006 Hình 1.1 Kiến trúc Web ngữ nghĩa 1.2 Ontology Theo cách nhìn triết học, ontology “một môn khoa học nhận thức, cụ thể nhánh siêu hình học tự nhiên chất giới, nhằm xem xét vấn đề tồn hay không tồn vật” 1.2.1 Định nghĩa Studer cộng định nghĩa ontology “Một đặc tả rõ ràng, hình thức khái niệm hóa chia sẻ” 1.2.2 Các lĩnh vực ứng dụng vai trị ontology Nhiều cơng ty tổ chức ứng dụng ontology vào lĩnh vực: Web ngữ nghĩa, khám phá dịch vụ Web ngữ nghĩa, trí tuệ nhân tạo, đa tác tử, máy tìm kiếm, thương mại điện tử, khả tương tác… 1.2.3 Các phương pháp luận phát triển ontology Có nhiều phương pháp luận khác đưa để hỗ trợ việc phát triển ontology Psyché cộng phân loại phương pháp luận xây dựng ontology cổ điển thành năm nhóm: (1) xây dựng từ đầu, (2) tích hợp với ontology khác, (3) tái kỹ nghệ, (4) xây dựng cộng tác (5) đánh giá ontology 1.2.4 Các cơng cụ phát triển ontology Có hai loại công cụ xây dựng ontology chủ yếu: (1) Các công cụ soạn thảo ontology (2) Các công cụ ánh xạ, chỉnh trộn ontology 1.3 Ngôn ngữ biểu diễn ontology liệu ngữ nghĩa 1.3.1 RDF RDFS RDF (Resource Description Framework) mơ hình liệu cốt lõi tất ứng dụng dựa Web ngữ nghĩa RDFS (RDF Schema) mở rộng từ vựng RDF Core Nó chứa số khái niệm định nghĩa trước để định nghĩa lớp (chính khái niệm) thuộc tính ontology rdfs:Class, rdfs:Property v.v 1.3.2 OWL (Web Ontology Language) OWL (Web Ontology Language) ngôn ngữ biểu diễn tri thức đại phát triển dựa RDF nhằm cho phép biểu diễn thông tin phân tán Web với mức độ biểu đạt cao suy diễn thơng tin Về có ba biến thể khác OWL: OWL Lite, OWL-DL, OWL Full 1.4 Tìm kiếm ngữ nghĩa truy vấn SPARQL Tìm kiếm ngữ nghĩa phương pháp cải thiện độ xác tìm kiếm cách hiểu mục đích người tìm kiếm ý nghĩa theo bối cảnh thuật ngữ tìm kiếm chúng xuất khơng gian liệu tìm kiếm, mạng hay hệ thống khép kín, để sinh kết phù hợp SPARQL (SPARQL Protocol and RDF Query Language) ngôn ngữ truy vấn liệu RDF, SPARQL hỗ trợ hầu hết tính truy vấn cần có 1.5 Một số nghiên cứu Web ngữ nghĩa tiêu biểu Swoogle, Dự án ARTEMIS, Dartgrid, Kho nội dung Web ngữ nghĩa cho nghiên cứu lâm sàng, Ứng dụng Web ngữ nghĩa lĩnh vực nông nghiệp tổ chức nônglương thực Liên hiệp quốc (FAO)… 1.6 Website cổng thơng tin tin tức có ngữ nghĩa Tác giả Abrahams đưa khái niệm cổng thông tin ngữ nghĩa tập hợp tài nguyên dựa ontology với từ khóa tìm kiếm Việc tìm kiếm tài ngun cổng thơng tin ngữ nghĩa thường dựa khai thác cấu trúc ontology Sau dự án nghiên cứu cổng thông tin ngữ nghĩa quan tâm: (1) Dự án SWEPT, (2) Dự án ARKive, (3) Cổng thông tin Esperonto, (4) Mondeca ITM 1.7 Ứng dụng Web ngữ nghĩa lĩnh vực thể thao BBC hãng truyền thông dịch vụ công theo xu hướng Cũng có nghiên cứu sử dụng Ontology kho liệu ngữ nghĩa Dbpedia tích hợp CSDL thuộc nhiều lĩnh vực 1.8 Tiếp cận Web ngữ nghĩa xây dựng hệ thống tin tức thể thao Tư tưởng chủ đạo tiếp cận sau Đầu tiên với đơn vị thông tin hệ thống tin tức, cần tạo tầng ngữ nghĩa mơ tả mà người dùng quan tâm tin tức Thay lựa chọn mơ hình biểu diễn thơng tin truyền thống, luận án dựa mơ hình biểu diễn tin tức thể thao có ngữ nghĩa Điều dẫn đến việc nghiên cứu xây dựng ontology thể thao Bài toán quan trọng nghiên cứu phương pháp, kỹ thuật để sinh thích ngữ nghĩa cho số lượng lớn tin tức Sau có thích ngữ nghĩa cho tin tức, tốn nghiên cứu khai thác chúng để tạo hệ thống tổng hợp tin tức mục tiêu mà luận án hướng tới Luận án đặt trọng tâm vào việc cải tiến tính tìm kiếm gợi ý tin tức ứng dụng công nghệ ngữ nghĩa Hình 1.7 mơ hình kiến trúc tổng thể hệ thống tổng hợp tin tức thể thao BKSport luận án đề xuất tiếp cận Web ngữ nghĩa thể thành phần hệ thống mối quan hệ chúng HTML Cơ sở liệu tin tức Crawler Hệ thống thích ngữ nghĩa Website tin tức Giao diện Người dùng Hệ thống gợi ý Ontology sở tri thức Câu hỏi ngôn ngữ tự nhiên Siêu liệu Tìm kiếm ngữ nghĩa Chuyển đổi truy vấn Mơ tơ ngữ nghĩa Trả lời Truy vấn Hình 1.7 Kiến trúc tổng thể hệ thống BKSport Cơ sở thích CHƯƠNG SINH CHÚ THÍCH NGỮ NGHĨA CHO TIN TỨC THỂ THAO 2.1 Đặt vấn đề Chú thích ngữ nghĩa thành phần khơng thể thiếu hệ thống thông tin phần mềm dựa cơng nghệ ngữ nghĩa Vì vậy, tư tưởng tiếp cận mơ hình hóa tin tức thể thao thích ngữ nghĩa tin tức Mơ hình biểu diễn thơng tin có ngữ nghĩa giúp cho máy tính hiểu số ý nghĩa ngữ cảnh tin tức Chương trình bày nghiên cứu phương pháp tạo thích có khả chứa đựng số ngữ nghĩa đặc thù, cần thiết làm sở cho việc xây dựng tính tìm kiếm, gợi ý tin tức hiệu hệ thống 2.2 Chú thích ngữ nghĩa cho tài liệu Thuật ngữ “chú thích” biểu thị q trình thích kết q trình Chú thích gắn số liệu vào số liệu khác Chú thích ngữ nghĩa tiền đề để thực xử lý có ngữ nghĩa 2.3 Một phương pháp sinh thích ngữ nghĩa cho tin tức thể thao dựa ontology luật trích chọn 2.3.1 Tổng quan phương pháp đề xuất Các giai đoạn phương pháp tổng thể minh họa hình 2.2 đây: Thiết kế Ontology Thu thập tiền xử lý tin tức 1' Xây dựng sở tri thức thể thao BKSport Ontology Nhận dạng, trích rút xác định lớp ngữ nghĩa cho thực thể có tên Trích rút ngữ nghĩa từ tin tức Ngữ nghĩa ba đơn giản Ngữ nghĩa thực thể quan trọng Ngữ nghĩa tuyên bố gián tiếp Ngữ nghĩa quan hệ chuyển nhượng Sinh thích ngữ nghĩa dạng biểu diễn hình thức hóa (RDF/OWL) Hình 2.2 Q trình thích ngữ nghĩa 2.3.2 Xây dựng Ontology cho hệ thống Ontology BKSport xây dựng tuân thủ nguyên tắc Gruber Đồng thời, để mở rộng tảng KIM thực nhận dạng thực thể có tên lĩnh vực thể thao, ontology thiết kế để tương thích với ontology PROTON 2.3.3 Xây dựng sở tri thức thể thao Thành phần Web Scrapper thu thập sở liệu liên quan đến thể thao cầu thủ, câu lạc bộ, trận thi đấu, giải thưởng, sân vận động…và gửi chúng đến thành phần làm giàu sở tri thức (Knowledge Base Enrichment) Một mô đun chuyển đổi tự động liệu sang định dạng RDF Dữ liệu RDF chuyển đổi sau nhập vào sở tri thức thể thao hệ thống 2.3.4 Nhận dạng, trích rút xác định lớp ngữ nghĩa cho thực thể có tên Nhận dạng thực thể có tên tin tức thể thuộc sở tri thức Sau tiền xử lý, thông tin chuyển đến thành phần nhận dạng thực thể có tên để phát xuất cầu thủ, huấn luyện viên, câu lạc bộ, kiện thể thao, tác nhân v.v tin tức Mơ đun trích rút thực thể có tên lấy tất thể khái niệm sở tri thức mà xuất trang Web Đóng vai trị tác vụ NER hệ thống BKSport có tái sử dụng Ontology Proton KIM Phát bí danh thực thể Khi thơng tin tên gọi khác thực thể bổ sung vào sở tri thức BKSport dạng bí danh (Alias) thực thể nhận dạng thực thể Nhận dạng thực thể mức khái niệm chi tiết Qua phân tích nhận thấy, hầu hết thực thể biễu diễn dạng “chức nghiệp” + “tên riêng” Các chức nghiệp thường nhãn khái niệm, nên thuật toán sử dụng nhãn (label) khái niệm làm mẫu (pattern) để xây dựng luật nhận dạng cho thực thể khái niệm Cải tiến nhận dạng thực thể có tên dạng rút gọn Tên rút gọn thường phần tên đầy đủ Do đó, thực thể biểu diễn với tên rút gọn nhận biết phát với tên đầy đủ trước qua việc sử dụng phép toán so khớp phần Nhận dạng thực thể tên khác kiểu Đây trường hợp thường gặp thích văn thực thể có tên xuất văn thuộc kiểu khác Ví dụ, Santiago Bernabéu tên cầu thủ, tên sân vận động Ở trường hợp này, ta tiến hành kiểm tra mẫu thực thể, tùy vào hậu tố theo sau để xác định kiểu thực thể CHƯƠNG MỘT PHƯƠNG PHÁP TRUY VẤN TIN TỨC THỂ THAO VỚI NGÔN NGỮ TỰ NHIÊN 3.1 Giới thiệu Việc áp dụng tìm kiếm ngữ nghĩa cho phép trả kết tài liệu chứa xác nội dung theo kỳ vọng người dùng Đã có nhiều cơng trình nghiên cứu vấn đề truy hồi thông tin từ kho liệu ngữ nghĩa sử dụng trực tiếp câu lệnh SPARQL để truy vấn thông tin từ kho tri thức ngữ nghĩa, cung cấp giao diện đồ họa người dùng dựa ontology để cấu trúc nên (formulate) câu truy vấn SPARQL Tuy nhiên nghiên cứu đòi hỏi người dùng thực số thao tác định phải hiểu biết ontology Vì vậy, mục tiêu luận án xây dựng hệ thống tìm kiếm ngơn ngữ tự nhiên, thân thiện với người dùng, khơng địi hỏi họ phải có kiến thức ngơn ngữ truy vấn phức tạp mà sử dụng hiệu hệ thống phương pháp chuyển đổi câu hỏi tin tức dạng ngôn ngữ tự nhiên sang truy vấn ngữ nghĩa SPARQL trình bày chương 3.2 Các nghiên cứu liên quan Các nghiên cứu liên quan cho thấy ý nghĩa việc thực tính tìm kiếm ngữ nghĩa thơng qua hình thức truy vấn diễn đạt ngôn ngữ tự nhiên Trong bối cảnh phát triển hệ thống BKSport cần có tiếp cận riêng để cải thiện kết tìm kiếm lĩnh vực tin tức thể thao 3.3 Phương pháp chuyển đổi câu hỏi ngôn ngữ tự nhiên sang truy vấn SPARQL Phương pháp đề xuất mơ tả hình 3.2 gồm giai đoạn sau: Hình 3.2 Quy trình chuyển đổi câu hỏi từ ngôn ngữ tự nhiên sang SPARQL 3.3.1 Tiền xử lý câu hỏi: Mô đun tiền xử lý có nhiệm vụ chuẩn hóa câu hỏi đầu vào dạng ngôn ngữ tự nhiên để nâng cao hiệu xử lý cho mô đun sau Những cơng việc tiền xử lý bao gồm: (1) Chuẩn hóa token khơng chuẩn (2) Xác định thuộc tính thời gian câu truy vấn 12 3.3.2 Phân tích cú pháp Mơ đun phân tích cú pháp xác định dạng thức câu truy vấn, thành phần ngữ pháp câu truy vấn mối quan hệ chúng Luận án tiến hành phân tích gắn nhãn từ loại (Part-Of-Speech Tagging), cấu trúc cụm từ (Phrase Structure Tree) phụ thuộc theo loại (Typed Dependencies) Việc cài đặt tác vụ phân tích gắn nhãn từ loại, cấu trúc cụm từ phụ thuộc theo loại có tái sử dụng thư viện Stanford Parser 3.3.3 Biểu diễn ngữ nghĩa cho câu hỏi Mơ hình biểu diễn ngữ nghĩa cho câu hỏi Bảng 3.1 Mơ hình biểu diễn ngữ nghĩa câu hỏi Danh sách biến: + Biến truy vấn (truy vấn số lượng, truy vấn đối tượng) + Biến thông thường Các ràng buộc cho biến: + Ràng buộc nhãn biến + Ràng buộc quan hệ phụ thuộc biến + Ràng buộc số lượng Ràng buộc cho quan hệ phụ thuộc: + Ràng buộc AND/OR + Ràng buộc thời gian Chuyển từ cấu trúc ngữ pháp sang biểu diễn ngữ nghĩa a) Xác định biến truy vấn: Nếu đầu vào câu hỏi nghi vấn khơng tồn biến truy vấn danh sách biến Ngược lại, đầu vào câu hỏi có từ hỏi, mơ đun xác định chủ thể hỏi tương ứng với từ hỏi b) Xác định biến thường ràng buộc quan hệ phụ thuộc biến: Mỗi phụ thuộc theo loại ba của: tên quan hệ, thành phần điều khiển thành phần phụ thuộc Từ phụ thuộc theo loại thu từ bước phân tích cú pháp, ta suy từ có quan hệ với mối quan hệ chúng (dựa vào tên phụ thuộc theo loại) Các từ đại diện biến, bao gồm biến truy vấn biến thường c) Xác định ràng buộc số lượng: Để xác định ràng buộc số lượng Hai loại ràng buộc số lượng xem xét là: (1) ràng buộc so sánh số lượng đối tượng với giá trị số cụ thể (2) ràng buộc số lượng đối tượng lớn hay bé d) Xác định ràng buộc thời gian: Các câu hỏi phân thành hai loại: ràng buộc gắn với thời điểm ràng buộc gắn với khoảng thời gian • Loại 1: “today”, “yesterday”, “last sunday”, “in 01/01/2015”, … • Loại 2: “last week”, “last month”, “this season”, “this year”, … 13 Trong mơ hình ngữ nghĩa, luận án định nghĩa “Interval” gồm hai trường: Interval(BEGIN, END) Kiểu Interval thể ràng buộc thời điểm kiện diễn phải nằm khoảng BEGIN END Từ mơ hình biểu diễn ngữ nghĩa, mô đun sinh câu truy vấn SPARQL trung gian 3.3.4 Sinh câu truy vấn SPARQL trung gian Mơ hình ngữ nghĩa câu hỏi Xác định mệnh đề hỏi Xác định mệnh đề điều kiện (WHERE) (1) Có biến truy vấn số lượng COUNT(?x) + biến thường ➔ SELECT COUNT(?x) (2) Có biến truy vấn đối tượng + biến thường ➔ SELECT ?x (3) Không có biến truy vấn ➔ ASK Xác định mệnh đề GROUP BY cho câu hỏi có ràng buộc số lượng (1) Sinh mẫu ba (kết hợp với ràng buộc AND/OR (nếu có)) (2) Sinh đồ thị Named Graph tồn ràng buộc thời gian (3) Sinh mệnh đề FILTER (4) Sinh mệnh đề ORDER Hình 3.8 Quy trình sinh truy vấn SPARQL trung gian 3.3.5 Xác định thực thể, khái niệm vị từ Dựa vào ràng buộc giá trị nhãn biến mơ hình biểu diễn ngữ nghĩa, mơ đun “xác định thực thể, khái niệm vị từ” tính tốn kiểu giá trị cho biến Mô đun ánh xạ nhãn biến vào sở tri thức ontology để xác định xem nhãn tương ứng với thực thể, lớp hay thuộc tính Nhận dạng lớp Việc nhận dạng lớp cho biến theo bước sau Đầu tiên, danh sách gồm hai trường xây dựng: trường thứ URI tất lớp có ontology trường thứ hai nhãn tương ứng lớp Sau đó, cơng cụ Wordnet sử dụng để tìm từ đồng nghĩa với nhãn URI trên, tạo tập từ đại diện cho URI Nhận dạng thuộc tính Việc nhận dạng thuộc tính biến đóng vai trị vị ngữ ba tiến hành tương tự việc nhận dạng lớp Tuy nhiên, có số vấn đề khác nảy sinh cần phải xử lý riêng trình này, cách giải sau: a) Xử lý vấn đề nhãn biến vị ngữ tương ứng với nhiều thuộc tính ontology: Cách giải dựa vào phụ thuộc theo loại prep_“preposition”(?verb, ?object) hệ thống lấy giới từ động từ b) Xử lý vấn đề vị ngữ động từ “to be”: Hệ thống thay thuộc tính bksport:hasAbstract 14 c) Xử lý vấn đề với vị ngữ động từ “happen”: Bằng cách thêm vào câu truy vấn SPARQL ba dạng “?predicate rdfs:subPropertyOf bksport:happen” 3.3.6 Sinh truy vấn SPARQL hoàn chỉnh Sau mô đun xác định thực thể, khái niệm vị ngữ, tất biến mơ hình ngữ nghĩa xác định Công việc sinh truy vấn SPARQL hoàn chỉnh đơn giản thay biến câu truy vấn SPARQL trung gian URI tương ứng 3.4 Thử nghiệm đánh giá Kịch thử nghiệm kết Để đo lường độ xác câu truy vấn, trước tiên ta phải dựa vào thành phần đơn vị để đo độ xác loại mệnh đề Độ quan trọng thành phần đánh giá dựa việc đánh trọng số cho loại mệnh đề câu truy vấn dựa vào quan điểm tác giả mức độ quan trọng Gọi wi trọng số mệnh đề i câu truy vấn, việc đánh trọng số sau: • wi = 3, ứng với mệnh đề hỏi • wi = 2, ứng với mệnh đề WHERE • wi = 1, ứng với mệnh đề ràng buộc khác Gọi ni số thành phần đơn vị loại mệnh đề i, Ni số thành phần đơn vị cần xác định loại mệnh đề i câu truy vấn viết chuyên gia, ni/Ni độ xác mệnh đề i Một trường hợp đặc biệt mệnh đề hỏi “SELECT *” mà khơng có biến hỏi cụ thể, luận án mặc định gán cho mệnh đề hỏi độ xác 0.5 Cuối cùng, cơng thức tổng qt để đo độ xác câu truy vấn q sinh hệ thống sau: 𝑀 𝑛 ∑ (𝑎𝑖 × 𝑤𝑖 × 𝑁𝑖 ) 𝑖 𝑖=1 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛(𝑞) = 𝑏 × 𝑀 ∑𝑖=1(𝑎𝑖 × 𝑤𝑖 ) Tập liệu thử nghiệm gồm 41 câu hỏi Các câu hỏi đưa qua hệ thống xây dựng để tự động chuyển đổi dạng truy vấn SPARQL Sau đó, luận án đánh giá độ xác cho câu truy vấn sinh Tính cho tồn tập câu hỏi, cơng thức tính trung bình sử dụng cho độ đo tất câu hỏi thử nghiệm Kết nghiên cứu thu 91.89% 3.5 Kết luận chương Câu truy vấn dạng ngôn ngữ tự nhiên đầu vào hệ thống xử lý tự động qua nhiều mô đun để sinh câu truy vấn SPARQL hoàn chỉnh Qua thử nghiệm đánh giá câu hỏi gồm nhiều loại câu hỏi khác cho thấy hệ thống đề xuất đạt độ xác cao (91.89%) 15 CHƯƠNG GỢI Ý TIN TỨC DỰA TRÊN NGỮ NGHĨA CHO HỆ THỐNG TỔNG HỢP TIN TỨC THỂ THAO 4.1 Giới thiệu Chương trình bày nghiên cứu khai thác khía cạnh ngữ nghĩa nhằm cải thiện khả hoạt động hệ thống tổng hợp tin tức Mục tiêu xác định nâng cao hiệu phương pháp dựa nội dung với ý tưởng kết hợp độ tương đồng nội dung với độ tương đồng ngữ nghĩa Phương pháp kế thừa kết thu nghiên cứu trước ontology sở tri thức lĩnh vực thể thao, phương pháp nhận dạng thực thể có tên trích rút quan hệ ngữ nghĩa thực thể tin tức 4.2 Nghiên cứu liên quan Việc khảo sát nghiên cứu liên quan cho thấy nghiên cứu sử dụng ontology sở tri thức để khai thác mối quan hệ ngữ nghĩa khái niệm (các lớp ontology) phương pháp Ranked Semantic Recommendation hiệu phương pháp Tuy nhiên, hạn chế tồn cần khắc phục 4.3 Độ tương đồng tin Với mục tiêu giúp cho việc gợi ý hiệu hơn, tiếp cận lai kết hợp độ đo tương đồng nội dung độ đo tương đồng ngữ nghĩa thực sau 4.3.1 Độ tương đồng ngữ nghĩa Để tính tốn độ tương đồng ngữ nghĩa, quan hệ ngữ nghĩa thành phần tin tập trung khai thác xác định dựa ontology sở tri thức sẵn có hệ thống tổng hợp tin tức thể thao BKSport Sau pha thực 4.3.1.1 Quan hệ ngữ nghĩa thực thể a) Trọng số quan hệ thực thể dựa vào ontology sở tri thức Nhóm tác giả Aleman-Meza cộng định nghĩa liên kết ngữ nghĩa đường ngữ nghĩa sau: Định nghĩa: hai thực thể 𝑒1 𝑒𝑛 kết nối với nhiều dãy 𝑒1 , 𝑃1 , 𝑒2 , 𝑃2 , 𝑒3 , 𝑃3 , … , 𝑒𝑛−1 , 𝑃𝑛−1 , 𝑒𝑛 , 𝑒𝑛 đồ thị RDF; Ở 𝑒𝑖 (1 ≤ 𝑖 ≤ 𝑛) thực thể 𝑃𝑗 (1 ≤ 𝑗 ≤ 𝑛) quan hệ ontology, ta nói có tồn mối quan hệ ngữ nghĩa 𝑒1 𝑒𝑛 Và kết dãy 𝑒1 , 𝑃1 , 𝑒2 , 𝑃2 , 𝑒3 , 𝑃3 , … , 𝑒𝑛−1 , 𝑃𝑛−1 , 𝑒𝑛 , đường ngữ nghĩa Khi áp dụng vào toán đặc thù lĩnh vực bóng đá, tác giả nhận thấy hai trọng số độ dài đường trọng số tín nhiệm hai trọng số lớn phù hợp Vì lý này, luận án quan tâm đến hai trọng số tính tốn giá trị xếp hạng đường đường ngữ nghĩa Trọng số xếp hạng dựa vào độ dài đường ngữ nghĩa (Path Length Weight) Độ dài đường ngữ nghĩa 𝑒1 , 𝑃1 , 𝑒2 , 𝑃2 , 𝑒3 , 𝑃3 , … , 𝑒𝑛−1 , 𝑃𝑛−1 , 𝑒𝑛 số thực thể quan hệ đường (khơng tính hai thực thể 𝑒1 𝑒𝑛 hai đầu mút) Trọng số xếp hạng đường ngữ nghĩa dựa vào độ dài (Path Length Weight) định nghĩa theo công thức sau: 16 𝑊𝑙𝑒𝑛𝑔𝑡ℎ = 𝑙𝑒𝑛𝑔𝑡ℎ𝑝𝑎𝑡ℎ Trong đó: 𝑙𝑒𝑛𝑔𝑡ℎ𝑝𝑎𝑡ℎ độ dài đường ngữ nghĩa Trọng số xếp hạng dựa vào quan hệ đường ngữ nghĩa (Path Relation Weight) Trọng số quan hệ nằm khoảng (0,1) Tính trọng số xếp hạng đường ngữ nghĩa dựa vào quan hệ có đường (Path Relation Weight) theo công thức sau: 𝑊𝑝𝑟𝑒𝑑𝑖𝑐𝑎𝑡𝑒 = ∏ 𝑤𝑝 𝑝∈𝑝𝑎𝑡ℎ Trọng số quan hệ hai thực thể dựa vào Ontology sở tri thức Kết hợp hai trọng số 𝑊𝑙𝑒𝑛𝑔𝑡ℎ 𝑊𝑝𝑟𝑒𝑑𝑖𝑐𝑎𝑡𝑒 cặp hệ số 𝛼𝑤𝑙 𝛼𝑤𝑝 , ta tính path- rank đường ngữ nghĩa theo cơng thức sau: 𝑊𝑙𝑒𝑛𝑔𝑡ℎ × 𝛼𝑤𝑙 + 𝑊𝑝𝑟𝑒𝑑𝑖𝑐𝑎𝑡𝑒 × 𝛼𝑤𝑝 𝛼𝑤𝑙 + 𝛼𝑤𝑝 Giá trị 𝑊𝑝𝑎𝑡ℎ cơng thức giá trị độ tương đồng hai thực thể dựa vào ontology sở tri thức 𝑊𝑝𝑎𝑡ℎ = b) Trọng số quan hệ thực thể dựa vào thống kê đồng xuất tin Luận án tái sử dụng cơng thức tính trọng số PMI Capelle cộng sự, định nghĩa sau: 𝑐(𝑒1 , 𝑒2 ) 𝑁 𝑊𝑃𝑀𝐼 (𝑒1 , 𝑒2 ) = 𝑙𝑜𝑔 𝑐(𝑒1 ) 𝑐(𝑒2 ) × 𝑁 𝑁 Như vậy, cặp thực thể bất kỳ, có hai giá trị để tính trọng số quan hệ là: trọng số 𝑊𝑝𝑎𝑡ℎ trọng số 𝑊𝑃𝑀𝐼 Trước kết hợp hai trọng số này, chúng cần chuẩn hóa theo công thức sau: 𝑤𝑜𝑙𝑑 − 𝑀𝐼𝑁 𝑤𝑛𝑒𝑤 = 𝑀𝐴𝑋 − 𝑀𝐼𝑁 Trong đó: 𝑀𝐴𝑋 𝑀𝐼𝑁 giá trị lớn nhỏ chuỗi giá trị 𝑤 Sau chuẩn hóa, hai giá trị 𝑊𝑝𝑎𝑡ℎ 𝑊𝑃𝑀𝐼 kết hợp với cặp hệ số 𝛽𝑝𝑎𝑡ℎ 𝛽𝑃𝑀𝐼 để tính độ tương đồng cặp thực thể theo công thức đây: 𝑊𝑝𝑎𝑡ℎ × 𝛽𝑝𝑎𝑡ℎ + 𝑊𝑃𝑀𝐼 × 𝛽𝑃𝑀𝐼 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑒𝑛𝑡𝑖𝑡𝑦 (𝑒1 , 𝑒2 ) = 𝛽𝑝𝑎𝑡ℎ + 𝛽𝑃𝑀𝐼 Ta quy ước 𝑒1 ≡ 𝑒2 giá trị 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑒𝑛𝑡𝑖𝑡𝑦 (𝑒1 , 𝑒2 ) = c) Phương pháp tính độ tương đồng hai tin dựa vào mối quan hệ thực thể Trước hết, ta cần định nghĩa tập thực thể liên quan đến thực thể e tập chứa thực thể có độ tương đồng với e lớn ký hiệu sau: 17 𝐸(𝑒) = {𝑒1 , 𝑒2 , 𝑒3 , … , 𝑒𝑛 } Giả sử có tin A, tập thực thể có tên nhận dạng tin A ký hiệu sau: 𝐴 = {𝑎1 , 𝑎2 , 𝑎3 , … , 𝑎𝑚 } Với thực thể 𝑎𝑖 tập A, ta xây dựng tập thực thể liên quan đến 𝑎𝑖 tương ứng với 𝐸 (𝑎𝑖 ) = {𝑎𝑖1 , 𝑎𝑖2 , 𝑎𝑖3 , … , 𝑎𝑖𝑘 } Hợp tất tập 𝐸(𝑎𝑖 ) lại (𝑖: → 𝑚), ta có tập tất thực thể không nằm A, liên quan đến A: 𝐸 = ⋃ 𝐸(𝑎𝑖 ) 𝑖:1→𝑚 Cuối cùng, ta hợp hai tập A E lại để thu tập 𝐴𝐸 gọi tập mở rộng tin A: 𝐴𝐸 = 𝐴 ∪ 𝐸 Bước tiếp theo, giá trị xếp hạng tính cho thực thể tập 𝐴𝐸 Luận án biểu diễn thực thể ma trận, hàng biểu diễn thực thể tập 𝐴𝐸 cột biểu diễn thực thể tập A Ma trận có dạng sau: … 𝒆𝟏 𝒆𝟐 𝒆𝒒 𝒂𝟏 ℎ11 ℎ12 … ℎ1𝑞 𝒂𝟐 … 𝒂𝒎 ℎ21 … ℎ𝑚1 ℎ22 … ℎ𝑚2 … ℎ2𝑞 … ℎ𝑚𝑞 … … Trong ma trận trên, giá trị hij tính sau: ℎ𝑖𝑗 = 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦(𝑎𝑖 , 𝑒𝑗 ) × 𝑊𝐸(𝑎𝑖 ) Trong 𝑊𝐸 (𝑎𝑖) trọng số quan trọng thực thể 𝑎𝑖 tin Trọng số tính sau: Giả sử 𝑎𝑖 thực thể xuất tin, 𝑁𝑡𝑖𝑡𝑙𝑒 , 𝑁𝑑𝑒𝑠𝑐𝑟𝑖𝑝𝑡𝑖𝑜𝑛 , 𝑁𝑏𝑜𝑙𝑑𝑒𝑟𝑡𝑒𝑥𝑡 , 𝑁𝑐𝑜𝑛𝑡𝑒𝑛𝑡 tương ứng với số lần xuất 𝑎𝑖 phần tiêu đề, phần mô tả, phần chữ bật phần nội dung mục tin tức Trọng số quan trọng thực thể 𝑎𝑖 tính theo cơng thức đây: 𝑊𝐸 (𝑎𝑖 ) = 𝑁𝑡𝑖𝑡𝑙𝑒 × 𝑊𝑡𝑖𝑡𝑙𝑒 + 𝑁𝑑𝑒𝑠𝑐𝑟𝑖𝑝𝑡𝑖𝑜𝑛 × 𝑊𝑑𝑒𝑠𝑐𝑟𝑖𝑝𝑡𝑖𝑜𝑛 +𝑁𝑏𝑜𝑙𝑑𝑒𝑟𝑡𝑒𝑥𝑡 × 𝑊𝑏𝑜𝑙𝑑𝑒𝑟𝑡𝑒𝑥𝑡 + 𝑁𝑐𝑜𝑛𝑡𝑒𝑛𝑡 × 𝑊𝑐𝑜𝑛𝑡𝑒𝑛𝑡 Cuối cùng, trọng số xếp hạng thực thể 𝑒𝑗 tập 𝐴𝐸 tính theo cơng thức đây: 𝑚 𝑅𝑎𝑛𝑘(𝑒𝑗 ) = ∑ ℎ𝑖𝑗 𝑖=1 Gọi 𝑉𝐴 vectơ có chứa giá trị 𝑅𝑎𝑛𝑘(𝑒𝑖 ) tính Ta chuẩn hóa giá trị phần tử 𝑉𝐴 phạm vi [0, 1], theo công thức đây: 𝑣𝑖 − 𝑀𝐼𝑁 𝑣𝑖 = 𝑀𝐴𝑋 − 𝑀𝐼𝑁 18 Trong MAX MIN giá trị lớn nhỏ phần tử vectơ 𝑉𝐴 Nếu 𝑀𝐴𝑋 = 𝑀𝐼𝑁 ≠ 𝑣𝑖 = 1, với giá trị 𝑖 Kết sau thực tất bước đây, ta thu vectơ cho tin tức Bước cuối tính độ tương đồng hai tin dựa vectơ chúng Giả sử ta có hai tin A, B hai vectơ 𝑉𝐴 , 𝑉𝐵 Vì hai vectơ không số chiều, độ tương đồng hai vectơ 𝑉𝐴 , 𝑉𝐵 (cũng độ tương đồng hai tin A B) xác định biến thể độ tương đồng cosin, theo công thức đây: 𝑒𝑏 ∈𝐵 ∑𝑒𝑒𝑎𝑎∈𝐴, 𝑣𝑎 × 𝑣𝑏 ≡𝑒𝑏 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑏𝑎𝑠𝑒𝑑−𝑒𝑛𝑡𝑖𝑡𝑦 (𝐴, 𝐵) = 𝑐𝑜𝑠𝑖𝑛𝑒(𝑉𝐴 , 𝑉𝐵 ) = 2 √∑𝑒𝑎𝑎∈𝐴 𝑣𝑎2 × √∑𝑒𝑏𝑏∈𝐵 𝑣𝑏2 Trong 𝑣𝑎 , 𝑣𝑏 giá trị 𝑅𝑎𝑛𝑘 (𝑒𝑎 ), 𝑅𝑎𝑛𝑘(𝑒𝑏 ) vectơ 𝑉𝐴 , 𝑉𝐵 4.3.1.2 Độ tương đồng dựa loại thực thể xuất tin Giả sử, ta tính trọng số liên quan cho loại thực thể 𝐶 tin 𝐴 Gọi ci thực thể thuộc lớp 𝐶 xuất tin 𝐴, trọng số liên quan loại thực thể 𝐶 với tin 𝐴 tính theo cơng thức đây: 𝑊𝐶 (𝐶 ) = ∑ 𝑊𝐸(𝑐𝑖 ) Một vectơ cho tin xây dựng với phần tử trọng số 𝑊𝐶 tương tự xây dựng vectơ dựa thực thể mục 4.3.1.1 c) Các phần tử vectơ chuẩn hóa trước sử dụng biến thể cơng thức để tính độ tương đồng vectơ sử dụng phần 4.3.1.1 c) Ký hiệu giá trị tính 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑡𝑖𝑦𝑏𝑎𝑠𝑒𝑑−𝑡𝑦𝑝𝑒 4.3.1.3 Độ tương đồng dựa thích ngữ nghĩa tin Các thích ngữ nghĩa ba có dạng Một tin có nhiều ba hai tin mà có nhiều ba giống có độ tương đồng cao Với ba, ta ký hiệu 𝑁𝑡𝑖𝑡𝑙𝑒 , 𝑁𝑑𝑒𝑠𝑐𝑟𝑖𝑝𝑡𝑖𝑜𝑛 , 𝑁𝑏𝑜𝑙𝑑𝑒𝑟𝑡𝑒𝑥𝑡 , 𝑁𝑐𝑜𝑛𝑡𝑒𝑛𝑡 số lần xuất ba phần tiêu đề, phần mô tả tin, phần nhấn mạnh phần nội dung Công thức sử dụng tương tự cơng thức tính trọng số quan trọng thực thể mục 4.3.1.1 c), để tính trọng số quan trọng 𝑊𝑇 ba tin Sau đó, giá trị trọng số biểu diễn phần tử vectơ, sử dụng cơng thức chuẩn hóa vectơ để đưa giá trị trọng số đoạn [0, 1] Để tính độ tương đồng hai tin dựa vào thích ngữ nghĩa, biến thể cơng thức Cosine sử dụng mục 4.3.1.1 c) Để tính toán khoảng cách hai vectơ, giá trị ký hiệu 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑏𝑎𝑠𝑒𝑑−𝑎𝑛𝑛𝑜𝑡𝑎𝑡𝑖𝑜𝑛 Vì vậy, tham số sử dụng để xác định độ tương đồng ngữ nghĩa hai tin dựa vào yếu tố: • Mối liên quan thực thể có tên, • Loại thực thể xuất tin, • Chú thích ngữ nghĩa tin Mỗi thông số thông số có ý nghĩa khác việc xác định mức độ tương đồng ngữ nghĩa hai tin Ba thông số lại kết hợp với để xác định giá trị cuối thể mức độ tương đồng ngữ nghĩa hai tin Để kết 19 hợp thông số này, tham số 𝜃𝑒𝑛𝑡𝑖𝑡𝑦 , 𝜃𝑎𝑛𝑛𝑜𝑡𝑎𝑡𝑖𝑜𝑛 , 𝜃𝑡𝑦𝑝𝑒 sử dụng để thể mức độ quan trọng thông số Công thức cuối để tính độ tương đồng ngữ nghĩa hai tin, tính tốn theo cơng thức đây: 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑠𝑒𝑚𝑎𝑛𝑡𝑖𝑐 (𝐴, 𝐵) = 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑏𝑎𝑠𝑒𝑑−𝑒𝑛𝑡𝑖𝑡𝑦 (𝐴, 𝐵) × 𝜃𝑒𝑛𝑡𝑖𝑡𝑦 +𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑏𝑎𝑠𝑒𝑑−𝑎𝑛𝑛𝑜𝑡𝑎𝑡𝑖𝑜𝑛 (𝐴, 𝐵) × 𝜃𝑎𝑛𝑛𝑜𝑡𝑎𝑡𝑖𝑜𝑛 +𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑏𝑎𝑠𝑒𝑑−𝑡𝑦𝑝𝑒 (𝐴, 𝐵) × 𝜃𝑡𝑦𝑝𝑒 4.3.2 Độ tương đồng nội dung Tin biểu diễn dạng vectơ có giá trị 𝑣𝑘 giá trị TF-IDF từ tập Độ tương đồng hai tin A B có hai tập từ quan trọng SA, SB, hai vectơ tương ứng 𝑉𝐴, 𝑉𝐵 tính dựa biến thể cơng thức Cosine công thức đây: 𝐴 , 𝑡𝑏 ∈𝑆𝐵 ∑𝑡𝑡𝑎𝑎 ∈𝑆 𝑣𝑎 × 𝑣𝑏 ≡𝑡𝑏 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑇𝐹−𝐼𝐷𝐹 (𝐴, 𝐵) = 2 √∑𝑡𝑎𝑎 ∈𝑆𝐴 𝑣𝑎2 × √∑𝑡𝑏𝑏 ∈𝑆𝐵 𝑣𝑏2 Trong đó: • 𝑡𝑎, tb từ tương ứng hai 𝑆𝐴, SB • 𝑣𝑎, vb giá trị TF-IDF từ 𝑡𝑎, 𝑡𝑏 4.3.3 Thuật toán gợi ý tin tức với độ tương đồng kết hợp Để kết độ tương đồng ngữ nghĩa 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑠𝑒𝑚𝑎𝑛𝑡𝑖𝑐 độ tương đồng nội dung 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑇𝐹−𝐼𝐷𝐹 hai tin, ta sử dụng cặp trọng số 𝛾𝑠𝑒𝑚𝑎𝑛𝑡𝑖𝑐 , 𝛾𝑐𝑜𝑛𝑡𝑒𝑛𝑡 Công thức kết hợp xác định sau: 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑐𝑜𝑚𝑏𝑖𝑛𝑒𝑑 (𝐴, 𝐵) = 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑠𝑒𝑚𝑎𝑛𝑡𝑖𝑐 (𝐴, 𝐵) × 𝛾𝑠𝑒𝑚𝑎𝑛𝑡𝑖𝑐 + 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑇𝐹−𝐼𝐷𝐹 × 𝛾𝑐𝑜𝑛𝑡𝑒𝑛𝑡 Thuật tốn gợi ý tin tức, trình bày sau: Đầu vào: Tin mục tiêu A tập N tin ứng viên C Đầu ra: Tập K tin có độ tương đồng ngữ nghĩa với A cao • Bước 1: Nhận dạng thực thể có tên, thích ngữ nghĩa cho tin A tin ứng viên tập C • Bước 2: Xây dựng tập từ có trọng số TF-IDF cao cho tin A tin tập C • Bước 3: Với tin tức 𝐶𝑖 tập C, thực bước sau: ➢ Bước 3.1: Tính giá trị 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑏𝑎𝑠𝑒𝑑−𝑒𝑛𝑡𝑖𝑡𝑦 (𝐴, 𝐶𝑖 ) ➢ Bước 3.2: Tính giá trị 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑏𝑎𝑠𝑒𝑑−𝑎𝑛𝑛𝑜𝑡𝑎𝑡𝑖𝑜𝑛 (𝐴, 𝐶𝑖 ) ➢ Bước 3.3: Tính giá trị trị 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑏𝑎𝑠𝑒𝑑−𝑡𝑦𝑝𝑒 (𝐴, 𝐶𝑖 ) ➢ Bước 3.4: Tính giá trị 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑠𝑒𝑚𝑎𝑛𝑡𝑖𝑐 (𝐴, 𝐶𝑖 ) dựa vào kết bước 3.1, 3.2 3.3 ➢ Bước 3.5: Tính giá trị 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑇𝐹−𝐼𝐷𝐹 (𝐴, 𝐶𝑖 ) ➢ Bước 3.6: Tính giá trị 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑐𝑜𝑚𝑏𝑖𝑛𝑒𝑑 (𝐴, 𝐶𝑖 ) dựa vào kết bước 3.4 3.5 • Bước 4: Sắp xếp tin 𝐶𝑖 tập C theo thứ tự giảm dần theo giá trị 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦𝑐𝑜𝑚𝑏𝑖𝑛𝑒𝑑 (𝐴, 𝐶𝑖 ) 20 • Bước 5: Lấy k tin đầu danh sách xếp bước để gợi ý cho tin A 4.4 Cài đặt thử nghiệm đánh giá 4.4.1 Kịch thử nghiệm Mục tiêu tiểu mục đánh giá so sánh hiệu phương pháp gợi ý: • Chỉ sử dụng độ tương đồng ngữ nghĩa tin • Chỉ sử dụng độ tương đồng nội dung tin • Kết hợp hai độ tương đồng Việc đánh giá phương pháp khác thực cách đo độ xác Ký hiệu: • 𝑇𝑃𝐴𝑖 số tin mà thuật tốn gợi ý xác cho tin 𝐴𝑖 • 𝐹𝑃𝐴𝑖 số tin mà thuật tốn gợi ý khơng xác cho tin 𝐴𝑖 • 𝐹𝑁𝐴𝑖 số tin liên quan mà thuật tốn khơng gợi ý cho tin 𝐴𝑖 Độ xác (precision) cho tin 𝐴𝑖 , xác định theo công thức sau: 𝑇𝑃𝐴𝑖 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛(𝐴𝑖 ) = 𝑇𝑃𝐴𝑖 + 𝐹𝑃𝐴𝑖 Thực theo cách trên, ta có 𝐹𝑃𝐴𝑖 = 𝐹𝑁𝐴𝑖, 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 (𝐴i) = 𝑟𝑒𝑐𝑎𝑙𝑙 (𝐴𝑖) Trong nghiên cứu này, luận án quan tâm đến 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 để đánh giá phương pháp Độ xác cuối phương pháp xác định bình qn độ xác cho toàn tin tập liệu thử nghiệm Xem công thức đây: ∑𝐴 ∈𝐴 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 (𝐴𝑖 ) 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛(𝐴) = 𝑖 𝑁 4.4.2 Kết thử nghiệm đánh giá Sau chạy phương pháp riêng biệt cho tập 𝐴 chứa 100 tin kịch thử nghiệm trình bày mục 4.4.1, kết độ xác thu phương pháp thể Bảng 4.1 đây: Bảng 4.1 Độ xác gợi ý tin tức trường hợp Chỉ sử dụng độ tương đồng ngữ nghĩa (semantic-based) Precision 75.8 % Chỉ sử dụng độ tương đồng nội dung (content-based) 82.2 % Kết hợp hai độ tương đồng (combined) 85.6 % Nhận xét kết thử nghiệm (Assessment of experiment results) Bảng 4.1 rằng, liệu kiểm thử A chứa 100 tin, phương pháp gợi ý semantic-based có độ xác không tốt phương pháp gợi ý content-based Trong đó, kết hợp hai độ tương đồng mang lại kết tốt 4.5 Kết luận chương Chương trình bày tiếp cận nghiên cứu gợi ý tin tức dựa kết hợp độ tương đồng nội dung ngữ nghĩa tin Quá trình thử nghiệm, đánh giá cho thấy kết thu tốt khơng có kết hợp 21 KẾT LUẬN Căn vào chương trình bày luận án, phần tổng kết kết đạt được, đồng thời đưa hạn chế chưa giải được, đề xuất hướng phát triển Các kết đạt luận án Web ngữ nghĩa mở rộng Web thông tin bổ sung ý nghĩa rõ ràng, hỗ trợ máy người cộng tác với tốt Với liệu định nghĩa liên kết Web ngữ nghĩa, máy tính xử lý, chuyển đổi, lắp ráp, tái sử dụng tích hợp chúng qua ứng dụng khác Thực tế chứng tỏ Web ngữ nghĩa thể điểm mạnh áp dụng vào lĩnh vực thơng tin bị giới hạn, ví dụ quản lý tri thức, phát triển dịch vụ Web có ngữ nghĩa Với hỗ trợ Web ngữ nghĩa, thơng tin mong muốn tìm nhanh xác Web ngữ nghĩa hỗ trợ tích hợp liệu liên kết từ nhiều nguồn, tìm kiếm động liệu sẵn có nguồn liệu Luận án tận dụng ưu điểm vượt trội Web ngữ nghĩa tìm kiếm tốt hơn, tổ chức, xếp, trực quan hóa cách tự động Luận án ứng dụng công nghệ Web ngữ nghĩa để xây dựng mơ hình ngữ nghĩa hệ thống tổng hợp tin tức thể thao đặt tên BKSport Đối với người dùng, hệ thống hoạt động trang tin tức thơng thường mà người dùng xem tin tức tổng hợp từ số nguồn tin cậy hỗ trợ tính tìm kiếm gợi ý tin tức Các đóng góp luận án sau: Thứ nhất, luận án đề xuất số phương pháp sinh thích ngữ nghĩa cho tin tức thể thao văn cách tự động Ý tưởng xuyên suốt sử dụng ontology sở tri thức để nhận dạng xác định lớp cho thực thể có tên Một số kỹ thuật luận án đề xuất để nâng cao hiệu tác vụ phát bí danh thực thể, nhận dạng thực thể mức khái niệm chi tiết, cải tiến nhận dạng thực thể có tên dạng rút gọn, nhận dạng thực thể tên khác kiểu Sau dựa việc xây dựng luật trích chọn mà thực thể có tên thành phần, luận án nhận dạng sinh thành công dạng thức ngữ nghĩa khác tin tức thể thao bao gồm ngữ nghĩa ba đơn giản để diễn tả kiện, ngữ nghĩa thực thể quan trọng tin tức, số ngữ nghĩa phức tạp tuyên bố gián tiếp, xử lý đại từ, ngữ nghĩa chuyển nhượng Thứ hai, luận án đề xuất phương pháp chuyển đổi câu hỏi ngôn ngữ tự nhiên tiếng Anh sang truy vấn ngữ nghĩa biểu diễn dạng thức SPARQL Truy vấn dùng để thực tìm kiếm ngữ nghĩa Từ đó, hệ thống thực tìm kiếm 22 sử dụng mơ tơ tìm kiếm ngữ nghĩa Luận án xây dựng mô hình ngữ nghĩa để biểu diễn truy vấn SPARQL cần sinh Mơ hình có khả diễn đạt số dạng câu hỏi phức tạp câu hỏi so sánh hơn, so sánh nhất, câu hỏi có nhiều chủ ngữ, tân ngữ Nội dung cốt lõi phương pháp nằm việc ánh xạ kết việc phân tích cú pháp vào q trình sinh truy vấn trung gian hoàn chỉnh câu truy vấn Cơ sở tri thức ontology khai thác để nhận dạng thực thể có tên, thuộc tính, lớp Luận án đề xuất kỹ thuật xử lý cụ thể để xác định thành phần định nghĩa mơ hình ngữ nghĩa tương ứng với dạng câu hỏi khác Kết thực nghiệm cho thấy phương pháp sinh nhiều dạng câu hỏi với độ xác cao phù hợp với lĩnh vực thể thao Thứ ba, luận án đưa độ đo tương đồng hai tin tức sở kết hợp độ liên quan ngữ nghĩa độ tương đồng nội dung Khác với độ tương đồng nội dung tính dựa phương pháp truyền thống, độ liên quan ngữ nghĩa hai tin tức kết hợp độ liên quan ngữ nghĩa thực thể, độ tương đồng kiểu thực thể, độ tương đồng thích ngữ nghĩa hai tin Dựa độ đo nói trên, luận án phát triển phương pháp gợi ý tin tức thể thao dựa ngữ nghĩa Mặc dù luận án có mục tiêu tìm phương pháp nhằm xây dựng hệ thống tổng hợp tin tức đem lại hiệu thân thiện người dùng việc truy cập thông tin lĩnh vực thể thao, giá trị ứng dụng kết nghiên cứu đạt không giới hạn lĩnh vực Một số giai đoạn phương pháp đề xuất áp dụng lĩnh vực khác đem lại kết ontology sở tri thức xây dựng tốt cho lĩnh vực Cụ thể hơn, số thuật tốn sinh thích ngữ nghĩa tự động cho tin tức, thuật toán phát ngữ nghĩa ba đơn giản, tuyên bố gián tiếp thực thể quan trọng tin tức không phụ thuộc vào đặc thù cụ thể miền lĩnh vực, việc sử dụng sở tri thức Trong nghiên cứu thứ hai, toán chuyển đổi câu hỏi diễn đạt ngôn ngữ tự nhiên sang truy vấn SPARQL phụ thuộc nhiều vào kiểu câu hỏi với ngữ nghĩa đặc thù lĩnh vực thể thao Tuy nhiên, với số dạng câu hỏi tin tức (tài liệu) liên quan hay nhiều thực thể, quan hệ hai thực thể, phương pháp đề xuất chuyển đổi thành công chuyển sang lĩnh vực khác Yếu tố đặc thù miền có ảnh hưởng tới độ tương đồng tin tức mà luận án đề xuất nghiên cứu thứ ba chủ yếu liên quan đến trọng số xếp hạng độ quan trọng quan hệ ngữ nghĩa Do áp dụng sang lĩnh vực khác, phương pháp hoàn tồn có khả áp dụng trọng số cập nhật Tóm lại kết luận án đáp ứng mục tiêu nghiên cứu đặt ban đầu Những kết luận án thể cơng trình cơng bố tạp chí hội thảo chun ngành có phản biện nước, minh họa hệ thống tổng hợp tin tức BKSport triển khai thực tế 23 Hướng phát triển Luận án đề xuất phương pháp sinh thích ngữ nghĩa, tìm kiếm ngữ nghĩa với câu hỏi ngôn ngự nhiên, gợi ý dựa ngữ nghĩa Các phương pháp đề xuất đạt số kết định bước đầu Với mong muốn đưa giải pháp tương đối hoàn thiện cho toán xây dựng hệ thống tổng hợp tin tức, luận án quan tâm đến nhiều vấn đề nghiên cứu chắn cịn nhiều cơng việc nghiên cứu cần thực tương lai Dưới số hướng nghiên cứu luận án Trong quy trình tổng thể hệ thống, chất lượng tin tức đầu vào có ảnh hưởng quan trọng tới hiệu bước xử lý phía sau Luận án cần nâng cao chất lượng thu thập tin tức Crawler nhằm loại bỏ tin tức trùng lặp chủ đề, sử dụng Ontology để định hướng tác vụ nói xem xét Đồng thời ontology sở tri thức cần cập nhật để theo sát với thay đổi thực tế lĩnh vực thể thao Ví dụ, cầu thủ chuyển sang CLB khác, CLB xuống hạng lên hạng Đối với tốn sinh thích ngữ nghĩa cho tin tức thể thao, luận án xem xét phát số ngữ nghĩa thường gặp giới hạn phạm vi chủ đề bóng đá Nhìn chung đa phần số thuật tốn đề xuất áp dụng chủ đề khác ten nít, bóng rổ số ngữ nghĩa đặc biệt thuộc chủ đề cụ thể chưa phát Do hướng nghiên cứu tương lai phát nhiều ngữ nghĩa phức tạp từ tin tức biểu diễn chúng với mô hình thích hợp Kết việc sinh thích ngữ nghĩa phụ thuộc vào luật (quy tắc) trích rút Trong tương lai, nghiên cứu sinh thích ngữ nghĩa nhắm vào việc học luật trích rút để tăng cường khả mở rộng tiếp cận Tác giả cộng nhắm vào việc trích rút ngữ nghĩa phức tạp từ tin tức thể thao biểu diễn chúng mơ hình thích hợp bốn Những nghiên cứu chuyển đổi câu hỏi ngôn ngữ tự nhiên tiếng Anh sang truy vấn ngữ nghĩa dạng thức SPARQL tập trung cải thiện trường hợp mà hệ thống chưa xử lý hoàn thiện ontology BKSport để bao phủ đầy đủ khái niệm quan hệ có miền lĩnh vực thể thao, quan tâm đến “thì” quan hệ động từ nhằm nắm bắt ngữ nghĩa câu truy vấn cách xác Hệ thống tích hợp vào cổng thông tin thể thao BKSport xây dựng hoàn thiện, hỗ trợ cho việc tìm kiếm tin tức hiệu Đối với tốn gợi ý tin tức, luận án cần nghiên cứu cách thức kết hợp độ đo tương đồng nội dung liên quan ngữ nghĩa hợp lý việc sử dụng trọng số lựa chọn dựa thực nghiệm Phương pháp gợi ý dựa nội dung ngữ nghĩa ẩn chứa tin tức Tác giả cộng dự định mơ hình hóa sử dụng profile ngữ nghĩa người đọc để đối sánh với ngữ nghĩa tin tức gợi ý Đây hướng nghiên cứu theo tính cá nhân hóa người dùng 24 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN Nguyen, Q.-M & Cao, T.-D (2015) A Novel Approach for Automatic Extraction of Semantic Data about Football Transfer in Sport News International Journal of Pervasive Computing and Communications, 11(2), 233-252 DOI:10.1108/IJPCC03-2015-0018 Nguyen, Q.-M., Nguyen, T.-T & Cao, T.-D (2016) Semantic-Based Recommendation Method for Sport News Aggregation System Proceedings of the 2016 International Conference on Research and Practical Issues of Enterprise Information Systems (CONFENIS 2016) LNBIP 268, pp 32-47 Vienna, Austria: Springer DOI:10.1007/978-3-319-49944-4_3 Nguyen, Q.-M., Ngo, H.-S & Cao, T.-D (2018) Automatic Semantic Annotation of Sport News Using Knowledge Base and Extraction Patterns Journal of Science & Technology Technical Universities, 128(06/2018), 55-62 Retrieved from http://jst.hust.edu.vn/NewsFiles/119_News_So_128_up.rar Nguyen, Q.-M., Ngo, H.-S & Cao, T.-D (2018) Sport News Semantic Search with Natural Language Questions Proceedings of the 2018 European Alliance for Innovation (EAI) International Conference on Industrial Networks and Intelligent Systems (INISCOM 2018) LNICST 257, pp 63-73 Da Nang, Vietnam: Springer DOI:10.1007/978-3-030-05873-9_6 ... nghệ Web ngữ nghĩa Mục tiêu tổng thể giới thiệu giải pháp toàn diện cho việc xây dựng hệ thống tổng hợp tin tức thể thao, lý luận án đặt tên ? ?Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể. .. ý tin tức ứng dụng cơng nghệ ngữ nghĩa Hình 1.7 mơ hình kiến trúc tổng thể hệ thống tổng hợp tin tức thể thao BKSport luận án đề xuất tiếp cận Web ngữ nghĩa thể thành phần hệ thống mối quan hệ. .. TẢNG VÀ TIẾP CẬN PHÁT TRIỂN HỆ THỐNG TIN TỨC THỂ THAO DỰA TRÊN WEB NGỮ NGHĨA 1.1 Giới thiệu Web ngữ nghĩa 1.1.1 Khái niệm Web ngữ nghĩa Năm 2001, Tim Berners-Lee đưa định nghĩa: ? ?Web ngữ nghĩa