Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 34 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
34
Dung lượng
1,76 MB
Nội dung
ĐẠI HỌC BÁCH KHOA HÀ NỘI TRƯỜNG CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG BÁO CÁO GIỮA KỲ WEB NGỮ NGHĨA Đề tài: Tìm hiểu Silk – Linked Data Integration Framework Giảng viên hướng dẫn: TS Đỗ Bá Lâm Nhóm: Danh sách sinh viên: Đồn Văn Lợi Lý Trung Kiên Trần Văn Kiên Đào Sỹ Mạnh 20173241 20173207 20173208 20173253 Hà Nội, 12 - 2021 MỤC LỤC GIỚI THIỆU VỀ SILK FRAMEWORK I Giới thiệu chung Các đặc điểm Silk framework II SILK LINK DISCOVERY ENGINE (SLDE) III CÁCH SỬ DỤNG SILK FRAMEWORK IV V Command Line Applications 1.1 Giới thiệu Command Line Applications 1.2 Link Specification Language 1.2.1 Data Source 12 1.2.2 Linkage Rule 15 1.2.3 Outputs 23 1.2.4 Reference Links 27 Silk Workbench 28 2.1 Giới thiệu Silk Workbench 28 2.2 Sử dụng Silk Workbench 30 2.2.1 Cài đặt Silk Workbench docker 30 2.2.2 Các bước sử dụng 30 KẾT LUẬN 34 TÀI LIỆU THAM KHẢO 34 I GIỚI THIỆU VỀ SILK FRAMEWORK Giới thiệu chung • Silk framework mã nguồn mở, sử dụng để tích hợp nguồn liệu không đồng Cụ thể, Silk Framework thường sử dụng trường hợp sau: o Tạo liên kết mục liệu có liên quan với nguồn liệu Linked Data khác o Những nhà công bố Linked Data sử dụng Silk để thiết lập liên kết RDF từ nguồn liệu họ đến nguồn liệu khác Web o Chuyển đổi liệu cho nguồn liệu có cấu trúc Dữ liệu Web xây dựng dựa hai ý tưởng đơn giản sau: o Thứ nhất, sử dụng mô hình liệu RDF để cơng bố liệu có cấu trúc Web o Thư hai, thiết lập liên kết RDF thực thể nguồn liệu khác Silk framework hỗ trợ giải vấn đề thứ hai • Silk - Link Discovery Framework cung cấp ngôn ngữ khai báo gọi Silk - Link Specification Language (Silk-LSL) Ngôn ngữ nhà phát triển sử dụng để định loại liên kết RDF nên phát nguồn liệu mục liệu phải đáp ứng điều kiện để liên kết với Các điều kiện liên kết áp dụng độ đo tương đồng khác cho thuộc tính khác Silk truy cập nguồn liệu thơng qua giao thức SPARQL Do đó, Silk sử dụng để khám phá liên kết nguồn liệu cục từ xa • Silk sử dụng theo hai cách: o Silk Workbench: ứng dụng web cung cấp giao diện cho người dùng o Command line Các đặc điểm Silk framework • Cung cấp ngơn ngữ khai báo (Silk-LSL) linh hoạt giúp việc định quy tắc liên kết • Hỗ trợ tạo liên kết RDF • Làm việc mơi trường phân tán • Có thể sử dụng trường hợp mà thuật ngữ từ từ vựng khác bị trộn lẫn khơng tồn mơ hình RDFS OWL quán • Khả mở rộng hiệu suất cao thông qua xử lý liệu hiệu quả: o Giảm tải mạng cách lưu vào nhớ đệm sử dụng lại kết SPARQL o Tính tốn đa luồng so sánh mục liệu o Tùy chọn chặn mục liệu II SILK LINK DISCOVERY ENGINE (SLDE) Phần trung tâm Silk Link Discovery Framework Silk Link Discovery Engine (SLDE) Đây phần chịu trách nhiệm nhận liệu sinh liên kết dựa nguyên tắc liên kết người dùng cung cấp Silk Linking Discovery Engine xử lý incoming data items, thường bắt nguồn từ SPARQL endpoint theo giai đoạn sau: o Blocking (tùy chọn): giai đoạn phân vùng incoming data items vào cụm (cluster) Vì việc so sánh tài nguyên nguồn (source) với tài nguyên đích (target) dẫn đến số lần so sánh lớn, làm tiêu tốn nhiều thời gian Vì vậy, blocking sử dụng để giảm số lần thực phép so sánh Blocking phân vùng mục liệu tương tự vào cụm, cụm giới hạn số lần thực phép so item cụm o Link Genneration: giai đoạn này, SLDE thực đọc incoming data items tính tốn giá trị tương đồng cặp Ở giai đoạn Blocking, incoming data items phân vào cụm ghi vào đệm ẩn bên Từ nhớ đệm, cặp mục liệu sinh Nếu giai đoạn Blocking bị tắt, thực so sánh toàn cặp sinh từ hai liệu Nếu giai đoạn Blocking bật, mục liệu cụm thực so sánh Đối với cặp mục liệu, điều kiện liên kết đánh giá, tính tốn giá trị tương đồng khoảng từ đến Mỗi cặp tạo liên kết sơ với giá trị tin cậy theo tương đồng mục liệu nguồn đích o Filtering: lọc liên kết theo giai đoạn: ▪ Trong giai đoạn đầu, tất liên kết có độ tin cậy thấp ngưỡng người dùng định nghĩa bị xóa ▪ Trong giai đoạn thứ hai, tất liên kết bắt nguồn từ chủ đề nhóm lại với Nếu số lượng liên kết bị giới hạn, liên kết có độ tin cậy cao chuyển tiếp đến đầu Số lượng liên kết chuyển tiếp nguồn số lượng liên kết bị giới hạn o Output: ghi lại liên kết sinh lọc liên kết người dùng xác định III CÁCH SỬ DỤNG SILK FRAMEWORK Command Line Applications 1.1 Giới thiệu Command Line Applications Ngồi giao diện, Silk cịn cung cấp cho người dùng giao diện dòng lệnh để giải trường hợp khác • Silk Single Machine dùng để tạo liên kết RDF máy cá nhân Các tập liệu cần liên kết với nằm máy máy từ xa truy cập thông qua giao thức SPARQL Silk Single Machine cung cấp đa luồng nhớ đệm Ngồi ra, hiệu suất nâng cao cách sử dụng tính chặn tùy chọn • Silk MapReduce sử dụng để tạo liên kết RDF tập liệu cách sử dụng cụm nhiều máy Silk MapReduce dựa Hadoop chẳng hạn chạy Amazon Elastic MapReduce Silk MapReduce cho phép Silk mở rộng quy mô tới liệu lớn cách phân phối việc tạo liên kết cho nhiều máy • Silk Server sử dụng thành phần phân giải danh tính ứng dụng sử dụng Dữ liệu Liên kết từ Web Silk Server cung cấp API HTTP để đối sánh phiên từ luồng liệu RDF đến theo dõi thực thể biết Chẳng hạn, sử dụng với trình thu thập liệu Dữ liệu Liên kết để đưa liệu từ Web vào duplicate-free Để sử dụng Command line application, ta phải cần đến ngôn ngữ đặc tả liên kết hay Link Specification Language 1.2 Link Specification Language Silk framework cung cấp ngôn ngữ khai báo để định loại liên kết RDF phát nguồn liệu các liệu phải đáp ứng điều kiện để liên kết với Phần mô tả cấu trúc ngơn ngữ Ngơn ngữ đặc tả Silk Link Ví dụ cung cấp nhìn tổng quan cấu trúc ngơn ngữ Silk-LSL Cấu trúc thành phần Silk-LSL thể XML, ví dụ lược đồ XML Silk tương ứng Tên thẻ gốc Một tài liệu hợp lệ chứa bốn loại câu lệnh cấp cao bên phần tử gốc: • • • • prefix definitions datasource definitions link specifications output definitions Các câu lệnh Blocking Outputs tùy chọn Prefix Definitions Định nghĩa tiền tố câu lệnh cho phép liên kết tiền tố với khơng gian tên, nói cách khác cách gọi khác khơng gian tên để thuận tiện cho việc viết quan sát Data Source Definitions Định nghĩa nguồn liệu cho phép đặc tả tham số truy cập tới điểm cuối SPARQL cục từ xa Các nguồn liệu xác định sau tham chiếu sử dụng ID chúng câu lệnh đặc tả liên kết Blocking Data Items Vì so sánh tài nguyên nguồn với tài nguyên đích dẫn đến số so sánh n * m tốn nhiều thời gian, nên sử dụng phương pháp chặn để giảm số lượng so sánh Chặn phân vùng mục liệu tương tự thành cụm làm giảm bớt so sánh với mục cụm Ví dụ: đưa hai tập liệu mô tả sách, để giảm số lượng so sánh, chặn sách theo nhà xuất Trong trường hợp này, sách nhà xuất so sánh Với số lượng 40.000 sách tập liệu 30.000 sách tập liệu thứ hai, việc đánh giá toàn sản phẩm Descartes đòi hỏi 1,2 tỷ phép so sánh Nếu chặn tập liệu nhà xuất bản, sách phân bổ cho khối dựa nhà xuất sách Sử dụng 100 khối, số sách phân bố đồng có 400 sách tương ứng 300 khối, giảm số so sánh 12 triệu Câu lệnh cho phép thực giai đoạn chặn Không cần cấu hình bổ sung Silk tự động tạo chức chặn từ đặc tả liên kết Thuộc tính blocks tùy chọn định số lượng khối sử dụng Giá trị mặc định 100 khối phù hợp với hầu hết trường hợp sử dụng Nếu khơng có câu lệnh cung cấp đặc tả liên kết, phép so sánh lặp lại tất cặp tài nguyên Link Specifications Các câu lệnh đặc tả liên kết cho biết kiểu liên kết định thiết lập hai mục liệu đồng thời điều kiện cụ thể thỏa mãn Điều kiện chứa độ đo tương đồng khác metrics, aggregation and transformation functions, thresholds and weights Cấu hình liên kết Silk chứa số thơng số kỹ thuật liên kết có nhiều loại liên kết khác tạo Thông số kỹ thuật liên kết cấu trúc sau: Ví dụ Link Type Các Loại Liên kết thị xác định loại liên kết tạo Ví dụ: 10 Các độ đo khoảng cách • Dựa ký tự Đo lường levenshteinDis tance levenshtein jaro jaroWinkler equality inequality Mô tả Khoảng cách Levenshtein Số lượng chỉnh sửa tối thiểu cần thiết để chuyển đổi chuỗi thành chuỗi kia, với hoạt động chỉnh sửa phép chèn, xóa thay ký tự Khoảng cách levensthein chuẩn hóa thành khoảng [0,1] Chỉ số khoảng cách Jaro Chỉ số khoảng cách đơn giản ban đầu phát triển để so sánh tên người Thước đo khoảng cách Jaro-Winkler Chỉ số khoảng cách Jaro-Winkler thiết kế phù hợp cho chuỗi ngắn tên người chuỗi nhau, không chuỗi nhau, ngược lại Mặc định Không đúng đúng Ví dụ: • Đo khoảng cách dựa token-based Mặc dù phép đo khoảng cách dựa ký tự hoạt động tốt 20 lỗi đánh máy, có số tác vụ mà phép đo khoảng cách dựa mã thông báo phù hợp hơn: Các chuỗi phận xếp lại thứ tự, ví dụ “John Doe” “Doe, John” Văn bao gồm nhiều từ Đo lường jaccard Mô tả Hệ số khoảng cách Jaccard Mặc định dice Hệ số khoảng cách dice softjaccar d Hệ số tương tự Jaccard mềm Giống khoảng cách Jaccard giá trị khoảng cách levenhstein 'maxDistance' coi tương đương Ví dụ: • Các phép đo khoảng cách cho mục đích đặc biệt Đo lường num Mơ tả Tính tốn phần chênh lệch số hai số Tham số: minValue, maxValuetối thiểu tối đa giá trị mà xảy nguồn liệu Mặc định Khơng date Tính tốn khoảng cách hai ngày Trả lại khác biệt ngày Tính tốn khoảng cách hai giá trị ngày Trả lại khác biệt vài giây Không dateTime Khơng 21 wgs84 Tính khoảng cách địa lý hai điểm Tham số: unitĐơn vị đo khoảng cách Giá trị phép: “mét” “m”, “ki lô mét” “km” Tác giả: Konrad Hưffner Khơng Ví dụ: Aggregation Một tập hợp kết hợp nhiều giá trị tin cậy thành giá trị Để xác định xem hai thực thể có phải hay khơng, việc so sánh thuộc tính đơn lẻ khơng đủ để xác định Ví dụ so sánh thực thể địa lý, tập hợp tổng hợp điểm tương đồng tên thực thể điểm tương đồng dựa khoảng cách thực thể Các tham số *Required * Thuộc tính bắt buộc đặt taggregation tạo kết toán tử cụ thể trả giá trị *Weights * số tốn tử so sánh phù hợp để thiết lập xác mối liên kết hai tài ngun so với tốn tử khác Ví dụ: tùy thuộc vào định dạng / chất lượng liệu, so sánh nhãn coi quan trọng so với đối sánh tọa độ địa lý liên kết thành phố Nếu công cụ sửa đổi không cung cấp, trọng số mặc định Trọng số xem xét loại average, quadraticMean and geometricMean Một số hàm sử dụng 22 Tơi trung bình Tên AverageAggregator Mơ tả Đánh giá đến mức trung bình giá trị tin cậy tối đa MaximumAggregator MinimumAggregator Đánh giá đến mức độ tin cậy cao nhóm Đánh giá đến mức độ tin cậy thấp nhóm bậc hai QuadrateMeanAggregator Áp dụng tập hợp khoảng cách Euclidian hình học GeometricMeanAggregator Tính giá trị trung bình hình học nhóm giá trị tin cậy Ví dụ: 1.2.3 Outputs Một đầu đại diện cho liên kết tạo Đầu có cột dành để phê duyệt thủ cơng, ví dụ để tách liên kết chấp nhận liên kết có độ tin cậy thấp cần xác minh người dùng trước chấp nhận Ví dụ: 23 Các loại đầu Tham số file Mô tả Địa tới file đích, mặc định {user.dir}/.silk/output/ format Định dạng đầu gia, định dạng sử dụng “Ntriples” “Alignment” Ntriples: Viết liên kết dạng câu lệnh N-Triples Alignment: Viết liên kết Định dạng Căn chỉnh OAEI Điều không bao gồm uris thực thể nguồn đích mà cịn bao gồm độ tin cậy liên kết Ví dụ: SPARQL/Update Output Tham số Mơ tả Mặc định 24 login URI điểm cuối SPARQL / Update, ví dụ: http://localhost:8090/Virtuoso/sparql Yêu cầu đăng nhập để xác thực No login password Yêu cầu mật để xác thực No password parameter Tham số HTTP sử dụng để gửi truy vấn Mặc định "query" hoạt động cho hầu hết điểm cuối Một số điểm cuối yêu cầu tham số khác nhau, ví dụ Sesame mong đợi “update” Joseki mong đợi “request” URI biểu đồ để đặt liên kết Query uri graphUri No graph Ví dụ Detailed Alignment Viết đường dẫn dạng chỉnh chi tiết Ví dụ: 25 Thay 26 1.2.4 Reference Links Reference Links tập hợp liên kết mà tính đắn người dùng xác nhận từ chối Các liên kết tham chiếu sử dụng để làm thước đo đánh giá tính đầy đủ đắn quy tắc liên kết Phân biệt liên kết tham chiếu tốt khơng tốt: • Các liên kết tham chiếu tốt đại diện cho kết phù hợp định • Các liên kết tham chiếu không tốt đại diện cho liên kết không phù hợp định 27 Silk Workbench 2.1 Giới thiệu Silk Workbench • Silk workbench ứng dụng web cho phép người dùng tạo đặc tả liên kết để liên kết nguồn liệu với • Silk workbench gồm thành phần sau: o Workspace Browser: ▪ Workspace nơi cho phép người dùng quản lý nguồn liệu việc định nghĩa link liên kết ▪ Workspace browser hiển thị project ▪ Một project bao gồm thông tin: o Tất các tiền tố URI sử dụng project o Danh sách tài nguyên o Danh sách linking task o Người dùng tạo project import project có project bị xóa export file o Linkage Rule Editor: chỉnh sửa quy tắc liên kết Một trình chỉnh sửa cho phép người dùng dễ dàng tạo chỉnh sửa quy tắc liên kết thông qua đối tượng đồ họa việc kéo thả 28 ▪ Editor chia làm phần: o Phần trái chứa property path sử dụng thường xuyên danh sách tốn tử kéo thả o Phần phải cho phép vẽ đồ thị từ thành phần phần trái ▪ Property path: o Là đường dẫn thuộc tính cho nguồn liệu xếp theo tần suất chúng liệu ▪ Operator: Là toán tử hiển thị phần property path: o Transformation: chuyển đổi o Comparators: so sánh o Aggregator: kết hợp ▪ Theshold: định nghĩa khoảng cách tối đa phần tử liệu mà cịn tạo link liên kết ▪ Link limit: định nghĩa số lượng link tạo từ phần tử liệu o Evaluation: Cho phép người dùng thực đánh giá liên kết Các liên kết sinh sau thực liên kết đánh giá tính đắn, người dùng confirm decline tính đắn • Quy trình tạo Link Specification: 29 1: Đầu tiên cần xây dựng quy tắc liên kết, cụ thể việc xác định thực nguồn liệu tương đương để so sánh Các quy tắc tạo chuyên gia hiểu nguồn liệu 2: Thực thi luật liên kết thực thi để sinh liên kết nguồn liệu 3: Đánh giá Bước thực việc đo lường thành công nhiệm vụ so sánh thực thể và tìm lỗi tiềm ẩn link tạo Mức độ thành công việc đối sánh đánh giá dựa tiêu chuẩn tạo chuyên gia 2.2 Sử dụng Silk Workbench 2.2.1 Cài đặt Silk Workbench docker • docker pull silkframework/silk-workbench • docker run -d name silk-workbench -p 80:80 silkframework/silk-workbench:latest • Truy cập http://localhost/ 2.2.2 Các bước sử dụng VD: liên kết tài nguyên: 1: Countries Named Authority List of the Publications Office of the EU: https://op.europa.eu/o/opportal-service/euvoc-downloadhandler?cellarURI=http%3A%2F%2Fpublications.europa.eu%2Fresource%2Fcell ar%2Fd6ddaaca-2070-11ec-bd8e01aa75ed71a1.0001.05%2FDOC_1&fileName=countries-skos.rdf file: countries-skos.rdf 2:MARC Countries list of the US Library of Congress: https://id.loc.gov/vocabulary/countries.rdf File: countries.rdf Tham khảo: https://joinup.ec.europa.eu/collection/semantic-interoperabilitycommunity-semic/document/tutorial-use-silk-aligning-controlled-vocabularies 30 • Tạo project Countries • Thiết lập prefix • Thêm file tài nguyên Click Resources Upload file tài nguyên • Tạo dataset tương ứng với file tài nguyên 31 • Tạo linking task • Edit Linkage rule o Open Countries_Alignment linking task Library of Congress - madsrdf:authoritativeLabel: Chứa tên quốc gia tiếng anh Brunei Metada Registry - skos:prefLabel: Chứa tên quốc gia theo ngôn ngữ khác Бруней o Tiến hành tạo liên kết nguồn liệu: tập nguồn ta thêm giới hạn cho ngôn ngữ skos: prefLabel [@lang = 'en'] 32 • Generate Link • Evaluate Đánh dấu vào ô bên phải liên kết sinh để, tương ứng với đúng, phân vân, sai 33 IV KẾT LUẬN Trên đây, nhóm chúng em giới thiệu Silk Frameword, công cụ linh hoạt để khám phá liên kết thực thể nguồn liệu Web khác Hy vọng Silk công cụ tương tự khác giúp tăng cường liên kết nguồn liệu đóng góp vào tiện ích chung mạng internet Báo cáo khơng tránh khỏi sai sót, mong thầy góp ý để nhóm chúng em hồn thiện V TÀI LIỆU THAM KHẢO [1] Julius V., Christian B., Martin G., et al: Silk – A Link Discovery Framework for the Web of Data [2] http://silkframework.org/ [3] https://app.assembla.com/spaces/silk/wiki/Silk_Workbench 34 ... chuyên gia 2.2 Sử dụng Silk Workbench 2.2.1 Cài đặt Silk Workbench docker • docker pull silkframework /silk- workbench • docker run -d name silk- workbench -p 80:80 silkframework /silk- workbench:latest... Christian B., Martin G., et al: Silk – A Link Discovery Framework for the Web of Data [2] http://silkframework.org/ [3] https://app.assembla.com/spaces /silk/ wiki /Silk_ Workbench 34 ... GIỚI THIỆU VỀ SILK FRAMEWORK I Giới thiệu chung Các đặc điểm Silk framework II SILK LINK DISCOVERY ENGINE (SLDE) III CÁCH SỬ DỤNG SILK FRAMEWORK