1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Khung thông tin trích chọn DBpedia

8 175 2

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 8
Dung lượng 1,24 MB

Nội dung

Nội dung cài đặt framework I Bắt đầu II Tổng quan III Module lõi IV Module trích chọn Cấu hình Chạy kho trích chọn .4 V Hướng dẫn bước VI Module máy chủ Cấu hình Chạy máy chủ trích chọn VII Một số phần mềm sử dụng q trình trích chọn Scala Maven I Bắt đầu Cộng đồng DBpedia sử dụng khung linh hoạt mở rộng để trích thơng tin khác có cấu trúc từ Wikipedia Khung trích chọn DBpedia viết Scala 2.8 Khung có sẵn kho DBpedia Github ( Giấy phép GNU GPL) Những thay đổi tiết lộ phát triển gần Các tùy chọn cấu hình tìm thấy https://github.com/dbpedia/extraction-framework/wiki Khi liên kết hoàn thành 100%, phấn bỏ qua Trước bắt đầu phát triển, số yêu cầu đặt ra:  Khung trích chọn DBpedia: lấy phiên từ kho Github (Github repository)  git clone git://github.com/dbpedia/extraction-framework.git Bộ phát triển Java (Java Development Kit): khung trích chọn DBpedia sử dụng ngơn ngữ lập trình Java Lấy phiên JDK từ http://java.com/  Khung trích chọn DBpedia yêu cầu phiên thấp Java (JDK v1.7.0) để có đầy đủ chức  Có thể biên dịch chạy với JDK trước cách xóa làm trống hai tệp launchers_purge-download_and_purge-extract_in the_dump_module không hoạt động, chúng không cần thiết lắm)   core/src/main/scala/org/dbpedia/extraction/util/Rich Path.scala  dump/src/main/scala/org/dbpedia/extraction/dump/clean/Clean.s cala  Maven sử dụng cho quản lý dự án xây dựng tự động Lấy xuống từ http://maven.apache.org/ Mave làm việc Đấy yêu cầu để biên dịch chạy khung trích chọn DBpedia Các tập tin đầu vào kho Wikimedia tải xuống mã giải nén cấu hình để làm Nếu muốn sử dụng IDE cho mã hóa, có số lựa chọn đưa ra:  Intellij IDEA: IDE phần mềm ổn định để phát triển với Scala  Eclipse  Netbeans II Tổng quan III Khung trích chọn DBpedia thiết kế thành module khác nhau: Module lõi (Core module): chứa thành phần framework Module trích chọn (Dump extraction module): chứa ứng dụng DBpedia trang https://github.com/dbpedia/extraction-framework.git Module lõi Hình Các thành phần module lõi Hình miêu tả thành phần module lõi khung trích chọn DBpedia Trong đó: - Nguồn (Source): cung cấp tóm tắt nguồn MediaWiki - WikiParser: phân tích trang MediaWiki thành cú pháp trừu tượng AST - Extractor: trích chọn ánh xạ từ trang thành đồ thị triple ( Vấn đề - Thuộc tính - Đối tượng) - Đích (Destination): cung cấp trừu tượng đích của triple RDF Ngồi có số gói hữu ích cung cấp chức phù hợp để sử dụng trích chọn: - Ontology: lớp sử dụng để biểu diễn ontology, phương pháp cho đọc ghi ontology cung cấp http://org.dbpedia.extraction.ontology - DataParser: để trích chọn liệu từ nút AST cung cấp http://org.dbpedia.extraction.dataparser - Util: lớp hữu ích khác có http://org.dbpedia.extraction.until IV Module trích chọn Các lựa chọn cấu hình lấy https://github.com/dbpedia/extraction-framework/wiki/ExtractionInstructions ở: Khi liên kết hoàn thành 100%, phấn bỏ qua Khung trải qua nhiều cải tiến làm cho tốt (refactoring), phần sau không chắn 100% Các bước thực hiện: - Lấy phiên khung trích chọn DBpedia từ github: $ git clone git://github.com/dbpedia/extraction-framework.git - Sau tải khung trích chọn hoàn tất, mở thư mục extraction-framework: $ cd extraction-framework - Tiếp tục gõ lệnh để cài Maven: $ mvn clean install - Sau cài Maven hoàn tất, sử dụng câu lệnh để mở tệp dump chạy hai thư mục sau: $ cd dump $ /run download config=download.properties.file $ /run extraction extraction.properties.file Hai tệp vừa chạy thuộc tính tải xuống chứa đựng nhiều liệu dễ dàng sửa đôi theo nhu cầu sử dụng Cấu hình Tất cấu hình tìm thấy từ tập thuộc tính có tên dump/config.properties Sau tạo mới, cần chép từ default sửa đổi theo nhu cầu sử dụng Ở loại bỏ tất ngơn ngữ khơng muốn để trích xuất, trừ lại tiếng Việt (vi) Các thuộc tính có sẵn:  dumpDir: thư mục nơi đặt kho Khung trích chọn mong muốn nhìn thấy thư mục kiểu “viwiki/[date]” bên  updateDumps: (true), khung trích chọn tải xuống tất kho liệu bị thiếu không cập nhật Nếu muốn sử dụng kho riêng không muốn cập nhật kho, đặt sai (false) đảm bảo có sẵn kho tình trạng khơng nén dumpDir/<lang>/<date>/<lang>wiki-<date>pages-articles.xml Ở dòng lệnh “lang” ngơn ngữ mong muốn trích chọn, tiếng Việt (vi)  outputDir: thư mục đầu  languages: ngơn ngữ kho Wikipedia trích chọn  extractors: lớp trích chọn sử dụng để khai thác Trình trích chọn ngơn ngữ cụ thể cấu hình sử dụng thuộc tính định dạng extractors.{wikiCode}, extractors.vi Chạy kho trích chọn Trước bắt đầu trích chọn, cần cài đặt khung vào kho lưu trữ Maven máy chủ cách chạy mvn install từ thư mục extraction Việc chạy kho trích chọn bắt đầu cách mvn scala:run chạy từ thư mục extraction/dump V Hướng dẫn bước Trích chọn Ubuntu, sử dụng hệ điều hành Window tải phần mềm Git (phần mềm quản lý mã nguồn phân tán) https://gitscm.com/downloads phù hợp với cấu hình máy chủ, để thực câu lệnh giống Ubuntu Nếu cài đặt updateDumps false, tải kho chứa từ http://dumps.wikimedia.org/backup-index.html , chọn kho đầy đủ từ <lang>wiki (vídụ itwiki) chọn pages-articles.xml.bz2 (ví dụ itwiki-20120226-pages-articles.xml.bz2) Tệp đầu vào phải đặt dumpDir/<lang>/<date> (e.g., /srv/dbpedia/dumps/it/20122 0226/itwiki-20120226-pages-articles.xml.bz2 , dumpDir /srv/dbpedia/dumps) VI Module máy chủ Module dùng để thử nghiệm khung trích chọn Cấu hình Có hai lớp Scala cấu hình thơng số máy chủ:  Trong org.dbpedia.extraction.server.Configuration , cấu hình ngơn ngữ URL ánh xạ tới wiki API  định Trong org.dbpedia.extraction.server.ExtractionManager hàm loadExtractor, Có thể cấu hình trình trích chọn nên sử dụng máy chủ Chạy máy chủ trích chọn Trước chạy trích chọn, cần cài đặt khung trích chọn vào kho lưu trữ maven cách chạy mvn install từ thư mục extraction Máy chủ khai thác khởi động cách chạy mvn scala:run từ thư mục extraction/server Chuẩn đầu vào 9999 Một sổ trình duyệt mở ra, định ngơn ngữ URI muốn trích chọn VII Một số phần mềm sử dụng q trình trích chọn Scala Scala ngơn ngữ lập trình đa mẫu hình, thiết kế để tích hợp tính lập trình hướng đối tượng với lập trình hàm Scala chạy máy ảo Java tương thích với chương trình Java, biên dịch giống Java nên đọc thư viện Java Hơn thân code Scala biên dịch mã bytecode máy ảo nên thư viện sử dụng theo chọn lựa Scala ưu việt xử lý tính tốn song song, phân tán đồng Maven Maven công cụ quản lý thiết lập tự động dự án phần mềm Hỗ trợ việc tự động hóa quá trình tạo dự án ban đầu, thực biên dịch, kiểm thử, đóng gói triển khai sản phẩm, maven chạy tảng khác Windows, Linus, Về việc cài đặt chúng em build thành công đến bước: ...I Bắt đầu Cộng đồng DBpedia sử dụng khung linh hoạt mở rộng để trích thơng tin khác có cấu trúc từ Wikipedia Khung trích chọn DBpedia viết Scala 2.8 Khung có sẵn kho DBpedia Github ( Giấy phép... git://github.com /dbpedia/ extraction-framework.git Bộ phát triển Java (Java Development Kit): khung trích chọn DBpedia sử dụng ngơn ngữ lập trình Java Lấy phiên JDK từ http://java.com/  Khung trích chọn DBpedia. .. ngữ mong muốn trích chọn, tiếng Việt (vi)  outputDir: thư mục đầu  languages: ngôn ngữ kho Wikipedia trích chọn  extractors: lớp trích chọn sử dụng để khai thác Trình trích chọn ngơn ngữ cụ

Ngày đăng: 09/05/2018, 20:48

TỪ KHÓA LIÊN QUAN

w