Nội dung cài đặt framework I Bắt đầu II Tổng quan III Module lõi IV Module tríchchọn Cấu hình Chạy kho tríchchọn .4 V Hướng dẫn bước VI Module máy chủ Cấu hình Chạy máy chủ tríchchọn VII Một số phần mềm sử dụng q trình tríchchọn Scala Maven I Bắt đầu Cộng đồng DBpedia sử dụng khung linh hoạt mở rộng để tríchthơngtin khác có cấu trúc từ Wikipedia KhungtríchchọnDBpedia viết Scala 2.8 Khung có sẵn kho DBpedia Github ( Giấy phép GNU GPL) Những thay đổi tiết lộ phát triển gần Các tùy chọn cấu hình tìm thấy https://github.com/dbpedia/extraction-framework/wiki Khi liên kết hoàn thành 100%, phấn bỏ qua Trước bắt đầu phát triển, số yêu cầu đặt ra: Khungtríchchọn DBpedia: lấy phiên từ kho Github (Github repository) git clone git://github.com/dbpedia/extraction-framework.git Bộ phát triển Java (Java Development Kit): khungtríchchọnDBpedia sử dụng ngơn ngữ lập trình Java Lấy phiên JDK từ http://java.com/ KhungtríchchọnDBpedia yêu cầu phiên thấp Java (JDK v1.7.0) để có đầy đủ chức Có thể biên dịch chạy với JDK trước cách xóa làm trống hai tệp launchers_purge-download_and_purge-extract_in the_dump_module không hoạt động, chúng không cần thiết lắm) core/src/main/scala/org/dbpedia/extraction/util/Rich Path.scala dump/src/main/scala/org/dbpedia/extraction/dump/clean/Clean.s cala Maven sử dụng cho quản lý dự án xây dựng tự động Lấy xuống từ http://maven.apache.org/ Mave làm việc Đấy yêu cầu để biên dịch chạy khungtríchchọnDBpedia Các tập tin đầu vào kho Wikimedia tải xuống mã giải nén cấu hình để làm Nếu muốn sử dụng IDE cho mã hóa, có số lựa chọn đưa ra: Intellij IDEA: IDE phần mềm ổn định để phát triển với Scala Eclipse Netbeans II Tổng quan III KhungtríchchọnDBpedia thiết kế thành module khác nhau: Module lõi (Core module): chứa thành phần framework Module tríchchọn (Dump extraction module): chứa ứng dụng DBpedia trang https://github.com/dbpedia/extraction-framework.git Module lõi Hình Các thành phần module lõi Hình miêu tả thành phần module lõi khungtríchchọnDBpedia Trong đó: - Nguồn (Source): cung cấp tóm tắt nguồn MediaWiki - WikiParser: phân tích trang MediaWiki thành cú pháp trừu tượng AST - Extractor: tríchchọn ánh xạ từ trang thành đồ thị triple ( Vấn đề - Thuộc tính - Đối tượng) - Đích (Destination): cung cấp trừu tượng đích của triple RDF Ngồi có số gói hữu ích cung cấp chức phù hợp để sử dụng trích chọn: - Ontology: lớp sử dụng để biểu diễn ontology, phương pháp cho đọc ghi ontology cung cấp http://org.dbpedia.extraction.ontology - DataParser: để tríchchọn liệu từ nút AST cung cấp http://org.dbpedia.extraction.dataparser - Util: lớp hữu ích khác có http://org.dbpedia.extraction.until IV Module tríchchọn Các lựa chọn cấu hình lấy https://github.com/dbpedia/extraction-framework/wiki/ExtractionInstructions ở: Khi liên kết hoàn thành 100%, phấn bỏ qua Khung trải qua nhiều cải tiến làm cho tốt (refactoring), phần sau không chắn 100% Các bước thực hiện: - Lấy phiên khungtríchchọnDBpedia từ github: $ git clone git://github.com/dbpedia/extraction-framework.git - Sau tải khungtríchchọn hoàn tất, mở thư mục extraction-framework: $ cd extraction-framework - Tiếp tục gõ lệnh để cài Maven: $ mvn clean install - Sau cài Maven hoàn tất, sử dụng câu lệnh để mở tệp dump chạy hai thư mục sau: $ cd dump $ /run download config=download.properties.file $ /run extraction extraction.properties.file Hai tệp vừa chạy thuộc tính tải xuống chứa đựng nhiều liệu dễ dàng sửa đôi theo nhu cầu sử dụng Cấu hình Tất cấu hình tìm thấy từ tập thuộc tính có tên dump/config.properties Sau tạo mới, cần chép từ default sửa đổi theo nhu cầu sử dụng Ở loại bỏ tất ngơn ngữ khơng muốn để trích xuất, trừ lại tiếng Việt (vi) Các thuộc tính có sẵn: dumpDir: thư mục nơi đặt kho Khungtríchchọn mong muốn nhìn thấy thư mục kiểu “viwiki/[date]” bên updateDumps: (true), khungtríchchọn tải xuống tất kho liệu bị thiếu không cập nhật Nếu muốn sử dụng kho riêng không muốn cập nhật kho, đặt sai (false) đảm bảo có sẵn kho tình trạng khơng nén dumpDir/<lang>/<date>/<lang>wiki-<date>pages-articles.xml Ở dòng lệnh “lang” ngơn ngữ mong muốn trích chọn, tiếng Việt (vi) outputDir: thư mục đầu languages: ngơn ngữ kho Wikipedia tríchchọn extractors: lớp tríchchọn sử dụng để khai thác Trình tríchchọn ngơn ngữ cụ thể cấu hình sử dụng thuộc tính định dạng extractors.{wikiCode}, extractors.vi Chạy kho tríchchọn Trước bắt đầu trích chọn, cần cài đặt khung vào kho lưu trữ Maven máy chủ cách chạy mvn install từ thư mục extraction Việc chạy kho tríchchọn bắt đầu cách mvn scala:run chạy từ thư mục extraction/dump V Hướng dẫn bước Tríchchọn Ubuntu, sử dụng hệ điều hành Window tải phần mềm Git (phần mềm quản lý mã nguồn phân tán) https://gitscm.com/downloads phù hợp với cấu hình máy chủ, để thực câu lệnh giống Ubuntu Nếu cài đặt updateDumps false, tải kho chứa từ http://dumps.wikimedia.org/backup-index.html , chọn kho đầy đủ từ <lang>wiki (vídụ itwiki) chọn pages-articles.xml.bz2 (ví dụ itwiki-20120226-pages-articles.xml.bz2) Tệp đầu vào phải đặt dumpDir/<lang>/<date> (e.g., /srv/dbpedia/dumps/it/20122 0226/itwiki-20120226-pages-articles.xml.bz2 , dumpDir /srv/dbpedia/dumps) VI Module máy chủ Module dùng để thử nghiệm khungtríchchọn Cấu hình Có hai lớp Scala cấu hình thơng số máy chủ: Trong org.dbpedia.extraction.server.Configuration , cấu hình ngơn ngữ URL ánh xạ tới wiki API định Trong org.dbpedia.extraction.server.ExtractionManager hàm loadExtractor, Có thể cấu hình trình tríchchọn nên sử dụng máy chủ Chạy máy chủ tríchchọn Trước chạy trích chọn, cần cài đặt khungtríchchọn vào kho lưu trữ maven cách chạy mvn install từ thư mục extraction Máy chủ khai thác khởi động cách chạy mvn scala:run từ thư mục extraction/server Chuẩn đầu vào 9999 Một sổ trình duyệt mở ra, định ngơn ngữ URI muốn tríchchọn VII Một số phần mềm sử dụng q trình tríchchọn Scala Scala ngơn ngữ lập trình đa mẫu hình, thiết kế để tích hợp tính lập trình hướng đối tượng với lập trình hàm Scala chạy máy ảo Java tương thích với chương trình Java, biên dịch giống Java nên đọc thư viện Java Hơn thân code Scala biên dịch mã bytecode máy ảo nên thư viện sử dụng theo chọn lựa Scala ưu việt xử lý tính tốn song song, phân tán đồng Maven Maven công cụ quản lý thiết lập tự động dự án phần mềm Hỗ trợ việc tự động hóa quá trình tạo dự án ban đầu, thực biên dịch, kiểm thử, đóng gói triển khai sản phẩm, maven chạy tảng khác Windows, Linus, Về việc cài đặt chúng em build thành công đến bước: ...I Bắt đầu Cộng đồng DBpedia sử dụng khung linh hoạt mở rộng để trích thơng tin khác có cấu trúc từ Wikipedia Khung trích chọn DBpedia viết Scala 2.8 Khung có sẵn kho DBpedia Github ( Giấy phép... git://github.com /dbpedia/ extraction-framework.git Bộ phát triển Java (Java Development Kit): khung trích chọn DBpedia sử dụng ngơn ngữ lập trình Java Lấy phiên JDK từ http://java.com/ Khung trích chọn DBpedia. .. ngữ mong muốn trích chọn, tiếng Việt (vi) outputDir: thư mục đầu languages: ngôn ngữ kho Wikipedia trích chọn extractors: lớp trích chọn sử dụng để khai thác Trình trích chọn ngơn ngữ cụ