Hướng phát triển

Một phần của tài liệu nghiên cứu semantic web, ứng dụng xây dựng cơ sở dữ liệu luật việt nam (Trang 81 - 93)

Bộ từ vựng để mơ tả văn bản luật hiện tại cĩ thể phát triển thêm phong phú bao quát thêm nhiều khía cạnh của văn bản luật như thế ngữ nghĩa đi kèm với mỗi văn bản sẽ tăng thêm và sẽ tăng thêm khả năng truy vấn chính xác những văn bản cần tìm. Luận văn cĩ thể phát triển để động cơ tìm kiếm cĩ thể hỗ trợ các phiên bản bộ từ vựng khác nhau đáp ứng nhu cầu tiến hĩa và phát triển. Ngồi ra cĩ thể cấu hình giao diện linh động cho phép thay đổi các trường nhập để tìm kiếm hỗ trợ đồng thời các phiên bản từ vựng khác nhau.

Về hiệu quả chương trình, luận văn cĩ thể được mở rộng bằng cách sử dụng bộ đệm lưu lại những kết quả tìm kiếm gần nhất và thường tìm kiếm để nâng cao tốc độ và giảm chi phí xử lý của máy tính.

HU

TE

CH

Luận văn cĩ thể phát triển hỗ trợ suy luận dựa trên những tập luật để tạo ra những tri thức mới thể hiện được sự phát triển của chương trình. Luật sẽ dựa trên RDFS, OWL hoặc các luật riêng được thêm.

Để các tri thức được chia sẽ, cần cung cấp phương thức truy suất dữ liệu rdf. Luận văn cĩ thể phát hành mơ hình dữ liệu dùng server Joseki của Jena, các truy suất sẽ dùng giao thức SPARQL khi đĩ server của ta sẽ là một trạm tìm kiếm.

Những định hướng phát triển trên đây đưa chương trinh tiến gần đến viễn cảnh Semantic Web.

HU TE CH Phụ lục Phụ lục I: Các thuật ngữ viết tắt Từ viết tắt Từ đầy đủ

OWL Ontology Web Language

RDF Resource Description Framework

RDFS Resource Description Framework Schema RDQL Resource Description Query Language URI Uniform Resource Identifier

URL Uniform Resource Locator SPARQL RDF Query Language

XML eXtensible Markup Language

N3 Notation3

IRI Internationalized Resource Identifier

Phụ lục II: Bảng thuật ngữ Anh-Việt đối chiếu

Thuật ngữ Giải thích

triple bộ ba

literal ký số

RDF model mơ hình dữ liệu RDF subject chủ thể

predicate thuộc tính object đối tượng

graph đồ thị

statement phát biểu

Phụ lục III: Tài liệu tham khảo

[1] Grigoris Antoniou và Frank van Harmelen; A Semantic Web Primer; MIT (2004)

[2] Shelly Powers; Practical RDF; O'Reilly (2003)

[3] Michael C. Daconta, Leo J. Obrst và Kevin T. Smith; The Semantic Web: A Guide to the Future of XML, Web Services, and Knowledge Management; John Wiley & Sons (2003).

HU

TE

CH

[4] Eric Miller; The Semantic Web; http://www.w3.org/2004/Talks/0120- semweb-umich/

[5] Eric Miller; Semantic Talking; http://www.w3.org/2004/Talks/0120- semweb-umich/

[6] Ivan Herman; RDF Presentation;

http://www.w3.org/Consortium/Offices/Presentations/RDFTutorial/

[7] Jeen Broekstra, Arjohn Kampman, Frank van Harmelen; Sesame: An Architecture for Storing and Querying RDF Data and Schema Information

(2001)

[8] Tim Berners-Lee;Semantic Web roadmap;

http://www.w3.org/DesignIssues/Semantic.html (1998)

[9] Tim Berners-Lee; Getting into RDF & Semantic Web using N3, http://www.w3.org/2000/10/swap/Primer.html

[10] RDF/XML Syntax Specification. http://www.w3.org/TR/2004/REC-rdf- syntax-grammar-20040210/

[11] OWL Web Ontology Language Overview,

http://www.w3.org/TR/2004/REC-owl-features-20040210/

[12] OWL Web Ontology Language Reference. http://www.w3.org/TR/2004/REC-owl-ref-20040210/

[13] SPARQL Query Language for RDF, http://www.w3.org/TR/rdf-sparql- query/

HU

TE

CH

Phụ lục IV: CÀI ĐẶT

IV.1 Yêu cầu hệ thống:

CPU: Intel Petium 3 trở lên RAM: 256 MB trở lên.

Hệ điều hành: Linux Fedora Core 4. JDK: Sun jdk1.5.0

Hệ quản trị cơ sở dữ liệu: PostgreSQL 8.0.1 Tomcat 5.5.x

Trình duyệt: FireFox 1.04.

IV.2 Cấu trúc thư mục trong điã CD

Hình P1: Cấu trúc thư mục trong đĩa CD

Thư mục csdl chứa các văn bản luật và RDF.

Thư mục docs chứa bài báo cáo và hướng dẫn sử dụng. Thư mục schema chứa tập tin latviet.rdfs

Thư mục scritps chứa script tạo bảng.

Thư mục softwares chứa các phần mềm cần thiết.

Tập tin phapluat_bin.zip chứa chương trình đã biên dịch. Tập tin phapluat_src.zip chứa mã nguồn

HU

TE

CH

Module Tsearch2 thuộc postgresql-contrib package khơng được cài sẵn khi cài PostgreSQL của Fedora Core 4. Dùng chương trình Add/Remove Applications kiểm tra hoặc cài thêm package postgresql-contrib.

Hình P1: Kiểm tra và cài các package của PostgreSQL IV.4 Cài đặt font

Chép thư mục softwares/ms-font ở đĩa CD vào thư mục /usr/share/fonts rồi log out và log in lại. Đây là các truetype font của Windows hỗ trợ tiếng Việt.

IV.5 Cài đặt chương trình:

Tạo một cơ sở dữ liệu cĩ hỗ trợ unicode. Chạy file script trong thư mục scripts ở đĩa CD để tạo bảng. Cài các hàm và kiểu dữ liệu trong tập tin tsearch2.sql của Tsearch2 vào cơ sở dữ liệu muốn dùng. Tập tin tsearch2.sql ở thư mục /usr/share/pgsql/contrib

HU

TE

CH

# cd /usr/share/pgsql/contrib # psql zhicai<tsearch2.sql -U kero

Với zhicai là tên cơ sở dữ liệu, kero là tên tài khoản trong PostgreSQL.

Để tiện lợi cĩ thể cài chương trình quản trị cơ sở dữ liệu nguồn mở pgAdminIII, địa chỉ tải về là http://www.postgresql.org/ftp/pgadmin3/release/v1.4.1/fedora- core-4/rpms/

Mở file %CATALINA_HOME%\conf\server.xml của Tomcat sửa cổng mặc định 8080 thành 80. Điều này rất quan trọng vì các dữ liệu RDF mơ tả văn bản giả định địa chỉ web là localhost.

<!-- Define a non-SSL Coyote HTTP/1.1 Connector on port 8080 --> <Connector port="80" …

Cài đặt chương trình từ nguồn đã biên dịch

Tác giả dùng Sun jdk1.5.0 để biên dịch. Lưu ý, Fedora Core 4 cĩ sẵn jdk nhưng là jdk nguồn mở, khơng phải của Sun. Tác giả khuyên nên dùng jdk 1.5.0 của Sun, nếu dùng jdk khác thì phải biên dịch lại từ nguồn. Giải nén phapluat_bin.zip vào thư mục webapps của Tomcat. Xem hình dưới.

HU

TE

CH

Hình P2:

Vào phapluat/WEB-INF/system-conf.xml để cấu hình tag repository kết nối cơ sở dữ liệu. Chỉ cần thay đổi jdbcUrl, user, password, cịn lại giữ nguyên.

Vd:

<param name="jdbcUrl" value="jdbc:postgresql://localhost/zhicai"/> <param name="user" value="kero"/>

<param name="password" value="kero"/>

Cài đặt chương trình từ mã nguồn

Để biên dịch cần sử dụng Ant. Ant là cơng cụ biên dịch nguồn mở dựa trên Java, tải Ant ở http://ant.apache.org/. Cài đặt Ant rất đơn giản, xem tài liệu hướng dẫn đi kèm Ant để cài đặt. Giải nén phapluat_src.zip vào thư mục tạm. Mở tập tin build.properties, sửa giá trị của thuộc tính deploy.home là đường dẫn tới thư mục triển khai web trong Tomcat.

Ví dụ:deploy.home=/usr/java/tomcat-5.5.12/webapps/phapluat

Giả sử giải nén tập tin phapluat_src.zip vào thư mục /usr/tmp. Nhập các dịng lệnh sau:

HU

TE

CH

# cd /usr/tmp/phapluat # ant clean compile # ant deploy

Để xĩa triển khai trong Tomcat

# ant undeploy

IV.6 Nạp văn bản luật

Xem phần hướng dẫn sử dụng ở Phụ lục V bên dưới

IV.7 Tìm kiếm

Khởi động Tomcat, vào trang http://localhost/phapluat thực hiện tìm kiếm. Do số lượng văn bản luật quá nhiều, tác giả chủ yếu thu thập các văn bản liên quan đến lĩnh vực thuế.

Phụ lục V: Hướng dẫn sử dụng.

V.1 Sử dụng chương trình quản lý các file rdf và html

Bảo đảm file phapluat/WEB-INF/bin/manager.sh cĩ quyền thực thi, và chạy để mở chương trình quản lý các file rdf và html. Trên menu chọn Model/Nạp.

# cd /usr/java/tomcat-5.5.12/webapps/phapluat/WEB-INF/bin # ./manager.sh

HU

TE

CH

Hình P3: Chương trình nạp văn bản và rdf

Trên màn hình tên nhấn nút chọn thư mục và chỉ đến thư mục csdl trong CD rồi nhấn nút Nạp.

Chương trình cũng cho phép nạp từng file rdf riêng lẽ. Khi đĩ phải chỉ đến file rdf. Yêu cầu phải cĩ file html cùng tên vơi file rdf trong cùng thư mục.

Các mục trong menu Models

Hình P4: Menu Models

Xĩa hết: xĩa tất cả model rdf của Jena và các file html trong cơ sở dữ liệu. Lưu ý sau khi xĩa cần đồng bộ hĩa chỉ mục Oracle (xem phần dưới)

Xuất ra file: xuất các resource ra một file duy nhất. File này chỉ để tham khảo. Lưu ý nội dung trong file xuất này cĩ khác một chút so với các file rdf gốc vì để mơ tả một tài nguyên RDF cho phép mơ tả theo nhiều cách khác nhau.

Tìm: mở trang tìm kiếm, trang này cho phép xem và xĩa văn bản luật.

Thốt: Kết thúc chương trình.

V.2 Sử dụng chương trình hỗ trợ mơ tả văn bản luật

Chạy file manager.sh như ở trên, trên menu chọn Cơng cụ / Mơ tả văn bản để mở chương trình hỗ trợ mơ tả văn bản luật.

HU

TE

CH

Hình P5: Chương trình hỗ trợ mơ tả văn bản luật

a) Trang nhập thuộc tính:

Trường Uri là để nhập uri dự kiến dùng để truy xuất văn bản luật nay. Ví dụ

http://localhost/phapluat/csdl?key=18-1999-TT-BTC. Lưu ý, hiện các tập tin rdf

trong thư mục csdl trong CD đều ghi phần địa chỉ máy chủ web là localhost. Khi lưu cần đặt tên tập tin giống với phần sau của key tức là phải đặt tên 18-1999- TT-BTC.rdf

HU

TE

CH

Hình P6: Trang nhập văn bản căn cứ

Đầu tiên nhấn nút Thêm để chương trình tạo ra một dịng mới để nhập uri. Nếu thấy nhập sai thì nhấn nút Xĩa sẽ xố tại dịng đang chỉ (đang focus). Việc nhập văn bản bị sửa đổi, văn bản bị thay thế, văn bản dẫn chiếu, văn bản hướng dẫn, văn bản sửa đổi, văn bản thay thế cũng tương tự.

c) Nhập chương mục điều :

Trang này để mơ tả phân cấp trong văn bản luật. Người dùng sẽ nhập tên các chương, mục vào cùng với định danh.

HU

TE

CH

Hình P7: Trang nhập phân cấp

Để tạo một nút con phải chỉ vào mút cha (focus) trên cây và nhấn nút tương ứng ở thanh cơng cụ bên trái hoặc dãy nút bên dưới. Mỗi nút con được tạo sẽ cĩ thêm hai nút con của nút đĩ được tạo cùng cĩ biểu tượng , . Hai nút con này khơng thể xĩa trừ phi xĩa nút cha. Dấu ‘#’ rất quan trọng trong nút . Dấu ‘#’ phải đứng đầu tiên. Khi lưu xuống tập tin rdf, chương trình sẽ ghép uri ở tab đầu với chuỗi trong nút .

Một phần của tài liệu nghiên cứu semantic web, ứng dụng xây dựng cơ sở dữ liệu luật việt nam (Trang 81 - 93)