1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề tài : Nghiên cứu semantic web ứng dụng xây dựng cơ sở dữ liệu luật việt nam

34 781 0
Tài liệu được quét OCR, nội dung có thể không chính xác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

Ä

ĐỒN THANH NIÊN CỘNG SẢN HỊ CHÍ MINH BAN CHAP HANH TP HO CHi MINH

CONG TRINH DU THI

GIAI THUONG “KHOA HỌC SINH VIÊN - EUREKA” LAN 7 NAM 2005

TEN CONG TRINH: 4

NGHIEN CUU SEMANTIC WEB UNG DUN G XAY DỰNG CƠ SỞ DU LIỆU LUẬT VIÊT NAM

THUỘC NHĨM NGÀNH: KHOA HỌC TỰ NHIÊN

Mã số tơng trình:

Trang 2

DOAN THANH NIEN.CONG SAN HO CHi MINH BAN CHAP HANH TP HO CHi MINH

CONG TRINH DU THI

GIAI THUONG “KHOA HOC SINH VIEN ~ EUREKA” LAN 7 NAM 2005

TEN CONG TRINH:

NGHIEN CUU SEMANTIC WEB UNG DUN G XAY DUNG CO SO DU LIEU LUAT VIET NAM

THUỘC NHĨM NGÀNH: KHOA HỌC TỰ NHIÊN

Trang 3

1

Muc luc

CHUONG 1: GIOI THIEU soeeeceeesensseeuscscosscsseeeesesssceesesesscesersserescessessees 2 1,1 Động cơ và mục đích

22 211cc E211 ren 2

1.2 Cầu trúc đề tài eo Hee — TH re 2

CHƯƠNG 2: TƠNG QUAN, CÁC NGHIÊN CUU, UNG DUNG 3

2.1 Các ứng dụng lin quam eecesseessssssssecsssssssessssssussssesssssisessssiscsatitesossseeeceeeseeseeeesecccce 3 2.2 Semantic Web 1a gi? ccescsssssscssssecsssssesssssssuvessssssssusssssssasessussissessitivessssteseeseeeeeeeeec 4 2.3 Cau trúc phân tang cia Semantic Web .sssssccccsssssssssssessessssesseseeeeeeeeeeeeeeeeecc 5

CHUONG 3: RDF, OWL, JENA 5S no 9

l0 1.7171.114 9

3.1.1 Khái niệm RDF và RDE schema c csccsssssssssssssesssssesssssssssesstivesseeecsseeeeeeeeeeceec 9

3.1.2 Bảng từ vựng mơ tả RDF/RDES 22200 2n SE 1E 11

3.2 OWWÏ HHU n1 reo 12

B13 JOM 17ẶẤẶĂAMẠAA ai ai 14

3.3.1 GiGi ThiGt TaAH ga ad 14

3.3.2 Cú pháp của RDQL TTT11102222170111 11111 1111 T11 T1 grêg 14

CHƯƠNG 4: HIỆN THỰC, KÉT QUỮA Q ĐQQ QGQQ.nnnnHnnnreec 18 4.1 Phát biểu bài tốn tt HH 12 Erererreeeeeeeece 18

4.2 Tổng quan hệ thống văn bản luật Việt Nam nen 18

4.3 Hign thyc dling Semantic Web cc.cccccscscsssssesssssssessssssssssssssisessaseessuceeteeceeeeeeeeeecccec 20

4.3.1 Bảng từ vựng, tt H1 212 reo 20

4.3.2 Thiết kế lớp se TH Hee, 21

4.3.3 Cơ sở dữ liệu cho việc lưu trữ cAc VAN DAN voececsessssssesssscssssessssesesteeeeeeeeeeeeecececc 22

4.3.4 Cơ sở dữ liệu cho việc lưu các model RDE: 5s TH 22

4.3.5 Thiết kế giao diện 2222 23

4.4 Hiện thực phần tìm kiếm dùng full text search 5s tctn HH grg nghe ae 25

4.4.1 Sơ lược về Oracle Text 11112 neo 25

4.4.2 Thiết kế giao diện tre 26 4.5 Xây dựng các chương trình hỗ HƯỢ., ccc.c — tr re 27

CHƯƠNG 5: KẾT LUẬN, HƯỚNG PHÁT TRIỂN 2 2 28

2ˆ — TA ¬ 28

3.2 Đánh giá 5.2.1 Ưu điểm con 2110 0 2 eerrereerrrdeeeseeeeeeee 28

222222221 121111 rreeerreeeeeee 28 5.2.2 Khuyết điểm 222 te Hrrrrrrrrrrreeeeeeeeeeeo 28

5.3 Hướng phát triỂn .-222c22L the 29

Phụ lục - Set Hành SE TH TH 30

Giới thiệu về SPARQL, .ttn212222 n2 30

Tat 1i@u thar Khao: 5M 11L 31

Trang 4

CHƯƠNG I1: GIỚI THIỆU

1.1 Động cơ và mục đích

Hiện nay số lượng các văn bản pháp luật của Việt Nam rất lớn Hằng năm lại bổ sung thêm nhiều văn bản mới Các văn bản lại cĩ quan hệ với các văn bản khác như quan hệ điều chỉnh bổ sung, thay thế Bản thân các văn bản lại cĩ kèm theo các biểu mẫu các phụ lục khiến người dùng khĩ tìm kiếm Việc sắp xếp và tìm kiếm các văn bản pháp luật gặp nhiều khĩ

khăn do sơ lượng lớn và do các quan hệ giữa các văn bản phức tạp

Đề tài này sẽ xây dựng một hệ thống cơ sở đữ liệu lưu trữ các văn bản pháp luật, các cơng cụ hỗ trợ quản trị các văn bản, mơ tả văn bản cùng cơng cụ hỗ trợ truy xuất cơ sở đữ liệu luật này Ứng dụng này chạy trên mơi trường web, nên mọi người cĩ thể truy xuất dễ dàng nhanh

chĩng Các văn bản sẽ được thể hiện dưới dạng một trang web, và cĩ các đường liên kết đến các văn bản liên quan

1.2 Cấu trúc đề tài

Cấu trúc của đề tài gồm các phần sau:

Chương l: trình bày về bài tốn xây dựng cơ sở dữ liệu luật Việt Nam

Chương 2: trình bày về các nghiên cứu và các ứng dụng của Semantic Web — một cơng nghệ

được xem sẽ là cuộc cách mạng về web lần thứ hai Semantic web được ứng dụng vào hệ

thống cơ sở dữ liệu luật Việt Nam

Chương 3: Cĩ nhiều đự án nhằm dua Semantic Web thành hiện thực một trong số đĩ là bộ cơng cụ nguồn mở Jena của hãng HP Chương này sẽ giới thiệu về ngơn ngtt RDF, OWL va các tính năng của bộ cơng cụ Jena

Chương 4: trình bày về thiết kế của chương trình, hiện thực phân thiết kế và kết quả thực nghiệm

Chương 5: sẽ tổng kết và đánh giá những kết quả đạt được và đề ra hướng phát triển mở rộng của dé tai nay

Trang 5

CHUONG 2: TONG QUAN, CAC NGHIEN CUU, UNG DUNG

2.1 Các ứng dụng liên quan:

Hiện nay trên thị trường cĩ nhiều phần mềm tra cứu văn bản luật xuất bản trên đĩa CD hoặc tra cứu trực tuyến Nhìn chung các phần mềm này hỗ trợ tốt tra cứu dựa trên tiêu đề hoặc nội dung, tuy nhiên phần tra cứu nâng cao lại khơng được tốt Ví dụ như phần mềm Thư viện pháp luật của cơng ty VnReview tra cứu với từ “thuế thu nhập” trên tiêu đề cho 227 kết quả nhưng khi tìm kiếm nâng cao cĩ ràng buộc ngày từ 01/01/1995 đến 01/01/2005 lại báo tìm

thấy 8113 kết quả Hơn nữa, kết quả trả về lại khơng chính xác liên quan đến từ khĩa

5 trong iTiéu đề vi Ngày 13/08/2001

- 3 _Cơng văn 923/TCT/NV2 của Téog cục Thuế về việc 28/02/2002 923/TCT/NV2 => văn

4, Pháp lệnh Thuế thu nhập đối või người cĩ thụ nhập — 07/01/1391 501CT/HĐN _ Pháp lệnh

_ 5 Pháp lệnh Thuế thu nhập đối với người cĩ thu nhập (3/06/1894 —_ 2 Paap | TH n 3 “anv |

KET Qua: 227 thơng tin đã tìm thấy A

Hình 1: Tìm kiếm với từ khĩa “thuế thu nhập”

Trang 6

Một ví dụ thứ hai, phần tìm kiếm văn bản luật trực tuyến trên trang web Viện khoa học pháp lý - Bộ tư pháp (www.ilr-moj.ac.vn) trả về kết quả khơng đúng ngữ nghĩa khi tìm kiếm Tuy nhiên trang này cĩ thể hiện mối liên quan giữa các văn bản khá tốt như văn bản căn cứ, văn bản thay thế

2.2 Semantic Web là gì?

Từ khi được thiết kế, Web được xem là nơi để chứa thơng tin, dữ liệu, và mục đích khơng

những để con người và con người kết nối với nhau, mà cịn cho phép máy tính tham gia và trợ giúp con người Thế nhưng một trong những trở ngại thực tế, đĩ là thơng tin trên Web thực tế chỉ sử dụng được cho con người Khơng đề cập đến vấn đề trí tuệ nhân tạo sẽ huấn luyện máy tính cĩ những hành vi, tư duy giống con người, ý niệm Semantic Web sẽ là ngơn ngữ giúp cho máy tính cĩ thể tự xử lý trên những luồng thơng tin dữ liệu được định nghĩa và tổ chức tốt Thay vì địi hỏi máy tính phải hiểu ngơn ngữ của con người, nĩ sẽ cố gắng địi hỏi con người trang bị những thứ mở rộng cho nĩ

Chúng ta hãy xem xét sự so sánh giữa hai mơ hình cấu trúc tài nguyên như sau:

inks Ts Resource links To links To hasManus links Te requires requires Library links To inPartOt UnksTo

Hình 3: Cấu trúc liên kết tài nguyên Hình 4: Mơ hình liên kết tài nguyên theo

hiện nay huoéng Semantic

Trang 7

Đối tượng Cau trúc liên kết tài nguyên Mơ hình liên kết tài nguyên trong

hiện nay tương lai

Tài nguyên - Được xác định bởi URI - Được định nghĩa chung bởi URI

- Khơng cĩ định đạng cố định - Hoặc bị giới hạn lại

- Khơng bị giới hạn - Cĩ mối quan hệ

Liên kêt - La href hay sre, - Duoc xac dinh URI

- Khơng giới hạn, khơng mơ tả - Khơng bị giới hạn

trước - Cĩ mỗi quan hệ

Người dùng - Giới hạn sử dụng và quản lý dữ | - Khơng giới hạn đối với nguoi sử

liệu dụng

Máy - Thơng tin dữ liệu tự nhận được | - Nhiều thơng tin dé dé đàng xử ly

rat khan hiém

Máy và người - Làm việc, học hỏi và trao đơi dữ

liệu một cách hiệu quả

Vậy định nghĩa Semantic Web là: Máy tính cĩ thể hiểu được thơng tin, W4 '

liên kết Web lại với nhau (Semantic Web Introduction W3C) a

Semantic Web la y tưởng của Tim Berners Lee Ơng là người phát minh ra WWW, URIs,

HTTP, và HTML Cĩ một nhĩm người ở World Wide Web consortium (W3C) dang làm việc

tăng cường, mở rộng và chuẩn hĩa các hệ thống ,các ngơn ngữ, đồng thời phát triển các cơng cụ và các xuât bản nhắm đưa Semantic Web thành hiện thực

Trust Proof Logic Framework Rules Ontology] | RDF Schema RDF M&s| 3 XMI|[Namespaces URIUnicode ainjeubis ONGAIOUS TAX

Hình 5: Cấu trúc phân tang của Semamtic Web do Tìm Berners Lee dua ra

Tang 1 - URI va Unicode

2.3 Cau tric phan tang ciia Semantic Web

Trang 8

URI là viết tắt của Uniform Resource Identifiiers - định danh tài nguyên đồng nhất RI cho phép diễn đạt cách truy tìm tài nguyên trên Internet

Unicode là bộ mã tiêu chuẩn quốc tế cho phép thể hiện hầu hết ngơn ngữ trên thế giới Tang 2 — XML và Namsapace

XML 1a dinh dang chuẩn xuất bản dữ liệu XML rất phố biến, cĩ nhiều ứng dụng và

cĩ nhiều cơng cụ hỗ trợ

Namspace (khơng gian tên) là phần mở rộng của XML cho phép nhĩm các thẻ vào một nhĩm Semantic Web cĩ nhiều từ vựng trùng nhau, namespace cung cấp khả năng

phân biệt ý nghĩa các từ vựng

Tầng 3 - RDF Model và RDF Schema

RDF là một đồ thị giống như mạng ngữ nghĩa để mơ tả các thực thể

RDF Schema (RDFS): là ngơn ngữ dùng để mơ tả từ vựng RDF RDES cĩ thể mơ tả

cây phân cấp lớp và cây phân cấp thuộc tính RDFS được dùng để thể hiện mối quan hệ giữa các lớp hon 1a dé rang buộc cấu trúc như XML Schema

Tang 4 - Ontoloty Web Language (OWL):

OWL mơ tả ý nghĩa của từ vựng và quan hệ giữa các từ vựng với nhau OWL cung cấp nhiều tính nang hon RDFS

Tang 5 - Rules (các luật)

Tang Rules cho phép ta suy luận tri thức mới và ra quyết định Tầng Rules cung cấp cách thức chuẩn để truy vấn và lọc RDF Hiện nay mọi người đang thí nghiệm với các cơng cụ xử lý RDE dùng luật nhưng chưa cĩ chuẩn thống nhất

Tầng Rules là một dạng logic “căn bản”, trong khi Logic Framework sẽ là logic “nâng cao” Tang Logic framework cho phép các chứng cứ logic (formal logic proofS) được chia sẽ Cuối

cùng, với sự hỗ trợ của các chimg cir manh (robust proofs), tang Trust cé thé duoc thiét lập

Trang 9

7 œ œ ® >> ———m = = sa, Web ont = = Source 5 < 6 x

o : & 8 <person rdfinslance=" > kới — tr ˆ A 3 Be = 6 <name>

>X (HF -——- TU) <Brstname> dưrai F q = = Fe = 5 <firsiname>

oO O + can ba <lastnaree> Janosik

= 9 =| senity-class name = "House"> mm ‘fe oe "DORE T" a <fiastname>

£5 ws, 8 E <entity-instance ID="10_0"> <attr attlD= "ZIP_CODE“> Ee 8 towed ae ken oy S2 & | <person> ee <name> oO =

=8 Jd a 5 s " <CDATA| 5223PT]i> a 8 | «distance ‘tance oO " = x

= 5 fan? cụ a from= "2342S" —

= E „ */entity instance> tes s E to="224 1RE" = †

Ȏ <Jentily-class> S kra = "150" &

[ x | x XMLIRDF query

XML query ~ XML query BATA

bo DATA DATA eel

= oe se tater g SE sess os TƯ ae ik ee

`

` & XML-RDF XML-RDF RDF-RDF

= Broker Broker Broker

s panne ene - wee anne t ‡ }

REF query

RDF query ROF query

œ RDF-XML DATA RDF-XML DATA C RDF-XML DATA

G Domain Model

3 _ (concepts; relations, axioms

SH TH n0 MEDIATOR sỊ 3a O md RDF Query Engine a x = o S 4 | ° u 2 } | a

= RDF query RDF-XML DATA RDF query =

` RDF-XML DATA 4} an -L_ ‘ QL c ` ¥ me 2 | UI | co : oe

a4 _ RDF-XML DATA | | laSes External

«4 = o t re o-28 App — wo o = 23 ae | o E | 13 538 “a (Search) \ |] 8 | la ” NV Agent Jo |_ _——— info request | presentation

PDA Mobile P62 Pere

Hình 6: Cấu trúc cơ bản của việc tích hợp ngữ nghĩa từ nhiều nguồn tài nguyên:

Trang 10

Phân Lớp Mo ta

Source Layer Chita những dữ liệu tài nguyên bên ngồi như mỗi quan hệ

hoặc đối tượng của cơ sở dữ liệu, trang HTML, nguon XML, hoặc RDF gơc Chương trình sẽ tổng hợp hồn tồn những nguồn chung này, thơng qua Web Yêu câu chính của tài nguyên là cĩ khả năng chuyền đổi sang dạng XML

XML Instance Layer | XML instance layer sẽ lây đữ liệu XML tuần tự này từ layer trước đĩ Đơi khi hai lớp này được xem là một

XML2RDF Layer XML2RDF layer duoc xem 1a cau néi giữa - XML instance

layer với Mediator RDF Khi cĩ một truy vấn từ lớp Mediator, việc ánh xạ trong XML2RDF sẽ được thực hiện và ngược lại

Inference / Mediating RDF Mediator 1a trung tam cua kién trúc này Nĩ điều khiến

Layer hoạt động của mơ hình, cung cấp truy vấn và đưa ra dịch vụ,

kết quả tìm kiếm

Mơ hình khái niệm bao gồm một lớp phân cấp với lớp thuộc tính, và mơt bộ những quy tắc giao tiếp giữa lớp và thuộc tính Application Layer tiếp với lớp này Ví dụ điển hình chương trình tìm kiếm Lớp các chương trình ứng dụng, người dùng chỉ thao tác trực

Trang 11

CHUONG 3: RDF, OWL, JENA

3.1 RDF

3.1.1 Khai niém RDF va RDF schema

at RDF là ngơn ngữ biểu diễn, mơ tả thơng tin tài nguyên của World Wide Web Thơng

tin được mơ tả ví dụ bao gồm tựa đề trang, tác giả, ngày cập nhật, bản quyền liên quan đến trang web đĩ, hoặc để cĩ khả năng triển khai chiến lược chia sẻ tài nguyên Ngồi ra RDF cịn cĩ thể được dùng mơ tả những thơng tin cĩ thể nhận dạng trên Web, ngay cả những thơng tin này cĩ thể khơng được lấy trực tiếp từ trang web RDF sẽ được dùng ở nơi thơng tin được xử lý bởi nhiều trình ứng dụng, hơn là nơi chỉ xuất thơng tin cho người xem

RDF cung cấp một nền tang chung (common framework) cho phép trao d6i thơng tin giữa hai chương trình khác nhau mà ngữ nghĩa khơng bị thay đổi Khả năng trao đổi thơng tin giữa hai chương trình cĩ nghĩa là thơng tin này sẽ được chương trình bên kia hiểu được ngay khi thơng tin được tạo ra Từ nền táng chung này, sẽ là địn bẩy để những nhà thiết kế ứng dụng cĩ thé phát triển những trình phân tích (parser) RDE chung và những cơng cụ xử lý

Xét ví dụ RDE: "Nguyễn Dư” hasName http7/www,thinhanvn.org/NguyenDu | | hasWritten Y TA [ http:/ww.minhkhai.com/ISBN000104758ã | “Truyện Kiêu" Hình 7: ví dụ đồ thị mơ tả

RDF cũng cung cấp một dạng đồ vật hĩa (reification) để một phat biéu RDF cĩ thể là một đối

tượng hoặc giá trị của một phát biểu khác Điều này cĩ nghĩa các đồ thị cĩ thể gộp lại như

một chuỗi xích Một phát biểu của ai đĩ khơng rõ ràng, ta cĩ thể mơ tả nĩ thuộc loại gì ví dụ như phát biểu “ISBN0001047588§” cĩ kiểu là Book, Book được định nghĩa trong RDF schema

Trang 12

10

Mơ hình RDF và cú pháp dựa trên cú pháp XML thể hiện mơ tả trên như sau:

<rdf:Description rdf:about="http: //www thinhanvn.org/NguyenDu">

<s:hasName>Nguyén Du</s:hasName> <s:hasWritten rdf: resource="http: //www.minhkhai.com/ISBN0001047588"/> </rdf:Description> <rdf:Description rdf:about="http://www minhkhai.com/ISBN0001047588"> <s:title>Truyén Kiéu</s:title>

<rdf:type rdf:resource="http: //www.description.org/schema#Book"/> </rdf:Description>

Cú pháp XML trên đây chỉ là một trong nhiều cách viết mơ hình RDF xuống XML vì RDE rất

linh hoạt

RDF Schema là một kỹ thuật cho phép định nghĩa từ vựng riêng cho đữ liệu RDF (ví đụ như

hasWritten) và các loại đối tượng đặc biệt để gán cho thuộc tính (ví dụ như Writer) RDF

Schema dùng các thuật ngữ đã được định nghĩa trước như Class, subClassOf và Property, dé tao luge dé RDF Schema cũng dùng để kiểm hợp lệ các phát biểu RDF Sự khác nhau giữa phát biểu RDF “thơng thường” và RDF Schema là RDF Schema tạo ngữ nghĩa cho thuật ngữ và giải thích các phát biểu Ví dụ, thuộc tính subC1assO£ cho phép định nghĩa phân cấp lớp Các đối tượng cĩ thể cho biết kiểu bằng cách dùng thuộc tính type Các thuộc tính domain và range cĩ thể dùng để xây dựng ràng buộc giữa các lớp thuộc tính

subClassOf

| FamousWriter |

i Schema type type Dữ liệu

hasWriHen ¬

[ http:/Awwew.thinhanvn.org/NguyenDu — http:/Axww.minhkhai.com/ISBN0001047588

Hình 8: Méi quan hé giita dit liéu RDF va RDF Schema

Trên đường nét đứt trong hình trên, chúng ta thay vi du RDF schema định nghĩa từ vựng cho

ví dụ RDF ở trên: Book, Writer và FamousWriter là các lớp, và hasWritten là thuộc tính Một thể hiện bên đưới đường nét đứt được mơ tả bằng các thuật ngữ của từ vựng trên

Trang 13

1]

3.1.2 Bảng từ vựng mơ tả RDF/RDFS

RDF/RDEFS cung cấp các từ vựng để mơ tả tài nguyên và mơ tả từ vựng trong khơng gian

miên rdf va rdfs Lép RDF/RDFS

Thanh phan Lớp của Lớp con của

rdfs:Class Mọi lớp

rdfs:Datatype Kiểu dữ liệu Class

rdfs:Resource Moi tai nguyén Class

rdfs:Container Containers Resource

rdfs:Literal Chữ và số Resource

rdf:List Danh sách Resource

rdf:Property Các thuộc tính Resource

rdf:Statement Các phát biêu Resource

rdf:Alt Containers of alternatives Container

rdf:Bag Danh sách khơng thứ tự Container

rdf:Seq Danh sách cĩ thứ tự Container

rdfs:ContainerMembershipP | Quan hệ giữa các danh sách Property

roperty

Rdf:XML Literal XML literal values Literal

Thuộc tinh RDF/RDFS

Thanh phan Pham vi Mién

rdfs:domain Property Class

rdfs:range Property Class

rdfs:subPropertyOf Property Property

rdfs:subClassOf Class Class

rdfs:comment Resource Literal

rdfs:label Resource Literal

rdfs:isDefinedBy Resource Resource

rdfs:seeAlso Resource Resource

rdfs:member Resource Resource

rdf:first List Resource

rdf:rest List List

rdf:subject Statement Resource

rdf:predicate Statement Resource

rdf:object Statement Resource

rdf:value Resource Resource

rdf:type Resource Class

Trang 14

12

3.2 OWL

a) Tai sao can OWL

Semantic Web 1a tuong lai cua Web mà thơng tin được gắn với ý nghĩa, tức làm cho thơng tin dễ xử lý và tích hợp thơng tin trong Web Semantic Web dựa trên khả năng của XML để định

nghĩa các khuơn mẫu thẻ và RDF để thể hiện dữ liệu Cấp đầu tiên trên RDF trong mơ hình

phân cấp Semantic Web là ngơn ngữ bản thể (ontology language) cĩ thể mơ tả ý nghĩa của thuật ngữ dùng trong các tài liệu Web RDF Schema là bảng từ vựng để mơ tả các thuộc tính (property) và lớp của tài nguyên RDE, với một ngữ nghĩa cho cây khái quát hĩa của thuộc tính và lớp OWL đưa thêm vào từ vựng để mơ tả thuộc tinh va lớp như: quan hệ giữa các lớp (Vd: disjointness), số lượng phần tử (Vd: "exactly one")

OWL bao gồm bốn khái niệm:

e Lớp

e Méi quan hé giữa các lớp e Thuơc tính của lớp

e_ Ràng buộc trên mối quan hệ giữa thuộc tính và lớp

OWL đã được tổ chức W3C chuẩn hĩa từ tháng hai năm 2004

b) Ba ngơn ngữ của OWL

OWL cung cấp 3 ngơn ngữ được thiết kế để nhà phát triển và người dùng sử dụng cho các mục đích riêng

° OWL Lite hé tro cho ngudi dùng các yêu cầu chính yếu cần hệ phân cấp và các ràng buộc đơn giản Ví dụ, nĩ hỗ trợ ràng buộc số lượng phần tử cho phép giá trị là 0 hoặc 1 Việc cung cấp các cơng cụ hỗ trợ OWL Lite sẽ đơn giản hơn so với cho các ngơn ngữ tương đương khác

« OWL DL hỗ trợ người dùng muốn diễn đạt thống hơn trong khi muốn giữ lại khả

năng máy tính tốn và khả năng ra quyết định OWL DL bao gồm tất cả thành tố của

ngơn ngữ OWL, nhưng chỉ cĩ thể dùng trong các giới hạn (Vd, một lớp cĩ thể là lớp

con của một hay nhiều lớp, một lớp khơng thể là một đối tượng (instance) của lớp

khác)

Trang 15

13

« OWL Fui! dành cho người dùng muốn diễn đạt tự đo nhất và cú pháp tự do của RDF

nhưng khơng đảm bảo tính tốn được Ví dụ, trong OWL Full một lớp cĩ thể đồng

thời được coi là tập hợp của các cá thể dưới đanh nghĩa một đơn thể OWL Full cho phép một bản thê gia cố ý nghĩa của từ vựng Nĩ khơng bảo đảm các phần mềm suy

luận sẽ hồn tồn hỗ trợ mọi tính năng của OWL Full

Các ngơn ngữ cĩ quan hệ nhau như sau (quan hệ một chiều)

¢ Moi ban thé OWL Lite hop 1é thi cing 1a ban thé OWL DL hop lệ ‹ _ Mọi bản thể OWL DL hợp lệ thì cũng là bản thể OWL Full hợp lệ ‹ Moi két nan OWL Lite hợp lệ thì cũng là kết luận OWL DL hợp lệ ¢ Moi kết luận OWL DL hợp lệ thì cũng là kết luận OWL Full hợp lệ

OWL Full cĩ thể xem như phần mở rộng của RDE, trong khi OWL Lite và OWL DL cĩ thể

xem như mở rộng cĩ giới hạn của RDE Mọi tài liệu OWL (Lite, DL, Full) cũng là tài liệu RDE, và mọi tài liệu RDF là một tài liệu OWL Full, nhưng chỉ một số tài liệu RDF sẽ là tài

liệu OWL Lite hoặc OWL DL hợp lệ Vì vậy phải cần thận khi muốn chuyển tài liệu RDE

sang OWL Vi du: <owl:Class rdf: ID="ResourceMovement"> <rdfs: subClassOf> <owl:Restriction> <owl:onProperty rdf:resource="#movementType"/> <owl:cardinality rdf:datatype="&xsd;nonNegativelInteger"> 1 </owl:minCardinality> </owl:Restriction> </rdfs:subClassOf> </owl:Class>

Day là mơ tả về lớp ResourceMovement, lớp này cĩ thuộc tính #movementType và đối tượng của lớp ResourceMovement chỉ được phép cĩ một và chỉ một thuộc tính

#movementTvpe

Trang 16

14

3.3 Jena

3.3.1 Gidi thiéu

Jena là một Java framework nguồn mé do céng ty Hewlett-Packard phát triển dé viết các ứng dụng Semantic Web Jena cĩ các tính năng sau:

RDF API

e Cac phuong thitc xt ly RDF model nhu 1a tap cac triples

« Cac phương thức xử lý RDF model như là tập các tài nguyên resources với thuộc tính

¢ H6 tro RDF containers - bag, alt va seq e Cac thư viện tiện ích

« - Tích hợp bộ phân tích và ghi RDF/XML (ARP), N3 và N-TRIPLES « - Hỗ trợ các kiểu đữ liệu literal

Persistence

Jena cung cấp phần mở rộng cho lớp Jena Model cho phép lưu các model trong cơ sở

đữ liệu Jena chính thức hỗ trợ cơ sở đữ liệu PostgreSQL, MySQL, Oracle

Hệ thống lý luận (Reasoning Subsystem)

Hệ thơng lý luận gồm các luật chung dựa trên động cơ suy luận cùng với các luật cầu hinh cho RDFS va cho OWL Lite Hé ly luận này cĩ thể được dùng để xây dung cac inference models — thé hién cdc phát biểu đã trải qua lý luận Hệ này được thiết kế để cĩ thể mở rộng nên cĩ thể gắn thêm các suy luận vào Jena

RDQL query language

Ngơn ngữ truy vấn RDQL là ngơn ngữ truy vấn đơn giản cho dữ liệu RDF giúp thực hiện các truy vẫn phức tạp

3.3.2 Cú pháp của RDQL

Query <EOF>

CompilationUnit

CommaOpt ::= (<COMMA> )?

Query ::= SelectClause ( SourceClause )? TriplePatternClause

Trang 17

SelectClause SourceClause SourceSelector TriplePatternClause ConstraintClause TriplePattern VarOrURI VarOrLiteral Var :: PrefixesClause PrefixDecl Expression _ ConditionalOrExpression ConditionalXorExpression ConditionalAndExpression ValueLogical StringEqualityExpression NumericalLogical InclusiveOrExpression ExclusiveOrExpression AndExpression ArithmeticCondition EqualityExpression RelationalExpression NumericExpression ShiftExpression 15 ( ConstraintClause )? ( PrefixesClause )?

= (<SELECT> Var ( CommaOpt Var )* | <SELECT> "*" ) = (<SOURCE> | <FROM?> ) SourceSelector ( CommaOpt

SourceSelector )* = URL

= <WHERE> TriplePattern (CommaOpt TriplePattern )*

= <SUCHTHAT> Expression ( (<COMMA> |

<SUCHTHAT> ) Expression )*

= <LPAREN> VarOrURI CommaOpt VarOrURI CommaOpt VarOrLiteral <RPAREN>

= Var | URI = Var

| Literal "2" Identifier

= <PREFIXES> PrefixDecl ( CommaOpt PrefixDecl )* = Identifier <FOR> QuotedURI

= ConditionalOrExpression

::= ConditionalXorExpression (<SC_OR> ConditionalXorExpression )*

:= ConditionalAndExpression

= ValueLogical (<SC_AND> ValueLogical )* = StringEqualityExpression

= NumericalLogical (<STR_EQ> NumericalLogical | <STR_NE> NumericalLogical | <STR_MATCH> PatternLiteral | <STR_NMATCH> PatternLiteral )* ::= InclusiveOrExpression

:= ExclusiveOrExpression ( <BIT_OR> ExclusiveOrExpression )*

:= AndExpression ( <BIT_XOR> AndExpression )* = ArithmeticCondition (<BIT_AND>

ArithmeticCondition )*

= EqualityExpression

= RelationalExpression ( <EQ> RelationalExpression | <NEQ> RelationalExpression )?

= NumericExpression ( <LT> NumericExpression | <GT> NumericExpression | <LE> NumericExpression | <GE> NumericExpression )?

= ShiftExpression

z= AdditiveExpression ( <LSHIFT= AdditiveExpression |

Trang 18

16

<RSIGNEDSHIFT> AdditiveExpression | <RUNSIGNEDSHIFT> AdditiveExpression )* AdditiveExpression ::= MultiplicativeExpression ( <PLUS>

MultiplicativeExpression | <MINUS>

MultiplicativeExpression )*

MultiplicativeExpression ::= UnaryExpression (<STAR> UnaryExpression <SLASH> UnaryExpression | <REM>

UnaryExpression )*

UnaryExpression ::= UnaryExpressionNotPlusMinus

| (<PLUS> UnaryExpression | <MINUS>

UnaryExpression )

UnaryExpressionNotPlusMinus ::= ( <TILDE> |<BANG> ) UnaryExpression

| PrimaryExpression PrimaryExpression ::= Var

| Literal

| <LPAREN> Expression <RPAREN>

Literal c RI | NumericLiteral | TextLiteral | BooleanLiteral | NullLiteral NumericLiteral ::= (<INTEGER_LITERAL> | <FLOATING_POINT_LITERAL> )

TextLiteral ::= (<STRING_LITERALI> | <STRING_LITERAL2> ) ( <AT> Identifier )? (<DATATYPE> URI )?

PatternLiteral ::= BooleanLiteral ::= <BOOLEAN_LITERAL> NullLiteral := <NULL_LITERAL> URL ::= QuotedURI URI ::= QuotedURI | Qname

QName ::= Identifier ":" Identifier QuotedURI ::= "<" <URIc ">"

Identifier ::= (<IDENTIFIER> | <SELECT> | <SOURCE> | <FROM> | <WHERE> | <SUCHTHATS | <PREFIXES> | <FOR> | <STR_EQ> | <STR_NE>)

Sau đây là một số ví dụ:

Lấy giá trị của thuộc tính từ một tài nguyên đã biết

Trang 19

17

SELECT ?x

WHERE (<http: //somewhere/res1>, <http: //somewhere/predl>, 2x)

Chi dinh RDF model trong truy vấn

SELECT ?a, ?b

FROM <http: //somewhere/modell.rdf> WHERE (2a, <http://somewhere/predl>, ?b)

AND 2b < 5

Liệt kê các phần tử của một node kiểu bag

SELECT 2s, 2u WHERE

(?s,

<http://www.phapluat.org/luatviet/elements/1.0/maHTML>, ?maHtml),

(2s, <http://www.phapluat org/luatviet/elements/1.0/lienQuan>, Pu),

(?u, <http: //www.w3.org/1999/02/22-rdf-syntax-ns#type>, <http: //www.w3.org/1999/02/22-rdf-syntax-ns#Bag>)

AND ?maHtml == !112!

Trang 20

18

CHƯƠNG 4: HIỆN THỰC, KÉT QUÁ

4.1 Phát biểu bài tốn

Từ khi thành lập nhà nước Cộng hồ Xã hội Chủ nghĩa Việt Nam đến nay số lượng các văn bản luật do các cơ quan nhà nước ban hành mỗi năm một tăng Do số lượng rất lớn sẽ gây khĩ khăn cho người dùng tra cứu Chương trình ứng dụng Semantic Web xây dựng cơ sở đữ liệu luật Việt Nam sẽ xây dựng một ứng dụng web hỗ trợ người dùng tìm kiếm các văn bản luật dựa trên kỹ thuật của Semantic Web Chương trình hỗ trợ tìm kiếm cơ bản và tìm kiếm theo Semantic Web Với phần tìm kiếm cơ bản, người dùng nhập từ khĩa vào và tìm kiếm, chương trình sẽ xuất ra các văn bản tìm được sắp xếp theo điểm chính xác giảm dan Diém

ghi dưới dạng phần trăm Điểm cao nhất là 100% Với phần tìm kiếm Semantic Web người

dùng cĩ thể nhập nhiều thơng tin liên quan đến văn bản muốn tìm để thu nhỏ tập kết quả Người dùng cĩ hai lựa chọn là tìm khơng chỉ tiết và tìm chỉ tiết Tìm chỉ tiết là chương trình sẽ xuất ra các mục trong văn bản cĩ từ khĩa tìm thấy Tìm khơng chỉ tiết thì chương trình sẽ xuất ra các tên văn bản tìm thấy như với tìm kiếm cơ bản

4.2 Tơng quan hệ thơng văn bản luật Việt Nam

Theo nguồn CD Phần mềm thư viện pháp luật của cơng ty VnReview và báo pháp luật, các

loại văn bản luật Việt Nam gồm:

1.Chỉ thị 6.Hướng dẫn 12.Quy chế 18.Thơng tư

2.Cơng ước 7.Luật 13.Quy định 19.Thơng tư liên

2.Cơng văn 8.Nghị định 14.Quyết định tịch

3.Hiến pháp 9.Nghị định thư 15.Sắc lệnh

4.Hiệp định 10.Nghị quyết 16.Sắc luật

5.Hiệp ước 11.Pháp lệnh 17.Thơng báo

Các thuộc tính của văn bản:

Thuộc tính của văn bản Y nghĩa

Số hiệu văn bản Mỗi văn bản đêu cĩ số hiệu riêng khơng lặp lại Trong số

hiệu thường ghi nhận năm ban hành, loại văn bản, cơ quan

ban hành VD: 18/2005/NĐ-CP

Tên văn bản Tên nguyên văn của văn bản

Trích yêu Tĩm tắt nội dung chính của văn bản

Trang 21

19

Cơ quan ban hành Cơ quan ban hành văn bản này

Lĩnh vực Lĩnh vực của nội dung văn bản này đề cập

Chê định luật Phân loại theo cấp thâp hơn lĩnh vực

Ngày ban hành Ngày ký văn bản này

Ngày cĩ hiệu lực Ngày cĩ hiệu lực của văn bản Nêu trong văn bản khơng

nĩi rõ ngày nào cĩ hiệu lực thì văn bản sẽ cĩ hiệu lực 15 ngày sau ngày đăng trên cơng báo

Người ký Người ký quyết định ban hành văn bản này

VỆ mơi quan hệ giữa các văn bản cĩ các thuộc tính sau:

Văn bản căn cứ: Mỗi văn bản đều cĩ trích dẫn tên các văn bán luật mà văn bản này căn cứ vào cho phép đê xây xựng nội dung của văn bản này

Van ban bj thay thé: Cac van ban khơng cịn phù hợp sẽ được các cơ quan cĩ thâm quyên ban hành văn bản mới thay thê cho văn bản cũ

Văn bản bị sửa đồi bồ sung: Các văn bản cũ cĩ vài điểm khơng phù hợp, các cơ quan cĩ thâm quyên sẽ ban hành văn bản cĩ nhiệm vụ sửa đổi bổ sung các điều khoản khơng phù hợp trong văn bản bị sửa đơi bồ sung

- Văn bản hướng dân: văn bản hướng dẫn các cơ quan cách thi hành các điều khoản trong văn bản khác

Văn bản dẫn chiếu: là tên văn bản được đề cập trong nội dung của văn bản

Văn bản thay thê: Văn bản này đã cĩ văn bản khác thay thế Thuộc tính nay trái ngược với thuộc tính văn bản bị thay thế

Văn bản sửa đơi bơ sung: Văn bản hiện tại cĩ các điều khoản khơng cịn phủ hợp nữa, cơ quan cĩ thâm quyên đã cĩ ra văn bản sửa đối bỗ sung một số điều khoản trong văn bản hiện tại Thuộc tính nàu trái ngược với thuộc tính văn bản bị sửa đổi bổ sung

Cầu trúc tơng quan của văn bản:

Các văn bản dài mới cĩ chia Phân, thơng thường văn bản cĩ độ dai trung bình phân cập theo Chương Mục Điều, các văn bản ngắn hơn thì phân cap theo Chương, Điêu Phân, Chương, Mục đều cĩ tiêu dé, riêng Điêu cĩ thể cĩ hoặc khơng Một số ít văn bản ngăn thì khơng cĩ phân cấp như trên

Trang 22

20

4.3 Hiện thực dùng Semantic Web

Tác giả sử dụng các kỹ thuật của Semantic Web để xây dựng cơ sở dữ liệu luật với các lý đo sau Semantic Web là một hướng đi mới trong lĩnh vực tìm kiếm vì Semantic Web tập trung vào ngữ nghĩa khơng như các kỹ thuật tạo chỉ mục hiện nay chỉ quan tâm tới từ khĩa xuất hiện trong nội dung tìm kiếm Với việc tập trung vào ngữ nghĩa sẽ cho phép tìm kiếm với

nhiều lựa chọn như thế khả năng tìm thay các tài liệu cần tìm sẽ chính xác hơn Phạm vi của

chương trình ứng dụng Semantic Web này khơng nhằm hiện thực một ứng dụng mang đầy đủ

sắc thái của khái niệm Semantic Web do Tim Berners Lee đưa ra như trên Thực tế hiện nay

Semantic web vẫn chưa thành hiện thực và các nhà khoa học vẫn đang nghiên cứu và phát triển tiếp Đề tài sẽ ứng dụng các kỹ thuật và sự hỗ trợ từ các framework cho Semantie Web để xây dựng ứng dụng tra cứu cơ sở đữ liệu luật

Đề cĩ thể tìm kiếm trong các RDF thì các tập tin RDF phải được đưa lên bộ nhớ dưới dạng

các model Jena hỗ trợ hai dạng lưu là trong bộ nhớ RAM máy tính và trong cơ sở đữ liệu Lưu trong RAM địi hỏi phải cĩ bộ nhớ lớn nếu cĩ nhiều model hoặc nhiều phát biểu trong

mỗi model và đữ liệu chỉ tồn tại tạm thời do đĩ khơng hợp để xây ứng dụng Do đĩ tác giả

quyết định chọn phương án lưu các model trong cơ sở dữ liệu Hiện Jena hỗ trợ 3 hệ quản trị

co sé dit ligu 14 ProgreSQL, MySQL va Oracle Tac gia chon str dung Oracle

Các văn bản luật html sẽ được đánh dấu vào Chương, Mục, Điều để tìm kiếm và cĩ thể mở

đúng chỗ trong văn bản Các tập tin văn bản luật html và RDF sẽ được nạp vào cơ sở đữ liệu

Việc nạp RDF phải thơng qua cớ chế của Jena vì RDF lưu trong cơ sở dữ liệu ở một định

dạng riêng của Jena Các tập tin html sé được nạp khơng thơng qua Jena

4.3.1 Bảng từ vựng

Để cĩ thể tìm kiếm bang Semantic Web thi cdc van ban luat phải đựơc mơ ta chỉ tiết Với mỗi

văn bản càng mơ tả chỉ tiết thì hệ thống càng cĩ nhiều thơng tin về văn bản đĩ và do đĩ tỉ lệ

thuận với khả năng tìm chính xác Như vay méi tap tin html van ban luật sẽ cĩ một tập tin RDE mơ tả tương ứng Với các thuộc tính đã xác định ở phần trên, tác giả đã xây dựng một tập các từ vựng để mơ tả các văn bản luật bằng RDFS Dưới đây là trích đoạn của tập tin RDF Schema m6 ta từ vựng “VanBan” và “loạVanBan”

<?xml version="1.0" encoding="UTF-8"?>

<rdf:RDF xml:lang="en" xmins:rdf="http://www.w3.org/ 1999/02/22-rdf-syntax-ns#" xmins:rdfs="http: //www.w3.org/2000/01/rdf-schema#"

xmins:owl="http://www.w3.org/2002/07/owl#">

<owl:Ontology rdf:about="http://www.phapluat.org/luatviet/elements/ 1.0/">

Trang 23

21

<rdfs:label>luatviet</rdfs:label>

<rdfs:comment>Hệ thống quản lý các văn bản pháp luật</rdfs:comment> </owl:Ontology>

<a name="VanBan"/> |

<rdfs:Class rdf:about="http://www.phapluat.org/ luatviet/elements/1.0/VanBan">

<rdfs:isDefinedBy rdf: resource="http://www phapluat.org/luatviet/elements/ 1.0/"/>

<rdfs:subClassOf rdf: resource="http://www.w3.org/2000/01/rdf-schema#Resource"/ >

<rdfs:label xml:lang="vi">Văn bản pháp luật</rdfs:label>

<rdfs:comment xml:lang="vi">Văn bản pháp luật được quản lý bởi hệ thống

luatviet</rdfs:comment> </rdfs:Class>

<rdf:Property rdf:about="http://www phapluat.org/luatviet/elements/1.0/loaiVanBan"> <rdfs:isDefinedBy rdf:resource="http://www.phapluat.org/ luatviet/elements/1.0/"/> <rdfs:label xml:lang="vi">Loại văn bản</rdfs:label>

<rdfs:range rdf:resource="http://www.W3.org/2000/01/rdf-schema#Literal"/>

<rdfs:domain rdf:resource="http://www.phapluat.org/luatviet/elements/ 1.0/VanBan"/>

</rdf:Property> 4.3.2 Thiết kế lớp ResultEntry (from engine) | Qouri : String &oquotation : String &›pk : Long &>score : Integer &pfileLocation : String Array List ị SearchResult SgetResuitList() SgetNumOfFile0 SgetNumOfEntry0

(from engine) - SgetUriQ

&»resulfList : ArrayList _ SgetQuotation()

Enum OfFile : Integer SgetPk()

&>numOfEntry : Integer SgetScore()

SgetFileLocation0

Trang 24

22 | MedesContl &àModelMaker &àIDBConnection TextSearchEngine

(from oracleT ext)

ị _ &omodelsControl : ModelsControl

SremoveAllModels() 4 “?6›searchResult: SearchResult

ŠcreateAllModelsAndHtmlsQ | © SremoveAllHtm!s() NN search() 1 1 oN NN ° 4 A RDQLSearchEngine

—1 &modelsControl : Models Control

i SearchRelatedDoc &>searchResult : SearchResult

'ĐmodelsControl : Models Control

ị &searchResult : SearchResult Šsearch0

| Ssearch0 Hình 10: Sơ đồ lớp các lớp tìm kiếm

4.3.3 Cơ sở đữ liệu cho việc lưu trữ các văn bản

Cơ sở dữ liệu này chỉ gồm một bảng duy nhất chứa maHtml là khĩa chính, tenHtml - tên văn bản và HtmlBody - tồn bộ nội dung tập tin văn bản:

SW._Htm! maHtml NUMBER <pk> tenHtml” = VARCHAR2(200) HtmlBody: CLOB Hinh 11: Bang SW_Html

4.3.4 Cơ sở đữ liệu cho việc lưu các model RDF:

Jena lưu các file RDE vào cơ sở dữ liệu với cấu trúc do Jena tạo, và người dùng cĩ thê khơng cần quan tâm đến Dưới đây là mơ hình cơ sở đữ liệu do Jena tạo

Trang 25

| 23 |

¡ JENAGRAPH Ì Í JENA G98T1 STMT | JENA_G98TO_REIF -

ID ::NUMBER <pk> SUBJ :: VARCHAR2(250) SUBS: VARGHAR2(250) NAME:, VARCHAR2(4000) PROP VARCHAR2(250) PROP VARCHAR2(250) OBJ VARCHAR2(250) OBJ VARCHAR2(250) GRAPHID’ NUMBER GRAPHID NUMBER

JENA_PREFIX STMT VARCHAR2(250)

ID HEAD NUMBER VARCHAR2(500) <pk> HASTYPE CHAR

CHKSUM NUMBER

| TAIL BLOB JENA_LONG LIT JENA SYS_STMT

iD NUMBER <pks | | SUBJ VARCHAR2(250) JENA_LONG: URI HEAD: : VARCHAR200) PROP -VARCHAR2(250)

— = CHKSUM :NUMBER OBL VARCHAR? (250)

ID HEAD VARCHAR2(500) NUMBER <pK> | frau L BLOB GRAPHID: NUMBER |

CHKSUM NUMBER TAIL BLOB

Hinh 12: Cac bang do Jena tao

4.3.5 Thiét ké giao dién

File Edit View Go Sears “Tools Help

Y & ị a) hp: {ilocalhost{phaplu ua @Q- > -@ Bt ANH HR4U8SE2c TS 00000 0

TRA au VAN BAN LUAT

Tim chi tiết : C]

Từ khĩa : ị Số hiệu he tn mm : Loại văn bản: Trích yêu : Chế định luật : Tĩnh vực : Cơ quan bạn hành : Người ký : 1gày ban hành :

1gày hiệu lực ri lăn] : mnt sis a)

SSA aren TH /EXSVNN

Done

Hinh 13: Giao dién tim kiém theo Semantic Web

Tin kiém semantic web Tim kiếm bình thường

Trang 26

24 Bookmarks Tools

@ Getting Started Q Latest Headlines ] Google Search: glob

Tim thay 2 kết quả trong 2 file

Luật Thuế giá trị gia tăng {LuatThueGTGT htm

Sửa đổi, bỗ sung một số điều của Luật Thuế giá trị gia tăng

GSuaDotBoSungLuafThueGTGT hưm

Tổng số trang: i —

[ Trang trước | trang1

Done Trang kế tiếp ] Hình 14: Kết quả tìm kiếm

“File Edt Yew ‹ Go Bookmarks Toot Help

sac van ban lién quan

Van ban sửa Sửa đổi, bề sung một số điều của Luật Thuế gia trị gia

doi: tang CHUONG I NHỮNG QUY ĐỊNH CHUNG Điều 1 Thuê giá trị gia tăng

Thuẻ giá trị gia tăng là thuế tỉnh trên khoản giá trị tăng thêm của

Done

Hình 15; Xem noi dung văn bản

Trang 27

25

4.4 Hiện thực phan tìm kiếm dùng full text search

4.4.1 Sơ lược về Oracle Text

Oracle Text là cơng cụ cho phép xây dựng các ứng dụng truy vẫn văn bản va các ứng dụng phân loại tài liệu Mục đích của ứng dụng truy vấn văn bản là cho phép người dùng tìm văn bản cĩ chứa một hoặc nhiều điều kiện tìm kiếm Ứng dụng cĩ thể tạo chỉ mục và tìm kiếm

trên các tài liệu thuộc các định dạng phổ biến như thuần văn bản, HTML, XML, hoặc

Microsoft Word

Tạo chỉ mục cho tài liệu

Đê truy vân các tài liệu, ta phải đánh chỉ mục các cột văn bản trong bảng Hình dưới mơ tả bảng văn bản và chỉ mục Oracle Text của bảng trên?!

Text Tabie

Hinh 16: Tao chi muc Oracle Text

Cac loai chi muc

Oracle Text hé tro tao ba loai chi muc

Loai chi muc | M6 ta Tốn tử truy vân

CONTEXT Dùng để tạo chỉ mục cho các tai liệu cĩ các | CONTAINS

định dạng phổ thơng như Microsoft Word, HTML, XML, hoặc thuần văn bản Cĩ thể tuỳ biến chỉ mục theo nhiều cách

CTXCAT Dung chi muc nay dé dat toc độ truy vẫn CATSEARCH

nhanh cho các câu truy van phức hợp Phù hợp cho văn bản ngăn với cầu trúc như

ngày, tên giá chứa trong các cột của bảng

CTXRULE Dùng đề xây dựng ứng dụng phân loại | MATCHES

tài liệu

Trang 28

26

Trong ứng dụng này, tác giả sử dụng loại chỉ mục CONTEXT

Đồng bộ hĩa chỉ mục

Một điều quan trọng là chỉ mục Oracle Text khác với các loại chỉ mục khác của Oracle, chúng khơng cĩ khả năng tự động cập nhật khi dữ liệu được đánh chỉ mục thay đổi Khi thay đổi hay xĩa dữ liệu được đánh chỉ mục bằng Oracle Text, thì những chỉ mục trên đữ liệu này sẽ bị bỏ qua trong lần tìm kiếm sau này Để đữ liệu bị thêm, xố, sửa được chỉ mục Oracle Text cập

nhật, thì phải đồng bộ hĩa chỉ mục Ta cĩ thể dùng lệnh ALTER INDEX để đồng bộ hĩa, ngồi ra cĩ thể dùng thủ tục CTX_DDL.SYNC_INDEX để đồng bộ hĩa một chỉ mục

4.4.2 Thiết kế giao diện

a Fie Et view x

@-2@

TRA GUU VAN BAN LUAT

Tìm kiém semantic web Tìm kiếm bình thường

Go Bookmarks Tools Help SỐ tố

c-] Merlferal.- Từ khĩa: i ị Done

potest, stake, coehuadegts sanity sg "nh acc

Hình 17: Giao diện tìm kiếm bình thường dựa trên chỉ mục Oracle Text

Trang 29

27

4.5 Xây dựng các chương trình hỗ trợ

Tác giả cĩ xây dụng hai chương trình hỗ trợ

e© Chương trình hé tro nap file rdf va html: chương trình cho phép nạp xĩa các file rdf và html tir mot thu mục hoặc nạp riéng mot file va đồng bộ chỉ mục Quy ước tên file RDF phai cùng tên với tên file html

e©_ Chương trình hỗ trợ mơ tả văn bản: chương trình nhằm giúp người khơng am hiểu về

XML và RDF schema cĩ thể mơ tả văn bản dễ dàng

(.XbBisửa đổi ¡ Vb Hướng dẫn Í VbDằnchiếu Ì Chương mục điều

|" Thưột tính “Í— Vụ Cản cứ [vo Thaythé | vb Bi thay thé) YeSua doi |

Uri: | i Số hiệu: | j ThVnBĂN Tố Loại vẫn bản — ệ a ; tinh vực: é > Trch yếu Serr ch Chế định luật — | | CQbanhanh: | Người kế: | 7:

Ngay ban hanh: [ogo7/2005 $/ca

Nady higulue: 0307/2005 $/Ca

Trang 30

CHUONG 5: KET LUAN, HUONG PHAT TRIEN

_5.1 Tổng kết

Báo cáo này đã trình bày các khái niệm và kỹ thuật của Semantic Web, các tính năng của bộ cơng cụ để phát triển ứng dụng Semantic Web Jena va tim hiéu hé thống văn bản luật từ đĩ ứng dụng Semantic Web để xây dựng ứng dụng cơ sở dữ liệu luật

Tác giả cũng xây dựng một khối tìm kiếm dựa trên chỉ mục của cơ sở dữ liệu Oracle Text Phần này vừa là để đối chứng với khối hiện thực bằng Semantic Web vừa bổ sung cho ứng dụng thêm đa đạng về phương thức làm việc

Tác giả cũng đã xây dựng khối quản lý thêm xố các model và file html giúp người dùng dé đàng thao tác quản lý và xây dựng chương trình giúp mơ tả văn bản

5.2 Đánh giá

5.2.1 Ưu điểm

Khối hiện thực bằng Semantic Web đã xây dựng tập các thuộc tính của văn bản luật khá đầy đủ Với việc sử dụng các từ vựng mơ tả chỉ tiết các văn bản trong tập tin rdf cho phép người

dùng tìm kiếm với nhiều thơng tin đi kèm đã giúp tìm kiếm hiệu quả hơn so với tìm kiếm

bằng từ khĩa của khối hiện thực bằng Oracle Text So với các phần mềm tra cứu văn bản luật hiện nay thì ứng dụng này cĩ những tiến bộ về khả năng tìm kiếm chính xác Ứng dụng cũng

đồng thời cho người dùng cái nhìn tổng quát về sự ràng buộc giữa văn bản hiện tại với các

văn bản khác khi người dùng xem một văn bản Đề tài đã cho thấy các thế mạnh của Semantic Web trong nâng cao khả năng tìm kiếm theo ngữ nghĩa và khả năng ứng dụng của Semantic vào thực tế Tuy nhiên tìm kiếm chỉ là một phần trong nhiều ứng dụng của Semantic Web Với sự phát triển mạnh mẽ của cộng đồng nghiên cứu Semantic Web hiện nay thì khơng lâu nữa Semantic Web như hình dung của ơng Tìm Berners Lee sẽ thành hiện thực

5.2.2 Khuyết điểm

Mặc dù hiệu quả tìm kiêm của chương trình cao hơn các ứng dụng cơ sở dữ liệu luật hiện nay nhưng vẫn chưa thật ấn tượng, tốc độ cịn chậm Điều này là do tác giả chưa hiện thực kỹ thuật suy luận trong Jena và do ngơn ngữ RDQL cĩ những hạn chế

Trang 31

29

5.3 Hướng phát triển

Dé tai co thé phát triển hỗ trợ nhiều định dạng văn bản như pdf chứ khơng chỉ là html Sức

Trang 32

30

Phụ lục

Giới thiệu về SPARQL,

SPARQL là ngơn ngữ truy vấn thơng tin từ các dé thị RDF do tổ chức W3C đưa ra SPARQL cĩ các tính năng sau:

« _ Lấy thơng tin từ URI, nút rỗng (blank node), các kiểu van ban (literal) z

» _ Lấy các đồ thị RDF con

» - Xây dựng đơ thị RDF mới dựa trên thơng tin truy vân các đơ thị

SPARQL là ngơn ngữ truy vấn dữ liệu thích hợp cho truy vấn cục bộ lẫn từ xa Truy vấn từ xa phải thơng qua giao thức SPARQL So với RDQL và các ngơn ngữ khác như RQL, SPARQL

cĩ nhiều ưu điểm hơn như hỗ trợ các từ khĩa OPTIONAL, UNION, hỗ trợ sắp xếp, hỗ trợ

giới hạn số lượng kết quả v.v

Vi du vé ding OPTIONAL

PREFIX lv: <http://www.phapluat.org/luatviet/elements/1.0/> SELECT ?ten ?uri

WHERE { 2s lv:ten ?ten

OPTIONAL { ?s lv:vbBiSuaDoi ?uri}

} -

Từ khĩa PREFIX tương ứng với USING của RDQL Ví dụ trên liệt kê tên văn bản và văn bản

bị sửa đổi (nếu cĩ) Vi dy vé ding UNION

PREFIX dcl0: <http://purl.org/dc/elements/1.0/> PREFIX dcll: <http://purl.org/dc/elements/1.1/>

SELECT ?title

WHERE { { ?book dcl0:title ?title }

UNION { ?book dcll:title ?title } }

Ví dụ này liệt kê tựa các cuốn sách, và tựa các cuơn sách được mơ tả bằng bảng từ vựng Dublin Core phiên bản 1.0 hoặc phiên bản 1.1

Tuy nhiên SPARQL chưa được tuyên bố là chuẩn thống nhất Hiện nay nĩ chỉ ở mức

“Working Draft” là mức thấp nhất trong các tuyên bố của W3C Và hiện nay phần triển khai

SPAQRL vẫn chưa được đưa vào Jena

Trang 33

31

Tài liệu tham khảo:

[1] Tim Berners-Lee Semantic Web roadmap (1998) http://www.w3.org/DesignIssues/Semantic.html

[2] Michael C Daconta, Leo J Obrst - Kevin T Smith (2003) The Semantic Web: A Guide to the Future of XML, Web Services, and Knowledge Management

[3] W3C Recommendation 10 February 2004 http://www.w3.org/TR/2004/REC-rdf-syntax- grammar-20040210/

[4] Eric Miller (2004) Semantic Talking

http://www.w3.org/2004/Talks/0120-semweb-umich/ [5] Ivan Herman RDF Presentation

http://www.w3.org/Consortium/Offices/Presentations/RDFTutorial/ [6] http://jena.sourceforge.net/doc

[7] Sesame RQL: a Tutorial http://www.openrdf.org/doc/rql-tutorial.html [8] Shelly Powers (2003) Practical RDF O'Reilly & Associates

[9] OWL Web Ontology Language Overview

http://www.w3.org/TR/2004/REC-owl-features-20040210/ [10] OWL Web Ontology Language Reference

http://www.w3.org/TR/2004/REC-owl-ref-20040210/

[11] Jeen Broekstra, Arjohn Kampman, Frank van Harmelen (2001) Sesame: An Architecture for Storing and Querying RDF Data and Schema Information

[12] (2002) Oracle Text Application Developer’s Guide 9.2

Hét

Trang 34

nu

Ngày đăng: 24/04/2014, 17:18

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w