Ä
ĐỒN THANH NIÊN CỘNG SẢN HỊ CHÍ MINH BAN CHAP HANH TP HO CHi MINH
CONG TRINH DU THI
GIAI THUONG “KHOA HỌC SINH VIÊN - EUREKA” LAN 7 NAM 2005
TEN CONG TRINH: 4
NGHIEN CUU SEMANTIC WEB UNG DUN G XAY DỰNG CƠ SỞ DU LIỆU LUẬT VIÊT NAM
THUỘC NHĨM NGÀNH: KHOA HỌC TỰ NHIÊN
Mã số tơng trình:
Trang 2
DOAN THANH NIEN.CONG SAN HO CHi MINH BAN CHAP HANH TP HO CHi MINH
CONG TRINH DU THI
GIAI THUONG “KHOA HOC SINH VIEN ~ EUREKA” LAN 7 NAM 2005
TEN CONG TRINH:
NGHIEN CUU SEMANTIC WEB UNG DUN G XAY DUNG CO SO DU LIEU LUAT VIET NAM
THUỘC NHĨM NGÀNH: KHOA HỌC TỰ NHIÊN
Trang 3
1
Muc luc
CHUONG 1: GIOI THIEU soeeeceeesensseeuscscosscsseeeesesssceesesesscesersserescessessees 2 1,1 Động cơ và mục đích
22 211cc E211 ren 2
1.2 Cầu trúc đề tài eo Hee — TH re 2
CHƯƠNG 2: TƠNG QUAN, CÁC NGHIÊN CUU, UNG DUNG 3
2.1 Các ứng dụng lin quam eecesseessssssssecsssssssessssssussssesssssisessssiscsatitesossseeeceeeseeseeeesecccce 3 2.2 Semantic Web 1a gi? ccescsssssscssssecsssssesssssssuvessssssssusssssssasessussissessitivessssteseeseeeeeeeeec 4 2.3 Cau trúc phân tang cia Semantic Web .sssssccccsssssssssssessessssesseseeeeeeeeeeeeeeeeecc 5
CHUONG 3: RDF, OWL, JENA 5S no 9
l0 1.7171.114 9
3.1.1 Khái niệm RDF và RDE schema c csccsssssssssssssesssssesssssssssesstivesseeecsseeeeeeeeeeceec 9
3.1.2 Bảng từ vựng mơ tả RDF/RDES 22200 2n SE 1E 11
3.2 OWWÏ HHU n1 reo 12
B13 JOM 17ẶẤẶĂAMẠAA ai ai 14
3.3.1 GiGi ThiGt TaAH ga ad 14
3.3.2 Cú pháp của RDQL TTT11102222170111 11111 1111 T11 T1 grêg 14
CHƯƠNG 4: HIỆN THỰC, KÉT QUỮA Q ĐQQ QGQQ.nnnnHnnnreec 18 4.1 Phát biểu bài tốn tt HH 12 Erererreeeeeeeece 18
4.2 Tổng quan hệ thống văn bản luật Việt Nam nen 18
4.3 Hign thyc dling Semantic Web cc.cccccscscsssssesssssssessssssssssssssisessaseessuceeteeceeeeeeeeeecccec 20
4.3.1 Bảng từ vựng, tt H1 212 reo 20
4.3.2 Thiết kế lớp se TH Hee, 21
4.3.3 Cơ sở dữ liệu cho việc lưu trữ cAc VAN DAN voececsessssssesssscssssessssesesteeeeeeeeeeeeecececc 22
4.3.4 Cơ sở dữ liệu cho việc lưu các model RDE: 5s TH 22
4.3.5 Thiết kế giao diện 2222 23
4.4 Hiện thực phần tìm kiếm dùng full text search 5s tctn HH grg nghe ae 25
4.4.1 Sơ lược về Oracle Text 11112 neo 25
4.4.2 Thiết kế giao diện tre 26 4.5 Xây dựng các chương trình hỗ HƯỢ., ccc.c — tr re 27
CHƯƠNG 5: KẾT LUẬN, HƯỚNG PHÁT TRIỂN 2 2 28
2ˆ — TA ¬ 28
3.2 Đánh giá 5.2.1 Ưu điểm con 2110 0 2 eerrereerrrdeeeseeeeeeee 28
222222221 121111 rreeerreeeeeee 28 5.2.2 Khuyết điểm 222 te Hrrrrrrrrrrreeeeeeeeeeeo 28
5.3 Hướng phát triỂn .-222c22L the 29
Phụ lục - Set Hành SE TH TH 30
Giới thiệu về SPARQL, .ttn212222 n2 30
Tat 1i@u thar Khao: 5M 11L 31
Trang 4
CHƯƠNG I1: GIỚI THIỆU
1.1 Động cơ và mục đích
Hiện nay số lượng các văn bản pháp luật của Việt Nam rất lớn Hằng năm lại bổ sung thêm nhiều văn bản mới Các văn bản lại cĩ quan hệ với các văn bản khác như quan hệ điều chỉnh bổ sung, thay thế Bản thân các văn bản lại cĩ kèm theo các biểu mẫu các phụ lục khiến người dùng khĩ tìm kiếm Việc sắp xếp và tìm kiếm các văn bản pháp luật gặp nhiều khĩ
khăn do sơ lượng lớn và do các quan hệ giữa các văn bản phức tạp
Đề tài này sẽ xây dựng một hệ thống cơ sở đữ liệu lưu trữ các văn bản pháp luật, các cơng cụ hỗ trợ quản trị các văn bản, mơ tả văn bản cùng cơng cụ hỗ trợ truy xuất cơ sở đữ liệu luật này Ứng dụng này chạy trên mơi trường web, nên mọi người cĩ thể truy xuất dễ dàng nhanh
chĩng Các văn bản sẽ được thể hiện dưới dạng một trang web, và cĩ các đường liên kết đến các văn bản liên quan
1.2 Cấu trúc đề tài
Cấu trúc của đề tài gồm các phần sau:
Chương l: trình bày về bài tốn xây dựng cơ sở dữ liệu luật Việt Nam
Chương 2: trình bày về các nghiên cứu và các ứng dụng của Semantic Web — một cơng nghệ
được xem sẽ là cuộc cách mạng về web lần thứ hai Semantic web được ứng dụng vào hệ
thống cơ sở dữ liệu luật Việt Nam
Chương 3: Cĩ nhiều đự án nhằm dua Semantic Web thành hiện thực một trong số đĩ là bộ cơng cụ nguồn mở Jena của hãng HP Chương này sẽ giới thiệu về ngơn ngtt RDF, OWL va các tính năng của bộ cơng cụ Jena
Chương 4: trình bày về thiết kế của chương trình, hiện thực phân thiết kế và kết quả thực nghiệm
Chương 5: sẽ tổng kết và đánh giá những kết quả đạt được và đề ra hướng phát triển mở rộng của dé tai nay
Trang 5
CHUONG 2: TONG QUAN, CAC NGHIEN CUU, UNG DUNG
2.1 Các ứng dụng liên quan:
Hiện nay trên thị trường cĩ nhiều phần mềm tra cứu văn bản luật xuất bản trên đĩa CD hoặc tra cứu trực tuyến Nhìn chung các phần mềm này hỗ trợ tốt tra cứu dựa trên tiêu đề hoặc nội dung, tuy nhiên phần tra cứu nâng cao lại khơng được tốt Ví dụ như phần mềm Thư viện pháp luật của cơng ty VnReview tra cứu với từ “thuế thu nhập” trên tiêu đề cho 227 kết quả nhưng khi tìm kiếm nâng cao cĩ ràng buộc ngày từ 01/01/1995 đến 01/01/2005 lại báo tìm
thấy 8113 kết quả Hơn nữa, kết quả trả về lại khơng chính xác liên quan đến từ khĩa
5 trong iTiéu đề vi Ngày 13/08/2001
- 3 _Cơng văn 923/TCT/NV2 của Téog cục Thuế về việc 28/02/2002 923/TCT/NV2 => văn
4, Pháp lệnh Thuế thu nhập đối või người cĩ thụ nhập — 07/01/1391 501CT/HĐN _ Pháp lệnh
_ 5 Pháp lệnh Thuế thu nhập đối với người cĩ thu nhập (3/06/1894 —_ 2 Paap | TH n 3 “anv |
KET Qua: 227 thơng tin đã tìm thấy A
Hình 1: Tìm kiếm với từ khĩa “thuế thu nhập”
Trang 6
Một ví dụ thứ hai, phần tìm kiếm văn bản luật trực tuyến trên trang web Viện khoa học pháp lý - Bộ tư pháp (www.ilr-moj.ac.vn) trả về kết quả khơng đúng ngữ nghĩa khi tìm kiếm Tuy nhiên trang này cĩ thể hiện mối liên quan giữa các văn bản khá tốt như văn bản căn cứ, văn bản thay thế
2.2 Semantic Web là gì?
Từ khi được thiết kế, Web được xem là nơi để chứa thơng tin, dữ liệu, và mục đích khơng
những để con người và con người kết nối với nhau, mà cịn cho phép máy tính tham gia và trợ giúp con người Thế nhưng một trong những trở ngại thực tế, đĩ là thơng tin trên Web thực tế chỉ sử dụng được cho con người Khơng đề cập đến vấn đề trí tuệ nhân tạo sẽ huấn luyện máy tính cĩ những hành vi, tư duy giống con người, ý niệm Semantic Web sẽ là ngơn ngữ giúp cho máy tính cĩ thể tự xử lý trên những luồng thơng tin dữ liệu được định nghĩa và tổ chức tốt Thay vì địi hỏi máy tính phải hiểu ngơn ngữ của con người, nĩ sẽ cố gắng địi hỏi con người trang bị những thứ mở rộng cho nĩ
Chúng ta hãy xem xét sự so sánh giữa hai mơ hình cấu trúc tài nguyên như sau:
inks Ts Resource links To links To hasManus links Te requires requires Library links To inPartOt UnksTo
Hình 3: Cấu trúc liên kết tài nguyên Hình 4: Mơ hình liên kết tài nguyên theo
hiện nay huoéng Semantic
Trang 7
Đối tượng Cau trúc liên kết tài nguyên Mơ hình liên kết tài nguyên trong
hiện nay tương lai
Tài nguyên - Được xác định bởi URI - Được định nghĩa chung bởi URI
- Khơng cĩ định đạng cố định - Hoặc bị giới hạn lại
- Khơng bị giới hạn - Cĩ mối quan hệ
Liên kêt - La href hay sre, - Duoc xac dinh URI
- Khơng giới hạn, khơng mơ tả - Khơng bị giới hạn
trước - Cĩ mỗi quan hệ
Người dùng - Giới hạn sử dụng và quản lý dữ | - Khơng giới hạn đối với nguoi sử
liệu dụng
Máy - Thơng tin dữ liệu tự nhận được | - Nhiều thơng tin dé dé đàng xử ly
rat khan hiém
Máy và người - Làm việc, học hỏi và trao đơi dữ
liệu một cách hiệu quả
Vậy định nghĩa Semantic Web là: Máy tính cĩ thể hiểu được thơng tin, W4 '
liên kết Web lại với nhau (Semantic Web Introduction W3C) a
Semantic Web la y tưởng của Tim Berners Lee Ơng là người phát minh ra WWW, URIs,
HTTP, và HTML Cĩ một nhĩm người ở World Wide Web consortium (W3C) dang làm việc
tăng cường, mở rộng và chuẩn hĩa các hệ thống ,các ngơn ngữ, đồng thời phát triển các cơng cụ và các xuât bản nhắm đưa Semantic Web thành hiện thực
Trust Proof Logic Framework Rules Ontology] | RDF Schema RDF M&s| 3 XMI|[Namespaces URIUnicode ainjeubis ONGAIOUS TAX
Hình 5: Cấu trúc phân tang của Semamtic Web do Tìm Berners Lee dua ra
Tang 1 - URI va Unicode
2.3 Cau tric phan tang ciia Semantic Web
Trang 8
URI là viết tắt của Uniform Resource Identifiiers - định danh tài nguyên đồng nhất RI cho phép diễn đạt cách truy tìm tài nguyên trên Internet
Unicode là bộ mã tiêu chuẩn quốc tế cho phép thể hiện hầu hết ngơn ngữ trên thế giới Tang 2 — XML và Namsapace
XML 1a dinh dang chuẩn xuất bản dữ liệu XML rất phố biến, cĩ nhiều ứng dụng và
cĩ nhiều cơng cụ hỗ trợ
Namspace (khơng gian tên) là phần mở rộng của XML cho phép nhĩm các thẻ vào một nhĩm Semantic Web cĩ nhiều từ vựng trùng nhau, namespace cung cấp khả năng
phân biệt ý nghĩa các từ vựng
Tầng 3 - RDF Model và RDF Schema
RDF là một đồ thị giống như mạng ngữ nghĩa để mơ tả các thực thể
RDF Schema (RDFS): là ngơn ngữ dùng để mơ tả từ vựng RDF RDES cĩ thể mơ tả
cây phân cấp lớp và cây phân cấp thuộc tính RDFS được dùng để thể hiện mối quan hệ giữa các lớp hon 1a dé rang buộc cấu trúc như XML Schema
Tang 4 - Ontoloty Web Language (OWL):
OWL mơ tả ý nghĩa của từ vựng và quan hệ giữa các từ vựng với nhau OWL cung cấp nhiều tính nang hon RDFS
Tang 5 - Rules (các luật)
Tang Rules cho phép ta suy luận tri thức mới và ra quyết định Tầng Rules cung cấp cách thức chuẩn để truy vấn và lọc RDF Hiện nay mọi người đang thí nghiệm với các cơng cụ xử lý RDE dùng luật nhưng chưa cĩ chuẩn thống nhất
Tầng Rules là một dạng logic “căn bản”, trong khi Logic Framework sẽ là logic “nâng cao” Tang Logic framework cho phép các chứng cứ logic (formal logic proofS) được chia sẽ Cuối
cùng, với sự hỗ trợ của các chimg cir manh (robust proofs), tang Trust cé thé duoc thiét lập
Trang 97 œ œ ® >> ———m = = sa, Web ont = = Source 5 < 6 x
o : & 8 <person rdfinslance=" > kới — tr ˆ A 3 Be = 6 <name>
>X (HF -——- TU) <Brstname> dưrai F q = = Fe = 5 <firsiname>
oO O + can ba <lastnaree> Janosik
= 9 =| senity-class name = "House"> mm ‘fe oe "DORE T" a <fiastname>
£5 ws, 8 E <entity-instance ID="10_0"> <attr attlD= "ZIP_CODE“> Ee 8 towed ae ken oy S2 & | <person> ee <name> oO =
=8 Jd a 5 s " <CDATA| 5223PT]i> a 8 | «distance ‘tance oO " = x
= 5 fan? cụ a from= "2342S" —
= E „ */entity instance> tes s E to="224 1RE" = †
Ȏ <Jentily-class> S kra = "150" &
[ x | x XMLIRDF query
XML query ~ XML query BATA
bo DATA DATA eel
= oe se tater g SE sess os TƯ ae ik ee
`
` & XML-RDF XML-RDF RDF-RDF
= Broker Broker Broker
s panne ene - wee anne t ‡ }
REF query
RDF query ROF query
œ RDF-XML DATA RDF-XML DATA C RDF-XML DATA
G Domain Model
3 _ (concepts; relations, axioms
SH TH n0 MEDIATOR sỊ 3a O md RDF Query Engine a x = o S 4 | ° u 2 } | a
= RDF query RDF-XML DATA RDF query =
` RDF-XML DATA 4} an -L_ ‘ QL c ` ¥ me 2 | UI | co : oe
a4 _ RDF-XML DATA | | laSes External
«4 = o t re o-28 App — wo o = 23 ae | o E | 13 538 “a (Search) \ |] 8 | la ” NV Agent Jo |_ _——— info request | presentation
PDA Mobile P62 Pere
Hình 6: Cấu trúc cơ bản của việc tích hợp ngữ nghĩa từ nhiều nguồn tài nguyên:
Trang 10
Phân Lớp Mo ta
Source Layer Chita những dữ liệu tài nguyên bên ngồi như mỗi quan hệ
hoặc đối tượng của cơ sở dữ liệu, trang HTML, nguon XML, hoặc RDF gơc Chương trình sẽ tổng hợp hồn tồn những nguồn chung này, thơng qua Web Yêu câu chính của tài nguyên là cĩ khả năng chuyền đổi sang dạng XML
XML Instance Layer | XML instance layer sẽ lây đữ liệu XML tuần tự này từ layer trước đĩ Đơi khi hai lớp này được xem là một
XML2RDF Layer XML2RDF layer duoc xem 1a cau néi giữa - XML instance
layer với Mediator RDF Khi cĩ một truy vấn từ lớp Mediator, việc ánh xạ trong XML2RDF sẽ được thực hiện và ngược lại
Inference / Mediating RDF Mediator 1a trung tam cua kién trúc này Nĩ điều khiến
Layer hoạt động của mơ hình, cung cấp truy vấn và đưa ra dịch vụ,
kết quả tìm kiếm
Mơ hình khái niệm bao gồm một lớp phân cấp với lớp thuộc tính, và mơt bộ những quy tắc giao tiếp giữa lớp và thuộc tính Application Layer tiếp với lớp này Ví dụ điển hình chương trình tìm kiếm Lớp các chương trình ứng dụng, người dùng chỉ thao tác trực
Trang 11
CHUONG 3: RDF, OWL, JENA
3.1 RDF
3.1.1 Khai niém RDF va RDF schema
at RDF là ngơn ngữ biểu diễn, mơ tả thơng tin tài nguyên của World Wide Web Thơng
tin được mơ tả ví dụ bao gồm tựa đề trang, tác giả, ngày cập nhật, bản quyền liên quan đến trang web đĩ, hoặc để cĩ khả năng triển khai chiến lược chia sẻ tài nguyên Ngồi ra RDF cịn cĩ thể được dùng mơ tả những thơng tin cĩ thể nhận dạng trên Web, ngay cả những thơng tin này cĩ thể khơng được lấy trực tiếp từ trang web RDF sẽ được dùng ở nơi thơng tin được xử lý bởi nhiều trình ứng dụng, hơn là nơi chỉ xuất thơng tin cho người xem
RDF cung cấp một nền tang chung (common framework) cho phép trao d6i thơng tin giữa hai chương trình khác nhau mà ngữ nghĩa khơng bị thay đổi Khả năng trao đổi thơng tin giữa hai chương trình cĩ nghĩa là thơng tin này sẽ được chương trình bên kia hiểu được ngay khi thơng tin được tạo ra Từ nền táng chung này, sẽ là địn bẩy để những nhà thiết kế ứng dụng cĩ thé phát triển những trình phân tích (parser) RDE chung và những cơng cụ xử lý
Xét ví dụ RDE: "Nguyễn Dư” hasName http7/www,thinhanvn.org/NguyenDu | | hasWritten Y TA [ http:/ww.minhkhai.com/ISBN000104758ã | “Truyện Kiêu" Hình 7: ví dụ đồ thị mơ tả
RDF cũng cung cấp một dạng đồ vật hĩa (reification) để một phat biéu RDF cĩ thể là một đối
tượng hoặc giá trị của một phát biểu khác Điều này cĩ nghĩa các đồ thị cĩ thể gộp lại như
một chuỗi xích Một phát biểu của ai đĩ khơng rõ ràng, ta cĩ thể mơ tả nĩ thuộc loại gì ví dụ như phát biểu “ISBN0001047588§” cĩ kiểu là Book, Book được định nghĩa trong RDF schema
Trang 12
10
Mơ hình RDF và cú pháp dựa trên cú pháp XML thể hiện mơ tả trên như sau:
<rdf:Description rdf:about="http: //www thinhanvn.org/NguyenDu">
<s:hasName>Nguyén Du</s:hasName> <s:hasWritten rdf: resource="http: //www.minhkhai.com/ISBN0001047588"/> </rdf:Description> <rdf:Description rdf:about="http://www minhkhai.com/ISBN0001047588"> <s:title>Truyén Kiéu</s:title>
<rdf:type rdf:resource="http: //www.description.org/schema#Book"/> </rdf:Description>
Cú pháp XML trên đây chỉ là một trong nhiều cách viết mơ hình RDF xuống XML vì RDE rất
linh hoạt
RDF Schema là một kỹ thuật cho phép định nghĩa từ vựng riêng cho đữ liệu RDF (ví đụ như
hasWritten) và các loại đối tượng đặc biệt để gán cho thuộc tính (ví dụ như Writer) RDF
Schema dùng các thuật ngữ đã được định nghĩa trước như Class, subClassOf và Property, dé tao luge dé RDF Schema cũng dùng để kiểm hợp lệ các phát biểu RDF Sự khác nhau giữa phát biểu RDF “thơng thường” và RDF Schema là RDF Schema tạo ngữ nghĩa cho thuật ngữ và giải thích các phát biểu Ví dụ, thuộc tính subC1assO£ cho phép định nghĩa phân cấp lớp Các đối tượng cĩ thể cho biết kiểu bằng cách dùng thuộc tính type Các thuộc tính domain và range cĩ thể dùng để xây dựng ràng buộc giữa các lớp thuộc tính
subClassOf
| FamousWriter |
i Schema type type Dữ liệu
hasWriHen ¬
[ http:/Awwew.thinhanvn.org/NguyenDu — http:/Axww.minhkhai.com/ISBN0001047588
Hình 8: Méi quan hé giita dit liéu RDF va RDF Schema
Trên đường nét đứt trong hình trên, chúng ta thay vi du RDF schema định nghĩa từ vựng cho
ví dụ RDF ở trên: Book, Writer và FamousWriter là các lớp, và hasWritten là thuộc tính Một thể hiện bên đưới đường nét đứt được mơ tả bằng các thuật ngữ của từ vựng trên
Trang 13
1]
3.1.2 Bảng từ vựng mơ tả RDF/RDFS
RDF/RDEFS cung cấp các từ vựng để mơ tả tài nguyên và mơ tả từ vựng trong khơng gian
miên rdf va rdfs Lép RDF/RDFS
Thanh phan Lớp của Lớp con của
rdfs:Class Mọi lớp
rdfs:Datatype Kiểu dữ liệu Class
rdfs:Resource Moi tai nguyén Class
rdfs:Container Containers Resource
rdfs:Literal Chữ và số Resource
rdf:List Danh sách Resource
rdf:Property Các thuộc tính Resource
rdf:Statement Các phát biêu Resource
rdf:Alt Containers of alternatives Container
rdf:Bag Danh sách khơng thứ tự Container
rdf:Seq Danh sách cĩ thứ tự Container
rdfs:ContainerMembershipP | Quan hệ giữa các danh sách Property
roperty
Rdf:XML Literal XML literal values Literal
Thuộc tinh RDF/RDFS
Thanh phan Pham vi Mién
rdfs:domain Property Class
rdfs:range Property Class
rdfs:subPropertyOf Property Property
rdfs:subClassOf Class Class
rdfs:comment Resource Literal
rdfs:label Resource Literal
rdfs:isDefinedBy Resource Resource
rdfs:seeAlso Resource Resource
rdfs:member Resource Resource
rdf:first List Resource
rdf:rest List List
rdf:subject Statement Resource
rdf:predicate Statement Resource
rdf:object Statement Resource
rdf:value Resource Resource
rdf:type Resource Class
Trang 14
12
3.2 OWL
a) Tai sao can OWL
Semantic Web 1a tuong lai cua Web mà thơng tin được gắn với ý nghĩa, tức làm cho thơng tin dễ xử lý và tích hợp thơng tin trong Web Semantic Web dựa trên khả năng của XML để định
nghĩa các khuơn mẫu thẻ và RDF để thể hiện dữ liệu Cấp đầu tiên trên RDF trong mơ hình
phân cấp Semantic Web là ngơn ngữ bản thể (ontology language) cĩ thể mơ tả ý nghĩa của thuật ngữ dùng trong các tài liệu Web RDF Schema là bảng từ vựng để mơ tả các thuộc tính (property) và lớp của tài nguyên RDE, với một ngữ nghĩa cho cây khái quát hĩa của thuộc tính và lớp OWL đưa thêm vào từ vựng để mơ tả thuộc tinh va lớp như: quan hệ giữa các lớp (Vd: disjointness), số lượng phần tử (Vd: "exactly one")
OWL bao gồm bốn khái niệm:
e Lớp
e Méi quan hé giữa các lớp e Thuơc tính của lớp
e_ Ràng buộc trên mối quan hệ giữa thuộc tính và lớp
OWL đã được tổ chức W3C chuẩn hĩa từ tháng hai năm 2004
b) Ba ngơn ngữ của OWL
OWL cung cấp 3 ngơn ngữ được thiết kế để nhà phát triển và người dùng sử dụng cho các mục đích riêng
° OWL Lite hé tro cho ngudi dùng các yêu cầu chính yếu cần hệ phân cấp và các ràng buộc đơn giản Ví dụ, nĩ hỗ trợ ràng buộc số lượng phần tử cho phép giá trị là 0 hoặc 1 Việc cung cấp các cơng cụ hỗ trợ OWL Lite sẽ đơn giản hơn so với cho các ngơn ngữ tương đương khác
« OWL DL hỗ trợ người dùng muốn diễn đạt thống hơn trong khi muốn giữ lại khả
năng máy tính tốn và khả năng ra quyết định OWL DL bao gồm tất cả thành tố của
ngơn ngữ OWL, nhưng chỉ cĩ thể dùng trong các giới hạn (Vd, một lớp cĩ thể là lớp
con của một hay nhiều lớp, một lớp khơng thể là một đối tượng (instance) của lớp
khác)
Trang 15
13
« OWL Fui! dành cho người dùng muốn diễn đạt tự đo nhất và cú pháp tự do của RDF
nhưng khơng đảm bảo tính tốn được Ví dụ, trong OWL Full một lớp cĩ thể đồng
thời được coi là tập hợp của các cá thể dưới đanh nghĩa một đơn thể OWL Full cho phép một bản thê gia cố ý nghĩa của từ vựng Nĩ khơng bảo đảm các phần mềm suy
luận sẽ hồn tồn hỗ trợ mọi tính năng của OWL Full
Các ngơn ngữ cĩ quan hệ nhau như sau (quan hệ một chiều)
¢ Moi ban thé OWL Lite hop 1é thi cing 1a ban thé OWL DL hop lệ ‹ _ Mọi bản thể OWL DL hợp lệ thì cũng là bản thể OWL Full hợp lệ ‹ Moi két nan OWL Lite hợp lệ thì cũng là kết luận OWL DL hợp lệ ¢ Moi kết luận OWL DL hợp lệ thì cũng là kết luận OWL Full hợp lệ
OWL Full cĩ thể xem như phần mở rộng của RDE, trong khi OWL Lite và OWL DL cĩ thể
xem như mở rộng cĩ giới hạn của RDE Mọi tài liệu OWL (Lite, DL, Full) cũng là tài liệu RDE, và mọi tài liệu RDF là một tài liệu OWL Full, nhưng chỉ một số tài liệu RDF sẽ là tài
liệu OWL Lite hoặc OWL DL hợp lệ Vì vậy phải cần thận khi muốn chuyển tài liệu RDE
sang OWL Vi du: <owl:Class rdf: ID="ResourceMovement"> <rdfs: subClassOf> <owl:Restriction> <owl:onProperty rdf:resource="#movementType"/> <owl:cardinality rdf:datatype="&xsd;nonNegativelInteger"> 1 </owl:minCardinality> </owl:Restriction> </rdfs:subClassOf> </owl:Class>
Day là mơ tả về lớp ResourceMovement, lớp này cĩ thuộc tính #movementType và đối tượng của lớp ResourceMovement chỉ được phép cĩ một và chỉ một thuộc tính
#movementTvpe
Trang 16
14
3.3 Jena
3.3.1 Gidi thiéu
Jena là một Java framework nguồn mé do céng ty Hewlett-Packard phát triển dé viết các ứng dụng Semantic Web Jena cĩ các tính năng sau:
RDF API
e Cac phuong thitc xt ly RDF model nhu 1a tap cac triples
« Cac phương thức xử lý RDF model như là tập các tài nguyên resources với thuộc tính
¢ H6 tro RDF containers - bag, alt va seq e Cac thư viện tiện ích
« - Tích hợp bộ phân tích và ghi RDF/XML (ARP), N3 và N-TRIPLES « - Hỗ trợ các kiểu đữ liệu literal
Persistence
Jena cung cấp phần mở rộng cho lớp Jena Model cho phép lưu các model trong cơ sở
đữ liệu Jena chính thức hỗ trợ cơ sở đữ liệu PostgreSQL, MySQL, Oracle
Hệ thống lý luận (Reasoning Subsystem)
Hệ thơng lý luận gồm các luật chung dựa trên động cơ suy luận cùng với các luật cầu hinh cho RDFS va cho OWL Lite Hé ly luận này cĩ thể được dùng để xây dung cac inference models — thé hién cdc phát biểu đã trải qua lý luận Hệ này được thiết kế để cĩ thể mở rộng nên cĩ thể gắn thêm các suy luận vào Jena
RDQL query language
Ngơn ngữ truy vấn RDQL là ngơn ngữ truy vấn đơn giản cho dữ liệu RDF giúp thực hiện các truy vẫn phức tạp
3.3.2 Cú pháp của RDQL
Query <EOF>
CompilationUnit
CommaOpt ::= (<COMMA> )?
Query ::= SelectClause ( SourceClause )? TriplePatternClause
Trang 17SelectClause SourceClause SourceSelector TriplePatternClause ConstraintClause TriplePattern VarOrURI VarOrLiteral Var :: PrefixesClause PrefixDecl Expression _ ConditionalOrExpression ConditionalXorExpression ConditionalAndExpression ValueLogical StringEqualityExpression NumericalLogical InclusiveOrExpression ExclusiveOrExpression AndExpression ArithmeticCondition EqualityExpression RelationalExpression NumericExpression ShiftExpression 15 ( ConstraintClause )? ( PrefixesClause )?
= (<SELECT> Var ( CommaOpt Var )* | <SELECT> "*" ) = (<SOURCE> | <FROM?> ) SourceSelector ( CommaOpt
SourceSelector )* = URL
= <WHERE> TriplePattern (CommaOpt TriplePattern )*
= <SUCHTHAT> Expression ( (<COMMA> |
<SUCHTHAT> ) Expression )*
= <LPAREN> VarOrURI CommaOpt VarOrURI CommaOpt VarOrLiteral <RPAREN>
= Var | URI = Var
| Literal "2" Identifier
= <PREFIXES> PrefixDecl ( CommaOpt PrefixDecl )* = Identifier <FOR> QuotedURI
= ConditionalOrExpression
::= ConditionalXorExpression (<SC_OR> ConditionalXorExpression )*
:= ConditionalAndExpression
= ValueLogical (<SC_AND> ValueLogical )* = StringEqualityExpression
= NumericalLogical (<STR_EQ> NumericalLogical | <STR_NE> NumericalLogical | <STR_MATCH> PatternLiteral | <STR_NMATCH> PatternLiteral )* ::= InclusiveOrExpression
:= ExclusiveOrExpression ( <BIT_OR> ExclusiveOrExpression )*
:= AndExpression ( <BIT_XOR> AndExpression )* = ArithmeticCondition (<BIT_AND>
ArithmeticCondition )*
= EqualityExpression
= RelationalExpression ( <EQ> RelationalExpression | <NEQ> RelationalExpression )?
= NumericExpression ( <LT> NumericExpression | <GT> NumericExpression | <LE> NumericExpression | <GE> NumericExpression )?
= ShiftExpression
z= AdditiveExpression ( <LSHIFT= AdditiveExpression |
Trang 18
16
<RSIGNEDSHIFT> AdditiveExpression | <RUNSIGNEDSHIFT> AdditiveExpression )* AdditiveExpression ::= MultiplicativeExpression ( <PLUS>
MultiplicativeExpression | <MINUS>
MultiplicativeExpression )*
MultiplicativeExpression ::= UnaryExpression (<STAR> UnaryExpression <SLASH> UnaryExpression | <REM>
UnaryExpression )*
UnaryExpression ::= UnaryExpressionNotPlusMinus
| (<PLUS> UnaryExpression | <MINUS>
UnaryExpression )
UnaryExpressionNotPlusMinus ::= ( <TILDE> |<BANG> ) UnaryExpression
| PrimaryExpression PrimaryExpression ::= Var
| Literal
| <LPAREN> Expression <RPAREN>
Literal c RI | NumericLiteral | TextLiteral | BooleanLiteral | NullLiteral NumericLiteral ::= (<INTEGER_LITERAL> | <FLOATING_POINT_LITERAL> )
TextLiteral ::= (<STRING_LITERALI> | <STRING_LITERAL2> ) ( <AT> Identifier )? (<DATATYPE> URI )?
PatternLiteral ::= BooleanLiteral ::= <BOOLEAN_LITERAL> NullLiteral := <NULL_LITERAL> URL ::= QuotedURI URI ::= QuotedURI | Qname
QName ::= Identifier ":" Identifier QuotedURI ::= "<" <URIc ">"
Identifier ::= (<IDENTIFIER> | <SELECT> | <SOURCE> | <FROM> | <WHERE> | <SUCHTHATS | <PREFIXES> | <FOR> | <STR_EQ> | <STR_NE>)
Sau đây là một số ví dụ:
Lấy giá trị của thuộc tính từ một tài nguyên đã biết
Trang 19
17
SELECT ?x
WHERE (<http: //somewhere/res1>, <http: //somewhere/predl>, 2x)
Chi dinh RDF model trong truy vấn
SELECT ?a, ?b
FROM <http: //somewhere/modell.rdf> WHERE (2a, <http://somewhere/predl>, ?b)
AND 2b < 5
Liệt kê các phần tử của một node kiểu bag
SELECT 2s, 2u WHERE
(?s,
<http://www.phapluat.org/luatviet/elements/1.0/maHTML>, ?maHtml),
(2s, <http://www.phapluat org/luatviet/elements/1.0/lienQuan>, Pu),
(?u, <http: //www.w3.org/1999/02/22-rdf-syntax-ns#type>, <http: //www.w3.org/1999/02/22-rdf-syntax-ns#Bag>)
AND ?maHtml == !112!
Trang 20
18
CHƯƠNG 4: HIỆN THỰC, KÉT QUÁ
4.1 Phát biểu bài tốn
Từ khi thành lập nhà nước Cộng hồ Xã hội Chủ nghĩa Việt Nam đến nay số lượng các văn bản luật do các cơ quan nhà nước ban hành mỗi năm một tăng Do số lượng rất lớn sẽ gây khĩ khăn cho người dùng tra cứu Chương trình ứng dụng Semantic Web xây dựng cơ sở đữ liệu luật Việt Nam sẽ xây dựng một ứng dụng web hỗ trợ người dùng tìm kiếm các văn bản luật dựa trên kỹ thuật của Semantic Web Chương trình hỗ trợ tìm kiếm cơ bản và tìm kiếm theo Semantic Web Với phần tìm kiếm cơ bản, người dùng nhập từ khĩa vào và tìm kiếm, chương trình sẽ xuất ra các văn bản tìm được sắp xếp theo điểm chính xác giảm dan Diém
ghi dưới dạng phần trăm Điểm cao nhất là 100% Với phần tìm kiếm Semantic Web người
dùng cĩ thể nhập nhiều thơng tin liên quan đến văn bản muốn tìm để thu nhỏ tập kết quả Người dùng cĩ hai lựa chọn là tìm khơng chỉ tiết và tìm chỉ tiết Tìm chỉ tiết là chương trình sẽ xuất ra các mục trong văn bản cĩ từ khĩa tìm thấy Tìm khơng chỉ tiết thì chương trình sẽ xuất ra các tên văn bản tìm thấy như với tìm kiếm cơ bản
4.2 Tơng quan hệ thơng văn bản luật Việt Nam
Theo nguồn CD Phần mềm thư viện pháp luật của cơng ty VnReview và báo pháp luật, các
loại văn bản luật Việt Nam gồm:
1.Chỉ thị 6.Hướng dẫn 12.Quy chế 18.Thơng tư
2.Cơng ước 7.Luật 13.Quy định 19.Thơng tư liên
2.Cơng văn 8.Nghị định 14.Quyết định tịch
3.Hiến pháp 9.Nghị định thư 15.Sắc lệnh
4.Hiệp định 10.Nghị quyết 16.Sắc luật
5.Hiệp ước 11.Pháp lệnh 17.Thơng báo
Các thuộc tính của văn bản:
Thuộc tính của văn bản Y nghĩa
Số hiệu văn bản Mỗi văn bản đêu cĩ số hiệu riêng khơng lặp lại Trong số
hiệu thường ghi nhận năm ban hành, loại văn bản, cơ quan
ban hành VD: 18/2005/NĐ-CP
Tên văn bản Tên nguyên văn của văn bản
Trích yêu Tĩm tắt nội dung chính của văn bản
Trang 21
19
Cơ quan ban hành Cơ quan ban hành văn bản này
Lĩnh vực Lĩnh vực của nội dung văn bản này đề cập
Chê định luật Phân loại theo cấp thâp hơn lĩnh vực
Ngày ban hành Ngày ký văn bản này
Ngày cĩ hiệu lực Ngày cĩ hiệu lực của văn bản Nêu trong văn bản khơng
nĩi rõ ngày nào cĩ hiệu lực thì văn bản sẽ cĩ hiệu lực 15 ngày sau ngày đăng trên cơng báo
Người ký Người ký quyết định ban hành văn bản này
VỆ mơi quan hệ giữa các văn bản cĩ các thuộc tính sau:
Văn bản căn cứ: Mỗi văn bản đều cĩ trích dẫn tên các văn bán luật mà văn bản này căn cứ vào cho phép đê xây xựng nội dung của văn bản này
Van ban bj thay thé: Cac van ban khơng cịn phù hợp sẽ được các cơ quan cĩ thâm quyên ban hành văn bản mới thay thê cho văn bản cũ
Văn bản bị sửa đồi bồ sung: Các văn bản cũ cĩ vài điểm khơng phù hợp, các cơ quan cĩ thâm quyên sẽ ban hành văn bản cĩ nhiệm vụ sửa đổi bổ sung các điều khoản khơng phù hợp trong văn bản bị sửa đơi bồ sung
- Văn bản hướng dân: văn bản hướng dẫn các cơ quan cách thi hành các điều khoản trong văn bản khác
Văn bản dẫn chiếu: là tên văn bản được đề cập trong nội dung của văn bản
Văn bản thay thê: Văn bản này đã cĩ văn bản khác thay thế Thuộc tính nay trái ngược với thuộc tính văn bản bị thay thế
Văn bản sửa đơi bơ sung: Văn bản hiện tại cĩ các điều khoản khơng cịn phủ hợp nữa, cơ quan cĩ thâm quyên đã cĩ ra văn bản sửa đối bỗ sung một số điều khoản trong văn bản hiện tại Thuộc tính nàu trái ngược với thuộc tính văn bản bị sửa đổi bổ sung
Cầu trúc tơng quan của văn bản:
Các văn bản dài mới cĩ chia Phân, thơng thường văn bản cĩ độ dai trung bình phân cập theo Chương Mục Điều, các văn bản ngắn hơn thì phân cap theo Chương, Điêu Phân, Chương, Mục đều cĩ tiêu dé, riêng Điêu cĩ thể cĩ hoặc khơng Một số ít văn bản ngăn thì khơng cĩ phân cấp như trên
Trang 22
20
4.3 Hiện thực dùng Semantic Web
Tác giả sử dụng các kỹ thuật của Semantic Web để xây dựng cơ sở dữ liệu luật với các lý đo sau Semantic Web là một hướng đi mới trong lĩnh vực tìm kiếm vì Semantic Web tập trung vào ngữ nghĩa khơng như các kỹ thuật tạo chỉ mục hiện nay chỉ quan tâm tới từ khĩa xuất hiện trong nội dung tìm kiếm Với việc tập trung vào ngữ nghĩa sẽ cho phép tìm kiếm với
nhiều lựa chọn như thế khả năng tìm thay các tài liệu cần tìm sẽ chính xác hơn Phạm vi của
chương trình ứng dụng Semantic Web này khơng nhằm hiện thực một ứng dụng mang đầy đủ
sắc thái của khái niệm Semantic Web do Tim Berners Lee đưa ra như trên Thực tế hiện nay
Semantic web vẫn chưa thành hiện thực và các nhà khoa học vẫn đang nghiên cứu và phát triển tiếp Đề tài sẽ ứng dụng các kỹ thuật và sự hỗ trợ từ các framework cho Semantie Web để xây dựng ứng dụng tra cứu cơ sở đữ liệu luật
Đề cĩ thể tìm kiếm trong các RDF thì các tập tin RDF phải được đưa lên bộ nhớ dưới dạng
các model Jena hỗ trợ hai dạng lưu là trong bộ nhớ RAM máy tính và trong cơ sở đữ liệu Lưu trong RAM địi hỏi phải cĩ bộ nhớ lớn nếu cĩ nhiều model hoặc nhiều phát biểu trong
mỗi model và đữ liệu chỉ tồn tại tạm thời do đĩ khơng hợp để xây ứng dụng Do đĩ tác giả
quyết định chọn phương án lưu các model trong cơ sở dữ liệu Hiện Jena hỗ trợ 3 hệ quản trị
co sé dit ligu 14 ProgreSQL, MySQL va Oracle Tac gia chon str dung Oracle
Các văn bản luật html sẽ được đánh dấu vào Chương, Mục, Điều để tìm kiếm và cĩ thể mở
đúng chỗ trong văn bản Các tập tin văn bản luật html và RDF sẽ được nạp vào cơ sở đữ liệu
Việc nạp RDF phải thơng qua cớ chế của Jena vì RDF lưu trong cơ sở dữ liệu ở một định
dạng riêng của Jena Các tập tin html sé được nạp khơng thơng qua Jena
4.3.1 Bảng từ vựng
Để cĩ thể tìm kiếm bang Semantic Web thi cdc van ban luat phải đựơc mơ ta chỉ tiết Với mỗi
văn bản càng mơ tả chỉ tiết thì hệ thống càng cĩ nhiều thơng tin về văn bản đĩ và do đĩ tỉ lệ
thuận với khả năng tìm chính xác Như vay méi tap tin html van ban luật sẽ cĩ một tập tin RDE mơ tả tương ứng Với các thuộc tính đã xác định ở phần trên, tác giả đã xây dựng một tập các từ vựng để mơ tả các văn bản luật bằng RDFS Dưới đây là trích đoạn của tập tin RDF Schema m6 ta từ vựng “VanBan” và “loạVanBan”
<?xml version="1.0" encoding="UTF-8"?>
<rdf:RDF xml:lang="en" xmins:rdf="http://www.w3.org/ 1999/02/22-rdf-syntax-ns#" xmins:rdfs="http: //www.w3.org/2000/01/rdf-schema#"
xmins:owl="http://www.w3.org/2002/07/owl#">
<owl:Ontology rdf:about="http://www.phapluat.org/luatviet/elements/ 1.0/">
Trang 23
21
<rdfs:label>luatviet</rdfs:label>
<rdfs:comment>Hệ thống quản lý các văn bản pháp luật</rdfs:comment> </owl:Ontology>
<a name="VanBan"/> |
<rdfs:Class rdf:about="http://www.phapluat.org/ luatviet/elements/1.0/VanBan">
<rdfs:isDefinedBy rdf: resource="http://www phapluat.org/luatviet/elements/ 1.0/"/>
<rdfs:subClassOf rdf: resource="http://www.w3.org/2000/01/rdf-schema#Resource"/ >
<rdfs:label xml:lang="vi">Văn bản pháp luật</rdfs:label>
<rdfs:comment xml:lang="vi">Văn bản pháp luật được quản lý bởi hệ thống
luatviet</rdfs:comment> </rdfs:Class>
<rdf:Property rdf:about="http://www phapluat.org/luatviet/elements/1.0/loaiVanBan"> <rdfs:isDefinedBy rdf:resource="http://www.phapluat.org/ luatviet/elements/1.0/"/> <rdfs:label xml:lang="vi">Loại văn bản</rdfs:label>
<rdfs:range rdf:resource="http://www.W3.org/2000/01/rdf-schema#Literal"/>
<rdfs:domain rdf:resource="http://www.phapluat.org/luatviet/elements/ 1.0/VanBan"/>
</rdf:Property> 4.3.2 Thiết kế lớp ResultEntry (from engine) | Qouri : String &oquotation : String &›pk : Long &>score : Integer &pfileLocation : String Array List ị SearchResult SgetResuitList() SgetNumOfFile0 SgetNumOfEntry0
(from engine) - SgetUriQ
&»resulfList : ArrayList _ SgetQuotation()
Enum OfFile : Integer SgetPk()
&>numOfEntry : Integer SgetScore()
SgetFileLocation0
Trang 24
22 | MedesContl &àModelMaker &àIDBConnection TextSearchEngine
(from oracleT ext)
ị _ &omodelsControl : ModelsControl
SremoveAllModels() 4 “?6›searchResult: SearchResult
ŠcreateAllModelsAndHtmlsQ | © SremoveAllHtm!s() NN search() 1 1 oN NN ° 4 A RDQLSearchEngine
—1 &modelsControl : Models Control
i SearchRelatedDoc &>searchResult : SearchResult
'ĐmodelsControl : Models Control
ị &searchResult : SearchResult Šsearch0
| Ssearch0 Hình 10: Sơ đồ lớp các lớp tìm kiếm
4.3.3 Cơ sở đữ liệu cho việc lưu trữ các văn bản
Cơ sở dữ liệu này chỉ gồm một bảng duy nhất chứa maHtml là khĩa chính, tenHtml - tên văn bản và HtmlBody - tồn bộ nội dung tập tin văn bản:
SW._Htm! maHtml NUMBER <pk> tenHtml” = VARCHAR2(200) HtmlBody: CLOB Hinh 11: Bang SW_Html
4.3.4 Cơ sở đữ liệu cho việc lưu các model RDF:
Jena lưu các file RDE vào cơ sở dữ liệu với cấu trúc do Jena tạo, và người dùng cĩ thê khơng cần quan tâm đến Dưới đây là mơ hình cơ sở đữ liệu do Jena tạo
Trang 25| 23 |
¡ JENAGRAPH Ì Í JENA G98T1 STMT | JENA_G98TO_REIF -
ID ::NUMBER <pk> SUBJ :: VARCHAR2(250) SUBS: VARGHAR2(250) NAME:, VARCHAR2(4000) PROP VARCHAR2(250) PROP VARCHAR2(250) OBJ VARCHAR2(250) OBJ VARCHAR2(250) GRAPHID’ NUMBER GRAPHID NUMBER
JENA_PREFIX STMT VARCHAR2(250)
ID HEAD NUMBER VARCHAR2(500) <pk> HASTYPE CHAR
CHKSUM NUMBER
| TAIL BLOB JENA_LONG LIT JENA SYS_STMT
iD NUMBER <pks | | SUBJ VARCHAR2(250) JENA_LONG: URI HEAD: : VARCHAR200) PROP -VARCHAR2(250)
— = CHKSUM :NUMBER OBL VARCHAR? (250)
ID HEAD VARCHAR2(500) NUMBER <pK> | frau L BLOB GRAPHID: NUMBER |
CHKSUM NUMBER TAIL BLOB
Hinh 12: Cac bang do Jena tao
4.3.5 Thiét ké giao dién
File Edit View Go Sears “Tools Help
Y & ị a) hp: {ilocalhost{phaplu ua @Q- > -@ Bt ANH HR4U8SE2c TS 00000 0
TRA au VAN BAN LUAT
Tim chi tiết : C]
Từ khĩa : ị Số hiệu he tn mm : Loại văn bản: Trích yêu : Chế định luật : Tĩnh vực : Cơ quan bạn hành : Người ký : 1gày ban hành :
1gày hiệu lực ri lăn] : mnt sis a)
SSA aren TH /EXSVNN
Done
Hinh 13: Giao dién tim kiém theo Semantic Web
Tin kiém semantic web Tim kiếm bình thường
Trang 26
24 Bookmarks Tools
@ Getting Started Q Latest Headlines ] Google Search: glob
Tim thay 2 kết quả trong 2 file
Luật Thuế giá trị gia tăng {LuatThueGTGT htm
Sửa đổi, bỗ sung một số điều của Luật Thuế giá trị gia tăng
GSuaDotBoSungLuafThueGTGT hưm
Tổng số trang: i —
[ Trang trước | trang1
Done Trang kế tiếp ] Hình 14: Kết quả tìm kiếm
“File Edt Yew ‹ Go Bookmarks Toot Help
sac van ban lién quan
Van ban sửa Sửa đổi, bề sung một số điều của Luật Thuế gia trị gia
doi: tang CHUONG I NHỮNG QUY ĐỊNH CHUNG Điều 1 Thuê giá trị gia tăng
Thuẻ giá trị gia tăng là thuế tỉnh trên khoản giá trị tăng thêm của
Done
Hình 15; Xem noi dung văn bản
Trang 27
25
4.4 Hiện thực phan tìm kiếm dùng full text search
4.4.1 Sơ lược về Oracle Text
Oracle Text là cơng cụ cho phép xây dựng các ứng dụng truy vẫn văn bản va các ứng dụng phân loại tài liệu Mục đích của ứng dụng truy vấn văn bản là cho phép người dùng tìm văn bản cĩ chứa một hoặc nhiều điều kiện tìm kiếm Ứng dụng cĩ thể tạo chỉ mục và tìm kiếm
trên các tài liệu thuộc các định dạng phổ biến như thuần văn bản, HTML, XML, hoặc
Microsoft Word
Tạo chỉ mục cho tài liệu
Đê truy vân các tài liệu, ta phải đánh chỉ mục các cột văn bản trong bảng Hình dưới mơ tả bảng văn bản và chỉ mục Oracle Text của bảng trên?!
Text Tabie
Hinh 16: Tao chi muc Oracle Text
Cac loai chi muc
Oracle Text hé tro tao ba loai chi muc
Loai chi muc | M6 ta Tốn tử truy vân
CONTEXT Dùng để tạo chỉ mục cho các tai liệu cĩ các | CONTAINS
định dạng phổ thơng như Microsoft Word, HTML, XML, hoặc thuần văn bản Cĩ thể tuỳ biến chỉ mục theo nhiều cách
CTXCAT Dung chi muc nay dé dat toc độ truy vẫn CATSEARCH
nhanh cho các câu truy van phức hợp Phù hợp cho văn bản ngăn với cầu trúc như
ngày, tên giá chứa trong các cột của bảng
CTXRULE Dùng đề xây dựng ứng dụng phân loại | MATCHES
tài liệu
Trang 28
26
Trong ứng dụng này, tác giả sử dụng loại chỉ mục CONTEXT
Đồng bộ hĩa chỉ mục
Một điều quan trọng là chỉ mục Oracle Text khác với các loại chỉ mục khác của Oracle, chúng khơng cĩ khả năng tự động cập nhật khi dữ liệu được đánh chỉ mục thay đổi Khi thay đổi hay xĩa dữ liệu được đánh chỉ mục bằng Oracle Text, thì những chỉ mục trên đữ liệu này sẽ bị bỏ qua trong lần tìm kiếm sau này Để đữ liệu bị thêm, xố, sửa được chỉ mục Oracle Text cập
nhật, thì phải đồng bộ hĩa chỉ mục Ta cĩ thể dùng lệnh ALTER INDEX để đồng bộ hĩa, ngồi ra cĩ thể dùng thủ tục CTX_DDL.SYNC_INDEX để đồng bộ hĩa một chỉ mục
4.4.2 Thiết kế giao diện
a Fie Et view x
@-2@
TRA GUU VAN BAN LUAT
Tìm kiém semantic web Tìm kiếm bình thường
Go Bookmarks Tools Help SỐ tố
c-] Merlferal.- Từ khĩa: i ị Done
potest, stake, coehuadegts sanity sg "nh acc
Hình 17: Giao diện tìm kiếm bình thường dựa trên chỉ mục Oracle Text
Trang 29
27
4.5 Xây dựng các chương trình hỗ trợ
Tác giả cĩ xây dụng hai chương trình hỗ trợ
e© Chương trình hé tro nap file rdf va html: chương trình cho phép nạp xĩa các file rdf và html tir mot thu mục hoặc nạp riéng mot file va đồng bộ chỉ mục Quy ước tên file RDF phai cùng tên với tên file html
e©_ Chương trình hỗ trợ mơ tả văn bản: chương trình nhằm giúp người khơng am hiểu về
XML và RDF schema cĩ thể mơ tả văn bản dễ dàng
(.XbBisửa đổi ¡ Vb Hướng dẫn Í VbDằnchiếu Ì Chương mục điều
|" Thưột tính “Í— Vụ Cản cứ [vo Thaythé | vb Bi thay thé) YeSua doi |
Uri: | i Số hiệu: | j ThVnBĂN Tố Loại vẫn bản — ệ a ; tinh vực: é > Trch yếu Serr ch Chế định luật — | | CQbanhanh: | Người kế: | 7:
Ngay ban hanh: [ogo7/2005 $/ca
Nady higulue: 0307/2005 $/Ca
Trang 30
CHUONG 5: KET LUAN, HUONG PHAT TRIEN
_5.1 Tổng kết
Báo cáo này đã trình bày các khái niệm và kỹ thuật của Semantic Web, các tính năng của bộ cơng cụ để phát triển ứng dụng Semantic Web Jena va tim hiéu hé thống văn bản luật từ đĩ ứng dụng Semantic Web để xây dựng ứng dụng cơ sở dữ liệu luật
Tác giả cũng xây dựng một khối tìm kiếm dựa trên chỉ mục của cơ sở dữ liệu Oracle Text Phần này vừa là để đối chứng với khối hiện thực bằng Semantic Web vừa bổ sung cho ứng dụng thêm đa đạng về phương thức làm việc
Tác giả cũng đã xây dựng khối quản lý thêm xố các model và file html giúp người dùng dé đàng thao tác quản lý và xây dựng chương trình giúp mơ tả văn bản
5.2 Đánh giá
5.2.1 Ưu điểm
Khối hiện thực bằng Semantic Web đã xây dựng tập các thuộc tính của văn bản luật khá đầy đủ Với việc sử dụng các từ vựng mơ tả chỉ tiết các văn bản trong tập tin rdf cho phép người
dùng tìm kiếm với nhiều thơng tin đi kèm đã giúp tìm kiếm hiệu quả hơn so với tìm kiếm
bằng từ khĩa của khối hiện thực bằng Oracle Text So với các phần mềm tra cứu văn bản luật hiện nay thì ứng dụng này cĩ những tiến bộ về khả năng tìm kiếm chính xác Ứng dụng cũng
đồng thời cho người dùng cái nhìn tổng quát về sự ràng buộc giữa văn bản hiện tại với các
văn bản khác khi người dùng xem một văn bản Đề tài đã cho thấy các thế mạnh của Semantic Web trong nâng cao khả năng tìm kiếm theo ngữ nghĩa và khả năng ứng dụng của Semantic vào thực tế Tuy nhiên tìm kiếm chỉ là một phần trong nhiều ứng dụng của Semantic Web Với sự phát triển mạnh mẽ của cộng đồng nghiên cứu Semantic Web hiện nay thì khơng lâu nữa Semantic Web như hình dung của ơng Tìm Berners Lee sẽ thành hiện thực
5.2.2 Khuyết điểm
Mặc dù hiệu quả tìm kiêm của chương trình cao hơn các ứng dụng cơ sở dữ liệu luật hiện nay nhưng vẫn chưa thật ấn tượng, tốc độ cịn chậm Điều này là do tác giả chưa hiện thực kỹ thuật suy luận trong Jena và do ngơn ngữ RDQL cĩ những hạn chế
Trang 31
29
5.3 Hướng phát triển
Dé tai co thé phát triển hỗ trợ nhiều định dạng văn bản như pdf chứ khơng chỉ là html Sức
Trang 32
30
Phụ lục
Giới thiệu về SPARQL,
SPARQL là ngơn ngữ truy vấn thơng tin từ các dé thị RDF do tổ chức W3C đưa ra SPARQL cĩ các tính năng sau:
« _ Lấy thơng tin từ URI, nút rỗng (blank node), các kiểu van ban (literal) z
» _ Lấy các đồ thị RDF con
» - Xây dựng đơ thị RDF mới dựa trên thơng tin truy vân các đơ thị
SPARQL là ngơn ngữ truy vấn dữ liệu thích hợp cho truy vấn cục bộ lẫn từ xa Truy vấn từ xa phải thơng qua giao thức SPARQL So với RDQL và các ngơn ngữ khác như RQL, SPARQL
cĩ nhiều ưu điểm hơn như hỗ trợ các từ khĩa OPTIONAL, UNION, hỗ trợ sắp xếp, hỗ trợ
giới hạn số lượng kết quả v.v
Vi du vé ding OPTIONAL
PREFIX lv: <http://www.phapluat.org/luatviet/elements/1.0/> SELECT ?ten ?uri
WHERE { 2s lv:ten ?ten
OPTIONAL { ?s lv:vbBiSuaDoi ?uri}
} -
Từ khĩa PREFIX tương ứng với USING của RDQL Ví dụ trên liệt kê tên văn bản và văn bản
bị sửa đổi (nếu cĩ) Vi dy vé ding UNION
PREFIX dcl0: <http://purl.org/dc/elements/1.0/> PREFIX dcll: <http://purl.org/dc/elements/1.1/>
SELECT ?title
WHERE { { ?book dcl0:title ?title }
UNION { ?book dcll:title ?title } }
Ví dụ này liệt kê tựa các cuốn sách, và tựa các cuơn sách được mơ tả bằng bảng từ vựng Dublin Core phiên bản 1.0 hoặc phiên bản 1.1
Tuy nhiên SPARQL chưa được tuyên bố là chuẩn thống nhất Hiện nay nĩ chỉ ở mức
“Working Draft” là mức thấp nhất trong các tuyên bố của W3C Và hiện nay phần triển khai
SPAQRL vẫn chưa được đưa vào Jena
Trang 33
31
Tài liệu tham khảo:
[1] Tim Berners-Lee Semantic Web roadmap (1998) http://www.w3.org/DesignIssues/Semantic.html
[2] Michael C Daconta, Leo J Obrst - Kevin T Smith (2003) The Semantic Web: A Guide to the Future of XML, Web Services, and Knowledge Management
[3] W3C Recommendation 10 February 2004 http://www.w3.org/TR/2004/REC-rdf-syntax- grammar-20040210/
[4] Eric Miller (2004) Semantic Talking
http://www.w3.org/2004/Talks/0120-semweb-umich/ [5] Ivan Herman RDF Presentation
http://www.w3.org/Consortium/Offices/Presentations/RDFTutorial/ [6] http://jena.sourceforge.net/doc
[7] Sesame RQL: a Tutorial http://www.openrdf.org/doc/rql-tutorial.html [8] Shelly Powers (2003) Practical RDF O'Reilly & Associates
[9] OWL Web Ontology Language Overview
http://www.w3.org/TR/2004/REC-owl-features-20040210/ [10] OWL Web Ontology Language Reference
http://www.w3.org/TR/2004/REC-owl-ref-20040210/
[11] Jeen Broekstra, Arjohn Kampman, Frank van Harmelen (2001) Sesame: An Architecture for Storing and Querying RDF Data and Schema Information
[12] (2002) Oracle Text Application Developer’s Guide 9.2
Hét
Trang 34
nu