Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
474,92 KB
Nội dung
- 1 -
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
NGUYỄN THỊ THU HẰNG
NGHIÊN CỨUWEBNGỮNGHĨAVÀỨNGDỤNGVÀO
XỬ LÝTHÔNGTINDULỊCH
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT
ĐÀ NẴNG - 2011
- 2 -
Công trình ñược hoàn thành tại
ĐẠI HỌC ĐÀ NẴNG
Người hướng dẫn khoa học: PGS.TS. Lê Văn Sơn
Phản biện 1: PGS. TS. Lê Mạnh Thạnh
Phản biện 2: TS. Nguyễn Tấn Khôi
Luận văn ñược bảo vệ tại Hội ñồng chấm Luận văn tốt nghiệp
thạc sỹ kỹ thuật tại Đại học Đà Nẵng vào ngày 18 tháng 06
năm 2011.
* Có thể tìm hiểu luận văn tại:
- Trung tâm Thôngtin - Học liệu, Đại học Đà Nẵng
- Trung tâm Học liệu, Đại học Đà Nẵng.
- 3 -
MỞ ĐẦU
1. Lý do chọn ñề tài
Trong những năm qua, sự phát triển của World Wide Web cả về
nội dung, người sử dụngvà những cải tiến trong công nghệ công cụ tìm
kiếm ñã hoàn toàn thay ñổi cách thức tri thức vàthôngtin ñược thu
thập và chia sẻ. Thu thập thôngtin chưa bao giờ trở nên dễ dàng và
rộng mở cho người sử dụng như hiện nay, tuy nhiên vẫn còn một số
trường hợp ñáng kể các kết quả thu ñược thông qua một công cụ tìm
kiếm có chứa lượng lớn các kết quả không liên quan. Nguyên nhân xuất
phát từ chính sự ñơn giản của web hiện tại, ñã cản trở sự phát triển
thông tin của nó. Trong mô hình này, các máy tính chỉ làm nhiệm vụ
gửi nhận dữ liệu và thể hiện thôngtin dưới dạng thô mà chỉ con người
mới ñọc hiểu vàxửlý ñược.
XML ra ñời và trở thành một công cụ trao ñổi dữ liệu giữa các hệ
thống, nâng cao sự tích hợp của các ứng dụng. Tuy nhiên, các giải pháp
dựa trên XML cho quá trình tích hợp của các ứngdụngvà các hệ thống
chưa ñủ, do dữ liệu ñược chuyển ñổi thiếu mô tả tường minh về ngữ
nghĩa của nó. Vì thế, một thách thức mới ñược ñặt ra là làm thế nào ñể
khai thác ñược thôngtin trên Web một cách hiệu quả, mà cụ thể là làm
thế nào ñể máy tính có thể trợ giúp xửlý tự ñộng ñược chúng.
Những nỗ lực phát triển gần ñây của công nghệ thôngtinvà
truyền thông nhằm giải quyết những vấn ñề này, không chỉ ñối với
thông tin học thuật mà còn ñối với tất cả các dạng dữ liệu có thể chuyển
giao trên Web. Trong những nỗ lực phát triển ñó, thì mối quan tâm phát
triển Webngữnghĩa là trọng tâm của Tim Berners-Lee và tổ chức
W3C. Theo Lee, “web ng
ữ nghĩa là sự mở rộng của webthông thường
mà trong ñó thôngtin ñược ñịnh nghĩa rõ ràng sao cho con người và
- 4 -
máy tính có thể cùng làm việc với nhau một cách hiệu quả hơn”. Web
ngữ nghĩa ra ñời là một bước tiến vượt bậc dựa vào khả năng làm việc
với thôngtin “thông minh” hơn thay vì ñơn thuần lưu trữ thông tin. Với
sự lớn mạnh và khả năng lưu giữ thôngtinngữ nghĩa, webngữnghĩa sẽ
trở thành một thế hệ web cho tương lai.
Hiện nay, ở nước ta, lĩnh vực dulịch là một lĩnh vực rất nhiều
tiềm năng phát triển, việc ứngdụng xây dựngwebngữnghĩa về dulịch
sẽ rất giúp ích cho việc trao ñổi và chia sẻ thôngtindulịch trên
Internet. Và ñó cũng là lý do tôi chọn ñề tài: “Nghiên cứuWebngữ
nghĩa vàứngdụngvàoxửlýthôngtindu lịch”.
2. Mục tiêu và nhiệm vụ nghiên cứu
Luận văn nghiên cứu sử dụng công nghệ Webngữnghĩa làm ngôn
ngữ mô hình hóa cho lĩnh vực du lịch; nghiên cứu về RDF và RDF
Schema; nghiên cứu ontology và những lý thuyết có liên quan ñể có thể
hỗ trợ trong việc xây dựng ontology về du lịch.
3. Đối tượng và phạm vi nghiên cứu
a) Đối tượng nghiên cứu
Đối tượng ñược nghiên cứu cụ thể là: nghiên cứulý thuyết về Web
ngữ nghĩa, RDF và ontology; tìm hiểu các thôngtin liên quan về dulịch
của Việt Nam; tham khảo các ứngdụngvàdự án hiện có trên các tạp
chí khoa học và mạng Internet.
b) Phạm vi nghiên cứu
Trong phạm vi giới hạn của ñề tài, luận văn nghiên cứu xây dựng
tập từ vựng cơ bản về các ñịa ñiểm dulịch Việt Nam, tổ chức lưu trữ
dữ liệu của ứngdụng với Protégé, và khai thác các tính năng về truy
xuất dữ liệu trong ontology.
4. Ph
ương pháp nghiên cứu
Với các mục tiêu trên, luận văn sử dụng phương pháp nghiên cứu
- 5 -
lý thuyết và phương pháp nghiên cứu thực nghiệm ñể thực hiện ñề tài.
5. Ý nghĩa khoa học và thực tiễn của ñề tài
a) Ý nghĩa khoa học
Hiểu và vận dụng ñược các kiến thức về RDF, Ontology,
RDF/XML, RDF Schema, OWL
Cung cấp giải pháp xây dựng ontology
Xây dựng tập từ vựng cơ bản về các ñịa ñiểm dulịch Việt Nam
Khai thác các tính năng ñọc/xuất, truy vấn trên một tài liệu có mô
tả ngữ nghĩa.
b) Ý nghĩa thực tiễn
Việc nghiên cứuwebngữnghĩavàứngdụngvàoxửlýthôngtindu
lịch mà cụ thể là thôngtin về các ñịa ñiểm dulịch của Việt Nam làm cơ
sở nhằm phục vụ việc tra cứu, chia sẻ thôngtin về dulịch của Việt
Nam. Đồng thời, kết quả nghiên cứu của ñề tài làm nền tảng ñể giải
quyết các bài toán xửlýngữnghĩa khác trong thực tiễn,
6. Bố cục luận văn
Luận văn ñược chia làm 3 chương:
Chương 1 trình bày nội dung nghiên cứu tổng quan về webngữ
nghĩa, kiến trúc webngữnghĩavà các khái niệm về URI, RDF, RDF
Scheme, Ontology. Giới thiệu một số ngôn ngữ xây dựngwebngữ
nghĩa và một số ứngdụng của webngữ nghĩa.
Chương 2 ñi sâu vào nghiên cứu RDF, Ontology và những ñối
tượng cần thiết ñể xây dựng RDF và Ontology. Đồng thời, trong quá
trình nghiên cứuvà phân tích về RDF và Ontology sẽ ñưa ra giải pháp
về ngôn ngữvà công cụ ñể xây dựngứngdụngwebngữ nghĩa.
Chương 3 giới thiệu về ứng dụng, phân tích ứngdụngvà ñề ra
gi
ải pháp xây dựngứng dụng. Tiến hành xây dựng ontology, xửlýdữ
liệu, cài ñặt ứngdụngvà ñưa ra một số kết quả thực hiện của ứng dụng.
- 6 -
Chương 1: TỔNG QUAN VỀ WEBNGỮNGHĨA
1.1. WEBTHÔNG THƯỜNG
1.1.1 Các ñặc tính của web
Web thông thường chủ yếu là một tập các trang HTML siêu liên kết
có thể ñược xem bởi các trình duyệt trên các thiết bị khác nhau và chủ
yếu dành cho con người truy cập và ñọc.
1.1.2 Các tiện ích của web
Web làm giảm thời gian truy cập thôngtinvà số lần giao tác, làm
các giao dịch rẻ hơn và gần như không tốn phí cho các truyền thông
siêu phương tiện trên thế giới. Nhiều cộng ñồng ñược hưởng lợi từ web.
1.1.3 Các ứngdụng của web
1.1.4 Các hạn chế của webthông thường
Mặc dùwebthông thường cung cấp nhiều tiện ích ñáng kinh ngạc
nhưng nó không cung cấp ñủ cấu trúc ñể hỗ trợ cải tiến máy tính xửlý
nội dung. Trong khi người dùng cần thôngtin tốt hơn trình bày trên
web ñể cho phép cải tiến ñược nhiều ứng dụng.
Như vậy, webthông thường chủ yếu là một dịch vụ truyền tải tài
liệu tập trung vào nhu cầu người ñọc sử dụng các trình duyệt. Tuy
nhiên, các công nghệ webthông thường không ñủ hỗ trợ nhiều yêu cầu
tính toán phức tạp. Công nghệ web mới là cần thiết ñể cấu trúc thông
tin, cải thiện tìm kiếm và ñặt ngữnghĩavàothông tin.
1.2. GIỚI THIỆU WEBNGỮNGHĨA
1.2.1. Khái niệm
Web ngữ nghĩa: là một web có dữ liệu thông minh mà máy có thể
xử lý ñược. Ngoài ra còn có thể ñịnh nghĩadữ liệu thông minh là dữ
li
ệu mà ñộc lập với ứng dụng, ñược biên soạn, ñược phân loại và là
thành phần của một hệ thốngthôngtin rộng lớn (ontology).
- 7 -
1.2.2. Lợi ích của việc sử dụng webngữnghĩa
Web ngữnghĩa với thôngtin ñưa ra ñã ñược xác ñịnh rõ ý nghĩa
cho phép máy tính và con người hợp tác làm việc tốt hơn.
Web ngữnghĩa sẽ mang lại cấu trúc cho các nội dung của các trang
web có ý nghĩa, tạo ra một môi trường mà các máy tính có thể dễ dàng
thực hiện nhiệm vụ phức tạp cho người dùng.
Web ngữnghĩa ñặt tên mỗi khái niệm ñơn giản chỉ bằng một URI,
nên cho phép bất cứ ai thể hiện các khái niệm mới mà họ nghĩ ra chỉ
với nỗ lực tối thiểu.
1.2.3 Tính cần thiết của việc sử dụng webngữnghĩa
Web ngữnghĩa sẽ giải quyết một số vấn ñề cơ bản mà các kiến trúc
công nghệ thôngtin hiện nay phải ñối mặt:
− Thôngtin quá tải
− Phá vỡ hệ thống Stovepipe
− Tích hợp nội dung nghèo nàn
1.3. KIẾN TRÚC WEBNGỮNGHĨA
Hình 1. 5 Kiến trúc Webngữnghĩa (phiên bản 4)
Đây là phiên bản ñược hoàn thiện năm 2006 và ñược giả ñịnh là tám
tầng thay vì bảy tầng như các phiên bản trước.
- 8 -
1.3.1. Tầng 1 - Unicode và URI
1.3.2. Tầng 2 - XML
1.3.3. Tầng 3 – RDF và RDF Schema
1.3.4. Tầng 4 – Ontology và Rules
1.3.5. Tầng 5 - Logic
1.3.6. Tầng 6 - Proof
1.3.7. Tầng 7 - Trust
1.3.8. Tầng 8 – User Interface & Applications
Đây là một tầng riêng biệt nằm trên cùng trong kiến trúc của hệ thống.
1.4. NGÔN NGỮ CHO WEBNGỮNGHĨA
Như ñược mô tả trong mục 1.3, các tầng của kiến trúc webngữ
nghĩa ñã ñược quy chuẩn với các chuẩn ñã ñược W3C ñề xuất cũng như
cộng ñồng nghiên cứuwebngữnghĩathống nhất sử dụng trên thực tế.
Theo ñó, dữ liệu trong webngữnghĩa dựa cơ sở trên XML và ñược mô
hình hóa bằng RDF. RDF cũng ñược chọn là chuẩn trao ñổi dữ liệu
trong webngữ nghĩa. Ngôn ngữ ontology ñược chuẩn hóa là OWL dựa
trên cơ sở của RDF(S); ontology cung cấp từ vựng cho việc trao ñổi
thông tin giữa các ứngdụngvà dịch vụ Web. Bên cạnh ñó, ngôn ngữ
truy vấn SPARQL ñã ñược sử dụng rộng rãi và là khuyến nghị của
W3C, tuy nó chưa trở thành chuẩn thật sự.
1.5. CÁC ỨNGDỤNG SỬ DỤNGWEBNGỮNGHĨA
Web có ngữnghĩa cho phép tăng cường chức năng, mức ñộ thông
minh và tính tự ñộng hoá của nhiều ứngdụng hiện có. Những lĩnh vực
ứng dụng ñặc biệt hứa hẹn cho web có ngữnghĩa là các dịch vụ Web,
quản lý tri thức và thương mại ñiện tử.
- 9 -
Chương 2: CÁC CÔNG NGHỆ XÂY DỰNG
WEB NGỮNGHĨA
2.1. TRUY VẤN DỮ LIỆU RDF
2.1.1. Giới thiệu RDF
RDF cung cấp một framework cho việc mô tả và trao ñổi siêu dữ
liệu về các tài nguyên trên web. Trong RDF, các tài nguyên trên web
ñược ñịnh danh bởi các URI và sử dụng URI ñể tạo ra các phát biểu về
tài nguyên. Để làm cho máy dễ xử lý, RDF kế thừa cú pháp dựa trên
XML. Do ñó, RDF cung cấp khả năng tương tác giữa các ứngdụngvà
trao ñổi thôngtin trên web mà máy có thể hiểu ñược.
2.1.1.1 Mô hình RDF cơ bản
Mô hình dữ liệu cơ bản của RDF gồm ba ñối tượng sau:
- Tài nguyên (Resource): chỉ mọi ñối tượng có thể thấy trên web.
Các tài nguyên thì luôn ñược ñịnh danh bởi URI.
- Thuộc tính (Property): Một thuộc tính là một khía cạnh, ñặc ñiểm,
ñặc tính hay mối quan hệ cụ thể ñược dùng ñể mô tả một tài nguyên.
- Phát biểu (Statement): Phát biểu RDF cung cấp một tài nguyên
chủ thể, một thuộc tính và một ñối tượng. Mỗi phát biểu ñược biểu diễn
theo cấu trúc bộ ba ñược gọi là “triple” bởi vì nó có ba thành phần cơ
bản: Chủ-thể, Thuộc-tính, Đối-tượng (Subject, Predicate, Object).
2.1.1.2 Các cách hiển thị RDF
a) N3
N3 hay Notation3 phá vỡ một ñồ thị RDF thành các triple riêng của
nó, mỗi triple có chứa một chủ thể, một thuộc tính và một ñối tượng
ñược tách ra bởi các khoảng trống.
b)
Đồ thị RDF
Một tập hợp các RDF triple tạo thành ñồ thị RDF. Tập hợp các nút
trong ñồ thị RDF là tập các chủ thể và các ñối tượng trong triple, các
- 10 -
cung trong ñồ thị là các thuộc tính. RDF triple ñược khái niệm hóa
bằng biểu ñồ như sau:
c) RDF/XML
Phương thức thứ ba sử dụng XML ñể biểu diễn dữ liệu RDF. Vì có
cú pháp cấu trúc mạnh nên XML là một nền tảng tốt cho xửlý tự ñộng
trong các tài liệu RDF.
2.1.1.3 Cú pháp RDF/XML
RDF sử dụng XML mã hóa như là cú pháp trao ñổi của nó, còn gọi
là cú pháp dựa trên XML. RDF/XML là sự kết hợp giữa cú pháp của
ngôn ngữ XML và khả năng mô tả tài nguyên thông qua các URI.
2.1.2. RDF Schema
RDF Schema (RDFS) là sự mở rộng của RDF ñể cho phép mô tả sự
phân loại của các lớp và các thuộc tính. RDFS ñịnh nghĩa các lớp và
các thuộc tính ñể mô tả các lớp, các thuộc tính và các tài nguyên khác.
2.1.2.1 Lớp trong RDFS
Trong RDFS, các lớp là một nhóm các tài nguyên trên web có liên
quan với nhau. Chúng ñược xác ñịnh bằng cách sử dụng tập từ vựng
RDF như rdfs:Class, rdfs:Resource ñịnh nghĩa các nút (node) và
rdf:type, rdfs:subClassOf ñịnh nghĩa các thuộc tính.
2.1.2.2. Thuộc tính trong RDFS
Thuộc tính trong RDFS chính là quan hệ giữa các chủ thể và ñối
tượng trong RDF. Thuộc tính hay ñược sử dụng là rdfs:range,
rdfs:domain, rdfs:subClassOf và rdfs:subPropertyOf. Tương tự như các
mô tả lớp, các thuộc tính ñược ñịnh nghĩa bởi thẻ rdf:Property.
2.1.3. L
ưu trữ dữ liệu RDF
Một vài hệ thống ñược phát triển cho việc lưu trữ và truy vấn dữ
Chủ thể Đối tượng
Thuộc tính
[...]... A X THƠNGTINDU L CH 3.1 GI I THI U LÝ NG D NG V i nh ng ki n th c tìm hi u đư c v web ng nghĩa trên, lu n văn nghiên c u s d ng cơng ngh web ng nghĩavào xây d ng m t ng d ng minh h a nh m ph c v cho vi c lưu tr , tìm ki m, truy v n thơngtin v các đ a đi m du l ch Vi t Nam và đ ng th i đ hi u rõ hơn v lĩnh v c web ng nghĩa này M c tiêu chính c a ng d ng là đ c i thi n k t qu tìm ki m và truy xu... (duy t thơng tin) và xem các thơngtin chi ti t c a đ a đi m Mơ hình use-case đư c th hi n như hình 3.2 sau: Duyệt thô ng tin Xem thôngtin chi tiết Người sử dụng Tìm kiếm Hình 3 2 Minh h a mơ hình usecase c a ng d ng 3.3.2 Đ c t ch c năng - Ch c năng tìm ki m: Ch c năng này cho phép ngư i s d ng tìm thơngtin trong h th ng b ng cách nh p t khóa thơngtin mu n tìm H th ng vào. .. khóa mu n tìm và tr v k t qu - Ch c năng duy t thơng tin: Ch c năng này cho phép ngư i s d ng xem thơngtin phân c p trong h th ng b ng cách ch n m c thơngtin c n xem H th ng vào ontology tìm các th c th ho c các phân c p con liên quan đ n m c thơngtinđư c ch n và tr v các k t qu cho ngư i s d ng - 18 - Ch c năng xem thơngtin chi ti t: Ch c năng này cho phép ngư i s d ng xem thơngtin chi ti t... K T LU N VÀ HƯ NG PHÁT TRI N 1 K t lu n Lu n văn đã nghiên c u và trình bày nh ng ki n th c căn b n v web ng nghĩa như ki n th c v RDF, RDF Schema, ontology và các ngun t c đư c dùng đ thi t k m t ontology đư c t t Qua đó lu n văn đ t đư c m t s k t qu như sau: V lý thuy t, lu n văn đã đi sâu nghiên c u đư c nhi u ki n th c v RDF và ontology, t đó hi u đư c cơng ngh web ng nghĩa đ có th d a vào đó tri... tên tài ngun mu n xem thơngtin chi ti t H th ng vào ontology tìm URIs cho tài ngun c n tìm D a vào URIs đã tìm đư c, h th ng s theo đ a ch này đ tìm thơngtin chi ti t c a tài ngun và tr v k t qu tìm đư c 3.4 XÂY D NG ONTOLOGY M c đích s d ng ontology trong ng d ng là giúp mơ hình hóa d dàng các tri th c chung trong lĩnh v c du l ch T t c các l p đư c đ t theo tên c a danh t và t t c các thu c tính có... ti n l i đ bi u di n ý nghĩavà ng nghĩa hơn so v i XML, RDF và RDFS, và vì OWL ra đ i sau các ngơn ng này nên nó có kh năng bi u di n các n i dung trên web mà máy có th hi u đư c Các phiên b n c a OWL OWL đư c chia làm ba phiên b n ngơn ng con: OWL Lite, OWL DL và OWL Full L a ch n ngơn ng con đ s d ng M t cách cơ b n, ngơn ng con đư c s d ng nên có nhi u bi u c m c n thi t và càng ít ph c t p càng... ng m t ontology V ng d ng minh ho , v i m c tiêu làm rõ thêm lý thuy t, lu n văn ng d ng xây d ng web ng nghĩa v i các cơng c h tr như Protégé và OwlDotNetApi C th là xây d ng đư c t p t v ng cơ b n v các đ a đi m du l ch Vi t Nam, khai thác các tính năng truy xu t trên m t tài li u có mơ t ng nghĩa nh m chia s tài ngun thơngtin v du l ch và th c hi n tìm ki m v i nh ng k t qu chính xác hơn, đ ng th... phân c p duy t thơngtin Trư c tiên, ngư i s d ng ch n m c đi m đ n, h th ng s hi n th các t nh/thành ph Ti p theo có th ch n m t t nh/thành ph đ xem các thơngtin v đ a đi m đã ch n này H th ng s hi n th ra thơngtin chi ti t v đ a đi m đã ch n và các thơngtin khác liên quan đ n đ a đi m Kèm theo đó, h th ng s cung c p m t danh sách các thơngtin đ c trưng v đ a đi m đã ch n 3.2 HƯ NG TI P C N VÀ GI... th c th này đ n th c th kia Thu c tính Datatype mơ t m i quan h gi a các th c th và giá tr d li u OWL cũng có ki u thu c tính th ba là thu c tính Annotation đư c s d ng đ thêm thơngtinvào l p, vào th c th ho c th c th khác thu c hai ki u trên object/datatype Domain và Range c a thu c tính Thu c tính có th có m t domain và m t range c th Các thu c tính liên k t các th c th thu c domain đ n các th c... u thơngtin liên quan hơn cho m c đích s d ng c a ngư i dùng Vì v y, chương trình ng d ng s cung c p và chia s các thơngtin v các đ a đi m du l ch theo hai phương th c: • Tìm ki m thơngtin H th ng s h tr tìm ki m chính xác và tìm g n đúng V i tìm ki m chính xác, ngư i dùng nh p đ y đ và chính xác t khóa c n tìm, lúc này có hai trư ng h p x y ra: + N u t khóa c n tìm là tên c a m t đi m đ n du l ch . “Nghiên cứu Web ngữ
nghĩa và ứng dụng vào xử lý thông tin du lịch .
2. Mục tiêu và nhiệm vụ nghiên cứu
Luận văn nghiên cứu sử dụng công nghệ Web ngữ nghĩa. nghĩa và ứng dụng vào xử lý thông tin du
lịch mà cụ thể là thông tin về các ñịa ñiểm du lịch của Việt Nam làm cơ
sở nhằm phục vụ việc tra cứu, chia sẻ thông