TONG QUAN1.1 KHÁI QUÁT CƠ SO KHOA HOC CUA DE TÀI: Đề tai là một nguồn ngữ nghĩa học ứng dụng phương pháp những bản đồ tiêuchuẩn TOPIC MAP với mục đích muốn phát triển sự tương tự giữa We
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHO HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THONG TIN
DUNG KỸ THUAT BANG BAM TẠO DU LIEU CLUSTER
TRONG MYSQL CHO WEB FORM SEMANTIC
LUAN VAN THAC SI CONG NGHE THONG TIN
TP HỒ CHÍ MINH - NAM 2008
Trang 2MỤC LỤC
CHƯƠNG 1 TONG QUAN - - 52-522 SESEE9EE2EEEEEEEEE2111112111111111 111 cEx,
1.1 KHÁI QUAT CƠ SG KHOA HOC CUA DE TALI: 2-5:-: 3
1.2 CÁC NGHIÊN CỨU LIEN QUAN DEN DE TÀI : 5
1.2.1 Phan mềm liên quan đến đề tài: 2-2 + £+x£££££x++E+rxzzzrred 51.2.2 Lý thuyết liên quan đến đề tài: -5- 55252222 2E2EE2EEeExerkerkrrkrree 5
1.3 TIẾP CAN CHỌN LỰA ĐỀ GIẢI QUYẾT BÀI TÓAN: 6
1.3.1 - Tiếp cận bang băm dé xử ly dit liệu cluster cho việc giảm khối lượng
dữ liệu trong kho dữ liệu: -cccctethhthhrherieririeriiriiiride 6
1.3.2 Tiếp cận kỹ thuật TOPIC MAP dé chuẩn hoá khi nhập xuất dit liệu: 7
1.1 NỘI DUNG CUA ĐỀ TÀI: - 2-5 +E22EE92EEEEEEEE1EE122E11711221711221 22 crke 7
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT ~ „ w'*" „, 10
2.1 SỬ DỤNG BẢN ĐỎ TIEU CHUAN TREN MẠNG NGỮ NGHĨA HỌC
10
2.1.1 Bản đồ tiêu chuân: -¿22¿©2++c+t2E+erxerxerxrrrrerxrrrree 10Hình 2-8: Tập hop Association những chủ đề Topies - 2-5 s2 55x22 17
2.2 WEB NGU NGHĨA HỌC 2- 2-52 +22 2E22E2E+2E2EeExerkerrered 18
2.3 SỬ DỤNG NGỮ NGHĨA HỌC VÀO BẢN ĐỎ TIÊU CHUAN VÀ ÁP
DUNG BAN ĐÔ TIEU CHUAN VÀO WEB NGỮ NGHĨA HOC: 21
2.3.1 Kiến thức về ứng dụng những sự kiện được dùng trong ban đồ tiêuchuẩn như thé nàO2 - - + sSSk+EÉEEEEEEEEEEEEEEEEEEEEEEEEEEEEEESEEEETEEEETEEEkrkrkerkrrrree 21
2.3.2 Cách dùng Web ngữ nghĩa hoc: cece ceceeeceeceeseeeseeseceeeeseeeeceseeeeeseens 22
2.3.3 K@tluant eccecccccccccsssessesssesssssessusssecsesssessusssecsusssessusssecsusesessssssessseesecsees 242.4 UNG DUNG CÔNG NGHỆ MỚI VÀO WEB SEMANTIC 25
2.4.1 Định nghĩa ngữ nghĩa học và những mối quan hệ: - 26
2.4.2 Khung mô tả tài nguyên (RDFF) - 5 556 S5 * + E+skEsseeeeersseese 27 2.43 Môhình RDF(RDES): 29
2.4.4 Ngôn ngữ ban thé luận WEB (OWL): 252 ©52+c<2£+zerxerxered 30
2.5 SỬ DỤNG LÝ THUYET MIND MAPS VÀO WEB FORM NGỮ
NGHĨA HỌC: - 2 - + 2 SESE2E9E9EEEEEEEE E111 1111111111 1111151111111 1111111011 rce 31
2.5.1 Tìm hiểu thêm về khái niệm tư duy: - 2-22 2+2 szs+zx=se¿ 312.5.2 Sơ đồ quá trình tư đuy -©-<+-x+2E+EEtEEEEEECEEerkerrkerkerrree 322.5.3 Kếtluận ¬ Ô 36
CHƯƠNG 3 XÂY DỰNG HE THNG -¿- St +sEEEkSEEEEEEEEEESEEEEEEkEEkrkerkrrk 37
3.1 PHAN TÍCH UNG DỰNG -2-©5¿©2x‡2E2EEtEEEEEECEEEErkrrrkrrkrrree 37
3.1.1 Cấu hình hệ thống Web From SermantiC: - s2 s22 37
3.1.2 Giao diện: 38
3.2 THIET KE HỆ THNG 2-22 2£ S2+E£2E££EEtEEEEEEEEEEEEeerxrrkerred 39
3.3 XÂY DỰNG HE THNG 22- 22: ©2++22E2EE22EEESEEEeEEErrrrrrrrrre 45
3.3.1 Su dung tiéu chuẩn TOPIC MAP dé khai báo biến và xây dựng cấu trúc
dữ liệu S€ImaTfIC . - + 1E 2221111122311 11 118311110 11g ng ngu 45
Trang 33.3.2 Áp dụng thuật toán bảng băm: -c-ccccetietietieirirrre 493.3.3 Sử dụng bảng băm đê định dạng các dom cụm đữ liệu trong quá trình
tạo SEMANTIC của WEB FORM SG 2n SSt S232 1 1g grrhg 55
3.3.4 Áp dụng cơ chế GRAPH dé vẽ các nút, cạnh tạo cây đa cấp 56
Ham Vector findAllNodes(int x, int y) Í - 5S c se ssieieeirereeske 56
3.3.5 Sử dung cấu trac TOPIC MAP chuyền đữ liệu từ XML sang co sở dự
liệu quan hệ MySQL và ngược lạI: - 5 + xxx ng giết 65 3.3.6 Cách thức ánh xa XML theo chuẩn Topic Map DTD sang MYSQL theo
chuẩn Topic Map ccscceccsscsssessessessessessessessessucsssssesucsscssessessessessecsnssessuessessesseeseeaes 72
1.2 Cap nhat co SO dit HOU n7 73
1.2.1 Cap nhat cầu tric, eee ty Error! Bookmark not defined.CHUONG 4 THU NGHIEM csseescssssscssseecsseescssnseessneecssneeesnnseesnneeesnneessnneetsnneeesnnses
4.3 HE Vợ Pu xôn " 71
4.3.1 SU dung [Noi 007 T7
4.4 So sánh với các giải pháp đã có Error! Bookmark not defined.
4.5 Nhận xét về kết quả và ưu điểm của phương pháp -. 94
CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHAT TRIÉN -2¿25¿5c5z+c52
5.1 TONG KET CAC KET QUA DA CÓ: ooeeecescsssesssssessssssessssssecsseescsseesecees 95
5.2 HƯỚNG PHÁT TRIEN TƯƠNG LAI CUA WEB FROM NGU NGHĨA
HOC: 97
ĐC CV BOBIOW itp ve S6 TS nh =5
Trang 4CHƯƠNG 1 TONG QUAN
1.1 KHÁI QUÁT CƠ SO KHOA HOC CUA DE TÀI:
Đề tai là một nguồn ngữ nghĩa học ứng dụng phương pháp những bản đồ tiêuchuẩn TOPIC MAP với mục đích muốn phát triển sự tương tự giữa Web site va kỹthuật lập trình thuật toán bang băm dé cluster dữ liệu vào MySQL nhằm cung cấp 1ngữ nghĩa tiêu chuẩn cho Web Form Semantic:
- Giao diện được thiết kế một cách đặc biệt dùng trên nền đồ thị có tính chất đồi
mới được hướng tới những kết quả tìm kiếm trong tâm lý học nhận thức dựa trên
mệnh lệnh đề cung cấp một môi trường làm việc thích hợp cho những người lao động
trí óc ở mọi vấn đề
- Sự trình bày kiến thức theo những định nghĩa chung nhất, cấu thành thuộc tínhcủa kiến thức như thông tin, mà nó chỉ xuất hiện trong những suy nghĩ con ngườinhằm chia sẻ kiến thức, dé dang sử dụng, khi nó cũng được hình thức hóa trong mộtkhuôn dang có thê diễn xuất được bằng máy
- Máy không thể cất giữ kiến thức, máy tính thật sự có thê cất giữ và quản lýnhững " ám hiệu ": những tiết mục ( những bức tranh, văn bản, phương tiện truyềnthông.) giúp người sử dụng xây dựng lại kiến thức nguyên bản trong suy nghĩ của
con người.
- Trong một suy nghĩ con người, kiến thức không phải đơn giản được cất giữ,gọi về và đồ xuống như một cơ sở dữ liệu Những kiến thức được cất giữ những chỗ
trung lập trong não, và não lưu trữ thông tin không bao giờ hoàn hảo, thay vào đó là
những khía cạnh đãng trí và những khác biệt của kiến thức ( khai báo những thực tế,những thủ tục, văn cảnh không gian, những ấn tượng trực quan) Việc lấy lại kiến
thức từ kí ức thật sự là một quá trình của sự xây dựng lại.
- Từ đó có bằng chứng, kiến thức con người nhận thức thật sự được cất giữtrong một cách liên kết có thé so sánh được đối với những mạng ngữ nghĩa; nó suy
Trang 5luận dé cung cấp cho người lao động trí óc với một gợi nhớ, nơi mà có thé hién thịnội dung, quản lý, tạo ra, và lọc trong một liên kết; điều đó cho phép xây dựng nhữngmạng ngữ nghĩa dựa trên những khái niệm ban đồ hay còn gọi là những bản đồ kiến
thức.
- Dé giải quyết những van đề phức tap, bằng cách truy nhập kiến thức liên quanvan dé băng những ký hiệu, có thé được tạo bởi sự tìm kiếm hay việc duyệt thông tin
trên mạng hay những tài nguyên địa phương Vì bộ nhớ làm việc của chúng ta và khả
năng ý thức hạn chế, cần phải tránh tiêu phí lo lắng việc cất giữ những hồ sơ, giảiquyết cách trình bày và định dạng hay chiếm lại sự định hướng trong môi trườngthông tin trong khi nghiên cứu hay viết nội dung thực tế
- Vẽ bản đồ những hoạt động đã được tối ưu hóa bởi sự tiến hóa những vănbản và những siêu văn bản băng cách dễ dàng phân biệt những vị trí và cách trìnhbày Việc quản lý những tài nguyên kiến thức với trợ giúp của kỹ thuật máy tính cólợi thế giúp sử dụng chiều định hướng tự nhiên trong không gian kiến thức
Mục tiêu của đề tài là nghiên cứu và xây dựng Web form semantic Có mối liên
hệ chặt chẽ giữa cấu trúc văn ban và phan lập trình; mặt khác Web là một vi dụ tốt dé
trải nghiệm các ý tưởng mà được phát triển trong thé giới kỹ thuật phan mềm:
- Đề tài nhắm vào sự tiến triển một không gian làm việc tổng hợp cho phép
người sử dụng tổ chức, mô tả và liên hệ những đối tượng thông tin.
- Đề tài là một công cụ quản lý kiến thức, tích hợp những đối tượng thông tin (
những tập tin xml bên ngoài ứng dụng, cũng như những ghi chú cá nhân, thư điện tử,
những trang Web) vào trong một môi trường giúp người sử dụng nhất quán và trực
Trang 6+ Sự duy trì và sử dụng, tìm kết quả.
+ Sự chuyền đổi dữ liệu từ XML vào dit liệu quan hệ MySQL, va từ MySQL
vào XML dua trên tiêu chuẩn TOPIC MAP; giúp việc di chuyền và khôi phục dữ liệu
từ XML đã có sang dữ liệu quan hệ MySQL khi cài đặt lại phần mềm; với đữ liệuquan hệ MySQL ban đầu là các table chỉ chứa các thông số cấu hình hệ thống mà
không có dữ liệu.
- Đề tài cung cấp một mô hình và ngữ pháp đề đại diện cho những cấu trúc củatài nguyên thông tin được sử dụng dé định nghĩa những chủ dé, và những mối quan
hệ, những liên kết giữa những chủ đề Những tên, tài nguyên và những mối quan hệ
được gọi là những đặc trưng của đối tượng, những đối tượng tóm tắt được gọi là những chủ đề Những chủ đề có những đặc trưng của chúng bên trong những phạm
vi, ví dụ những văn cảnh hạn chế bên trong đó những tên và tài nguyên được lưu tâm
tới như tên của chúng, tài nguyên, và những đặc trưng môi quan hệ
1⁄2_ CÁC NGHIÊN CỨU LIÊN QUAN DEN DE TAI:
1.2.1 Phần mềm liên quan đến đề tài:
- Nghiên cứu cài đặt,cấu hình va sử dụng máy chủ Tomcat
- Nghiên cứu cài dat,cau hình và sử dụng ngôn ngữ Java (JDK, JRE).
- Nghiên cứu cài đặt,cầu hình va sử dụng lập trình Java trên Netbean
- Nghiên cứu cài dat,cau hình và sử dụng trình ANT dé biên dịch các file Java
về các file mã máy (class)
- Nghiên cứu cải dat,cau hình và sử dung MySQL, FONT- SQL, XML
1.2.2 Ly thuyết liên quan đến đề tai:
- Ban đồ tiêu chuẩn “ TOPIC MAP”: La một tài liệu hỗ tương nhau sử dung ngữpháp được gọi là bản đồ tiêu chuẩn “TOPIC MAP" vào việc thiết kế dữ liệu quan hệMySQL nhằm chuyên đổi qua XML, và từ XML về đữ liệu quan hệ MYSQL
Trang 7- Lý thuyết Web Semantic.
- Ngôn ngữ ban thé luận OWL
- Sử dụng nền tảng hiểu thấu của tâm lý học nhận thức hiện đại vào trong đề tàidựa trên lý thuyết sơ đồ tư duy “MIND MAPS”
- Lý thuyết về bảng băm
- Sử dụng bảng băm dé định dang các gom cụm dữ liệu trong quá trình tao
semantic của web form.
1.3 TIẾP CAN CHỌN LỰA DE GIẢI QUYẾT BÀI TÓAN:
1.3.1 - Tiếp cận bảng băm để xử lý dữ liệu cluster cho việc giảm khối lượng dữ
liệu trong kho dữ liệu:
Ngày nay công cụ tìm kiếm được phát triển rất nhanh dựa vào các thuật toántìm kiếm với các luật liên kết, các thuật tóan tìm kiếm với chuyền động vận động
tăng dần trong các cơ sở dữ liệu lớn Dù những thuật tóan này rất hiệu quả và tùy thuộc vào kích cỡ của cơ sở dit liệu, đôi khi có thé mất đến vài ngày dé tìm kiếm
thông tin liên quan và hữu dụng Hơn nữa sự thay đổi của các thông số cung cấp cho
người sử dụng thường yêu cầu khởi động lại thuật tóan mà không đưa vào tính tóan
các kêt quả trước đó.
Tương tự khi dữ liệu mới được thêm vào hay rút ra khỏi cơ sở, thường hay phải
khởi động lại quá trình truy xuất để sửa đôi kiến thức đã truy cập được
Xem xét kích cỡ của dit liệu quản lý thường có đề nghị dùng cả tiếp cận tươngtác(thay đổi thông số) và lớn lên (dit liệu thay đổi trong cơ sở) để nhanh chóng đáp
ứng nhu câu của người sử dụng cuôi.
Ứng dụng bảng băm để Cluster vào phân tích trong đữ liệu quan hệ MySQL
chuyển qua XML và ngược lại, hoặc chỉ trong dữ liệu quan hệ MySQL Nhiệm vụ tôchức 1 tập hợp các đề mục vào những nhóm theo | cách mà các đề mục trong 1
cluster có 1 mức độ tương tự cao.
Trang 8Phương pháp cluster giảm khối lượng dtr liệu trong kho dữ liệu, bảo vệ kha
năng trình bày các phân tích cần thiết, một kết quả quan trọng trong cơ sở đữ liệu
MYSQL và XML là mô tả nhiều thực thé được liên kết với nhau bằng các mối liên
hệ.
Do đó clustering dẫn đến sự phân lọai, nghĩa là nhận dạng các nhóm con đồngnhất và khác biệt trong dữ liệu: đây thực ra là một cấu trúc đơn giản mà không cầnphải có kiến thức ban đầu về sự đa chiều của dữ liệu có thé là một điểm bắt đầu hợp
lý hướng tới khám phá các cấu trúc phức tạp hơn và phong phú hon
Thuật tóan cluster đưa ra một số vấn đề mới mà các thuật tóan truyền thốngkhông chỉ ra khi giải quyết sự gia tăng nhanh chóng các cơ sở dit liệu lớn phức tap
Một đặc tính quan trọng của thu thập dữ liệu hiện dai là sự gia tăng kích cỡ của 1 co
sở dữ liệu tiêu biểu, không phải là quá bất thường khi làm việc với các cơ sở dữ liệuchứa từ hàng ngàn đến hàng triệu cá nhân và hàng trăm hay hàng ngàn biến, ngày
nay thuật tóan cluster quản ly một cách thuận tiện.
1.3.2 Tiếp cận kỹ thuật TOPIC MAP để chuẩn hoá khi nhập xuất dữ liệu:
Topic Map là một cây topic (bản đồ chủ đề) nhằm thé hiện cấu trúc của dữliệu MySQL, XML theo chuẩn Topic Map DTD Topic Map là một khung nhìn tổngthể cho tất cả các thành phần trong hệ thông đữ liệu và mỗi quan hệ giữa các thànhphần này
1.1 NỘI DUNG CỦA ĐÈ TÀI:
Với mục tiêu và hướng giải của đề tài được đề cập ở trên, nội dung của đề tàichúng tôi chia những phần như sau:
s* Chương 1 TONG QUAN Chương này trình bày khái quát về việc taomột nguồn ngữ nghĩa hoc ứng dụng phương pháp những ban đồ tiêu chuẩn TOPICMAP với mục đích muốn phát triển sự tương tự giữa Web site và kỹ thuật lập trìnhthuật toán bang băm dé cluster dit liệu vào MySQL nhằm cung cấp 1 ngữ nghĩa tiêu
Trang 9chuẩn cho Web Form Semantic, các nghiên cứu liên quan đến đề tài Và trình bày
mục tiêu cũng như hướng giải quyết của đề tài
* Chương 2 CƠ SỞ LÝ THUYET Chương này trình bày sơ lược về các
vấn đề liên quan đến công nghệ Web Semantic như :
- Sử dung bản đồ tiêu chuẩn trên Web Semantic.
- Web Semantic.
- Sử dụng ngữ nghĩa học vào bản đồ tiêu chuẩn và áp dụng bản đồ tiêuchuẩn vào Web Semantic
- Ứng dụng công nghệ mới vào Web semantic
- Sử dụng lý thuyết mind maps vào Web Semantic
“+ Chương 3 XÂY DUNG HE THONG Dựa vào các phương pháp đã
khảo sắt trong chương 2, xây dựng giải pháp :
- Phân tích ứng dụng về cấu hình hệ thống Web From Sermantic và giao
trình tạo SEMANTIC của WEB FORM
at Ap dung co ché GRAPH dé vé cac nut, canh tao cay da cap
- Xây dựng hệ thống: Sử dung cấu trúc TOPIC MAP chuyên dữ liệu từ
XML sang co sở dự liệu quan hệ MySQL và ngược lại:
+ Cập nhật co sở đữ liệu
* Chương 4 THU NGHIỆM Dùng kỹ thuật bang băm đề cluster các dit
liệu vào trong MySQL dé tạo xây dựng Web From Semantic nhằm kiểm nghiệm chogiải pháp nghiên cứu trong chương 3, đồng thời cũng đưa ra một công cụ hỗ trợ cho
các người dùng khi tạo một cây đa cấp trên giao diện đồ họa, và dé dang chuyên dit
liệu XML với dit liệu quan hệ MYSQL như mục tiêu mà đề tài nhắm đến lúc đầu
Trang 10% Chương 5 KET LUẬN VÀ HƯỚNG PHAT TRIEN Tổng kết lại
những kết quả trong quá trình nghiên cứu và thực hiện đề tài, đồng thời đưa ra nhậnđịnh cho hướng phát triển dé hoàn thiện dé tài trong tương lai
Trang 11CHƯƠNG 2 CƠ SỞ LÝ THUYET
2.1 SU DỤNG BAN DO TIEU CHUAN TREN MẠNG NGỮ NGHĨA HỌC
2.1.1 Bản đồ tiêu chuẩn:
Topic Map là một cây topic (bản đồ chủ đề) nhằm thé hiện cấu trúc của dữliệu MySQL, XML theo chuẩn Topic Map DTD Topic Map là một khung nhìn tổngthể cho tất cả các thành phần trong hệ thống đữ liệu và mối quan hệ giữa các thànhphần này
Trong đề tài sử dụng bản đồ đề tài TopicMaps.Org; là một tập đoàn độc lập củanhững nhóm phát triển tính kha dụng của dang thức bản đồ đề tài TopicMaps
[ISO13250]; thuật ngữ học được sử dụng để mô tả tài liệu XML được định nghĩa trong thuyết minh được sử dụng trong việc xây dựng những định nghĩa:
- addressable information resource : Dia chỉ tài nguyên thông tin.
- addressable subject :Địa chỉ đôi tượng
- association type: Kiéu liên kết
- base name :Ténco so
- characteristic
- consistent topic map: Ban đồ đề tài chắc chắn
- member : Thanh vién
Một tập hợp dé tài đóng 1 phan vai trò trong 1 liên kết.
- merging : hòa trộn dữ liệu trùng nhau.
- non-addressable subject: Đôi tượng không thé đánh dia chỉ.
- occurrence type : Kiêu biên cô.
10
Trang 12- parameters : Những tham số.
- processed topic map: Xử lý bản đồ đề tài
- processing requirements: Những yêu cầu xử lý
- published subject indicator: Chỉ báo đôi tượng được xuất bản
- reification: Cụ thê hóa
- resource : Nguồn thông tin
- role: Vai tro.
- scope : Pham vi.
- subject : Đối tượng
Bat cứ cai gi có thé được nói quanh hay cảm nhận Của Bởi con người.
Trong nhiêu nghĩa chung nhat, một đôi tượng là bat cứ cái gì bat cứ điều gì, batchấp liệu nó tồn tại hay có mọi đặc trưng đặc biệt khác.
- subject identity: Đặc tính đối tượng
Là cái mà làm hai đề tài đồng nhất, hay phân biệt một đề tài với đề tàikhác Sự xác định của đặc tính đối tượng phụ thuộc được thêm vào, và có thể
tự động hóa, bởi sự sử dụng những cái chỉ báo đối tượng được xuất bản.
Một tiêu chuẩn dé hòa trộn những dé tài như được định nghĩa trong Phụlục F: XTM xử lý những yêu cầu
- subject indicator: Chi báo đôi tượng
Một tài nguyên mà được dự định bởi tac giả ban đồ dé tài dé cung cấp
Một đại lượng dương, chỉ định rõ ràng đặc tính của Một đối tượng Có ba
cách chỉ báo một đối tượng trong một ban dé dé tài.
- topic : Dé tài
II
Trang 13Một tài nguyên mà đóng vai một uỷ nhiệm cho đối tượng nao đó; hệ
thống Bản đồ dé tài là sự trình bày của dé tài đó Mối quan hệ giữa một dé tài
và đối tượng của nó được xác định là một trong số cụ thé hóa cụ thé hóa củamột đối tượng cho phép những đặc trưng đề tài sẽ được gán tới đề tài mà nó cụthể
- topic characteristic :Đặc trưng đề tài
Tên dé tài, biến có đề tài, một vai trò đóng bởi một dé tài trong một liênkết được tập hợp biết đến như những đặc trưng của nó
- topic characteristic assignment :Gán đặc trưng đề tài
Hành động của việc khẳng định rằng một đề tài đã có một đặc trưng đặc biệt Những sự khang định như vậy được cho rằng hợp lệ bên trong một phạm
vi nhất định
- fopic map :bản đồ đề tài
Một tập hợp của những đề tài, những liên kết và những phạm vi mà cóthê tồn tại trong một trong hai hình dạng
Xếp theo thứ tự khuôn dạng trao đôi lẫn nhau ( vi dụ như một đề tài vẽbản đồ tài liệu được biểu thị trong cú pháp XML), hay vài mẫu bên trong ứngdụng nào đó, như được ràng buộc bởi yêu cầu xử lý XML
Phan tử tài liệu (< TopicMap >) của một tài liệu bản đồ dé tài được biểu
thị sử dụng cú pháp XML
- topic map document: Tài liệu bản đồ đề tài
Một tài liệu mà chứa đựng một hoặc nhiều bản đồ đề tài mà phù hợp vớithuyết minh này Nó có thê được xếp theo thứ tự cho mục đích lưu trữ hay trao
đổi trong một cú pháp được điều khiển bởi điều này hay thuyết minh khác nàođó
- fopic map node: Nút bản đồ đề tài
12
Trang 14Là một đối tượng trong sự trình bày bên trong của hệ thống của một bản
đồ đề tài đại điện cho một đề tài, liên kết hay phạm vi
- topic name: Tên đề tài
Tên cơ sở đặc trưng của một dé tài ( Bao gồm biến tên cơ sở đó )
- topic naming constraint:Su ràng buộc đặt tên đề tài
Sự ràng buộc, được đặt bởi dạng thức bản đồ đề tài, mà bất kỳ đề tài nào
có cùng tên cơ sở trong cùng phạm vi tuyệt đối tham chiếu tới cùng đối tượng
và bởi vậy cân phải được hòa trộn
- topic occurrence :Bién cô đê tai.
Một tài nguyên chứa đựng thông tin mà được chi rõ như liên quan đối với
Một đối tượng đã cho Dé được biểu thị trong một bản đồ đề tai XML, tài
nguyên như vậy phải có cả :
- topic type: Kiểu đề tài.
Là một trong những lớp của đề tải
Một đề tài có thể thuộc về nhiều lớp
Một đề tài mà có đối tượng là một lớp của đề tài
- unconstrained scope : Phạm vi không ràng buộc.
Sự thiếu một phạm vi xác định trong sự ấn định của một đề tài đặc trưng
- variant name: Tên biến
- XML document
Mô hình quan niệm XML Topic Maps.
> Mới quan hệ từ kiểu con đến kiểu chính
——> ke A te ~ A
Môi quan hệ giữa những tên
13
Trang 15phần phụ thuộc chính xác, thông thường gọi là quyền sở hữu
là một tập hợp các phần tử
2.1.1.1 Lớp phân cấp
XML Element] | XML Attribute Topic Map
<topic> | | <association> =) [=] Association ae Base Name
Element Element | Tovic |
Hình 2-1: Sự Phân cấp lớp (sơ đồ Lớp)
Một Subject là bao gồm tat cả những thông tin có thé được nói quanh hay cảm
nhận của người dùng Một tài nguyên Resource là một SubJect mà có căn cước bên
trong những ranh giới của một hệ máy tính Mọi Subject khác được biết như một
addressable Subject Có nhiều kiểu addressable Subject Một lớp là addressable Subject Những kiểu Subject bao gồm Chuỗi, Phần tử XML, và Thuộc
Non-tính XML cũng như Topic Map, Topic Map Node và Topic Characteristic, và nhiều
kiêu khác Phan tử những kiêu XML bao gồm phan tử chu dé < topic> va phan tửliên kết < associatio>, và nhiều kiểu khác Có ba kiểu nút ban đồ Topic Map Node:Topic, Association, và Scope (chủ đề, liên kết, vị tri) Có ba kiểu đặc trưng: Topic
Characteristic: Base Name, Occurrence, va Role (tên cơ sở, biên cô và ràng buộc).
2.1.1.2 Một Subject là một thé hiện không hay nhiều lớp
0 * 0 *
[ subject ] +instance +class [ cas |
Hình 2-2: Mối quan hệ thê hiện lớp ( Sơ đồ lớp)
14
Trang 162.1.1.3 Một Topic liên quan Subject
Resource
«REIFIES >
Hình 2-3: Một Topic liên quan Subject Một Topic là một tài nguyên Resource mà liên quan một Subject Đó là hệ
thống của Topic Map Sự liên quan một Subject cho phép gán những Topic
Characteristics có liên quan dé nó.
2.1.1.4 Mối liên quan của Subject
«REIFIES >
« REFERENCES »
Hình 2-4: Mối quan hệ của Subject
Một Topic có thể có bất kỳ số lượng chỉ báo loại đề tài Subject Indicators Nó
có thể là một tài nguyên ma Subject liên quan với Topic Nếu chính Subject là mộttài nguyên, thì có thể có một sự tham khảo trực tiếp từ Topic đến tài nguyên, ngoài racòn có sự tham khảo của Subject Indicators chỉ đến
15
Trang 172.1.1.5 Những đặc trưng dé tài Topic Characteristics được gan bên trong
Một phạm vi Scope là tập hợp của những Topics, mà sự ấn định phạm vi hợp
lệ cua Topic Characteristics đôi với Topic.
2.1.1.6 Tên cơ sở Base Name bên trong phạm vi Scope
Topic
Hình 2-6: Tên cơ sở Base Name bên trong phạm vi Scope
Một tên cơ sở là một chuỗi được dùng để đặt tên một Topic trong một phạm viScope Chi có một Topic có thể gan một tên cơ sở đặc biệt bên trong một phạm vi đãcho Một tập những tên cơ sở được gán bên trong một phạm vi đã cho như vậy cấu
thành một namespace, và có thể thường xác định những đề tài mơ hồ
16
Trang 182.1.1.7 Biên cô Occurrence
Một biến cố chỉ định một tài nguyên mà liên quan đến một Topic
2.1.1.8 Tập hop Association những chủ dé Topics
Hình 2-8: Tập hop Association những chủ dé Topics
Một tap hợp liên hệ những Topics va nhưng phan khác Nó gồm có một hoặc
nhiều ràng buộc, từng cái tương ứng một Topics mà chỉ rõ một kiểu liên can mà Topics có thể có trong tập hợp Mỗi ràng buộc được gan từ không hay nhiều Topics, ràng buộc nằm trong tập hợp được chỉ rõ Những Topics này được nêu ra để ườidùng sử dụng các ràng buộc có trong tập hợp.
Ghi chú: XML không thừa nhận những ràng buộc khác năm ngoài tập hợp đãđịnh nghĩa Cú pháp XML biểu thị những phạm vi trên mọi ràng buộc của tập hợp
thông qua các phần tử nằm trong phạm vi tập hợp.
17
Trang 192.1.1.9 Ban đồ chủ đề Topic Map
Consistent Topic Map
Hinh 2-9: Ban dé TopicMột Ban đồ Topic gồm có không hay nhiều Nút ban đồ Topic hon (nhữngTopic, những phạm vi và những tập hợp) Nó áp dụn cho nhiều Đề tài trong Bản đồTopic tới cùng Subject Nếu không có Subject liên quan nhiều Topic trong Bản đồTopic, thì Bản đồ Topic được nói dé là một Ban đồ Topic chắc chắn
2.2 WEB NGỮ NGHĨA HOC
Mạng Ngữ nghĩa học được dựa vào như một thành công vĩ đại của WWW
hiện thời dẫn tới một thách thức mới: một số lượng lớn dữ liệu diễn xuất hạn chế bởicon người có thê được hỗ trợ bằng máy, Web thông tin hỗ trợ người sử dụng, việctìm kiếm hiện nay đã hoàn toàn mạnh, nhưng sự tìm kiếm trả lại những danh sáchthường quá lớn hay không đủ Quá trình dùng tìm kiếm bằng máy tính có thê chỉ tới
những trang liên quan và cải thiện chính xác luôn cả sự gọi lại các thông tin tìm
kiếm Điều đó hiện nay đạt được nhằm khôi phục thông tin băng việc tìm kiếm từkhóa khi thông tin trải ra nhiều trang
Quá trình của việc xây dựng Web From ngữ nghĩa học hôm nay vẫn còn nặng
nề Cấu trúc của nó phải được định nghĩa, va cấu trúc này ngày càng phát triển rộng
gắn liền với cuộc sống Đề làm nhiệm vụ này khả thị, cần phải bắt đầu với những
nhiệm vụ đầu tiên đơn giản hơn Những bước sau đây cho thấy phương hướng của
Web From ngữ nghĩa học là:
- Cung cấp một cú pháp chung cho những sự phát biéu có thé hiểu được
bằng máy tính
18
Trang 20- Thiết lập những từ vựng chung.
- Đồng ý trên một ngôn ngữ lôgíc
- Sử dụng ngôn ngữ dé trao đôi những chứng minh
Một cấu trúc lớp cho Web ngữ nghĩa học:
- Các chứng minh, sự tin tưởng
Cấu trúc này phản chiếu những bước được liệt kê ở trên Nó đi theo sự hiểu biết
mà mỗi bước cung cấp giá trị b6 sung, vì vậy Web From ngữ nghĩa học đó có théđược thực thi trong một kiểu cách gia tăng
Trên hai lớp đầu tiên, một cú pháp chung được cung cấp:
- Những định danh tài nguyên đồng dạng (URIs) cung cấp một tiêu chuẩn
có thé tìm thay trong liên kết http:// www.w3.org / DesignIssues/ Sematic.html dùng
dé tham chiếu tới những thực thé
- Kiểu chữ Unicode là một tiêu chuẩn dé trao đổi những ký hiệu
- Ngôn ngữ nhãn phụ dễ mở rộng XML cố định một ký pháp để mô tả
những nhánh cây có nhãn, và mô hình XML cho phép định nghĩa những ngữ phápcho tài liệu XML hợp lệ XML tài liệu có thể chuyển tới namespaces khác dé làm rõ
ràng văn cảnh và có nghĩa của những nhãn khác Những hình thức hóa trên hai lớp
này ngày nay được chấp nhận rộng, và số lượng tài liệu XML dang tăng nhanh
chóng.
19
Trang 21Khung mô tả tài nguyên RDF có thể được nhìn thấy như lớp đầu tiên là phầncủa Web ngữ nghĩa học Theo W3C khuyến cáo RDF " Là một nền tảng dé xử lý siêu
dữ kiện; nó cung cấp tính vận hành giữa những ứng dụng trao đổi thông tin và giúpmáy tính có thé hiểu từ ngôn ngữ Web RDF tài liệu gồm có ba kiểu những thực thé
tài nguyên, những thuộc tính, và những trình bày:
- Những tài nguyên có thê là những trang Web, những phần hay của nhữngtập hợp những trang Web hay bat kỳ đối tượng thế giới thực sự nào trực tiếp khôngphải là phần của WWW Ở RDF, tài nguyên luôn luôn thêm vào và luôn luôn được
gửi bởi URIs.
- Những thuộc tính đóng vai trò là những thuộc tính đặc biệt, chứa những
đặc trưng hay những quan hệ mô tả các nguồn tài nguyên
- Một tài nguyên cùng với một thuộc tính có một giá trị cho một dạng trình
bày tài nguyên RDF đó Một giá trị là một ki tự, một tài nguyên hoặc sự phát biểukhác Những sự phát biểu có thé như vậy được coi là như những bộ ba đối tượng -
thuộc tính - giá trị.
RDF và mô hình RDF được chú ý với cú pháp cua XML, nhưng chúng không
dùng ngữ nghĩa học dạng cây của XML Những lớp tiếp theo là từ vựng bản thê luận
và logic Hiện nay cộng đồng Web From ngữ nghĩa học cho rằng những mức này khánhiều trong khi một mức riêng lẻ như những ban thể luận ké cả những tiên dé logic
Một bản thê luận " là hình thức hóa rõ ràng của một sự hiểu biết dùng chung
của một nhận thức " Định nghĩa cấp cao nay được thực thi khác nhau bởi nghiên cứukhác Tuy nhiên, hầu hết chúng có một sự hiểu biết nhất định chung, chúng bao gồmmột tập thô những khái niệm, một sự phân cấp trên chúng, và những quan hệ giữanhững khái niệm Hầu hết chúng cũng bao gồm những tiên đề lôgic đặc biệt nào đó
Ví dụ “Máy đò tìm tài nguyên đồng dạng” nó thường được sử dụng như một từ đồng
nghĩa, mặc dù nói một cách chính xác URLs là một lớp phụ của URIs, có thể truycập tại http://www.w3.org/Addressing.
20
Trang 222.3 SỬ DỤNG NGỮ NGHĨA HỌC VÀO BAN BO TIEU CHUAN VÀ ÁP
DỤNG BAN BO TIEU CHUAN VÀO WEB NGỮ NGHĨA HỌC:
Ngữ nghĩa học có thể được áp dụng bản đồ tiêu chuẩn dùng trong các mục đíchđưa ra một cơ sở tốt để làm giàu có kho dữ liệu:
- Những kiểu siêu liên kết bây giờ được mô tả rõ ràng, quá trình áp dụng bản đồtiêu chuẩn cho phép người dùng tìm kiếm sâu hơn kiến thức thông tin; nội dung củanhững trang tìm kiếm có một ngữ nghĩa học hình thức, cho phép sự áp dụng kỹ thuật
áp dụng bản đồ tiêu chuẩn với yêu cầu dữ liệu đầu vào của người dùng nhập vào một
cách có câu trúc hon
- Những lợi ich cách dùng áp dụng ban đồ tiêu chuẩn bao gồm ngữ nghĩa họcvào trong quá trình bản đồ tiêu chuẩn giúp người dùng cuối có những kết quả clustercần quan tâm đến những sự kiện trong miền ứng dụng Khi người dùng đăng nhậpWeb nằm trên máy chủ sẽ xuất hiện những chủ đề về mặt kỹ thuật đã định hướng đếnmục tiêu trung tâm do HTTP yêu cầu thông tin
2.3.1 Kiến thức về ứng dụng những sự kiện được dùng trong bản đồ tiêu chuẩn
như thê nào?
Cứ một lần yêu cầu sẽ thành lập những khái niệm trong cơ sở dữ liệu, khi yêucầu thông tin tìm kiếm xuất hiện sẽ làm thay đôi dữ liệu
- Điều tra thay đổi lần lượt của những sự kiện ứng dụng phức tạp
- Bản đồ tiêu chuân sử dụng nhiều nguyên tắc phân loại liên quan đến kỹ thuật
lập phương dữ liệu OLAP: những đối tượng trong trường hợp này đòi hỏi sử dụng
URLs, được mô tả theo một số kích thước, và khái niệm những sự phân cấp haynhững mạng được công thức hóa theo mỗi kích thước để cho phép nhìn trừu tượng
hơn.
- Sự phân tích của dữ liệu đã dự trừu sẽ xuất ra các thông tin, thường sử dụngnhững nguyên tắc phân loại quan trọng cho nhiều ứng dụng bản đồ tiêu chuẩn nhằmphát sinh những kết quả đầy ý nghĩa
21
Trang 23- Thứ Hai, những mẫu được ban đồ tiêu chuẩn trong dữ liệu quá khứ thì không
có ich cho những ứng dụng khi những chỉ tiết sản phâm mới được giới thiệu:
Thuật tóan Cluster giới thiệu một sơ đồ nham tập hợp lại những khái niệmchung khi đưa ra một nguyên tắc phân loại Thuật tóan Cluster áp dụng sự xếp nhómvào những tập dự liệu thô của những phiên làm việc của trang Web dé phù hợp với
sự xếp nhóm này; với mục đích xác định những khái niệm liên quan tại những mức
độ trừu tượng khác.
Ban đồ tiêu chuan cách dùng Web From ngữ nghĩa học cho những sự kiện ứngdụng phức tạp bao gồm hai bước của những yêu cầu ánh xạ tới các sự kiện Những
sự kiện ứng dụng phức tạp thông thường được định nghĩa bởi những biểu thức bình
thường trong những sự kiện ứng dụng nguyên tử (tại mức độ trừu tượng đã cho nao
đó trong những sự phân cấp tương ứng của chúng):
- Trong bước đầu tiên, URLs ánh xạ đến những sự kiện ứng dụng nguyên tử
được đòi hỏi tại mức độ trừu tượng.
- Trong bước thứ hai, bản đồ tiêu chuẩn một chuỗi có thể được dùng dé khám phá những mẫu dir liệu thay đổi tuần tự Những dang của những mẫu tìm kiếm tuần
tự, và công cụ bản đồ tiêu chuẩn được dùng xác định sỐ lượng kiến thức trước có théđược dùng dé cưỡng ép những mẫu được xác định
Phần lớn những mệnh lệnh đầu tiên bị hạn chế khi người dùng ra lệnh tìm kiếmthông tin, điều này liên quan đến những biểu thức bình thường chỉ rõ những thuộc
tính hay từng phần một biến phù hợp với của những khái niệm một tập dự liệu thô
Những vi dụ ứng dụng các biểu thức bình thường mô tả quá trình học liên quannhững sự kiện của ứng dụng bao gồm những chiến lược tìm kiếm
2.3.2 Cách dùng Web ngữ nghĩa học:
Phát triển phía sau của Web From ngữ nghĩa học là thêm chú giải ngữ nghĩahọc vào những tài liệu Web dé truy nhap kiến thức va tao dang dữ liệu không cầutrúc Mục đích sẽ cho phép kiến thức được quản lý tự động
22
Trang 24Bản đồ tiêu chuân Web có thể giúp học những định nghĩa của những cấu trúccho tô chức kiến thức những ban thê luận Dé cung cấp những kiến thức cấu trúc nhưvậy thì mọi cách tiếp cận được bàn luận ở đây sẽ đóng vai trò nửa tự động giúp đỡcác hệ chuyên gia những kiến thức rút ra từ ngữ nghĩa hoc Dé thu được kết quả cao,
dù hiện nay sự suy luận của máy tính không thể thay thế con người, nhưng chúng
luôn luôn có nhiều kiến thức ngầm liên quan trong quá trình mô hình của Web ngữnghĩa học.
Một máy tính chưa bao giờ có khả năng hoàn toàn xem xét kiến thức nên,kinh nghiệm hay những quy ước xã giao Như vậy Web truyền thống trở nên thừathãi, từ đó chế tạo những động cơ tìm kiếm tương tự hay những đại diện trực tiếp cóthé vận hành trên những trang Web From ngữ nghĩa học
Mục tiêu toàn bộ của nghiên cứu là Web From ngữ nghĩa học không phải thay
thế những suy luận của con người nhưng hỗ trợ cho con người bằng cách cung cấpkhá nhiều thông tin
Đề tài tập trung vào dùng kỹ thuật bảng băm và bản đồ tiêu chuẩn dé clustertrong Web diện rộng, nhiều kiến thức về cấu trúc xã hội, hành vi xã giao được phản
chiếu bởi cách dùng của Web ngữ ngĩa học.
Áp dụng hệ thống dựa vào phương pháp " lọc cộng tác ", ý tưởng này đã được
mở rộng xem xét như một cơ sở của Web.
Hệ thống trên nền bản đồ tiêu chuẩn cách dùng Web định nghĩa của nó luôn
luôn tạo ra những mẫu mới
Điều thiết yếu của bản đồ tiêu chuẩn những chủ dé với một đề tài trong tìmkiếm Kết quả trả về tham chiếu như " sự loang cộng tác " và đề xướng một phương
pháp cải thiện " tập trung " và sự loang " thông minh " sử dụng thông tin từ nội dung
câu trúc bản đồ tiêu chuân và liên kết
23
Trang 252.3.3 Kết luận:
Sử dụng bản đồ tiêu chuân vào Web Form ngữ nghĩa học có thể cải thiệnnhững kết qua của bản đồ tiêu chuẩn cách dùng cô điển bang việc khai thác nhữngcau trúc ngữ nghĩa học mới ở trang Web; và nhằm xây dựng Web From ngữ nghĩahọc bằng cách sử dụng kỹ thuật bản đồ tiêu chuẩn
Một sự hiểu biết đúng ngữ nghĩa học của những nhu cầu cách dùng Web détính đến không chỉ thông tin được cất giữ trong những tập dữ liệu thô của nguồnthông tin trên các trang Web, mà còn được cấu thành bởi những tập đữ liệu thô vànhững chuỗi của những lần truy nhập trang Web Những ví dụ trên cho thấy tiềmnăng trong sự nỗ lực hợp nhất này
Một tiêu điểm quan trọng trong sự tìm kiếm là máy tính có thé đưa ra nội
dung của những trang Web và các liên kết tốt hơn Điều này được phản chiếu trong
những nỗ lực nghiên cứu những mô hình trang dưới dạng một bản thé luận của nội
dung Bản đồ tiêu chuẩn và ứng dụng trong bản đồ tiêu chuẩn cách dùng Web From
ngữ nghĩa học đã được xác định ba phương hướng quan trọng cho nhiều lãnh vực:
- Sự phát triển của những hành vi phức tạp của bản thé luận
- Sự triển khai của những bản thê luận này trong sự mô tả Web và những công
cụ bản đồ tiêu chuẩn ngữ nghĩa học
- Tiếp tục nghiên cứu vào trong những phương pháp và những công cụ mà cho
phép sự hợp nhất của cả hai kiến thức nền vào trong khai mỏ
Phương pháp sử dụng bản đồ tiêu chuan Web ngày càng gia tăng nhiều nộidung, cấu trúc và cách dùng trong một kiểu tổng hợp của việc dùng ngữ nghĩa học
24
Trang 262.4 UNG DỤNG CÔNG NGHỆ MỚI VÀO WEB SEMANTIC
Web From ngữ nghĩa học được phát triển như " một Web đữ liệu theo lýthuyết sơ đồ tư duy của ông TONY có thé được xử lý trực tiếp và gián tiếp bởi các
máy tính được nôi mang".
Trong Web From ngữ nghĩa học dữ liệu của ứng dụng có thé được xử lý trênnền tảng mạng hiện nay hay trên miền độc lập Trái ngược với Web diện rộng màchúng ta đã từng biết đến, trong Web From ngữ nghĩa học chứa đựng thông tin diệnrộng mẫu của những tai liệu thực tế Người dùng có thé sử dụng những máy tinh détìm kiếm những tài liệu bất kỳ được xây dựng theo phương pháp ngoại suy Nhữngmáy tính có thé giới thiệu cho người dùng các thông tin liên quan nhưng máy tinhkhông thể hiểu thông tin là gi để trình bày đủ tốt dé liệu có liên quan trong hoàncảnh đã cho Mặt khác Web From ngữ nghĩa học có các dữ liệu để máy tính có thể
xử lý, biến đổi, tập hợp, và thậm chí hành động theo dữ liệu trong những cách hữu
ích.
Trong bối cảnh này, người dùng là một có vấn phần mềm khi vừa mới nhậnđược một dự án mới, họ sẽ tạo ra một loạt của những công tác dịch vụ Web trên nềnSOAP cho từng may clients trên hệ thống mạng Đầu tiên, cần học một mầu vềSOAP, vì vậy tìm kiếm thuật ngữ sử dụng sự tìm kiếm ưa thích của các động cơ theongười ding Những khái niệm SOAP ở bề mặt có khi cho những kết quả trả về có ích
với nhiều khó khăn, có những danh sách cho những kết quả rỗng, và thậm chí những kết quả phức hợp.
Vì những hiệp hội ngữ nghĩa học khác của " SOAP " cho kết quả người dùngđược thay đổi trong sự thích hợp, vẫn còn phải làm nhiều công việc để tìm thấy
thông tin Tuy nhiên, trong một môi trường được cho phép bởi Web ngữ nghĩa học,
người dùng đã có thé sử dụng một đại diện Web From ngữ nghĩa học dé tìm kiếmWeb cho " SOAP" nơi SOAP là một kiểu thuyết minh công nghệ được dùng trongWeb services Thời gian này, những kết quả của sự tìm kiếm của các người dùng sẽxây dựng Đại điện Web From ngữ nghĩa học có thể cũng tìm kiếm hàng loat Web
25
Trang 27theo yêu cầu người dùng cho thuyết minh SOAP và khám phá những đồng nghiệpcủa người dùng có những dự án tương tự hoàn tất hay đã gửi bưu điện nghiên cứu
liên quan SOAP trên mạng Dựa vào thông tin ngữ nghĩa học sẵn có cho SOAP, đại
diện của người dùng cũng có mặt với một danh sách các kỹ thuật liên quan.
Hiện nay người ta dùng WSDL, XML, và URI là công nghệ liên quan đến
SOAP dé xây dựng Web From ngữ nghĩa học
Đại diện Web From ngữ nghĩa học cũng bao gồm mộ phần trí tuệ nhân tạo,những thông tin khá tin cậy và những quy tắc suy luận có cau trúc cho phép máy tính
" hiểu " tới mối quan hệ giữa tài nguyên dữ liệu khác Máy tính không thật sự hiểuthông tin một cách như con người có thé hiểu, trừ phi nó có đủ thông tin dé làmnhững kết nối và những quyết định légic
2.4.1 Định nghĩa ngữ nghĩa học và những mối quan hệ:
Việc thực hiện Web From ngữ nghĩa học yêu cầu thêm siêu đữ kiện ngữ nghĩa
học, hay dữ liệu dùng mô tả dữ kiện Cho phép những máy tính xử lý dữ liệu có hiệu
quả dựa vào thông tin ngữ nghĩa học mà nó mô tả Khi có đủ thông tin ngữ nghĩa học
liên hệ tới dữ liệu, những máy tính có thê làm những sự suy diễn về dữ liệu
XML (Ngôn ngữ nhãn phụ dễ mở rộng) và đã lát đường cho Web From ngữ
nghĩa học bằng việc thêm siêu đữ kiện vào trong mẫu của các nhãn do người lập
trình mô tả đữ liệu Ngoài ra, XML có thể bao gồm thông tin về tác giả của một trangWeb, những từ khóa liên quan cho sự tối ưu hóa động cơ tìm kiếm, và những dụng
cụ phần mềm thường tạo ra hồ sơ XML, chăng hạn
Trước khi chuyên đổi qua XML, dit liệu được cất giữ trong tập tin phẳngMySQL và những khuôn dạng cơ sở dữ liệu, nơi mà đa số dữ liệu sở hữu tới ứngdụng được cau tạo theo dang “”” TOPIC MAP”
XML đã lam dir liệu tương tác được bên trong một miền đơn, ví dụ, bên trongmiền được định nghĩa bởi một mô hình hay một tập của các mô hình liên quan Bởi
26
Trang 28vì chính XML chỉ cung cấp tính vận hành với nhau khi hai bên biết và hiểu những
tên phần tử được dùng
Bước đầu tiên yêu cầu những máy tính biết dữ liệu và sẽ đưa dir liệu đó vào
trong một định dạng, ví dụ, một "street" có nhãn lĩnh vực luôn luôn có cùng khuôn
dạng và chứa đựng cùng kiêu thông tin, Kiểu chức năng này có thé được tim thấy
hiện nay trên những trang web sử dụng những mẫu cho phép người sử dụng vào nhập
vào thông tin và chạy câu hỏi truy vấn, như những trang web phục vụ hàng khôngcho phép những người đến thăm tìm kiếm những chuyến bay dựa vào sự đa dạng củatiêu chuẩn Tuy nhiên hiện nay, số lượng và sự đa dạng của dit liệu sẵn sàng có từnhững nguồn khác, thông thường khi vận hành các máy tính không chọn lọc những
ứng dụng ở xa.
Bước tiếp theo về phía Web From ngữ nghĩa học yêu cầu dữ liệu từ nhiều
miền phân loại dựa vào những thuộc tính của nó và mối quan hệ của nó với dữ liệu
khác Những công nghệ Web From ngữ nghĩa học như RDF, RDES, và OWL được đưa vào.
2.4.2 Khung mô tả tài nguyên (RDF).
RDF là một tiêu chuẩn nền tảng của XML để mô tả những tài nguyên tồn tại
trên Web RDF xây dựng trên những công nghệ XML và URI hiện hữu ( dùng định
danh tai nguyên đồng dạng), sử dụng một URI để xác định mỗi tài nguyên, và sử dụng những URI để làm những sự phát biểu quanh các nguồn dữ liệu RDF mô tảmột tài nguyên (xác định bởi một URI), tài nguyên là những thuộc tinh và những gia
trị của những thuộc tinh đó RDF thường được tham chiếu tới như những " bộ ba "gồm một đề tài, vị từ, và đối tượng tương ứng tới một tài nguyên ( đề tài) phụ thuộcmột (vị từ) thuộc tính, và một thuộc tính đánh giá đối tượng Ở dưới là một ví dụ củamột sự phát biểu RDF:
27
Trang 29subject predicate object
The secret agent Niki Devgood
isnamed
Hình 2_ 10: Một phat triển của RDF
[resource] [property] | [value]
The secret agent is Niki Devgood
[subject] [predicate] | [object]
RDF bộ ba có thé được viết với nhãn XML, có thé xem hình trên
Sau khi tạo ra một liên kết tăng lên gấp ba lần, chúng có thể tiếp tục tạo ra
những bộ ba khác để liên tưởng đại diện với một dia chỉ email, ảnh :
The secret agent Niki Devgood
is named
has email drives
ndevgood@
Red convertible xmlspy.net
Hình 2_11: Sự phát trên của bộ ba RDF
28
Trang 30Cứ một lần bộ ba được định nghĩa bằng đồ thị, chúng có thể mã hóa trong mọi
RDF/ XML hay “N đến những khuôn dạng những bộ ba “sẽ được truy nhập theo
chương trình.
Bằng việc tạo ra những bộ ba những đề tài, những vi từ, và những đối tượng,
RDF cho phép những máy tính làm những sự khang định lôgíc dựa vào những đề tai
và các đối tượng Và từ RDF sử dung URIs dé xác định tài nguyên, mỗi tài nguyên bịràng buộc với một định nghĩa trên Web Tuy nhiên, trong khi RDF cung cấp một môhình và cú pháp (những quy tắc chỉ rõ những phan tử của một câu) dé mô tả nhữngtài nguyên, nó không những chỉ rõ ngữ nghĩa học (ý nghĩa) của tài nguyên Dé đúngđịnh nghĩa ngữ nghĩa học, cần có sự kết hợp giữa RDFS và OWL
2.4.3 MÔ HÌNH RDF (RDFS):
RDFS được dùng dé tạo ra những từ vựng ma mô ta những nhóm của tainguyên RDF và những mối quan hệ có liên quan giữa các nguồn tài nguyên Một từvựng RDFS định nghĩa những thuộc tính được phép có thé được gan đối với tàinguyên RDF bên trong một miền domain đã cho RDFS cũng cho phép bạn tạo ra
những lớp cho phép chia sẻ những thuộc tính dùng chung đó.
Sử dụng cùng dạng thức những bộ ba được định nghĩa boi RDF, RDES bộ ba
gồm có những lớp, phân loại những thuộc tính, và những giá trị đó định nghĩa nhữnglớp và những mối quan hệ giữa tài nguyên bên trong một miền domain đặc biệt
Trong một từ vựng RDFS, những tài nguyên được định nghĩa như những théhiện của những lớp Một lớp cũng là một tài nguyên, và bất kỳ lớp nào cũng có thê là
một lớp phụ của kẻ khác Thông tin ngữ nghĩa học có thứ bậc này là cái gì cho phép những máy xác định những những ý nghĩa của tài nguyên được dựa vào những thuộc
tính của họ và những lớp.
Ở dưới là một ví dụ trực quan của một RDFS mà cho thấy một tài nguyên và
những thuộc tính có liên hệ của nó, những giá trị và những lớp:
29
Trang 31trí: detype =——]| url http:/dublincore.orgiusagei
T uri determsiissued E—] - TH 2000-07-11
di: rdfstype H | 7 Et ur: determs:references EÌ |
|
|
uri determs: SubjectScheme
encoding schemes and/or ur: rdfstisDefinedBy EÌ
ur rdfsisDefinedBy 4]
uri rdfsiseeAlso FI
Hình 2_12 : Mô tả một RDFS cho thấy một tài nguyên và những thuộc tính có liên hệ
của nó, những giá trị và những lớp tương ứng.
Toàn bộ, RDFS là một ngôn ngữ từ vựng đơn giản dé biểu thị những mốiquan hệ giữa tài nguyên Việc dựa vào RFDS là con OWL, có nhiều từ vựng diễncảm hơn, giàu hơn, đề định nghĩa những bản thể luận Web ngữ nghĩa học
2.4.4 Ngôn ngữ bản thé luận WEB (OWL):
OWL là một thành phần thứ ba của thuyết minh W3C dùng để tạo ra các ứng
dụng Web ngữ nghĩa học Việc dựa vào RDF và những RDF, OWL định nghĩa
những kiểu của những mối quan hệ mà có thé được biểu thị 6 RDF sử dụng một từ
vựng XML dé định nghĩa sự phân cấp và những mối quan hệ giữa tài nguyên khác
Thật ra, đây là chính là định nghĩa của " bản thé luận " trong văn cảnh của Web ngữ
nghĩa học: một mô hình mà hình thức được định nghĩa những sự phân cấp và những
30
Trang 32mối quan hệ giữa những nguồn khác Những bản thể luận Web From ngữ nghĩa học
gồm có một nguyên tắc phân loại và và một tập những quy tắc suy luận từ đó máytính có thé làm những kết luận lôgíc
Một nguyên tắc phân loại trong văn cảnh này là hệ thống của xếp hạng, nhưvương quốc/ nganh/ lớp/ mệnh lệnh khoa học/ Hệ thống dé phân loại những những
cây và những động vật mà nhóm lại tai nguyên vào trong những lớp va những lớp
mức dudi được dựa vào những mối quan hệ của họ và những thuộc tính dùng chung
Khi những sự mô tả tài nguyên RDF liên quan đến một bản thể luận được địnhnghĩa ở trên Web liên quan đến từng nguồn tài nguyên Trong cách này sẽ dùngURIs, XML, RDF, RDES, va OWL kết hop khi phat trién Web From ngữ nghĩa học
là một thực tế, làm những nghiên cứu về SOAP của doanh nhân chuyến đi công tácđược lập kế hoạch mô tả trước đó rất khả thi
2.5 SỨ DỤNG LÝ THUYET MIND MAPS VÀO WEB FORM NGỮ NGHĨA
HỌC:
2.5.1 Tìm hiểu thêm về khái niệm tư duy:
Tư duy là gì? Đây là một vẫn đề thu hút sự quan tâm của nhiều ngành khoa học
và nhiều nhà khoa học nghiên cứu Triết học nghiên cứu tư duy dưới góc độ lý luận
nhận thức Logic học nghiên cứu tư duy ở các quy tắc tư duy đúng Xã hội họcnghiên cứu tư duy ở sự phát triển của quá trình nhận thức trong các chế độ xã hộikhác nhau Sinh lý học nghiên cứu cơ chế hoạt động thần kinh cao cấp với tư cách lànên tang vật chat của các quá trình tư duy ở con người Điều khiển học nghiên cứu tưduy dé có thé tạo ra "Trí tuệ nhân tạo" Tâm lý học nghiên cứu diễn biến của quá
trình tư duy, mối quan hệ qua lại cụ thể của tư duy với các khía cạnh khác của nhận thức ‘” Ngày nay, người ta còn nói tới tư duy của người máy
31
Trang 332.5.2 Sơ đồ quá trình tư duy
Khi thông tin được gợi ra, mind maps g1úp tổ chức thông tin theo một hình thức
mà dé dàng được xuất hiện và ghi nhớ Được sử dụng dé ghi chú tat ca các loại nhưsách vở, bài giảng, hội họp, phỏng vân, và đàm thoại.
2.5.2.2 Gợi nhớ ( Hồi tưởng):
Bất cứ khi nào thông tin được xuất hiện từ trong bộ não, thì mind maps chophép các ý tưởng được ghi lại rất nhanh ngay khi nó được sinh ra vào một hệ được tổ
32
Trang 34chức Vì thế chăng cần phải viết cả một câu Nó như một phương tiện nhanh và hiệuquả trong việc tông quát và vì thế có thé giữ lại các hồi tưởng rất nhanh gon.
2.5.2.3 Sáng tạo:
Bat cứ khi nào người dùng muốn khuyến khích sự sáng tao, mind maps sẽ
giúp người dùng giải phóng cách suy diễn cô điển theo phương thức ghi chép sựkiện theo dòng, cho phép các ý tưởng mới được hình thành nhanh chóng theo luồng
tư duy xuất hiện
Intuitive arrangement of concepts helps learning memory and
2.5.2.4 Giải quyết van đề:
Khi gặp trở ngại với một van đề mind maps có thé giúp nhìn nhận tất cả cácvan dé và làm thé nào dé liên kết chúng lại với nhau Nó cũng giúp người dùng cóđược cái nhìn tổng quát là người dùng có thể nhìn nhận vấn đề dưới những góc độ
nào và sự quan trọng của nó.
Lập kế hoạch Khi cần lập kế hoạch, mind maps giúp người ding có được tất cả
các thông tin liên quan vào một nơi và tô chức nó một cách thật đơn giản.Tât cả các
33
Trang 35loại kê hoạch từ việc việt một bức thư cho đên một kịch bản, một cuôn sách, hoặc
lập kế hoạch cho một cuộc họp, một ngày nghỉ
2.5.2.5 Trình bày:
Khi nói ta luôn chuẩn bị tốt một mind map về một chủ đề và cách diễn đạt Nó
không chỉ giúp ta tô chức các ý kiến hợp lý, dé hiểu mà còn giúp ta trình bày ma
không cân phải nhìn vào biên bản có sẵn.
2.5.2.6 Lam thé nao dé mind map:
Sử dung những từ chính hoặc những hình ảnh cần thiết.
- Bắt đầu từ trung tâm và triển khai ra
- Tạo cho trung tâm một hình ảnh rõ ràng và “mạnh” miêu tả được nội dung
tổng quất của toàn bộ mind map.
- Tạo các trung tâm nhánh và các chỉ tiết nhánh.
- Đặt những từ trọng tâm vào những hàng mà làm tăng kết cấu của các ghi chú
- In ra giấy hơn là viết tay vi làm cho dé đọ và dé nhớ hơn
34
Trang 36- Những trường hợp sau phải phân biệt rõ hơn những trường hợp trước.
- Sử dụng màu sac dé làm nỗi bật van dé
- Những gi không có trong trình bay thì không nên đưa vào mind map.
- Tư duy hai chiều
- Sử dụng mũi tên, biểu tượng hoặc những hình ảnh để chỉ ra sự liên kết
- Đừng dé bị tắc ở một khu vực Nếu cạn kiệt suy nghĩ thì chuyển sang nhánh
khác.
- Ghi ngay ý tưởng vao noi hợp lý ngay khi nghĩ ra nó Đừng lưỡng lu.
- Phá vỡ ranh giới Khi hết giấy đề trình bày thì đừng nên thay một tờ giấy khác
to hơn mà sử dụng thêm các tờ khác ghép vào.
- Sáng tạo.
Thông thường khi tiến hành suy nghĩ, não người cần phải xử lý và quản lý số
lượng lớn thông tin Không may khả năng của não người có hạn trong nhớ lại, phân
loại và quan lý các thông tin Và những điều đó máy tính lại rất mạnh Và chính thé,dùng các phần mềm phụ thêm con người trong quá trình suy nghĩ là một điều hiển
nhiên ngày nay.
Không nên lần lộn Trí tuệ nhân tạo với máy tính giúp đỡ suy nghĩ Mục tiêu của
trí tuệ nhân tạo là dạy cho máy tính suy nghĩ như con người còn công việc của phầnmềm trợ giúp nghĩ là sử dụng những sức mạnh trong xử lý thông tin của máy tinh dé
phụ trợ, tăng cường việc con người suy nghĩ, hỗ trợ nhớ lại thông tin nhanh, chính
xác hơn; phân loại, lọc thông tin, trình bày và mô tả các mối liên kết dễ dàng làm cho
có thê tìm hiểu, làm rõ vấn đề và suy nghĩ nhanh hơn Điều đó không có nghĩa làcung cấp sẵn giải pháp mà chúng ta tự mình tìm thấy, chọn giải pháp cho mình Trítuệ nhân tạo hội tụ đến việc máy tính phải tự đưa ra giải pháp
Mặt khác, máy tính giúp đỡ suy nghĩ đáp ứng cả xu hướng hội tụ lẫn phân kỳ.
Nó cho phép chúng ta thăm đò các không gian kiến thức và cùng lúc hội tụ ở bất kỳ
35
Trang 37chủ đề hay vấn đề đặc biệt nào Đáng chú ý là khả năng cất giữ và quản lý thông tin.Chúng ta thường phải bắt đầu lại từ lần đầu mỗi khi gặp một vấn đề mới.
Những chức năng phong phú của các phần mềm soạn thảo, biên tập nội dungthường không trực tiếp giúp đỡ một nhà văn tạo ra một câu chuyện hay hơn mà chỉ lànhững thao tác thuận tiện cho trình bày, biên tập bài viết của mình về hình thức vàcũng như những người lao động khác như những người công nhân ở các ngành nghềchúng ta cũng luôn mong muốn mình có những công cụ mạnh hơn để tốn ít thời giancho sản xuất và tiết kiệm được năng lượng trong từng thao tác của mình
- Nháp trực quan: Đó là những công cụ hỗ trợ viết nháp khi suy nghĩ, đặc biệt
thao tác dễ dàng với các dạng sơ đồ phác thảo, bản đồ tâm trí và bản đồ khái niệm.
Chúng gắn sơ đồ với văn bản vẽ nháp Cá nhân tôi cho rằng chúng hết sức hữu ích vàlàm cho việc suy nghĩ hưu ích hơn rất nhiều
- Xử lý mô phỏng ý tưởng
- Cung cấp vấn đề để suy nghĩ: Đó là những chương trình cung cấp một số lượng vấn đề đầu vào cho những người dùng suy nghĩ bằng cách và sử dụng tập hợpcác câu hỏi hay chỉ là những khái niệm hay cả những câu chuyện tượng tự như là
những bai tập đề khích thích phát sinh những ý tưởng mới ở người dùng
- Xây dựng các bài viết/câu chuyện: Những chương trình này giúp cho người sử
dụng có thể sáng tạo trong hoạt động viết báo, tiểu thuyết, kịch bản phim hay lờiquảng cáo, khâu hiệu
2.5.3 Kết luận
Sẽ còn có thời gian để chúng ta nhìn rõ hơn giá trị của máy tính là rất hữu íchđối với tư duy của chúng ta Vì thế mà mọi nền giáo dục hiện đại đang tăng cườngứng dụng máy tính để rèn luyện phát triển các khả năng tốt đẹp của thế hệ trẻ nhưtích cực, tự lực suy nghĩ, lao động có kế hoạch, khoa học và hiệu quả dé sang tao nén
những giá tri mới phục vu cho tương lai của nhân loại.
36
Trang 38CHƯƠNG 3 XÂY DỰNG HỆ THÓNG
3.1 PHAN TÍCH UNG DUNG
3.1.1 C4u hình hệ thống Web From Sermantic:
Hình 3-1: Cau hình hệ thống theo hướng phân tang
Đề tài có một kiến trúc hướng phân tầng, công tác dịch vụ:
- Lớp chính là lớp ứng dụng, nằm ở giữa Nó đưa ra những cách khác nhau cho
lớp trình bày dé giao tiếp với nó qua lớp truyền thông (ứng dụng xuất khâu XML).
37
Trang 39Phần đáng chú ý nhất của kiến trúc đề tài là ứng dụng Những chủ đề tài nhữngđối tượng thông tin ở chủ dé tài không phải là chỉ những đối tượng đồ thi, mà lànhững đối tượng đữ liệu tích cực:
- Mỗi kiểu chủ đề có chức năng duy nhất được cung cấp ở lớp Java tương ứng.Những chủ đề liên quan đến và thừa hưởng được lẫn nhau được định hình trong giaodiện người dùng Những lớp Java này quy định những thuộc tính mặc định để đáp
ứng mọi loại sự kiện từ sự tạo thành và trên giao diện màn hình thực đơn văn cảnh
định vị khu chuyên động không gian cho phép và xuất bản đề tài trong một khônggian làm việc Thuộc tính của một nút trong cây có thê biến đổi trong bat kỳ hòan
cảnh nào mà người dùng mường tượng.
Đề tài làm giảm những hành động của người dùng giao điện Nó khôi phụcnhững chủ đề, những biểu tượng của người tạo ra ở đúng vị trí, những quan hệ và
những lệnh từ người phục vụ và xử lý chỉ sự tương tác người sử dụng.
Những giao diện khác có thể được thực hiện vận hành dễ dàng thậm chí đồngthời trên cùng dữ liệu Đáng chú ý có thé làm giảm dif liệu bằng những lệnh gômnhóm với những chỉ dẫn được hiện ra và những chủ đề tương ứng
3.1.2.1 Dé tài có một số thách thức trong tương tác:
- Nó phải luôn tích hợp với JSP( JDK, JRE), Tomcat.
- Nó cần phải cung cấp tính phản ứng cao
3.1.2.2 Sử dụng bốn luồng kết nối cong.
- Một cổng dùng cho Server
38
Trang 40- Một cổng dùm dé Browser web được sử dụng cho sự tương tác người sử dung
bình thường như sự chuyền động chủ đề trên màn ảnh
- Một công dùng cho Server MYSQL xử lý những chuyền đổi hồ sơ
- Một cổng dùng cho Admin chạy với quyền ưu tiên đặc biệt cho phép định
nghĩa kiêu, định nghĩa hành vi và thậm chí thay đôi biểu tượng định vị trí
Kiến trúc chủ đề định nghĩa một mô hình ứng dụng mới và đưa cho nhữnghướng phát triển khung dé thiết kế chủ đề hoặc những ứng dụng Những ứng dụng
như vậy dé dàng bảo trì và cập nhật khi dữ liệu lưu trên máy chủ.
Đề tài sử dụng con Tomcat Jakarta dé chạy JSP va Servlet Nó có thé xuất khẩu
nội dung đầy đủ một chủ dé từ MySQL về dang XML và, nhập các file XML về
MySQL.
3.2 THIẾT KE HE THONG
Những ban đồ chủ đề là một cach tiếp cận hướng con người mã hóa kiến thức
trong số những bản đồ chủ đề gồm có những chủ đề con bên trong, những tập hợp và
những biến có Trong một chủ đề mạng ngữ nghĩa học, bản đồ chủ đề liên quan đếnnhững tài nguyên, những quan hệ và những thể hiện:
- A topic map :Một bản đồ chủ dé là một mạng ngữ nghĩa, gồm có những chủ
đề, những tập hợp và những biến cố của những chủ dé
- A topic denotes :Một chủ đề biểu thị chỉ về bat cứ cái gì những người đó cóthé nói quanh Một chủ đề có một ID
- A topic: Một dé tài có thé có một kiểu hoặc nhiều kiểu chủ đề
- An association: Một tập hợp có một ID và liên hệ hai hoặc nhiều chủ đề Mỗikết thúc của một tập hợp có một kiểu Một tập hợp có thé cũng có một kiểu
- An occurrence: Một biến cé biểu thị một thé hiện của một chủ dé Trong mộtbản đồ đề tài những biến cố ngoài đối với một bản đồ đề tài và được gửi xuyên qua
những định danh
39