Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 29 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
29
Dung lượng
7,41 MB
Nội dung
Đại Học Quốc Gia TP.HCM Trường Đại Học Công Nghệ Thông Tin BÀI THU HOẠCH MÔN CƠ SỞ DỮ LIỆU NÂNG CAO ĐỀ TÀI: TÌM HIỂU VÀ CÀI ĐẶT ỨNG DỤNG RESOURCE DESCRIPTION FRAMEWORK GVHD: PGS.TS. Đỗ Phúc Người thực hiện: Bùi Chí Cường Mã số: CH1101007 Lớp: Cao học khóa 6 TP.HCM – 2012 LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời chân thành cảm ơn đến Ban Chủ nhiệm trường Đại học công nghệ thông tin TP HCM đã tạo điều kiện cho em được tiếp cận với bộ môn Cơ sở dữ liệu nâng cao. Em xin cảm ơn thầy PGS.TS. Đỗ Phúc đã tận tình truyền đạt kiến thức cho chúng em cũng những gì thầy đã giúp đỡ, hướng dẫn để em thực hiện bài tiểu luận. Em cũng xin gửi lời cảm ơn sâu sắc đến quý thầy cô trong Khoa Công nghệ Thông tin cùng các bạn bè thân hữu đã nhiệt tình đóng góp ý kiến, cũng như động viên để em hoàn thiện hơn đề tài của mình. Mặc dù đã rất cố gắng nhưng đề tài khó tránh khỏi những thiếu sót và sai lầm, em mong thầy cô và bạn bè cho ý kiến để đề tài ngày càng hoàn thiện hơn. Một lần nữa, em xin chân thành cảm ơn! Tp. HCM, tháng 7 năm 2012 Bùi Chí Cường CH1101007 MỤC LỤC LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC HÌNH VẼ v 1 CHƯƠNG I - MỞ ĐẦU 7 1.1 Giới thiệu chung 7 1.2 Hoạt động nghiên cứu 7 2 CHƯƠNG II - TỔNG QUAN VỀ RDF 8 2.1 Khái niệm 8 2.2 Các luật của RDF 8 2.3 RDF Statements 8 2.4 Những thành phần chính RDF 10 2.4.1 Thành phần <rdf:RDF> 10 2.4.2 Thành phần <rdf:Description> 10 2.4.3 Thuộc tính là giá trị 10 2.4.4 Thuộc tính là tài nguyên 11 2.5 Thành phần RDF Container 11 2.5.1 Thành phần <rdf:Bag> 11 2.5.2 Thành phần <rdf:Seq> 12 2.5.3 Thành phần <rdf:Alt> 12 2.5.4 RDF Collections 13 3 CHƯƠNG III – TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐỒ THỊ 14 3.1 Lý thuyết về đồ thị 14 3.2 Cơ sở dữ liệu đồ thị 14 3.3 Xây dựng cơ sở đồ thị RDF 15 4 CHƯƠNG IV – DEMO VÀ SETUP 19 4.1 Tổng quan về chương trình demo 19 4.2 Hướng dẫn cài đặt và sử dụng chương trình 19 4.2.1 Yêu cầu 19 4.2.2 Cài đặt và sử dụng chương trình 25 4.2.3 Tìm kiếm trên cở sở dữ liệu đồ thị RDF 27 5 CHƯƠNG V - KẾT LUẬN 29 5.1 Tóm tắt kết quả đạt được 29 5.2 Hướng phát triển 29 5.3 Tài liệu tham khảo 29 v DANH MỤC CÁC HÌNH VẼ Hình 1 - Đồ thị có hướng 14 Hình 2 - Cơ sở dữ liệu đồ thị 15 Hình 3- Thuộc tính & mối quan hệ 15 Hình 4 - Table Vertex và Edge 18 Hình 5 - Quan hệ giữa Edge và Vertex 18 Hình 6 - Cài đặt SQL 1 19 Hình 7 - Cài đặt SQL 2 20 Hình 8 - Cài đặt SQL 3 21 Hình 9 - Cài đặt SQL 4 21 Hình 10 - Cài đặt SQL 5 22 Hình 11 - Cài đặt SQL 6 23 Hình 12 - Đăng nhập SQL 23 Hình 13 - Tạo database rdf 23 Hình 14 - Thực thi cript tạo table 25 Hình 15 - Giao diện chính 26 Hình 16 - Giao diện sau khi load data 27 vi Hình 17 - Giao diện tìm kiếm 28 7 BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 1 CHƯƠNG I - MỞ ĐẦU 1.1 Giới thiệu chung. Ngày nay, cơ sở dữ liệu đồ thị đã chứng tỏ thế mạnh trong nhiều lĩnh vực, như là trong lĩnh vực mạng xã hội, trong hệ thống sinh học, trong hệ thống thông tin địa lý, cấu trúc XML. Resource Description Framework (RDF) là một mô hình dữ liệu định dạng XML được đề xuất vào năm 1999 bởi tổ chức W3C và ngày nay nó đã trở thành một chuẩn phổ biến để mô tả các tài nguyên web và cũng là một phần quan trọng của mạng ngữ nghĩa. Chính sự quan trọng này mà việc tìm hiểu và nghiên cứu tài liệu RDF là rất cần thiết. Trước đây, RDF thường được tiếp cận theo ngữ cảnh của một ngôn ngữ sử dụng các từ vựng hình thức. Tức là mục đích sử dụng là để môt tả thông tin tài nguyên. Trong đề tài này ta sẽ tiếp cận RDF theo ngữ cảnh của cơ sở dữ liệu đồ thị, việc tiếp cận theo ngữ cảnh này sẽ tạo tiền đề cho các nghiên cứu sau này về cơ sở dữ liệu đồ thị RDF. Trực quan hóa là yêu cầu cần thiết khi làm việc với đồ thị. Tuy đã có rất nhiều công cụ cho phép trực quan tài liệu RDF nhưng các công cụ này chỉ tiếp cận RDF theo khía cạnh ngôn ngữ. Việc truy vấn trên RDF thường sử dụng các ngôn ngữ truy vấn RDF như SPARQL, RQL, RDQL. Tiếp cận RDF bằng cơ sở dữ liệu đồ thị sẽ tận dụng được các ưu điểm của cơ sở dữ liệu như khai phá dữ liệu, tìm đặc cấu đồ thị. 1.2 Hoạt động nghiên cứu. Đề tài thực hiện nghiên cứu và tiếp cận tài liệu RDF theo ngữ cảnh cơ sở dữ liệu đồ thị. Cài đặt và trực quan hóa tài liệu RDF với giao diện đơn giản, cho phép người dùng tìm kiếm thông tin trong cấu trúc RDF. 8 BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 2 CHƯƠNG II - TỔNG QUAN VỀ RDF 2.1 Khái niệm RDF (Resource Description Framework) là một chuẩn W3C để mô tả các tài nguyên Web, chẳng hạn như tiêu đề, tác giả, ngày hiệu chỉnh, nội dung, thông tin bản quyền của một trang web. RDF được viết dưới định dạng XML. Bằng cách sử dụng XML, RDF dễ dàng chuyển đổi giữa các máy tính sử dụng những hệ điều hành khác nhau. RDF là một phần trong Semantic Web – một tương lai của web giúp cho các máy tính có thể tương tác thông tin trên web. RDF được sử dụng phổ biến trong việc mô tả thông tin của các món hàng như giá cả, còn hàng hay hết hàng…, hay mô tả lịch của một sự kiện, mô tả thư viện điện tử, các tài nguyên trang web, mô tả nội dung cho các seach engine… Ví dụ về một RDF: <?xml version="1.0"?> <rdf:RDF xmlns:rdf= “http://www.w3.org/1999/02/22-rdf-syntax-ns#” xmlns:si= “http://www.w3schools.com/rdf/” > <rdf:Description rdf:about= “http://www.w3schools.com” > <si:title>W3Schools</si:title> <si:author>Jan Egil Refsnes</si:author> </rdf:Description> </rdf:RDF>. 2.2 Các luật của RDF RDF sử dụng các URI để nhận biết thông tin về tài nguyên. RDF mô tả thông tin tài nguyên bằng các thuộc tính và giá trị thuộc tính Tài nguyên(Resource) có một URI cụ thể ví dụ : http://www.w3schools.com/rdf Thuộc tính là một tài nguyên có tên như author, hompage… Giá trị thuộc tính là giá trị cụ thể cho thuộc tính đó như giá trị thuộc tính cho author là “Jan Egil Refsnes” hay gía trị thuộc tính cho homepage là http://www.w3schools.com 2.3 RDF Statements RDF statement là một sự kết nối của tài nguyên, thuộc tính và giá trị thuộc tính hay còn gọi là subject,predicate và object. Ví dụ: Statement: “Tác giả của http://www.w3schools.com/rdf là Jan Egil Refsnes” • Subject của statement trên là: http://www.w3schools.com/rdf • Predicate : tác giả 9 BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 • Object : Jan Egil Refsnes Statement: “homepage của http://www.w3schools.com/rdf là: http://www.w3schools.com" Subject: http://www.w3schools.com/rdf Predicate: homepage Object: http://www.w3schools.com Ví dụ về RDF: Giả sử ta có một bảng thông tin về một danh sách các đĩa CD: Title Artist Country Company Price Year Empire Burlesque Bob Dylan USA Columbia 10.90 1985 Hide your heart Bonnie Tyler UK CBS Records 9.90 1988 RDF mô tả thông tin danh sách đĩa CD như sau: <?xml version="1.0"?> <rdf:RDF xmlns:rdf= “http://www.w3.org/1999/02/22-rdf-syntax-ns#” xmlns:cd="http://www.recshop.fake/cd#"> <rdf:Description rdf:about= “http://www.recshop.fake/cd/Empire Burlesque” > <cd:artist>Bob Dylan</cd:artist> <cd:country>USA</cd:country> <cd:company>Columbia</cd:company> <cd:price>10.90</cd:price> <cd:year>1985</cd:year> </rdf:Description?> <rdf:Description rdf:about=”http://www.recshop.fake/cd/Hide your heart” > <cd:artist>Bonnie Tyler</cd:artist> <cd:country>UK</cd:country> <cd:company>CBS Records</cd:company> <cd:price>9.90</cd:price> <cd:year>1988</cd:year> </rdf:Description> . . . </rdf:RDF> Dòng đầu tiên của RDF là thành phần khai báo XML. Tất cả các nút gốc của RDF đều phải có thành phần khai báo: <rdf:RDF> xmlns:rdf, xmlns:cd là tên namespace tương ứng với một URL <rdf:Description> chứa mô tả về tài nguyên được nhận biết bởi thuộc tính rdf:about 10 BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 2.4 Những thành phần chính RDF Những thành phần chính của một tài liệu RDF là <RDF> và <Description>. Những thành phần này chủ yếu để nhận biết về tài nguyên. 2.4.1 Thành phần <rdf:RDF> <rdf:RDF> là một thành phần gốc của một tài liệu RDF. Thành phần này để cho biết văn bản XML là một RDF. Trong thành phần này sẽ chứa một chiếu đến namspace RDF Ví dụ: <?xml version="1.0"?> <rdf:RDF xmlns:rdf= “http://www.w3.org/1999/02/22-rdf-syntax-ns#” > Description goes here </rdf:RDF> 2.4.2 Thành phần <rdf:Description> Thành phần <rdf:Description> nhận biết tài nguyên bằng một thuộc tính about. Thành phần này chứa những thành phần mô tả về tài nguyên Ví dụ: <?xml version="1.0"?> <rdf:RDF xmlns:rdf= “http://www.w3.org/1999/02/22-rdf-syntax-ns#” xmlns:cd= “http://www.recshop.fake/cd#” > <rdf:Description rdf:about= “http://www.recshop.fake/cd/Empire Burlesque” > <cd:artist>Bob Dylan</cd:artist> <cd:country>USA</cd:country> <cd:company>Columbia</cd:company> <cd:price>10.90</cd:price> <cd:year>1985</cd:year> </rdf:Description> </rdf:RDF> Những thành phần artist, country, company, price, and year được định nghĩa trong namespace http://www.recshop.fake/cd#. 2.4.3 Thuộc tính là giá trị Thay vì sử dụng từng thành phần để mô tả thuộc tính ta có thể mô tả thuộc tính bằng giá trị cụ thể [...]... thân của nút đó thì gọi là cạnh lặp Trong đề tài này chủ yếu ta sử dụng đồ thị có hướng với trọng số của các cạnh là các predicate Hình 1 - Đồ thị có hướng 3.2 Cơ sở dữ liệu đồ thị Cơ sở dữ liệu là một kiểu cơ sở dữ liệu NoSQL sử dụng cấu trúc đồ thị với những cạnh, nút và những thuộc tính để biểu diễn và lưu trữ thông tin Một cơ sở dữ liệu đồ thị là một tập hợp các đồ thị thành viên G = {G1, G2, G3,…,... Net Framework 4.0 nên người dùng cần phải cài đặt Net Framework 4.0 Tải và cài đặt tại địa chỉ: http://www.microsoft.com/en-us/download/details.aspx?id=17851 4.2.2 Cài đặt và sử dụng chương trình Chương trình được đóng gói thành tập tin RDF.exe Người dùng có thể click setup và theo hướng dẫn cài đặt cho đến khi hoàn tất Sau khi kết thúc cài đặt, hãy khởi động chương trình bằng cách double click vào... CHƯƠNG IV – DEMO VÀ SETUP Tổng quan về chương trình demo 4.2 LỚP CH CNTTQM - K6 Chương trình demo được thực hiện qua 4 giai đoạn: Đọc nội dung tài liệu RDF Chuyển nội dung tài liệu RDF qua bộ parser để tạo ra các statement Từ các statement tạo ra các nút và cạnh đồ thị Lưu các nút và cạnh đồ thị vào database Hướng dẫn cài đặt và sử dụng chương trình 4.2.1 Yêu cầu Để cài đặt và sử dụng chương trình... một dữ liệu RDF mặc định hoặc click “Open new data” để import dữ liệu nào đó Sau khi kết thúc import, một giao diện trực quan về đồ thị RDF sẽ được hiển thị Hình 16 - Giao diện sau khi load data Ta có thể sắp xếp lại các nút bằng cách kéo và thả các nút tới vị trị thích hợp 4.2.3 Tìm kiếm trên cở sở dữ liệu đồ thị RDF Để tìm kiếm ta nhập thông tin cần tìm vào ô tìm kiếm, rồi click search Kết quả tìm. .. LUẬN Tóm tắt kết quả đạt được Tiếp cận một tài liệu RDF theo ngữ cảnh của cơ sở dữ liệu đồ thị Chương trình demo đã thực hiện được những tính năng cơ bản như là chuyển đổi một tài liệu RDF sang cơ sở dữ liệu đồ thị , trực quan hóa thông tin một tài liệu RDF , tìm kiếm thông tin trên RDF 5.2 Hướng phát triển Cải tiến tính năng trực quan thông tin tài liệu RDF như zoom, tự động layout các nút trên giao... lưu trữ cơ sở dữ liệu đồ thị RDF trong hệ quản trị cở sở dữ liệu, ta sẽ tạo ra 2 bảng là Vertex và Edge Bảng Vertex sẽ có hai cột là id và label là nhãn của các nút Bảng Edge sẽ có ba cột là head, tail và label Head là đỉnh đầu của nút, tail là đỉnh cuối của nút, label là nhãn của cạnh 17 BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 Hình 4 - Table Vertex và Edge Hình 5 - Quan hệ giữa Edge và Vertex... Cải tiến tính năng trực quan thông tin tài liệu RDF như zoom, tự động layout các nút trên giao diện để người dùng dể nhìn hơn Cải tiến tính năng tìm kiếm để có thể thực hiện tìm kiếm trên dữ liệu lớn Khai thác dữ liệu trên cơ sở dữ liệu đồ thị RDF 5.3 Tài liệu tham khảo [1] Renzo Angles , Claudio Gutierrez - Querying RDF Data from a Graph Database Perspective [2] Renzo Angles - Graph Database Model... demo thì người dùng trước hết phải cài hệ quản trị cơ sở dữ liệu Microsoft SQL Server 2005 hoặc mới hơn Có thể tải bản Express tại địa chỉ http://www.microsoft.com/en-us/download/details.aspx?id=1695 Sau đây là một số lưu ý khi cài đặt MS SQL Server 2008 Trên màn hình "Features Selection", nhất nút "Sellect All" để chọn tất cả, sau đó nhấn nút "Next" Hình 6 - Cài đặt SQL 1 19 BÙI CHÍ CƯỜNG - CH1101007... Sau cùng ta nhấn vào nút "Add Current User", rồi nhấn nút Next để tiếp tục 22 BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 Hình 11 - Cài đặt SQL 6 Click Next và Install để cài đặt thành công SQL Sauk hi cài đặt xong, ta sẽ vào SQL tạo một database mới với tên là rdf và chạy cript phát sinh các bảng cần thiết Lưu ý: Hiện tại chương trình chạy local (.\SQLEXPRESS) với quyền windows Hình 12 - Đăng nhập... nhãn 14 BÙI CHÍ CƯỜNG - CH1101007 LỚP CH CNTTQM - K6 Hình 2 - Cơ sở dữ liệu đồ thị 3.3 Xây dựng cơ sở đồ thị RDF Như ta đã biết một tài liệu RDF là một tập hợp các statement Một statement trong tài liệu RDF được biểu diễn bằng một cung nối từ Subject sang Object với nhãn của cung này là Predicate Hình 3- Thuộc tính & mối quan hệ Các subject và object sẽ tạo thành các node trong trong đồ thị Nhãn của . THU HOẠCH MÔN CƠ SỞ DỮ LIỆU NÂNG CAO ĐỀ TÀI: TÌM HIỂU VÀ CÀI ĐẶT ỨNG DỤNG RESOURCE DESCRIPTION FRAMEWORK GVHD: PGS.TS. Đỗ Phúc Người thực hiện: Bùi Chí Cường Mã số: CH1101007 Lớp: Cao học khóa. tận dụng được các ưu điểm của cơ sở dữ liệu như khai phá dữ liệu, tìm đặc cấu đồ thị. 1.2 Hoạt động nghiên cứu. Đề tài thực hiện nghiên cứu và tiếp cận tài liệu RDF theo ngữ cảnh cơ sở dữ liệu. chủ yếu ta sử dụng đồ thị có hướng với trọng số của các cạnh là các predicate. Hình 1 - Đồ thị có hướng 3.2 Cơ sở dữ liệu đồ thị Cơ sở dữ liệu là một kiểu cơ sở dữ liệu NoSQL sử dụng cấu trúc