1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận môn cơ sở dữ liệu nâng cao Biểu diễn các phát biểu bằng đồ thị RDF

26 936 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 4,18 MB

Nội dung

Báo cáo chuyên đề - Cơ Sở Dữ Liệu Nâng Cao GVHD: PGS.TS.Đỗ Phúc MỤC LỤC I. Tổng quan về cơ sở dữ liệu đồ thị 2 II.Tổng quan về RDF 4 III.Kết luận 25 Tài liệu tham khảo 26 MỞ ĐẦU Ngày nay, cơ sở dữ liệu đồ thị đã trở thành thế mạnh trong nhiều lĩnh vực, bởi hầu hết các ứng dụng đều có một lượng dữ liệu khổng lồ và đòi hỏi phải có tính linh hoạt mềm dẻo để thay đổi cấu trúc dữ liệu theo thời gian cho phù hợp với nhu cầu thực tế. Và Dữ liệu đồ thị đã đáp ứng được nhu cầu này bằng cách thức lưu trữ thông tin ở dạng đồ thị những đỉnh và cạnh. Bài báo cáo này trình bày khái quát và cách tiếp cận RDF bằng cơ sở dữ liệu đồ thị. Cài đặt RDF với giao diện đơn giản, cho phép người dùng tìm kiếm thông tin trong cấu trúc RDF. Em xin chân thành cảm ơn PGS.TS. Đỗ Phúc đã tận tình giảng dạy, truyền đạt những kiến thức quý báu và hướng dẫn về nguồn tài liệu tham khảo để em có thể hoàn thành môn học này. Em xin chân thành cám ơn! HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 1 Báo cáo chuyên đề - Cơ Sở Dữ Liệu Nâng Cao GVHD: PGS.TS.Đỗ Phúc I. Tổng quan về cơ sở dữ liệu đồ thị 1. Lý thuyết về đồ thị: Một đồ thị G là một bộ gồm ba thành phần <N,E,W> trong đó N={ni} là một tập các nút, là tập các cạnh, mỗi cạnh gồm cặp các nút <ni,nj> và W là một ánh xạ E->R n tương ứng với một trọng số hay giá trị của mỗi cạnh. Trọng số được định nghĩa như là một vector số thực bởi vì trong thực tế giá trị thuộc tính của các cạnh là khá phức tạp. Một đồ thị có các cạnh có hướng, hướng từ đỉnh nguồn đến đỉnh đích thì gọi là đồ thị có hướng. Một độ thị mà có nhiều cạnh nối giữa hai nút gọi là đa đồ thị. Một cạnh mà nối với chính bản thân của nút đó thì gọi là cạnh lặp. Trong đề tài này chủ yếu ta sử dụng đồ thị có hướng với trọng số của các cạnh là các predicate. HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 2 Báo cáo chuyên đề - Cơ Sở Dữ Liệu Nâng Cao GVHD: PGS.TS.Đỗ Phúc Hình 1: Đồ thị có hướng 2. Cơ sở dữ liệu đồ thị: Cơ sở dữ liệu là một kiểu cơ sở dữ liệu NoSQL sử dụng cấu trúc đồ thị với những cạnh, nút và những thuộc tính để biểu diễn và lưu trữ thông tin. Một cơ sở dữ liệu đồ thị là một tập hợp các đồ thị thành viên G = {G1, G2, G3,…, Gn} trong đó mỗi đồ thị Gi là một đồ thị có nhãn. Hình 2: Cơ sở dữ liệu đồ thị HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 3 1 2 3 Báo cáo chuyên đề - Cơ Sở Dữ Liệu Nâng Cao GVHD: PGS.TS.Đỗ Phúc II. Tổng quan về RDF RDF (The Resource Description Framework) là một gia đình của World Wide Web Consortium (W3C) chi tiết kỹ thuật ban đầu được thiết kế như là một mô hình dữ liệu siêu dữ liệu. Nó đã được sử dụng như một phương pháp chung để mô tả khái niệm hoặc mô hình hóa các thông tin được thực hiện trong nguồn tài nguyên web, bằng cách sử dụng một loạt các định dạng cú pháp. 1. Định nghĩa: • RDF được viết dưới định dạng XML. Bằng cách sử dụng XML, RDF dễ dàng chuyển đổi giữa các máy tính sử dụng những hệ điều hành khác nhau. • RDF(Resource Description Framework) là nền tảng cho việc biểu diễn dữ liệu trong web ngữ nghĩa. RDF được thiết kế để cung cấp 1 chuẩn cho việc mô hình hóa, miêu tả và trao đổi thông tin. • Để làm được điều này thì RDF sử dụng 1 mô hình dữ liệu đơn giản, trong đó gồm : các tài nguyên (resources) và các phát biểu (statements). • Một phát biểu liên kết hai tài nguyên với nhau. Một phát biểu giống như 1 câu đơn giản có dạng: chủ ngữ(subject)-động từ(verb)-vị ngữ(object) .VD : "I love you" thì " I " là chủ ngữ, " love " là động từ, " you " là vị ngữ. • Trong RDF, một phát biểu được gọi là một bộ ba, vì nó gồm 3 phần : o Chủ ngữ của phát biểu được gọi là subject o Động từ được gọi là predicate hoặc property o Vị ngữ thì được gọi là object hoặc value 2. RDF và các cơ sở dữ liệu truyền thống HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 4 Báo cáo chuyên đề - Cơ Sở Dữ Liệu Nâng Cao GVHD: PGS.TS.Đỗ Phúc • Trong cơ sở dữ liệu truyền thống, dữ liệu được lưu dưới dạng bảng. Trong đó mỗi bộ dữ liệu (tuple) không giới hạn về số lượng thành phần. • Ví dụ : PersonID Name Phone Email City State person-1 William Sparks 435 555-6789 wsparks@mailto.com Springfield MA person-2 Constance Sim 312 555-2238 csim@coldmail.com Chicago IL • Do RDF chỉ gồm các tài nguyên và các bộ ba, nên để đưa dữ liệu về dạng các bộ ba, cần tách cơ sở dữ liệu truyền thống thành các bảng nhỏ nhất có thể. Một hàng của một bảng gồm hai cột có thể coi là 1 bộ ba nên ta có thể tách bảng cũ thành tập các bảng 2 cột như sau : PersonID Name person-1 William Sparks person-2 Constance Sim Ta có bộ ba : (person-1, name, William Sparks) Name Phone William Sparks 435 555-6789 Constance Sim 312 555-2238 Ta có bộ ba : (William Sparks, phone, 435 555-6789) • Sau đó, ta có thể biểu diễn khóa chính trong các bảng bằng một tham chiếu URI, hoặc trong một số trường hợp có thể dùng các nút vô danh(anonymous node) để biểu diễn các hàng. HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 5 Báo cáo chuyên đề - Cơ Sở Dữ Liệu Nâng Cao GVHD: PGS.TS.Đỗ Phúc 3. Biểu diễn các phát biểu bằng đồ thị RDF : Một đồ thị biểu diễn RDF bao gồm các nút (đỉnh) và các cung. Mỗi nút có thể là một tài nguyên (resource) hoặc giá trị nguyên thủy (literal), trong khi đó các cung tượng trưng cho một predicate/property. Ta có thể ánh xạ một bộ ba sang lược đồ như sau: Hình 3 : Ví dụ về đồ thị RDF • Trong các đồ thị RDF : o Hình tròn hoặc oval biểu diễn cho một tài nguyên o Hình chữ nhật biểu diễn cho giá trị nguyên thủy ví dụ như 1 chuỗi kí tự Tài nguyên có nhiều phát biểu : Hình dưới biểu diễn khi có một vài phát biểu về cùng 1 tài nguyên : HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 6 Báo cáo chuyên đề - Cơ Sở Dữ Liệu Nâng Cao GVHD: PGS.TS.Đỗ Phúc Hình 4 : Một tài nguyên có nhiều thuộc tính, các thuộc tính thuộc các phát biểu khác nhau Ở ví dụ trên, ta không thấy city và state có mối quan hệ với nhau. Nhưng trên thực tế thì ngược lại, một người sống ở một nơi nào đó trong thành phố thì tương ứng phải ở một quận nào đó. Để khắc phục điều này, ta thêm vào đồ thị một nút nữa, nút vô danh(anonymous node), có hai thuộc tính city, state. Hình 5 : Nút vô danh hay nút trống Nút vô danh(anonymous node) : Kể cả khi 1 tài nguyên không được định danh, nó vẫn có thể có kiểu riêng và là chủ ngữ(subject) của các phát biểu khác. Ở hình trên, person-1 có adrress là một tài nguyên không định danh(nút vô danh), tài nguyên này lại là chủ ngữ của hai phát biểu khác. Bây giờ ta sẽ thêm một thuộc tính nữa cho nút trống này để xác định kiểu cho tài nguyên đó. HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 7 Báo cáo chuyên đề - Cơ Sở Dữ Liệu Nâng Cao GVHD: PGS.TS.Đỗ Phúc Hình 6 : Tạo kiểu cho nút vô danh Tài nguyên là vị ngữ của phát biểu • Ví dụ, ta muốn tạo một phát biểu về tài khoản email của person-1. Giả sử, nó được mở tạo vào August 1, 2001. Ta muốn tạo một bộ ba với địa chỉ email là chủ ngữ (subject) nhưng không thể vì chủ ngữ phải là tài nguyên chứ không phải là kí tự. • Tùy từng trường hợp ta có thể sử dụng một nút vô danh hoặc tạo 1 nút mới. Hình dưới dùng cách tạo một nút mới. Việc này có vẻ đơn giản nhưng nó đã đưa ra một hướng xử lý mới trong RDF. HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 8 Báo cáo chuyên đề - Cơ Sở Dữ Liệu Nâng Cao GVHD: PGS.TS.Đỗ Phúc Hình 7 : Thêm một nút mới để email có thể là chủ ngữ của các phát biểu khác Một số nút đặc biệt • Có nhiều trường hợp chúng ta muốn nói về một tài nguyên mà bản thân nó là một tập hợp gồm nhiều tài nguyên khác. Mô hình RDF có định nghĩa ba kiểu tài nguyên đặc biệt để hỗ trợ những trường hợp này : o Bag: chứa đựng tập tài nguyên không cần thứ tự HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 9 Báo cáo chuyên đề - Cơ Sở Dữ Liệu Nâng Cao GVHD: PGS.TS.Đỗ Phúc Hình 8 : Một tập hợp của phương tiện giao thông • Sequence : chứa đựng tập tài nguyên có thứ tự. • Alternative : chứa đựng các lựa chọn cho một tài nguyên. Hình 9 : Nút alternative - biểu diễn các lựa chọn - đèn có thể tắt hoặc mở 4. Chia sẻ dữ liệu Để dữ liệu có thể được sử dụng trên khắp mạng thì cần có 1 cách để trao đổi thông tin giữa các máy tính. Ở đây RDF chi đóng vai trò biểu diễn thông tin, vậy thì cần phải có 1 định dạng chuẩn để trao đổi các bộ RDF trên mạng Internet và các mạng khác. Điều này có thể thực hiện được với 1 ngôn ngữ dựa trên XML gọi là RDF/XML 4.1. Các luật của RDF: RDF sử dụng các URI để nhận biết thông tin về tài nguyên. RDF mô tả thông tin tài nguyên bằng các thuộc tính và giá trị thuộc tính Tài nguyên(Resource) có một URI cụ thể ví dụ : http://www.w3schools.com/rdf Thuộc tính là một tài nguyên có tên như author, hompage… HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 10 [...]... chuyên đề - Cơ Sở Dữ Liệu Nâng Cao GVHD: PGS.TS.Đỗ Phúc George< /rdf: li> John< /rdf: li> Paul< /rdf: li> Ringo< /rdf: li> < /rdf: Seq> < /rdf: Description> < /rdf: RDF> 4.4.3 Thành phần Chứa danh sách những giá trị có thể thay đổi John< /rdf: li> Paul< /rdf: li> George< /rdf: li> Ringo< /rdf: li> < /rdf: Bag>... CD< /rdf: li> Record< /rdf: li> Tape< /rdf: li> < /rdf: Alt> HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 16 Báo cáo chuyên đề - Cơ Sở Dữ Liệu Nâng Cao GVHD: PGS.TS.Đỗ Phúc < /rdf: Description> < /rdf: RDF> 4.5 RDF Collections Những giá trị chứa trong container còn được gọi là các member RDF Collection... rdf: about="http://recshop.fake/cd/Beatles/George"/> < /rdf: Description> HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 17 Báo cáo chuyên đề - Cơ Sở Dữ Liệu Nâng Cao GVHD: PGS.TS.Đỗ Phúc < /rdf: RDF> 5 Xây dựng cơ sở đồ thị RDF Như ta đã... Thị Ngọc Ẩn- CH1101063 Trang: 23 Báo cáo chuyên đề - Cơ Sở Dữ Liệu Nâng Cao GVHD: PGS.TS.Đỗ Phúc Sau khi hoàn tất đăng nhập, màn hình giao diện chính sẽ hiển thị: HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 24 Báo cáo chuyên đề - Cơ Sở Dữ Liệu Nâng Cao GVHD: PGS.TS.Đỗ Phúc Chọn File>Open để tiến hành import một tài liệu RDF Sau khi kết thúc import, một giao diện trực quan về đồ thị RDF sẽ được hiển thị. .. Kết luận 1 Kết quả đạt được Trình bày khái quát và cách tiếp cận RDF bằng cơ sở dữ liệu đồ thị Cài đặt RDF với giao diện đơn giản, cho phép người dùng tìm kiếm thông tin trong cấu trúc RDF 2 Cần cải thiện Cải tiến tính năng tìm kiếm để có thể thực hiện tìm kiếm trên dữ liệu lớn Cải tiến giao diện trực quan, dễ nhìn HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 25 Báo cáo chuyên đề - Cơ Sở Dữ Liệu Nâng Cao. .. Thành phần là một thành phần gốc của một tài liệu RDF Thành phần này để cho biết văn bản XML là một RDF Trong thành phần này sẽ chứa một tham chiếu đến namspace RDF Ví dụ: HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 11 Báo cáo chuyên đề - Cơ Sở Dữ Liệu Nâng Cao GVHD: PGS.TS.Đỗ Phúc Mô tả các tài nguyên... HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 21 Báo cáo chuyên đề - Cơ Sở Dữ Liệu Nâng Cao GVHD: PGS.TS.Đỗ Phúc Hình 10: Table Vertex và Edge Hình 11: RelationShip 6 Cài đặt và Demo * Chương trình demo được thực hiện qua 4 giai đoạn: Đọc nội dung tài liệu RDF Chuyển nội dung tài liệu RDF qua bộ parser để tạo ra các statement Từ các statement tạo ra các nút và cạnh đồ thị Lưu các nút và cạnh đồ thị vào database... subject HVTH: Vương Thị Ngọc Ẩn- CH1101063 Trang: 18 Báo cáo chuyên đề - Cơ Sở Dữ Liệu Nâng Cao GVHD: PGS.TS.Đỗ Phúc Vấn đề được đặt ra là từ một tài liệu RDF làm sao để sinh ra các statement hợp lý Ta xét một ví dụ cụ thể cho tài liệu RDF sau: . hướng 2. Cơ sở dữ liệu đồ thị: Cơ sở dữ liệu là một kiểu cơ sở dữ liệu NoSQL sử dụng cấu trúc đồ thị với những cạnh, nút và những thuộc tính để biểu diễn và lưu trữ thông tin. Một cơ sở dữ liệu đồ thị. Trang: 5 Báo cáo chuyên đề - Cơ Sở Dữ Liệu Nâng Cao GVHD: PGS.TS.Đỗ Phúc 3. Biểu diễn các phát biểu bằng đồ thị RDF : Một đồ thị biểu diễn RDF bao gồm các nút (đỉnh) và các cung. Mỗi nút có thể là. đề - Cơ Sở Dữ Liệu Nâng Cao GVHD: PGS.TS.Đỗ Phúc MỤC LỤC I. Tổng quan về cơ sở dữ liệu đồ thị 2 II.Tổng quan về RDF 4 III.Kết luận 25 Tài liệu tham khảo 26 MỞ ĐẦU Ngày nay, cơ sở dữ liệu đồ thị

Ngày đăng: 10/04/2015, 13:21

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w