Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 99 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
99
Dung lượng
1,45 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRỊNH THỊ XUÂN XỬ LÝ TRUY VẤN TRÊN CƠ SỞ DỮ LIỆU TÍCH HỢP XML LUẬN VĂN THẠC SỸ Hà Nội, Năm 2006 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRỊNH THỊ XUÂN XỬ LÝ TRUY VẤN TRÊN CƠ SỞ DỮ LIỆU TÍCH HỢP XML Chuyên ngành: Công nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS ĐOÀN VĂN BAN Hà Nội, Năm 2006 1 MỤC LỤC MỘT SỐ TỪ VIẾT TẮT 4 MỘT SỐ THUẬT NGỮ 5 MỞ ĐẦU 7 CHƢƠNG I: CÁC KHÁI NIỆM CƠ BẢN CỦA XML 8 I.1. XML là gì: 8 I.2. Cấu trúc của tài liệu XML: 10 I.3. Cấu trúc các thành phần và thuộc tính: 11 I.4. Cú pháp tài liệu XML: 11 I.5. Không gian tên: 11 I.6. Tài liệu XML hợp lệ: 13 I.6.1. Định nghĩa kiểu tài liệu – DTD: 14 a. Định nghĩa kiểu tƣ liệu DTD là gì? 14 b. Tạo khai báo và định nghĩa kiểu dữ liệu DTD: 14 c. Danh sách các phần tử con: 15 d. Trình tự đặt phần tử DTD: 15 e. Tạo lập phần tử con 15 f. Định nghĩa DTD ngoại: 16 g. Thực thể và thuộc tính DTD: 16 h. Các hạn chế của DTD: 18 I.6.2. Sơ đồ - Schema: 19 I.6.3. Bảng định kiểu: 19 I.7. XML đƣợc sử dụng nhƣ thế nào? 20 I.8. Các ứng dụng của XML: 21 I.8.1. XML để biểu diễn: 21 2 I.8.2. XML để truyền thông: 21 I.8.3. XML-RPC: 22 I.8.4. B2B: 22 I.9. Kết luận: 23 CHƢƠNG II: PHÂN TÍCH XML 24 II.1. Phân tích XML bằng DOM: 25 II.1.1. DOM là gì? 25 II.1.2. DOM XML: 26 II.1.3. Các giao diện quan trọng trong DOM: 29 II.1.4. Khi nào sử dụng DOM 34 II.2. Phân tích XML bằng SAX: 35 II.2.1. SAX là gì? 35 II.2.2. Các bƣớc sử dụng SAX: 35 II.2.3.Trƣờng hợp lựa chọn bộ phân tích SAX: 35 II.2.4. Phân tích bằng SAX: 36 II.2.5. Các giao diện Callback: 37 II.2.6. Nhận tài liệu: 38 II.2.7. Nhận các thành phần tài liệu: 38 II.3. Kết luận: 38 CHƢƠNG III: CHUYỂN ĐỔI GIŨA XML VÀ MÔ HÌNH DỮ LIỆU 40 III.1. Chuyển đổi CSDL quan hệ sang tài liệu XML:[3] 40 III.1.1. Chuyển đổi phẳng – FLAT TRANSLATION 44 III.1.2. Thuật toán sự chuyển đổi lồng – Nesting based Translation 44 III.1.3. Chuyển đổi sử dụng các phụ thuộc bao hàm: thuật toán CoT 48 III.1.4. Chuyển đổi mô hình quan hệ sang DOM trong XML: 54 III.2. Chuyển đổi tài liệu XML sang cơ sở dữ liệu quan hệ[3] 67 3 III.2.1. Thuật toán gộp cơ sở 67 III.2.2. Thuật toán gộp chia sẻ: 71 III.2.3. Thuật toán Inlining chuyển đổi DTD sang lƣợc đồ quan hệ 71 III.3. Kết luận: 76 CHƢƠNG IV: XỬ LÝ TRUY VẤN 77 IV.1. Xử lý truy vấn XML theo hƣớng truyền thống: 79 IV.2. Xử lý truy vấn XML dựa theo phân lớp 83 IV.3. XQuery: An XML Query Language 83 1. Giới thiệu: 83 2. Ngôn ngữ XQuery:[8] 84 3. Sử dụng ngôn ngữ truy vấn XQuery: 88 IV.4. Kết luận 94 KẾT LUẬN 95 TÀI LIỆU THAM KHẢO 97 4 MỘT SỐ TỪ VIẾT TẮT XML: eXtensible Markup Language B2B: Business to Business CoT: Contrains – based Languge DOM: Document Object Model DTD: Document Type Definition FT: Flat Translation FDI: Format Public Interface HTML: Hyper Text Markup Language NeT: Nesting based Translation OQL: Object Query Language PCDATA: Parser Character Data RDB: Relation Database RSBMS: Relation Database Management System SAX: Simple API XML SGML: Standard Generalized Markup Language SQL: Structured Query Language URI: Uniform Modeling Language W3C: World Wide Web Consortium XSLT: eExtensible Style Language Transformation XSL: eXtensible Style Language WML: Wireless Markup Language UIML: User Interface Markup Language CML: Chemical Markup Language XUL: XML User Interface Language PR1: Primary Relation Type 1 PR2: Primary Relation Type 2 SR1: Secondary Relation Type 1 SR2: Secondary Relation Type 2 KAP: Key Attribute Primary KAG: Key Attribute General FKA: Foreign Key Attribute NKA: Non Key Attribute IDN: Inclusion Dependency 5 MỘT SỐ THUẬT NGỮ Attribute: Thuộc tính Coment: Chú thích Node: Nút Object: Đối tƣợng Document: Tài liệu Parser: Bộ phân tích Relation Schema: Lƣợc đồ quan hệ Text: Dữ liệu XML Processing Instruction: Chỉ thị xử lý dữ liệu Element: Thành phần Root: Gốc Entity: Thực thể Attlist: Định nghĩa danh sách thuộc tính Schema: Sơ đồ Object: Đối tƣợng Child: Con Item: Thành phần Relation: Quan hệ Where: Điều kiện In: tham chiếu trong Foreign key: Khóa ngoài Intersect: Phép giao Optional Operator: Toán tử tùy chọn Or Operator: Toán tử hoặc Plus Operator: Toán tử dấu cộng Project: Phép chiếu 7 MỞ ĐẦU Hiện nay, XML đã và đang nổi lên như là một nhân tố chuẩn cho định dạng dữ liệu trên Web. Giống như HTML, XML là một tập con của SGML. Nhưng trong HTML các thẻ được mô tả với mục đích chính là mô tả cách trình bày dữ liệu trong một trang Web, ngược lại trong XML thì các thẻ được sử dụng để mô tả chính các dữ liệu lưu trữ trong tài liệu đó. Chính vì vậy một chương trình nhận một tài liệu XML có thể được biểu diễn bằng nhiều cách khác nhau, có thể trích lọc trực tiếp trên nội dung của dữ liệu XML đó, hoặc cũng có thể xây dựng một cấu trúc XML mới để phù hợp với ứng dụng của chương trình. Ngày nay khi mà có nhiều các ứng dụng thương mại hoạt động trên Web và nhu cầu trao đổi thông tin tự động giữa các doanh nghiệp (Business to Business – B2B) ngày càng được đặt ra thì một hệ thống xử lý truy vấn trên cơ sở dữ liệu XML tích hợp sẽ giúp cho người sử dụng thông thường có thể khai thác và xử lý thông tin một cách hiệu quả nhất, bao gồm: biểu diễn, trao đổi, lưu trữ và truy cập dữ liệu. Dữ liệu được trích rút từ hệ thống có cấu trúc và ngữ nghĩa sao cho có thể được hiểu bởi cả người và máy tính vì vậy còn có thể được sử dụng lại cho nhiều mục đích khác nhau. Luận văn này trình bày cách thức để thực hiện xử lý được các truy vấn trên cơ sở dữ liệu tích hợp XML. Luận văn được chia thành 4 chương: Chương 1: Các khái niệm cơ bản của XML Chương 2: Phân tích XML Chương 3: Chuyển đổi giữa XML và các mô hình dữ liệu Chương 4: Xử lý truy vấn 8 CHƯƠNG I: CÁC KHÁI NIỆM CƠ BẢN CỦA XML I.1. XML là gì: XML là viết tắt của Extensible Markup Language, XML được sử dụng để mô tả các tài liệu và dữ liệu dưới một dạng chuẩn tức là dựa trên một định dạng của văn bản để cho phép dễ dàng truyền tải dữ liệu thông qua các giao thức chuẩn của mạng. XML là ngôn ngữ định dạng mở rộng và ngôn ngữ tổng quát dùng để định nghĩa dữ liệu thông qua các thẻ. XML được đưa ra với mục tiêu là tăng cường các kiểu dữ liệu nhưng loại bỏ tối đa tính phức tạp. XML không thực sự là một ngôn ngữ mà là một chuẩn để tạo ra các ngôn ngữ thỏa mãn các quy chuẩn XML.[1] Hiện nay, để xử lý dữ liệu trên Web và phát triển ứng dụng mạng, số thẻ sẽ làm việc tiếp tục tăng lên ngày càng nhiều hơn và XML thực sự là một giải pháp cho sự tăng lên thường xuyên của các thẻ. Do: - Thứ nhất, ngôn ngữ XML trong sáng, đơn giản, dễ đọc, bởi được biểu diễn ở dạng thuần văn bản. - Thứ hai, ngôn ngữ XML cho phép tự định nghĩa thẻ nên mỗi người có thể tự đưa ra một tập thẻ của mình. Tuỳ vào mục đích sử dụng cụ thể mà các tập thẻ đó có thể là quy ước trao đổi dữ liệu trong một lĩnh vực nào đó như ngân hàng. 9 Hinh 1. 1 – XML là hoàn toàn độc lập cho các ứng dụng XML là ngôn ngữ định dạng thiên về mô tả cấu trúc dữ liệu và định nghĩa ngôn ngữ. Để thực hiện xử lý trích rút và hiển thị dữ liệu của tài liệu XML có thể thực hiện một trong các cách: - Sử dụng các mô hình tài liệu như DOM, SAX, DSO để trích rút dữ liệu XML. - Sử dụng bảng định kiểu CSS (Cascading Style Sheet) để định kiểu hiển thị cho dữ liệu XML. - Sử dụng ngôn ngữ định kiểu mở rộng XSL(Extension Style Language). Hiện nay, XML là một chuẩn ngày càng được dùng rộng rãi trong công nghiệp phát triển phần mềm. Và thực tế hàng trăm ngôn ngữ định dạng chuyên dụng được định nghĩa trên XML đã ra đời như XHTML, (Extension HTML), WML(Wireless Markup Language), VoiceXML, UIML(User Interface Markup Language), CML(Chemical Markup Language), MathML, XUL(XML User Interface Language)… XML tiến hành mô tả bất kỳ công việc nào dưới dạng văn bản và việc định dạng của dữ liệu đó là hoàn toàn mở. Điều này có nghĩa rằng bất cứ dữ [...]... các ứng dụng khác nhau có thể sử dụng được dữ liệu XML thì phải được chuyển đổi thành dữ liệu tương ứng cho ứng dụng đó thông qua XSL stylesheet Hinh 1 3 – Sơ đồ chuyển đổi dữ liệu XML giữa các ứng dụng 21 I.8.3 XML-RPC: Một trong ứng dụng đặc biệt của XML là XML-RPC XML-RPC là sự trao đổi giữa các thiết bị trong ứng dụng hay được dùng để chia sẻ một tập các chức năng thực hiện thông qua các ứng dụng. .. – Mô hình sử dụng XML trong các ứng dụng 20 I.8 Các ứng dụng của XML: XML có thể tự tạo ra tập các ngôn ngữ khác Ứng dụng của XML mang ý nghĩa cho biết một tập các thẻ hay tâp con XML hoạt động trong riêng một lĩnh vực nào đó I.8.1 XML để biểu diễn: Một ứng dụng cơ bản nhất của XML là cách mô tả và hiển thị nội dung Trong trường hợp này, tiến hành định nghĩa nội dung của ứng dụng như là dữ liệu để... dữ liệu ứng dụng từ tài liệu XML rồi nạp dữ liệu đó vào một DOM, sau đó DOM được dùng bởi một ứng dụng cấp cao hơn Ứng dụng có thể thực hiện những thao tác mong muốn với thông tin này kể cả việc đặt nó vào một mô hình đối tượng khác Hinh 2 2 – Sơ đồ xử lý tài liệu XML Do đó, để viết một ứng dụng truy cập một tài liệu XML thông qua DOM, cần có một trình phân ngữ XML và một thực thi DOM cài đặt trên máy... thông qua API Khi sử dụng SAX có thể thực hiện trên nhiều phiên bản bộ phân tích với các kiến trúc khác nhau II.2.2 Các bước sử dụng SAX: Có ba bước sử dụng SAX trong ứng dụng: 1 Tạo mô hình đối tượng 2 Tạo ra bộ phân tích SAX tương ứng 3 Tạo ra tài liệu mô tả tương ứng II.2.3.Trường hợp lựa chọn bộ phân tích SAX: Khi tiến hành xử lý và phân tích trên tài liệu XML lớn thì việc sử dụng bộ phân tích SAX... dùng mã, và cung cấp một cách để giao tiếp với mã đó trong các chương trình DOM là mô hình hiển thị dưới dạng cây của dữ liệu XML, với một thành phần gốc và các thành phần con cũng như thuộc tính mô tả tương ứng Trong đó mỗi thành phần tương ứng trong cây được coi là một nút của cây Mỗi nút trong cây XML dùng để mô tả một thành phần trong tài liệu XML tương ứng Các thành phần, thuộc tính và văn bản... cho phía client và sau đó ứng dụng thể hiện nó dưới dạng định dạng của dữ liệu I.8.2 XML để truyền thông: Các dữ liệu của XML được sử dụng để chuyển đổi thông tin giữa các ứng dụng khác nhau Khả năng chuyển đổi này là dễ dàng được thực hiện bởi vì dữ liệu XML là không cố định cho bất kỳ một client nào, client có thể là làm việc trên máy tính, trên điện thoại di động, trên PDA,… Chính vì lý do này mà XML... sẻ và dùng chung với các ứng dụng khác hơn Đây là cách mà hầu hết các ứng dụng DTD đều hỗ trợ Có hai cách chỉ định một phần tử DTD tham chiếu ngoại: tham chiếu ngoại riêng, tham chiếu ngoại chung * Tham chiếu ngoại riêng: Định nghĩa DTD tham chiếu ngoại riêng được sử dụng cho một nhóm người và mang tính cá nhân Để khai báo và định nghĩa phần tử DTD tham chiếu ngoại riêng sử dụng từ khóa SYSTEM trong. .. trên máy DOM là giao diện lập trình ứng dụng cho tài liệu XML và HTML DOM thực hiện định nghĩa một cấu trúc logic của các tài liệu và xác định cách thức mà tài liệu được truy cập và thực thi Trong mô tả của DOM thì thành phần “document” được sử dụng trong một phạm vi rộng, XML được sử dụng như là cách để mô tả nhiều loại thông tin khác nhau mà có thể 26 được lưu trữ trong hệ thống Tuy nhiên, XML tiến... có thể mô tả một cách đầy đủ và chính xác tài liệu II.1.4 Khi nào sử dụng DOM Thực thi DOM được tiến hành trong bộ nhớ lưu trữ của tài liệu Các lợi ích thu được khi sử dụng DOM: - Cho phép truy cập ngẫu nhiên đến các thành phần trong tài liệu - Có thể thực hiện thao tác tìm kiếm phức tạp trong tài liệu một cách dễ dàng - Hỗ trợ sử dụng DTD và sơ đồ 34 - Có thể đọc và viết trên tài liệu II.2 Phân tích... lệ hoặc đúng cú pháp chưa để xác định được các lỗi xử lý tương ứng Cấu trúc và cú pháp của tài liệu XML được mã hóa thành các thẻ và các thuộc tính Và để xác định được cấu trúc này thì cần phải có bộ phân tích XML tương ứng Bộ phân tích là thư viện phần mềm để đọc tài liệu XML và kiểm tra xem tài liệu đó đã hợp lệ hay chưa Các ứng dụng khách sử dụng các phương thức bằng cách thực hiện lời gọi tới các . Thuật toán gộp cơ sở 67 III.2.2. Thuật toán gộp chia sẻ: 71 III.2.3. Thuật toán Inlining chuyển đổi DTD sang lƣợc đồ quan hệ 71 III.3. Kết luận: 76 CHƢƠNG IV: XỬ LÝ TRUY VẤN 77 IV.1. Xử lý. mãn các quy chuẩn XML.[1] Hiện nay, để xử lý dữ liệu trên Web và phát triển ứng dụng mạng, số thẻ sẽ làm việc tiếp tục tăng lên ngày càng nhiều hơn và XML thực sự là một giải pháp cho sự tăng. sử dụng thông thường có thể khai thác và xử lý thông tin một cách hiệu quả nhất, bao gồm: biểu diễn, trao đổi, lưu trữ và truy cập dữ liệu. Dữ liệu được trích rút từ hệ thống có cấu trúc và