ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRỊNH THỊ XUÂN XỬLÝTRUYVẤNTRÊNCƠSỞDỮLIỆUTÍCHHỢPXML LUẬN VĂN THẠC SỸ Hà Nội, Năm 2006 MỞ ĐẦU Hiện nay, XML lên nhân tố chuẩn cho định dạng liệu Web Giống HTML, XML tập SGML Nhưng HTML thẻ mô tả với mục đích mơ tả cách trình bày liệu trang Web, ngược lại XML thẻ sử dụng để mơ tả liệu lưu trữ tài liệu Chính chương trình nhận tài liệuXML biểu diễn nhiều cách khác nhau, trích lọc trực tiếp nội dung liệuXML đó, xây dựng cấu trúc XML để phù hợp với ứng dụng chương trình Ngày mà có nhiều ứng dụng thương mại hoạt động Web nhu cầu trao đổi thông tin tự động doanh nghiệp (Business to Business – B2B) ngày đặt hệ thống xửlýtruyvấnsởliệuXMLtíchhợp giúp cho người sử dụng thơng thường khai thác xửlý thông tin cách hiệu nhất, bao gồm: biểu diễn, trao đổi, lưu trữ truy cập liệuDữliệu trích rút từ hệ thống có cấu trúc ngữ nghĩa cho hiểu người máy tính sử dụng lại cho nhiều mục đích khác Luận văn trình bày cách thức để thực xửlýtruyvấnsởliệutíchhợpXML Luận văn chia thành chương: Chương 1: Các khái niệm XML Chương 2: Phân tíchXML Chương 3: Chuyển đổi XML mơ hình liệu Chương 4: Xửlýtruyvấn CHƯƠNG I: CÁC KHÁI NIỆM CƠ BẢN CỦA XML I.1 XML gì: XML viết tắt Extensible Markup Language, XML sử dụng để mô tả tài liệuliệu dạng chuẩn tức dựa định dạng văn phép dễ dàng truyền tải liệu thông qua giao thức chuẩn mạng XML ngôn ngữ định dạng mở rộng ngôn ngữ tổng quát dùng để định nghĩa liệu thông qua thẻ XML đưa với mục tiêu tăng cường kiểu liệu loại bỏ tối đa tính phức tạp XML khơng thực ngôn ngữ mà chuẩn để tạo ngôn ngữ thỏa mãn quy chuẩn XML.[1] Hiện nay, để xửlýliệu Web phát triển ứng dụng mạng, số thẻ làm việc tiếp tục tăng lên ngày nhiều XML thực giải pháp cho tăng lên thường xuyên thẻ Do: - Thứ nhất, ngôn ngữ XML sáng, đơn giản, dễ đọc, biểu diễn dạng văn - Thứ hai, ngôn ngữ XML cho phép tự định nghĩa thẻ nên người tự đưa tập thẻ Tuỳ vào mục đích sử dụng cụ thể mà tập thẻ quy ước trao đổi liệu lĩnh vực ngân hàng Hinh 1 – XML hoàn toàn độc lập cho ứng dụng XML ngôn ngữ định dạng thiên mô tả cấu trúc liệu định nghĩa ngôn ngữ Để thực xửlý trích rút hiển thị liệu tài liệuXML thực cách: - Sử dụng mơ hình tài liệu DOM, SAX, DSO để trích rút liệuXML - Sử dụng bảng định kiểu CSS (Cascading Style Sheet) để định kiểu hiển thị cho liệuXML - Sử dụng ngôn ngữ định kiểu mở rộng XSL(Extension Style Language) Hiện nay, XML chuẩn ngày dùng rộng rãi công nghiệp phát triển phần mềm Và thực tế hàng trăm ngôn ngữ định dạng chuyên dụng định nghĩa XML đời XHTML, (Extension HTML), WML(Wireless Markup Language), VoiceXML, UIML(User Interface Markup Language), CML(Chemical Markup Language), MathML, XUL(XML User Interface Language)… XML tiến hành mô tả công việc dạng văn việc định dạng liệu hồn tồn mở Điều có nghĩa liệu mô tả dạng văn nội dung văn thu nhỏ lại thành thẻ XML coi tài liệuXML Sự mở rộng để trở thành ngôn ngữ không dựa vào cú pháp XML mà dựa vào xem người phát triển làm I.2 Cấu trúc tài liệu XML: Mặc dù thành phần, thuộc tính văn phần quan trọng cho việc thiết kế tài liệuXML Tuy nhiên làm việc có hiệu tài liệuXML phải tuân thủ theo cấu trúc định Ví dụ 1: Day la muc cua phan Day la muc cua phan - Mọi tài liệuXML bắt đầu thẻ bắt đầu với phía tài liệu Thẻ coi thẻ mô tả tài liệuXML - Trong cặp thẻ có thuộc tính kèm để mơ tả, như: + Thuộc tính version để xác định phiên chuẩn W3C XML Bộ phân tíchXML sử dụng thuộc tính version để xác định quy luật cho phép việc thực phân tích tài liệuXML + Thuộc tính encoding để xác định mã hóa chuẩn sử dụng tài liệuXML + Thuộc tính standalone nhận hai giá trị logic “True” “False” để xác định tài liệuXML định nghĩa có sử dụng thêm tài nguyên từ tệp khác không I.3 Cấu trúc thành phần thuộc tính: Theo mơ tả XML tài liệuXMLcó chứa thành phần gốc tài liệu Sau có thành phần gốc bắt đầu mô tả thành phần bên tài liệu I.4 Cú pháp tài liệu XML: XML mô tả liệu nội dung chứa dạng thẻ, liệu mô tả với cấu trúc xác tn theo quy luật sẵn có để định dạng Đồng thời XMLcó quy tắc mặt cú pháp tiến hành mô tả liệu Các quy tắc mặt cú pháp xây dựng tài liệuXML gồm: - Tên thành phần XML phải giống thẻ bắt đầu thẻ kết thúc (có phân biệt chữ hoa chữ thường) - Thẻ kết thúc phải thêm ký hiệu „/‟ so với thẻ kết thúc - Giá trị thuộc tính phải đặt cặp dấu nháy kép “” - Nội dung thích đặt cặp thẻ - Mọi thẻ mô tả thành phần phải ln ln đóng I.5 Khơng gian tên: Do chất XML rộng, cho phép cá nhân hay cơng ty tự tạo kiểu tư liệuXML mô tả cho đặc thù riêng Vì có trường hợp định nghĩa tài liệuXMLcó thẻ tên mang ý nghĩa khác sử dụng với mục đích khác tùy cá nhân hay công ty Cách tốt để giải vấn đề cho thành phần có tên hồn tồn riêng biệt khơng bị trùng cá nhân hay quan Từ hình thành khái niệm “Không gian tên” Không gian tên phương thức cho phép phân biệt xác định tên thành phần trùng tài liệuXML Khơng gian tên sử dụng để mô tả kiểu liệu hay thông tin khác dùng để định nghĩa tên viết tắt Trong XML không gian tên xây dựng cách sử dụng tiền tố trước phần khai báo thành phần Khi tất thành phần có tiền tố thuộc “phạm vi” với TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Phương Lan (2003), XML tảng ứng dụng, Nhà xuất Lao động – Xã hội Nguyễn Tiến, Đặng Xuân Hường, Nguyễn Văn Hoài, Nguyễn Tuấn Ngọc (2001), Nhập môn XML – Thực hành ứng dụng, Nhà xuất Thống kê Hà Nội Tiếng Anh Gerti Kappel (2003), “Intergrating XML and Relational Database Systems”, Institute of Software Technology and Interactive Systems, Buniness Informatics Group J.Shanmugasundaram, K.Tufte, C.Zhang, G.He, D.J.Dewith, and J.F.Naughton (1999), “Relational Database for Querying XML Documents: Limitation and Opportunities”, Processings of the 25th VLDB Conference, Edinburgh, Scotland, pp 302 – 314 Anutariya, C., Wuwongse, V., and Wattanapailin, V An Equivalent – Transformation – Based XML Rule Language, Proceedings of the International Workshop on Rule Markup Languages for Business Rules in the Semantic Web, Sardinia, Italy (2002) Chris Bates, XML in Theory and Practice, John Wiley & Sons ( 2003) Erik T Ray, Learning XML, 2nd Edition, O'Reilly (2003) Michael Brundage, XQuery: The XML Query Language, Addison Wesley (2004) ... để thực xử lý truy vấn sở liệu tích hợp XML Luận văn chia thành chương: Chương 1: Các khái niệm XML Chương 2: Phân tích XML Chương 3: Chuyển đổi XML mơ hình liệu Chương 4: Xử lý truy vấn CHƯƠNG... đặt hệ thống xử lý truy vấn sở liệu XML tích hợp giúp cho người sử dụng thơng thường khai thác xử lý thông tin cách hiệu nhất, bao gồm: biểu diễn, trao đổi, lưu trữ truy cập liệu Dữ liệu trích... I: CÁC KHÁI NIỆM CƠ BẢN CỦA XML I.1 XML gì: XML viết tắt Extensible Markup Language, XML sử dụng để mô tả tài liệu liệu dạng chuẩn tức dựa định dạng văn phép dễ dàng truy n tải liệu thông qua giao