Chƣơng 1 : TỔNG QUAN VỀ ĐỒNG BỘ DỮ LIỆU
1.4 CÁC CễNG NGHỆ LIấN QUAN
1.4.1 Ngụn ngữ XML
a/. Giới thiệu
XML (Extensible Markup Language, "Ngụn ngữ Đỏnh dấu Mở rộng") là ngụn ngữ đỏnh dấu cho cỏc tài liệu chứa thụng tin cú cấu trỳc. Nú là một tập con đơn giản của SGML, cú khả năng mụ tả nhiều loại dữ liệu khỏc nhau. [11]
Ngụn ngữ đỏnh dấu là kỹ thuật để xỏc định cỏc cấu trỳc trong một tài liệu. Đặc tả XML định nghĩa một cỏch chuẩn thể thờm đỏnh dấu vào tài liệu
Mục đớch chớnh của XML là đơn giản húa việc chia sẻ dữ liệu giữa cỏc hệ thống khỏc nhau, đặc biệt là cỏc hệ thống đƣợc kết nối với Internet.
Cỏc ngụn ngữ dựa trờn XML (thớ dụ: RDF, RSS, MathML, XHTML, …) đƣợc định nghĩa theo cỏch thụng thƣờng, cho phộp cỏc chƣơng trỡnh sửa đổi và kiểm tra hợp lệ bằng cỏc ngụn ngữ này mà khụng cần cú hiểu biết trƣớc về hỡnh thức của chỳng.
b/. Đặc điểm
XML cung cấp một phƣơng tiện dựng văn bản để mụ tả thụng tin và ỏp dụng một cấu trỳc kiểu cõy cho thụng tin đú. Tại mức căn bản, mọi thụng tin đều thể hiện dƣới dạng văn bản, chen giữa là cỏc thẻ đỏnh dấu (markup) với nhiệm vụ ký hiệu sự phõn chia thụng tin thành một cấu trỳc cú thứ bậc của cỏc dữ liệu ký tự, cỏc phần tử dựng để chứa dữ liệu, và cỏc thuộc tớnh của cỏc phần tử đú.
Đơn vị cơ sở của XML là cỏc ký tự, theo định nghĩa của Universal Character Set (Bộ ký tự toàn cầu). Cỏc ký tự đƣợc kết hợp theo cỏc tổ hợp chuỗi hợp lệ để tạo thành một tài liệu XML. Tài liệu này gồm một hoặc nhiều thực thể, mỗi thực thể thƣờng là một phần nào đú của cỏc ký tự thuộc tài liệu, đƣợc mó húa dƣới dạng một chuỗi cỏc bit và lƣu trữ trong một tệp văn bản.
Sự phổ biến của cỏc phần mềm soạn thảo văn bản (word processor) đó hỗ trợ việc soạn thảo và bảo trỡ tài liệu XML một cỏch nhanh chúng. Trƣớc XML, cú rất ớt ngụn ngữ mụ tả dữ liệu với cỏc đặc điểm đa năng, thõn thiện với giao thức internet, dễ học, dễ tạo.
Thực tế, đa số cỏc định dạng trao đổi dữ liệu đều chuyờn dụng, cú tớnh độc quyền, và cú nhị phõn (chuỗi bit thay vỡ chuỗi ký tự), khú dựng chung giữa cỏc ứng dụng phần mềm khỏc nhau hay giữa cỏc hệ nền (platform) khỏc nhau. Việc tạo và bảo trỡ trờn cỏc trỡnh soạn thảo thụng dụng lại càng khú khăn.
Bằng cỏch cho phộp cỏc tờn dữ liệu, cấu trỳc dữ liệu cú thứ bậc, ý nghĩa của cỏc phần tử, thuộc tớnh cú tớnh chất mở và cú thể đƣợc định nghĩa bởi một giản đồ tựy biến đƣợc, XML cung cấp một tập cơ sở cỳ phỏp dựng cho việc tạo lập cỏc ngụn ngữ đỏnh dấu dựa XML theo yờu cầu. Cỳ phỏp chung của cỏc ngụn ngữ đú là cố định, cỏc tài liệu phải tuõn theo cỏc quy tắc chung của XML, bảo đảm rằng tất cả cỏc phần mềm hiểu XML ớt ra cũng phải cú khả năng đọc (phõn tớch cỳ phỏp - parse), và hiểu bố cục tƣơng đối của thụng tin trong cỏc tài liệu đú. Giản đồ chỉ bổ sung một tập cỏc ràng buộc cho cỏc quy tắc cỳ phỏp. Cỏc giản đồ thƣờng hạn chế tờn của phần tử, thuộc tớnh và cỏc cấu trỳc thứ bậc đƣợc phộp. Vớ dụ, chỉ cho phộp một phần tử cú tờn 'ngày sinh' chứa một phần tử cú tờn 'ngày' và một phần tử cú tờn 'thỏng', mỗi phần tử phải chứa đỳng một ký tự. Đõy là điểm khỏc biệt giữa XML và HTML.
XML khụng hạn chế về việc nú đƣợc sử dụng nhƣ thế nào. Mặc dự XML về cơ bản là dạng văn bản, cỏc phần mềm với chức năng trừu tƣợng húa nú thành cỏc định dạng khỏc giàu thụng tin hơn đó nhanh chúng xuất hiện, quỏ trỡnh trừu tƣợng húa này đƣợc thực hiện chủ yếu qua việc sử dụng cỏc giản đồ định hƣớng kiểu dữ liệu (datatype-oriented schema), và khuụn mẫu lập trỡnh hƣớng đối tƣợng (mà trong đú, mỗi tài liệu XML đƣợc thao tỏc nhƣ là một đối tƣợng). Những phần mềm nhƣ vậy cú thể coi XML nhƣ là dạng văn bản đó đƣợc tuần tự húa, chỉ khi nú cần truyền dữ liệu qua mạng.