XML là ngôn ngữ xây dựng cấu trúc tài liệu văn bản, dựa theo chuẩn SGML (Standard Generalized Markup Language: siêu ngôn ngữ có khả năng sinh ngôn ngữ khác). SGML đƣợc phát triển cho việc định cấu trúc và nội dung tài liệu điện tử, do tổ chức ISO (International Organization for Standards) chuẩn hoá năm 1986.
SGML là do IBM đƣa ra, song không thể không kể đến những đóng góp của các công ty khác. XML đƣợc W3C (World Wide Web Consortium: tổ chức độc lập định ra tiêu chuẩn cho trình duyệt Web, máy chủ và ngôn ngữ) phát triển, nhƣng đặc tả XML lại do Netscape, Microsoft và các thành viên của dự án Text Encoding Initiative (TEI) xây dựng.
Ngôn ngữ đánh dấu tiêu chuẩn tổng quát (SGML - Standard Generalized Markup Language) là một phƣơng pháp biểu thị dữ liệu trong những ứng dụng xử lý văn bản. Nó đã tồn tại hơn một thập kỷ nay, cả XML lẫn HTML đều là những định dạng tài liệu có nguồn gốc từ SGML. Vì vậy, tất cả chúng đều cùng chia sẻ một số đặc tính chẳng hạn nhƣ một cú pháp tƣơng tự và cách dùng các nhãn trong dấu ngoặc nhọn. Nhƣng HTML là một ứng dụng của SGML, trong khi XML là một bộ trình con của SGML
XML khá giống HTML, hai ngôn ngữ này có cùng luật cú pháp. Tuy nhiên, tính linh hoạt của XML cho phép bạn tạo và sử dụng tập thẻ và thuộc tính riêng để nhận biết các phần tử cấu trúc và nội dung tài liệu. XML không chỉ đơn thuần là ngôn ngữ đánh dấu, nó có phƣơng pháp định ra nội dung tài liệu, tƣơng tự nhƣ HTML định hình thức tài liệu trên Web. Với HTML, ngƣời
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
thiết kế đánh dấu văn bản, hình ảnh cùng các thành phần khác của trang Web bằng tập thẻ mà không liên quan gì tới ý nghĩa tài liệu, đoạn mã HTML chỉ nói lên cách hiển thị nội dung tài liệu qua trình duyệt. XML không chỉ định ra hình thức mà còn cả nội dung tài liệu.
XML thực sự tƣơng thích với SGML, bất cứ một công cụ tạo hoặc duyệt SGML nào cũng có thể đọc đƣợc những tài liệu XML. Tuy nhiên, XML đỡ phức tạp hơn SGML, và nó đƣợc thiết kế để chạy trên một mạng băng tầng hữu hạn ví dụ nhƣ Internet. Theo Tim Bray, đồng biên tập viên XML thì ý tƣởng đằng sau XML là tận dụng lợi ích của SGML, loại bỏ những phần phức tạp, duy trì tính nhẹ nhàng, và làm cho nó hoạt động đƣợc trên Web. HTML, SGML, và XML sẽ tiếp tục đƣợc sử dụng ở những vị trí thích hợp, không có ngôn ngữ nào trong số chúng thể hiện bất cứ tính chất lỗi thời nào khác. HTML vẫn duy trì cách thức đơn giản nhất để phát hành dữ liệu nhanh chóng trên Web, thƣờng là những dữ kiện ngắn hạn ví dụ nhƣ các chƣơng trình nghị sự hoặc các tờ quảng cáo. Nếu dữ kiện có một công dụng dài hạn hơn và cần một cấu trúc chặt chẽ hơn, thì các nhà xây dựng Web sẽ chuyển sang XML. Không giống nhƣ HTML và XML, SGML có thể sẽ chẳng bao giờ có đƣợc sự chấp nhận phổ biến trên Internet, đơn giản bởi vì nó chƣa bao giờ đƣợc thiết kế hoặc đƣợc tối ƣu cho các nhu cầu của một giao thức mạng. Mức tối đa, với những ứng dụng phát hành có cấu trúc chặt chẽ ở mức độ cao, SGML sẽ tiếp tục phù hợp với mọi yêu cầu.