Bài viết giới thiệu những kinh nghiệm về việc sử dụng các dịch vụ Web và XML để xây dựng một thư viện số quản lý thông tin thực phẩm và hàng nông nghiệp đã được triển khai tại Phần Lan. Bài viết chú trọng đến việc xây dựng cấu trúc chuyển đổi thông tin XML Information Bus (XIB) nhằm hỗ trợ cho việc khai thác các dữ liệu từ các nguồn lưu trữ (Information sources) dưới các dạng khác nhau, thuộc nhiều ngôn ngữ khác nhau. Việc đảm bảo tính độc lập của nguồn dữ liệu để dễ dàng cho Thư viện “tiến hoá” khi thêm/bớt các nguồn dữ liệu. Ngoài ra, các dịch vụ Web và chuẩn đóng gói XML nâng cao tính độc lập của hệ thống, cho phép sử dụng trên các nền phần cứng và phần mềm khác nhau.
BẢN TIN LIÊN HIỆP THƯ VIỆN THÁNG12/2003 XÂY DỰNG THƯ VIỆN HIỆN ĐẠI BẰNG DỊCH VỤ WEB & XML ThS ĐOÀN HỒNG NGHĨA Integrated e-Solutions Ltd “Chúng ta cần công cụ để mở rộng chuẩn hệ thống để kết nối chuyển đổi thông tin thư viện lưu trữ” Margaret Hedstrom (Giáo sư Đại Học Wisconsin, Chủ Tịch New York State Forum on Information Resources Management) T rong viết xin giới thiệu với bạn kinh nghiệm việc sử dụng dịch vụ Web XML để xây dựng thư viện số quản lý thông tin thực phẩm hàng nông nghiệp triển khai Phần Lan Bài viết trọng đến việc xây dựng cấu trúc chuyển đổi thông tin XML Information Bus (XIB) nhằm hỗ trợ cho việc khai thác liệu từ nguồn lưu trữ (information sources) dạng khác nhau, thuộc nhiều ngơn ngữ khác Việc đảm bảo tính độc lập nguồn liệu để dễ dàng cho thư viện “tiến hoá” thêm/bớt nguồn liệu Ngồi ra, dịch vụ Web chuẩn đóng gói XML nâng cao tính độc lập hệ thống, cho phép sử dụng phần cứng phần mềm khác Giới thiệu Sự phát triển tính toán phân tán mạng (distributed network computing) cung cấp tảng công nghệ cho việc truy cập liệu ứng dụng từ xa Sự phát triển đồng thời sâu hệ thống khác làm tăng tính hữu ích hệ thống này, nhiên không giải vấn đề thao tác chuyển đổi (interoperability) ứng dụng hệ thống Các ứng dụng xây dựng khơng nhằm mục đích kết nối chuyển đổi với nhau, chúng định nghĩa dạng liệu khác nhau, sử dụng giao thức trao đổi (communication protocol) khác phát triển (platform) khác Việc thao tác chuyển đổi vấn đề lớn tính tốn phân tán mạng Ngày nay, việc cho phép thao tác chuyển đổi tài nguyên thông tin khác dạng nội dung vấn đề then chốt cộng đồng công ty lớn Người sử 23 BẢN TIN LIÊN HIỆP THƯ VIỆN THÁNG12/2003 dụng ứng dụng (application) có nhu cầu ngày tăng việc truy cập thao tác liệu từ số lượng lớn đa dạng tài nguyên thông tin Tuy nhiên tài nguyên thông tin tạo quản trị hoàn toàn độc lập, mặt vật lý, nguyên tắc phương thức Các vấn đề nảy sinh liên kết với mơi trường bao gồm tính khơng đồng tự quản hệ sở liệu, mâu thuẫn phương thức nhận dạng phân tích (identification and resolution), ngữ nghĩa biễu diễn liệu, việc xác định vị trí cách xác định thông tin quan trọng, cách truy cập tính thống liệu từ xa, phương pháp xử lý truy vấn (query processing) quan trọng nhất: việc tiến hố có kế thừa hệ thống phủ Tiêu chí quan trọng hệ thống việc sử dụng chung (share) thơng tin nhanh chóng tiện lợi mà không cần xây dựng lại hệ thống sẵn có cách phụ thuộc lẫn Nói khác đi, điều thiết yếu hệ thống sẵn có cần tìm ngơn ngữ giao thức để dễ dàng trao đổi thông tin Bài viết đề cập đến XML [2] (ngôn ngữ) dịch vụ Web [1] (giao thức) nhằm phục vụ cho việc liên kết nguồn liệu độc lập User User User Fax Printer Server Internet/Intranet Application Một ví dụ trực quan cho hệ thống thư viện Thư Viện Quản Lý Thực Phẩm Hàng Nông Nghiệp (Fin FAO Library – FFL) phủ Phần Lan Thư viện hỗ trợ việc đại hố mở rộng ngành nơng, lâm ngư nghiệp, đảm bảo việc cung cấp lương thực tiêu chuẩn chất lượng Việc thu thập, phân tích phổ biến thông tin chức quan trọng nhằm hỗ trợ phủ việc đảm bảo nguồn cung cấp thức ăn đầy đủ, đa dạng an tồn Một số lượng lớn loại hình thơng tin khác tạo cập nhật ngày lưu trữ nguồn liệu hoàn tồn độc lập Tuy khơng có chuẩn nội dung, ngôn ngữ, dạng liệu để định nghĩa thơng tin Người sử dụng có nhu cầu truy cập thao tác thông tin đuợc lưu trữ phân tán nguồn khác ngồi Application XML Information Bus Information Source Information Source Information Source Document Repository Đây giải pháp đòi hỏi chi phí thấp, dựa cơng nghệ XIB cho phép trao đổi thông tin nguồn khác kỹ thuật khác XIB truy cập phương pháp thống thông tin lưu trữ dạng liệu khác nhau, lưu trữ ngôn ngữ khác Việc truy cập hỗ trợ siêu liệu (metadata) mơ hình mẫu sử dụng chuyển đổi liệu XIB hỗ trợ việc tạo lập báo cáo thống kê phương thức theo dõi hoàn toàn liệu động, cho phép người quản lý nắm rõ tài nguyên thông tin thư viện cung cấp vào thời điểm 24 BẢN TIN LIÊN HIỆP THƯ VIỆN THÁNG12/2003 Các vấn đề đặt FFL có 200 nguồn thông tin khác nhau: website, sở liệu kênh thông tin qua giao thức riêng phủ, doanh nghiệp tổ chức phi lợi nhuận (non-profit organization) Việc nối kết trao đổi liệu bao gồm Ư Việc chuẩn hố liệu chung, Ö Kết nối với website xây dựng qua công nghệ: HTML, Microsoft ASP Java Servlet/JSP Ö Kết nối với sở liệu SQL: Oracle 8.1.6, Microsoft SQL Server 2000, IBM DB2, PostgresQL, … Ö Kết nối với ứng dụng sử dụng giao thức (interface) riêng biệt MARC dành cho thư viện sẵn có nhiều website, sở liệu trực tuyến khác Một phần lớn thời gian người sử dụng dành cho việc tìm thơng tin theo liên kết (link) sẵn có, cần thao tác thủ công để truy cập đến thông tin cần thiết, thao tác hoàn toàn thủ công (cut-and-paste) để chuyển thông tin từ trang sang ứng dụng Các hệ thống sẵn có cung cấp số tính mở định nhằm liên kết với ứng dụng bên ngoài, hạn chế q lớn khơng đủ kinh phí xây dựng, vấn đề kỹ thuật phức tạp vượt khả giải quyết, thiếu tính linh động, chuẩn hoá, khả cung cấp dịch vụ cho số lượng lớn người sử dụng lúc, thiếu tính mở rộng yếu tố khác làm cho việc kết nối chuyển đổi liệu thống tốn xây dựng lại Cơ sở hạ tầng hệ thống có sẵn bao gồm nguồn thông tin lưu trữ sở liệu khác nhau, sử dụng loại ngôn ngữ: Phần Lan, Anh, Pháp, Nga Đức Các liệu lưu trữ dạng liệu khác nhau, văn khác cấu trúc ngồi cịn có yếu tố tham chiếu (reference), liệu thống kê, đồ hình ảnh, tin mới, kiện từ ngành nghề mảng kinh doanh khác nhau, … Điều quan trọng vấn đề cơng nghệ đáp ứng u cầu sau: Ư Chi phí thấp, Ư Dễ dàng triển khai (implement), Ö Dễ dàng quản trị, Ö Sử dụng chuẩn (standard) sẵn có, Ư Sử dụng đòn bẩy điểm tựa am hiểu tài ngun sẵn có mà khơng cần tạo lại toàn hệ thống Người sử dụng hệ thống bao gồm từ nhà nghiên cứu, doanh nghiệp tư nhân, phận lập kế hoạch phủ thành phần khác Người sử dụng đa phần dùng website sẵn có ứng dụng đơn vị, tổ chức để truy cập thao tác (hạn chế) liệu Quá trình sử dụng phức tạp cần tổng hợp thơng tin từ số lượng lớn nguồn khác truy cập Các công nghệ cần thiết cần phải đáp ứng khả thao tác chuyển đổi nguồn liệu sẵn có sở biến thể khác ngôn ngữ cấu trúc liệu mà khơng địi hỏi thay 25 BẢN TIN LIÊN HIỆP THƯ VIỆN THÁNG12/2003 đổi sở liệu hay giao thức sẵn có Một vấn đề có việc thay đổi sở liệu cần hỗ trợ ngơn ngữ có dạng liệu (hình ảnh, âm thanh, phim, video, …) Tính phức tạp dạng liệu sẵn có khơng thể đồng hố sở liệu thay đổi xuyên suốt hệ thống hệ thống có nhu cầu đổi cấu trúc liệu hay giao thức người sử dụng Một vấn đề khác việc cung cấp dạng thông tin giao thức thống nhằm hỗ trợ người sử dụng hệ thống dễ dàng thu thập liệu, phổ biến thông tin thời gian ngắn Các nhu cầu việc tra cứu nhanh, tìm xuyên suốt hệ sở liệu, xây dựng từ điển liệt kê ngữ nghĩa (thesaurus) trực tuyến liên kết đến tận sản phẩm đơn vị sản xuất / xuất-nhập có thực Giải pháp Phương pháp tiếp cận để giải toán nêu việc đặt hướng giải dựa Ö Việc nối kết chuyển đổi liệu với nhiều hệ thống nhà cung cấp khác (về kỹ thuật giao thức dạng nội dung liệu) Ö Mục tiêu thứ hai trình tiếp cận hạn chế tối đa việc thay đổi giao thức, sở liệu cách hoạt động hệ thống sẵn có Ư Mục tiêu thứ ba đảm bảo tính liên tục dịch vụ cung cấp Hỗ trợ việc thống kê theo dõi thông tin động toàn nguồn Phát triển tập hợp siêu liệu XML nhằm phục vụ cho việc thu thập, cung cấp thông tin tự động với ứng dụng bên khác XML Information Bus Giảp pháp xây dựng tảng XML Information Bus, nhằm liên kết nguồn thông tin dạng khác vào chuẩn đóng gói liệu Giao thức trao đổi (interface) nguồn thông tin khác tùy theo yếu tố nguồn thơng tin địa phương Các thơng tin đóng gói thành liệu có cấu trúc XML chặt chẽ Việc đảm bảo giao thức địa phương XIB nguồn thông tin địa phương tuân theo giao thức cung cấp thơng tin nguồn thơng tin Giải pháp bao gồm: Phát triển hệ thống dịch vụ Web nhanh dễ dàng Kết nối với 200 nguồn thơng tin có Hỗ trợ dạng ngôn ngữ cấu trúc liệu khác 26 BẢN TIN LIÊN HIỆP THƯ VIỆN THÁNG12/2003 Web service Web Application (User) Web service Web Application (User) Firewall Web service Web Application (User) Firewall XML Data Web service Firewall XML Information Bus (Web Publishing Framework) XML Data Web service Web service Middleware Middleware Middleware Information Application XML Data XML Data Web service Web service Service Profile J2EE Service Profile J2EE Information Repository XML Repository Oracle Database UDDI Application Registry UDDI Service Registry Cấu Trúc Hệ Thống XML Information Bus Ý tưởng XIB việc tất liệu trao đổi qua kênh thông tin có cấu trúc XML Các cấu trúc tuân theo giản đồ XML (XML Schema) Các giản đồ sử dụng để tạo liệu, mô tả cấu trúc liệu luân chuyển, kiểm tra cấu trúc liệu tính đắn thành phần (về hình dạng nội dung) liệu xử lý Hồn tồn khơng phụ thuộc vào dạng liệu nguồn thơng tin có, XIB sử dụng dạng liệu XML chuẩn cho truy xuất liệu đầu vào hệ thống người sử dụng thành phần bên hệ thống Ví dụ tất liệu đất nước, tiền tệ ngôn ngữ tuân theo dạng XML với chuẩn ISO3166 (3 ký tự) cho quốc gia, ISO-639-1 (2 ký tự) cho ngôn ngữ ISO-4217 dành cho tiền tệ Mặc dù việc sử dụng chuẩn không bắt buộc hệ thống sử dụng, điều bắt buộc với giao thức dịch vụ Web tầng phần mềm (middleware) để đảm bảo tính thống giao thức giao diện chuyển đổi thông tin, từ đảm bảo tính thống hình thức nội dung liệu thông tin bên XIB 27 BẢN TIN LIÊN HIỆP THƯ VIỆN THÁNG12/2003 XIB Việc liên kết hệ thống tồn vào XIB đòi hỏi việc thiết lập “ngữ pháp” để trao đổi XIB hệ thống Ví dụ thơng tin XML chuyển đổi XML Information Bus Việc quản lý thông tin, bao gồm thông tin ngôn ngữ khác nhau, dựa tảng XML Các cấu trúc thông tin liệu bảng trường sở liệu (database table & field) cần mô tả lại cấu trúc XML thích hợp, liên kết trực tiếp (direct), gián tiếp (indirect) tham chiếu (reference) liệu bên mơ tả qua phần tử (sub-element), thuộc tính (attribute), reference qua XLink Vì ngơn ngữ XML mơ tả rõ ràng xác sở liệu SQL Việc chuyển đổi thông tin từ HTML/XHTML khai thác thơng qua XML việc định nghĩa thành phần quan trọng trang trích dẫn nội dung thiết lập ánh xạ thành phần phần tử trang XML Việc chuyển đổi hồn tồn tự động hố thơng qua XML StyleSheet Language (XSL) Tồn cơng việc nhằm xây dựng ngôn ngữ mô tả XML nhằm phục vụ ứng dụng có trao đổi thơng tin với với người sử dụng qua cầu nối XIB XIB đóng nhiệm vụ người biên dịch hai chiều cho hai thành phần sử dụng Ví dụ thơng tin trả từ hệ thống sử dụng sau kết nối với XIB Đi sâu vào cách chuyển đổi thông tin thư viện xây dựng chuẩn MARC, hỗ trợ sẵn có bao gồm RDF [3], RDF Schema [4], Dublin Core elements version 1.1 [5] XML Topic Maps [6] RDF sử dụng để mô tả siêu liệu dành cho tài nguyên, ví dụ giá trị đặc tính riêng miền RDF Schema dành cho việc định nghĩa lớp tài nguyên đặc tính phụ thuộc mà liệu cụ thể sử dụng Ngồi việc sử dụng đồng thời RDF Schema, Dublin Core XML Topic Maps định nghĩa thể học (ontopology) quan hệ lớp, tài nguyên đặc tính để tạo nên bảng từ vựng (vocabulary) Áp dụng XML Schema, 28 BẢN TIN LIÊN HIỆP THƯ VIỆN THÁNG12/2003 bảng từ vựng định nghĩa giá trị có đặc tính mà tài nguyên sử dụng Các giá trị có giới hạn trường thường định nghĩa bên hệ thống tồn không hiển cho người sử dụng Với XML Schema, giá trị kiểm tra quản lý giao diện dịch vụ Web, giảm thiểu khả nhập/xuất liệu sai tăng tính ổn định an tồn hệ thống cứu, trích lục, chép phần chuyển đổi thông tin cho hệ thống khác Nhằm theo dõi xuyên suốt dịch vụ nội dung dịch vụ hệ thống, mô tả sơ lược dịch vụ (service profile) lưu trữ hệ thống nhằm mơ tả khả năng, tính năng, phương thức giao tiếp, cấu trúc liệu vào/ra dịch vụ Web tài nguyên thông tin mà dịch vụ cung cấp Ví dụ thơng tin trả từ hệ thống hỗ trợ XIB Ví dụ mơ tả sơ lược dịch vụ Web Để truy cập trực tiếp liệu dạng văn sẵn có chuyển đổi sang cấu trúc XML ngược lại, XML:DB API [7] chuẩn giao thức cho phép truy cập văn siêu liệu kèm với văn Cùng với dịch vụ Web sử dụng để kết nối vào XIBđ, XML:DB API cho phép việc sử dụng văn tồn sử dụng sở liệu thơng thường: tìm kiếm, tra Điều hành hệ thống, khám phá thông tin mới, dịch vụ mới, việc dự liệu (provision) cung cấp dịch vụ cho người sử dụng có dịch vụ mới, thơng tin hai hệ khám phá tổng quát, mô tả giao diện (Universal Discovery, Description and Interface) 29 BẢN TIN LIÊN HIỆP THƯ VIỆN THÁNG12/2003 Kết luận Sử dụng công nghệ phù hợp điều quan trọng việc kết nối đưa vào sử dụng thời gian ngắn dịch vụ sẵn có Sử dụng công cụ tạo hệ cung cấp thông tin nhằm phục vụ tính mở để dễ dàng nâng cấp, kết nối đến việc xây dựng mạng lưới tài ngun thơng tin mang tính kế thừa phát triển nhanh Việc thiết kế tạo hay kết nối nguồn thơng tin có cần tn theo tiêu chí Các cơng cụ hồn tồn có khả tạo lập mạng lưới nguồn thơng tin tài nguyên giàu có, dễ sử dụng khoảng thời gian ngắn chi phí thấp Bài viết giới thiệu giải pháp minh chứng thực tế áp dụng vào tình hình thư viện TÀI LIỆU THAM KHẢO Graham,S.,Simeonov,S.,Boubez,T.,Davis,D., Daniels,G.,Nakamura,Y.and Neyama,R.,2002 Building Web Services with Java: Making Sense of XML,SOAP,WSDL,and UDDI.SAMS Publishing, 2002 Bray,T.,Paoli,J.,Sperberg-McQueen,C.M.and Maler,E.,2000.Extensible Markup Language (XML) 1.0,Second Edition,W3C Recommendation,October 2000 http://www.w3.org/TR/2000/REC-xml-20001006 Lassila,O.and Swick,R.R.,1999.Resource Description Framework (RDF) Model and Syntax Specification.February,1999 http://www.w3.org/TR/REC-rdf-syntax Brickley,D.and Guha,R.V.,2002.Resource Description Framework (RDF)Schema Specification 1.0,March 2002 http://www.w3.org/TR/rdf-schema Dublin Core http://dublincore.org Pepper,S.and Moore,G.XML Topic Maps (XTM)1.0 http://www.topicmaps.org/xtm/1.0 XML::DB http://www.xmldb.org XW 30 ... LIÊN HIỆP THƯ VIỆN THÁNG12/2003 Web service Web Application (User) Web service Web Application (User) Firewall Web service Web Application (User) Firewall XML Data Web service Firewall XML Information... xuyên suốt dịch vụ nội dung dịch vụ hệ thống, mô tả sơ lược dịch vụ (service profile) lưu trữ hệ thống nhằm mơ tả khả năng, tính năng, phương thức giao tiếp, cấu trúc liệu vào/ra dịch vụ Web tài... Firewall XML Information Bus (Web Publishing Framework) XML Data Web service Web service Middleware Middleware Middleware Information Application XML Data XML Data Web service Web service Service Profile