Định dạng files tài liệu điện tử TS Nguyễn Lệ Nhung Tồn nhiều định dạng files khác Chúng phân chia thành “đơn chương trình”, nghĩa chúng quản lý bảo đảm nhân viên lập trình, “đa chương trình” bảo đảm vài nhân viên lập trình xử lý nhiều chương trình (phần mềm) khác Chúng ta liệt kê định dạng bản: Các định dạng văn thường xây dựng nhờ trợ giúp trình biên soạn Những định dạng văn phổ biến là: - định dạng đơn phần mềm Microsoft Word Word Perfect; - định dạng RTF (Rich Text Format) bảo đảm nhiều phụ lục phần mềm giữ định dạng văn đặt; - định dạng PDF (Portable Ducument Format) gồm có hình ảnh trang với văn biểu đồ Có thể đọc file theo định dạng PDF nhiều phần mềm để đọc files khác nhau, chúng xây dựng nhờ phần mềm Adobe Acrobat Các định dạng đồ họa lưu giữ hình ảnh (ví dụ, ảnh chụp, hình vẽ) chia thành hai kiểu chính: 2.1 Các định dạng vector - lưu giữ hình ảnh tập hợp hình dạng hình học Phổ biến là: - định dạng DXF (Drawing Interchange Format) sử dụng rộng rãi chương trình thiết kế máy tính cho kỹ sư kiến trúc sư; - định dạng EPS (Encapsulated PortScript) sử dụng rộng rãi hệ thống biểu quyết/bầu cử bàn; - định dạng CGM (Computer Graphics Metafile) sử dụng rộng rãi nhiều phần mềm đồ họa (ví dụ phần mềm Photoshop) 2.2 Các định dạng mành, chúng lưu giữ hình ảnh tập hợp điểm ảnh pixels Khi thay đổi kích cỡ ảnh, đồ họa mành bị biến dạng Phổ biến là: - định dạng BMP (Bitmap)- định dạng tương đối chất lượng, thường dùng vào trình soạn thảo văn bản; - định dạng TIFF (Tagget Image File Format) sử dụng rộng rãi ứng dụng phần mềm; - định dạng GIF (Graphics Interchange Format) sử dụng rộng rãi phần mềm dành cho Internet Các định dạng sở liệu xây dựng nhờ phần mềm chuyên dụng - hệ thống quản lý sở liệu Hệ thống quản lý sở liệu cho phép xác định mối quan hệ thành phần thông tin sở liệu, thực tác động khác tới thông tin sở liệu (tìm kiếm, đánh dấu, thực phép toán khác nhau, lập báo cáo dẫn, v.v.) Những ví dụ hệ thống quản lý sở liệu Microsoft SQL Sever, Oracle, MySQL, IBM DB2, Sybase phần mềm khác Ví dụ, sở liệu khách hàng gồm có trường thông tin tên người mua, địa thông tin hàng hóa Những trường tổ chức thành bảng riêng biệt (thí dụ, bảng cho tất trường với họ tên khách hàng) Cơ sở liệu chuyển sang định dạng văn bản, bị mối liên hệ trường thông tin với bảng (ví dụ, lúc nhận mười trang họ tên, TS Nguyễn Lệ Nhung 0912581997 mười trang địa nghìn trang thông tin hàng hóa, tức thông tin không liên kết) Các định dạng bảng điện tử Những file định dạng bảng điện tử lưu giữ ô số mối liên hệ số Ví dụ, ô chứa công thức thực việc cộng liệu hai ô khác Giống file sở liệu, file bảng điện tử thường có định dạng phần mềm tạo Một số chương trình nhập khai thác liệu nguồn khác kể chương trình dùng để trao đổi liệu kiểu (thí dụ, định dạng DIF (Data Interchange Format)) Các file bảng điện tử chuyển đổi thành file văn bản, số mối liên hệ số bị Các định dạng nghe-nhìn/video-audio Những định dạng chứa hình ảnh chuyển động (ví dụ video số, hoạt hình) liệu âm xây dựng xem, nghe nhờ chương trình tương thích lưu giữ định dạng đơn chương trình Những định dạng sử dụng nhiều QuickTime MPEG (Motion Picture Experts Group) Đánh dấu ngôn ngữ gọi định dạng đánh dấu, gồm có hướng dẫn đính kèm để biểu diễn nội dung file Chúng là: - SGML (Standard Generalized Markup Language) sử dụng quan nhà nước nhiều nước giới tiêu chuẩn quốc tế; - HTML (Hypertext Markup Language) sử dụng để hiển thị toàn thông tin mạng World Wide Web; - XML (Extensible Markup Language) - ngôn ngữ tương đối đơn giản dựa sở SGML dùng phổ biến quản lý thông tin trao đổi thông tin Từng định dạng file có điểm mạnh điểm yếu riêng áp dụng vào việc bảo đảm tài liệu cho quản lý Thí dụ, định dạng văn (MicrosoftWord, WordPerfect, RTF v.v.) thuận tiện cho tìm kiếm ngữ cảnh theo tài liệu sở liệu, định dạng đồ hoạ (PDF, TIFF v.v.) giúp nhận hình ảnh scan với toàn đặc điểm bên giữ tài liệu có dạng giấy với đầy đủ chữ ký, dấu, bút tích Định dạng MS Word tiện cho biên tập tài liệu xử lý thông tin, file MS Word lại chứa đựng nhiều thông tin ẩn (trước tiên thay đổi thực file) vậy, không an toàn theo quan điểm thất thoát thông tin công vụ Ví dụ, lúc chuẩn bị tài liệu thương mại, thông tin ẩn lại cho ta biết đề xuất khởi điểm, có ảnh hưởng mạnh tới văn Trong chuẩn bị tài liệu theo nhóm, phân tích sửa đổi cho ta khả nhận biết không họ tên người lập tài liệu mà mức độ đóng góp người vào phương án hoàn chỉnh tài liệu Ở Nga, quan quyền LB tự quy định định dạng cho dạng tài liệu điện tử sử dụng giao dịch với quan, tổ chức khác với công dân Thí dụ, theo yêu cầu Uỷ ban LB thị trường tiền tệ (ngày Cơ quan LB thị trường tài chính) file tài liệu phải trình bày định dạng RTF Về phần mình, Bộ Tài Nga quy định file tài liệu thống kê tổ chức bảo hiểm (bảo hiểm y tế) lập có định dạng XML Vậy định dạng XML tuyệt vời gì? Đánh dấu ngôn ngữ mở rộng (Extensible Markup Language) chứa đựng không liệu mà mang thông tin TS Nguyễn Lệ Nhung 0912581997 mô tả liệu Nó dùng cho ứng dụng máy tính mà không bị lệ thuộc vào kỹ thuật hệ thống xử lý, cho phép chuyển tải dung lượng lớn thông tin không cần đến biến đổi cấu trúc liệu Công nghệ XML (eXtensible Markup Language) dùng để chia sẻ loại liệu riêng biệt thông qua hệ thống khác hình thức thể thống Trước ứng dụng Office thường lưu lại file định dạng riêng mà chương trình khác mở để xem Những định dạng tiền nhiệm XML đánh dấu ngôn ngữ chuẩn chung Tổ chức tiêu chuẩn quốc tế phê duyệt tiêu chuẩn từ năm 1980, phiên rút gọn đánh dấu ngôn ngữ siêu văn HTML Định dạng XML tổ chức tiêu chuẩn cộng đồng-internet với đại diện tập đoàn World Wide Web (W3C) tổ chức UDDI.org thông qua Hiện công ty Microsoft, IBM, Oracle, loạt công ty sản xuất phầm mềm linh hoạt chuyển sang sử dụng XML vào sản phẩm thực tế, họ thực ý tưởng tiêu chuẩn hoá định dạng tài liệu sở XML Thuận lợi công nghệ XML giảm thiểu kích thước file, cho phép người dùng gửi file dạng file đính kèm cách dễ dàng Định dạng XML tạo điều kiện cho file tài liệu chứa văn bản, hình ảnh dạng liệu phức tạp, với định dạng liệu riêng Ngoài XML giúp cho người dùng truy cập vào liệu dễ dàng hơn, phục hồi tệp liệu bị hỏng, đồng thời tăng cường độ an toàn liệu Định dạng PDF định dạng tập tin văn hãng Adobe Systems Inc xây dựng phổ biến trao đổi tài liệu sử dụng rộng rãi cho tài liệu mạng internet cho phép giữ hình thức ban đầu tài liệu ngăn cản việc thay đổi thông tin tài liệu Tương tự định dạng Microsoft Word (.doc), PDF hỗ trợ văn thô (text) với font chữ, hình ảnh đồ họa nhiều hiệu ứng khác Tuy nhiên, việc hiển thị văn PDF không phụ thuộc vào môi trường làm việc người sử dụng (cấu hình máy, phần mềm hệ điều hành) Không văn Word, văn PDF hiển thị giống môi trường làm việc khác file PDF tạo hiệu ứng nhúng font chữ (Embedded Subset) Chính ưu điểm này, định dạng PDF trở nên phổ biển cho việc phát hành sách, báo hay tài liệu khác qua mạng Internet Theo đánh giá công ty Adobe có hàng triệu người tải phần mềm miễn phí công ty để xem file PDF, nhiều doanh nghiệp chọn định dạng làm tiêu chuẩn chuyển giao lưu giữ tài liệu, có không lập trình viên độc lập giới thiệu sản phẩm hỗ trợ PDF, chí số miễn phí Nhưng công ty Adobe tương lai không cung cấp miễn phí quyền tiếp cận tới chương trình Hơn nữa, phiên chương trình Adobe, file phiên cũ thường trình diễn không xác Chính xuất phiên nâng cấp định dạng PDF dược gọi PDF-Archive (PDF-A) Ở nước coi hai phiên sở mà tương lai sử dụng cho lưu trữ tài liệu điện tử Còn định dạng thứ hai XML nói Định dạng PDF-A giống XML có điểm trội yếu công tác lưu trữ tài liệu điện tử Cụ thể, định dạng PDF-A đặc biệt thuận lợi cho lưu trữ tài liệu điện tử giữ ngoại hình tài liệu gốc giấy Kinh nghiệm công tác xét xử hai vụ phá sản lớn lịch sử Mỹ - công ty Enron Global TS Nguyễn Lệ Nhung 0912581997 Crossing khẳng định tiện ích Họ tạo lập khối lượng lớn tài liệu định dạng PDF đặt trước quan tư pháp LB nhiệm vụ lưu trữ tài liệu Về nhiều điểm tác động tích cực vào trình biên soạn dự thảo tiêu chuẩn quốc tế lưu trữ tài liệu theo PDF Song khả sử dụng định dạng vào lưu trữ điện tử hạn chế, lấy thí dụ, định dạng PDF-A không dùng cho lưu trữ tài liệu nghe nhìn Thay lời kết luận Phải lưu ý định dạng số định dạng file tài liệu điện tử tối ưu cho lưu trữ lâu dài, kỹ thuật, công nghệ chương trình thay đổi nhanh Ngay khó khôi phục lại thiết bị tài liệu lập nhờ công cụ biên tập AmiPro, WordPerfect Vậy dễ dàng không, dựng lại tài liệu lưu trữ định dạng Word-97 sau 10-15 năm nữa? Chắc chắn phong phú định dạng files tài liệu tồn Vì vậy, quan lưu trữ biên soạn tiêu chuẩn cho lưu trữ tài liệu điện tử có định dạng khác mà trước tiên cho định dạng phổ biến PDF XML Tuy vậy, hy vọng lớn lao liên quan đến việc sử dụng định dạng XML tiêu chuẩn để trao đổi tài liệu điện tử lĩnh vực hoạt động khác nhau, đặc biệt lĩnh vực quản lý nhà nước TS Nguyễn Lệ Nhung tổng hợp dịch từ www.archives.ru TS Nguyễn Lệ Nhung 0912581997 ... lại tài liệu lưu trữ định dạng Word-97 sau 10-15 năm nữa? Chắc chắn phong phú định dạng files tài liệu tồn Vì vậy, quan lưu trữ biên soạn tiêu chuẩn cho lưu trữ tài liệu điện tử có định dạng. .. trữ tài liệu theo PDF Song khả sử dụng định dạng vào lưu trữ điện tử hạn chế, lấy thí dụ, định dạng PDF-A không dùng cho lưu trữ tài liệu nghe nhìn Thay lời kết luận Phải lưu ý định dạng số định. .. liên kết) Các định dạng bảng điện tử Những file định dạng bảng điện tử lưu giữ ô số mối liên hệ số Ví dụ, ô chứa công thức thực việc cộng liệu hai ô khác Giống file sở liệu, file bảng điện tử thường