TCVN TIÊU CHUẨN QUỐC GIA TCVN II.5.9:2015 Xuất lần TIÊU CHUẨN KỸ THUẬT TẠO LẬP CHỈ MỤC NGƯỢC (DÙNG CHO METADATA VÀ TÀI LIỆU TOÀN VĂN) PHẦN 1: QUY TRÌNH TẠO LẬP CHỈ MỤC CHO METADATA Technical standard for inverted indexing (for metadata and full text document) Part 1: Indexing process for metadata HÀ NỘI - 2015 TCVN II.5.9:2015 TCVN II.5.9:2015 Mục lục Trang Lời nói đầu Phạm vi áp dụng Tài liệu viện dẫn Thuật ngữ định nghĩa Từ điển từ chuẩn cho liệu đặc tả Error! Bookmark not defined Quy trình tạo lập mục ngược cho metadata Error! Bookmark not defined 5.1 Bước phân tích tài liệu Error! Bookmark not defined 5.2 Bước thiết kế mục Error! Bookmark not defined 5.3 Bước trình bày mục Error! Bookmark not defined 5.4 Bước kiểm tra chất lượng mục Error! Bookmark not defined Phụ lục A (Tham khảo) Ví dụ sơ đồ thiết kế mục ngược cho metadataError! Bookmark not defined Thư mục tài liệu tham khảo Error! Bookmark not defined TCVN II.5.9:2015 Lời nói đầu TCVN II.5.9:2015 xây dựng sở tham khảo tài liệu: ISO/IEC 5963:1985 NISO/TR 02:1997 TCVN II.5.9:2015 Viện Công nghệ thông tin Đại học Quốc gia Hà Nội biên soạn, Bộ Thông tin Truyền thông đề nghị, Tổng cục Tiêu chuẩn Đo lường Chất lượng thẩm định, Bộ Khoa học Công nghệ ban hành TIÊU CHUẨN QUỐC GIA TCVN II.5.9:2015 TCVN II.5.9:2015 Tiêu chuẩn kỹ thuật tạo lập mục ngược (dùng cho metadata tài liệu toàn văn) – Phần Quy trình tạo lập mục cho metadata Technical standard for inverted indexing (for metadata and full text document) – Part 1: Indexing process for metadata Phạm vi áp dụng Tiêu chuẩn đề cập quy trình tạo lập mục ngược cho liệu đặc tả mà quy định kỹ thuật phương pháp tạo lập mục TCVN II.1.12 Phạm vi tiêu chuẩn bao gồm quy trình tạo lập mục cho liệu đặc tả tài liệu in tài liệu không in Thuật ngữ mục sử dụng tiêu chuẩn mục ngược bao gồm mục ngược mức tài liệu mục ngược mức từ Phạm vi tiêu chuẩn không bao gồm vấn đề không quy định TCVN II.1.12 Tài liệu viện dẫn Các tài liệu viện dẫn sau cần thiết cho việc áp dụng tiêu chuẩn Đối với tài liệu ghi năm cơng bố áp dụng phiên nêu Đối với tài liệu không ghi năm công bố áp dụng phiên nhất, bao gồm sửa đổi, bổ sung (nếu có) TCVN 5453: 2009, Thông tin tư liệu – Từ vựng; TCVN 7420-1:2004, Thông tin tư liệu – Quản lý hồ sơ – Phần 1: Yêu cầu chung; TCVN 10669:2014, Thông tin tư liệu - Phương pháp phân tích tài liệu, xác định chủ đề lựa chọn thuật ngữ định mục; TCVN 7539:2005: Khổ mẫu MARC 21 cho liệu thư mục; TCVN 7980:2008 (ISO 15836:2003) Thông tin tài liệu – Bộ phần tử siêu liệu Dublin Core; NIST's Dictionary of Algorithms and Data Structures (Từ điển thuật toán cấu trúc liệu Viện Tiêu chuẩn Kỹ thuật Quốc gia Mỹ); Thuật ngữ định nghĩa Tiêu chuẩn áp dụng thuật ngữ định nghĩa quy định TCVN II.1.12 thuật ngữ sau 3.1 Chỉ mục (Index) Một danh sách chủ đề xếp theo thứ tự chữ theo hệ thống dẫn tới vị trí chủ đề hay tập hợp tài liệu TCVN II.5.9:2015 3.2 Chỉ mục ngược (inverted index) Cấu trúc liệu mục lưu giữ ánh xạ từ nội dung (từ số) đến vị trí tệp tin sở liệu tài liệu tập tài liệu Có loại mục ngược: mục ngược mức tài liệu mục ngược mức từ [NIST's Dictionary of Algorithms and Data Structures] CHÚ THÍCH Chỉ mục ngược cịn gọi tệp định vị (postings file) tệp ngược (inverted file) sử dụng chủ yếu cho máy tìm kiếm 3.3 Chỉ mục ngược mức tài liệu (record level inverted index) Chỉ mục ngược chứa danh sách tham chiếu đến tài liệu cho từ [NIST's Dictionary of Algorithms and Data Structures] CHÚ THÍCH Chỉ mục ngược mức tài liệu gọi mục tệp tin ngược (inverted file index) tệp ngược (inverted file) 3.4 Chỉ mục ngược mức từ (word level inverted index) Chỉ mục ngược chứa danh sách cho biết bị trí từ tài liệu [NIST's Dictionary of Algorithms and Data Structures] CHÚ THÍCH Chỉ mục ngược mức từ gọi danh sách mục ngược (inverted index list) danh sách ngược (inverted list) CHÚ THÍCH Chỉ mục ngược mức từ áp dụng cho tìm kiếm cụm từ (pharse search) với khả xử lý nhớ tiêu tốn nhiều 3.5 Từ điển từ chuẩn (thesaurus) Bộ từ vựng có kiểm soát chứa thuật ngữ tương đương, mối quan hệ liên đới quy tắc áp dụng [Điều 3.8.3, TCVN 10669:2014] 3.6 Dữ liệu toàn văn (full text data) Dữ liệu nguồn bao gồm các tài liệu hoàn chỉnh phần tài liệu [TCVN 5453: 2009, định nghĩa 1.1.4.12] 3.7 Tiêu đề mục (heading) Điểm truy cập tới mô tả hệ thơng tìm thơng tin [TCVN 5453: 2009, định nghĩa 4.2.1.3.01] TCVN II.5.9:2015 3.8 Phụ đề mục (subheading) Tiêu đề gộp vào tiêu đề để mối quan hệ phụ thuộc biến thể 3.9 Dấu định vị (locator) Thành phần dẫn mục mục cho biết vị trí đơn vị tài liệu mà dẫn mục đề cập Dấu định vị gồm ghi ngắn gọn số trang trích dẫn thư mục, định danh tài liệu 3.10 Tham chiếu chéo (cross-reference) Liên kết hai nhiều hai từ tiêu đề mục Có ba kiểu quan hệ từ yêu cầu tham chiếu chéo: - Quan hệ tương đương từ tiêu đề đồng nghĩa; - Quan hệ liên kết, cho thấy mối quan hệ không xác định từ tiêu đề (gọi từ tiêu đề có liên quan); - Quan hệ thứ bậc, mối quan hệ rộng hơ n/hẹp hơ n từ tiêu đề 3.11 Dữ liệu toàn văn (full text data) Dữ liệu nguồn bao gồm các tài liệu hoàn chỉnh phần tài liệu [TCVN 5453: 2009, định nghĩa 1.1.4.12] 3.12 Tệp chuẩn (authority file) Danh sách tập tiêu đề sử dụng mục, ví dụ: hình thức tên riêng, Tiêu đề chủ đề 3.13 Siêu liệu (metadata) Dữ liệu đặc tả Dữ liệu mô tả văn cảnh, nội dung cấu trúc hồ sơ quản lý hồ sơ theo thời gian [Điều 3.1.12, TCVN 7420-1:2004] CHÚ THÍCH Dữ liệu đặc tả thơng tin mơ tả đặc tính liệu nội dung, định dạng, chất lượng, điều kiện đặc tính khác nhằm tạo thuận lợi cho trình tìm kiếm, truy cập, quản lý lưu trữ liệu (Thông tư Số 24/2011/TT-BTTTT) ... Tiêu chuẩn đề cập quy trình tạo lập mục ngược cho liệu đặc tả mà quy định kỹ thuật phương pháp tạo lập mục TCVN II .1. 12 Phạm vi tiêu chuẩn bao gồm quy trình tạo lập mục cho liệu đặc tả tài liệu. .. liệu in tài liệu không in Thuật ngữ mục sử dụng tiêu chuẩn mục ngược bao gồm mục ngược mức tài liệu mục ngược mức từ Phạm vi tiêu chuẩn không bao gồm vấn đề không quy định TCVN II .1. 12 Tài liệu. .. cục Tiêu chuẩn Đo lường Chất lượng thẩm định, Bộ Khoa học Công nghệ ban hành TIÊU CHUẨN QUỐC GIA TCVN II.5.9:2 015 TCVN II.5.9:2 015 Tiêu chuẩn kỹ thuật tạo lập mục ngược (dùng cho metadata tài liệu