TCVN TIÊU CHUẨN QUỐC GIA TCVN II.5.10:2015 Xuất lần TIÊU CHUẨN KỸ THUẬT TẠO LẬP CHỈ MỤC NGƯỢC (DÙNG CHO METADATA VÀ TÀI LIỆU TOÀN VĂN) PHẦN 2: QUY TRÌNH TẠO LẬP CHỈ MỤC CHO TÀI LIỆU TỒN VĂN Technical standard for inverted indexing (for metadata and full text document) Part 2: Indexing process for full text document HÀ NỘI - 2015 TCVN II.5.10:2015 TCVN II.5.10:2015 Mục lục Trang Lời nói đầu Phạm vi áp dụng Tài liệu viện dẫn Thuật ngữ định nghĩa Từ điển từ chuẩn cho liệu toàn văn Error! Bookmark not defined Quy trình tạo lập mục ngược cho tồn văn Error! Bookmark not defined 5.1 Bước phân tích tài liệu Error! Bookmark not defined 5.2 Bước thiết kế mục Error! Bookmark not defined 5.3 Bước trình bày mục Error! Bookmark not defined 5.4 Bước kiểm tra chất lượng mục Error! Bookmark not defined Phụ lục A (Tham khảo) Ví dụ sơ đồ thiết kế mục ngược cho tài liệu toàn vănError! Bookmark not defined Thư mục tài liệu tham khảo Error! Bookmark not defined TCVN II.5.10:2015 Lời nói đầu TCVN II.5.10:2015 xây dựng sở tham khảo tài liệu: ISO/IEC 5963:1985 NISO/TR 02:1997 TCVN II.5.10:2015 Viện Công nghệ thông tin Đại học Quốc gia Hà Nội biên soạn, Bộ Thông tin Truyền thông đề nghị, Tổng cục Tiêu chuẩn Đo lường Chất lượng thẩm định, Bộ Khoa học Công nghệ ban hành TIÊU CHUẨN QUỐC GIA TCVN II.5.10:2015 TCVN II.5.10:2015 Tiêu chuẩn kỹ thuật tạo lập mục ngược (dùng cho metadata tài liệu toàn văn) – Phần 2: Quy trình tạo lập mục cho tài liệu tồn văn Technical standard for inverted indexing (for metadata and full text document) – Part 2: Indexing process for full text document Phạm vi áp dụng Tiêu chuẩn đề cập quy trình tạo lập mục ngược cho tài liệu toàn văn mà quy định kỹ thuật phương pháp tạo lập mục TCVN II.1.13 Phạm vi tiêu chuẩn bao gồm quy trình tạo lập mục cho tài liệu tồn văn tài liệu in tài liệu không in Thuật ngữ mục sử dụng tiêu chuẩn mục ngược bao gồm mục ngược mức tài liệu mục ngược mức từ Phạm vi tiêu chuẩn không bao gồm vấn đề không quy định TCVN II.1.13 Tài liệu viện dẫn Các tài liệu viện dẫn sau cần thiết cho việc áp dụng tiêu chuẩn Đối với tài liệu ghi năm cơng bố áp dụng phiên nêu Đối với tài liệu khơng ghi năm cơng bố áp dụng phiên nhất, bao gồm sửa đổi, bổ sung (nếu có) TCVN 5453: 2009, Thơng tin tư liệu – Từ vựng; TCVN 7420-1:2004, Thông tin tư liệu – Quản lý hồ sơ – Phần 1: Yêu cầu chung; TCVN 10669:2014, Thông tin tư liệu - Phương pháp phân tích tài liệu, xác định chủ đề lựa chọn thuật ngữ định mục; NIST's Dictionary of Algorithms and Data Structures (Từ điển thuật toán cấu trúc liệu Viện Tiêu chuẩn Kỹ thuật Quốc gia Mỹ); NISO TR03-1999, Guidelines for Alphabetical Arrangement of Letters and Sorting of Numerals and Other Symbols; Thuật ngữ định nghĩa Tiêu chuẩn áp dụng thuật ngữ định nghĩa quy định TCVN II.1.13 thuật ngữ sau 3.1 Chỉ mục (Index) Một danh sách chủ đề xếp theo thứ tự chữ theo hệ thống dẫn tới vị trí chủ đề hay tập hợp tài liệu TCVN II.5.10:2015 3.2 Chỉ mục ngược (inverted index) Cấu trúc liệu mục lưu giữ ánh xạ từ nội dung (từ số) đến vị trí tệp tin sở liệu tài liệu tập tài liệu Có loại mục ngược: mục ngược mức tài liệu mục ngược mức từ [NIST's Dictionary of Algorithms and Data Structures] CHÚ THÍCH Chỉ mục ngược gọi tệp định vị (postings file) tệp ngược (inverted file) sử dụng chủ yếu cho máy tìm kiếm 3.3 Chỉ mục ngược mức tài liệu (record level inverted index) Chỉ mục ngược chứa danh sách tham chiếu đến tài liệu cho từ [NIST's Dictionary of Algorithms and Data Structures] CHÚ THÍCH Chỉ mục ngược mức tài liệu gọi mục tệp tin ngược (inverted file index) tệp ngược (inverted file) 3.4 Chỉ mục ngược mức từ (word level inverted index) Chỉ mục ngược chứa danh sách cho biết bị trí từ tài liệu [NIST's Dictionary of Algorithms and Data Structures] CHÚ THÍCH Chỉ mục ngược mức từ gọi danh sách mục ngược (inverted index list) danh sách ngược (inverted list) CHÚ THÍCH Chỉ mục ngược mức từ áp dụng cho tìm kiếm cụm từ (pharse search) với khả xử lý nhớ tiêu tốn nhiều 3.5 Từ điển từ chuẩn (thesaurus) Bộ từ vựng có kiểm soát chứa thuật ngữ tương đương, mối quan hệ liên đới quy tắc áp dụng [Điều 3.8.3, TCVN 10669:2014] 3.6 Dữ liệu toàn văn (full text data) Dữ liệu nguồn bao gồm các tài liệu hoàn chỉnh phần tài liệu [TCVN 5453: 2009, định nghĩa 1.1.4.12] 3.7 Tiêu đề mục (heading) Điểm truy cập tới mô tả hệ thơng tìm thơng tin [TCVN 5453: 2009, định nghĩa 4.2.1.3.01] 3.8 Phụ đề mục (subheading) Tiêu đề gộp vào tiêu đề để mối quan hệ phụ thuộc biến thể 3.9 Dấu định vị (locator) Thành phần dẫn mục mục cho biết vị trí đơn vị tài liệu mà dẫn mục đề cập Dấu định vị gồm ghi ngắn gọn số trang trích dẫn thư mục, định danh tài liệu TCVN II.5.10:2015 3.10 Tham chiếu chéo (cross-reference) Liên kết hai nhiều hai từ tiêu đề mục Có ba kiểu quan hệ từ yêu cầu tham chiếu chéo: - Quan hệ tương đương từ tiêu đề đồng nghĩa; - Quan hệ liên kết, cho thấy mối quan hệ không xác định từ tiêu đề (gọi từ tiêu đề có liên quan); - Quan hệ thứ bậc, mối quan hệ rộng hơ n/hẹp hơ n từ tiêu đề 3.11 Dữ liệu toàn văn (full text data) Dữ liệu nguồn bao gồm các tài liệu hoàn chỉnh phần tài liệu [TCVN 5453: 2009, định nghĩa 1.1.4.12] 3.12 Tệp chuẩn (authority file) Danh sách tập tiêu đề sử dụng mục, ví dụ: hình thức tên riêng, Tiêu đề chủ đề ... Error! Bookmark not defined TCVN II.5.10: 2015 Lời nói đầu TCVN II.5.10: 2015 xây dựng sở tham khảo tài liệu: ISO/IEC 5963:1985 NISO/TR 02:1997 TCVN II.5.10: 2015 Viện Công nghệ thông tin Đại... nghệ ban hành TIÊU CHUẨN QUỐC GIA TCVN II.5.10: 2015 TCVN II.5.10: 2015 Tiêu chuẩn kỹ thuật tạo lập mục ngược (dùng cho metadata tài liệu tồn văn) – Phần 2: Quy trình tạo lập mục cho tài liệu toàn... vi áp dụng Tiêu chuẩn đề cập quy trình tạo lập mục ngược cho tài liệu toàn văn mà quy định kỹ thuật phương pháp tạo lập mục TCVN II.1.13 Phạm vi tiêu chuẩn bao gồm quy trình tạo lập mục cho tài