bµi gi¶ng th«ng tin häc bµi gi¶ng th«ng tin häc ch¬ng 3 ch¬ng 3 xö lý th«ng tin & c¸c s¶n phÈm xö lý th«ng tin & c¸c s¶n phÈm th«ng tin th«ng tin PGS.TS. §oµn Phan T©n Th¸ng 2 - 2004 1. mô tả thư mục, các chuẩn và format 1. mô tả thư mục, các chuẩn và format 1.1. Khái niệm chung về mô tả thư mục 1.1. Khái niệm chung về mô tả thư mục Mô tả thư mục là gì? Mô tả thư mục vừa là một công đoạn (công tác biên mục) vừa là một sản phẩm (chỉ dẫn thư mục). Mục đích của mô tả thư mục Cung cấp cho tài liệu một mô tả duy nhất, Giúp ta cùng một lúc có thể xác định được tài liệu, sắp xếp chúng, đưa chúng vào các bộ phiếu và tìm kiếm các tài liệu đó. Các vùng dữ liệu Mô tả thư mục bao gồm các vùng dữ liệu. Đó là các yếu tố dữ liệu mô tả các đặc trưng hình thức của tài liệu. Các vùng dữ liệu này khác nhau đối với các loại hình tài liệu khác nhau. Ví dụ với sách và ấn phẩm định kỳ. (GT trang 135) các vùng dữ liệu theo ISBD đối cới sách và các vùng dữ liệu theo ISBD đối cới sách và ấn phẩm định kỳ ấn phẩm định kỳ Sách Tên sách và tác giả Xuất bản Địa chỉ Đặc trưng số lượng Tùng thư Phụ chú ISBN, bìa và giá tạp chí Tên tạp chí và tác giả Xuất bản Số thứ tự Địa chỉ Đặc trưng số lượng Tùng thư Phụ chú ISSN, khoá tiêu đề và giá 1.2. Các chuẩn và format 1.2. Các chuẩn và format Vấn đề tiêu chuẩn hoá kỹ thuật xử lý thông tin Để thiết lập sự tương hợp giữa các hệ thống thông tin cần phải tiêu chuẩn hoá các kỹ thuật xử lý thông tin. Tiêu chuẩn hoá là hoạt động tập thể ở đó người ta lập ra các tiêu chuẩn về kỹ thuật, phương pháp hoặc chất lượng mà mọi người phải tuân theo. Vai trò của tiêu chuẩn hoá: Nâng cao hiệu quả của hoạt động xử lý, khai thác và chuyển giao thông tin Mở rộng sự hợp tác giữa các đơn vị thông tin trên phạm vị quốc gia và quốc tế. Cơ quan tiêu chuẩn quốc tế ISO và ủy ban ISO/TC46. Quy tắc mô tả thư mục quốc tế ISBD Quy tắc mô tả thư mục quốc tế ISBD ISBD là gì? ISBD là tập hợp các quy tắc trình bày dữ liệu thư mục theo một quy định chặt chẽ, cùng với các dấu hiệu để xác định chúng. ISBD ra đời năm 1960 với sự hợp tác của ISO/TC46 và IFLA. Chức năng của ISBD. Đặc trưng hoá các yếu tố mô tả dùng để xác định tài liệu, gán một thứ tự cho các yếu tố ấy và quy định các dấu ký hiệu. Mục đích của ISBD. Tạo thuận lợi cho việc trao đổi quốc tế các ấn phẩm thông tin thư mục, vượt qua rào cản của ngôn ngữ. Các yếu tố cấu thành ISBD. Các vùng dữ liệu (8 vùng) Các dấu ký hiệu Khổ mẫu biên mục đọc máy MARC Khổ mẫu biên mục đọc máy MARC MARC là gì? MARC = Machine Readable Cataloging. Là một mô tả có cấu trúc, dành riêng cho các dữ liệu thư mục được đưa vào máy tính điện tử. MARC là chuẩn để trình bày và trao đổi các dữ liệu thư mục và các dữ liệu liên quan dưới dạng máy tính đọc được. Tác dụng của MARC Cho phép người dùng dễ dàng truy cập tới các biểu ghi. In ra các thông báo sách mới, các ấn phẩm thư mục, các mục lục dưới các dạng khác nhau, các nhãn dán trên gáy sách. Trao đổi dữ liệu thư mục trên quy mô lớn, giảm chi phí biên mục nhờ sao chép và tải về những biểu ghi từ nhiều nguồn quốc gia và quốc tế cấu trúc của khổ mẫu marc cấu trúc của khổ mẫu marc Cấu trúc của khổ mẫu MARC là cấu trúc biểu ghi, trong đó các dữ liệu được sắp xếp trong các trường, có độ dài thay đổi hoặc cố định, được mã hoá và được trình bày theo một quy định chặt chẽ, bảo đảm khả năng lưu giữ và truy xuất thông tin. Khổ mẫu MARC sử dụng một hệ thống mã gồm các chữ số, chữ cái, các ký hiệu ngắn gọn, đặt ngay trong biểu ghi thư mục để các DBMS có thể đánh dấu và nhận biết các loại thông tin khác nhau trong mỗi biểu ghi. Từ đó có thể sắp xếp và trình bày chúng. MARC sử dụng ngay một số trường làm điểm truy nhập thông tin, giúp cho DBMS thực hiện việc tìm tin được dễ dàng. 2. mô tả nội dung tài liệu và cấu trúc của ngôn 2. mô tả nội dung tài liệu và cấu trúc của ngôn ngữ tư liệu ngữ tư liệu 2.1. Khái niệm chung về mô tả nội dung tài liệu 2.1. Khái niệm chung về mô tả nội dung tài liệu Mô tả nội dung là gì? Mô tả nội dung tài liệu là một tập hợp các công đoạn, ở đó ngư ời ta mô tả nội dung tài liệu cùng với những sản phẩm của chúng Đó là phân loại, đánh chỉ số, tóm tắt và phân tích tài liệu. Mục đích của mô tả nội dung: Nắm bắt nội dung tài liệu Xác định cách thức và mức độ xử lý tài liệu Giúp cho việc sắp xếp, lưu trữ thông tin và tìm kiếm tài liệu Các mức độ xử lý nội dung tài liệu: Phân loại Đánh chỉ số Làm tóm tắt Mô tả nội dung tài liệu bằng gì? Bằng ngôn ngữ tư liệu. 2.2. Cấu trúc của ngôn ngữ tư liệu 2.2. Cấu trúc của ngôn ngữ tư liệu Ngôn ngữ tư liệu là gì? Hai yếu tố cơ bản tạo thành ngôn ngữ tư liệu: Vốn từ vựng của ngôn ngữ Các yếu tố cú pháp Phân loại ngôn ngữ tư liệu theo cấu trúc Ngôn ngũ kết hợp trước: ngôn ngữ có cấu trúc cấp bậc một cách hệ thống (Các hệ thống phân loại DDC, UDC, BBK, .) Ngôn ngữ kết hợp sau: ngôn ngữ có cấu trúc tổ hợp (Từ điển từ chuẩn, danh mục các từ khoá, .) Cấu trúc toán học của các khung phân loại cấu trúc toán học của các hệ thống phân loại cấu trúc toán học của các hệ thống phân loại Giới thiệu quan hệ tương đương Quan hệ tương đương là gì? Quan hệ tương đương trên tập hợp X chia tập X thành các lớp tương đương X 1 , X 2 , ., X n sao cho: X i X j = X 1 X 2 . X n = X Tính chất của các lớp tương đương bảo đảm hai yêu cầu của phân loại: Mỗi đối tượng đều thuộc một lớp Không có đối tượng nào thuộc hai lớp khác nhau. Ví dụ: quan hệ cùng tổ, quan hệ đồng hương, . [...]... của tóm tắt 3 Các sản phẩm thông tin Sản phẩm thông tin là gì? Sản phẩm thông tin là kết quả của quá trình xử lý thông tin nhằm thoả mãn nhu cầu thông tin của xã hội Các loại sản phẩm thông tin chủ yếu: ấn phẩm thông tin thư mục Tạp chí tóm tắt Tổng luận khoa học Các CSDL 3. 1 ấn phẩm thông tin thư mục Là kết quả của quá trình biên mục Đó là các ấn phẩm thư mục do cơ quan thông tin xuất bản... nội dung tài liệu, tránh được hiện tượng mất thông tin cũng như hiện tượng dư thừa thông tin Ví dụ: Do cây lúa là TS của cây lương thực nên: Nếu dùng cây lúa để đánh chỉ số TL nói về cây lương thực sẽ dẫn đến hiện tượng mất thông tin Nếu dùng cây lương thực để đánh chỉ số TL nói về cây lúa sẽ dẫn đến hiện tượng dư thừa thông tin thông tin bị nhiễu 2 .3 Phân loại, đánh chỉ số, tóm tắt Phân loại ... lý 3. 2 Tạp chí tóm tắt Tạp chí tóm tắt là ấn phẩm định kỳ, trình bày tóm tắt các công trình khoa học đã được công bố Vai trò của tạp chí tóm tắt: Là công cụ đắc lực của các nhà nghiên cứu, Giúp họ tìm tin theo nội dung được dễ dàng nhanh chóng Khắc phục hiện tượng phân tán thông tin Chất lượng của tạp chí tóm tắt thể hiện ở: Khả năng bao quát nguồn tin Tính đầy đủ, tính cập nhật của thông tin. .. chiểu cho TV Quốc gia Anh 3. 3 Tổng luận khoa học Tổng luận là gì? Là bài trình bày tổng hợp các vấn đề được xem xét, cùng với sự phân tích về hiện trạng, mức độ và xu hướng phát triển của chúng Tổng luận do các nhà khoa học có trình đọ cao biên soạn từ nhiều nguồn tài liệu khác nhau ấn phẩm tổng luận: tập hợp một số bài tổng luận Vai trò của tổng luận: là sản phẩm thông tin đặc biệt có giá trị,... (phép phủ định) Các phép toán trên có biểu diễn trực quan bằng sơ đồ Venn Ví dụ: Câu hỏi Tìm tài liệu về tự động hoá thư viện hoặc trung tâm thông tin, trừ thư viện trường học, có biểu thức tìm là: Tự động hoá AND (Thư viện OR Trung tâm thông tin) NOT Thư viện trường học Khái niệm trường ngữ nghĩa Trường ngữ nghĩa của từ chuẩn A, ký hiệu dom(A) là tập hợp các từ chuẩn làm rõ nghĩa cho A Ví dụ: dom(cây... CSDL Các CSDL đầu tiên xuất hiện vào cuối những năm 1960, nhanh chóng trở thành một nguồn thông tin mới, bên cạnh các kho lưu trữ truyền thống CSDL ra đời tạo nên sự biến đổi về chất trong hoạt động TTTL CSDL là bộ phận không thể thiếu được của mọi hệ thống thông tin Các loại CSDL Phân theo bản chất của thông tin được lưu giữ, có:CSDL thư mục, CSDL dữ kiện, CSDL toàn văn Theo phạm vi bao quát của... phim, Theo cách cung thông tin, có: CSDL trực tuyến, CSDL trên CD-ROM ví dụ về các CSDL nổi tiếng: Pascal, francis Pascal: CSDL thư mục đa ngành, đa ngôn ngữ do INIST xây dựng, bao quát các lĩnh vực khoa học, công nghệ và y học Bắt đầu xây dựng từ 19 73, hiện nay15 triệu biểu ghi, mức tăng trưởng 500.000 biểu ghi/năm 90% dữ liệu trong Pascal được biên tập từ 8200 tạp chí khoa học của Pháp và thế... đa ngôn ngữ do INIST xây dựng, bao quát các lĩnh vực khoa học xã hội nhân văn và kinh tế Bắt đầu xây dựng từ 1972, hiện nay 2 ,3 triệu biểu ghi, mức tăng trưởng 80.000 biểu ghi/năm 85% dữ liệu trong Pascal được biên tập từ 7200 tạp chí khoa học của Pháp và thế giới ví dụ về các CSDL nổi tiếng: agris, medline Agris: Là CSDL của hệ thống thông tin nông nghiệp quốc tế, do FAO xây dựng từ 1975 Bao quát... công nghệ thực phẩm Số biểu ghi: trên 3 triệu, mức tăng trưởng 100.000 biểu ghi/năm (ở Trung tâm TT Bộ NN&PTNT hiện co 1,5 triệu biểu ghi) Medline (Medical on line): Là CSDL thư mục do Thư viện Y học Quốc gia Hoa Kỳ xây dựng từ năm 1966 Xuất bản dưới dạng CD-ROM Dữ liệu trong Medline được biên tập từ khoảng 34 00 tạp chí y học của 70 quốc gia Hiện nay ở TV Đại học Y Hà Nội có 10 CD Medline với khoảng10... nói chung mang tính chất chuyên ngành Có khả năng mô tả thông tin đầy đủ và linh hoạt với một số lượng từ vựng không nhiều quan hệ ngữ nghĩa từ điển từ chuẩn Giữa các từ chuẩn có quan hệ ngữ nghĩa với nhau, có: Quan hệ tương đương Quan hệ cấp bậc Quan hệ lân cận Các quan hệ này giúp ta sử dụng chính xác các từ chuẩn khi diễn đạt thông tin Các quan hệ này được mô tả bởi các mã quan hệ TG (Terme . tãm t¾t. 3. Các sản phẩm thông tin 3. Các sản phẩm thông tin Sản phẩm thông tin là gì? Sản phẩm thông tin là kết quả của quá trình xử lý thông tin nhằm. gi¶ng th«ng tin häc bµi gi¶ng th«ng tin häc ch¬ng 3 ch¬ng 3 xö lý th«ng tin & c¸c s¶n phÈm xö lý th«ng tin & c¸c s¶n phÈm th«ng tin th«ng tin PGS.TS.