Mô tả nội dung tài liệu

Một phần của tài liệu đề cương chi tiết tập bài giảng thông tin học đại cương (Trang 80)

- Hệ thống dấu kí hiệu

1.2.Mô tả nội dung tài liệu

Khái niệm chung về mô tả nội dung

Là một tập hợp các công đoạn, ở đó người ta mô tả nội dung tài liệu cùng với những sản phẩm cua chúng, đó là phân loại, đánh chỉ số, tóm tắt và phân tích tài liệu.

Mục đích của mô tả nội dung tài liệu là:

- Nắm bắt được nội dung tài liệu để thông báo cho NDT

- Tiến hành khi cần thiết việc lựa chọn để duy trì hay loại bỏ tài liệu, xác định cách thức và mức độ xử lý tài liệu.

- Giúp cho việc sắp xếp, lưu trữ thông tin và tìm kiếm tài liệu

Mô tả nội dung có thể được thực hiện ở mức độ khác nhau, theo mức độ sâu sắc tăng dần.

+ Phân loại là gán cho tài liệu một chỉ số của khung phân loại

+ Đánh chỉ số là gán cho tài liệu một số từ chuẩn để nêu lên, chủ đề của tài liệu.

+ Tóm tắt là cô đọng tài liệu bằng một bài viết ngắn

Ngôn ngữ tự nhiên và ngôn ngữ tư liệu

Ngôn ngữ là một hệ thống tín hiệu có bản chất bất kỳ, thực hiện chức năng nhận thức và giao tiếp trong quá trình hoạt động của con người. Ngôn ngữ có thể là ngôn ngữ tự nhiên và ngôn ngữ nhân tạo.

- Ngôn ngữ tự nhiên hay còn gọi là ngôn ngữ nói là ngôn ngữ có những nét đặc trưng riêng như là: ngôn ngữ tự nhiên có rất nhiều và ứng với mỗi loại là một thứ tiếng khác nhau; có nhiều từ đồng âm khác nghĩa đồng nghĩa khác âm; có nhiều loại từ mà chúng có giá trị thông tin khác nhau, phải dùng các qui tắc ngữ pháp để kết hợp các từ với nhau nhằm diễn tả một sự việc hiện tượng. Chính vì những đặc điểm trên mà người ta không thể dùng ngôn ngữ tự nhiên trong việc xử lý thông tin mà người ta phải xây dựng ngôn ngữ tư liệu.

- Ngôn ngữ tư liệu là ngôn ngữ nhân tạo chuyên dụng, dùng để diễn đạt một nội dung, ý nghĩa cơ bản của một tài liệu, phục vụ cho việc lưu trữ và tìm kiếm thông tin

Để khắc phục những nhược điểm của ngôn ngữ tự nhiên, việc xây dựng Ngôn ngữ tư liệu phải thoả mãn ba yêu cầu sau:

+ Quan hệ ngữa nghĩa một -một: nghĩa là một thuật ngữ diễn tả một sự vật + Quan hệ cú pháp là nhất quán: Chỉ có một cách biểu đạt

Ngôn ngữ tư liệu có nhiều loại khác nhau, tuy nhiên căn cứ vào cấu trúc thì NNTL được chia thành 2 chính loại sau:

+ Ngôn ngữ kết hợp trước: là những ngôn ngữ có cấu trúc cấp bậc một cách hệ thống như: các hệ thống khung phân loại theo chủ đề, các khung đề mục...

+ Ngôn ngữ kết hợp sau: là những ngôn ngữ có cấu trúc tổ hợp như các từ điển từ chuẩn, danh mục các từ khoá,...

Các hệ thống phân loại

Phân loại: Phân loại tài liệu là một công đoạn mô tả nội dung tài liệu, qua đó người ta xác định được nội dung chính của tài liệu và thể hiện nó bằng một thuật ngữ của KPL. Hay nói cách khác là gán cho tài liệu một chỉ số của KPL. Công đoạn này được thực hiện ở giữa dây truyền TTTL, trước khi đưa tài liệu vào lưu trữ tìm kiếm.

- Mục đích của việc phân loại tài liệu là:

+ Sắp xếp các thông tin thành một lớp tương đối hẹp, mỗi lớp có thể tương ứng với một lĩnh vực quan tâm đặc biệt của một nhóm NDT

+ Giúp cho việc tổ chức các bộ phiếu hệ thống và sắp xếp các tài liệu trên giấtọ điều kiện thuận lợi cho việc sử dụng vốn tài liệu.

- Lợi ích của việc phân loại tài liệu là: tạo điều kiện cho việc sử dụng vốn tài liệu và đáp ứng được NCT của các nhóm NDT

- Phân loại tài liệu được tiến hành theo các bước sau:

+ Xác định chủ đề của tài liệu

+ Xác định lớp của các chủ đề chính + Tìm chỉ số tương ứng với lớp đã chọn

+ Xây dựng một mã số làm kí hiễuếp giá cho tài liệu + Dán kí hiệu xếp giá lên tài liệu

+ Biểu thị chỉ số phân loại trên bản chỉ dẫn thư mục của tài liệu hay trên 1 bản kê.

Các hệ thống phân loại (Khung phân loại) được xây dựng dựa trên quan hệ cấp bậc giữa các thuật ngữ. Do cấu trúc cấp bậc nên trong khung phân loại người ta gán cho mỗi thuật ngữ một chỉ số.

Hình 11: Cấu trúc cây của khung phân loại

Các loại bảng phân loại thường dùng: + Hệ thống phân loại Dewey (DDC)

+ Hệ thống phân loại thập phân Bách Khoa (UDC) + Phân loại của thư viện Quốc hội Mỹ (LC)

+ Phân loại hai chấm (CC) +....

Từ điển từ chuẩn

+ Định nghĩa: Từ điển từ chuẩn là một ngôn ngữ tư liệu có cấu trúc tổ hợp. Đó là một tập hợp các thuật ngữ có quan hệ ngữ nghĩa với nhau và được áp dụng cho một lĩnh vực riêng của tri thức. Đó là loại ngôn ngữ đánh chỉ số.

+ Đặc trưng

Từ điển từ chuẩn xây dựng trên nguyên tắc tổ hợp.

Được ghi vào danh mục các từ chuần có cấu trúc linh hoạt.

Mang tính chất chuyên ngành, nó áp dụng cho một lĩnh vực riêng.

11.2 1.3 1.2 1.3 1.1 1.2.3 1.2.2 1.1.3 1.1.1 1.1.2 1.2.1 1.3.1 1.3.2 1.3.3

Ưu điểm linh hoạt và khả năng mô tả thông tin đầy đủ và linh hoạt, số lượng tương đối nhỏ với các đơn vị từ vựng.

+ Các quan hệ ngữ nghĩa

Các yếu tố của từ điển từ chuẩn bao gồm: Cấu trúc từ chuẩn

Các từ kiểm tra (không phải từ chuẩn) Các từ rỗng

Giữa các từ chuẩn có quan hệ ngữ nghĩa với nhau Quan hệ tương đương

Quan hệ cấp bậc Quan hệ lân cận

+ Trình bày từ điển từ chuẩn

Các bảng tra từ vựng của từ chuẩn: các danh mục hệ thống, danh mục theo cấp bậc, theo vần chữ cái

Các biểu diễn đồ thị: bằng sơ đồ, mũi tên, hình cây hay sơ đồ đồng tâm

+ Các quy tắc cú pháp

- Quan hệ tương giao, dùng phép hội, còn gọi là phép toán VA. Nó cho phép nối hai từ chuẩn có trong bản chỉ mục của cùng một tài liệu.

Ví dụ: Phép VA : "Tự động hoá và thư viện" hay “C và B" ( C and B)

- Quan hệ kết hợp, dùng phép tuyển, còn gọi là phép toán HOẶC. Nó cho phép nối hai từ chuẩn mà ít nhất một trong hai từ đó cổtng bản chỉ mục của tài liệu. Ví dụ: Phép hoặc " Thư viện hoặc trung tâm thông tin" hay “A hoặc B" (A or B)

- Quan hệ loại trừ, dùng phép phủ định, còn gọi là phép toán Không. Nó cho phép nối hai từ chuẩn mà từ thứ nhất có trong bản chỉ mục của tài liệu còn từ thứ hai thì không.

Ví dụ: Phép trừ " Thư viện trừ thư viện trường học" hay " A trừ D" (A Not D)

+ Phương pháp xác định quan hệ ngữ nghĩa giữa các từ chuẩn: quan hệ thứ bậc

Ví dụ: Từ điển liên quan đến chủ đề " Cây lương thực"

Cây lương thực

Cây lúa

A

D

Lúa nước Lúa nương Hoa Mầu Cây ngô Cây khoai Cây sắn

+ Biên soạn một từ điển từ chuẩn

Biên soạn từ điển từ chuẩn là một công việc nghiêm túc, đòi hỏi nhiều thời gian và công sức.

Để biên soạn từ điển từ chuẩn cần phải thực hiện các bước sau: Lập danh mục các từ để lựa chọn làm từ chuẩn.

Lựa chọn các từ chuẩn

Xây dựng cấu trúc cho bản danh mục các từ chuẩn Tiến hành các bước kiểm tra

Tổ chức xuất bản từ điển từ chuẩn

Theo dõi việc sử dụng và tiến hành bổ sung, sửa đổi, hoàn thiện từ điển từ chuẩn trong trường hợp cần thiết.

Đánh chỉ số

Là một dạng mô tả nội dung tài liệu mà ở đó người ta chọn ra những thuật ngữ thích hợp nhất để trình bày nội dung và những khái niệm mà tài liệu đề cập tới. Hay nói cách khác là gán cho tài liệu một số từ chuẩn để nêu lên nội dung, chủ đề của tài liệu.

- Nội dung của tài liệu được thể hiện bằng một tập hợp các từ vựng của NNTL mà hệ thống đó sử dụng như Từ điển từ chuẩn, danh mục các từ khoá. Các thuật ngữ chọn ra được sắp xếp thành một dẫy các chỉ dẫn giúp cho việc tìm tin. Đánh chỉ số là một việc trung tâm của mọi IS, nó cho phép ta có thể lưu trữ và tìm kiếm thông tin. Công đoạn này được thực hiện ở giữa dây chuyền TTTL.

- Sản phẩm của đánh chỉ số là một bản chỉ mục (index), đó là một danh mục các thuật ngữ có ý nghĩa. Các chỉ mục này được sử dụng cho việc tìm tin và lựa chọn ra các thông tin để trả lời yêu cầu của NDT.

- Việc đánh chỉ số có thể tiến hành ở nhiều mức độ khác nhau, có mức độ trung bình, có mức độ sâu sắc. Việc đánh chỉ số đôi khi cũng có tính chọn lọc, tức là nó chỉ giữ lại những nội dung của tài liệu mà NDT quan tâm.

- Việc Đánh chỉ số tài liệu được tiến hành theo các bước sau:

+ Làm quen với tài liệu để có những hiểu biết tổng quát về tài liệu + Xác định nội dung chính của tài liệu, phát hiện ra những khái niệm mà tài liệu đề cập tới

+ Rút ra những khái niệm thể hiện bằng NNTN. Các khái niệm rút ra phải có tính chọn lọc, thể hiện được những đặc trưng chủ yếu của nội dung tài liệu.

+ Thể hiện các khái niệm rút ra bằng NNTL

+ Kiểm tra tính tương thích của các từ chuẩn đã chọn ra.

+ Hình thành bản chỉ mục theo qui tắc trình bày đã qui định, bản chỉ mục này thường bao gồm từ 10-15 từ chuẩn.

- Chất lượng của việc đánh chỉ số được đánh giá theo những tiêu chuẩn sau:

+ Tính đầy đủ: tác là mọi chủ đề nội dung, mọi khái niệm tài liệu đề cập tới đều được trình bày trong bản chỉ mục

+ Tính chọn lọc: tức là chỉ giữ lại những thông tin mà NDT quan tâm + Tính đặc trưng: tức là từ chuẩn thể hiện sát nhất nội dung tài liệu + Tính đồng nhất: Đánh chỉ số theo một cách

Là một công đoạn của mô tả nội dung tài liệu, ở đó tài liệu được cô đọng bằng một bài viết ngắn. sản phẩm của tóm tắt là một bài tóm tắt, thể hiện bằng ngôn ngữ tự nhiên.

- Các bài tóm tắt được sử dụng nhằm: Phân phối thông tin; chọn lọc thông tin do NDT thực hiện; tìm kiếm thông tin, nhất là trong các HTTTTĐH.

- Có các loại bài tóm tắt sau:

Tóm tắt sơ lược: Đó là một tóm tắt chỉ dẫn, trình bày ngắn gọn nội dung tài liệu. Nó đề cập tới tất cả các chủ đề có trong tài liệu. Bản tóm tắt này bao gồm khoảng từ 10-50 từ.

Tóm tắt thông báo: Bản tóm tắt này đề cập tới tất cả các chủ đề có trong tài liệu và các quan điểm khác nhau về sự phát triển của tài liệu. Bản tóm tắt này bao gồm khoảng từ 50-200 từ.

Tóm tắt phân tích: Bản tóm tắt này phân tích sâu sắc hơn, ngoài nội dung nó còn có những nhận xét, phân tích, đánh giá. Người ta gọi đó là tóm tắt mang tính chất thông tin. Bản tóm tắt này bao gồm khoảng từ 100-500 từ.

Tóm tắt chọn lọc: ở bản tóm tắt này người ta chỉ trích ra những chủ đề liên quan tới diện đề tài của lĩnh vực chuyên môn mà NDT quan tâm. Đó là tóm tắt của các cơ quan thông tin chuyên ngành.

Tóm tắt phê phán: Trong đó có phân bình luận, phê phán của người phân tích

Bản thu gọn: Đó là một tóm tắt dài, nó trình bày nội dung tài liệu một cách cô đọng và thường dài bằng 10-20% tài liệu.

Trích dẫn: Trích ra dưới dạng tài liệu gốc những phần của tài liệu mà NDT quan tâm

Tóm tắt của tác giả: Do tác giả thực hiện để giới thiệu tài liệu khi xuất bản.

+ Nội dung chủ đề của tài liệu

+ Bản chất của tài liệu (lý thuyết hay thực nghiệm) + Các phương pháp sử dụng

+ Các kết quả thu được

+ kết luận và những triển vọng mà tác giả đưa ra + Thời gian, địa điểm, bối cảnh của sự việc

+ Đánh giá mức độ giá trị của tài liệu trong trường hợp tóm tắt phê phán.

Nội dung của tóm tắt phải được thể hiện sao cho NDT có thể hiểu được nội dung chủ yếu của tài liệu, và trong nhiều trường hợp bản tóm tắt phải thay thế tài liệu gốc thoả mãn đươck thông tin ban đầu.

- Phương pháp làm tóm tắt:

+ Việc rút ra các thuật ngữ đặc trưng của tài liệu phải được tiến hành một cách có thứ tự

+ Các thuật ngữ rút ra không được trích ra dưới dạng riêng lẻ cô lập mà phải được trích ra theo các nhóm hoặc dưới dạng các câu của tài liệu gốc.

+ Ngôn ngữ của tóm tắt nên theo ngôn ngữ của tác giả tài liệu gốc và tránh dùng các từ viết tắt hoặc các ký hiệu không có trong ngôn ngữ hàng ngày.

- Chất lượng của bài tóm tắt thể hiện ở các mặt sau:

+ Bài tóm tắt phải gọn gàng, chính xác, tránh dùng các mệnh đề và các câu có thể thay thế bằng các từ.

+ Tính đầy đủ, tức là bài tóm tắt phải thể hiện đầy đủ và dễ hiểu nội dung tài liệu.

+ Tính khách quan: nội dung tài liệu phải được mô tả khách quan, phải loại trừ mọi đánh giá, bình luận mang tính chủ quan của người làm tóm tắt. Trong trường hợp làm tóm tắt phê phán, tính khách quan cũng phải được thể hiện rõ ràng.

Một phần của tài liệu đề cương chi tiết tập bài giảng thông tin học đại cương (Trang 80)