5. ỉ.3 Các hình thức mục ỉục thủ công
7.3.4. Giai đoạn 4: Phân tích các kết quả
Kết q u ả các th ử nghiệm bao g ồ m hai loại dừ liệu: 1) C ác dừ liệu về chất lư ợ ng hoạt động của hệ thống tìm tin và 2) Các d ữ liệu về n h ừ n g thất bại khi tìm tin.
Sau khi thực hiện các thừ nghiệm với hệ thống, m ộ l trong nhừng công việc đầu liên phải thực hiện là làm rõ và tổng hợp các kết quả về mức độ tìm tin đầy đù và chính xác. C ó hai cách lính hệ số đầy đủ và chính xác trung bình cho m ột ỉoạt các yêu cầu tin thử nghiệm. Cách thứ nhất là cộng kết quả (hệ số đầy đ ủ và chính xác) của tất cà các cuộc tìm riêng lẻ, sau đó chia cho tổng số các cuộc tìm để có hệ số đầy đ ủ và hệ số chính xác trung bình. Cách th ứ hai là tính tổng số tài liệu tìm được trong tất cả các cuộc tìm để có giá trị trung bình của hệ số đầy đủ và chính xác. Ví dụ, nếu tồng số tài liệu tìm được trong 100 cuộc tìm thử nghiệm là 1000 tài liệu, trong đ ó c ó 800 tài liệu được xem lĩi thích hợp thì hệ số chính xác trưng bình sẽ là 80%. Mồi cách tính đều có ưu điểm và hạn chế, nhimg nếu các d ừ liệu thử nghiệm tương đối đồng nhất thì kết quả thu được trong cả hai trường hợp sẽ không có sự khác biệt lớn. Điều quan trọng là cách tính được sử dụng trong suốt q u á trình thực hiện chương trình thử nghiệm phải cố định. T ự thân c ác hệ sổ đ ầ y đ ủ và chính xác ít có giá trị. K hô n g the sử đụng c h ú n g để so sánh đặc trưng của các hệ thống khác nhau về đặc điểm c ủ a tài liệu và yêu cầu tin, về các yêu cầu c ủ a người sử dụng đối với m ức độ tìm tin đầy đủ và chính xác, về thời gian lìm tin và m ức độ tham gia của người sử dụng vào q u á trình tìm tin.
Sau khi tính các hệ số đầy đủ và chính xác, bước tiếp theo là phân tích các nguyên nhân mất tin và độ ồn (nhiều tin) khi tìm tin. Phân tích các thất bại ỉchi tìm tin là một khía cạnh gây tranh cãi nhiều nhất cùa chương trình đánh giá. Đối với mồi trường hợp thất bại, cẩn nghiên cứu các yếu tố sau:
- Toàn văn tài liệu; - M ầu lìm của tài liệu;
- Yêu cầu tin;
- Biểu thức tìm được thực hiện;
- Đánh giá của người sử dụng, đặc biệt là nhửng lời giải Ihích vì sao tài liệu được xem là k h ô n g thích hợp (khi nghiên cứu độ ồn).
Các nguyên nhân chính của mồi. thất bại được nghiên cứu sè được xác định dựa trên cơ sở phân tích các nguyên nhân ihất bại được iiệl kê. Phần lơn nguyên nhân thất bại c ó liên quan đến qui trình đánh chi số và tìm tin, ngôn ngừ đ á n h chỉ số, quá trình tìm tin, quá trình xử lý trên m áy tính hoặc sự tư ơ n g tác giữa người sử dụng và hệ thống.
- Thất bại khi tìm tin do chất lượng của n s ô n n g ữ tìm tin chưa cao: chât lượng c ủ a ngôn ngừ lìm tin được sừ d ụ n g đê đánh chì số (sau đây sẽ cọi là ngôn ngữ đánh chí số) là yếu tố có tác động quan trọng nhất đến hiệu quá c ủ a hệ thống tìm tin. Chiến lược tìm tin kém và chất lượng đánh chỉ số thấp có thể làm giám hiệu quả của hệ thống tìm tin, nhưng kỳ thuật đánh chi số và tìm tin lốt không Ihể bù đắp cho các nhược điểm c ù a ngôn ngữ đánh chi số. Nói cách khác, những người thực hiện c ô n g việc đánh chỉ số và tìm tin chi có thể đạt được kết quà ở một m ứ c đ ộ tương thích với các khả năng của ngôn ngữ đánh chi số. Hai hạn chế chủ yếu của ngôn ngừ đánh chi số dẫn đến các thấl bại khi tìm tin bao gồm: 1) Các thuật ngừ cùa ngôn ngừ đánh chí sổ chưa đủ đặc trưng, và 2) Mối quan hệ giữa các thuật ngừ k h ô n g rõ ràng và chính xác. M ức độ đặc trưng thấp của ngôn ngừ đánh chỉ số c ó thể dẫn đến hiện tư ợng mất lin hoặc nhiễu tin (độ ồn) khi tìm lin. S ự không rõ ràng và chính xác của các mối quan hệ giữa các thuật ngừ c ó thể dẫn đến
nhiễu tin khi lìm tin. Mất tin do m ức đ ộ đặc trưng của ngôn ngữ đánh chi số thấp c ó nghĩa là chủ đề cần tìm hoặc một số khía cạnh cùa nó không được phàn ánh irong từ v ự n g đầu vào của hệ thống.
- Thất bại khi tìm lin do hạn c h ế c ủ a quá trình đánh chỉ số: Có thể chia nguyên nhân cùa các thất bại này thành hai loại chính
là 1) D o lỗi của người đánh chỉ số và 2) D o quyết định về số lượng trung bình các thuật ngừ được dùng để m ô tả tài liệu khi đánh chỉ số (mức độ đánh chi sổ đầy đủ).
Nguyên nhân lồi của người đánh chi số cỏ ihề chia thành: i) Bó sót ihuật ngừ hoặc các thuật ngừ cần thiết để mô tả các chủ đề quan trọng được đề cập trong tài liệu và 2) Sừ dụng các thuật ngữ không thích hợp với nội dung của tài liệu. Việc bò sót các thuật ngừ thường dẫn đến irường hợp mất tin, trong khi việc sử dụng các thuật ngữ không thích hợp (nghĩa là đánh chi số không chính xác) có thể dẫn đển các tiu ờ n g hợp mất tin c ũ n g như nhiều tin.
Giữa các trường hợp mấi tin do lồi của người đánh chỉ số và do việc đánh chi số không đầy đ ú có sự khác biệt như sau:
1. Người đánh chỉ số bò sót thuật ngừ: chủ đề chính được đề cập trong tài liệu hoàn toàn k h ô n g được phán ánh khi đánh chí sổ.
2. M ức độ đ ầ y đ ủ của việc đánh chỉ số không cao: các khía cạnh không quan trọng cùa nội dung tài liệu không được thề hiện khi đánh chí số.
Các lồi bò sót Ihuật ngừ c ó thể phát hiện được khi thực hiện chương trình đánh giá nhưng rất khó phát hiện trong chế độ hoạt động bình Ihường c ù a hệ thống.
- Thất bại k h i tìm tin do hạn chế của quá trình tìm lin: Có :hể chia các nguyên nhân dẫn đến các thất bại n à y thành ba loại chính là 1) Sử dụng các thuật ngừ không thích h ợ p hoặc chiến lược lỉm sai, 2) D o các mức độ đặc trưng và/hoặc đầy đủ được s ử d ụ n g tronơ chiến lược tìm và 3) Bỏ sót m ột thuật ngữ hoặc sự kết hợp các Ihuật n gừ hoặc bỏ sót một khía cạnh của yêu cầu tin khi xây d ự n g biểu thức tìm. Việc bỏ sót các thuật ngừ cần thiết trons biểu thứb lim dẫn đến mất tin trong khi sử dụng các thuật n g ữ không thích họp dẫn đến nhiều tin. Nhiều trường hợp mất tin và nhiều lin hên quan đến mức độ đầy đủ và/hoặc đặc trưng của biểu thức tìm tin. Thay đổi mức độ đầy đủ và đặc trưng là yếu tố c ơ bản của chiến lược tìm tin. Biểu thức tìm tin càng không đầy đủ và cụ thể thì lài liệu tim được có thể sẽ càng nhiều, các hệ số tìm tin c ó thể thay đổi theo hướng hệ sổ đầy đù tăng và hệ số chính xác giảm. Biểu thức tìm tin đầy đủ là biểu thức thế hiện tất cả các khái niệm được người sử dụng yêu cầu ở một mức đ ộ nào đó (mặc dù không nhất thiếi ở inức độ cụ thể như yêu cầu tin xác định).
T ương tự, các biểu thức tìm tin chi tiết sẽ dẫn đến mất tin, còn các biểu thức tìm tin không chi tiết dẫn đến sự nhiều lin.
- Thất bại khi tìm tin do hạn chế trong sự tương tác giừa người sử dụng và hệ thống: Sự tương tác giữa người sử dụng và hệ thống nếu không được tổ chức tốt thì có thể trờ thành nguyên nhân của hiện tượng mất lin và nhiễu tin, đặc biệt trong các hệ thống rất lớn. Kết quả đánh giá hệ thống M E D L A R S cho thấy 25 % tiu ờ n g hợp mất tin và 17% nhiều tin là do nguyên nhân này. M ất tin d o sự tương tác không hợp lý giừa người s ử dụng và hệ thống c ó nghĩa là yêu cầu tin được xác định quá đặc trưng so với lĩnh vực người sử dụng quan tâm. Nhiễu tin do sự tương tác không hợp lý c ó nghĩa là
yêu cầu tin được xác định quá tống quát so với các nhu cầu tin thực tế dẫn đến kết quà tìm là các lài liệu không có giá trị đối với người sử đụng.
7.3.5. G iai đ o ạ n 5: T ổng h ọp các k ết quả th ử nghiệm và xác định các biện pháp hoàn th iện hệ thống
M ục đích c ủ a chương trình đánh giá hiệu quả của hệ thống tìm tin là tìm ra các giải pháp để nâng cao hiệu quả hoạt động của hệ thống. Vì vậy, nhiệm vụ chính của giai đoạn này là dựa trên kết quả đánh giá để xác đinh nhừiig hạn chễ quan trọng của nệ thống và đưa ra các biện pháp hoàn thiện hệ thống. Đ e nâng cao hiệu quả hoạt động của hệ thống tìm tin, có thể áp dụng các biện oháp liên quan đến các yếu tố khác nhau như ngôn ngừ tìm tin được sừ dụng để đánh chì số, qui trình đánh chỉ số, chiến lược tìm tin, sự tương lác giừa người sử dụng và hệ thống... Các biện pháp hoàn thiện hệ thống phải được xác định dựa trên điều kiện thực tế và khá năng cùa hệ thống để bảo đ ả m tính khả thi của các biện pháp.
TÀI LIỆU THAM KHẢO%
I. Tài liệu tiếng Việt
1. C ao Minh Kiểm, Siêu dữ liệu - khái niệm và phân loại.- Tạp chí T h ô n g tin tư liệu, No 3, 2003.- tr.1-8
2. Đoàn Phan Tán. Thông tin học.-H., 2006.- 385tr.
3. Đoàn Phan Tân. Tin học trong hoạt động thông tin-thư viện.- H .,2 0 0 1 .- 2 9 7 tr .
4. Iwê Văn Viết, c ẳ m nang nghề thư việiỊ.-H,: Văn hóa T h ò n g tin, 2001.-630tr.
5. Nguyễn Hừu Hùng. Thông tin: T ừ lý luận đến thực tiễn.- H.; Vãn hóa thông tin. 2005.- 834 tr.
6. Phan H uy Quế. M ô là nội dung tài liệu bầng từ khóa; tài liệu hướng dẫn,- H., 2001.
7. Tạ Thị Thịnh. Phán loại tài liệu.- H., 1998.- 221 tr.
8. T C V N 5453-1991: Hoạt động thông tin và tư liệu - Thuật ngữ và khái niệm c ơ bản,- H., 1991.
9. Trần Mạnh Tuấn. Sản phẩm và dịch vụ thông lin, Ihư viện.- H., 1998.- 324 tr.
10. Trần Thị Bích Hồng, C ao Minh Kiểm. Tra cửu thông tin trong hoạt động thư viện thông tin.- H., 2004.- 311 tr.
I ỉ. Bộ từ khóa/Thư viện Quốc gia Việt Nam." H., 2005.
II. Tài liệu nước ngoài
13. ChoNvdhury G. Introduction to m o d e m iníormation retrieval.- London: Facet Publishing, 2004,- 474p.
14. Cleveriand D. Introdưction to Indexing and Abstracting.- 3 rd edition.- Engỉewood: Libraries ư n lim ite d , Inc., 2001.- 283p. ]5, Giliarevski R .s . Sovremennaia intormatika: nauka, texnologia,
deiatelnosch.- Malskva, 1997.- 212 tr (Tiếng Nga).
16. Gates J,K. Guide to the use o f libranes and Ìnf0rmati0ii sources." 7''’ ed. New York, McGraw-Hill, Inc.. 1994.- 304p. 17. Harvey D.R. Organising Knovvledge in a global society;
principles and praclice in libraries and iníormation centres.- NevvSouth Wales: Charles Sturt Univ., 1999.- 375p.
18. Kochlanek T. Library Information Systems; From Library Automation to Disiributed InĩoiTnation Access Solutions,- Westpoi1: Libraries Unlimiled, 2002.- 287p.
19. Kowaỉski G. Iníormaiion Retrielval Systems: Theory and Implementation.- Boston: Kluwcr Academic Publisher, 1997.- 280p.
20. Lancaster F .w . Inĩormation Retricval Systems: charactcristics, tesling and evaluaúon.- 2"^ ed.- NewYork: John Wiley, 1979. 21. Libraries in the Age o f Aulomation: A Reader for the
Protcssionai Librarian.- NevvYork: Knowlcdge Industry Publicalions, Inc., 1986.- 159p.
22. M cadow Charles T. The analysis o f Infoĩmalion Systems.- 2"^^ ecl.-LosAnaelcs: John Wiley, 1973.
23. M eadow Charles T. Text Iníromation Systems.- New York: Academic Press, Inc.. 1992,- 302p.
24. Mikhailov A.I. O snovư i n í o i T n a t i k i . ' M.: Nauka, 1969.- 306 tr (Tiếng Nga).
25. Olson H.A. Subject Analy&is in Online Catalogs.- 2 n d cd.- Englewood; Libraries Unlimited, 2001.-333p.
26. Online Dictionary o f Library and Information Science - ODILIS: http://lu.com/odilis
27. Taylor A.G. The organization o f iníormation.- 2"“^ ec.- Westport: Libraries ư nlim ited, 2004.- 417p.
28. Taylor A.G. W y n ar’s Introduction to Cataloging and Classification.- Revised Ninth Ed. .-Westport; Libraries Unlimited, 2004.- 563p.
29. Rovvley J.E. Organizing Knowledge,- ed. England: Ashgate, 1 9 9 2 .-509p.
Ih
30. Saffady w. Introduclion to Automation for Librarians.- 4 ecl..- Chicago: American Library Association, 1999.- 339p.
31. Vickery B .c . Iníormation Science in Theory and Practice.- London; Butterwoiths, 1 9 8 7 ,- 385p.
32. W eb O PA C Interfaces: an overview /B.Ramesh Babu and Ann 0 ’Brienl.- The Electronic Library, Vol.18, No5, 2000.- p.316- 327.
33. Zakharov v . p . Informacionưe sistemư (dokumentalnưi poisk).- Saint Peterburg, 2002.- lííótr (Tiếng Nga).
MỤC LỤC L Ờ I N Ó I Đ Ầ U ...3 C h ư ơ n g 1. T Ố N G Q U A N V È H Ệ T H Ó N G T Ì M T I N ... 7 1.1. T ÌM T I N ... 7 1.1.1. Khái niệm tìm t i n ... 7 1.1.2 . Q u á t n n ! i l ì m LÌn...9 1. Ì .3. Các dạng tìm t i n ... l i 1.2. H Ệ T H Ó N G T Ì M T I N ...12 1.2.ỉ. M ộ t số khái n i ệ m ... 12 1.2.2. M ục đích của hệ thống tìm tin ... 17
1.2.3. Chức năng của hệ thống tìm tin và yêu cầu đối với hệ thống tìm tin... 17
1.2.4. T hành phần của hệ thống lìm t i n ... 20
1.2.5. Các loại hệ thống tìm t i n ... 22
Chuoììg 2. HỆ THỐNG CÔNG c ụ x ử LÝ NGỪ N G H ĨA T R O N G C ÁC HỆ T H Ó N G T Ì M T I N ... 27
2.1. KHÁI NIỆM HỆ THỐNG CÔNG c ự x ử LÝ N G Ừ N G H Ĩ A ... 27
2.2. N G Ô N N G Ừ T ÌM T I N ... 28
2.2. l . Khái niệm ngôn ngữ tìm t i n ... 28
2.2.3. Ngôn ngừ phân lo ạ i... 31
2.2.4. Ngôn ngữ tìm tin từ k h ó a ...42
2.2.5. Ngôn ngữ tìm tin đề mục chủ đề ( Đ M C Đ ) ...50
2.3. C Á C QUI T Ẳ C VÀ KHÔ M Ã U M Ô TÀ T H Ư M Ụ C ... 53
2.3.1. Qui tắc mô tà thư mục quốc tế I S B D ... 53
2.3.2. Qui tẳc biên mục Anh - M ỹ ... 55
2.3.3. Khổ mẫu M A R C ... 56
2.4. N G Ô N NGỦ' M ổ T Ả TÀI LIỆU Đ IỆ N T Ử ... 57
.57 .59 .5 9 .6 0 .60 .63 .6 4 .67 2.4.1. Ngôn n e ừ S G M L ... 2.4.2. Ngôn ngữ H T M L ... 2.4.3. Ngôn ngữ X M L ... 2.5. SIÊU D ũ ' LIỆU (M E T A D A T A )... 2.5.1. Khái n i ệ m ...
2.5.2. Sơ đồ siêu dừ liệ u ...
2.5.3. Các loại siêu dữ liệ u ...
2.5.4. Một số sơ đồ siêu d ữ liệu phổ b i ế n ...
C h ư ơ n g 3. T Ò C H Ứ C T H Ô N G T I N T R O N G HỆ THỐNG TÌM T IN ...73
3.1. M A T R Ậ N T À I LIỆƯ/THƯẬT N G Ữ ... 75
3.2. T Ố C H Ứ C T H Ô N G TIN T H E O s ơ Đ Ò TƯ Y É N T Í N H ...77
3.3. TỒ CHỬC THÔNG TIN THEO s ơ Đ ồ ĐẢO... 80
C h u ơ n g 4. i H I É T K É H Ệ T U Ố N G T Ì M T I N ...91
4.1. T Ồ N G Q U A N VÈ THIÉT K É H Ệ T H Ố N G TÌM T I N ... 91
4.2. Q U Y T R Ì N H T H IÉ T KÉ HỆ T H Ố N G TÌM T I N ...94
4.2.1. Giai đoạn 1: Xác định các mục tiêu và yêu cầu đối với hệ th ố n g ...94
4.2.2. Giai đoan 2: Thiết kế cấu trúc tồng quát của hệ thống và mô hình mầu (p ro to ty p e )... 101
4.2.3. Giai đoạn 3: Vận hành và đánh giá mô hình m ẫ u ... 103
4.2.4. Giai đoạn 4: Hoàn chỉnh thiết kế hệ thống và vận hành hệ thống trên c ơ sở các kết quả thử n g h i ệ m ... 105
4.2.5. Giai đoạn 5: Kiểm tra, đánh giá hệ t h ố n g ... 106
Chuolig 5. HỆ THỐNG TÌM TIN THỦ C Ô N G ...107
5.1. HỆ T H Ố N G M Ụ C L Ụ C ... 107
5.1.1. Khái n iệ m ...Ỉ07 5.1.2. Chức năng của mục lục... 108
5 . ỉ . 3. C ác hình thức mục ỉục thủ c ô n g ... 109
5.1.4. Tiêu c h í đánh giá chất lượng mục lụ c ... 110
5.1.5. C ác thành phần của hệ thống mục l ụ c ... 1 11 5.1.6. Hệ thống mục lục chừ cái ... 112
5.1.7. Hệ thống mục lục phân lo ạ i... ] 20
5.1.8. Mục lục chủ đ ề ... 124
5.2.1. Bộ phiếu tra cứu c h í n h ... 126
5.2.2. Các bộ phiếu chuyên đ ề ... 127
5.2.3. Các bộ phiếu theo loại hình tài liệu... 127
5.3. C Á C B ộ PHỈẾƯ D ử K I Ệ N ... 127 5.3.1. B ộ phiếu các sản phẩm , thiết b ị ... 128 5.3.2. Bộ phiếu dữ kiện về vật l i ệ u ... ... 128 5.3.3. Bộ phiếu các qu y trình c ô n g nghệ và sáng k i ế n ... 128 Chương 6. HỆ THÓNG TÌM TIN TỤ ĐỘNG H Ó A ... 129 6.1. K H Á I Q U Á T VÈ H Ệ T H Ố N G T Ì M TIN T ự Đ Ộ N G H Ó A ...129 6.1.1. Khái n i ệ m ... 129
6.1.2. Phân loại hệ thống tìm tin tự động h ó a ... 132