Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 111 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
111
Dung lượng
1,27 MB
Nội dung
1 LỜI NÓI ðẦU Giáo trình “Hệ thống tìm tin” ñược biên sọan nhằm cung cấp những kiến thức cơ bản về hệ thống tìm tin cho sinh viên chuyên ngành thông tin-thư viện. Nội dung giáo trình bao gồm 7 chương như sau: Chương 1: Tổng quan về hệ thống tìm tin. Chương 2: Hệ thống công cụ xử lý ngữ nghĩa trong các hệ thống tìm tin. Chương 3: Tổ chức thông tin trong hệ thống tìm tin Chương 4: Thiết kế hệ thống tìm tin Chương 5: Hệ thống tìm tin thủ công Chương 6: Hệ thống tìm tin tự ñộng hóa Chương 7: ðánh giá hiệu quả hoạt ñộng của hệ thống tìm tin Giáo trình này ñược biên soạn lần ñầu nên không tránh khỏi những thiếu sót. Rất mong nhận ñược ý kiến ñóng góp của các ñồng nghiệp và bạn ñọc ñể giáo trình ñược hoàn thiện hơn trong những lần xuất bản sau. Xin chân thành cảm ơn các ñồng nghiệp ở khoa Thư viện -Thông tin học, trường ðại học Khoa học xã hội và nhân văn Tp.Hồ Chí Minh, PGS.TS ðoàn Phan Tân, ThS.Vĩnh Quốc Bảo ñã nhiệt tình giúp ñỡ và có nhiều ý kiến ñóng góp cho tác giả trong quá trình biên soạn giáo trình. TP.Hồ Chí Minh, tháng 12 năm 2009 Tác giả 2 BẢNG CÁC TỪ VIẾT TẮT AACR: Quy tắc biên mục Anh-Mỹ (Anglo-American Cataloguing Rule) CSDL: Cơ sở dữ liệu CQTT: Cơ quan thông tin DDC: Khung phân lọai thập phân Dewey (Dewey Decimal Classification) DC: Y ếu tố siêu dữ liệu cốt lõi Dublin ( Dublin Core) HTTT: Hệ thống tìm tin HTTTTðH: Hệ thống tìm tin tự ñộng hóa LCSH: Bảng ñề mục chủ ñề của Thư viện Quốc hội Mỹ (Library of Congress Subject Headings MARC: Biên mục ñọc máy (Machine Readable Cataloging) MLCC: Mục lục chữ cái MLPL: Mục lục phân lọai NNTT: Ngôn ngữ tìm tin OPAC: Mục lục công công truy cập trực tiếp (Online Public Access Catalog) TðTC: Từ ñiển từ chuẩn 3 CHƯƠNG 1 TỔNG QUAN VỀ HỆ THỐNG TÌM TIN 1.1.Tìm tin 1.1.1. Khái niệm tìm tin Khái niệm tìm tin ñược nhiều tác giả ñề cập ñến trong nhiều tài liệu về các lĩnh vực khác nhau như thông tin học, thư viện học, khoa học máy tính… Sau ñây là một số ñịnh nghĩa về tìm tin. Theo TCVN 5453-1991, tìm tin là quá trình lựa chọn và ñưa ra từ một tập hợp tài liệu hay mảng tin nào ñó những tài liệu, thông tin thích hợp với nội dung yêu cầu tin. [8] Các tác giả cuốn “Cơ sở thông tin học” của Viện thông tin VINITI ñưa ra ñịnh nghĩa “Tìm tin là một tập hợp các công ñoạn ñược thực hiện với mục ñích tìm ra những tài liệu có chứa thông tin nhất ñịnh (sau ñó cung cấp chính các tài liệu ñó hoặc các bản sao của chúng) hoặc với mục ñích cung cấp các số liệu cụ thể ñể trả lời các câu hỏi ñược ñịnh trước”. [24] Theo C.T. Meadow, các thuật ngữ tìm tài liệu, tìm dữ kiện, chọn lọc dữ liệu và tìm tin ñược sử dụng ñể chỉ quá trình tìm các tài liệu ñáp ứng yêu cầu tin (tìm tài liệu) hoặc tìm thông tin trực tiếp (ba dạng tìm sau cùng). Vì vậy, “Tìm tin là quá trình tìm kiếm trong một mảng tin nào ñó những tài liệu chứa thông tin và việc tìm kiếm này không phụ thuộc vào bản chất, loại thông tin cần tìm và phương thức sử dụng thông tin ñó.” [22] Theo B.C.Vickery, tìm tin là quá trình lựa chọn thông tin từ một mảng tin. [31] Những ñịnh nghĩa trên cho thấy mặc dù cách diễn ñạt khác nhau nhưng có sự thống nhất tương ñối giữa các tác giả về ý nghĩa của thuật ngữ tìm tin. Như vậy, tìm tin là một thuật ngữ chung ñược sử dụng ñể phản ánh quá trình tìm kiếm tài liệu hoặc thông tin cần thiết trong một mảng tin nào ñó. Việc tìm kiếm tài liệu hoặc thông tin cần thiết ñược thực hiện một cách chọn lọc và thường ñòi hỏi nhiều công sức, thời gian và chi phí. Thư viện là một ví dụ ñiển hình về một tổ chức chuyên phục vụ cho việc tìm kiếm thông tin một cách chọn lọc. Một người dùng tin ñến thư viện không phải ñể ñọc toàn bộ tài liệu có trong thư viện mà ñể tìm tài liệu hoặc thông tin một cách chọn lọc nhằm thỏa mãn các nhu cầu tin của mình. Phương pháp hiệu quả nhất ñể tìm tài liệu hoặc thông tin cần thiết trong một thư viện bất kỳ là ñọc qua từng tài liệu của thư viện này. Tuy nhiên, trong thực tế không thể áp dụng phương pháp này vì số lượng tài liệu trong các thư viện thường rất lớn nên việc ñọc tất cả tài liệu ñể chọn ra những tài liệu cần thiết là không khả thi. Vì vậy, người ta sử dụng một phương pháp tìm tin khác, ñó là tìm tin theo các ñặc tính nội dung ngắn gọn hoặc theo các ñặc tính hình thức của tài liệu. 4 Có thể xem tìm tin như một quá trình truyền thông một cách gián tiếp giữa các tác giả hoặc những người tạo lập các biểu ghi với những người sử dụng thông tin. Các ngôn ngữ và các kênh của hệ thống truyền thông này khác với các hệ thống truyền thông khác như truyền thông ñại chúng hoặc truyền thông trực tiếp. Các ngôn ngữ ñược sử dụng trong hệ thống truyền thông này có thể là các ngôn ngữ tìm tin và/hoặc ngôn ngữ tự nhiên. Còn các kênh truyền thông có thể là các công cụ tìm tin như hệ thống mục lục, bảng tra, cơ sở dữ liệu…Nói cách khác, tìm tin là một quá trình tương tác giữa người sử dụng và các mảng tin thông qua các công cụ tìm tin khác nhau. 1.1.2. Quá trình tìm tin Tìm tin là một quá trình cơ bản của con người và nó liên quan mật thiết với việc học tập và giải quyết vấn ñề. Quá trình tìm tin ñược bắt ñầu với nhu cầu tin của người sử dụng. ðể ñạt ñược mục tiêu như giải quyết một vấn ñề, trả lời một câu hỏi cụ thể hoặc ñể thỏa mãn tính ham hiểu biết, người dùng tin có thể cần thông tin nhanh và ngắn gọn hoặc thông tin ñầy ñủ và chi tiết. Trong hình 1.1. là sơ ñồ của quá trình tìm tin. Mặc dù trông có vẻ rất ñơn giản nhưng về thực chất, quá trình tìm tin bao gồm nhiều qui trình phức tạp. Một số qui trình là qui trình công nghệ và liên quan ñến hệ thống tìm tin, giao diện người sử dụng…Các qui trình khác liên quan ñến bản chất và các ñặc trưng của nội dung thông tin và người dùng tin cụ thể. Thời gian thực hiện và mức ñộ phức tạp của quá trình tìm tin phụ thuộc vào khả năng nhận thức, trình ñộ và nhu cầu tin của người dùng tin. Quá trình tìm tin là một quá trình tương tác phụ thuộc vào khả năng của người dùng tin, sự phản hồi từ hệ thống tìm tin và các quyết ñịnh của người dùng tin về các hành ñộng tiếp theo dựa trên sự phản hồi này. Các chi tiết về nhu cầu tin ban ñầu của người sử dụng có thể thay ñổi. Các nhu cầu tin ban ñầu thường ñược ñiều chỉnh sau khi người tìm tin biết nhiều hơn về vấn ñề ñang tìm kiếm thông qua sự tương tác với các hệ thống tìm tin. Vì vậy, quá trình tìm tin tiếp tục ñến khi người dùng tin có ñược thông tin thỏa mãn nhu cầu tin ñã ñược ñiều chỉnh của mình. Công nghệ thích hợp, chẳng hạn hệ thống tìm tin và giao diện người sử dụng thích hợp, có thể thúc ñẩy quá trình nhưng ñó không phải là vấn ñề cơ bản nhất vì quá trình tìm tin phụ thuộc nhiều vào người dùng tin và nhu cầu tin của người dùng tin cũng như bản chất, số lượng và sự ña dạng của thông tin. 5 Xác đònh HTTT thích hợp Đặt yêu cầu tin cho HTTT Nhận kết quả tìm Đánh giá kết quả tìm Thỏa mãn Không thỏa mãn Kết thúc Yêu cầu tin được thỏa mãn Nhu cầu tin Xác đònh yêu cầu tin 6 Hình 1.1. Sơ ñồ quá trình tìm tin 1.1.3.Các dạng tìm tin Có thể phân chia các dạng tìm tin theo các tiêu chí khác nhau như dựa vào tính chất của thông tin ñược tra cứu, dựa vào công cụ tìm tin ñược sử dụng, dựa vào loại hình tài liệu, dựa vào thời gian xuất bản của tài liệu, dựa vào ngôn ngữ tài liệu Trên thực tế, ñể tìm tin một cách hiệu quả, quá trình tìm tin thường ñược thực hiện dựa trên sự kết hợp nhiều dạng tìm tin với nhau. Dưới ñây là hai cách phân chia các dạng tìm tin thường ñược sử dụng . 1.1.3.1. Dựa vào tính chất của thông tin ñược tra cứu Dựa vào tính chất của thông tin ñược tra cứu, có thể phân chia thành các dạng tìm tài liệu và tìm thông tin dữ kiện. Tìm tài liệu là quá trình xác ñịnh và chọn lọc các tài liệu từ các nguồn tìm tương ứng với yêu cầu tin hoặc các dấu hiệu tìm tin cho trước như tên tác giả, tên tài liệu, nơi xuất bản, nhà xuất bản… Tìm thông tin dữ kiện là quá trình xác ñịnh, chọn lọc và tách ra khỏi nguồn tin những số liệu, dữ kiện cụ thể như các số liệu thống kê, các ñặc tính, thông số kỹ thuật của các thiết bị, vật liệu, các khái niệm khoa học…ñể ñáp ứng các yêu cầu tin. 1.1.3.2. Dựa vào công cụ tìm tin Dựa vào công cụ tìm tin, có thể chia thành các dạng tìm tin thủ công, bán tự ñộng và tự ñộng hóa. Tìm tin thủ công là quá trình tìm tin dựa trên các công cụ tìm tin thủ công hay còn gọi là công cụ tìm tin truyền thống như hệ thống mục lục, bộ phiếu tra cứu, bảng tra, thư mục, ấn phẩm thông tin, tài liệu tra cứu… Tìm tin bán tự ñộng là quá trình tìm tin dựa trên các công cụ tìm tin bán tự ñộng như phiếu lỗ mép và phiếu lỗ soi. Tìm tin tự ñộng hóa là quá trình tìm kiếm các thông tin ñược xử lý, lưu trữ và truy cập thông qua máy tính hoặc mạng máy tính. Trước ñây, tìm tin thủ công là dạng tìm tin phổ biến nhất trong các thư viện và cơ quan thông tin. Ngày nay, với sự phát triển nhanh chóng của công nghệ thông tin và viễn thông, tìm tin tự ñộng hóa ngày càng phổ biến hơn và trở thành dạng tìm tin chủ yếu trong các thư viện và cơ quan thông tin lớn. Bên cạnh ñó, các công cụ tìm tin bán tự ñộng hầu như không còn ñược sử dụng nữa nên dạng tìm tin bán tự ñộng ngày càng ñược ít người biết ñến. 1.2. Hệ thống tìm tin 1.2.1. Một số khái niệm 1.2.1.1. Khái niệm hệ thống tìm tin Khái niệm hệ thống tìm tin (HTTT) ñược ñề cập ñến trong nhiều tài liệu khác nhau. Sau ñây là một số ñịnh nghĩa về hệ thống tìm tin. Theo TCVN 5453-1991, hệ thống tìm tin là hệ thống ñược xây dựng nhằm tạo ñiều kiện cho việc tìm tin.[8] Theo D.B.Cleveland, hệ thống tìm tin là một công cụ thực hiện quá trình tìm tin.[14] 7 Theo F.W.Lancaster, hệ thống tìm tin là tổ hợp bao gồm các tài liệu, yêu cầu tin, các mô tả thống nhất tài liệu và yêu cầu tin, phương tiện cho phép so sánh các mô tả này, và con người (bao gồm các chuyên gia thông tin, chuyên gia ñiều hành hệ thống và người sử dụng hệ thống). [20] Các tác giả cuốn chuyên khảo “Cơ sở thông tin học” của Viện thông tin VINITI ñưa ra ñịnh nghĩa “Hệ thống tìm tin là tổ hợp các thành phần liên kết với nhau ñược sử dụng ñể tìm trong một mảng tin nào ñó thông tin ñáp ứng yêu cầu tin ñược ñặt ra cho hệ thống.” [24] Trong giáo trình “Hệ thống thông tin”, V.P.Zakharov ñịnh nghĩa “Hệ thống tìm tin là tập hợp có tổ chức các tài liệu và các phương tiện kỹ thuật ñể lưu trữ và tìm kiếm thông tin hoặc tài liệu hoặc dữ liệu.” [33] G.Kowalski, tác giả cuốn chuyên khảo “ Hệ thống tìm tin: Lý thuyết và ứng dụng”, ñưa ra ñịnh nghĩa ñơn giản “Hệ thống tìm tin là một hệ thống có khả năng lưu trữ, bảo quản và tìm kiếm thông tin” [19] Những ñịnh nghĩa trên cho thấy thuật ngữ “hệ thống tìm tin” nói chung ñược dùng ñể chỉ một hệ thống ñược xây dựng ñể lưu trữ và tìm kiếm thông tin ñã ñược lưu trữ. Có nhiều loại hệ thống thông tin khác nhau, từ các hệ thống thủ công với thông tin ñược lưu trữ trên giấy ñến các hệ thống ñược số hóa hoàn toàn. Cách tổ chức thông tin và các kỹ thuật tìm tin trong các hệ thống tìm tin cũng khác nhau nhưng vấn ñề chung ñối với tất cả các hệ thống tìm tin là ñảm bảo hiệu quả tìm tin của hệ thống. 1.2.1.2. Một số khái niệm liên quan Nhu cầu tin Nhu cầu tin là nhu cầu khách quan của người dùng tin về những thông tin cần thiết cho công việc cụ thể của mình. [8] Yêu cầu tin Yêu cầu tin là nhu cầu tin của người dùng tin ñược thể hiện dưới dạng văn bản hoặc lời. [8] Mảng tin Mảng tin (Information retrieval file) là tập hợp các tài liệu, dữ kiện (hoặc các thông tin về chúng) ñược sắp xếp theo một trình tự nhất ñịnh tiện lợi cho việc tìm và xử lý tin. [8] Mẫu tìm Mẫu tìm của tài liệu là nội dung cơ bản của tài liệu ñược thể hiện bằng các thuật ngữ của ngôn ngữ tìm tin. Mẫu tìm của một tài liệu ñược tạo lập trong quá trình xử lý tài liệu và ñược sử dụng ñể tìm tài liệu ñó trong tập hợp nhiều tài liệu khác. Tập hợp các mẫu tìm của tài liệu là một bộ phận không thể thiếu của mảng tin. Quá trình thể hiện nội dung cơ bản của tài liệu bằng mẫu tìm ñược gọi là quá trình ñánh chỉ số. Lệnh tìm Lệnh tìm là nội dung của yêu cầu tin ñược thể hiện bằng các thuật ngữ của ngôn ngữ tìm tin. 8 ðiểm truy cập ðiểm truy cập (access point) là một từ, cụm từ, mã số, tên gọi…ñược sử dụng ñể tìm thông tin trong một hệ thống tìm tin. ðiểm truy cập có thể là giá trị của các thuộc tính (hình thức và/hoặc nội dung) của ñối tượng ñược phản ánh trong hệ thống tìm tin. Ví dụ, trong một hệ thống tìm tin tư liệu, ñiểm truy cập có thể là tên tác giả, nhan ñề, ñề mục chủ ñề, từ khóa, ký hiệu phân loại…cho phép tìm kiếm và nhận dạng một biểu ghi thư mục. Các ñiểm truy cập này ñược người xử lý tài liệu lựa chọn khi tạo lập một biểu ghi. ðánh chỉ số ðánh chỉ số (Indexing) là quá trình thể hiện nội dung tài liệu và/hoặc yêu cầu tin bằng ngôn ngữ tìm tin. [8] Tính thích hợp Tính thích hợp (Relevance) là mức ñộ trùng hợp giữa nội dung tài liệu với yêu cầu tin. [8] Tính phù hợp Tính phù hợp (Pertinence) là mức ñộ trùng hợp giữa nội dung tài liệu và nhu cầu tin. [8] Tiêu chuẩn phù hợp ý nghĩa Tiêu chuẩn phù hợp ý nghĩa là tập hợp các qui tắc nhằm xác lập một cách hình thức mức ñộ thích hợp của tài liệu với yêu cầu tin. Có thể chia các tiêu chuẩn phù hợp ý nghĩa thành hai nhóm chính là ñịnh lượng và logic. Loại thứ nhất sử dụng các tiêu chí ñịnh lượng ñể ñánh giá mức ñộ giống nhau về nội dung giữa tài liệu và yêu cầu tin (hệ số tương thích). ðiều này cho phép sắp xếp kết quả tìm ñược theo trật tự giảm dần về mức ñộ thích hợp của tài liệu với yêu cầu tin. Có nhiều mô hình toán học và công thức khác nhau ñể tính hệ số tương thích. Tuy nhiên, cách tính ñơn giản nhất là dựa trên sự trùng hợp giữa các thuật ngữ trong mẫu tìm và lệnh tìm. Cách tính này ñược áp dụng trong tất cả các hệ thống tìm tin tư liệu sử dụng các ngôn ngữ tìm tin phân loại, ñề mục chủ ñề và từ khoá. Xác suất trùng hợp hoàn toàn giữa mẫu tìm và lệnh tìm trong các hệ thống tìm tin thường rất thấp. Vì vậy, có thể phải ñánh giá mức ñộ trùng hợp một phần giữa mẫu tìm và lệnh tìm. Nếu sự trùng hợp này ñạt ñến một mức ñộ cần và ñủ thì tài liệu tìm ñược ñược xem là thích hợp với yêu cầu tin. Gọi R là mức ñộ trùng hợp cần và ñủ giữa mẫu tìm và lệnh tìm ñể tài liệu tìm ñược về cơ bản ñáp ứng ñược yêu cầu tin. R ñược biểu thị bằng tỉ lệ %. R ñược tính bằng công thức: R= (M/N) x 100%, trong ñó: M là số lượng các thuật ngữ của mẫu tìm và lệnh tìm trùng nhau khi tìm tin. N là tổng số thuật ngữ có trong mẫu tìm. Trường hợp lý tưởng nhất là khi mẫu tìm trùng hợp hoàn toàn với lệnh tìm, nghĩa là M=N hay R=100%. Trên thực tế, với R>=25% là xem như ñạt yêu cầu. Loại tiêu chuẩn phù hợp ý nghĩa thứ hai là tiêu chuẩn phù hợp ý nghĩa logic. Trên thực tế, các hệ thống tìm tin sử dụng các lệnh tìm với các toán tử logic Bool ngày càng phổ biến. Trong các hệ thống này, các yêu cầu tin ñược thể hiện bằng biểu thức logic bao gồm một tập hợp các thuật ngữ tìm ñược liên kết với nhau bằng các toán tử 9 Bool. Các thuật ngữ tìm của biểu thức ñóng vai trò như các biến số và sẽ nhận giá trị 1 (ñúng) nếu thuật ngữ ñó ñược chứa trong tài liệu hoặc nhận giá trị 0 (sai) khi tài liệu không chứa thuật ngữ ñó. Tài liệu ñược xem là thích hợp với yêu cầu tin nếu kết quả tổng thể của biểu thức logic nhận giá trị ñúng. Nếu kết quả có giá trị sai thì tài liệu không thích hợp với yêu cầu tin. Việc sử dụng các toán tử Bool ñảm bảo cho logic so sánh mẫu tìm và lệnh tìm dễ hiểu ñối với người sử dụng. Chính sự ñơn giản và dễ hiểu của tiêu chuẩn phù hợp ý nghĩa logic ñã giúp tiêu chuẩn này trở nên phổ biến. 1.2.2. Mục ñích của hệ thống tìm tin Một hệ thống tìm tin ñược xây dựng ñể tìm các tài liệu hoặc thông tin ñược cộng ñồng người sử dụng yêu cầu và phải sẵn sàng cung cấp tài liệu hoặc thông tin cần thiết cho người sử dụng. Vì vậy, một hệ thống tìm tin bất kỳ phải tập trung vào việc thu thập và tổ chức thông tin về một hoặc nhiều lĩnh vực kiến thức nhằm cung cấp thông tin một cách nhanh chóng nhất khi người sử dụng yêu cầu. Trên thực tế, hệ thống tìm tin ñóng vai trò như một cầu nối giữa các nguồn tài nguyên thông tin và những người sử dụng thông tin. Mục ñích chung của một hệ thống tìm tin là giảm tối ña chi phí của người sử dụng ñể tìm thông tin cần thiết. Chi phí tìm tin có thể ñược tính bằng thời gian một người sử dụng phải bỏ ra trong tất cả các bước của quá trình tìm tin cho ñến khi có ñược tài liệu hoặc thông tin cần thiết. Người sử dụng có thể gặp nhiều trở ngại trong quá trình tìm tin. Vì vậy, mục ñích của một hệ thống tìm tin là hỗ trợ tối ña ñể người sử dụng có thể tìm ñược thông tin cần thiết một cách nhanh chóng, ñầy ñủ và chính xác. 1.2.3. Chức năng của hệ thống tìm tin và yêu cầu ñối với hệ thống tìm tin 1.2.3.1. Chức năng của hệ thống tìm tin Một hệ thống tìm tin phải xử lý nhiều nguồn thông tin và yêu cầu tin khác nhau của người sử dụng. Có thể chia các chức năng của một hệ thống tìm tin thành hai nhóm chính là: 1) Phân tích nội dung và 2) Tìm tin và cung cấp kết quả tìm. Phân tích nội dung bao gồm các chức năng liên quan ñến việc phân tích, tổ chức và lưu trữ thông tin. Tìm tin và cung cấp kết quả tìm bao gồm các chức năng phân tích yêu cầu tin của người sử dụng, tìm tin, chọn lọc và cung cấp kết quả tìm. Cụ thể, các chức năng chính của một hệ thống tìm tin bao gồm: Phân tích nội dung các tài liệu: phân tích và trình bày nội dung chính của tài liệu bằng các ngôn ngữ thích hợp; Tổ chức và lưu trữ thông tin một cách thích hợp ñể có thể tìm kiếm thông tin theo các yêu cầu tin của người sử dụng; Phân tích các yêu cầu tin của người sử dụng và thể hiện các yêu cầu tin ở dạng thích hợp với việc tìm kiếm trong hệ thống; Tìm trong hệ thống và lựa chọn thông tin thích hợp với yêu cầu tin; Chức năng của một hệ thống tìm tin tư liệu ñơn giản ñược thể hiện trên sơ ñồ trong hình 1.2. 10 Trong hình 1.2. là một hệ thống tìm tin với hai đầu vào (dành cho tài liệu và u cầu tin) và một đầu ra để cung cấp tài liệu hoặc thơng tin theo u cầu. Ở các đầu vào có các bộ phận đánh chỉ số tài liệu và u cầu tin. Các mẫu tìm của tài liệu cùng với các địa chỉ lưu trữ tài liệu được đưa vào bộ nhớ của hệ thống còn các tài liệu được đưa vào bộ phận lưu trữ tài liệu. Các lệnh tìm của từng u cầu tin được bộ xử lý đối chiếu với mẫu tìm của tất cả các tài liệu được chứa trong bộ nhớ. Nếu mẫu tìm và lệnh tìm tương thích (tồn phần hoặc theo tiêu chuẩn phù hợp ý nghĩa đã xác định) thì bộ xử lý sẽ đưa ra lệnh cung cấp tài liệu được chứa trong bộ phận lưu trữ tài liệu. Bộ phận lưu trữ tài liệu được xem như bậc thứ hai của hệ thống và thành phần này khơng hiện diện trong các hệ thống tìm tin thư mục (chỉ có một bậc là bộ nhớ lưu trữ thơng tin về tài liệu ). Sơ đồ này thể hiện hoạt động của một hệ thống tìm tin bất kỳ, bao gồm cả các hệ thống truyền thống. Ví dụ, trong hệ thống tìm tin thủ cơng của một thư viện, các bộ phận ở các đầu vào của hệ thống tương ứng các bộ phận xử lý tài liệu và tra cứu tin, bộ nhớ tương ứng với các mục lục thủ cơng. Trong hệ thống tìm tin thủ cơng khơng có bộ xử lý. Bộ ph ậ n này được thay thế bằng trí tuệ của người dùng tin hoặc cán bộ tra cứu – là người thực hiện việc so sánh, đối chiếu lệnh tìm với mẫu tìm và lựa chọn kết quả tìm được. Tài liệu Tài liệu đã xử lý Tài liệu & đòa chỉ Kho tài liệu Mẫu tìm & đòa chỉ Bộ nhớ Bộ xử lý Lệnh tìm Đòa chỉ Yêu cầu tin Tài liệu Hình 1.2. Sơ đồ tổng qt của hệ thống tìm tin 1.2.3.2. u cầu đối với hệ thống tìm tin Hệ thống tìm tin phải hướng đến người sử dụng, nghĩa là phải chú trọng các tiện ích cho người sử dụng. Vì vậy, hệ thống tìm tin phải đáp ứng các u cầu chức năng sau: - Bảo đảm khả năng tương tác giữa người thiết kế hệ thống và người sử dụng; - Cung cấp thơng tin với dạng thức thích hợp để có thể sử dụng ngay; - Có phạm vi đủ rộng để bao qt tất cả các loại u cầu tin của cộng đồng người sử dụng; [...]... vào lo i ngôn ng tìm tin, có th chia thành h th ng tìm tin s d ng ngôn ng ti n k t h p và h th ng tìm tin s d ng ngôn ng h u k t h p, thư ng ñư c g i t t là h th ng tìm tin ti n k t h p (pre-coordinate system) và h th ng tìm tin h u k t h p (post-coordinate system) D a vào lo i tiêu chu n phù h p ý nghĩa, có th chia thành h th ng tìm tin v i tiêu chu n phù h p ý nghĩa logic và h th ng tìm tin v i tiêu... tìm tin Ngôn ng tìm tin là ngôn ng nhân t o ñư c dùng ñ mô t n i dung tài li u ho c yêu c u tin và ñ tìm tin [8] 15 Ngôn ng tìm tin ñư c xây d ng ñ kh c ph c các h n ch c a ngôn ng t nhiên trong vi c di n ñ t thông tin và tìm ki m thông tin, bao g m: - Có nhi u ngôn ng t nhiên và m i ngôn ng ñ u có v n t v ng r t l n, trong ñó có nhi u t không th s d ng ñ x lý tài li u và tìm tin; - Ngôn ng t nhiên có... m t s cách phân lo i cơ b n nh t D a vào tính ch t c a thông tin ñư c lưu tr và cung c p, có th phân các h th ng tìm tin thành hai lo i là h th ng tìm tin tư li u và h th ng tìm tin d ki n H th ng tìm tin tư li u là h th ng tìm tin ñư c xây d ng ñ tìm và cung c p thông tin v tài li u ho c tài li u H th ng tìm tin tư li u ñáp ng các yêu c u tin ñư c ñ t ra cho h th ng b ng cách cung c p các mô t thư... u; 2 Phân h x lý yêu c u tin th c hi n các ch c năng xác ñ nh yêu c u tin, xây d ng l nh tìm và nh p l nh tìm; 3 Phân h tìm tin có ch c năng tìm và ñưa ra các k t qu tìm 4 Phân h x lý và cung c p các k t qu tìm th c hi n ch c năng phân tích các k t qu tìm, l a ch n các k t qu thích h p và cung c p cho ngư i s d ng 1.2.5 Các lo i h th ng tìm tin Có th phân lo i các h th ng tìm tin d a trên nhi u cơ s... lưu tr và tìm ki m thông tin, có th chia thành các h th ng tìm tin th công, bán t ñ ng và t ñ ng hóa Trong h th ng tìm tin th công, thông tin v tài li u ho c d ki n ñư c lưu tr trong các b phi u tra c u thư m c, b phi u tra c u d ki n và h th ng m c l c truy n th ng Có th s d ng h th ng tìm tin th công ñ tìm tin m t cách hi u qu trong các m ng tin ch a dư i 10.000 tài li u Trong h th ng tìm tin bán... t v ng m t cách linh ho t khi tìm tin Như c ñi m c a NNTT h u k t h p là hi u qu tìm tin có th b h n ch n u ngư i tìm tin không n m v ng chi n lư c ho c k thu t tìm tin 2.2.3 Ngôn ng phân lo i 2.2.3.1 Các khái ni m cơ b n Ngôn ng phân lo i là ngôn ng tìm tin chuyên d ng cho phép ngư i s d ng ti p c n tài li u theo lĩnh v c tri th c ñư c th hi n trong n i dung tài li u Ngôn ng phân lo i ñư c s d ng... d ng truy c p và s d ng (http://www.ericae.net/htm) 2.2.5 Ngôn ng tìm tin ñ m c ch ñ (ðMCð) Ngôn ng ðMCð là ngôn ng tìm tin có t v ng là m t t p h p các t ho c c m t t ngôn ng t nhiên, ñư c s d ng ñ mô t n i dung tài li u và ñ tìm tin ð m c ch ñ là t ho c c m t ñư c s d ng ñ trình bày ch ñ c a tài li u ho c yêu c u tin T v ng c a ngôn ng tìm tin ðMCð là b ng ñ m c ch ñ B ng ñ m c ch ñ là t p h p các... x lý, cung c p thông tin v tài li u có th ñư c th c hi n m c ñ các trư ng riêng bi t Trên th c t , các h th ng tìm tin trong thư vi n chính là s k t h p m t s h th ng tìm tin tư li u và tìm tin d ki n ð c ñi m chung l n nh t c a h th ng tìm tin tư li u và h th ng tìm tin d ki n là ñ ñáp ng các yêu c u tin ñư c ñ t ra cho h th ng, c hai h th ng có th và ch có th cung c p thông tin ñã ñư c lưu tr trong... ch a thông tin ñư c yêu c u ðôi khi lo i h th ng tìm tin tư li u ch cung c p các mô t thư m c c a các tài li u c n tìm ñư c g i là h th ng tìm tin thư m c H th ng tìm tin d ki n là h th ng tìm tin ñư c xây d ng ñ lưu tr , tìm và cung c p các s li u và d ki n như các s li u khoa h c, k thu t, kinh t , ñ c tính c a các quá trình, hi n tư ng, ñ a ch , tên cá nhân ho c t ch c… Gi a h th ng tìm tin tư li... ngôn ng t nhiên: + Các công c x lý cú pháp d li u d ng văn b n; + Các công c ng nghĩa và thu t toán phân lo i t ñ ng tài li u; + Các công c ng nghĩa và thu t toán l p bi u th c tìm tin t ñ ng; + Các công c tìm l i t ñ ng - Các công c h tr ñ m b o ng nghĩa + Các tài li u hư ng d n th c hi n + Qui trình l p và qu n tr t v ng trên máy tính; 2.2 Ngôn ng tìm tin 2.2.1 Khái ni m ngôn ng tìm tin Ngôn ng tìm