Phần 1 giáo trình Hệ thống tìm tin gồm nội dung 4 chương đầu tài liệu. Nội dung phần này trình bày tổng quan về hệ thống tìm tin, xử lý công cụ ngữ nghĩa trong hệ thống tìm tin, tổ chức thông tin trong hệ thống tìm tin, thiết kế hệ thống tìm tin. Đây là giáo trình dành cho sinh viên ngành Thông tin - Thư viện.
PGS.TS ĐOÀN PHAN TÂN HỆ THỐNG TÌM TIN NHÀ XUẤT THÀNH PHĨ HỒ CHÍ MINH 2010 LỜI NĨI ĐẦƯ Giáo trình “Hệ thống tìm tin” biên soạn nhằm cung cấp ihừng kiến Ihức bàn hệ thống lìm tin cho sinh viên chuyên igành thông tin - Ihư viện Nội duno giáo trình bao gồm bảy chương sau: Chương 1: Tống quan hệ ihống tìm tin; Chi*one Hệ thốiì cơng Ci \í: ]ý ngC' nghĩa ;rong hệ thống lìm tin; Chương 3: Tồ chức thơ ns tin hệ thống tìm tin; Chương 4; Thiết kế hệ thống tìm tin; Chương 5: Hệ thốne tìm tin thủ cơng; Chương 6: Hệ Ihổng lìm tin tự động hóa; Chương 7: Đánh Ìá hiệu hoạt động hệ thống tìm tin Giáo trình biên soạn lần đầu nên khơng tránh khỏi hừng Ihiếu sót Rất mong nhận ý kiến đóng góp ồng nghiệp bạn đọc đổ giáo trình hồn thiện irong hững lần tái Xin chân thành cảm ơn đồng nghiệp khoa T h viện 'hông lin học, T m n g Đại học Khoa học xã hội Nhân văn )HQG TP HỒ Chí Minh, PGS.TS Đồn Phan Tân ThS VTnh )uốc Báo nhiệt lình giúp đỡ có nhiều ý kiến đóng góp cho lIC giíi iro n g q u Irình biên soạn íỉìáo trình 77’ ỉỉ C h í Mình, ihúng 12 năm 2009 * - - * '1 ác gia BẢNG CÁC TỪ VIẾT TẮT AACR Q uy tăc biên mục Anh - M ỳ (Anglo - American Cata oguing Rule) CSDL C sỡ dừ liệu CQTT C quan Ihông tin DDC Khung phân loại thập phân Devvey (Dewey Decimal Classification) DC Yếu tố siêu dừ !iệu côt lõi Dub in (Dub in Core) HTTT Hệ thống tìm lin H T T TTĐ H Hệ thống tìm tin tự động hóa LCSH B ảng đề mục chủ đề T h viện Quốc hội Mỹ (Library o f Congress Subject Headings) MARC Biên mục đọc máy (Machine Readab e Cataloging) MLCC M ục ục chừ M L PL vlục lục phân loại NNTT '^gơn ng tìm tin O PA C M ục ục công cộng truy cập tiTỊC tuyến (On ine Pub ic Access Calalog) TĐTC T điển từ chuẩn Chương TỔNG QUAN VỀ HỆ T H ốN G TÌM TIN 1.1 Tìm tin 1.1.1 K hái niêm tìm tin Khái niệm t'ip tin nhiều tác giả đề cận đến nhiều tài liệu lĩnh \ ự c khác nh thông tin học, thư viện học, khoa học m áy tín h Sau mộí sổ định nghĩa tìm tin T h e o TC V N 5453-1991, tìm tin trình lựa chọn đưa từ m ột tập hợp tài liệu hay mảng tin nhừng tài liệu, thơng tin thích hợp với nội dung yêu cầu tin [8 C ác tác giá cuổn “C sớ thông tin học” Viện Thông tin VINITI đưa định nghĩa ‘T ì m tin tập hợp công đoạn thực với mục đích tìm nhừng tài liệu có chứa thơng tin định (sau cung cấp tài iiệu cùa chúng) với mục đích cung cấp số liệu cụ thể đề trá lời câu hòi định ti*irớc” [24 Theo C.T Meadow, thuật ngữ tìm tài Hệiỉ, tìm dừ kiện, chọỉì lọc d liệu ĩìw tin sử dụng để irình tìm tài liệu đáp ứng yêu cầu lin (tìm tài liệu) lìm thơng lin trực tiếp (ba dạng tìm sau cùng) Vì vậy, “T im Ún trình tìm kiếm mảng tin tài liệu chứa thơng lin việc tìm kiếm khơng phụ thuộc vào chất, loại thơng tin cần lìm phương thức sử dụng thơng lin ” [22 Theo B c Vickery, tìm tin trình lựa chọn ihông lin từ mảng lin [31 ''ỉhừng định nghĩa Irên cho Ihấy cách diền đại khúc có thống tương đối tác giả ý nghĩa ihưật ngừ tìm tin Như vậy, tìm tin thuật ngữ chuns sử dụng để phản ánh trình tìm kiếm tài liệu thông tin cần thiếl mảng tin Việc tìm kiểm tài liệu thơng tin cần thiết Ihực cách chọn lọc thường địi hịi nhiều cơng sức, thời gian chi phí T hư viện ví dụ điển hình tồ chức chuyên phục vụ cho việc tìm kicm thơng tin cách chọn lọc Một neười dủng tin đến thư viện khơng pnài để đọc tồn tài liệu co irong thư viện mà đề tìm tài liệu thông tin cách chọn lọc nhằm thỏa mãn nhu cầu tin Phương pháp hiệu để tìm tài liệu thơng tin,cần thiết ihư viện đọc q ua tài liệu thư viện Tuy n h iên , thực tế không thề áp dụng phương pháp số lượng lài liệu thư viện thường lớn nên việc đọc tất lài liệu để chọn nhừng tài liệu cần Ihiếí khơng khả thi Vì vậy, người ta sừ dụng phưưng pháp tìm tin khác, tìm tin theo đặc tính nội dung ’ngắn gọn theo đặc tính hình thức cúa tài liệu Có thể xem tìm tin q irình truyền thơng mội cách gián liếp tác giả người tạo lập biểu ghi với nhĩrng người sử dụng thông tin Các neôn n ^ừ kênh hộ thống truyền thông khác với hệ thống truyền ihông khác n hư truyền thông đại chúng truyền thông tiỊTc tiếp Các ngôn n gữ sử dụng hệ thống tmyền thơng có Ihể ngơn ng tìm tin và/hoặc ngơn ngữ tự nhiên Cịn kênh truyền thơng cơng cụ tìm tin hệ thổng mục lục, bảng tra, sờ liệu Nói cách khác, tìm tin ]à trình tương tác giừa người sừ dụng màng tin thông qua công cụ tìm tin khác 1.1.2 Q uá trình tìm tin Tìm tin trình c a người liên quan mậ^ ihiét vói V’ệc h ọ c ^ập v giả’ vấn đề Quá trình tìm tin bắt đầu với nhu cầu tin người sử dụng Để đạt mục tiêu n h giải vấn đề, trả lời câu hòi cụ thề để thỏa mãn lính ham hiểu biết, người dùng tin cần thông tin nhanh ngắn gọn thông tin đẩy đủ chi tiết Trong hình ỉ l sơ đồ trình tìm tin M ặc dù trơng rấl đơn giản thực chất, trình lìm tin bao gồm nhiều qui trình phức tạp Một sổ qui trình qui trình cơng nghệ liên quan đến hệ thống tìm tin, giao diện người sử d ụ ng Các qui trình khác liên quan đến bán chất đặc trưng nội dung Ihông tin người dùng tin cụ thể Thời gian thực mức độ phức tạp trình tìm tin phụ thuộc vào khà nhận Ihức, trình độ nhu cầu tin người dùng tin Q uá trình tìm tin trình tương tác phụ thuộc vào nàng cúa người dùng tin, phản hồi từ hệ thống tìm tin định c ủ a người dùng tin hành động dựa phán hồi Các chi úél nhu cầu tin ban đầu người sử dụng có thố thay đổi Các nhu cầu tin ban đầu thường điều sau người tìm tin biết nhiều vấn đề lìm kiếm thơng qua tương lác với hệ thống tìm tin Vì vậy, trình tìm tin tiếp lục đến người dùng lin có thơng lin thỏa mãn nhu cầu tin điều chỉnh C ơn g nghệ thích hợp, chẳng hạn hệ Ihống lìm tin giao diện người sử dụn g thích hợp, thúc đẩy q trình khơng phải vấn đề bàn trình tìm tin phụ thuộc nhiều vào người dùn g tin nhu cầu tin cùa người dùng tin chất, số lượng đa dạng thơng tin ^ H ình 1.1 Sff q trình tìm tin 10 ỉ 1.3 C ác dạng tìm tin C ó thể phân chia dạng tìm tin theo tiêu chí khác dựa vào tính chấi thơng tin tra cứu, dựa vào cơng cụ tìm tin sử dụng, dựa vào loại hình tài iiệu, dựa vào thời gian xuất tài liệu, dựa vào ngôn ngừ tài liệu Trên thực tế, để lìm tin m ộ t cách hiệu quả, trinh tìm tin thường thực dựa kết họp nhiều dạng ùm tin với Dưới hai cách phân chia dạng tìm tin thường sử dụng 1 ,3 ỉ D ụ vào tính ch ất cCa th ô n g tfn đĩiợc tra ZÚTI Dựa vào tính chấl cúa thơng Ún tra cứu, phân chia thành dạng tìm tài liệu lìm thơng tin kiện Tìm tài liệu ià trình xác định chọn lọc lài liệu từ nguồn tìm tương ứng với yêu cầu tin dấu hiệu tìm tin cho trước tên lác giả, lên tài liệu, nơi xuất bản, nhà xuất b ả n Tìm thơng tin dừ kiện q trình xác định, chọn lọc tách khỏi nguồn tin số liệu, kiện cụ thể số liệu thống kê, đặc lính, thơng số kỳ thuật thiết bị, vật liệu, khái niệm khoa học để đáp ứng yêu cầu tin 1.1.3.2 D ự a vào cơng cụ tìm tin D ự a vào c n g cụ tìm tin, chia thành dạng tìm tin thủ cơng, bán lự độn g tự động hóa Tìm tin thù cơng q trình tìm lin dựa cơng cụ tìm lin thủ n g hay cịn gọi cơng cụ tìm tin truyền thống hệ ihống mục lục, phiếu Ira cửu, bảng tra, ihư mục, ấn phẩm thông tin, tài liệu tra c ứ u Tìm lin bán tự động trình tìm tin dựa cồng cụ tìm tin bán tự độn g phiếu lồ mép phiếu lồ soi 11 T ìm tin tự động hóa q trình tìm kiếm thông tin xử lý, lưu trừ truy cập thơnơ qua máy lính m n s máy lính Trước đây, tìm tin thủ cơng !à dạng lìm tin phổ biến thư viện quan thông tin Ngày nay, với phát triển nhanh chóng cơng nghệ thơng tin viền thơng, tìm tin tự động hóa n g y phồ biến trờ thành dạng tìm tin chủ yếu thư viện quan thông tin ỉớn Bên cạnh đó, cơng cụ tìm tin bán tự động khơng cịn sử dụng n ùa nên dạng tìm tin bán tự động ngày đưọc người biết đến 1.2 Hệ thống tìm tin 1.2.1 M ơt số khái nicin • » Ỉ I Ỉ K hái niệm h ệ th ốn g tìm tin Khái niệm hệ thống lìm tin (HTTT) đề cập đến tro rg nhiều tài liệu khác Sau số định nghĩa ve hệ thống tìm tin T h e o TC V N 5453-1991, hệ thống tìm tin hệ thống xăy dự ng nhằm tạo điều kiện cho việc tìm tin [8' Theo D.B Cleveland, hệ ihống tìm tin cơng cụ thực qu tiình tìm tin [14 Theo F.w Lancaster, hệ ihống tìm tin ỉà tổ hợp bao gồm tài liệu, yêu cầu tin, mô tả thổng tài liệu yêu cầu tin, ph ươ ng tiện cho phép so sánh m ô lả này, người (bao g m chuyên gia thông tin, chuyên gia điều hành hệ thống người sử dụng hệ thống) [20] Các tác giã chuyên khảo “C sờ thông tin học” Viện T hông tin VINITI đưa định nghĩa “Hệ thống tìm lin tổ 12 hợp Ihành phần liên kết với sừ dụng để tìm mộl màng tin thơng tin đáp ứng yêu cầu tin đặt cho hệ thống” [24] Trong giáo trình “Hệ thống thơng lin”, v p Zakharov định nghĩa “Hệ thống tìm tin tập hợp có to chức tài liệu phương liện kỹ thuật đế lưu trữ tìm kiếm thông tin tài liệu dừ liệu” [33 G Kowalski, tác giả chuyên khảo “Hệ thống tìm tin: Lý th u /ế t ứng dụn o” , đưa định nglìĩa clơn giàn “Hệ ihống tìm tin hệ thống có kha lưu tm' bảo quản tìm kiếm thơng tin” [19] Nhừng định nghĩa cho thấy thuật ngữ “hệ thống tìm tin” nói chung dùno để chi hệ thống xây dựng để lưu trừ tìm kiếm th n g tin đ ợ c lưLi trừ Có nhiều loại hệ thống thơng lin khác nhau, lừ hệ thống ihù công với thông tin lưu trừ Irên giấy đến hệ thống số hóa hồn tồn Cách 10 chức thơng tin kỳ thuật tìm tin hệ thống tìm tin khác vấn đề chung tất hệ thống tìm tin đảm bảo hiệu tìm tin hệ thống 1.2 ĩ M ộ t số k h i niệm Hên quan N hu cầu tin Nhu cầu tin nhu cầu khách quan người dùng tin thông lin cần thiết cho cơng việc cụ thể cùa [8] Yêu cầu tin Yêu cầu tin nhu cầu tin người dùng tin thể dạng văn lời [8 13 - Các lựa chọn để thực mục liêu hệ thống thiết kế; - Cách đánh giá hiệu hoạt động hệ thống Để thực việc thiết kế cách hiệu quả, người thiết kế m ột hệ thống tìm tin cần nắm nhừng thông tin sau: - Các đặc điềm, qui mơ vị trí n hóm người sử dụng mục tiêu; - Nhu cầu tin nhóm người sử dụng mục liêu: nội dung, hình thức mức độ thường xuyên nhu cầu tin; - Các yêu cầu hệ thống dịch vụ cung cắp; - Các hệ ĩhống hừu có ihề phát triển, thay cạnh tranh; - Phạm vi bao quát hệ thống: nội dung (các lĩnh vực bao quát) qui mô vốn tài liệu; - Các qui trình lưu tiìr lìm tin thích hợp; - Mức độ xừ lý tài liệu: yêu cầu độ sâu xử ìý tài liệu nhập vào hệ thống; - Hình thức loại hình đầu vào đầu ra; - Các yêu cầu đặc biệt khà nãng tưcmg thích với hệ thống khác, thiết bị cần thiết, kỳ nhân viên M ột hệ thống tìm tin phải đạt tiêu chí định C ó thể chia tiêu chí khác hệ thống tìm tin Ihành nhóm sau: Các tiêu chí chung - Mục đích - Phạm vi 92 - Các chức - Hình thức tổ chức - Các nguồn tài Chuẩn hóa Các tiêu chí đầu vào - Phạm vi bao quát - Các kiểu đầu vào - Bồ sung - X Iv đầu vào - Phân tích nội dung đánh số Các tiêu chí đầu - Các dịch vụ - Các sản phẩm - Người sừ dụng - Chuẩn bị sản phẩm thông tin - Marketing phân phối - Ý kiến phàn hồi người sử dụng Các tiêu chí nội - Lưu trừ tài liệu - Lưu trừ thông tin tài liệu - Kiểm soát từ vựng - M ức độ tự động hóa - Tập trung hóa hoạt động - Nhân Khi thiết kế hệ thống tìm tin, người thiết kế cần Irọng điểm sau: 93 - Các liêu chí cố định hệ thống; - Các tiêu chí biến đổi; - X ác định lựa chọn có sẵn với biến số; - X ác định yếu tố lác động đến việc lựa chọn khả khác biến số; - Xác định yếu tố sè bị tác động lựa chọn nhiều khả khác nhau; - Phân tích biến sổ yểu tổ tác động chịu tác động lựa chọn nhằm xác định trình tự định cách định 4.2 Quy trình thiết kế hệ thống tìm tin Theo Lancaster [20], quy trình thiết kể H T T T bao gồm giai đoạn saư: 1- Xác định mục tiêu yêu cầu hệ thống; 2- Thiết kế cấu trúc lổng quát xây dựng mô hình mẫu (Prototype) cũa hệ thống; 3- T h nghiệm m hình mẫu; 4- H ồn chinh thiết kế hệ Ihổng vận hành hệ Ihổng sờ kết qu Ihử nghiệm; 5- Kiểm tra, đánh giá hệ thống 4.2.1 G iai đoạn 1: X ác định cá c m ục tiêu yêu cầu đ éi với h ệ thống Giai đoạn cần thiết thiết kế hệ thống thay đồi m ột hệ thống có sẵn N h iệ m vụ giai đoạn xác định mục tiêu bàn hệ thống xây dựng 94 Một vấn đề cần xác định hệ thống tìm tin thiếi kế sẽ,là hệ thống độc lập hay sè làm việc mơi irường mạng Một hệ thống tìm tin xây dựng để đáp ứng yêu cầu tin người sử dụng hệ thống Vì vậy, xác định nhóm người sừ dụng mục tiêu nhu cầu Ún c họ hai nhiệm vụ quan trọng phải hoàn ihành giai đọan Kết khảo sát nhu cằu l'n cũa người sử dụng sè sờ để xác định yêu cầu hệ thống (ví dụ nh lĩnh vực nội dung, loại hình tài liệu, chế độ phục vụ, hình thức cung cấp tài liệu )* Đ n g ihời, cần tiến hành khảo sát hệ thống hoạt động với mục đích xác định khả hoàn thiện hệ thống đề đáp ứ n g yêu cầu tin cúa nhóm người dù ng tin nhóm Neu có khả n ă n g h o n thiện c c hệ t h ố n g h u k h n g c ầ n th iế t kế hệ ihống m chi cần xác định yêu cầu đổi với việc phát triển hệ thống mộl cách thích hợp m rộng phạm vi bao quát nội dung, tăng dung lượng n h Việc xác định nhóm người sử dụng mục tiêu nhu cầu lin cùa họ thực cách khảo sát đặc tiu n g người sừ dụng phân tích yêu cầu tin họ l L C ác đặc tr m ig củ a ngirời s dụ n g Có nhiều phương pháp khảo sát đặc trưng người sử dụng nhu cầu tin họ C ó Ihề thu thập d ữ liệu nhiều cách khác sử dụng bảng hỏi, vấn cá nhân trực tiếp, phòng vấn qua điện thoại, ph ỏ n g vấn theo nhóm mục tiê u C ó Ihể sừ dụng phương pháp vấn tự có ghi âm kết quà Ihực vấn Iheo kịch bảii chặt chẽ chuẩn mực 95 Cũng xác định nhu cầu tin người sử dụng phưcmg pháp khác nghiên cứu dừ liệu hành vi nhóm nhỏ người sử dụng với hồ trợ cùa nhật ký, băng ghi h ìn h Tính ch ất cô n g việc cá c lĩnh vự c n g i s dụ n g quan tâm cần phải nắm tính chất cùa công việc lĩnh vực chuyên môn cụ thể người sừ dụng V í dụ, cơng việc chuyên môn cùa người sử dụng liên quan đến công nghiệp dệt phải xác định rõ sử dụng quan tâm đến vấn đề cụ thể N hừng thông tin cho phép xây dựng tiêu chí chọn lọc tài liệu nhập vào hệ thống Việc chọn lọc tài liệu thích hợp có ảnh hường lớn đến hiệu chung hệ thống Mặc dù xác định tiêu chí chọn lọc tài liệu mội khâu quan trọng xáy dựng hệ thống thực tể lại thường bị bỏ qua D anh mục xác vấn đề liêĩì quan đến cơng việc người sử dụng vấn đề người sử dụn g quan tâm sở ban đầu để phác thảo sơ từ vựng kiểm soát dạng từ điển từ chuẩn khung phân loại sử dụng Trình độ chuyên m ôn kinh n gh iệm củ a ngirờỉ sử dụng Trình độ chun mơn kinh nghiệm thực tế người sừ dụng có ảnh hưởng lớn đến tiêu chí chọn iọc tài liệu chiến ỉược đánh số Trong trường hợp hệ thống có nhiều nhóm người sử dụng với trình độ chun mơn khác nên sừ dụng trình độ chun mơn n h dấu hiệu định vị đánh số tài liệu Nói cách khác, thuật n g thể trình độ chuyên môn phâi đuợc đưa vào từ vựng hệ thống để người sử dụng tìm tin theo thuật ngừ với thuật n g ữ thể nội dung tài liệu 96 Yêu cầu k ết qu ả cung cấp Trên sở kết khảo sát nhóm người sừ dụng, cần xác định tiêu chí ưu tiên người sừ dụng hệ thống hệ số đầy đủ hay hệ sổ xác kết tìm Nói cách khác, cần xác định người sử dụng mong muốn hệ thống cung cấp thư mục đầy đủ chuyên đề khoa học cụ hay quan tâm đến khả tiếp cận nhanh chóng số lượng nhỏ tài liệu chọn lọc Bên cạnh cần xác định người sử dụng chấp nhận kết tìm với mức độ Câu trả lời cho :âu hỏi Irên có ảnh hường đếri các; quyế' đỊr.h mức độ đầy đ ủ việc đánh số, đặc điểm ngơn ngữ tìm tin sừ dụng, loại trang thiết bị lựa chọn cho hệ thống T h ói quen tìm tin củ a ngư ời s d ụ n g h ệ thống, cần xác íỊnh người sừ dụng hệ thống nói chung tự tìm tin hay u cầu nhân viên hệ thống thực việc tìm tin? Thực tế cho thấy nhà nghiên cứu khoa học thực cơng trình nghiên cứu :ơ bàn thường thích tự tìm tin lchi chun gia thuộc lĩnh ^ực khoa học kỳ thuật thường giao việc tìm tin cho nhân viên :ủa hệ thống Thói quen tìm tin người sử dụng ảnh hưởng đến Ịuyết định m ứ c độ phức tạp hệ thống Nếu người sử dụng Tực tiếp s dụng hệ thống để tìm tin khơng nến xây dựng hệ -hống qu phức tạp khơng thể yêu cầu người sử dụng phải nắm ỉư ợ c tất c ả cách tìm tin phức tạp K nãng sử dụng ngọai ngữ để đọc tài liệu người sử Jụng yếu tố quan trọng cần tính đến xác định tiêu :hí chọn lọc tài liệu H ỉnh th ứ c cu n g cấp th ôn g tin đư ợc ưa thích Các yêu ;ầu cúa người sừ đụng hình thức kết tìm hệ •hống cung cấp, ví dụ dạng trích dần, tóm tắt, dạng in hay 97 vi p h im , ảnh hưởng đến định mức độ xừ lý tài liệu lựa chọn trang thiết bị thích họp cho hệ thống Bên cạnh đó, yêu cầu ảnh hường đến mức độ xác kết tìm người sử dụng chấp nhận Ngoài ra, c ũ n g phài xác định phương tiện thích hợp để trình bày liệu tìm (ví dụ, danh mục trích dẫn in giấy irên phiếu) cách xếp đừ liệu xếp theo tên lác giả, theo Icn tạp chí, theo thời gian xuất Các mẫu yêu cầu tin Nếu hệ thống tìm lin xây dựng để thay dịch vụ hay hệ thống có sần íhì phải có CcC mầu yêu cầu tin thường đặt cho dịch vu hay hộ thống trorm trình hoạt động Nếu xây dựng hệ thống hồn tồn phải u cầu nguời sử dụng tiềm hệ thống cung cấp ví dụ yêu cầu tin tiirớc họ đ ã đặi cho hệ thống tìm tin khác Bên cạnh đó, người sử dụn g tiềm phải đưa yêu cầu tin thực phản ánh nhu cầu tin cùa họ 4.2,1.2 Phân tích n cầu tin th ơn g tỉỉu ị n g Việc phân tích u cầu tin trước c sở thu thập ý kiến người sử dụng nghiên cứu hồ sơ lưu trừ hệ thống tìm tin lại cung cấp liệu quan trọng để thiết kế mơ hình mẫu hệ thống: Có thể phân loại chức ihuật ngữ Ihực yêu cầu tin phân tích mối quan hệ chúng Kết phân tích cho phép xác định mức độ cần thiết cơng cụ ngữ nghĩa Có thể phân tích mẫu yêu cầu tin từ góc độ logic (cú pháp tốn tử) tìm cần thiết hệ thống, 98 cần xác định vấn đề như: yêu cầu tin thường thực nào, sử dụng biểu thức tìm đơn gián với thuật ngữ hay sừ dụng biểu thức dài với nhiều thuật ngữ? M ức độ cần thiết quan hệ loại trừ? Có cần sử dụng tốn tử so sánh? Logic tìm hệ thống ảnh hường đến việc lựa chọn trang thiết bị ngôn ngừ sừ dụng để đánh chi số Kết tính số thuật ngừ sừ dụng yêu cầu tin cho phép xác đ ịrh so thiiậ*; ngữ 'irung bình phạm v: thc.y đổi thực Các liệu ảnh hưởng đáng kể đến mức độ đầy đủ việc đánh số Ví dụ, số lượng lớn yêu cẩu tin có kết hợp logic thuật ngừ nhiều việc đánh số với mức độ đầy đủ trung bình thuật ngữ tài liệu khơng ihích hợp M ức độ đặc trưng yêu cầu tin thề biểu thức lìm có ý nghĩa quan trọng, c ẩ n làm rõ phần lớn yêu :ằ u tin kháo sát thường yêu cầu loại địi hịi Lìm theo thuật ngừ tổng quát yêu cầu đòi hỏi mức độ :hính xác cao phải tìm theo thuật ngữ đặc tmng Việc phân tích mức độ giống u cầu tin thơng thường giúp đơn giản hóa việc lựa chọn mức độ đặc trưng cần thiết ngôn n g sử dụng để đ n h chi số việc xếp thuật íigừ theo cấp bậc Nếu phần lớn yêu cầu tin yêu cầu ;ương lự ihì đơn giản hóa q trình tìm tin cách cung :ấp mô ta tự động thuật ngừ tương đương tìm lương tự cách tự động Nếu tách khái niệm riêng biệt thề rõ loặc ẩn chứa u cầu tin phân tích khái 99 niệm để xác định mức độ phức tạp cùa chúng Kết qu ả phân tích có ảnh hường đến mức độ kết hợp thuật ngừ lựa chọn xây dựng ngôn ngừ đánh số hệ thống Ví dụ, Irong số trường hợp người sử dụng khái niệm “Phương tiện giao thông đường thủy” bẳng thuật ngữ Trong điều kiện khác, người sử dụng lại thích thề khái niệm kết hợp hai thuật ngừ riêng biệt Tóm lại, việc nghiên cứu, kết hợp sử dụng liệu thu thập trình khảo sát người sử dụng phân tích u cầu lin thơng thường giúp người thiết kế hệ thống hiểu rõ vẩn đề sau: - Cốt lõi lừ vựng thuật ngữ thể nhu cầu tin lĩnh vực quan tâm nhóm người sử dụng hệ thống Được phân nhóm iheo loại Iheo lĩnh vực, thuật ngữ tạo nên sở hệ thống phân loại, từ điền từ chuẩn bảng chi dẫn sử dụn g đánh chi sổ; - Các yêu cầu dừ liệu hệ thống thiết kế (hệ số đầy đủ cao, hệ số xác cao hai hệ số cao giai đoạn khác nhau); - M ức độ đầy đủ cằn thiết việc đánh chi số; - M ức độ đặc trưng cần thiết ngơn ngữ tìm tin sử dụng để đánh số; - M ức độ trang bị phương tiện hồ trợ cho hệ thống (số lượng loại phương tiện logic ng ữ nghĩa); - M ức độ phức tạp (có thể chấp nhận được) cùa hệ thống; - Các hình thức trình bày kết quà tìm 100 4.2.2 G iai đoạn 2; T hiết kế cấu trúc tổng quát cúa hệ th ốn g mơ hình mẫu (P rototype) giai đoạn rìày, người thiết kế hệ thống phải đưa nhiều định hệ thống Hai yếu tố quan trọng cần xác định phạm vi bao quát hệ thống nguồn lực có sẵn Bước xác định phạm vi bao quát hệ thống bao gồm lĩnh vực kiến thức chủ đề, loại hình tài liệu đươc đưa vào hệ thống, khối lượng tài liệu đưa vào đơn vị thời gian, số lượng tài liệu/biều ghi tích hợp hệ thống, giới hạn thời gian (ví dụ thời gian phục vụ) chi phí (ví dụ, chi phí xử lý tài liệu hệ thống), hình thức mơ tả tài liệu nhập vào hệ thống hình thức trình bày kết tìm Đồng thời, phải xác định loại dịch vụ cung cấp cho người sử dụng, loại yêu cầu tin, số lượng yêu cầu tin hệ thống có thề nhận đơn vỊ thời gian, hình thức thể yêu cầu tin Người thiết kế phải trọng đến nguồn lực có sẵn bao gồm nguồn nhân lực Người thiết kế phải xác định chức khác hệ thống thiết kế trình tự chức để tối ưu hóa hoạt động c ủ a hệ thống Điều đòi hỏi việc phân tích hệ thống phải thực cách chi tiết Hiệu hoạt động hệ thống thiết kế phụ thuộc nhiều vào mức độ hoàn thành việc phân tích hệ thống cách thức hoạt động phân hệ kết nối với Vì vậy, bước quan trọng giai đoạn phân chia hệ thống ihành nhiều phân hệ Có Ihể sừ dụng nhiều cách khác để chia phân hệ, có cách phân chia đơn giản phân chia theo nguyên tắc chức năng, với phân hệ lương ứng với chức Mồi phân hệ thực hoạt động theo m ộ t trình lự định nhằm bảo đảm hồn thành ỊOl nhiệm vụ hệ ihổng Mỗi hoạt độriỉỉ yểu tố liên quan phải xác định rõ ràng mối tương quan với hoạt động khác với cà hệ Ihống nói chung Buớc tiếp Iheo xác định thành phần cấu trúc đ ể thực hoạt động cùa phân hệ Các thành phần hệ thống tìm tin bao gồm ngơn ng tìm tin, tập tin tiêu chuẩn phù hợp ý nghĩa Khi lưa chon ngơn ngừ lìm tin cần phân tích ngơn ngừ tìm tin hữu yêu cầu hệ thố ng ngơn ngừ lìm lin mức độ đầy đủ, xác đặc tiomg D ự a kết khảo sát nhu cầu tin kết phân tích hệ thống, có Ihc lựa chọn hìnlì íhức tồ chức hệ ihổng hiệu vứi ngơn n g tìm tin thích hợp quyếi định mức độ đặc trưng ngôn ngữ tìm tin M ức độ thay đổi irong phạm vi tì: vựng; khái niệm quan trọng thể chi liết với irợ Ìúp thuậi ngừ đặc t m n g chủ đề bậc hai thể thuật ngừ chung Bên cạnh đó, cần xác định mức độ đầy đủ việc đánh chi số dự kiến ph ươ ng tiện nâng cao mức độ đầy đủ xác việc tìm tin Trước bắt đầu vận hành m hình mẫu, cần m rộng m ô hình ban đầu lừ vựng cách nghiên cứu từ vựng, phân tích bàng giải, sách tra cứu cơng trình nghiên cứu bàn lĩnh vực kiến thức iicn quan, bước nên Iham khảo ý kiến chuyên gia thuộc số lĩnh vực cụ thể m ô hình từ vựng phải cân nhắc nhận xél, đề nghị họ M hình giai đoạn chi m hình dự kiến sỗ hoàn chinh giai đoạn sau Việc lựa chọn cấu trúc cách tổ chức tập tin (thông tin tài liệu và/hoặc lài liệu gốc) lựa chọn liêu chuần phù hợp 102 ý nghTa chiến lược tìm tin có mổi liên quan với Vì vậy, lất đinh phải xem xét kỹ cấu trúc tổng thể cùa hệ thống giai đoạn phải phục vụ chi mục tiêu bảo đảm khả nàng thực chức cùa hệ thống mặt nguyên tắc Bước cuối xác định qui trình kỳ thuật hệ thống Qui trình kỳ Ihuật hệ thống tìm tin lập hợp thao tác đề thực nhiệm vụ hệ thống Mỗi thao tác có qui định tổ chức hoạt động người chương trình cho máy tính Trong hệ thống t’m tin có hri qiũ trình xử lý dòng tà: liệu xử Iv dòng vêu cầu tin bước phải liệt kê đầy đủ tài liệu đầu vào đầu hình thức biêu đạt chúng điêm khác qui trình Khi xây dựng qui trình cần trọng việc kiểm sốt tất thao tác thủ cơng giới hóa tự động hóa Trên thực tế, giai đoạn tạo sở để thực nhiệm vụ việc thiết kế hệ thống M hình mẫu thiết kế dựa tất n h ữ n s phân tích khảo sát Thiết kế mơ hình mẫu cài đặt đơn giản để kiểm tra xem hệ thống có thỏa mãn u cầu sử dụng hay khơng để chỉnh sửa bồ sung 4.2.3 Giai đoạn 3: V ận hành đánh giá m hình mẫu Nhiệm vụ giai đoạn vận hành đánh giá mơ hình mẫu nhằm xác định hiệu hoạt động hạn chế hệ thống Mồi phân hệ cùa hệ thống ihứ nghiệm đánh giá để xác định chịu tác độn g yếu tố khác Các kết đánh giá sè giúp người thiết kế xác định thay đổi điều chỉnh cần thực hệ thống Có ihề vận hành mơ hình mẫu cách đánh chì số số tài ỉiệu điển hình, tối thiểu từ l.o oo đến 2.000 tài liệu Việc đánh 103 chi số thực dựa từ vựng phác thảo ban đầu sử dụng phưcmg tiện nâng cao lực ng ữ nghĩa ngơn ngữ tìm tin sừ dụn g để đánh số N ếu trước xây dựng dần mối quan hệ giừa thuật ngừ nên đư a vào thử nghiệm M ức độ đầy đủ việc đánh chi số thử nghiệm khơng thấp mức độ nhóm người dù ng tin chấp nhận Khi phân tích kết q uả thử nghiệm thực hiện, người thiết kế hệ thống xác định mức độ đầy đù c ủ a việc đánh chì số tác động nhu đến m ức độ đầy đ ủ xác việc tìm tin Có thể phải thực nhiều cơng việc q trình đánh số tài liệu hệ thống thử nghiệm n h bồ sung chinh sừa từ điển thí n gữ dự a tài liệu có sẵn iĩnh vực liên quan; điều chỉnh dẫn; hoàn thiện hệ thống dẫn mối quan hệ thiết kế m ẫu thích hợp để điền kết đánh số Có thể thực nghiên cứu kết quà đánh số chuyên gia giai đoạn Nên phân công hai số chuyên gia đánh số cho nhóm tài liệu, sau nghiên cứu khác biệt việc lựa chọn thuật ng để mô tả tài liệu cụ thề Những nghiên cứu kiểu cằn thiết đề làm rõ vấn đề phát sinh đánh số tài liệu xác định loại thuật ngừ khó sử dụng nên dẫn đến kết đánh chi số thường bị sai nhiều; có cần định nghĩa thuật ngừ chi tiết hồn thiện cấu tiiíc cấp bậc thuật n g ? Kết cùa nghiên cứu hồ trợ người thiết kế hệ thống xây dựng qui định hướng dẫn đánh chi số MỘI n hữ ng bước quan trọng giai đoạn sử dụng hệ thống để thực yêu cầu tin thử nghiệm, số lượng yêu cầu tin thử nghiệm phải đủ lớn m ột phần yêu cầu tin phải chuẩn bị trước dựa Irên tài liệu có sẵn màng tin hệ thống Nếu trước tồ chức thử 104 nghiệm hệ Ihống chưa có hệ thống tìm tin thực chọn u cầu tin thử nghiệm từ: 1) Các yêu cầu tin người sử dụng tiềm hệ thống đáp ứng qua hệ thống tìm tin khác thơng qua kênh khơng thức; 2) Các u cầu tin người sử dụng đặt cho hệ thống lìm tin hệ thống đưa vào hoạt động thực Các thừ nghiệm giúp đánh giá hiệu q uả tìm tin dựa mức độ đầy đù xác kết qu ả tìm Trong trường hựp hiệu tìm tin thấp, vi a ụ knơng íìrn đ ọ c tài liệu thích hợp có hệ thống (bị m ất tin) kết qu ả tìm gồm nhiều tài liệu khơng thích hợp (độ nhiều tin cao) phải làm rõ ngun nhân q trình phân tích Đ iều quan trọng kết phân tích phải làm rõ đặc đ iể m hoạt đ ộ n g mơ hình thử nghiệm xác định hạn chế có cùa hệ thống Các kết thử nghiệm ban đầu với nhiều lài liệu yêu cầu tin khác giúp định hướng cho việc thực thử nghiệm cần thiết 4.2.4 G iai đ oạn 4: H oàn ch ỉn h th iết kế hệ th ốn g vận hành hệ thống c s k ết q u ả th nghiệm '^hiệm vụ cùa giai đoạn đưa hệ thống vào hoạt động thực Dựa kết thử nghiệm giai đoạn trước, chỉnh sửa m hình mẫu cần thiết Sau thiết kế xong, hệ thống hoàn chỉnh lắp đặt thử nghiệm điều kiện thực lế Một nhiệm vụ quan Irọng khác giai đoạn huấn luyện nhân để vận hành, khai thác hệ thống chuyên gia thiết kế hệ thống người thích hợp để thực nhiệm vụ 105 4.2.5 Giai đ o n 5: K iểm t r a , đ n h giá hệ th ố n g Theo thời gian, hiệu quâ hoạt động hệ ihốnơ thay đổi Các yêu cầu hệ thống thay phát triển tập tin Đặc biệt, cần quan tâm đến việc nâng cao mức độ xác việc lìm lin hệ thống phát triển Ngồi ra, lĩnh vực quan tâm nhóm người sừ dụng thay đổi tương ứng với thay đổi định hướng hoạt động tổ chức Vì vậy, cần có kế hoạch íhường xun kiểm tra đánh giá hệ ihống để xác định hiệu hoạt động cúa hệ thống Có thể sử dụng phương pháp thống kê kết tìm để kiểm tra liên tục chất lượng hệ ihốns Các kết phân lích hạn chế hệ thống tìm tin xem nhừng dừ liệu ban đầu để định liên quan đến chiến lược đánh số, phát triển từ vựng hồn chinh qui trình huấn luyện cách tìm tin Việc hồn từ vựna sè thực dựa sờ dừ liệu nhận irong q uá trình đánh chi số tìm tin Bên cạnh cần phái xác định phương pháp kiểm tra chất lượng dự phòng để Iránh trường hợp cung cấp kết tìm tin vói hệ số đầy đủ hệ số xác thấp Nếu cấu trúc hệ thống thiết kế dựa nhu cầu thực người sử dụng kiểm nghiệm kỳ lưỡng giai đoạn vận hành đánh giá mơ hình mẫu thường khơng cần có thay đổi lớn sau kiểm tra chất iượng Tuy nhiên, sở kết kiểm tra hệ thống thường xuyên, có Ihể cần điều chinh số khâu để hoàn ihiện hoạt động hệ thống như: bồ sung từ vựng tăng mức độ đặc trưng từ vựng số lĩnh vực; thay đổi tiêu chí lựa chọn tài liệu nhập vào hệ Ihống; hồn thiện chiến lược tìm tin sở kinh nghiệm tích lũy đư ợc 106 ... ve hệ thống tìm tin T h e o TC V N 5453 -1 9 91, hệ thống tìm tin hệ thống xăy dự ng nhằm tạo điều kiện cho việc tìm tin [8' Theo D.B Cleveland, hệ ihống tìm tin cơng cụ thực qu tiình tìm tin [14 ... tin Ihành hai ioại hệ thống tìm lin tư liệu hệ thống tìm tin dừ kiện Hệ thống tìm lin tư liệu hệ thống tìm tin xây dựng để tìm cung cấp thông tin tài liệu tài liệu Hệ thống tìm tin tư liệu đáp... tế, hệ thống tìm tin thư viện kết lỢp số hệ thống tìm tin tư liệu tìm tin dừ kiện, Đặc điểm chung lớn hệ thống tìm tin tư liệu hệ thống tìm lin dừ kiện đề đáp ứng yêu cầu tin đặt cho hệ thống,