bµi gi¶ng th«ng tin häc bµi gi¶ng th«ng tin häc ch¬ng 4 ch¬ng 4 lu tr÷ vµ t×m kiÕm th«ng tin lu tr÷ vµ t×m kiÕm th«ng tin PGS.TS. §oµn Phan T©n Th¸ng 2 - 2004 1. nguyên tắc lưu trữ thông tin 1. nguyên tắc lưu trữ thông tin Giả sử D là tập hợp các tài liệu: D={1,2,3,4,5,6,7,8} 1,2,3, . là các số hiệu của tài liệu, nó là đặc trưng hình thức của tài liệu T là tập hợp các chủ đề của tài liệu: T={A,B,C,D,E,F,G,H} Các từ khoá A=cây lúa, B=hoa màu, C=sâu bệnh, D=đất phèn E= cây ngô, F=thuỷ lợi,G=kỹ thuật trồng trọt, H=chăn nuôi, là đặc trưng nội dung của tài liệu Giữa D và T xác định quan hệ hai ngôi R: iRx nếu Tài liệu i nói về chủ đề x Quan hệ này xác định tập con R của tích Đề các D*T. Quan hệ này có thể biểu diễn bằng một ma trận, gọi là ma trận tư liệu ma trËn t liÖu ma trËn t liÖu T D A B C D E F G H 1 + + + 2 + + + + 3 + + + + 4 + + + 5 + + + 6 + + 7 + + + + + 8 + + + + ma trận tư liệu thể hiện hai nguyên tắc lưu trữ ma trận tư liệu thể hiện hai nguyên tắc lưu trữ thông tin thông tin Lưu trữ theo tài liệu: Cắt ma trận theo chiều ngang: mỗi TL ứng với một phiếu nêu lên những chủ đề của TL TL 1 ứng với t 1 ={A,C,G} TL 2 ứng với t 2 ={B,D,E,H} Lưu trữ theo nội dung chủ đề của tài liệu: Cắt ma trận theo chiều dọc: mỗi TK ứng với một phiếu ghi số hiệu của tất cả những TL có nội dung đề cập tới chủ đề đó Chủ đề A ứng với d A ={1,3,5,8} Chủ đề B ứng với d B ={2,4,5,7,8} Đây chính là các bản chỉ mục của TL, ghi trên phiếu hay biểu ghi mô tả thư mục của TL, ở mục Từ khoá Đây chính là các bản chỉ mục của TL, ghi trên phiếu hay biểu ghi mô tả thư mục của TL, ở mục Từ khoá Đây chính là các bảng đảo của TL. Chúng lập thành bộ phiếu đảo (phiếu lỗ soi, phiếu uniterm, biểu ghi trong tệp đảo của CSDL thư mục) Đây chính là các bảng đảo của TL. Chúng lập thành bộ phiếu đảo (phiếu lỗ soi, phiếu uniterm, biểu ghi trong tệp đảo của CSDL thư mục) các phương tiện lưu trữ thông tin các phương tiện lưu trữ thông tin Phương tiện lưu trữ thông tin truyền thống: Các bộ phiếu mục lục: Mục lục tác giả Mục lục chủ đề Mục lục địa lý Mục lục thời gian Mục lục xếp kho, . Phương tiện lưu trữ thông tin bán tự đông: Phiếu lỗ mép Phiếu lỗ soi Phương tiện lưu trữ thông tin tự động hoá: Các biểu ghi trong các tệp dữ liệu của CSDL thư mục Tệp chủ Tệp đảo 2. lưu trữ thông tin trên máy tính điện tử 2. lưu trữ thông tin trên máy tính điện tử Trong MTĐT thông tin được tổ chức và lưu trữ dưới dạng tệp dữ liệu. Các tệp lại có thể cấu trúc thành các biểu ghi, biểu ghi lại gồm nhiều trường. Trong công tác TTTL, các tệp lưu trữ các thông tin thư mục, gọi là tệp dữ liệu thư mục, ở đó: Mỗi biểu ghi là một bản mô tả thư mục Mỗi chỉ dẫn thư mục là một trường. Có 3 loại tệp: Tệp kế tiếp Tệp truy nhập trực tiếp Tệp đảo Việc quản lý dữ liệu trên máy tính được thực hiện bởi hai dạng chương trình: Hệ thống quản lý tệp Hệ thống quản trị CSDL Phần mềm quản trị CSDL tài liệu, gọi là phần mềm tư liêu, ví dụ: CDS/ISIS. 3. Tìm tin 3. Tìm tin 3.1. Phương thức tìm tin cơ bản 3.1. Phương thức tìm tin cơ bản Phương thức tìm tin cơ bản là phương trình, tìm còn gọi là biểu thức tìm. Cú pháp của biểu thức tìm được xây dựng trên cơ sở của các phép toán của logic mệnh đề: AND, OR, NOT, và một số phép toán khác. AND: nối 2 từ chuẩn trong bản chỉ mục của cùng một TL. OR: nối 2 từ chuẩn mà ít nhất một trong hai từ đó có trong bản chỉ mục của TL. NOT: nối 2 từ chuẩn mà từ thứ nhất có trong bản chỉ mục của TL, còn từ thứ hai thì không. Ví dụ: Q = C and (A or B) not E hay Q = C*(A+B)^E (trong ISIS) Câu trả lời là tập hợp: d Q = d c (d A d B )\d E 3.2. Quá trình tìm tin 3.2. Quá trình tìm tin Quá trình tìm tin gồm 7 bước: 1. Xác định câu hỏi 2. Thể hiện câu hỏi bằng ngôn ngữ tư liệu: lập biểu thức tìm (lệnh tìm). 3. Vạch ra chiến lược tìm: xác định bộ máy tra cứu sẽ sử dụng để tìm tin (mẫu tìm). 4. Thực hiện tìm: so sánh lệnh tìm với mẫu tìm để tìm ra tài liệu thích hợp. 5. Phân tích kết quả tìm, từ đó đánh giá tính đúng đắn của chiến lược tìm (có thể phải quay về bước 3) 6. Chuyển kết quả tìm cho người dùng tin. 7. Đánh giá tính phù hợp của thông tin nhận được (có thể phải quay về bước 1). 3.3. Tìm tin trên MTĐT thông qua bộ 3.3. Tìm tin trên MTĐT thông qua bộ phiếu đảo phiếu đảo CSDL thư mục với cấu trúc tệp đảo, có hai loại tệp dữ liệu: Tệp chủ: chứa các biểu ghi thư mục Các tệp đảo kết hợp với tệp chủ: chứa các giá trị của các trường, được lấy ra từ các biểu ghi trong tệp chủ, được coi là những điểm truy nhập thông tin. Cấu trúc logic của biểu ghi trong tệp đảo: Sâu bệnh 71,88 Cây lúa 25,71,88 Việt Nam 44,88 Chúng gọi chung là các bảng đảo Chúng gọi chung là các bảng đảo tìm tin với bộ phiếu đảo: tìm tin với bộ phiếu đảo: Quá trình tìm tin với bộ phiếu đảo: Thể hiện câu hỏi bằng biểu thức tìm. So sánh các điểm tiếp cận TT trong biểu thức tìm với các bảng đảo của chúng. Các bảng đảo ứng với các yếu tố trong biểu thức tìm được đưa ra trên một phiếu làm việc. Phiếu làm việc dùng để thực hiện các phép toán logic trong biểu thức tìm. Số hiệu các biểu ghi thoả mãn biểu thức tìm sẽ đư ợc chuyển qua bộ phiếu chủ để đưa ra câu trả lời. Xem sơ đồ trang 237 GT. Một ví dụ tìm tin trong CDS/ISIS [...]...lmô hình hoá quá trình tìm tin Giả sử D là tập hợp các TL, Q là tập hợp các câu hỏi Tìm tin thực chất là một quan hệ R ứng tập con DD với câu hỏi qQ Việc thực hiện quan hệ R trong thực tế là rất khó, vì số TL thường rất lớn Vì thế người ta không chọn trên D... các đặc trung nội dung của x rx tóm tắt của x Chúng gọi chung là Chúng gọi chung là các mẫu tìm của xx các mẫu tìm của Để thực hiện ánh xạ I người ta dùng ngôn ngữ tư liệu mô hình hoá quá trình tìm tin (tiếp) Câu hỏi q được biểu diễn bằng ngôn ngữ tư liệu dưới dạng một biểu thức tìm Như vậy biểu thức tìm cũng có thể coi là ảnh của q qua ánh xạ I, I:qI(q) Nhờ ngôn ngữ tư liệu, người ta có thể... tìm (lệnh tìm) với mẫu tìm để xem tài liệu có phù hợp hay không Việc so sánh này được thực hiện trên các bộ máy tra cứu: các bộ phiếu mục lục, các thư mục, các tệp của CSDL Xem mô hình ở hình 21, trang 242 GT . th«ng tin häc bµi gi¶ng th«ng tin häc ch¬ng 4 ch¬ng 4 lu tr÷ vµ t×m kiÕm th«ng tin lu tr÷ vµ t×m kiÕm th«ng tin PGS.TS. §oµn Phan T©n Th¸ng 2 - 20 04 . dùng tin. 7. Đánh giá tính phù hợp của thông tin nhận được (có thể phải quay về bước 1). 3.3. Tìm tin trên MTĐT thông qua bộ 3.3. Tìm tin trên MTĐT thông