Quá trình biểu diễn tài liệu được gọi là quá trình chỉ số hóa (indexing). Quá trình này có thể lưu trữ thực sự các tài liệu trong hệ thống, thông thường chỉ lưu trữ một phần tài liệu,
MỤC LỤC LỜI MỞ ĐẦU 4 PHẦN I: MỞ ĐẦU 6 1. Tính cấp thiết của luận văn .6 2. Mục đích, nhiệm vụ của luận văn .7 2.1 Mục đích của luận văn 7 2.2 Nhiệm vụ của luận văn 7 3. Phạm vi nghiên cứu 7 4. Nội dung luận văn 8 PHẦN II: NỘI DUNG 9 CHƯƠNG I: GIỚI THIỆU BỘ CÔNG CỤ TÌM KIẾM THÔNG TIN .9 1.1 Khái niệm bộ công cụ tìm kiếm thông tin 9 1.2 Bộ công cụ tìm kiếm thông tin trên mạng 13 1.3 Mô hình bộ công cụ tìm kiếm thông tin truyền thống 18 1.4 cấu trúc dữ liệu trong tổ chức và tìm kiếm thông tin .20 1.4.1 Bảng băm .20 1.4.1.1 Khái niệm hàm băm 20 1.4.1.2 Khái niệm bảng băm 22 1.4.1.3 Giải quyết xung đột 23 1.4.2 Cây cân bằng nhiều đường B - Tree 27 1.4.2.1 Định nghĩa cây B - Trees 27 1.4.2.2 Cây B* - Tree .29 1.4.2.3 Cây B + - Tree 29 1 1.4.2.4 Cây B Link – Trees .31 1.4.2.5 Lựa chọn phương pháp dữ liệu tần số .32 CHƯƠNG II: CÁC CÔNG CỤ TÌM KIẾM CƠ BẢN .33 2.1 Thu hồi trang Web 33 2.1.1 Web Crawler .33 2.1.2 Chọn lựa các trang .34 2.2 Lưu trữ .38 2.2.1 Sự phân tán trang theo các nút 39 2.2.2 Các phương pháp tổ chức trang vật lý .40 2.2.3 Các chiến thuật cập nhật 40 2.3 Lập chỉ mục 43 2.1.1 Cấu trúc của bảng chỉ mục .45 2.1.2 Một số thách thức 46 2.3.3 Chia bảng chỉ mục 46 2.4 Sắp xếp và phân tích liên kết 48 2.4.1 Phương pháp PageRank .49 2.4.2 Phương pháp HIST 54 CHƯƠNG III: THIẾT KẾ CÁC CÔNG CỤ TÌM KIẾM THÔNG TIN TRÊN MẠNG .61 3.1 Mô đun lập chỉ mục 62 3.1.1 Khái niệm chỉ mục 62 3.1.1 Các cấu trúc lưu chỉ mục 62 3.1.2 Các bước xây dựng chỉ mục theo phương pháp Inverted files 68 3.1.4 Lập chỉ mục với nguồn dữ liệu đầu vào .76 3.2 Mô đun tìm kiếm 77 2 3.2.1 Các dạng truy vấn .80 3.2.2 Phân tích cú pháp truy vấn .81 3.2.3 Các phương pháp giải quyết vấn đề 83 3.3 Mô đun sắp xếp 82 Các mô hình sắp xếp và đánh giá 82 1. Mô hình Boolean .83 2. Mô hình không gian vector .84 PHẦN III: KẾT LUẬN .90 1. Kết quả đạt được trong luận văn .90 2. Hướng phát triển trong tương lai 91 TÀI LIỆU THAM KHẢO 94 PHỤ LỤC .98 3 DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ TIẾNG ANH Thuật ngữ tiếng anh Tiếng Việt Viết tắt CONTENT INDEX Chỉ mục nội dung CRAWLER Bộ thu hồi COLLECTION ANALYSIS MODULE Mô đun phân tích tập hợp MATCHING PROCESS Quá trình đối sánh FULL - TEXT INDEX Chỉ mục toàn văn bản HASHING SCHEME Sơ đồ băm REVLEVANCE Mức độ liên quan INDEX Bảng chỉ mục INVERTED FILE Tập tin đảo INVERTED INDEX Chỉ mục ngược INFORMATION RETRIEVAL Hệ thống tìm kiếm IR PAGERANK STRUCTURE INDEX Cấu trúc bảng chỉ mục S EARCH ENGINE Hệ tìm kiếm SIGNATURE FILE STANDFORD WEBBSE QUERY FORMULATION PROCESS Biểu diễn truy vấn QUERY ENGINE Công cụ truy vấn Uniform Resource Location Địa chỉ một trạm trên Internet URL USER Người sử dụng UTILYTI INDEX Bảng chỉ mục tiện ích WEB CRAWLER Bộ thu hồi DANH MỤC CÁC HÌNH VẼ 4 Hình 1: Quy trình tìm kiếm thông tin Hình 2: Bộ công cụ tìm kiếm trang Wed Hình 3: Mô hình bộ công cụ tìm kiếm truyền thống Hình 4: Cấu trúc bảng băm Hình 5: Giải thuật tìm kiếm và chèn một khóa vào bảng băm Hình 6: Cấu trúc cây B- tree Hình 7: Cấu trúc cây B + - Tree Hình 9: Kiến trúc cây lưu trữ Hình 10: Mô hình lập chỉ mục Web Hình 11: Minh họa các giá trị PageRank Hình 12: Thuật toán HITS Hình 13: Mô hình tạo nhã với mỗi khối Lôgíc Hình 14: Cấu trúc File dạng SSF Hình 15: Inverted File sử dụng mảng sắp xếp Hình 16: Khái quát mô hình lập chỉ mục Hình 17: Mô hình bộ phân tích Hình 18: Cấu trúc bộ đệm chỉ mục 5 LỜI MỞ ĐẦU Trong xã hội phát triển thông tin thực sự trở thành nguồn tài nguyên quan trọng, nguồn của cải to lớn của xã hội. Các mối quan hệ, tính trật tự của tổ chức là những thuộc tính căn bản của mọi hệ thống kinh tế - xã hội. Hệ thống càng phát triển tức là càng có nhiều yếu tố tạo thành mối quan hệ giữa chúng càng phức tạp do đó lượng thông tin càng phong phú. Chính vì vậy mà ngày nay cùng với sự phát triển của Công nghệ Thông tin cũng như sự phát triển nhanh chóng của mạng máy tính toàn cầu và sự bùng nổ thông tin, các kho dữ liệu số đã được hình thành ở khắp mọi nơi và không ngừng gia tăng về dung lượng, nhưng thông tin thì vẫn luôn là cần thiết thậm chí thiếu với họ. Các kho dữ liệu này ẩn chứa một hàm lượng thông tin vô cùng lớn. Nhưng vấn đề đặt ra là làm thế nào để “khai thác, tìm kiếm” tổng hợp kho thông tin đó để cho nó trở nên hiệu quả và có giá trị đối với người dùng. Những thông tin này được lưu trữ và biểu diễn ở rất nhiều dạng khác nhau như văn bản, âm thanh, hình ảnh vv . có thể nói : “khối lượng dữ liệu khổng lồ mà người sử dụng có thể truy xuất nếu không được tổ chức lưu trữ tốt và kèm theo một phương thức xử lý hiệu quả để có thể khai thác và tìm kiếm lượng thông tin trong đó thì chúng cũng chỉ là những thông tin chết chứ không mang lại chút lợi ích nào cả ”. Để giải quyết vấn đề này, người ta đã xây dựng các hệ thống tìm kiếm thông tin. Nó giúp con người tìm kiếm và chọn lọc ra những tài liệu có chứa thông tin cần thiết. Do người sử dụng luôn yêu cầu kết quả tìm kiếm chính 6 xác, đầy đủ và với các vận tốc tìm kiếm nhanh nên các hệ thống tìm kiếm thông tin luôn được nghiên cứu và phát triển cùng với các kỹ thuật, thuật toán tìm kiếm hiệu quả và tối ưu nhất. Luận văn “Bộ công cụ tìm kiếm thông tin trên mạng ” không đặt mục tiêu chính là xây dựng một hệ thống hoàn chỉnh, mà trình bày phần lý thuyết để đảm bảo cho một hệ thống tìm kiếm. Với hy vọng là tìm hiểu các chiến thuật, thuật toán để tổ chức một bộ công cụ tìm kiếm tối ưu, đưa ra đáp ứng người dùng với thời gian ngắn nhất và các kết quả có độ liên quan tới truy vấn cao nhất và có nhiều lựa chọn để người dùng có thể can thiệp vào hệ thống. Để xây dựng được luận văn này em đã được sự quan tâm hướng dẫn chỉ bảo tận tình của PGS – TS KH Vũ Đình Hòa, cùng với sự giúp đỡ của bạn bè đã tạo điều kiện thuận lợi cho em được hoàn thành nhiệm vụ. Em xin trân thành cảm ơn sự giúp đỡ quý báu này. Hà Nội, ngày tháng năm 2006 Người thực hiện Bùi Thị Minh Tuyết 7 PHẦN I : MỞ ĐẦU 1.Tính cấp thiết của luận văn: Ngày nay, do nhu cầu học tập, giải trí, trao đổi thông tin của con người là rất lớn. Để đáp ứng nhu cầu đó thì con người đã đạt được những tiến bộ công nghệ cùng với sự phát triển của những lý thuyết trong lĩnh vực xử lý thông tin đã giải quyết được phần nào các vấn đề đặt ra. Chẳng hạn, như các bài toán trong xử lý văn bản như tìm kiếm, phân lớp, phân cụm văn bản, vv . Information retrieval (IR) là một trong vấn đề quan tâm hiện nay. Nghiên cứu về vấn đề IR có rất nhiều khó khăn, bởi ngay cả với những hệ tìm kiếm nổi tiếng mà chúng ta thấy thường xuyên trên mạng Internet như Gooogle, Altaarista, Yahoo, . là các hệ tìm kiếm tự động nhưng vai trò của người dùng rất hạn chế, các hạn chế tiêu biểu thường gặp có thể được liệt kê ra như sau: Khi người sử dụng đưa ra một vấn đề truy vấn, thì hệ thống sẽ trả ra kết quả thường là hàng nghìn tài liệu hoặc thậm trí là lớn hơn rất nhiều, khi đó người sử dụng sẽ phải mất thời gian đọc nội dung của từng loại tài liệu để tìm kiếm thông tin mà mình quan tâm và đặc biệt người sử dụng không thể can thiệp để có thể tìm kiếm tài liệu theo ý muốn của mình. Một bài toán khác trong tìm kiếm thông tin - Vấn đề sắp xếp các tài liệu theo độ liên quan (Relevancy ranking) cũng là một vấn đề đang được quan tâm và phát triển. Đặc biệt trong những năm gần đây cùng với sự gia tăng của các nguồn thông tin điện tử sẵn dùng đã dẫn đến việc tìm kiếm tài liệu phù hợp nhất trong tập tài liệu nguồn ngày càng trở nên khó khăn đối với con người và máy tính. 8 2. Mục đích , nhiệm vụ của luận văn 2.1. Mục đích của luận văn: Luận văn tập chung nghiên cứu các mô hình tìm kiếm thông tin truyền thống và mô hình tìm kiếm thông tin trên mạng bên cạnh đó cũng tập chung nghiên cứu và phân tích các đặc tính cấu trúc chung của một mô hình tìm kiếm thông tin dựa trên cơ sở lý thuyết. 2.2. Nhiệm vụ của luận văn: Luận văn phải thực hiện được các nhiệm vụ sau: 2.2.1.Nghiên cứu về bộ công cụ tìm kiếm thông tin . 2.2.2.Nghiên cứu các mô hình bộ công cụ tìm kiếm thông tin truyền thống. 2.2.3.Nghiên cứu các mô hình bộ công cụ tìm kiếm thông tin trên mạng. 3. Phạm vi nghiên cứu Kết quả đề tài là bước đầu nghiên cứu, tổng hợp các vấn đề lý thuyết tron bài toán “Bộ công cụ tìm kiếm thông tin trên mạng”. Dựa vào mô hình lý thuyết để tiến hành cài đặt một số chức năng hỗ trợ cho việc thiết kế bộ công cụ tìm kiếm trên mạng. 4. Nội dung luận văn : Luận văn gồm 3 chương CHƯƠNG 1: GIỚI THIỆU BỘ CÔNG CỤ TÌM KIẾM THÔNG TIN Gồm các nội dung sau : 1. Kh¸i niÖm bé c«ng cô t×m kiÕm th«ng tin 9 3. Mô hình bộ công cụ tìm kiếm thông tin truyền thống 4. Mô hình bộ công cụ tìm kiếm thông tin trên mạng 5. Cấu trúc dữ liệu trong tổ chức lu trữ và tìm kiếm thông tin CHNG 2: CC CễNG C C BN Gm cỏc ni dung sau : 1. Thu hồi trang Web 2. Lu trữ 3. Lập chỉ mục 4. Sắp xếp và phân tích liên kết CHNG 3 :THIT K CC CễNG C H TR TèM KIM THễNG TIN TRấN MNG Gm cỏc ni dung sau : 1. Môđul tìm kiếm 2. Môđun sắp xếp 3. Môđul lập chỉ mục 10 [...]... Chỉ số tài liệu, Chỉ số trường Từ, trọng số Cơ Sở Dữ Liệu Tìm Kiếm Tập tài liệu liên quan Chuẩn hóa từ Hoạt động Boolean Từ truy vấn Phân tích cú pháp truy vấn Sắp xếp Truy vấn Giao diện sử dụng Phản hồi độ liên quan Truy vấn Tập tài liệu thu hồi đư ợc Tập tài liệu đã sắp xếp Tập tài liệu tìm kiếm Người sử dụng Hình 3 : Mô hình bộ công cụ tìm kiếm truyền thống 21 Khi xõy dng c s d liu, ni dung ca tp... chỉ mục WW W Mô dule Phân tích tập hợp Công cụ tìm kiếm Kết quả Sắp xếp Điều khiển Thu Hồi Bảng chỉ mục : Văn Bản Cấu trúc Tiện ích Phản hồi Hỡnh 2 : B cụng c tỡm kim trang Web 17 hỡnh trờn em a ra mụ hỡnh tng quan ca mt b cụng c tỡm kim Web Mi b cụng c u s dng mt mụ un Crawler thu hi ti liu cung cp cho cỏc hot ng ca nú B thu hi l mt nhúm cỏc chng trỡnh thay mt b cụng c duyt cỏc trang Web, tng t nh... ba quỏ trỡnh c bn sau: Biu din ni dung cỏc ti liu, biu din yờu cu ca ngi s dng v so sỏnh hai biu din ny Bài toán thông tin Văn bản Biểu diễn Biểu diễn Error: Reference source not found Truy vấn Văn bản đã chỉ số hoá So sánh Phản hồi Các văn bản được tìm kiếm Hình 1: Quy trình tìm kiếm thông tin 12 Quỏ trỡnh biu din ti liu c gi l quỏ trỡnh ch s húa (indexing) Quỏ trỡnh ny cú th lu tr thc s cỏc ti liu... thng tỡm kim thụng tin v sau ú s cú nhng ỏnh giỏ khỏc nhau v mc liờn quan trờn cỏc ti liu ó tỡm c Tỡm kim trờn cỏc thụng tin núi chung gii quyt cỏc vn nh biu din, lu tr, t chc v truy cp n cỏc mc thụng tin Vic t chc v biu din thụng tin giỳp ngi s dng d dng truy cp thụng tin m mỡnh quan tõm Nhng mụ t c im thụng tin yờu cu ca ngi s dng khụng phi d dng Vỡ th, h thng tỡm kim thụng tin bao gm ba quỏ trỡnh... trc ht cỏc vn bn v truy vn dng ngụn ng t nhiờn phi c tin x lý v chun húa Mt mụ hỡnh ca quỏ trỡnh thit lp truy vn c chun húa thnh hai vn : u tiờn l chn cỏc ternm truy vn v th hai l la chn cỏc phộp toỏn truy vn Di õy em a ra hai mụ hỡnh chi tit cho b cụng c tỡm kim thụng tin truyn thng v b cụng c tỡm kim thụng tin trờn mng 1.2 B cụng c tỡm kim thụng tin trờn mng Do cỏc trang Web phõn tỏn trờn mi ni nờn... mt lnh vc c th t c hiu qu ỏp ng thụng tin yờu cu ca ngi dựng, h thng IR phi bng cỏch no hiu c cỏc ni dung ca thụng tin (cỏc vn bn) trong mt tp hp v sp xp chỳng theo mc phự hp vi truy vn S hiu bit v ni dung vn bn ny bao gm s trớch chn cỳ phỏp v ng ngha thụng tin t vn bn v s dng thụng tin ny so khp vi thụng tin ngi dựng Cỏi khú l khụng ch hiu trớch chn thụng tin ny nh th no m cũn l hiu cỏch s dng...PHN II: NI DUNG CHNG I GII THIU B CễNG C TèM KIM THễNG TIN 1.1 Khỏi nim b cụng c tỡm kim thụng tin Thut ng tỡm kim thụng tin xut hin t khỏ sm, cỏc thụng tin th hin nhiu dng khỏc nhau, cú th l dng vn bn, õm thanh hoc hỡnh nh,vv M ph bin nht l tỡm kim vn bn (bao gm vic tỡm kim hoc sp xp vn bn), c bit l trong cỏc cụng c tỡm kim Nhiu lỳc, thut ng ny c dựng nh l ton b quỏ trỡnh t vic x... ra cỏc bng ch mc tin ớch khỏc h tr cho quỏ trỡnh thu hi thụng tin Bng ch mc tin ớch (Utilyti index) c to ra bi mụun phõn tớch tp hp Bng ch mc tin ớch cú th cho phộp vic truy cp ti cỏc trang vi di cho trc, hoc l cỏc trang cú mc quan trng no ú, hoc l cỏc trang vi mt s cỏc hỡnh nh trong chỳng Mụun phõn tớch tp hp cú th s dng cỏc bng ch mc vn bn hoc bn ch mc cu trỳc to ra bn ch mc tin ớch Trong sut... kinh khng hn, kớch thc ca trang Web s tng lờn gp ụi trong vũng hai nm v t l ú s tip tc tng WW W trong hai nm tip theo Module Lập chỉ mục Xong bờn cnh cỏc trang va Mô dule Phân tích tập hợp c to Công cụ tìm kiếm Sắp xếp ra thỡ cỏc trang ang tn ti cng luụn luụn c cp nht, chng hn, theo dừi hn na triu trang trong cỏc min nh .com thỡ phi cú n 40% cỏc trang c thay i hng Điều khiển ngy Cng vi kớch thc rt... vn ngi dựng mc dự vic tỡm kim cú th a ra mt ti liu khụng thớch hp 14 Vy, khụi phc thụng tin l mt quỏ trỡnh nhn dng, xỏc nh v ch ra cỏc ti liu liờn quan da trờn mụ t yờu cu thụng tin ca ngi s dng Vic tỡm kim cỏc ti liu da trờn ni dung thc s ca vn bn m khụng ph thuc vo cỏc t khúa gn vi vn bn ú Cỏc cụng c vn bn ni ting hin nay nh Google, Altaavista, Yohoo, l nhng h tỡm kim a ra danh sỏch cỏc vn bn theo