NGHIÊN CỨU, PHÂN TÍCH CÁC CÔNG CỤ TÌM KIẾM - ĐỀ XUẤT CẢI TIẾN

59 1.3K 1
NGHIÊN CỨU, PHÂN TÍCH CÁC CÔNG CỤ TÌM KIẾM - ĐỀ XUẤT CẢI TIẾN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TRẦN QUANG PHÁT NGHIÊN CỨU, PHÂN TÍCH CÁC CÔNG CỤ TÌM KIẾM - ĐỀ XUẤT CẢI TIẾN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 01 KHÓA LUẬN TỐT NGHIỆP THẠC SĨ Trần Quang Phát – CH1101119 1 / 59 Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm TP.HCM - 2013 MỞ ĐẦU Có thể nói, Internet ra đời là một bước ngoặt lịch sử của nhân loại. Nó mở ra một thế giới thông tin và truyền thông vô cùng rộng lớn cho con người, mang con người đến gần nhau hơn. Với một tốc độ phát triển nhanh chóng từ số lượng đến chất lượng đường truyền, nội dung phong phú, Internet chính là liên mạng máy tính toàn cầu. Internet khai sáng một kỷ nguyên mới mà ở đó con người có thể tìm kiếm, khai thác thông tin, trao đổi, học tập, … thông qua một thế giới ảo nhưng lại vô cùng tiện ích. Internet là một kho tài nguyên vô tận được cung cấp bởi hàng triệu trang web trên khắp thế giới. Các thông tin này rất đa dạng và có thể đúng, cũng có thể sai hoặc chưa đầy đủ, cần thiết hoặc không cần thiết, do đó người sử dụng cần phải tìm kiếm thông tin từ nhiều nguồn khác nhau và sau đó so sánh, tổng hợp để có được kết quả như mong muốn. Ngoài ra việc tìm kiếm được đúng thông tin cần thiết cũng không phải là chuyện dễ dàng. Hiện nay có rất nhiều trang web với công cụ tìm kiếm đã giúp cho người sử dụng Internet rất nhiều trong việc tìm kiếm thông tin như: Google, Yahoo!Search, Bing, … Mỗi hãng phần mềm có những công cụ tìm kiếm với những ưu điểm và tính năng khác nhau. Người dùng thì luôn mong muốn có được một công cụ tìm kiếm tốt nhất, có thể tìm kiếm được những kết quả gần đúng với mong muốn của mình nhất, còn các hãng phần mềm cũng mong muốn phát triển công cụ tìm kiếm của họ sao cho có thể đáp ứng được tốt nhất cho người dùng. Chúng ta hãy cùng nhau tìm hiểu những công cụ tìm kiếm, cùng nhau tìm hiểu tính năng, ưu điểm cũng như nhược điểm của các công cụ tìm kiếm nổi tiếng hiện nay. Bài báo cáo tập trung nghiên cứu công nghệ của các công cụ tìm kiếm, tìm hiểu các tính năng nổi trội của các hãng tìm kiếm nổi tiếng, để cho người dùng có một cái nhìn khách quan, đúng đắn về các hãng tìm kiếm, từ đó có thể đưa ra nhận định công cụ tìm kiếm nào là tốt và đáp ứng được yêu cầu của mình. Đồng thời bài báo cáo cũng đưa ra một số đóng góp cải tiến các công cụ tìm kiếm, tuy các ý kiến còn mang tính chủ quan và nhỏ nhưng thiết nghĩ nó cũng có đóng góp ít nhiều cho các công cụ tìm kiếm. Trần Quang Phát – CH1101119 2 / 59 Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm DANH SÁCH CÁC HÌNH VÀ BẢNG BIỂU Trần Quang Phát – CH1101119 3 / 59 Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm Mục lục Trần Quang Phát – CH1101119 4 / 59 Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm Chương I TỔNG QUAN VỀ MÁY TÌM KIẾM I. Khái quát về công cụ tìm kiếm thông tin 1. Khái niệm công cụ tìm kiếm thông tin Thuật ngữ tìm kiếm thông tin xuất hiện từ khá sớm, thông tin ở đây tồn tại dưới nhiều dạng như: văn bản, hình ảnh, âm thanh, … mà phổ biến nhất là dạng văn bản. Chúng ta có thể hiểu một cách đơn giản, Search Engine là một công cụ (phần mềm) tìm kiếm nhằm tìm ra các trang web trên mạng internet dựa vào thông tin mà nó có. Search Engine có một cơ sở dữ liệu vô cùng lớn. Công cụ này tìm các tài liệu dựa trên các từ khóa (keyword) và trả về một danh sách các trang web có chứa từ khóa cần tìm. Một hệ thống tìm kiếm thông tin là một chương trình phần mềm, dùng để lưu trữ và quản lý thông tin nằm trong các tài liệu. Hệ thống này sẽ giúp người sử dụng tìm kiếm thông tin mà họ quan tâm. Các hệ thống này không giống như các hệ thống trả lời câu hỏi, nó chỉ ra sự tồn tại và vị trí của các tài liệu có chứa thông tin cần thiết. Một số tài liệu tìm kiếm được thỏa mãn theo cầu của người sử dụng gọi là các tài liệu phù hợp hay tài liệu liên quan. Một hệ thống tìm kiếm tốt sẽ chỉ tìm và đưa ra các tài liệu liên quan mà không đưa ra các tài liệu không liên quan. Tuy nhiên, điều này khó tồn tại bởi các thể hiện tìm kiếm là không đầy đủ mà mức độ liên quan phụ thuộc vào quan điểm chủ quan của từng người. Hai người sử dụng có thể đưa ra cùng một truy vấn với một hệ thống tìm kiếm thông tin, và sau đó sẽ có những đánh giá khác nhau về mức độ liên quan trên các tài liệu tìm được. Về cơ bản, Search Engine dùng để chỉ hai hệ thống tìm kiếm: một do các chương trình máy tính tự động tạo ra (Crawler-Based Search Engines) và dạng do con người quản lý (Human-Powered). Hai hệ thống tìm kiếm này tìm và lập danh sách chỉ mục website theo hai cách khác nhau. 1.1. Crawler-Based Search Engine Hệ thống tìm kiếm trên nền tự động, đó là những cổ máy tìm kiếm tự động như Google, Bing, … tạo ra những danh sách một cách tự động. Chúng sử dụng các chương trình máy tính được gọi là “robots”, “spider” hay “crawlers” để truy tìm các thông tin trên mạng internet. Các crawler này sẽ đến một trang web, đọc các thông tin thực sự của trang web đó, đọc các thẻ meta của trang web và cũng tìm đến các liên kết (link) mà trang web đó liên kết đến. Các crawler này sẽ gửi tất cả các thông tin về trung tâm lưu trữ để phân tích các dữ liệu. Crawler sẽ quay trở lại các trang web đó một cách định kỳ để cập nhật sự thay đổi trên trang web đó, và chu kỳ cập nhật này là do người quản trị của công cụ tìm kiếm đó đặt ra. 1.2. Human-Powered Các công cụ tìm kiếm Human-Powered thì lại tìm kiếm vào các thông tin được liệt kê ra bởi người quản trị trang web, sau đó các thông tin này sẽ được phân tích, liệt kê và đưa vào hệ thống. Chỉ những thông tin được đưa ra bởi người quản trị web mới được đưa vào bảng liệt kê. Trần Quang Phát – CH1101119 5 / 59 Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm 2. Mô hình bộ công cụ tìm kiếm Tìm kiếm trên các thông tin nói chung giải quyết các vấn đề như biểu diễn, lưu trữ, tổ chức và truy cập đến các mục thông tin. Việc tổ chức và biểu diễn thông tin giúp người sử dụng dễ dàng truy cập thông tin mà mình quan tâm. Nhưng để mô tả đặc điểm thông tin yêu cầu của người sử dụng là không dễ dàng. Vì thế, hệ thống tìm kiếm thông tin bao gồm 3 quá trình cơ bản sau: • Biểu diễn nội dung các tài liệu. • Biểu diễn yêu cầu của người tìm kiếm. • So sánh hai biểu diễn. Hình : Quy trình tìm kiếm thông tin Quá trình biểu diễn tài liệu được gọi là quá trình đánh chỉ số. Quá trình này có thể lưu trữ thực sự các tài liệu trong hệ thống, nhưng thông thường chỉ lưu một phần tài liệu như: phần tiêu đề và tóm tắt nội dung. Quá trình biểu diễn yêu cầu của người sử dụng gọi là quá trình truy vấn. Truy vấn biểu thị sự tương tác giữa hệ thống với người sử dụng. Việc so sánh truy vấn với tài liệu được gọi là quá trình đối sánh và cho kết quả là một danh sách các tài liệu được sắp xếp theo mức độ liên quan tới truy vấn. Như vậy, để mô tả thông tin yêu cầu một cách đầy đủ thì người sử dụng không thể trực tiếp yêu cầu thông tin mà phải sử dụng các giao diện của hệ thống tìm kiếm. Đầu tiên, người sử dụng phải chuyển đổi thông tin yêu cầu này thành một truy vấn mà có thể được xử lý bởi hệ thống tìm kiếm (hoăc hệ thống thu hồi thông tin – Information Retrieval – IR). Thông thường, phép chuyển đổi này tạo ra một tập hợp các từ khóa mô tả khái quát yêu cầu của người sử dụng. Như vậy, việc tìm kiếm các tài liệu dựa trên nội dung thực sự của văn bản mà không phụ thuộc vào các từ khóa gắn với văn bản đó. Các công cụ tìm kiếm văn bản nổi tiếng như: Google, Yahoo, … là những hệ tìm kiếm đưa ra danh sách các văn bản theo độ quan trọng của câu hỏi đưa vào. Trần Quang Phát – CH1101119 6 / 59 Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm Để xây dựng một hệ tìm kiếm văn bản có hiệu quả cao, trước hết các văn bản và truy vấn ở dạng ngôn ngữ tự nhiên phải được tiền xử lý và chuẩn hóa. Có 2 bộ tìm kiếm cơ bản: 2.1. Bộ công cụ tìm kiếm truyền thống Vào những năm 70, khi các mô hình tìm kiếm thông tin chủ yếu được xử lý với các truy vấn không có cấu trúc. Nguyên tắc hoạt động của hệ thống truy vấn tự động chỉ số hóa và thiết lập các công thức truy vấn. Kết quả đưa ra là một biểu diễn có ý nghĩa gần với ý nghĩa thực của văn bản, loại bỏ các từ không theo quy tắc trong ngôn ngữ tự nhiên đến mức có thể. 2.2. Bộ công cụ tìm kiếm trên mạng Do các trang web phân tán ở khắp mọi nơi nên điều đầu tiên là chúng ta phải thu thập được tất cả các dữ liệu web có liên quan đến truy vấn và lập chỉ mục, sau đó thực hiện tìm kiếm để đưa ra tập kết quả có liên quan tới nội dung truy xuất. Mô hình này rất phức tạp bởi kho dữ liệu cực lớn với tỷ lệ thay đổi nội dung cao. II. Các bộ phận cấu thành hệ thống tìm kiếm 1. Thu thập thông tin Các hệ thống tìm kiếm sử dụng phần mềm như “robot”, “spider” hay “webcrawler” để khám phá các trang web công khai hiện có. Các chương trình này sẽ tự động dò tìm và phân tích những trang web công khai hiện có, và dò theo liên kết trên các trang đó. Chúng đi từ liên kết này tới liên kết khác và mang dữ liệu về các trang web đó về máy chủ Search Engine. 2. Lập chỉ mục Hệ thống lập chỉ mục hay còn gọi là hệ thống phân tích và xử lý dữ liệu, thực hiện việc phân tích, trích chọn những thông tin cần thiết (thường là các từ đơn, từ ghép, cụm từ quan trọng) từ những dữ liệu mà robot thu thập được và tổ chức thành cơ sở dữ liệu riêng để có thể tìm kiếm trên đó một cách nhanh chóng và hiệu quả. Lập chỉ mục là giai đoạn phân tích tài liệu, để xác định các chỉ mục biểu diễn nội dung của tài liệu. Giống như chỉ mục của một cuốn sách, chỉ mục của bộ lập chỉ mục cũng bao gồm thông tin về các từ và vị trí của chúng. Khi chúng tìm kiếm, ở mức cơ bản nhất, các thuật toán sẽ tra cứu những cụm từ tìm kiếm trong chỉ mục để tìm các trang phù hợp. 3. Bộ tìm kiếm thông tin Search Engine là cụm từ dùng chỉ toàn bộ hệ thống bao gồm bộ thu thập thông tin, bộ lập chỉ mục và bộ tìm kiếm thông tin. Các bộ này hoạt động liên tục từ lúc khởi động hệ thống, chúng phụ thuộc lẫn nhau về mặt dữ liệu nhưng độc lập với nhau về mặt hoạt động. Search Engine tương tác với người dùng thông qua giao diện web, có nhiệm vụ tiếp nhận và trả về những tài liệu thỏa yêu cầu của người dùng. Trần Quang Phát – CH1101119 7 / 59 Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm 4. Bộ Query Engine Bộ truy vấn này có nhiệm vụ nhận và tìm kiếm các yêu cầu của người dùng. Bộ công cụ này sẽ dựa vào bảng chỉ mục và các kho lưu trữ để tìm kiếm. Vì cơ sở dữ liệu web rất lớn, thêm vào đó khi tìm kiếm ta chỉ đưa vào một vài từ khóa sau đó sẽ nhận được một tập kết quả tìm kiếm. Do đó, phải có một module sắp xếp kết quả theo thứ tự sao cho nó gần với nội dung cần tìm nhất. 5. Sắp xếp Đây là module có chức năng sàng lọc thông tin từ hàng tỷ trang web tương tự nhau để sắp xếp vị trí từng trang sao cho phù hợp nhất. Trần Quang Phát – CH1101119 8 / 59 Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm Chương II CÁC CÔNG CỤ CƠ BẢN I. Thu hồi trang Web Module Robot có nhiệm vụ thu hồi các trang web để hỗ trợ cho các module sau. Module Robot có đầu vào là một tập các giá trị khởi tạo URL, chúng được thu hồi và sắp xếp theo thứ tự ưu tiên nào đó. Robot lấy một giá trị URL, tải trang tương ứng xuống rồi trích tất cả giá trị URL nằm trong trang, đặt vào kho lưu trữ, quá trình này được lặp đi lặp lại cho tới khi Robot quyết định dừng. Hoạt động của Robot thường được sử dụng vào những mục đích sau: • Phân tích, thống kê Robot đầu tiên được dùng để đếm số lượng web server, số tài liệu trung bình của một server, tỉ lệ các dạng tập tin khác nhau, kích thước trung bình của một trang web, độ kết dính, … • Duy trì siêu liên kết Một trong những khó khăn của việc duy trì một siêu liên kết là nó liên kết tới những trang bị hỏng, khi những trang này bị thay đổi hoặc thậm chí bị xóa. Thật không may vẫn chưa có cơ chế nào cảnh báo các bộ duy trì về sự thay đổi này. Thực tế khi các tác giả nhận ra tài liệu của mình chứa những liên kết hỏng, họ sẽ thông báo cho nhau hoặc thỉnh thoảng độc giả thông báo cho họ bằng email. Ví dụ như ta thực hiện tìm kiếm các tài liệu, hệ thống tìm kiếm được các liên kết có tài liệu mà ta cần. Nhưng khi ta nhấp chuột tới liên kết đó thì tài liệu đó đã bị hỏng (bị lỗi hoặc bị xóa). Một số Robot như MOMspider có thể trợ giúp tác giả phát hiện các liên kết hỏng cũng như duy trì các cấu trúc siêu liên kết cùng nội dung của một trang web. Chức năng này lặp đi lặp lại liên tục mỗi khi một tài liệu được cập nhật, nhờ đó mọi vấn đề xảy ra sẽ được giải quyết nhanh chóng. • Ánh xạ địa chỉ web (Mirroring) Mirroring là một kỹ thuật phổ biến trong việc duy trì các kho dữ liệu của FTP. Một ánh xạ (mirror) sẽ sao chép toàn bộ cấu trúc cây thư mục và thường xuyên cập nhật những tập tin bị thay đổi. Điều này cho phép nhiều người cùng truy xuất một nguồn dữ liệu, giảm số liên kết bị thất bại, nhanh hơn và ít chi phí hơn so với truy cập trực tiếp vào website thực sự chứa các dữ liệu này. • Phát hiện nguồn tài nguyên Có lẻ ứng dụng thú vị nhất của Robot là dùng nó để phát hiện tài nguyên. Con người không thể kiểm soát nổi một khối lượng thông tin khổng lồ trong môi trường mạng. Robot sẽ giúp thu thập tài liệu, tạo và duy trì cơ sở dữ liệu, phát hiện và xóa bỏ các liên kết hỏng nếu có, kết hợp với công cụ tìm kiếm cung cấp thông tin cần thiết cho con người. Trần Quang Phát – CH1101119 9 / 59 Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm 1. Các chiến thuật thu thập dữ liệu Trước khi các trang web được đánh chỉ mục, tất cả các trang web phải được lấy về máy của Robot. Để lấy được tất cả các trang web, Robot phải có chiến thuật. Từ một số trang web có sẵn, Robot lọc ra danh sách các liên kết rồi từ đó dò tìm các trang khác. Có 3 chiến thuật tìm kiếm Heuristic như sau: tìm kiếm theo chiều sâu, tìm kiếm theo chiều rộng và tìm kiếm ngẫu nhiên. 2. Những vấn đề cần lưu lý • Việc sử dụng các Robot tốn khá nhiều chi phí, đặc biệt là khi chúng được điều khiển từ xa trên Internet. • Sự quá tải mạng và server. • Sự cập nhật quá mức cần thiết. II. Bộ lập chỉ mục 1. Khái quát về hệ thống lập chỉ mục Lập chỉ mục tài liệu, hiểu theo cách đơn giản là việc sắp xếp các tài liệu nhằm đáp ứng nhanh những yêu cầu tìm kiếm thông tin của người dùng. Hiệu quả của phương pháp lập chỉ mục được đánh giá qua không gian lưu trữ mà nó đòi hỏi và thời gian cần thiết để thực hiện việc tìm kiếm thông tin. Các phương pháp lập chỉ mục giữ vai trò quan trọng trong việc xây dựng một hệ thống tìm kiếm thông tin hiệu quả. Các trang web sau khi thu thập thông tin về sẽ được phân tích, trích chọn những thông tin cần thiết để lưu trữ trong cơ sở dữ liệu nhằm phục vụ cho nhu cần tìm kiếm sau này. 2. Tổng quan về phương pháp lập chỉ mục Module lập chỉ mục xây dựng hai chỉ mục cơ bản: chỉ mục cho nội dung (cho văn bản) và chỉ mục cho liên kết. 2.1. Phương pháp lập chỉ mục cho nội dung Phương pháp lập chỉ mục này gồm 2 phần chính yếu sau: • Đầu tiên là xác định các mục từ, khái niệm mà có khả năng đại diện cho văn bản sẽ được lưu trữ (bao gồm cả việc tách từ, loại bỏ stop word, …). • Thứ hai là xác định trọng số cho từng mục từ, trọng số này là giá trị phản ánh tầm quan trọng của mục từ đó trong văn bản. Mục từ hay còn gọi là mục từ chỉ mục là đơn vị cơ sở cho quá trình lập chỉ mục. Mục từ có thể là từ đơn, từ phức hay một tổ hợp từ có nghĩa trong một ngữ cảnh cụ thể. Ta xác định mục từ của một văn bản dựa vào chính nội dung của văn bản đó hoặc dựa vào tiêu đề hoặc tóm tắt nội dung của văn bản đó. Trần Quang Phát – CH1101119 10 / 59 [...]... 59 Công Nghệ Tri Thức 1.6 Không phân biệt chữ hoa và chữ thường GS.TSKH Hoàng Kiếm Đa số các máy tìm kiếm đều không phân biệt chữ hoa và chữ thường 1.7 Không quan tâm đến dấu chấm câu: Các công cụ tìm kiếm sẽ bỏ qua các dấu chấm câu như: @#%^*()=+[]\ và các ký tự đặc biệt khác 1.8 Tìm kiếm bằng tiếng Việt Khi tìm kiếm thông tin bằng tiếng Việt, cần nhập tiếng Việt đầy đủ có dấu, việc này sẽ giúp tìm. .. một công ty có trụ sở tại Hoa Kỳ, được thành lập vào năm 1998 Sản phẩm chính của công ty này là công cụ tìm kiếm Google được nhiều người đánh giá là công cụ tìm kiếm hữu ích và mạnh mẽ nhất hiện nay Đầu tiên năm 1996, Google là một công trình nghiên cứu của Larry Page và Sergey Brin, hai nhà nghiên cứu sinh tại trường đại học Stanford Họ có giả thuyết cho rằng một công cụ tìm kiếm dựa vào phân tích các. .. TP.HCM 2.9 Tìm cụm từ chứa từ khóa Dùng dấu ~ hoặc * trước từ khóa tìm kiếm Ví dụ: ~máy tính sẽ cho kết quả là các trang có chứa cụm từ “máy tính” III Các tính năng nổi bật của các hãng tìm kiếm phổ biến 1 Google Google là hệ thống tìm kiếm nổi bật và thành công nhất, được đa số người dùng chọn Hình : Các công cụ tìm kiếm phổ biến Trần Quang Phát – CH1101119 18 / 59 Công Nghệ Tri Thức GS.TSKH Hoàng Kiếm. .. là bộ máy tìm kiếm web, đại diện cho công nghệ tìm kiếm hiện nay của Microsoft Bing là một sự thay thế cho Live Search Hình : Công cụ tìm kiếm Bing 3.2 Ứng dụng Ngoài dịch vụ tìm kiếm Web, Bing còn cung cấp nhiều dịch vụ phong phú khác: Bing News, Bing Videos, Bing Images, Bing Maps, Hiện nay, Bing đã vượt qua Yahoo để trở thành công cụ tìm kiếm phổ biến thứ 2 trên thế giới Công cụ tìm kiếm còn khá... Càn ít càng nhiều Cụm từ tìm kiếm đơn giản gồm một hoặc hai từ thường mang lại cho bạn các kết quả rộng nhất hãy bắt đầu với cụm từ tìm kiếm ngắn, sau đó ta sẽ tinh chỉnh kết quả bằng cách thêm từ vào 1.5 Tìm kiếm bằng cụm từ chính xác Hãy đặt dấu ngoặc kép “ “ vào các từ để tìm kiếm cụm từ chính xác theo trật tự chính xác Lưu ý rằng, việc tìm kiếm bằng dấu ngoặc kép có thể loại trừ các kết quả có liên... cầu Đến năm 2004, Yahoo tung ra máy tìm kiếm độc lập dựa trên sự kết hợp các công nghệ mà hãng Yahoo có Công cụ tìm kiếm Yahoo là một trong ba công cụ tìm kiếm phổ biến nhất Hình : Công cụ tìm kiếm Yahoo 2.2 Ứng dụng Một số dịch vụ của Yahoo như: Yahoo! Search, Yahoo News, Yahoo! Image Search, … Trần Quang Phát – CH1101119 14 / 59 Công Nghệ Tri Thức GS.TSKH Hoàng Kiếm 3 Bing 3.1 Giới thiệu Bing (trước... tự 2.5 Tìm kiếm các từ trong tiêu đề của tài liệu Sử dụng từ khóa intitle Ví dụ: intitle:”tin học” Trần Quang Phát – CH1101119 17 / 59 Công Nghệ Tri Thức 2.6 Tìm với từ khóa OR GS.TSKH Hoàng Kiếm Các công cụ tìm kiếm cho phép sử dụng từ khóa OR (chữ in hoa) giữa các từ khóa cần tìm để tìm những thông tin xuất hiện ít nhất một từ khóa Ví dụ, tìm nội dung computer OR forum thì kết quả sẽ liệt kê các trang... khoảng cách với Yahoo Trần Quang Phát – CH1101119 15 / 59 Công Nghệ Tri Thức 4 Xếp hạng của comScore GS.TSKH Hoàng Kiếm Hình : Xếp hạng của comScore II Tính năng của các công cụ tìm kiếm 1 Tính năng cơ bản 1.1 Bắt đầu đơn giản Bất kể đang tìm kiếm điều gì, phương châm của các máy tìm kiếm là “thực hiện đơn giản” Bắt đầu bằng cách nhập tên hoặc chỉ những từ cơ bản là máy tìm kiếm có thể thực hiện tìm kiếm. .. liệu 5 FOLLOWED BY / ADJ Các từ cần tìm phải đứng cạnh nhau trong tài liệu 6 Dấu () Thể hiện mức ưu tiên trong truy vấn 7 Dấu “ ” Khi muốn tìm nguyên văn của cụm từ 8 Dấu * Dấu này sẽ thay thế cho một dãy bất kỳ các ký tự Trần Quang Phát – CH1101119 12 / 59 Công Nghệ Tri Thức Chương III GS.TSKH Hoàng Kiếm TỔNG QUAN CÁC CÔNG CỤ TÌM KIẾM PHỔ BIẾN I Giới thiệu các công cụ tìm kiếm phổ biến 1 Google 1.1... tìm được các thông tin bằng tiếng Việt chính xác hơn là chỉ gõ tiếng Việt không dấu 1.9 Các từ thông dung sẽ bị loại bỏ Đa số các công cụ tìm tìm sẽ loại bỏ những từ thông dụng trong các từ khóa như: where, how, a, the, để tăng tốc độ tìm kiếm 2 Tính năng nâng cao 2.1 Tìm kiếm trong trang web cụ thể Đặt từ site trước câu truy vấn nếu muốn có câu trả lời bên trong trang web hoặc loại trang web cụ thể . nhược điểm của các công cụ tìm kiếm nổi tiếng hiện nay. Bài báo cáo tập trung nghiên cứu công nghệ của các công cụ tìm kiếm, tìm hiểu các tính năng nổi trội của các hãng tìm kiếm nổi tiếng, để cho. Công Nghệ Tri Thức GS.TSKH. Hoàng Kiếm ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TRẦN QUANG PHÁT NGHIÊN CỨU, PHÂN TÍCH CÁC CÔNG CỤ TÌM KIẾM - ĐỀ XUẤT CẢI TIẾN Chuyên. Yahoo tung ra máy tìm kiếm độc lập dựa trên sự kết hợp các công nghệ mà hãng Yahoo có. Công cụ tìm kiếm Yahoo là một trong ba công cụ tìm kiếm phổ biến nhất. Hình : Công cụ tìm kiếm Yahoo 2.2.

Ngày đăng: 04/07/2015, 03:29

Từ khóa liên quan

Mục lục

  • Chương I TỔNG QUAN VỀ MÁY TÌM KIẾM

    • I. Khái quát về công cụ tìm kiếm thông tin

      • 1. Khái niệm công cụ tìm kiếm thông tin

        • 1.1. Crawler-Based Search Engine

        • 1.2. Human-Powered

        • 2. Mô hình bộ công cụ tìm kiếm

          • 2.1. Bộ công cụ tìm kiếm truyền thống

          • 2.2. Bộ công cụ tìm kiếm trên mạng

          • II. Các bộ phận cấu thành hệ thống tìm kiếm

            • 1. Thu thập thông tin

            • 2. Lập chỉ mục

            • 3. Bộ tìm kiếm thông tin

            • 4. Bộ Query Engine

            • 5. Sắp xếp

            • Chương II CÁC CÔNG CỤ CƠ BẢN

              • I. Thu hồi trang Web

                • 1. Các chiến thuật thu thập dữ liệu

                • 2. Những vấn đề cần lưu lý

                • II. Bộ lập chỉ mục

                  • 1. Khái quát về hệ thống lập chỉ mục

                  • 2. Tổng quan về phương pháp lập chỉ mục

                    • 2.1. Phương pháp lập chỉ mục cho nội dung

                    • 2.2. Phương pháp lập chỉ mục cho liên kết

                    • III. Bộ tìm kiếm thông tin

                      • 1. Các phương thức tìm kiếm

                        • 1.1. Tìm theo từ khóa (Keyword Searching)

                        • 1.2. Tìm theo ngữ nghĩa (Concept-Based-Searching)

                        • 2. Các chiến lược tìm kiếm

                          • 2.1. Tìm thông tin với các thư mục chủ đề

                          • 2.2. Tối ưu câu truy vấn

                          • Chương III TỔNG QUAN CÁC CÔNG CỤ TÌM KIẾM PHỔ BIẾN

                            • I. Giới thiệu các công cụ tìm kiếm phổ biến

                              • 1. Google

                                • 1.1. Giới thiệu

                                • 1.2. Ứng dụng

Tài liệu cùng người dùng

Tài liệu liên quan