Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 47 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
47
Dung lượng
3,46 MB
Nội dung
“ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE” ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHUYÊN ĐỀ CƠ SỞ TRI THỨC ĐỀ TÀI: NHỮNG CẢI TIẾN THÔNG MINH TRONG HỆ THỐNG TÌM KIẾM GOOGLE Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 GVHD : GS.TSKH Hoàng Văn Kiếm Người thực hiện : Nguyễn Hoàng Sỹ Mã số : CH1101037 Tp.HCM, tháng 08 năm 2014 HVTH: Nguyễn Hoàng Sỹ - MSHV: CH 1101037 Trang 1 “ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE” MỤC LỤC HVTH: Nguyễn Hoàng Sỹ - MSHV: CH 1101037 Trang 2 “ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE” DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Số TT Từ Giải nghĩa 1. SE Search Engine 2. PR PageRank 3. CSE Custom Search Engine 4. KMP Knuth Morris Pratt 5. RDF Resource Description Framework HVTH: Nguyễn Hoàng Sỹ - MSHV: CH 1101037 Trang 3 “ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE” DANH MỤC CÁC BẢNG Bảng 1-1: Ví dụ về code textlink hiểnthị dưới dạng HTML Bảng 3-1: So sánh chức năng Search Engine Bảng 3-2: Bảng so sánh xếp hạng của ComScore từ 03/2012 đến 04/2012 Bảng 3-3: Bảng so sánh xếp hạng của ComScore từ 03/2013 đến 04/2013 Bảng 3-4: Danh sách 10 website được truy cập nhiều nhất vào tháng 7 vừa qua. HVTH: Nguyễn Hoàng Sỹ - MSHV: CH 1101037 Trang 4 “ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE” DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1-1: Cấu trúc điển hình một Search Engine Hình 1-2: Ví dụ về 1 textlink Hình 1-3: Mô hình hổ trợ Textlink và Search Engine Hình 3-1: Ví dụ về tính năng Bing Hình 3-2: Tính năng lọc theo vùng trên Bing Hình 3-3: Công cụ tìm kiếm Yahoo search Hình 3 -4: Tính năng tìm kiếm Iphone 5 - Yahoo search Direct Hình 3- 5: Minh họa tìm kiếm thông tin về Yahoo trên Wikipedia Hình 3-6: Minh họa tìm kiếm theo thứ tự thông tin “điện tử tiêu dùng” Hình 3-7: tìm kiếm thông tin trên Yahoo.Mail Hình 3 -8: Kiểm tra số kết nối đến web “linkdomain:yahoo.com site:wikipedia.org“ Hình 3-9: Minh họa Google là hệ thống tìm kiếm nổi bật và thành công nhất Hình 4-1: Minh họa chức năng Google Instant; dự đoán “trường đại học công nghệ” Hình 4-2: Cách thực hiện Google Instant Hình 4-3: Minh họa chức năng xem trước kết quả Hình 4 - 4: Minh họa chức năng tìm kiếm bằng hình ảnh Hình 4-5: Minh họa chức năng đa dạng của Google Hình 4-6: Minh họa chức năng bàn phím ảo của Google Hình 4-7: Minh họa chức năng kiểm tra lỗi chính tả khi tìmkiếm bằng Google Hình 4-8: Minh họa chức năng tìmkiếm bằng Google Maps trên Ipad Hình 4-9: Minh họa giao diện làm việc của Android Device Manager Hình 4-10: Minh họa chức năng tìmkiếm bằng Google Voice trên Chrome Hình 4-11: Minh họa sự phát triển của google từ năm 1997 đến nay Hình 4-12: Minh họa Onefeed khả năng tích hợp Google Chrome HVTH: Nguyễn Hoàng Sỹ - MSHV: CH 1101037 Trang 5 “ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE” LỜI MỞ ĐẦU Ngày nay, cùng với sự phát triển nhanh chóng của khoa học kỹ thuật là sự bùng nổ thông tin với các phương tiện lưu trữ đã tạo ra một lượng thông tin khổng lồ. Nhu cầu về tìm kiếm và xử lý thông tin, cùng với yêu cầu về khả năng kịp thời khai thác chúng để mang lại những năng suất và chất lượng cho công tác quản lý, hoạt động kinh doanh đã trở nên cấp thiết trong xã hội hiện đại. Để đáp ứng phần nào yêu cầu này, người ta đã xây dựng các công cụ tìm kiếm và xử lý thông tin nhằm giúp cho người dùng tìm kiếm được các thông tin cần thiết riêng cho mình, cùng với sự rộng lớn và đồ sộ của nguồn dữ liệu trên Internet là các công ty cung cấp các giải pháp xây dựng hệ thống tìm kiếm thông minh như: Google, Yahoo, Bing Trong chuyên đề này, tập trung đi tìm hiểu cơ sở lý thuyết cơ bản về tổng quan về máy tìm kiếm thông tin, kỹ thuật khai phá dữ liệu trong môi trường Web, tổng hợp và phân tích các công cụ tìm kiếm thông tin của các công ty tìm kiếm thông tin hiện nay, mà đặc biệt là giải pháp tìm kiếm thông tin của Google. Từ đó đề xuất các hướng phát triển về xử lý thông tin mang tính chính xác và nhanh chóng, kết quả sẽ xuất hiện ngay trên trang đầu tiên, phân loại riêng cho mục đích của việc tìm kiếm thông tin. Tôi chân thành cảm ơn Thầy GS.TSKH Hoàng Văn Kiếm đã truyền đạt những kiến thức quý báu có ý nghĩa khoa học và mang tính thực tiễn cao trong ứng dụng của chuyên đề Cơ sở tri thức, mở ra nhiều hướng nghiên cứu chuyên sâu vào từng lĩnh vực ứng dụng đặc thù với những đặc trưng riêng./. HVTH: Nguyễn Hoàng Sỹ - MSHV: CH 1101037 Trang 6 “ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE” Bố cục trình bày: Chương 1: Cơ sở lý thuyết. Chương này trình bày tổng quan, khái quát về sự ra đời cổ máy tìm kiếm thông tin, cấu trúc, nguyên lý và các module tìm kiếm thông tin. Chương 2: . Các thuật toán đối sánh mẫu trong hệ thống tìm kiếm Trình bày các ý tưởng, thuật toán đối sánh mẫu: Brute Force, Knuth Morris Pratt, Boyer Moore và thuật toán phân cụm dữ liệu K-Means. Chương 3: Phân tích, đánh giá các công cụ tìm kiếm thông tin phổ biến hiện nay. Chương này giới thiệu các công cụ tìm kiếm thông tin phổ biến nhất hiện nay như: Google, Yahoo, Bing và thống kê, so sánh của các hãng tìm kiếm thông tin do ComScore thực hiện. Chương 4: Trình bày các kỹ tính và tính năng tìm kiếm thông tin của Google. Đây là chương chính của chuyên đề, trình bày các tính năng cơ bản cũng như kỹ năng cho người dùng, đặc biệt là công cụ của công ty Google. Qua đây, cho ta thấy được con người đã biết áp dụng cơ sở tri thức, các thuật toán áp dụng cho giải pháp tìm kiếm thông tin, dữ liệu. Các tính năng được trình bày trong công cụ tìm kiếm thông tin của Google được xem là nổi bật và có tính năng mạnh mẽ so với các công cụ tìm kiếm khác, do Google luôn luôn tìm kiếm các giải pháp sáng tạo và đổi mới các tính năng phù hợp với nhu cầu. Kết luận & Đề xuất: Chương kết thúc chuyên đề, tóm lại các tính năng nổi bật của công cụ tìm kiếm thông tin và đề xuất các giải pháp tìm kiếm thông tin, cải tiến các thuật toán áp dụng cho việc tìm kiếm thông tin nhanh chóng và chính xác như: thuật toán phân cụm K-means hay thuật toán di truyền. Mở rộng phục vụ cho nhu cầu tương lai, giúp chúng ta tới gần hơn với kho kiến thức khổng lồ, nắm vững tri thức của tương lai qua con đường Internet; HVTH: Nguyễn Hoàng Sỹ - MSHV: CH 1101037 Trang 7 “ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE” CHƯƠNG I: CƠ SỞ LÝ THUYẾT I.1 Tổng quan về máy tìm kiếm: I.1.1 Khái niệm Search Engine: Search Engine là phần mềm cung cấp các địa chỉ Web có chứa một hay nhiều thông tin, từ khoá (keywords) mà người dùng cần tìm kiếm, sau đó phân tích yêu cầu này và tìm kiếm thông tin trong cơ sở dữ liệu được tải xuống từ Web để đưa ra kết quả là các trang Web có liên quan cho người dùng. Hay nói một cách dễ hiểu Search Engine là các công cụ tìm kiếm như Google.com, Yahoo.com hay Bing.com… Đây là những công cụ tìm kiếm phổ biến và chiếm thị phần lớn nhất. Search Engine là một thư viện thông tin khổng lồ về các Website, cho phép người sử dụng có thể tìm kiếm các Website cần quan tâm theo một chủ đề nào đó căn cứ vào các từ khóa (keywords) mà người đó yêu cầu Search Engine tìm kiếm. I.1.2 Sự ra đời của Search Engine: Sẽ rất khó khăn cho người dùng truy cập vào Internet để tìm kiếm 1 Website hay một thông tin có chủ đề phục vụ cho mục đích của mình vì hàng ngày có khoảng hơn 100.000 Website mới được đưa lên mạng. Số lượng Website trên mạng Internet hiện nay đã lên tới hơn 5 tỷ. Vì vậy, để phục vụ việc tìm kiếm nhanh chóng Website của người sử dụng Internet, Search Engine ra đời. Search Engine ra đời giúp cho việc tìm kiếm thông tin trên Internet dễ dàng và nhanh chóng. Tại Việt Nam, Search Engine phổ biến nhất là www.google.com.vn và chiếm thị phần lớn nhất với hơn 90%. Web crawler còn được gọi là spider (con nhện) là một phần của search engine, chuyên “chu du” khắp Website, sao chép từng trang nó tìm được và lập chỉ mục các từ khóa, tên trang. Hãy thử tưởng tượng một cuộc sống hoàn toàn không có niên giám điện thoại hay một trợ giúp nào khác. Sử dụng điện thoại lúc đó sẽ trở nên rất khó khăn. Điều này cũng tương tự như dùng Web mà không có công cụ tìm kiếm. Với search engine, bạn chỉ cần biết một vài thông tin hay từ khoá là có thể tìm được nơi cần đến. Rõ ràng rất tiện lợi khi người dùng muốn tìm một sản phẩm hay dịch vụ … chỉ cần vào một trong 3 công cụ trên và gõ tên sản phẩm hay dịch vụ… và Enter, sẽ ra một cơ số website để chúng ta lựa chọn. HVTH: Nguyễn Hoàng Sỹ - MSHV: CH 1101037 Trang 8 “ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE” Theo một nghiên cứu do công ty Zona Research (Mỹ) tiến hành năm 1999 thì search engine hiện là phương thức tìm kiếm thông tin trên Web được sử dụng nhiều nhất, nó chiếm tới 77% tổng thời gian tìm kiếm. Theo kết quả khảo sát người tiêu dùng của một công ty khác vào năm 1999 thì 88% người dùng trực tuyến có sử dụng một search engine và 72% có dùng một search engine để tìm kiếm hàng hoá bán lẻ. Đối với nhiều người dùng, search engine là yếu tố định hình nên bức tranh về kho thông tin trên Web. Tuy nhiên, một nghiên cứu gần đây của NEC Research Institute và Inktomy cho thấy có tới hơn một tỷ trang Web riêng biệt trên Internet và hầu hết các search engine đã bỏ qua không lập chỉ mục cho 1/4 số trang này. Mặt khác, khoảng 7-14% những nội dung đã được lập chỉ mục lại không còn tồn tại trên Net. I.1.3 Bên trong việc tìm kiếm: Với quy mô của Website (Sitemap), có số lượng quá lớn các trang không được truy cập đến trong nhiều năm và trang có chứa những từ quá phổ biến dẫn đến những site không liên quan, việc lập chỉ mục dù chỉ một phần của Web để có thể trả về kết quả phù hợp là một quá trình đòi hỏi rất nhiều công sức to lớn. Tuy nhiên, về căn bản, công việc này rất đơn giản: chương trình phần mềm thông minh sẽ “chu du” khắp trên Web, tìm kiếm và lưu trữ bất cứ thông tin nào chưa có trong chỉ mục và thường là lưu toàn bộ trang Web. Thông tin thu thập được có thể từ những trang đã được lập chỉ mục trước đó nhưng đã thay đổi, liên kết đến những trang chưa được lập chỉ mục và các địa chỉ Web do các công ty thứ ba đưa lên. Một khi các chỉ mục đã được tập hợp lại, chúng sẽ được kiểm tra để loại bỏ những thông tin trùng lắp, chẳng hạn như các phiên bản khác nhau của cùng một site (site dự phòng); loại bỏ những trang lập lại quá nhiều lần cùng từ khoá. Một số search engine còn có khả năng gán trạng thái đặc biệt cho trang Web có dùng siêu thẻ (metatag) chứa các thành phần mô tả thông tin. Một số search engine có khả năng phân tích nội dung trang Web và cho biết tần suất mà những trang khác liên kết đến trang này. Như vậy, trang Web càng phổ biến thì nội dung của nó càng dễ tìm kiếm. Khi người dùng đưa yêu cầu tìm kiếm thông tin cho search engine hay dịch vụ thư mục, các giải thuật tinh vi bên trong sẽ được kích hoạt. Mỗi search engine có một cách xử lý khác nhau đối với thông tin mà nó nhận được từ người dùng, nhưng mục tiêu thì giống nhau: dự đoán HVTH: Nguyễn Hoàng Sỹ - MSHV: CH 1101037 Trang 9 “ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE” người dùng cần gì và trả về thông tin tương ứng. Những vấn tin của người dùng thường được phân tích rất chi tiết để phát hiện những sai sót chính tả trong từ khoá hay liệu thông tin này đã được tìm kiếm chưa. I.2 Nguyên lý hoạt động của một máy tìm kiếm -SE: Một Search Engine hoạt động theo các module sau: Web crawling - Indexing - Searching I.2.1 Module Thu thập thông tin (Crawler): Module này có nhiệm vụ thu thập nội dung các trang Web trên Internet một cách tự động thông qua các siêu liên kết (Hyperlink) bằng việc sử dụng các robot phần mềm đặc biệt được gọi là Spider (con nhện hay bọ tìm kiếm), Spider sẽ tải và lưu các trang đã tìm thấy vào kho chứa dữ liệu (Page Repository) rồi tiếp tục đi thăm các trang Web khác trên Internet. I.2.2 Module Lập chỉ mục (Index): Module này có nhiệm vụ duyệt nội dung các trang Web đã được tải về, đánh chỉ mục toàn bộ các từ khoá trong văn bản (số lần xuất hiện, vị trí xuất hiện), tính toán độ quan trọng (Page Rank) cho các trang này, xếp hạng kết quả (Ranking) và lưu trữ chúng trong các cấu trúc thuận tiện cho quá trình tìm kiếm. I.2.3 Module tìm kiếm: Module này liên quan tới việc giao tiếp với người dùng, khi nhận yêu cầu của người dùng, nó sẽ tiến hành truy xuất, phân tích, tìm kiếm trong cơ sở dữ liệu chỉ mục và hiển thị cho người dùng danh sách các tài liệu thỏa mãn yêu cầu đó. HVTH: Nguyễn Hoàng Sỹ - MSHV: CH 1101037 Trang 10 [...]... Trang 27 “ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE III.1.3 Google: III.1.3.1 Giới thiệu: Google liên kết với hàng tỷ trang Web trên thế giới, vì thế người sử dụng có thể tìm kiếm thông tin mà họ muốn thông qua các từ khóa và các toán tử Google đã tận dụng công nghệ tìm kiếm của mình vào nhiều dịch vụ tìm kiếm khác, bao gồm: Images Search (tìm kiếm ảnh), Google News (tìm kiếm tin tức), Google. .. Trang 24 “ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE Hình 3 -4: Tính năng tìm kiếm Iphone 5 - Yahoo search Direct • Tìm kiếm chỉ trong một website duy nhất: Yahoo! Search sẽ tiết kiệm cho bạn một bước trung gian và cho phép tìm kiếm chỉ trong một website duy nhất Nếu như trong công cụ tìm kiếm Google, người dùng muốn tìm thông tin bất kì trên trang Wikipedia sẽ phải chờ kết quả tìm kiếm, đồng... điều mà Google không thể thực hiện được Hình 3-6: Minh họa tìm kiếm theo thứ tự thông tin “điện tử tiêu dùng” • Viết thư điện tử trong ô tìm kiếm Yahoo! Search: HVTH: Nguyễn Hoàng Sỹ - MSHV: CH 1101037 Trang 26 “ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE Với Yahoo! Search, bạn hoàn toàn có thể viết thư điện tử ngay trong ô tìm kiếm Chỉ cần nhập theo cấu trúc !mail địa chỉ mail vào ô tìm kiếm. .. luôn là công cụ tìm kiếm phổ biến thứ 2 trên thế giới, nhưng trong những năm gần đây, thị phần tìm kiếm của Yahoo! Search ngày càng giảm Và đến đầu năm 2012, công cụ tìm kiếm Bing lần đầu tiên vượt qua Yahoo, trở thành công cụ tìm kiếm phổ biến thứ 2 trên thế giới HVTH: Nguyễn Hoàng Sỹ - MSHV: CH 1101037 Trang 23 “ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE Hình 3-3: Công cụ tìm kiếm Yahoo search... MSHV: CH 1101037 Trang 14 “ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE CHƯƠNG II: CÁC THUẬT TOÁN ĐỐI SÁNH - PHÂN CỤM DỮ LIỆU DỰA VÀO TÌM KIẾM THÔNG TIN II.1 Giới thiệu: Để một máy tìm kiếm họat động hiệu quả, ngoài kỹ thuật thu thập thông tin và tạo chỉ mục cho thông tin, chúng ta cũng cần quan tâm đến việc sử dụng các thuật toán đối sánh mẫu để tìm kiếm dữ liệu Dữ liệu trong máy tính được lưu... cụ hỗ trợ tìm kiếm thông tin trên Google Hình 3-9: Minh họa Google là hệ thống tìm kiếm nổi bật và thành công nhất III.2 Đánh giá các công cụ tìm kiếm phổ biến hiện nay: Hầu hết các SE đều sử dụng các Boolean Operators (toán tử luận lý) như AND, OR và NOT để xác định các search query (truy vấn tìm kiếm) Một số SE khác lại sử dụng những phương pháp tiên tiến hơn như Proximity Search (tìm kiếm gần kề)... nên khi nhập từ tìm kiếm vào cửa sổ tìm, cần đưa từ khóa quan trọng nhất lên trước - Không quan tâm đến sự chính xác về ngữ pháp của các từ khóa, cho nên không cần nhập cả một câu đầy đủ và chính xác về ngữ pháp vào lệnh tìm kiếm HVTH: Nguyễn Hoàng Sỹ - MSHV: CH 1101037 Trang 31 “ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE - Khi tìm kiếm thông tin bằng tiếng Việt, cần nhập tiếng Việt đầy đủ... nổi bật trên Google search: - Hệ thống Google luôn được cập nhật và bổ sung các tính năng mới HVTH: Nguyễn Hoàng Sỹ - MSHV: CH 1101037 Trang 32 “ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE - Một số tính năng nổi bật: o Thuật toán xếp hạng kết quả hiển thị (Google Panda) o Cho phép tìm kiếm tức thời (Google Instant) o Hỗ trợ xem trước trang kết quả (Instant Previews) o Cho phép tìm kiếm bằng hình... MINH TRONG BỘ TÌM KIẾM GOOGLE Hình 3- 5: Minh họa tìm kiếm thông tin về Yahoo trên Wikipedia • Tìm kiếm từ theo thứ tự lựa chọn: Chỉ cần thêm dấu [ ], kết quả tìm kiếm sẽ tuân theo trật tự sắp xếp từ mặc định Khi search một cụm từ và đặt trong ngoặc kép (chẳng hạn như “điện tử tiêu dùng”), kết quả tìm kiếm trên Yahoo! tương tự trên Google, đưa ra những đường link liên kết chứa đầy đủ cả 4 kí tự trong. .. phải thêm từ khóa ‘loc:’ vào nội dung tìm kiếm So với Google, Bing còn thua kém vì chưa có phạm vi tìm kiếm rộng rãi ở các quốc gia trên toàn thế giới Chẳng hạn, để tìm kiếm các khách sạn tại Việt Nam, bạn sẽ tìm kiếm theo từ khóa ‘Hotel loc:vn’ HVTH: Nguyễn Hoàng Sỹ - MSHV: CH 1101037 Trang 22 “ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE Hình 3-2: Tính năng lọc theo vùng trên Bing . “ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHUYÊN ĐỀ CƠ SỞ TRI THỨC ĐỀ TÀI: NHỮNG CẢI TIẾN THÔNG MINH TRONG HỆ THỐNG. 1101037 Trang 1 “ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE MỤC LỤC HVTH: Nguyễn Hoàng Sỹ - MSHV: CH 1101037 Trang 2 “ NHỮNG CẢI TIẾN THÔNG MINH TRONG BỘ TÌM KIẾM GOOGLE DANH MỤC. dựng hệ thống tìm kiếm thông minh như: Google, Yahoo, Bing Trong chuyên đề này, tập trung đi tìm hiểu cơ sở lý thuyết cơ bản về tổng quan về máy tìm kiếm thông tin, kỹ thuật khai phá dữ liệu trong