tìm hiểu và xây dựng chương trình tối ưu hóa kết quả tìm kiếm_

60 631 1
tìm hiểu và xây dựng chương trình tối ưu hóa kết quả tìm kiếm_

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẢM ƠN Lời đầu tiên em xin cảm ơn Khoa Công Nghệ Thông Tin, trường Đại học Công Nghệ Thông Tin Truyền Thông đã tạo điều kiện tốt cho chúng em thực hiện đồ án tốt nghiệp. Em xin chân thành cảm ơn cô giáo Ths. NGÔ THỊ LAN PHƯƠNG giảng viên khoa công nghệ thông tin trường Đại Học Công Nghệ Thông Tin Truyền Thông đã tận tụy hướng dẫn giúp đỡ em trong suốt quá trình nghiên cứu hoàn thành đồ án tốt nghiệp. Cuối cùng em xin chân thành cảm ơn các thầy cô trong khoa, cũng như các thầy cô trong trường đã giảng dạy, giúp đỡ em trong 5 năm học qua. Chính các thầy cô đã xây dựng cho chúng em những kiến thức nền tảng những kiến thức chuyên môn để em có thể hoàn thành luận văn này cũng như những công việc của mình sau này. Thái Nguyên, tháng 06 năm 2012 Sinh viên Phùng Duy Linh 1 LỜI CAM ĐOAN Em xin cam đoan toàn bộ nội dung của báo cáo này là do em tự tìm hiểu nghiên cứu dưới sự định hướng của cô giáo hướng dẫn. Nội dung báo cáo này không sao chép vi phạm bản quyền từ bất kỳ công trình nghiên cứu nào. Nếu những lời cam đoan trên không đúng, em xin chịu hoàn toàn trách nhiệm trước pháp luật. Thái Nguyên, tháng 6 năm 2012 Sinh viên Phùng Duy Linh 2 MỤC LỤC LỜI CẢM ƠN 1 LỜI CAM ĐOAN 2 MỤC LỤC 3 LỜI MỞ ĐẦU 3 CHƯƠNG 1 5 TÌM HIỂU CÔNG CỤ TÌM KIẾM SEARCH ENGINE 5 CHƯƠNG III 49 LỜI MỞ ĐẦU Như chúng ta đã biết trung bình trên 86% lượng truy cập của một website đều đến từ các search engine lớn như Google, Yahoo, MSN. Mỗi ngày có hàng triệu người dùng lướt web sử dụng Search Engine để tìm những sản phẩm, dịch vụ thông tin họ đang cần. Nhưng liệu với hàng tỉ website hiện đang tồn tại, làm sao khách hàng có thể tìm thấy website của bạn trước mà không phải của các đối thủ cạnh tranh? Search Engine Optimization (SEO) chính là giải pháp cho vấn đề trên. Mục đích của SEO là nhằm cải thiện lượng truy cập về cả chất lẫn lượng cho Website, trực tiếp đến từ trang kết quả của các máy tìm kiếm như Google, Yahoo, bing với một số từ khóa nhất định. Được sự phân công của bộ môn cùng với sự hướng dẫn của cô Ngô Thị Lan Phương em đã làm báo cáo 3 đồ án về đề tài “Tìm hiểu xây dựng chương trình tối ưu hóa kết quả tìm kiếm”. Qua đây em xin gửi lời cảm ơn sâu sắc tới các thầy cô trong bộ môn HTTT đặc biệt là cô Ngô Thị Lan Phương đã quan tâm, giúp đỡ chỉ bảo tận tình trong suốt thời gian thực tập để em hoàn thành bài báo cáo này. Do thời gian kinh nghiệm còn hạn chế nên bài báo cáo sẽ không tránh khỏi những sai sót. Em rất mong nhận được sự góp ý từ các thầy cô các bạn để bài báo cáo được hoàn chỉnh hơn. Em xin chân thành cảm ơn ! Thái Nguyên, tháng 06 năm 2012 Sinh viên Phùng Duy Linh 4 CHƯƠNG 1 TÌM HIỂU CÔNG CỤ TÌM KIẾM SEARCH ENGINE 1. Khái niệm Search Engine Search Engine hay còn được gọi với nghĩa rộng hơn là công cụ tìm kiếm (search tool), nguyên thủy là một phần mềm nhằm tìm ra các trang trên mạng Internet có nội dung theo yêu cầu người dùng dựa vào các thông tin mà chúng có. Trữ lượng thông tin của công cụ tìm kiếm thực chất là một loại cơ sở dữ liệu (database) cực lớn. Việc tìm các tài liệu sẽ dựa trên các từ khóa (keyword) được người dùng gõ vào trả về một danh mục của các trang Web có chứa từ khóa mà nó tìm được. 2. Phân loại Search Engine Ngày nay, thì các máy truy tìm đã phát triển rất xa so với dạng nguyên thuỷ. Có hai cách chính phân loại máy tìm kiếm: 2.1. Theo phương thức hoạt động a. Kiểu máy nhện (spider): Cơ sở dữ liệu của các máy tìm kiếm được cập nhật hoá bởi các phần mềm đặc biệt thường gọi là "robot", "spider" hay "Webcrawler". Các phần mềm này sẽ tự động dò tìm phân tích từ những trang có sẵn trong cơ sở dữ liệu để kiếm ra các liên kết (link) từ các trang trở lại bổ sung dữ liệu cho chính nó sau khi phân tích. Phần mềm này cũng sẽ báo cáo về các liên kết đã bị đào thải. Từ khoá được bỏ vào là để cho máy tìm kiếm lục kiếm trong bảng chỉ số của nó. Kết quả tốt nhất sau khi phân hạng sẽ được xếp ở thứ tự đầu tiên. Trang thông dụng nhất dùng nguyên tắc này là http://www.google.com. b. Kiểu máy tìm kiếm ảo (meta-search engine): Ngày nay, người ta có thể lợi dụng các máy tìm kiếm sẵn có để thiết kế thành một loại máy tìm kiếm mới gọi là máy truy tìm ảo. Nguyên tắc của loại máy tìm kiếm này khá đơn giản. Nó không có cơ sở dữ liệu. Khi hoạt động thì nó sẽ gửi từ khoá đến các máy tìm kiếm khác một cách đồng loạt nhận về tất cả các kết quả tìm được. Nhiệm vụ tiếp theo chỉ là phân tích phân hạng lại các tài liệu tìm được cho 5 thân chủ. Ưu điểm của loại máy tìm kiếm này là lợi dụng cơ sở dữ liệu của các máy tìm kiếm khác để tìm ra nhiều kết quả hơn nhanh hơn. Nhưng vì loại này chỉ tồn tại nếu có các máy tìm kiếm nguyên thuỷ nên gọi là meta- (tiền tố meta có nghĩa là "siêu hình" hay "ảo"). Điển hình loại này là MetaCrawler. c. Kiểu thư mục đối tượng (subject directory): Còn gọi là máy tìm kiếm theo phân lớp (hierarchical search engine) - máy tìm kiếm này phân lớp sẵn các đối tượng vào các thư mục người dùng sẽ lựa theo kiểu rẽ nhánh từ từ cho đến khi tìm ra các trang Web mà mình muốn. Kiểu này dễ cho người truy cập nhưng có điểm yếu là nó không thể bao gồm hết mọi chủ đề mà họ muốn kiếm tra. Hơn nữa, sự phân loại đôi khi không được đầy đủ chính xác. Điển hình của loại này là http://www.yahoo.com. d. Kiểu cơ sở dữ liệu đặc biệt hay còn gọi là bất khả kiến Web (invisible Web): Đặc điểm của loại này là dữ liệu kiếm ra không thực sự có từ địa chỉ trang Web cụ thể qua các máy tìm kiếm; dữ liệu này tồn tại trong các cơ sở dữ liệu của một máy tính hay mạng ở đâu đó trên Internet mà các trang Web được phép sử dụng. Đặc biệt, các trang Web nghiên cứu của các đại học hay học viện như http://lii.org, http://www.academicinfo.net http://infomine.ucr.edu thuộc kiểu này. Sau này nhiều máy tìm kiếm hỗ trợ người dùng qua nhiều cách thức khác nhau nên người ta ít thấy ranh giới phân chia giữa các máy tìm kiếm mà thay vào đó là các hệ thống máy tìm kiếm bao gồm nhiều chức năng khác nhau. Chẳng hạn như http://www.yahoo.com không còn đơn thuần là một máy tìm kiếm theo kiểu thư mục đối tượng mà bên cạnh đó nó cũng cung cấp luôn cả kiểu máy nhện cho người dùng. 2.2. Theo chức năng Theo cách phân loại này thì tùy theo đối tượng tìm kiếm mà có: * Kiếm địa chỉ trang Web * Kiếm địa chỉ thư điện tử * Kiếm thông tin riêng về một người * Kiếm thông tin về một tổ chức 6 * Kiếm việc làm * Kiếm bản đồ 3. Phép toán hỗ trợ của máy tìm kiếm Để mở rộng các chức năng tìm kiếm, cũng như tạo thêm nhiều tiện dụng cho người dùng, các máy truy tìm cũng đã hỗ trợ thêm nhiều phép toán lên từ khóa. Mỗi máy có thể sẽ hỗ trợ những phép toán khác nhau. Một số phép toán được hỗ trợ bởi hầu hết các máy tìm kiếm: a. Dùng phép "+" Để tìm các trang có mặt tất cả các chữ của từ khóa mà không theo thứ tự nào hết thì viết nối các chữ này với nhau bằng dấu +. Thí dụ: Tìm trang nói về cách thức viết Linux scripts có thể dùng bộ từ khóa "+ Linux +script +tutor". b. Dùng phép "-" Trong số các trang Web tìm được do quy định của từ khóa thì máy tìm kiếm sẽ loại bỏ các trang mà nội dung của chúng có chứa chữ (hay cụm từ) trong ngoặc kép đứng ngay sau dấu trừ. Thí dụ: Khi tìm tin tức về các loại xe dùng kỹ thuật lai mới chưa có bán trên thị trường nhưng không muốn các trang bán xe hay các trang nói về hai kiểu xe Prius (của Toyota) kiểu xe Insight (của Honda) lọt vào danh cách truy tìm thì có thể thử từ khóa "+car +hibrid -sale -Prius -Insight". c. Dùng dấu ngoặc kép " " Khi muốn chỉ thị máy tìm kiếm nguyên văn của cụm từ, có thể dùng dấu ngoặc kép. Thí dụ: Để tìm lại nguyên tác nội dung bài thơ có câu nước non nặng một lời thề thì có thể thử dùng từ khoá với ngoặc kép "Nước non nặng một lời thề". d. Dùng các phép toán của đại số Bool Hiện tại, nhiều máy tìm kiếm hỗ trợ thêm các phép toán như là OR, AND NOT. Khi dùng thì tên của các phép toán này bắt buộc phải viết chữ in hoa. Phép toán Bool đòi hỏi điền vào đúng vị trí qui định một từ (hay một cụm từ trong ngoặc kép) giữ vai trò của toán tử. Ngoài ra, đa số máy tìm kiếm chỉ hoạt động tốt trong một số lượng giới hạn các phép toán Bool cho một bộ từ khoá. Lời 7 khuyên chung là không nên dùng quá 6 phép toán Bool cho cùng một bộ từ khoá không phải máy tìm kiếm nào cũng hỗ trợ đầy đủ các phép toán AND, OR hay NOT.  OR Có cú pháp là (Toán tử 1) OR (Toán tử 2). Lệnh này cho phép tìm những trang Web nào có chứa một trong các toán tử của phép toán OR của bộ từ khoá. Thí dụ để tìm các bài viết về Nguyễn Trãi trong cả tiếng Việt tiếng nước ngoài thì có thể dùng bộ từ khoá:"Nguyễn Trãi" OR "Nguyen Trai". Các máy truy tìm có thể dùng OR là: AltaVista, AOL Search, Excite, Google, Inktomi (HotBot, MSN), Ask Jeeves, Lycos, Northern Light, HotBot Gigablast.  AND Có cú pháp (Toán tử 1) AND (Toán tử 2). Phép toán AND nhằm yêu cầu máy truy tìm kiếm các trang có sự hiện diện của tất cả các toán tử. Thí dụ nanotechology AND health sẽ giúp truy tìm các trang có mặt đồng thời hai chữ health chữ nanotechnology. Một số trang truy tìm sẽ dùng AND như là mặc định (trong đó có Google). Ta cũng có thể thay thế bằng cách dùng dấu + trong một số trường hợp nào máy truy tìm không có chức năng của đại số Bool. Các trang hỗ trợ phép toán AND là: AltaVista, AOL Search, Google, Excite, Inktomi (HotBot, MSN), Northern Light, Yahoo Gigablast.  NOT Phép này hoàn toàn tương tự như cách dùng dấu Nghĩa là, sự truy tìm sẽ loại bỏ những trang mà nội dung có chứa toán tử đứng ngay sau phép toán NOT. Tuy nhiên trong nhiều máy truy tìm có hỗ trợ thì phép này cũng chỉ được dùng có một lần cho một bộ từ khoá. Thí dụ để tìm tài liệu hướng dẫn về ngôn ngữ lập trình C/C++ có thể thử dùng trên Altavista "C/C++ tutor" NOT book Các trang có thể dùng NOT là AOL Search, Excite, Inktomi (HotBot, MSN), Northern Light Gigablast. 8  NEAR Dùng để truy tìm những trang Web mà nội dung của chúng có các thành tố của từ khoá nằm gần nhau. Phép toán này rất có lợi để tìm ra những trang có một cụm từ, một khái niệm, một định nghĩa hay một lời phát biểu mà ta không nhớ hết được. Ví dụ: Tìm lại nguyên văn câu thơ tác giả bằng bộ từ khoá: "Ong non" NEAR "Dê cỏn" Dùng dấu ngoặc đơn () để chẻ nhánh. Dùng ngoặc đơn cho phép tìm nhiều kết hợp phức tạp. Thí dụ để truy tìm tài liệu về cách tạo ra CD ROM có khả năng tự khởi động có thể thử từ khoá bootable AND (CD OR CDROM OR CD-ROM) AND (howto OR instruction) Hỗ trợ cho kiểu phân nhánh bằng ngoặc đơn là AltaVista, AOL Search, Excite, Inktomi (MSN), Northern Light. 4. Từ khoá mặc định Những máy tìm kiếm còn hỗ trợ thêm các từ khoá mặc định. Khi dùng các từ khoá mặc định như một thành phần của bộ từ khoá thì các trang Web được trả về sẽ thoả mãn các đặc tính chuyên biệt hoá theo ý nghĩa mà các từ khoá mặc định này. Các hỗ trợ này cho phép kiểm soát được các loại trang nào muốn truy tìm. a. Các từ khoá mặc định kết thúc bằng dấu hai chấm ":" chữ (hay cụm từ trong ngoặc kép) của bộ từ khoá nào đứng ngay sau dấu này sẽ bị chi phối bởi điều kiện của từ khoá mặc định, còn các thành phần khác trong từ khoá sẽ không thay đổi ý nghĩa. Các từ khoá mặc định giới hạn máy tìm kiếm trả về các trang nằm trong một tên miền, hay một miền con. Tuỳ theo máy tìm kiếm mà các từ khoá mặc định được sử dụng. Altavista hỗ trợ chức năng này bằng từ khoá host: Thí dụ, host:mars.jpl.nasa.gov mars saturn chỉ tìm trong mars.jpl.nasa.gov tất cả các trang có chứa chữ "mars" chữ "saturn". Excite, Google (Netscape, Yahoo) hỗ trợ chức năng này bằng từ khoá site: khi kết hợp với các lệnh khác có thể tìm theo cách chuyên biệt. Thí dụ, 9 "carbon nanotech" -host:www.technologyreview.com cho phép tìm tất cả các trang nào có chứa cụm từ "carbon nanotech" ngoại trừ các trang xuất sứ từ www.technologyreview.com. Inktomi (HotBot, iWon, LookSmart) hỗ trợ chức năng này bằng từ khoá domain:. Thí dụ, để tìm các trang có đuôi là ".edu" (thường là trang Web của các đại học) về đề tài "heart transplan", có thể dùng bộ từ khoá "heart transplan" +host:edu để tìm các trang có đuôi gốc là .edu mang đề tài này. AllTheWeb hỗ trợ các từ khoá domain, url, site: cho chức năng này. Thí dụ để tìm các trang về "deutch" từ các trang trong nước Đức có thể dùng deutch domain:.de. b. Các từ khoá mặc định dùng để tìm trang có tựa đề chứa một từ (hay cụm từ) đặc biệt AltaVista, AllTheWeb, Inktomi (MSN HotBot) dùng từ khoá title:. Thí dụ, title: "Mars Landing" sẽ giúp truy tìm các trang có đề tựa về Hỏa Tinh. Google Teoma hỗ trợ các từ khoá intitle: allintitle: ("allintitle:" sẽ ảnh hưởng đến tất cả các chữ đứng sau dấu :). c. Các từ khoá dùng để tìm các địa chỉ Web có chứa từ (hay cụm từ) của bộ từ khoá: Google hỗ trợ từ khoá inurl: allinurl: Muốn tìm địa chỉ các trang Web có một chữ đặc biệt thì dùng inurl. Thí dụ, inurl:nasa sẽ giúp tìm tất cả các địa chỉ Web nào có chứa chữ "nasa". Nếu cần truy tìm một điạ chỉ có nhiều hơn một chữ thì dùng allinurl. Thí dụ allinurl:vietnam thetholucbat sẽ giúp tìm tất cả các trang nào mà nội dung địa chỉ của nó chứa chữ "vietnam" hay là chữ "thetholucbat". Inktomi, AOL, GoTo, HotBot cung cấp từ khoá originurl: cho việc này. Yahoo thì dùng từ khoá u:Exite dùng url: d. Các từ khoá mặc định giúp tìm các trang có cài đặt các liên kết tới địa chỉ trang được ghi trong từ khoá: Google, Yahoo sẽ cung cấp từ khoá link:. Tuy nhiên, Yahoo yêu cầu địa chỉ trong từ khoá phải có đủ tiếp đầu ngữ http:// thì mới hoạt động hữu hiệu. Thí dụ, bộ từ khoá link:vi.wikipedia.org sẽ giúp truy ra tất cả các trang Web nào có 10 [...]... cách các cụm từ * Nhồi nhét từ khóa Không ai sẽ click vào một tiêu đề trong các kết quả tìm kiếm mà chỉ bao gồm một mớ những từ khóa * Tối ưu hóa các thẻ tiêu đề là bước quan trọng trong chiến lược SEO Một tiêu đề xuất hiện trên kết quả tìm kiếm sẽ được nhận ra bởi các khách hàng tiềm năng mang đến nhiều công việc kinh doanh hơn cho website 3.3.2 Tối ưu hóa thẻ Alt Title Image cho hình ảnh Phân... Engine Optimization (tối ưu hóa công cụ tìm kiếm) SEO là một tập hợp các phương pháp nhằm nâng cao thứ hạng của một website trong các trang kết quả của các công cụ tìm kiếm có thể được coi là một tiểu lĩnh vực của tiếp thị qua công cụ tìm kiếm Thuật ngữ SEO cũng có thể được dùng để chỉ những người làm công việc tối ưu hóa công cụ tìm kiếm, là những nhà tư vấn đưa ra những dự án tối ưu hóa cho các website... những kết quả "tự nhiên" cao hơn rất nhiều lần so với chọn Quảng cáo Google Adwords Dưới đây là một số thống kê giúp ta có thể định hình vai trò của SEO: - 86% người tìm kiếm chọn các kết quả tự nhiên hơn là kết quả quảng cáo - 70% đối tượng tìm kiếm ngay lập tức nhìn vào kết quả tự nhiên (nghiên cứu về hoạt động của mắt khi tìm kiếm) Theo một khảo sát khác: có 78% người được hỏi thấy thông tin từ quảng... máy tìm kiếm Các máy tìm kiếm có thể cung cấp thêm một số phương tiện để giảm thiểu khó khăn của việc tìm kiếm Sau đây là vài chức năng đặc biệt: 6.1 Tìm thêm dữ liệu theo liên hệ (related search) Sau khi tìm kiếm, máy tìm kiếm có thể giúp đào sâu sự truy tìm bằng cách cung cấp các bộ từ khoá chi tiết hơn dưới dạng các dòng liên kết (link) Các liên kết này thu nhỏ thị trường tìm kiếm (nếu số trang tìm. .. phần của dự án tiếp thị có thể rất hiệu quả ở giai đoạn phát triển ban đầu giai đoạn thiết kế website Hiện nay, nhận thức của người quản trị website tại Việt Nam nói riêng thế giới nói chung nhận biết việc tối ưu hóa website để các máy tìm kiếm trỏ tới rất ít Người sử dụng không ý thức được tầm quan trọng của việc tối ưu hóa website, hoặc làm các phương thức để các máy tìm kiếm trỏ đến Hiện... của BODY vì một vài search engine chỉ lấy vài dòng của phần BODY dùng chúng làm mô tả cho SERP Sắp xếp sự xuất hiện các từ khóa trong phần BODY theo một cách tự nhiên nhất, sử dụng thẻ cho từ khóa cố gắng làm cho nội dung của BODY tối thiểu phải là 125 từ 3.3.4 Nội dung trong liên kết Nội dung trong các liên kết (anchor text) là rất quan trọng bao gồm cả liên kết nội liên kết ngoại., . dẫn của cô Ngô Thị Lan Phương em đã làm báo cáo 3 đồ án về đề tài Tìm hiểu và xây dựng chương trình tối ưu hóa kết quả tìm kiếm . Qua đây em xin gửi lời cảm ơn sâu sắc tới các thầy cô trong. các cỗ máy tìm kiếm. 16 CHƯƠNG 2 LÝ THUYẾT SEO TRONG TỐI ƯU HÓA TÌM KIẾM 1. Tổng quan về SEO 1.1. SEO là gì SEO là chữ viết tắt của Search Engine Optimization (tối ưu hóa công cụ tìm kiếm) . SEO. các máy tìm kiếm khác một cách đồng loạt và nhận về tất cả các kết quả tìm được. Nhiệm vụ tiếp theo chỉ là phân tích và phân hạng lại các tài liệu tìm được cho 5 thân chủ. Ưu điểm của loại máy tìm kiếm

Ngày đăng: 26/05/2014, 19:07

Từ khóa liên quan

Mục lục

  • LỜI CẢM ƠN

  • LỜI CAM ĐOAN

  • MỤC LỤC

  • LỜI MỞ ĐẦU

  • CHƯƠNG 1

  • TÌM HIỂU CÔNG CỤ TÌM KIẾM SEARCH ENGINE

  • CHƯƠNG III

Tài liệu cùng người dùng

Tài liệu liên quan