Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 80 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
80
Dung lượng
4,51 MB
Nội dung
ĐỒ ÁN TỐTNGHIỆPTỐIƯUHÓACÔNGCỤTÌMKIẾM – SEO Trêng §¹i häc Vinh Khoa c«ng nghÖ th«ng tin ******************** VĂN THIÊN CƯỜNG ®å ¸n tèt nghiÖp ®Ò tµi : TỐIƯUHÓACÔNGCỤTÌMKIẾM - SEO Vinh, 2011 Sinh viên thực hiện : Văn Thiên Cường - 1 - GVHD : TS.Lê Ngọc Xuân ĐỒ ÁN TỐTNGHIỆPTỐIƯUHÓACÔNGCỤTÌMKIẾM – SEO MỤC LỤC Trang LỜI MỞ ĐẦU…………………………………………………………… 1 NỘI DUNG ĐỒ ÁN……………… ……………………………… .3 PHẦN I GIỚI THIỆU VỀ SEARCH ENGINE VÀ PHƯƠNG THỨC TÌM KIẾM……………………………………………………………….…3 1.1 Search engine và tầm ảnh hưởng………………………………….…3 1. Search Engine là gì? .4 2. Phương thức hoạt động và Cơ cấu tổ chức của cổ máy tìmkiếm Search engine .4 2.1 Cấu trúc của một Search engine………………………………………4 2.1.1 Web Crawler………….………………………… ……………….4 2.1.2 Document Index (lập chỉ mục tài liệu)……….………… .………5 2.1.3 Document Cache(lưu trữ tài liệu)………………….……… .……5 2.1.4 Document Ranking……………………………….………… … .5 2.1.5 Query Processor(bộ xử lý truy vấn)…………………………… 6 2.1.6 Presentation interface(giao diện trình bày)…………………….… 6 2.2 Phương thức hoạt động………………………………………… .….6 2.2.1 “Hybrid Search Engines” - Các hệ thống tìmkiếm tổng hợp… ….7 2.2.2 Các thành phần của một cỗ máy tìmkiếm tự động…………… .…7 3. Các loại Search engine phổ biến……….……………………… .………8 3.1 Meta-search engine………………………… ………………… …… .8 3.2 Thư mục đối tượng (Subject Directories)………………… .…… … 9 3.3 Các cơ sở dữ liệu đặc biệt…………………………………… .………9 4. Đặc điểm và phân loại search engine…………………………….… ….10 4.1. Các đặc điểm……………………………………………… …………10 4.2. Cách thức xếp thứ hạng (ranking)…………………………….……….10 4.3. Phân loại search engine…………………………………………… 12 Sinh viên thực hiện : Văn Thiên Cường - 2 - GVHD : TS.Lê Ngọc Xuân ĐỒ ÁN TỐTNGHIỆPTỐIƯUHÓACÔNGCỤTÌMKIẾM – SEO 4.4. Các Search Engine nên biết………………………………………… .12 a. Các hổ trợ nâng cao và các phép toán sử dụng trong Search engine…………………………………………………………… … 14 1. Dùng dấu '+'………………………………………………….….…… 14 2. Dùng dấu '-'…………………………………………………….… .14 3. Dùng ngoặc kép " " để tìm cụm từ trong nguyên văn……….……….…15 4. Các phép toán Boolean…………………………………….……….… .16 4.1 Phép OR………………………………………………….…………….16 4.2 Phép AND…………………………………………………………… .17 4.3 Phép NOT…………………………………………………………… 17 4.4 Phép NEAR……………………………………………….……………17 4.5 Chẻ nhánh bằng phép ( )……………………… ……….…………… 18 5. Các hổ trợ nâng cao khác……………………………………………… 19 5.1 Các từ khoá host:, site:, url.host:, và domain: ………….…….……… 19 5.1.1 Từ khoá host: của Alavista(www.altavista.com) .20 5.1.2 Từ khoá tương tự site:, url.host:, và domain: ………………….…….20 5.2 Các từ khoá title:, intitle:, và allintitle: …………………………….… 20 5.2.1 Từ khoá title: ………………………………………………… …….21 5.2.2 Từ khoá intitle: và allintitle: ……………………….….… …………21 5.2.3 Các từ khoá inurl:, allinurl:, orginurl:, và u: ………….……….…….22 5.2.4 inurl: và allinurl: trong google: ……………………….…………… 22 5.2.5: originurl:, u: và url: …………………………………………………23 5.2.6 Từ khoá Link: và linkdomain: ………………………………….……23 5.2.7 từ khoá filetype: …………………………………………….……… 23 5.2.8 Dùng các loại kí tự phỏng định (wildcard character): ……….………24 5.2.9 Dùng kí tự ~ …………………………………………………………24 3.3 Chế độ nâng cao của các search engine ……………………………24 1. Vài đặc thù của các search engines thông dụng….…………….……….26 1.1 Tìm thêm dữ liệu theo liên hệ (related search): ………………….…….26 Sinh viên thực hiện : Văn Thiên Cường - 3 - GVHD : TS.Lê Ngọc Xuân ĐỒ ÁN TỐTNGHIỆPTỐIƯUHÓACÔNGCỤTÌMKIẾM – SEO 1.2 Chống hội tụ (cluster) ……………………………………….…………27 1.3 Trang Tương Tự (similar) và trang có chính tả gần giống ……………28 1.4 Trang có từ nối dài (stemming) ………………………… ……………28 1.5 Dùng chức năng tồn trữ (cache) của google ……………… ………….28 1.6 Chuyển Dịch (translation) …………………………………………… 29 1.7 Địa chỉ các search engine thông dụng …………………………………29 1.8 Phần mềm search engine ………………………………………………30 PHẦN II KHÁI NIỆM VỀ SEO VÀ CÁC VẤN ĐỀ CƠ BẢN VỀ SEO 2.1 MỞ ĐẦU .……………………………………………………………31 2.1.1 Khái niệm về SEO………………………………………………… .31 2.1.2 Thực trạng, tầm quan trọng website vai trò và kế hoạch phát triển của SEO trong CNTT………………………………………………………… 33 2.2 CÁC ĐỊNH HƯỚNG SEO……… .…………………………………38 1. Tạo tiêu đề trang chính xác, duy nhất………… … ………………… .38 2 Biện pháp tốt cho các thẻ tiêu đề trang……… .…………… …….……40 3. Sử dụng thẻ meta "description"…………………………………….……41 4. Biện pháp tốt cho các thẻ meta mô tả……………………………………43 5. Cải tiến cấu trúc URL……………………………………………………44 6. Làm cho trang web dễ điều hướng hơn………………………………….47 7. Cung cấp nội dung và dịch vụ chất lượng………………………….……49 7.1 Biện pháp tốt cho nội dung…………………………………………….49 7.2 Tạo nội dung mới mẻ , duy nhất……………………………………….50 7.3 Cung cấp nội dung hoặc dịch vụ duy nhất…………………………… 51 8. Viết chuỗi ký tự liên kết tốt hơn…………………………………………51 9. Sử dụng thẻ tiêu đề một cách thích hợp……………………………… .53 10. Tốiưuhoá việc sử dụng hình ảnh…………………………………… .54 11. Sử dụng hiệu quả robots.txt……………………………………………56 12. rel="nofollow" cho các liên kết……………………………………… 58 Sinh viên thực hiện : Văn Thiên Cường - 4 - GVHD : TS.Lê Ngọc Xuân ĐỒ ÁN TỐTNGHIỆPTỐIƯUHÓACÔNGCỤTÌMKIẾM – SEO 13. Quy trình thực hiện SEO ………………………………………………60 14. Thực hiện một chiến dịch SEO ? .61 PHẦN III QUẢNG BÁ TRANG WEB THEO CÁC CÁCH PHÙ HỢP 1. Các nguyên tắc hữu ích dành cho việc quảng bá trang web…….………63 2. Các công việc thành phần để thực hiện SEO……………………………64 KẾT LUẬN………………………………………………… ………… .70 TÀI LIỆU THAM KHẢO………………………………………….…….72 Sinh viên thực hiện : Văn Thiên Cường - 5 - GVHD : TS.Lê Ngọc Xuân ĐỒ ÁN TỐTNGHIỆPTỐIƯUHÓACÔNGCỤTÌMKIẾM – SEO LỜI MỞ ĐẦU Cuộc cách mạng côngnghiệp mới, nền kinh tế tri thức đã phát triển mạnh trong thế kỷ XXI. Nhờ sự phát triển mạnh mẽ của Internet và rôbốt sử dụng trong kinh doanh, chi phí sản xuất giảm, chất lượng sản phẩm cao, mức sử dụng nguyên vật liệu, lao động giảm và sản phẩm ngày càng tinh xảo, hoàn thiện hơn. Máy móc đảm nhiệm những công việc nặng nhọc thay cho con người. Công nghệ thông tin là phương tiện và giải pháp hỗ trợ các doanh nghiệp hoạt động hiệu quả hơn. Word Wide Web(www) trở thành nguồn tài nguyên khổng lồ và quý giá của nhân loại. Nó cung cấp cho chúng ta thông tin về mọi lĩnh vực đời sống xã hội, khoa học kỹ thuật, v.v… Tuy nhiên đi đôi với sự thuận lợi ấy có một vấn đề được đặt ra là chúng ta làm thế nào để truy cập và khai phá được nguồn tài nguyên ấy hiệu quả nhất. Từ vấn đề trên người ta đã nghiên cứu và tạo ra bộ máy tìmkiếm web(Web search engine). Máy này có khả năng tìmkiếm thông tin linh hoạt , nhanh chóng và rất dễ sử dụng . Người sử dụng chỉ cần đặt câu hỏi truy vấn về vấn đề cần quan tâm là có được tập kết quả liên quan đến câu hỏi truy vấn đó. Hiện nay Google (1) , Altavista (2) , HotBot (3) , Lycos (4) , AllTheWeb (5) là những bộ máy tìmkiếm hiệu quả và đang được sử dụng rộng rãi . Thế nhưng việc tìmkiếm thông tin theo những kiểu trên vẫn không hiệu quả , chiếm nhiều thời gian vì: -Khối lượng dữ liệu khổng lồ và tính động của các trang Web, nên bộ máy tìmkiếm chỉ có thể sắp xếp một phần các chỉ mục của Web. -Người sử dụng đặt câu hỏi truy vấn quá ngắn, không thể hiện được hết ý định của họ , do vậy mà tập kết quả tìmkiếm Web là chung chung. Sinh viên thực hiện : Văn Thiên Cường - 6 - GVHD : TS.Lê Ngọc Xuân ĐỒ ÁN TỐTNGHIỆPTỐIƯUHÓACÔNGCỤTÌMKIẾM – SEO Từ ảnh hưởng hai nhân tố trên tập kết quả tìmkiếm Web có thể từ hàng nghìn đến hàng triệu tài liệu, do đó tìm được đúng tài liệu mình cần là công việc vô cùng khó khăn. Nội dung đồ án nhằm chỉ ra một loại hình nghiên cứu về CNTT mà hiệu quả của nó rất lớn tuy nhiên hiện nay nhận thức của người thiết kế và quản trị website tại Việt Nam nói riêng và thế giới nói chung nhận biết việc tốiưuhóa website để các bộ máy tìmkiếm trỏ tới rất ít. Người sử dụng không ý thức được tầm quan trọng của việc tốiưuhóa website, hoặc các phương thức để các máy tìmkiếm trỏ đến. SEO có thể coi như là một kỹ thuật, một bí quyết thực sự đối với mỗi người quản trị, xây dựng website hay đơn thuần là người làm trong lĩnh vực truyền thông. Sinh viên thực hiện : Văn Thiên Cường - 7 - GVHD : TS.Lê Ngọc Xuân ĐỒ ÁN TỐTNGHIỆPTỐIƯUHÓACÔNGCỤTÌMKIẾM – SEO PHẦN I GIỚI THIỆU VỀ SEARCH ENGINE VÀ PHƯƠNG THỨC TÌMKIẾM 1.1 Search engine và tầm ảnh hưởng Như chúng ta đều biết www như là từ điển bách khoa toàn thư , là thư viện khổng lồ sẵn sàng phục vụ bất cứ ai quan tâm thông qua việc truy cập internet. Đối với chúng ta nó là một trong những nguồn tài nguyên thông tin có giá trị nhất, nếu không có nó thì mọi hoạt động hàng ngày sẽ kém hiệu quả. Nhưng vấn đề đặt ra là chúng ta phải truy cập và sử dụng nguồn tài nguyên ấy như thế nào để có hiệu quả nhất. Để tìm được đúng thông tin cần tìm trong nguồn tài nguyên khổng lồ là một thách thức lớn . Một trong những thành công nhất trong nghiên cứu và giải quyết vấn đề trên là việc tạo ra được bộ máy tìmkiếm Web. Máy này có nhiệm vụ giúp người sử dụng tìm tài liệu mình quan tâm. Các tài liệu chủ yếu có dạng HTML, PDF, PS, MS Word và MS PowerPoint… Giao diện bộ máy tìmkiếm thân thiện và rất dễ sử dụng , người sử dụng chỉ cần đặt câu hỏi truy vấn và ra lệnh tìm. Máy sẽ trả về tập kết quả tìm kiếm(được gọi là các sinppet) liên quan đến câu hỏi truy vấn đó. Snippet miêu tả ngắn gọn nội dung của tài liệu Web(trang Web), nó thường bao gồm tựa đề , địa chỉ web của tài liệu (được gọi là URL)và một đoạn text trình bày nội dung liên quan đến câu hỏi truy vấn . 1. Search Engine là gì? Search engine (Công cụtìm kiếm) là một côngcụ phần mềm nhằm tìm ra các trang website trên mạng dựa vào các thông tin mà nó có. Dữ lượng thông tin của search engine thực chất là một loại cở sở dữ liệu cực lớn. Côngcụ này tìm các tài liệu dựa trên các từ khoá (keyword) và trả về một danh mục của các trang có chứa từ khoá liên quan. Sinh viên thực hiện : Văn Thiên Cường - 8 - GVHD : TS.Lê Ngọc Xuân ĐỒ ÁN TỐTNGHIỆPTỐIƯUHÓACÔNGCỤTÌMKIẾM – SEO Một số côngcụtìmkiếm mạnh trên thế giới hiện nay: Google.com, Yahoo.com, Altavista.com, . 2. Phương thức hoạt động và Cơ cấu tổ chức của cổ máy tìmkiếm -Search engine Thuật ngữ “Cỗ máy tìmkiếm - Search Engine” được dùng chung để chỉ 2 hệ thống tìm kiếm: Một do các chương trình máy tính tự động tạo ra (Crawler- Based Search Engines) và dạng thư mục internet do con người quản lý (Human-Powered Directories). Hai hệ thống tìmkiếm này tìm và lập danh mục website theo 2 cách khác nhau. 2.1 Cấu trúc của một Search engine 2.1.1 Web Crawler Web Crawler là một trong hai thành phần trực tiếp tương tác với internet, nó còn được gọi là web spider hoặc robot. Công việc chính của Web Crawler là phát hiện những nguồn tài nguyên mới trên Web. Nó giải quyết vấn đề này bằng cách thực hiện tìmkiếm đệ quy theo các đường link từ tất cả các trang đã được duyệt . Sinh viên thực hiện : Văn Thiên Cường - 9 - GVHD : TS.Lê Ngọc Xuân ĐỒ ÁN TỐTNGHIỆPTỐIƯUHÓACÔNGCỤTÌMKIẾM – SEO Trong khi khai phá các nguồn tài nguyên mới trên Internet, Web Crawler còn có nhiệm vụ kiểm tra xem các trang có còn hợp lệ không và chúng ta đã được cập nhật hay chưa. Mục đích của công việc này là giúp cho bộ máy tìmkiếm cập nhật được tất cả tài liệu của Web(kể cả các tài liệu cũ và mới). 2.1.2 Document Index (lập chỉ mục tài liệu) Mục đích chính của việc lập chỉ mục tài liệu là hỗ trợ tìm kiếm. Tìm tài liệu có chứa những từ trong câu hỏi truy vấn? Để thực hiện công việc này thì đa số các bộ máy tìmkiếm sử dụng biến dữ liệu có cấu trúc inverted index. Inverted index giống như danh sách chỉ mục ở phần cuối của cuốn sách, trong đó với mỗi một từ là một danh sách liên kết các tài liệu có từ đó xuất hiện. Biến này có khả năng giúp bộ máy tìmkiếm xác định chính xác tài liệu có chứa các từ trong câu hỏi truy vấn. Với bảng chỉ mục như vậy , bộ máy tìmkiếm có thể thực hiện tìmkiếm theo nhóm từ hoặc tìmkiếm từ lân cận. 2.1.3 Document Cache(lưu trữ tài liệu) Nhiều máy phục vụ tìmkiếm vừa lưu trữ bảng chỉ mục tài liệu theo từ (document index), vừa lưu trữ bảng chỉ mục tài liệu gốc. Mục đích của việc lưu trữ bảng chỉ mục các tài liệu gốc (tài liệu đầy đủ) là tạo ra các sippet và phục vụ cho việc lưu trữ các phiên bản của tài liệu. 2.1.4 Document Ranking Chắc chắn rằng trong môi trường www, thậm chí đối với cả những câu hỏi truy vấn hoàn thiện và chính xác, thì tập kết quả trả tìmkiếmvẫn là hàng Sinh viên thực hiện : Văn Thiên Cường - 10 - GVHD : TS.Lê Ngọc Xuân . : TỐI ƯU HÓA CÔNG CỤ TÌM KIẾM - SEO Vinh, 2011 Sinh viên thực hiện : Văn Thiên Cường - 1 - GVHD : TS.Lê Ngọc Xuân ĐỒ ÁN TỐT NGHIỆP TỐI ƯU HÓA CÔNG CỤ TÌM. Thiên Cường - 8 - GVHD : TS.Lê Ngọc Xuân ĐỒ ÁN TỐT NGHIỆP TỐI ƯU HÓA CÔNG CỤ TÌM KIẾM – SEO Một số công cụ tìm kiếm mạnh trên thế giới hiện nay: Google.com,