1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tối ưu hóa cộng cụ tìm kiếm

84 653 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 84
Dung lượng 4,51 MB

Nội dung

Đồ áN TốT NGHIệP Tối u hoá công cụ tìm kiếm Trờng đại học vinh Khoa công nghệ thông tin === === Đồ áN TốT NGHIệP TốI ƯU HóA CÔNG Cụ TìM KIếM Giáo viên hớng dẫn : Th.S Vũ VĂN NAM Sinh viên thực hiện : CAO XUÂN THắNG Lớp : 46K2 Vinh - 2010 LờI CảM ƠN SV: CAO XUÂN THắNG - LớP 46K2 CNTT - Mã SV: CQ02515 - 1 - Đồ áN TốT NGHIệP Tối u hoá công cụ tìm kiếm Sau thời gian làm đồ án, lời đầu tiên em xin cảm ơn thầy giáo hng dẫn Th.s Vũ Văn Nam đã tận tình hớng dẫn, chỉ bảo và tạo mọi điều kiện thuận lợi để em hoàn thành tốt đồ án tốt nghiệp. Em xin chân thành cảm ơn các thầy cô giáo trong Khoa Công Nghệ Thông Tin Trờng ĐạI HọC VINH, và các anh, chị đang công tác tại Cty INIDEC đã giúp đỡ và cung cấp tài liệu và tất cả các kiến thức chuyên môn cần thiết và quý giá nhất. Ngoài ra chúng em còn đợc rèn luyện một tinh thần học tập và sáng tạo. Đây chính là tính cách hết sức cần thiết để có thể thành công khi bắt tay vào công việc trong tơng lai. Cuối cùng em xin gửi lời cảm ơn tới tất cả ngời thân, bạn bè đã giúp đỡ, động viên và đóng góp nhiều ý kiến quý báu cho em trong quá trình làm báo cáo tốt nghiệp này. Em xin trân trọng cảm ơn! TP. Vinh, Tháng 04 năm 2010. Sinh Viên : Cao Xuân Thắng Lớp : 46K2 CNTT. MụC LụC Trang SV: CAO XUÂN THắNG - LớP 46K2 CNTT - Mã SV: CQ02515 - 2 - Đồ áN TốT NGHIệP Tối u hoá công cụ tìm kiếm LờI CảM ƠN 1 LờI Mở ĐầU 7 NộI DUNG Đồ áN .9 Chơng I GIớI THIệU Về SEARCH ENGINE Và PHƯƠNG THứC TìM KIếm I. Search engine và tầm ảnh hởng 9 1. Search Engine là gì? 10 2. Phơng thức hoạt động và Cơ cấu tổ chức của cổ máy tìm kiếm -Search engine .10 2.1 Cấu trúc của một Search engine 11 2.1.1 Web Crawler 11 2.1.2 Document Index (lập chỉ mục tài liệu) .11 2.1.3 Document Cache(lu trữ tài liệu) .12 2.1.4 Document Ranking 12 2.1.5 Query Processor(bộ xử lý truy vấn) 13 2.1.6 Presentation interface(giao diện trình bày) .13 2.2 Phơng thức hoạt động .13 2.2.1 Hybrid Search Engines - Các hệ thống tìm kiếm tổng hợp 14 2.2.2 Các thành phần của một cỗ máy tìm kiếm tự động .14 3. Các loại Search engine phổ biến .16 3.1 Meta-search engine 16 3.2 Th mục đối tợng (Subject Directories) .17 3.3 Các cơ sở dữ liệu đặc biệt .17 SV: CAO XUÂN THắNG - LớP 46K2 CNTT - Mã SV: CQ02515 - 3 - Đồ áN TốT NGHIệP Tối u hoá công cụ tìm kiếm 4. Đặc điểm và phân loại search engine .18 4.1. Các đặc điểm .18 4.2. Cách thức xếp thứ hạng (ranking) .18 4.3. Phân loại search engine .19 4.4. Các Search Engine nên biết .20 II. Các hỗ trợ nâng cao và các phép toán sử dụng trong Search engine 21 1. Dùng dấu '+' 22 2. Dùng dấu '-' .22 3. Dùng ngoặc kép " " để tìm cụm từ trong nguyên văn 23 4. Các phép toán Boolean .23 4.1 Phép OR .24 4.2 Phép AND 25 4.3 Phép NOT 25 4.4 Phép NEAR .25 4.5 Chẻ nhánh bằng phép ( ) .26 5. Các hỗ trợ nâng cao khác 27 5.1 Các từ khoá host:, site:, url.host:, và domain: .28 SV: CAO XUÂN THắNG - LớP 46K2 CNTT - Mã SV: CQ02515 - 4 - Đồ áN TốT NGHIệP Tối u hoá công cụ tìm kiếm 5.1.1 Từ khoá host: của Alavista(www.altavista.com) .28 5.1.2 Từ khoá tơng tự site:, url.host:, và domain: .29 5.2 Các từ khoá title:, intitle:, và allintitle: .29 5.2.1 Từ khoá title: .29 5.2.2 Từ khoá intitle: và allintitle: 30 5.2.3 Các từ khoá inurl:, allinurl:, orginurl:, và u: 31 5.2.4 inurl: và allinurl: trong google: .31 5.2.5: originurl:, u: và url: 31 5.2.6 Từ khoá Link: và linkdomain: .32 5.2.7 từ khoá filetype: .32 5.2.8 Dùng các loại kí tự phỏng định (wildcard character): 33 5.2.9 Dùng kí tự ~ .33 III. Chế độ nâng cao của các search engine .34 1.Vài đặc thù của các search engines thông dụng 35 1.1 Tìm thêm dữ liệu theo liên hệ (related search): 35 1.2 Chống hội tụ (cluster) .36 1.3 Trang Tơng Tự (similar) và trang có chính tả gần giống 37 SV: CAO XUÂN THắNG - LớP 46K2 CNTT - Mã SV: CQ02515 - 5 - Đồ áN TốT NGHIệP Tối u hoá công cụ tìm kiếm 1.4 Trang có từ nối dài (stemming) 37 1.5 Dùng chức năng tồn trữ (cache) của google .38 1.6 Chuyển Dịch (translation) 39 1.7 Địa chỉ các search engine thông dụng 39 1.8 Phần mềm search engine 40 Chơng Ii KHáI NIệM Về SEO? Và CáC VấN Đề CƠ BảN Về SEO I. SEO là gì? .41 1.1 Khái niệm về SEO 41 1.2 Thực trạng, tầm quan trọng website vai trò và kế hoạch phát triển của SEO trong CNTT 43 II. CáC ĐịNH HƯớNG SEO .48 1. Tạo tiêu đề trang chính xác, duy nhất 49 2. Biện pháp tốt cho các thẻ tiêu đề trang .50 3. Sử dụng thẻ meta "description" 51 4. Biện pháp tốt cho các thẻ meta mô tả .53 5. Cải tiến cấu trúc URL .54 6. Làm cho trang web dễ điều hớng hơn 57 7. Sử dụng điều hớng kiểu "breadcrumb" .59 8. Cung cấp nội dung và dịch vụ chất lợng 61 9. Viết chuỗi ký tự liên kết tốt hơn 63 10. Sử dụng thẻ tiêu đề một cách thích hợp 65 11. Tối u hoá việc sử dụng hình ảnh .66 12. Sử dụng hiệu quả robots.txt 68 SV: CAO XUÂN THắNG - LớP 46K2 CNTT - Mã SV: CQ02515 - 6 - Đồ áN TốT NGHIệP Tối u hoá công cụ tìm kiếm 13. rel="nofollow" cho các liên kết 71 Chơng III QUảNG Bá TRANG WEB THEO CáC CáCH PHù HợP 1. Các nguyên tắc hữu ích dành cho việc quảng bá trang web của 73 2. Tận dụng các công cụ quản trị web miễn phí .74 3. Tận dụng các dịch vụ phân tích web 76 KếT LUậN 80 TàI LIệU THAM KHảO 82 LờI Mở ĐầU SV: CAO XUÂN THắNG - LớP 46K2 CNTT - Mã SV: CQ02515 - 7 - Đồ áN TốT NGHIệP Tối u hoá công cụ tìm kiếm Cuộc cách mạng công nghiệp mới, nền kinh tế tri thức. Nhờ sự phát triển máy vi tính và rôbốt sử dụng trong kinh doanh, chi phí sản xuất giảm, chất lợng sản phẩm cao, mức sử dụng nguyên vật liệu, lao động giảm và sản phẩm ngày càng tinh xảo, hoàn thiện hơn. Máy móc đảm nhiệm những công việc nặng nhọc thay cho con ngời. Công nghệ thông tin là phơng tiện và giải pháp giúp các doanh nghiệp hoạt động hiệu quả hơn. Word Wide Web(www) trở thành nguồn tài nguyên khổng lồ và quý giá. Nó cung cấp cho chúng ta thông tin về mọi lĩnh vực đời sống xã hội, khoa học v.v . Tuy nhiên đi đôi với sự thuận lợi ấy có một vấn đề đợc đặt ra là chúng ta làm thế nào để truy cập và khai phá đợc nguồn tài nguyên ấy hiệu quả nhất. Từ vấn đề trên ngời ta đã nghiên cứu và tạo ra bộ máy tìm kiếm web(Web search engine). Máy này có khả năng tìm kiếm thông tin linh hoạt, nhanh chóng và rất dễ sử dụng. Ngời sử dụng chỉ cần đặt câu hỏi truy vấn về vấn đề cần quan tâm là có đợc tập kết quả liên quan đến câu hỏi truy vấn đó. Hiện nay Google (1) , Altavista (2) , HotBot (3) , Lycos (4) , AllTheWeb (5) là những bộ máy tìm kiếm hiệu quả và đang đợc sử dụng rộng rãi. Ngoài ra, ngời ta cũng đã tạo ra các th mục Web, chẳng hạn nh Yahoo (6) , Open Directory Project (7) . Theo kiểu này thì các tài liệu Web đợc sắp xếp thành các th có phân cấp, ngời sử dụng có thể tìm thông tin bằng cách duyệt các cây th mục và xác định tài liệu mình cần tìm. Thế nhng việc tìm kiếm thông tin theo những kiểu trên vẫn không hiệu quả, chiếm nhiều thời gian vì: - Khối lợng dữ liệu khổng lồ và tính động của các trang Web, nên bộ máy tìm kiếm chỉ có thể sắp xếp một phần các chỉ mục của Web. - Ngời sử dụng đặt câu hỏi truy vấn quá ngắn, không thể hiện đợc hết ý định của họ, do vậy mà tập kết quả tìm kiếm Web là chung chung. SV: CAO XUÂN THắNG - LớP 46K2 CNTT - Mã SV: CQ02515 - 8 - Đồ áN TốT NGHIệP Tối u hoá công cụ tìm kiếm Từ ảnh hởng hai nhân tố trên tập kết quả tìm kiếm Web có thể từ hàng nghìn đến hàng triệu tài liệu, do đó tìm đợc đúng tài liệu mình cần là công việc vô cùng khó khăn. Nội dung đồ án nhằm chỉ ra mội loại hình CNTT mà hiệu quả của nó rất lớn tuy nhiên hiện nay, nhận thức của ngời quản trị website tại Việt Nam nói riêng và thế giới nói chung nhận biết việc tối u hóa website để các bộ máy tìm kiếm trỏ tới rất ít. Ngời sử dụng không ý thức đợc tầm quan trọng của việc tối u hóa website, hoặc làm các phơng thức để các máy tìm kiếm trỏ đến. SEO có thể coi nh là một kỹ thuật, một bí quyết thực sự đối với mỗi ngời quản trị, xây dựng website hay đơn thuần là ngời làm trong lĩnh vực truyền thông. Sau đây là những vấn đề về lĩnh vực thơng mại điện tử dựa trên công cụ SEO, tác dụng và nhiệm vụ, . trong lĩnh vực CNTT nói chung. http://www.google.com 2 http://www.altavista.com 3 http://www.hotbot.com 4 http://www.lycos.com 5 http://www.alltheweb.com 6 http://www.yahoo.com 7 http://www.dmoz.org NộI DUNG Đồ áN Chơng I GIớI THIệU Về SEARCH ENGINE Và PHƯƠNG THứC TìM KIếM SV: CAO XUÂN THắNG - LớP 46K2 CNTT - Mã SV: CQ02515 - 9 - Đồ áN TốT NGHIệP Tối u hoá công cụ tìm kiếm I. Search engine và tầm ảnh hởng Nh chúng ta đều biết www nh là từ điển bách khoa toàn th, là th viện khổng lồ sẵn sàng phục vụ bất cứ ai quan tâm thông qua việc truy cập internet. Đối với chúng ta nó là một trong những nguồn tài nguyên thông tin có giá trị nhất, nếu không có nó thì mọi hoạt động hàng ngày sẽ kém hiệu quả. Nhng vấn đề đặt ra là chúng ta phải truy cập và sử dụng nguồn tài nguyên ấy nh thế nào để có hiệu quả nhất. Để tìm đợc đúng thông tin cần tìm trong nguồn tài nguyên khổng lồ là một thách thức lớn. Một trong những thành công nhất trong nghiên cứu và giải quyết vấn đề trên là việc tạo ra đợc bộ máy tìm kiếm Web. Máy này có nhiệm vụ giúp ngời sử dụng tìm tài liệu mình quan tâm. Các tài liệu chủ yếu có dạng HTML, PDF, PS, MS Word và MS PowerPoint . Giao diện bộ máy tìm kiếm thân thiện và rất dễ sử dụng, ngời sử dụng chỉ cần đặt câu hỏi truy vấn và ra lệnh tìm. Máy sẽ trả về tập kết quả tìm kiếm(đợc gọi là các sinppet) liên quan đến câu hỏi truy vấn đó. Snippet miêu tả ngắn gọn nội dung của tài liệu Web(trang Web), nó thờng bao gồm tựa đề, địa chỉ web của tài liệu (đợc gọi là URL)và một đoạn text trình bày nội dung liên quan đến câu hỏi truy vấn. 1. Search Engine là gì? Search engine(Công cụ tìm kiếm) là một công cụ phần mềm nhằm tìm ra các trang website trên mạng dựa vào các thông tin mà nó có. Dữ lợng thông SV: CAO XUÂN THắNG - LớP 46K2 CNTT - Mã SV: CQ02515 - 10 -

Ngày đăng: 19/12/2013, 11:27

HÌNH ẢNH LIÊN QUAN

có chứa các từ trong câu hỏi truy vấn. Với bảng chỉ mục nh vậy, bộ máy tìm kiếm có thể thực hiện tìm kiếm theo nhóm từ hoặc tìm kiếm từ lân cận. - Tối ưu hóa cộng cụ tìm kiếm
c ó chứa các từ trong câu hỏi truy vấn. Với bảng chỉ mục nh vậy, bộ máy tìm kiếm có thể thực hiện tìm kiếm theo nhóm từ hoặc tìm kiếm từ lân cận (Trang 13)
III. Chế độ nâng cao của các search engine - Tối ưu hóa cộng cụ tìm kiếm
h ế độ nâng cao của các search engine (Trang 35)
Một phần hình trong chế độ nâng cao của Google - Tối ưu hóa cộng cụ tìm kiếm
t phần hình trong chế độ nâng cao của Google (Trang 35)
Sơ đồ trang web là trang đơn giản về trang web, hiển thị cấu trúc trang web và thờng chứa danh sách phân tầng các trang trên trang web - Tối ưu hóa cộng cụ tìm kiếm
Sơ đồ trang web là trang đơn giản về trang web, hiển thị cấu trúc trang web và thờng chứa danh sách phân tầng các trang trên trang web (Trang 59)
Hình ảnh của đã không hiển thị đối với ngời dùng này vì một số lý do nhng ít nhất có phần văn bản thay thế. - Tối ưu hóa cộng cụ tìm kiếm
nh ảnh của đã không hiển thị đối với ngời dùng này vì một số lý do nhng ít nhất có phần văn bản thay thế (Trang 69)
Hình ảnh của đã không hiển thị đối với ngời dùng này vì một số lý do nhng ít nhất có phần văn bản thay thế. - Tối ưu hóa cộng cụ tìm kiếm
nh ảnh của đã không hiển thị đối với ngời dùng này vì một số lý do nhng ít nhất có phần văn bản thay thế (Trang 69)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w