tối ưu hóa máy tìm kiếm

17 99 0
tối ưu hóa máy tìm kiếm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TỐI ƯU HÓA MÁY TÌM KIẾM Môn: Công nghệ phần mềm Giáo viên hướng dẫn: Ngô Nguyễn Nhật Minh Thành viên nhóm Nguyễn Xuân Vinh 50802635 Nguyễn Sỹ Thành 50801987 Nguyễn Phan Duy 50600339 Phạm Văn Quân 50502278 MỤC LỤC SEO MỘT SỐ KHÁI NIỆM CƠ BẢN SEO G ? SEO VÀ SEM SEM SEO CÔNG CỤ TÌM KIẾM: NGUYÊN LÝ HOẠT ĐỘNG MÁY TÌM KIẾM THƯỞ SƠ KHAI Thuật toán xếp kết tìm kiếm Thuật toán tf-idf CÁC CỖ MÁY TÌM KIẾM HIỆN NAY PageRank TỔNG KẾT CÁC BƯỚC HOẠT ĐỘNG CÁC PHƯƠNG PHÁP TỐI ƯU HÓA MÁY TÌM KIẾM 10 CÁC KỸ THUẬT SEO CĂN BẢN 10 Mô tả trang web 10 Xây dựng liên kết, tăng PageRank trang 12 Liên kết viết web(internal links): 13 MỘT SỐ PHƯƠNG PHÁP SEO NÂNG CAO 15 Dịch website ngôn ngữ khác 15 ROR sitemap 15 Tận dụng file log 15 SEO mot so khái niệ m bán Theo số thống kê có đến 80% số người dùng Internet sử dụng công cụ tìm kiếm Google , Yahoo, LiveSearch Mỗi ngày có hàng triệu người dùng web sử dụng công cụ tìm kiếm (Search engines) để tìm sản phẩm, dịch vụ thông tin họ cần Nhưng với hàng tỷ website tồn tại, để người dùng viếng thăm, webmaster cần phải tận dụng từ máy tìm kiếm Rất người dùng đủ kiên nhẫn xem trang kết (mỗi trang hiển thị 10 kết quả) sau thực tìm kiếm search engine trang web không nằm top 30 trang đầu tiên, có người biết đến Thực tế có tới 70% người dùng xem trang thứ kết tìm kiếm Vì thế, trang web nằm top 10, hội để người dùng viếng thăm lớn Tối ưu hóa máy tìm kiếm (Search engine optimization = SEO) giải pháp cho vấn đề Nguyên lý Zipf: mức độ ý người dùng trang kết tìm kiếm giảm dần từ 100 đến 10 SEO viết tắt Search Engine Optimization, tối ưu kết tìm kiếm Kết việc thực SEO tăng thứ hạng website bạn lên cao máy tìm kiếm Google, Yahoo, MSN, SEO có hai kỹ thuật on-page SEO off-page SEO Ngoài ra, SEO phụ thuộc vào nội dung website, lượng truy cập website, lưu lượng truyền tải website, tốc độ load website, On-page SEO: bao gồm công việc liên quan đến cải tiến mã nguồn trang web sử dụng thẻ metadata, title, lập sitemap, chỉnh sửa liên kết Off-page SEO: bao gồm công việc liên quan đến xây dựng mạng lưới liên kết từ nguồn khác Một số người chia SEO thành dạng Black-hat SEO White-hat SEO Black-hat SEO thủ thuật tăng thứ hạng website kết tìm kiếm ví dụ Splogging(spam trang blog), mua tên miên có thứ hạng cao, tham gia vào trang spam link,… Đây thủ thuật nhằm “đánh lừa” công cụ tìm kiếm mà cụ thể đánh lừa thuật toán Tuy nhiên, kỹ thuật tập trung chủ yếu vào người kinh nghiệm kiến thức Search Engines… Một hình thức Black-hat SEO White-hat SEO cách mà webmaster tập trung nhiều vào nội dung Website nâng cao chất lượng Website, họ quan tâm nhiều đến người sử dụng website viết cho Search Engine Về bản, Black-hat SEO White-hat SEO có mục đích nhằm tăng thứ hạng cho Website công cụ tìm kiếm Tuy nhiên, thủ thuật “Black-hat” xem không hợp pháp, có nguy bị Google cấm cao Hiện nay, Google phát triển nhiều thuật toán để ngăn chặn thủ thuật “Black-hat” Các công cụ tìm kiếm hiển thị số dạng danh sách trang kết tìm kiếm (SERP) bao gồm danh sách trả tiền, danh sách quảng cáo, dánh sách trả tiền theo click danh sách tìm kiếm miễn phí Mục tiêu SEO chủ yếu hướng tới việc nâng cao thứ hạng danh sách tìm kiềm miễn phí theo số từ khóa nhằm tăng lượng chất khách viếng thăm đến trang SEO dịch vụ độc lập phần dự án tiếp thị hiệu giai đoạn phát triển ban đầu giai đoạn thiết kế website 5 SEO SEM Cần phân biệt Search Engine Optimization (SEO) với Search Engine Marketing (SEM): SEM: hình thức tăng thứ hạng trang web trang kết tìm kiếm cách trả tiền cho dịch vụ cung cấp máy tìm kiếm SEO: hướng đến mục đích tăng thứ hạng kết tìm kiếm sử dụng phương pháp miễn phí, tự nhiên Thông thường, SEO đòi hỏi công sức bỏ nhiều so với SEM Kết tìm kiếm bao gồm trang có trả phí(ô vuông màu đỏ) trang không trả phí(ô vuông màu đen) - SEO phương pháp nhằm tăng thứ hạng phần 6 Cong cu tìm kiệm: nguyện ly hoát đong Máy tìm kiếm thưở sơ khai Từ đầu năm 90 số máy tìm kiếm phát triển Trong số kể đến Archie, Gopher, W3Catalog… Do giới hạn không gian lưu trữ, máy tìm kiếm lưu lại tiêu đề số từ khóa trang web mà lưu lại toàn nội dung trang Đến năm 90 cỗ máy tìm kiếm thực bắt đầu phát triển Một số dịch vụ tiếng lúc có: Infoseek(1994), AltaVista(1995), Inktomi(1996)… Ban đầu, nhà quản trị web cần đưa địa website lên máy tìm kiếm, sau “spider”(gọi nôm na chương trình thu thập thông tin) đảm nhận nhiệm vụ tải toàn website lưu trữ lại máy chủ máy tìm kiếm Khi đó, phận gọi indexer đảm nhận nhiệm vụ dò tìm nội dung trang web, thu thập liên kết(links) chuyển đến cho spider thực tiếp công việc thu thập Ta tóm tắt lại hoạt động máy tìm kiếm sau: Thuật toán xếp kết tìm kiếm Những phiên đầu thuật toán dựa vào thông tin cấp thẻ metadata trang index website Tuy nhiên, người viết web hoàn toàn lựa chọn nội dung cho thẻ meta data trang index kết trả thuật toán hoàn toàn không đáng tin Sau đó, số máy tìm kiếm sử dụng thuật toán tf-idf việc đánh giá mức độ liên quan website từ khóa 7 Thuật toán tf-idf Qui tắc chủ yếu thuật toán việc đánh giá dựa vào yếu tố: tần số xuất từ khóa văn bản(website) nghịch đảo tần số xuất từ khóa tất văn Ta minh họa qua ví dụ sau: Giả định: từ cần tìm kiếm T = “the brown fox”, cỗ máy tìm kiếm chứa 10 triệu website Một văn D có 1000 từ có 30 lần xuất từ khóa “the” tần số xuất “the” D tf = 30/1000 = 0.03 Tuy nhiên, có nhiều văn chứa từ khóa “the” ta đưa kết luận từ khóa “the” tác dụng đại diện cho T Vì cần đưa thêm đại lượng idf Giả thuyết 10 triệu website, “the” xuất 10 000 lần idf “the” idf = log(10x106/10 000) = Như tf-idf “the” văn D 0.03x3 = 0.09 Tổng hợp tf-idf từ khóa lại ta kết đánh giá mức độ liên quan D đới với T Trang kết tìm kiếm xếp kết theo thứ tự giảm dần tf-idf Hạn chế tf-idf: thuật toán dựa hoàn toàn vào xuất từ khóa văn Khi đó, trang hoàn toàn không liên quan lại có từ cần tìm có khả xuất kết tìm kiếm Các cỗ máy tìm kiếm Backrub: cỗ máy tìm kiếm dựa vào thuật toán để đánh giá độ liên quan trang web Thuật toán sử dụng PageRank PageRank Được phát triển Larry Page Sergey Brin vào năm 1997, sau đưa vào sử dụng Google Yahoo! máy tìm kiếm khác sử dụng thuật toán tương tự Ý tưởng PageRank dựa vào số liên kết đến trang web Khi trang web A có trang web B liên kết đến ta nói tác giả B quan tâm đến A nói cách khác nội dung A lên quan đến đề từ khóa Bên cạnh đó, PageRank thêm trọng số vào trang B liên kết đến A Cụ thể B có PageRank cao dẫn đến A có PageRank cao Trọng số đưa nhằm tránh tượng spam link Cụ thể ta xét ví dụ: Giả thuyết không gian website gồm có phần tử: A, B, C, D Khi xác suất người dùng truy cập vào trang 0.25 Tuy nhiên B đặt liên kết đến A, xác suất A truy cập tăng lên 0.25 + 0.25 = 0.5 Giả thuyết thêm C trỏ đến A D xác suất A truy cập 0.25 + 0.25 + 0.25/2 = 0.625 B A C D Mặc dù C có liên kết từ B B có PageRank cao nên PageRank C cao Ngược lại E có nhiều liên kết đến trang liên kết đến E có PageRank thấy PageRank E thấp Trên thực tế, PageRank dựa vào nhiều yếu tố khác để đưa đánh giá cuối Theo công bố Google, PageRank chứa khoảng 500 triệu biến với tỉ số hạng 9 Tổng kết bước hoạt động Khi người dùng tìm kiếm từ, hình từ khóa “dog food”, máy tìm kiếm dựa vào index để đưa tất kết có từ khóa cần tìm Sau đó, kết tính PageRank để xếp thứ tự trả kết tìm kiếm cho người dùng 10 Các phương pháp toi ưu hoá máy tìm kiệm Các kỹ thuật Mô tả trang web Đây phần máy tìm kiếm dựa vào để phân loại website Các mô tả nằm thẻ Title, metadecription, meta-keyword Title Khai báo thẻ title website vấn đề quan trọng để công cụ tìm kiếm hiểu nội dung thông tin website Do nên sử dụng tiêu đề (title) ngắn gọn, súc tích không nên khai báo thẻ title dài sử dụng từ thừa “Welcome to…” Cụm từ title nội dung trang nhiều có độ ưu tiên từ khóa xuất title Một title tốt bao gồm đầy đủ chức mục đích web 11 Trang web credit card title hoàn toàn không chứa từ khóa lại chứa từ không liên quan Meta – Decription Thông thường webmaster không ý tới thẻ description không lên giao diện web lại công cụ tìm kiếm sử dụng để hiểu rõ nội dung trang web Khi khai báo Description không nên dài mà ngắn gọn xúc tích tên gọi "Mô Tả" Meta – Keyword Từ khóa trang web nên sử dụng từ khóa thẻ meta keyword để công cụ tìm kiếm trỏ tới Một điều cần ý keyword chi tiết tốt Tránh sử dụng keyword chung chung “máy ảnh” để nói website Sẽ tốt keyword hướng đến đối tượng cụ thể Ví dụ so sánh người tìm kiếm từ khóa “máy ảnh” người tìm kiếm từ khóa “máy ảnh Sony Cybershot DSC-T300” kết luận người thứ quan tâm đến máy ảnh nói chung(cách sử dụng, cách chụp ảnh,…) người thứ hai quan tâm đến việc lựa mua loại máy ảnh Lựa chọn Keyword Webmaster tự lựa chọn keyword nhiên tốt nên dựa vào thống kê câu tìm kiếm để đưa keyword cho phù hợp Một số website cung cấp dịch vụ này: 12 Dịch vụ Overture Keyword Selector Tool(overture.com) Ưu điểm - Miễn phí - Dữ liệu lấy từ máy tìm kiếm lớn(bao gồm Yahoo!) Khuyết điểm - Dữ liệu lưu trữ theo tháng Chỉ đánh giá xu hướng tạm thời - Không phân loại từ khóa(theo số ít, số nhiều, từ sai tả…) WordTracker.com - Dựa theo liệu tìm kiếm vòng tháng - Phân loại từ khóa rõ ràng - Hỗ trợ chứng nâng cao xuất liệu sang Excel, từ đồng nghĩa… KeywordDiscovery.com - Dữ liệu lưu trữ năm - Dữ liệu lấy từ nhiều nguồn tìm kiếm(9 tỉ tìm kiếm thuộc 37 máy tìm kiếm) - Phân loại từ khóa rõ ràng - Sắp xếp theo quốc gia - Hỗ trợ tính nâng cao - Miễn phí - Dữ liệu lấy từ Google - Phân loại từ khóa - Sắp xếp theo quốc gia - Hỗ trợ đồng nghĩa - Có trả phí(260USD/năm) - Dữ liệu lấy từ máy tìm kiếm nhỏ(Dogpile, MetaCrawler…) - Không lưu trữ liệu tháng Đánh giá mang tính tạm thời - Có tính phí 30USD/tháng Google AdWords Keyword Tool - Dữ liệu thể dạng biểu đồ Không có số thống kê cụ thể Xây dựng liên kết, tăn Pa eRank trang Như trình bày phần 2, PageRank đánh giá dựa vào liên kết từ trang web khác tới PageRank cao đồng nghĩa với việc trang web có hội xuất trang kết tìm kiếm Có thể kiểm tra PageRank công cụ Google Toolbar tham khảo trang Google Directory (http://www.google.com/dirhp) 13 Kết Google Directory theo thứ tự PageRank Để xây dựng mạng lưới liên kết, phải ý đến chất lượng số lượng liên kết đến web Khi trang có PageRank cao trỏ đến trang web đồng nghĩa với việc PageRank web nâng cao Một số lưu ý đặt liên kết lên trang web khác: - Tránh trang quảng cáo theo kiểu đa cấp(affiliated sites) Tránh để liên kết bị đặt cuối trang(footer link) Không tham gia vào trang link-farms Không nên đặt liên kết đến trang web chứa nội dung không tốt(nội dung đồi trụy, chia sẻ phần mềm, nhạc, phim bất hợp pháp) Liên kết viết web(internal links): Xây dựng sitemap: Xây dựng cấu trúc trang theo dạng thư mục phân cấp nội dung quan trọng cần đặt gần gốc tốt Sử dụng tùy chọn “nofollow” liên kết đến trang không quan trọng Hạn chế sử dụng link dạng JavaScript, Java, Flash Link có nhiều tham số Tránh sử dụng liên kết chưa ký tự ?, &, = URL phức tạp Các spider dừng trình tìm kiếm bắt gặp loại liên kết Ví dụ: 14 Xây dựng mã nguồn tạo liên kết không chứa thông số tìm kiếm Ví dụ: Một liên kết gây khó khăn cho máy tìm kiếm(sử dụng số không nói lên nội dung trang): http://www.allwin21.com/Item.asp?catid=34&id=66 Một liên kết tốt: http://www.savebuckets.co.uk/browse/consumer-electronics/audio-hi-fi/portable-devices/multi-mediaplayers/ipod/ 15 Mot so phương pháp SEO náng cáo Dịch website ngôn ngữ khác Nếu marketing ngôn ngữ, webmaster lãng phí 64.8% tiềm marketing Bởi 64.8% giới lướt web ngôn ngữ khác với tiếng Anh Nếu chuyển sang sử dụng nhiều ngôn ngữ, website có nhiều hội tiếp cận với số lượng người dùng lớn nhiều ROR sitemap Sitemap đóng vai trò quan trọng để website index hoàn toàn công cụ tìm kiếm Tuy nhiên, nhiều sitemap thích hợp công cụ tìm kiếm Vì lý này, có nhiều chương trình tạo sitemap thích ứng với Google Yahoo sản xuất năm gần Tuy nhiên, có giải pháp hữu ích hơn, sử dụng ROR sitemap ROR sitemap loại sitemap đọc với tất công cụ tìm kiếm, không Google hay Yahoo ROR công cụ sitemap mới, sử dụng XM feeds để mô tả website Sitemap cấu tạo feeds cho phép công cụ tìm kiếm bổ sung tìm kiếm văn với cấu trúc thông tin tốt Với ROR sitemap, công cụ tìm kiếm hiểu rõ sản phẩm, dịch vụ, tranh ảnh, newsletters, viết, tất webmaster muốn mô tả Chẳng hạn, với website buôn bán, file ROR cho phép thống kê sản phẩm: tên sản phẩm, đặc điểm, giá cả, hình mẫu, khả ứng dụng tất thông tin liên quan khác Tận dụng file log File log dùng để ghi lại hành động khách truy cập đến website Một thông tin quan trọng file log loại từ khóa tìm kiếm sử dụng khách ghé vào website Từ liệu này, webmaster lựa chọn từ khóa, cách tối ưu phù hợp với nhu cầu khách hàng Ngoài ra, file log lưu thông tin referer link từ xác định cách người tìm thấy website 16 Tài liệu tham khảo: [1] Junghoo Cho, Sourashis Roy Impact of Search Engines on Page Popularity [2] Monika R.Henzinger Hyperlink Analysis for the Web [3] Thorsten Joachims Optimizing Search Engines using Clickthrough Data [4] S Brin, L Page The Anatomy of a Large-Scale Hypertextual Web Search Engine [5] Danny Sullivan Rundown On Search Ranking Factors [6] Christine Churchill Understanding Search Engine Patents [7] Stephan Spencer Secrets to High Google Rankings [8] Dragomir R Radev Search Engine Technology

Ngày đăng: 27/10/2016, 11:59

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan