Chương 7: Information Architecture
Bài 3: Những hạn chế của máy tìm kiếm
Làm cách nào để kiểm tra bản cache chỉ có text của một trang web?
Những công nghệ không thân thiện với máy tìm kiếm
Làm thế nào để biết một trang có sử dụng những công nghệ này không?
Để hỗ trợ tối đa máy tìm kiếm trong việc dò quét website của bạn, bạn cần phải biết những hạn chế của nó. Máy tìm kiếm ngày càng thông minh và tài giỏi hơn. Mặc dù, máy tìm kiếm có thể hiểu một phần những công cụ dưới đây, bạn chỉ nên sử dụng chúng một cách hạn chế, bạn chỉ nên sử dụng khi thật cần thiết.
Trước khi tìm hiểu sâu hơn về những công cụ này, bạn cần biết cách kiểm tra bản cache chỉ chứa text của một trang web.
Để làm vậy, tìm đến Google và gõ “cache:”, theo sau bởi trang web mà bạn muốn kiếm tra. Ví dụ, để kiểm tra bản cache của trang chủ vietmoz.net, sử dụng câu truy vấn sau:
cache:www.vietmoz.net
Bạn sẽ tựđộng được đưa tới một phiên bản của trang Web mà Google đã lưu vào CSDL của nó trước đó. Như hình dưới đây, ô màu xám trên đầu trang web sẽ cho bạn biết đó là bản cache:
Mặc định, bạn sẽ nhận được bản cache với đầy đủ tính năng, đầy đủ file đi kèm. Để xem bản cache chỉ có text, click vào link ở góc trên cùng bên phải của hình trên. Bạn sẽđược đưa tới phiên bản chỉ text. Đây là bản mà Google nhìn được, vì như bạn đã biết Google không thể xem được hình ảnh, Flash, video… Kết quả là:
JavaScript
JavaScript rất được ưa thích trong các website ngày nay. Tuy vậy, nhiều khi các file này lại cản trở hoạt động của bọ tìm kiếm. Điều này thường xảy ra khi mọi người muốn tăng sự linh hoạt của thanh điều hướng chính như bạn thấy trong hình dưới đây:
Vì máy tìm kiếm không động đến JavaScript khi dò quét website, một số link sẽ trở nên vô hình với máy tìm kiếm. Nếu con bọ không thể dò quét những link này, họ sẽ không thể dò quét những nội dung liên quan của website của bạn.
Cách dễ nhất để xem vấn đề này có xảy ra với website của bạn không là tắt JavaScript trên trình duyệt của bạn. Bạn có thể sử dụng SEOmoz toolbar for firefox. Để làm việc này, bạn lựa chọn lướt web với tư cách của Googlebot. Nếu thanh điều hướng ngang vẫn hoạt động bình thường, có nghĩa là bạn không gặp phải vấn đề. Tuy nhiên, nếu bạn di chuột qua mà menu không tự động thả xuống đồng nghĩa với việc máy tìm kiếm không thể dò quét trang web hiệu quả.
Trung tâm Đào tạo SEO VietMoz – VietMoz.edu.vn Bạn cũng có thể kiểm tra hoạt động của JavaScript bằng cách nhìn vào bản text only cache của trang web. Nếu link vẫn còn sau khi tắt javascript, máy tìm kiếm có thể dò quét link bình thường. Ngoài ra bạn cũng có thể sử dung web developer extension, công cụ có thể cài đặt trên cả Chrome và Firefox
Flash
Flash giúp website đẹp hơn, nhưng cũng khiến website khó SEO. Ví dụ, website
Website này có giao diện rất đẹp, nhưng trong bản mà Google nhìn thấy – bản chỉ chứa text, thì hầu như không có nội dung gì, như bạn sẽ thấy dưới đây:
Flash được sử dụng nhiều trong thế giới web vì nó có nhiều ưu điểm. Nó giúp website của bạn sinh động hơn, lôi cuốn hơn với khách hàng. Nhưng bạn cần hiểu một thực tế là bọ tìm kiếm không thểđọc và dò quét các nội dung Flash.
Bạn có thể tham khảo những website flash đẹp tại đây:
For other examples of Flash websites see: http://www.ebizmba.com/articles/best-flash-sites
AJAX
AJAX là chữ viết tắt của (JavaScript và XML không đồng bộ). Nó mang lại nhiều ưu lợi ích cho người dùng như: giảm thời gian tải trang, tăng tốc độ tải trang bằng cách chỉ lấy nội dung về khi người dùng yêu cầu nó. Tuy nhiên, xét về khía cạnh SEO, AJAX gây ra nhiều vấn đề vì muốn đọc nội dung, máy tìm kiếm cũng giống như người dùng phải click hoặc yêu cầu nội dung trước khi có thểđọc nó.
Để kiểm tra xem Google có thể xem được nội dung của bạn không, luôn luôn so sánh những gì bạn nhìn thấy với những gì Google có thể nhìn thấy (bản cache chỉ chứa text của trang web)
Nếu bạn muốn tìm cách khắc phục vấn đề này, đọc bài viết sau đây: http://moz.com/blog/create- crawlable-link-friendly-ajax-websites-using-pushstate
Những hạn chế khác:
Tại thời điểm hiện tại, Google vẫn gặp khó khăn khi phải đối mặt với các file hình ảnh, video và iFrames. Điều này đồng nghĩa với việc, bạn không nên sử dụng những loại nội dung này. Ví dụ, một số website muốn tận dụng việc đưa chữ vào trong hình ảnh để giúp giao diện website đẹp hơn. Nhưng bạn cần tuyệt đối hạn chếđiều này vì Google không thểđọc được chữ trong ảnh.
Ví dụ khác, rất nhiều người để số điện thoại trong hình ảnh và do đó máy tìm kiếm không thể đọc được. Nói một cách đơn giản, nếu bạn không thể copy và paste chữ bạn nhìn thấy, máy tìm kiếm cũng không thểđọc được nó. Máy tìm kiếm càng ngày càng thông minh hơn, tuy vậy luôn nhớđánh giá bản cache chỉ text và xem nó có thiếu chức năng gì so với bản đầy đủ.
Bài tập:
Sử dụng cụm truy vấn cache:domain.com. Xem bản cache của cả 3 loại site: site HTML, site có sử dụng điều hướng javascript và site flash
Bài 4: Sử dụng sitemap để tìm ra những lỗi trong cấu trúc website