BoilerPlatebịGoogle,
Yahoo, Microsoftbỏqua
Câu hỏi được đặt ra là bằng việc bỏqua các mẫu trích boilerplate, Google
cố gắng hiểu nội dung chính của trang thì liệu nó có tính đến các từ khóa
làm trong cảnh báo bản quyền cuối trang hay việc sử dụng đường dẫn tới
trang chủ?
1. Mẫu trích Boilerplate là gì và tại sao bị Google bỏ qua?
Rất nhiều trang Web hoặc tài liệu sử dụng các ký tự y hệt nhau trong
phần sidebar hoặc phần cuối trang (footer)
ví dụ như lưu ý bản quyền, liên lạc hay các thanh duyệt (navigation bar).
Các nhân viên lập trình đôi khi sử dụng thuật ngữ “boilerplate” tạm
dịch là mẫu trích (1) để ám chỉ các đoạn mã chuẩn thư viện được dùng để
chèn vào trong chương trình. Trong khi đó các luật sư sử dụng trích mẫu
trong các hợp đồng - phần văn bản nằm ở mặt sau của hợp đồng luôn cố
định cho các loại hợp đồng khác nhau.
Các máy tìm kiếm hiện nay rất
có thể bỏqua các mẫu trích boilerplate khi đánh chỉ số những trang này.
Ngoài ra máy tìm kiếm còn có thể sử dụng nội dung các trang này sau khi
loại bỏ mẫu trích boilerplate có thể làm nhiễu nội dung chính của trang để
đưa ra các gợi ý tìm kiếm cho người dùng sử dụng chức năng tìm kiếm cá
nhân hóa. Việc loại bỏ các mẫu trích boilerplate này giúp cải thiện việc sắp
xếp thứ hạng trang kết quả tìm kiếm cá nhân hóa.
Câu hỏi được đặt ra là bằng việc bỏqua các mẫu trích boilerplate,
Google cố gắng hiểu nội dung chính của trang thì liệu nó có tính đến các từ
khóa làm trong cảnh báo bản quyền cuối trang hay việc sử dụng đường dẫn
tới trang chủ ? Liệu các chuỗi ký tự liên kết nằm trong đường dẫn trỏ tới các
liên kết bạn bè có được tính đến hay không ?
Mẫu trích boilerplate của bách khoa toàn thư Wikipedia
Thật khó đưa ra một câu trả lời chính xác là Google tính đến các mẫu
trích boilerplatebị lặp này như thế nào. Google tính đến các từ khóa trong
điều khoản bản quyền, giới thiệu và thông cáo ra sao trên tất cả các trang.
Nhưng một điều có thể chắc là Google sẽ không còn quan tâm thật nhiều tới
chúng trong tương lai.
2. Mẫu trích boilerplate và máy tìm kiếm Google thế hệ mới?
Theo dự đoán thì Google thế hệ tiếp theo sẽ được “lai tạp” giữa tìm
kiếm Internet và tìm kiếm trong máy tính các nhân cũng như tìm kiếm trong
mạng nội bộ Intranet với nhiều tính năng mới. Theo các đăng ký bằng sáng
chế gần đây thì hiện đã có trên dưới 50 ứng dụng mà tương lai có thể được
tích hợp trong chức năng tìm kiếm thế hệ tiếp theo.
a. Google và các mẫu trích boilerplate
Trong số 50 ứng dụng kể trên có một vài ứng dụng khá mới vừa được
giới thiệu, nó cho phép bỏqua mẫu văn bản lặp này :
Systems and methods for analyzing boilerplate
Invented by Stephen R. Lawrence
US Patent Application 20080040316
Published February 14, 2008
Filed March 31, 2004
Hệ thống và phương pháp phân tích mẫu trích boilerplate cho phép
phát hiện các yếu tố trong nhiều các bài viết liên quan. Sau đó, hệ thống
đánh chỉ số sẽ xem các yếu tố chung này như là một mẫu văn bản chung.
Ví dụ, hệ thống đánh chỉ số sẽ xác định qui định về bản quyền tác giải xuất
hiện trong các bài viết. Và phần qui định bản quyền sẽ bị qui vào mẫu trích
boilerplate để trích dẫn chung.
Các máy tìm kiếm lại xử lý các mẫu trích boilerplate này một cách
khác nhau.
Ví dụ chúng có thể coi tất cả các ký tự nằm sau chữ “Bản quyền” chẳng hạn
sẽ bị coi là mẫu văn bản trích dẫn nếu chúng lại xuất hiện trên nhiều trang
khác nhau.
Các văn bản trên thanh trượt, tiêu đề, khẩu hiệu trang Web, địa chỉ
cuối trang cũng có thể bị qui vào mẫu trích boilerplate.
b. Tìm kiếm nội dung và mẫu trích boilerplate
Có hai cách thức khác nhau mà các máy tìm kiếm (search engine) sẽ
sử dụng để xác định ra các mẫu trích boilerplate(mẫu văn bản trích dẫn
chung) này:
o Truy vấn ẩn: Hệ thống đánh chỉ số sẽ tìm kiếm và xác định các
phần văn bản trích dẫn chung so với phần văn bản chính. Sau đó chúng sẽ
tạo ra các truy vấn tìm kiếm ẩn chứa các từ khóa tìm kiếm từ phần nội dung
chính.
o Truy vấn hiện: Hệ thống truy vấn sẽ tách bỏ hoặc coi nhẹ phần
mẫu trích boilerplate khi người dùng tìm kiếm.
Trong cả hai trường hợp truy vấn ẩn hay hiện thì trọng số của mẫu
trích boilerplate - phần văn bản trích dẫn chung luôn sẽ bị coi nhẹ hơn là
phần văn bản chính của trang. Và vì thế một bài viết sẽ không cần phải được
đánh chỉ số lại sau khi phần văn bản trích dẫn chung bị thay đổi hay xóa
khỏi trang liên quan. Điều đó có nghĩa là chỉ có văn bản chính của trang mới
ảnh hưởng tới các truy vấn tìm kiếm.
3. Định dạng chung của mẫu trích boilerplate
Mẫu trích boilerplate : Các văn bản của mẫu trích thường nằm tại
phần tiêu đề, cuối trang hay các thanh duyệt và chúng xuất hiện trên nhiều
trang. Mẫu trích được xác định khi phân tích một số các chủ đề liên đới ví
dụ tập hợp nhiều trang trong một trang. Cũng có thể xác định chúng trong
một trang đơn.
Xác định mẫu trích boilerplate : Trình chỉ số hóa có thể xác định
mẫu trích theo vài cách khác nhau : Có thẻ phân tích tần xuất của các từ hay
câu trong một số chủ đề liên quan để xác dịnh ra các thành phần chung của
các trang này. Trình chỉ số hóa sau đó xếp hạng các thành phần chung này
như là mẫu trích.
Ví dụ, một câu như “Copyright 2008″ xuất hiện trong một số các bài viết
chung có thể coi là mẫu trích boilerplate.
Vị trí vệ tinh cả từ và câu : Một số từ hay câu xuất hiện tại một số vị
trí nhất định trên một trang có thể sẽ bị qui vào mẫu trích. Ví dụ các phần
văn bản chung luôn xuất hiện cuối trang sẽ bị coi là mẫu trích.
Ví dụ các lưu ý về bản quyền hay địa chỉ liên lạc cuối trang sẽ bị coi là mẫu
trích boilerplate.
Thành phần duyệt, di chuyển : Các thành phần chung của mã nguồn
HTML trong trang cũng có thể bị coi là mẫu trích.
Ví dụ, một đoạn mã JavaScript cho phép thay đổi cách thức hiển thị đường
dẫn URL khi người dùng di chuột qua đường dẫn đó cũng có thể bị coi là
mẫu trích boilerplate.
Câu, ngữ định trước : Mẫu trích cũng của thể được xác định thông qua
một danh sách các từ ngữ, câu được liệt kê trước.
Ví dụ các thành phần chung của thanh trượt, hoặc các phần liên quan bản
quyền, trợ giúp như “Trang chủ”, “Trợ giúp”, “Dịch vụ” hay “Bản quyền”.
Tần suất : Từ xuất hiện thường xuyên trong các bài viết có nhiều khả
năng bị xếp vào mẫu trích hơn là các từ ngữ xuất hiện thi thoảng.
Ví dụ các từ như “Trang chủ”, “Liên lạc”.
Các từ ngữ hay câu chung đôi khi không bị coi là mẫu trích
boilerplate: Dù xuất hiện trên nhiều trang liên đói, nhưng tần suất sử dụng
không phải là chỉ số để xác định mẫu trích.
Lấy ví dụ một trang chuyên về SEO thì sẽ có rất nhiều lần sử dụng thuật ngữ
“quảng bá Web” trên các trang khác nhau. Thế nhưng từ này sẽ không bị
coi là mẫu trích vì nó liên quan tới nội dung của trang hiển thị.
4. Kết luận về mẫu trích boilerplate
Bạn nên nhớ rằng các công cụ tìm kiếm có thể bỏqua mẫu trích
boilerplate trên các trang đối với các truy vấn của người dùng.
Nếu bạn muốn máy tìm kiếm để ý đến nội dung văn bản của trang thì
hãy để ý đến vị trí các văn bản này trên trang cũng như là tần suất sử dụng
chúng trên nhiều trang khác nhau.
Các đường dẫn của thanh trượt và các liên kết các thành phần quan
trọng khác nhau của trang Web có thể bị coi là mẫu trích nhưng phần văn
bản neo (anchor text) vấn được máy tìm kiếm xem trong để đánh giá nội
dung của trang mà nó trỏ tới.
Google có thể có hoặc chưa coi trọng những yếu tố trên. Trong trường
hợp chưa thì chắc chắn nó sẽ được sớm tích hợp trong thuật toán của
Google.
. BoilerPlate bị Google,
Yahoo, Microsoft bỏ qua
Câu hỏi được đặt ra là bằng việc bỏ qua các mẫu trích boilerplate, Google
cố. hay việc sử dụng đường dẫn tới
trang chủ?
1. Mẫu trích Boilerplate là gì và tại sao bị Google bỏ qua?
Rất nhiều trang Web hoặc tài liệu sử dụng