Cấu trỳc dữ liệu của Google

Một phần của tài liệu (LUẬN văn THẠC sĩ) phát triển cổng giao tiếp điện tử phục vụ tra cứu thông tin cá nhân luận văn ths công nghệ thông tin1 01 10 (Trang 70 - 72)

CHƢƠNG 2 KIẾN TRÚC PORTAL VÀ NHỮNG THÀNH PHẦN CƠ BẢN

3.4. Một số thuật toỏn tỡm kiếm dữ liệu trong hệ thống thụng tin phõn tỏn

3.4.3.2. Cấu trỳc dữ liệu của Google

Trong kho trang web lƣu trữ toàn bộ nội dung của tất cả cỏc trang web, mỗi trang đƣợc nộn bằng phƣơng phỏp Zlip. Lần lƣợt cỏc trang web đƣợc lƣu vào kho và bổ sung vào phần đầu cỏc thụng tin về DocID, độ dài, địa chỉ URL. Kho trang web khụng đũi hỏi một cấu trỳc dữ liệu nào để truy nhập nú, hơn nữa từ repository cho phộp xõy dựng lại tất cả cỏc cấu trỳc dữ liệu khỏc.

Chỉ mục tài liệu lƣu giữ cỏc thụng tin về mỗi tài liệu. Nú đƣợc cố định với kiểu chỉ mục ISAM (mụ hỡnh truy nhập chỉ số kế tiếp: index sequel access model), và đƣợc sắp xếp theo giỏ trị tăng dần của docID. Cỏc thụng tin đƣợc lƣu trữ trong chỉ mục tài liệu bao gồm tỡnh trạng hiện tại của tài liệu, con trỏ chỉ tới vị trớ trong kho trang web, giỏ trị tổng kiểm tra và một số giỏ trị thống kờ khỏc. Nếu tài liệu đó đƣợc đó đƣợc bộ tỡm duyệt xử lý thỡ nú chứa con trỏ để trỏ đến một file cú kớch th- ƣớc động đƣợc gọi là DocInfo chứa cỏc địa chỉ URL và cỏc tiờu đề. Ngoài ra, cũn

cú cỏc con trỏ tới danh sỏch cỏc URL chỉ chứa cỏc địa chỉ URL. Nhu cầu cần cú một cấu trỳc dữ liệu hợp lý và cú khả năng tỡm đƣợc cỏc bản ghi trong một bƣớc tỡm kiếm đĩa trong quỏ trỡnh tỡm kiếm đó đƣa đến việc thiết kế bổ sung này.

Hơn nữa, sử dụng một file để chuyển cỏc URL thành cỏc DocID, đƣợc gọi là file tổng kiểm tra. Đú là một danh sỏch cỏc tổng kiểm tra URL (URL checksum) tƣ- ơng ứng với cỏc docID, và đƣợc sắp xếp theo giỏ trị tổng kiểm tra. Nhằm mục đớch tỡm ra một docID của một URL nào đú, thỡ tổng kiểm tra của URL đú đƣợc tớnh toỏn và việc tỡm kiếm nhị phõn trờn file tổng kiểm tra để tỡm ra docID tƣơng ứng với URL đú. URL cũng cú thể đƣợc chuyển vào docID theo từng mẻ bằng cỏch trộn file này. Đõy chớnh là kỹ thuật mà bộ phõn tớch URL sử dụng để chuyển URL vào docID.

Bộ từ vựng: của Google cú một vài định dạng khỏc nhau, bao gồm 14 triệu từ

khoỏ đƣợc lƣu trữ hai phần, một phần là danh sỏch cỏc từ và phần kia là một bảng băm cỏc con trỏ. Do cần đỏp ứng một số chức năng khỏc nờn danh sỏch cỏc từ đƣợc bổ sung một số cỏc thụng tin bổ trợ khỏc.

Danh sỏch hit: danh sỏch hit là tƣơng ứng với mỗi từ khoỏ xuất hiện trong tài

liệu, bao gồm cỏc thụng tin: vị trớ, font chữ…. Danh sỏch hit này đƣợc sử dụng để liờn kết chỉ mục ngƣợc và chuyển tiếp, vỡ vậy, biểu diễn nú một cỏch hiệu quả là rất quan trọng.

Bộ chỉ mục chuyển tiếp: chỉ mục chuyển tiếp thực sự đó đƣợc sắp xếp cục

bộ. Nú đƣợc sắp xếp trong số cỏc thựng chứa. Mỗi thựng chứa một tập cỏc WordID, nếu tài liệu bao gồm cỏc từ rơi vào một thựng chứa nào đú thỡ DocID của nú sẽ đ- ƣợc ghi lại trong thựng chứa đú, và theo đú là một danh sỏch cỏc wordID cựng với danh sỏch cỏc hit tƣơng ứng với cỏc từ đú.

Bộ chỉ mục liờn kết ngƣợc: chỉ mục liờn kết ngƣợc bao gồm cỏc thựng chứa

giống nhƣ chỉ mục chuyển tiếp, ngoại trừ việc chỳng đƣợc xử lý bởi bộ sắp xếp. Với tất cả cỏc wordID hợp lệ thỡ bộ từ vựng chứa cỏc con trở chỉ đến cỏc thựng chứa mà cỏc wordID nằm trong đú. Chỳng chỉ đến một danh sỏch cỏc tài liệu của

docID cựng với danh sỏch hit tƣơng ứng của chỳng. Doclist này biểu diễn cho tất cả cỏc xuất hiện của từ khoỏ cú trong tài liệu.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phát triển cổng giao tiếp điện tử phục vụ tra cứu thông tin cá nhân luận văn ths công nghệ thông tin1 01 10 (Trang 70 - 72)

Tải bản đầy đủ (PDF)

(102 trang)