Cu trúc tp tin ch mc ngh ch đo

Một phần của tài liệu Sự PHÁT TRIểN CủA CÁC NGÔN NGữ đÁNH DấU PHuC Vụ CHO WAP (Trang 94 - 97)

P HN III.

5.6.2.1.3. Cu trúc tp tin ch mc ngh ch đo

T p tin ngh ch đ o l u tr danh sách các tài li u ng v i m c t đ cho h th ng nhanh chóng tìm đ c danh sách các tài li u có ch a m t m c t nào đó, t ch c d i d ng sau: M c t Tài li u, tr ng s T1 (2,w1), (3,w2), (4,w3) T2 (3,w4), (4,w5), (5,w6) T3 (2,w7) T4 (1,w9) B ng 5.6-2: B ng m c t

B ng trên có ngh a là m c t T1 xu t hi n trong các tài li u 2, 3, 4 v i các tr ng s t ng ng là w1, w2, w3

T p tin ngh ch đ o đ c t ch c b ng cách s d ng m t t p tin, trong đó dung l ng dành cho m i m c t đ c c p phát theo t ng trang có kích th c c đnh là 1024byte. Nh v y m t trang có th ch a 1024/8 - 1= 127 tài li u (4 byte ch a DOCID, 4 byte ch a tr ng s )

C u trúc m t trang c p cho t ng m c t trong file ch m c ngh ch đ o nh sau:

CHI U DÀI TÊN TR NG

4 NextPage 4 NextPos 4 docId1 4 weighT1 4 docId2 4 weighT2 4 docId3 4 weighT3 ……. …… 4 docIdn 4 weighTn

B ng 5.6-3: C u trúc trang cho t ng m c t trong t p tin ch m c ngh ch đ o

- NextPos: ch đ n v trí tr ng ti p theo ch a đ c s d ng trên trang này, ch có ý ngh a khi đây là trang cu i.

- docIdi (i=1…n): đnh danh tài li u có ch a m c t s h u trang này, d a vào đnh danh này có th truy xu t thông tin liên quan đ n tài li u t b ng đnh danh tài li u.

- weighTi (i=1…n): tr ng s c a m c t trong t ng tài li u t ng ng docIdi

Nh v y có th đ c toàn b danh sách các tài li u có ch a m t m c t b ng cách đ c toàn b các trang đ c liên k t theo con tr nextPage. V n đ còn l i là xác đnh trang đ u tiên trong chu i danh sách này. Giá tr trang đ u tiên đ c l u tr trong t đi n ch m c đã trình bày trên. Các thao tác chính trên t p tin ngh ch đ o ch m c là:

- Thêm m t tài li u cho m t m c t : khi m t tài li u đ c l p ch m c, n u tài li u có ch a m t m c t t nào đó thì tài li u này s đ c thêm vào danh sách các tài li u ng v i m c t t trong t p tin ngh ch đ o. Tài li u đ c thêm vào v trí tr ng đ u tiên trong trang cu i c a m c t t.

- c danh sách c a các tài li u cho m t m c t : k t qu tác v này đ c thi t k tr v theo lu ng (stream) d i d ng (docId1, weighT1, docId2, weighT2, ……, docIdn, weighTn) ngh a là có th đ c k t qu tr v theo t ng tài li u, x lý xong tài li u này m i đ c sang tài li u ti p theo. Vi c tr k t qu theo lu ng có u đi m l n là gi m đ c dung l ng l u tr k t qu (ch c n m t l ng b nh nh b chi m d ng đ là b đ m nh m gi m b t thao tác truy xu t file). i u này là c n thi t vì danh sách các tài li u tr3 v có th r t l n (hàng ch c ngàn trzng v i hàng MB b nh ) và h th ng ho t đ ng trên môi tr ng m ng nên ph i x lý r t nhi u yêu c u đ ng th i, d n đ n vi c h th ng có th b c n ki t tài nguyên b nh n u ph i l u tr toàn b k t qu trong b nh . V i mô hình này dung l ng b nh b chi m d ng b i m t yêu c u đ c danh sách các tài li u trên file ngh ch đ o không ph thu c vào s l ng k t qu tr v .

M t khác file ngh ch đ o đ c truy c p th ng xuyên khi x lý yêu c u tìm ki m và thao tác đ c d li u t file ngh ch đ o chi m nhi u th i giannh t trong t ng s th i gian c n thi t đ hoàn t t m t yêu c u tìm ki m. Vì dung l ng file

ngh ch đ o thay đ i, t ng theo th i gian và s l ng file đã x lý nên nó có th tr nên quá l n, d n đ n tình tr ng không th l u toàn b file ngh ch đ o vào b nh . Do đó đ t ng t c đ tìm ki m, th c hi n c p phát m t vùng nh đóng vai trò b đ m cho thao tác đ c file này. B đ m chi thành các trang v i dung l ng b ng dung l ng m t trang c p phát cho t ng m c t 1KB. Khi có yêu c u truy xu t m t trang trong file ngh ch đ o, trang c n s đ c n p lên b đ m n u ch a có trong b đ m và t n t i đó đ có th s d ng cho nh ng l n truy xu t sau (không ph i truy c p l i đ a). Gi i thu t th c hi n thay th các trang trong b đ m là gi i thu t lâu nh t ch a s d ng.

Một phần của tài liệu Sự PHÁT TRIểN CủA CÁC NGÔN NGữ đÁNH DấU PHuC Vụ CHO WAP (Trang 94 - 97)

Tải bản đầy đủ (PDF)

(182 trang)