M c đích : ụ
T i thi u hoá lố ể ượng công vi c mà robot ph i th c hi n l iệ ả ự ệ ạ
Linh đ ng h n trong quá trình x lý project, ví d : u tiên x lý projectộ ơ ử ụ ư ử quan tr ng h n, t m d ng project vì m t lý do nào đó,…ọ ơ ạ ừ ộ
Project b d ng l i do 2 nguyên nhân chính :ị ừ ạ S c h th ngự ố ệ ố
6.1 Nguyên t c resume c a ng d ng cũắ ủ ứ ụ 11
Khi project được kích ho t l i, n u project trạ ạ ế ước & sau kích ho t gi ng nhauạ ố thì m i tài nguyên đã c p cho nó v n còn do đó ng d ng ch c n t o l i các spiderọ ấ ẫ ứ ụ ỉ ầ ạ ạ đ ti p t c công vi c. Nh ng n u là project khác thì lúc kh i đ ng l i c n ph c h iể ế ụ ệ ư ế ở ộ ạ ầ ụ ồ tr ng thái c a project trạ ủ ước đi m d ng. ng d ng s d ng danh sách d phòng v iể ừ Ứ ụ ử ụ ự ớ s ph n t b ng s spider. Khi l y 1 URL ra kh i hàng đ i, đ u tiên nó đ a vào danhố ầ ử ằ ố ấ ỏ ợ ầ ư sách d phòng sau đó m i ti n hành x lý. N u danh sách đ y, ph n t đ u s b lo iự ớ ế ử ế ầ ầ ử ầ ẽ ị ạ b do đó luôn đ m b o l u l i URL m i nh t. M i chu kỳ t giây, thông tin đỏ ả ả ư ạ ớ ấ ỗ ượ ưc l u xu ng đĩa đ khi c n có th dùng nó ph c h i hàng đ i.ố ể ầ ể ụ ồ ợ
Ưu đi m : đ m b o m c đích resume.ể ả ả ụ Khuy t đi m : ế ể
B sót URL. ỏ
X lý cùng 1 URL nhi u h n 1 l n.ử ề ơ ầ
Sau đây là ví d minh ho nhụ ạ ược đi m c a thu t toán phân tích liên k t d aể ủ ậ ế ự vào đuôi file. Xét ví d : gi s ta có cây liên k t nh sau ụ ả ử ế ư
1 ng d ng cũ là lu n văn t t nghi p năm 2003” Xây d ng công c h tr quá trình ti n x Ứ ụ ậ ố ệ ự ụ ỗ ợ ề ửlý cho h th ngệ ố
Hình 7.5 Cây liên k tế
Dùng thu t toán duy t theo chi u sâu & s spider = 3ậ ệ ề ố Hàng đ i : E, G ợ Đã x lý : A, Bử Đang x lý : C, F, Dử S c x y ra………ự ố ả Khi h th ng kh i đ ng l i, hàng đ i s có : C, F, Dệ ố ở ộ ạ ợ ẽ → m t 2 trang E, Gấ → x lý l i A, Bử ạ A B C D E F G
Project càng có nhi u URL, khuy t đi m này càng ph i đề ế ể ả ược kh cắ ph c.ụ
6.2 C i ti n c a ng d ng m iả ế ủ ứ ụ ớ
ng d ng m i cho phép project có nhi u URL ban đ u (StartURL) do đó khi
Ứ ụ ớ ề ầ
resume là b t đ u l i 1 StartURL ch không ph i 1 project.ắ ầ ạ ứ ả
Các bước ph c h i nh sau :ụ ồ ư
(1) Ph c h i danh sách hàng đ i, danh sách đã x lý, danh sách liênụ ồ ợ ử k t đã x lý nh ng b h ng (k t n i v i server b th t b i). ế ử ư ị ỏ ế ố ớ ị ấ ạ (2) L y 1 URL c n x lý.ấ ầ ử Đánh d u nó trong CSDL.ấ (3) Ti n hành x lýế ử N u quá trình x lý tr n v n ế ử ọ ẹ → xoá đánh d u.ấ Quay l i (2)ạ
Ưu đi m : tránh để ược nhược đi m c a ng d ng cũ.ể ủ ứ ụ
Khuy t đi m : ph i t n thêm m t field đ đánh d u trong CSDL. Tuy nhiênế ể ả ố ộ ể ấ trong môi trường m ng d ng liên k t nh ví d trên r t nhi u cho nên s d ngạ ạ ế ư ụ ấ ề ử ụ thêm field này là c n thi t.ầ ế
Tóm t t so sánh nh ng ch c năng chính gi a ng d ng cũ và m iắ ữ ứ ữ ứ ụ ớ
Thu t toán l y liênậ ấ k t trong file HTMLế
- Dùng thu t toán d a vào đuôiậ ự file. - L y các liên k t cùng thấ ế ư m c v I liên k t ban đ uụ ớ ế ầ (internal link) - Dùng thu t toán c tr ngậ ờ ạ thái.
- Dùng thu t toán d a vàoậ ự đuôi file.
- L y các liên k t cùng thấ ế ư m c, cùng site & khác siteụ v I URL ban đ u.ớ ầ
- H tr thêm ch c năngỗ ợ ứ user defined.
S StartURL c aố ủ m I projectỗ
M I project ch có 1 StartURLỗ ỉ M I project có nhi uỗ ề StartURL.
Download Gi i h n kích thớ ạ ước cho m Iọ ki u file gi ng nhau.ể ố
Các ki u file khác nhau cóể th có kích thể ước khác nhau.
C p nh t projectậ ậ C p nh t l i toàn b các liênậ ậ ạ ộ k t trong file HTML c a URLế ủ ban đ u.ầ H tr nhi u tuỳ ch n. ỗ ợ ề ọ Resume - B xót URL.ỏ - X lý trùng l p.ử ặ - Không sót. - Không trùng l p.ắ L p l chậ ị H tr l p l ch t đ ng.ỗ ợ ậ ị ự ộ Không h tr l p l ch.ỗ ợ ậ ị
B ng ả 7.17: B ng tóm t t so sánh nh ng ch c năng chính gi a ng d ng cũ vàả ắ ữ ứ ữ ứ ụ
Chương 3: L P CH M CẬ Ỉ Ụ
1. Tính tr ng s c a t :ọ ố ủ ừ
Sau khi tách t là giai đo n tính tr ng s các t đ xác đ nh m c t có nghĩaừ ạ ọ ố ừ ể ị ụ ừ đ i di n cho n i dung tài li u. Nh đã trình bày trong ph n I, có r t nhi u cách tínhạ ệ ộ ệ ư ầ ấ ề tr ng s c a m c ọ ố ủ ụ t . đây, ta ch n công th c:ừ Ở ọ ứ
Trong đó:
nik: s l n xu t hi n c a m c t k trong tài li u iố ầ ấ ệ ủ ụ ừ ệ
nk : s l n xu t hi n c a m c t k trong t t c các tài li u đố ầ ấ ệ ủ ụ ừ ấ ả ệ ượ ậc l p chỉ m cụ
Ngưỡng đượ ử ục s d ng đ lo i b các m c có tr ng s th p là ½ giá tr tr ngể ạ ỏ ụ ọ ố ấ ị ọ s trung bình c a các m c t xu t hi n trong toàn b tài li u.ố ủ ụ ừ ấ ệ ộ ệ
Tính title
Do n i dung bên trong title có ý nghĩa quan tr ng , nên cách tính tr ng s c aộ ọ ọ ố ủ m c t xu t hi n trong title đ c bi t h n trong n i dung văn b nụ ừ ấ ệ ặ ệ ơ ộ ả
Có các cách gi i quy t nh sau :ả ế ư
L y tr ng s nh ng m c t có trong title = tr ng s l n nh t c a các tấ ọ ố ữ ụ ừ ọ ố ớ ấ ủ ừ trong n i dung độ ượ ậc l p ch m cỉ ụ
Tr ng s g p 3 l n tr ng s bình thọ ố ấ ầ ọ ố ường L p ch m c th ng cho t có trong title . ậ ỉ ụ ẳ ừ
2. T p tin ngh ch đ o :ậ ị ả
Gi s câu truy v n c a ngả ử ấ ủ ườ ử ụi s d ng sau khi l p ch m c là m t t p cácậ ỉ ụ ộ ậ m c t { t1, t2, ..,tn }. Ví d : truy v n "công ngh ph n mêm " s đụ ừ ụ ấ ệ ầ ẽ ượ ậc l p ch m cỉ ụ g m hai t "công ngh " và "ph n m m") v i giá tr n thồ ừ ệ ầ ề ớ ị ường không l n ( 2,3,4..)ớ
Yêu c u c a ngầ ủ ườ ử ụi s d ng là mong mu n tìm ki m các tài li u có ch a t t cố ế ệ ứ ấ ả các m c t t1, t2,..., tn. Nh th ta không c n kh o sát t t c các vector ch m c màụ ừ ư ế ầ ả ấ ả ỉ ụ ch c n tìm các vector nào có ch a t1, t2, ... , tn.Đi u này có th th c hi n d dàngỉ ầ ứ ề ể ự ệ ễ b ng cách l u các nhóm vector (tài li u) theo t ng m c t .ằ ư ệ ừ ụ ừ
t1 : 1, 3, 4 t2 : 1, 2, 4, 5 t3 : 2, 4, 5
Nghĩa là m c t t1 có trong các tài li u 1, 3, 4.ụ ừ ệ t2 có trong các tài li u 1,2,4,5ệ t3 có trong các tài li u 2, 4, 5ệ
Khi đó quá trình tìm ki m ( t1, t3 ) s đế ẽ ược th c hi n theo các bự ệ ước sau: 1. Tìm t p các tài li u có ch a t1 , g i là T1={1,3,4}ậ ệ ứ ọ
2. Tìm t p tài li u có ch a t3, g i là T2={2,4,5}ậ ệ ứ ọ
4. Tính toán đ tộ ương t gi a câu truy v n và các tài li u có trong t pự ữ ấ ệ ậ T
S d ng công th c tính đ tử ụ ứ ộ ương t :ự
Sim(D, Q) = vi*wi , i=1..n
v i tớ i là m c t có trong Q ( do wụ ừ i=0 vói m c t tụ ừ i không có trong Q và wi =1 n u ti có trong Q )ế
Rõ ràng vi c tính đ tệ ộ ương t ch c n t i tr ng lự ỉ ầ ớ ọ ượng c a các m c t có trongủ ụ ừ Q nên đ có th ể ểtăng thêm hi u qu ta s ệ ả ẽ l u thêm giá tr tr ng lư ị ọ ượng c a m c tủ ụ ừ trong t p tin ngh ch đ oậ ị ả .
t1 : (1, 0.5) (3,0.7) (4,0.2)
t2 : (1,0.4) (2,0.8) (4,0.9) (5, 0.1) t3 : (2,0.3) (4,0.2) (5,0.5)
Nghĩa là m c t t1 có trong tài li u 1 v i tr ng lụ ừ ệ ớ ọ ượng là 0.5, trong tài li u 3 v iệ ớ tr ng lọ ượng là 0.7 v...v...
Khi đó đ tìm ki m cho câu truy v n (t1, t3) ch c n đ c 2 kh i d li u c a t1ể ế ấ ỉ ầ ọ ố ữ ệ ủ và t3 là đ (gi m truy xu t đĩa và gi m th i gian x ủ ả ấ ả ờ ử lý).
Mô hình t p tin ngh ch đ o hi n nay đậ ị ả ệ ượ ử ục s d ng r t r ng rãi trong cácấ ộ
h th ng tìm ki m thông tinệ ố ế vì v i cách t ch c này vì các d li u c n đ c đớ ổ ứ ữ ệ ầ ọ ược l u tr liên t c nên gi m vi c di chuy n đ u đ c c a đĩa c ng, cũng nh n u ta l uư ữ ụ ả ệ ể ầ ọ ủ ứ ư ế ư l i v trí b t đ u c a các m c t thì có th truy xu t tr c ti p đ n v trí đó đ đ c dạ ị ắ ầ ủ ụ ừ ể ấ ự ế ế ị ể ọ ữ li u.ệ
Khó khăn: c a vi c s d ng t p tin ngh ch đ o là khi c n thêm m t tài li uủ ệ ử ụ ậ ị ả ầ ộ ệ vào m c t , gi s c n thêm tài li u 6 vào m c t t1.ụ ừ ả ử ầ ệ ụ ừ
t1 : 1,3,4,6 t2 : 1,2,4,5 t3 : 2,4,5
V i chú ý r ng các kh i d li u c a t1, t2, t3 đớ ằ ố ữ ệ ủ ượ ưc l u tr liên ti p nhau trênữ ế đĩa c ng và dung lứ ượng c a t p tin ngh ch đ o này r t l n (ch a hàng trăm ngàn m củ ậ ị ả ấ ớ ứ ụ t v i hàng tri u tài li u), h n n a vi c thêm tài li u này r t thừ ớ ệ ệ ơ ữ ệ ệ ấ ường xuyên (l p chậ ỉ m c cho các Web site m i , c p nh t l i các Web site có thay đ i) cho nên không thụ ớ ậ ậ ạ ổ ẻ s d ng phử ụ ương pháp chèn b ng cách d i d li u ra sau đ t o kho ng tr ng chèn tàiằ ờ ữ ệ ể ạ ả ố li u 6 vào.ệ
Cách gi i quy tả ế : c p phát không gian cho các m c t ấ ụ ừ theo trang, khi m tộ m c t đã ch a h t trang này thì s c p phát thêm vào cu i t p tin và có m t link chụ ừ ứ ế ẽ ấ ố ậ ộ ỉ đ n trang cu i này.ế ố
t1 1 3 4 t2 1 2 4 t3 1 2 5
6
Phương pháp này m c dù lãng phí không gian cho các trang ch a dùng đ n, giặ ư ế ả s có 100.000 m c t , trang dung lử ụ ừ ượng là 1K, dung lượng đĩa lãng phí l n nh t làớ ấ 100.000 K (100 M) và ph i di chuy n đ u đ cả ể ầ ọ nhi u nh ng ề ư gi i quy t đả ế ược v nấ
đó (đ c theo các link). Có th đi u ch nh gi a dung lọ ể ề ỉ ữ ượng lãng phí và vi c ph i diệ ả chuy n đ u đ c (tính b ng s trang c p phát cho m t m c t ) b ng cách tăng ho cể ầ ọ ằ ố ấ ộ ụ ừ ằ ặ gi m dung lả ượng c p phát cho m t trang. N u tăng dung lấ ộ ế ượng c p phát cho m tấ ộ trang thì s gi m vi c di chuy n đ u đ c và ngẽ ả ệ ể ầ ọ ượ ạc l i.
H th ng đã s d ng mô hình t p tin ngh ch đ o v i vi c c p phát theo trangệ ố ử ụ ậ ị ả ớ ệ ấ nh đã trình bày trên , ư dung lượng trang được ch n là 1K.ọ
T p tin ngh ch đ o l u tr danh sách các tài li u ng v i t ng m c t đ choậ ị ả ư ữ ệ ứ ớ ừ ụ ừ ể phép h th ng nhanh chóng có đệ ố ược danh sách các tài li u có ch a m t m c t nào đóệ ứ ộ ụ ừ có d ng sau:ạ M c t ụ ừ Tài li u, tr ng lệ ọ ượng t1 (2,w1), (3,w2),( 4,w3) t2 (3,w4),(4,w5),(5,w6) t3 (2,w7),(4,w8) t4 (1,w9)
B ng trên có nghĩa là m c t t1 có các tài li u 2,3,4 v i tr ng lả ụ ừ ệ ớ ọ ượng tương ngứ là w1,w2,w3.
Hình 8.6 T p tin ngh ch đ oậ ị ả
M t m c t có th có nhi u trang. Do kích thộ ụ ừ ể ề ướ ủc c a page là c đ nh pagesizeố ị = 1024B ~ 1K & ch á t i đa 1024/8 - 1 = 127 tài li u trên 1 trang, 8 = 4byte luu docIDư ố ệ , 4 byte luu tr ng s cho nên t o 1 chu i các trang ch a m c t , 8 byte đ u c a trangọ ố ạ ỗ ứ ụ ừ ầ ủ l u v trí trang ti p theo(n u có) và v trí tr ng ti p theo trong trang .ư ị ế ế ị ố ế
V tríị Chi u dàiề Tên trT ường ý nghĩa
0 4 NextPage V trí tr ng ti p theo ch a đị ố ế ư ượ ửc s d ng trong trang này, ch có ụ ỉ ý nghĩa khi đây là trang cu iố
4 4 NextPos Trang ti p theo (n u có) c a m cế ế ủ ụ
Pagesize = 1K startpage * pagesize Next page Next pos T1 w2 … …. ….. Tn wn Next page Next pos Tn+1 Wn+1 … …. ….. Trích d n 1 page ẫ T p tin ngh ch đ o ậ ị ả trích 1 trang
t s h u trang này ừ ở ữ
8 4 DocID1 DocIDi : đ nh danh tài li u có ch aị ệ ứ m c t s h u trang nàyụ ừ ở ữ
Weighti : tr ng s c a m c t trongọ ố ủ ụ ừ t ng tài li u từ ệ ương ng DocIDứ i
12 4 Weight1 16 4 DocID2 20 4 Weight2 24 4 DocID3 28 4 Weight3 ………… ………….. ……….. 1016 4 DocID127 1020 4 Weight127
B ng ả 8.18: C u trúc c a m t trang c p cho t ng m c t trong t p tin ngh chấ ủ ộ ấ ừ ụ ừ ậ ị
đ oả
Nh v y, có th đ c toàn b danh sách các tài li u có ch a m t m c t b ngư ậ ể ọ ộ ệ ứ ộ ụ ừ ằ cách đ c toàn b các trang đọ ộ ược liên k t theo con tr NextPage. V trí đ u tiên ch aế ỏ ị ầ ứ trang thu c quy n s h u c a m c t đó độ ề ở ữ ủ ụ ừ ược xác đ nh nh sau: ị ư
V trí đ u tiên = startpage*kích thị ầ ước 1 page ( đây là 1024 byte)ở
Các thao tác chính trong t p tin ngh ch đ o g m : ậ ị ả ồ
Thêm m t tài li u vào m t m c tộ ệ ộ ụ ừ: khi m t tài li u độ ệ ượ ậc l p ch m c,ỉ ụ n u tài li u này có ch a m t m c t t nào đó thì tài li u này đế ệ ứ ộ ụ ừ ệ ược thêm vào danh sách các tài li u ng v i m c t t trong t p tin ngh ch đ o. Tài li uệ ứ ớ ụ ừ ậ ị ả ệ được thêm vào v trí tr ng đ u tiên trong trang cu i c a m c t t.ị ố ầ ố ủ ụ ừ
Đ c danh sách các tài li u c a m t m c tọ ệ ủ ộ ụ ừ: k t qu c a thao tác nàyế ả ủ được tr v theo lu ng (stream) dả ề ồ ưới d ng (docIDạ 1, weight1, docID2, weight2, ... , docIDn, weightn ) nghĩa là có th đ c k t qu tr v theo t ngể ọ ế ả ả ề ừ tài li u , x lý xong tài li u này m i đ c tài li u ti p theo.ệ ử ệ ớ ọ ệ ế
Sau khi l y đấ ược lu ng danh sách các tài li u c a t ng m c t , nó l a xemồ ệ ủ ừ ụ ừ ự các danh sách đ t yêu c u (ch á t t c các m c t yêu c u). ạ ầ ư ấ ả ụ ừ ầ
Vi c x lý d li u theo lu ng là m t ệ ử ữ ệ ồ ộ ưu đi mể l n c a h th ng này vì gi iớ ủ ệ ố ả quy t đế ược v n đ b nh h n ch khi ph i x lý trên kh i lấ ề ộ ớ ạ ế ả ử ố ượng d li u l n. Đi uữ ệ ớ ề này cũng cho th y h th ng này v n có th đáp ng đấ ệ ố ẫ ể ứ ược khi tăng kh i lố ượng tài li uệ ph i x lý ho c tăng s yêu c u ph i x lý đ ng th i.ả ử ặ ố ầ ả ử ồ ờ
File ngh ch đ o đị ả ược truy c p thậ ường xuyên khi x lử
F ý yêu c u tìm ki m và khiầ ế
l p ch m c. Do đó, thao tác đ c và c p nh t file ngh ch đ o chi m nhi u th i gianậ ỉ ụ ọ ậ ậ ị ả ế ề ờ nh t trong t ng s th i gian c n thi t đ hoàn t t m t yêu c u tìm ki m. Vấ ổ ố ờ ầ ế ể ấ ộ ầ ế ì dung lượng file ngh ch đ o thay đ i và có th tr nên quá l n khi s tài li u đị ả ổ ể ở ớ ố ệ ượ ậc l p chỉ m c tăng lên nên không th l u toàn b file ngh ch đ o vào b nh do đó đ tăng t cụ ể ư ộ ị ả ộ ớ ể ố đ tìm ki m chúng tôi c p phát ộ ế ấ m t vùng nh đóng vai trò b đ mộ ớ ộ ệ cho file này. Bộ đ m đệ ược chia thành các trang v i dung lớ ượng b ng dung lằ ượng trang đượ ấc c p phát