3.2.2. Mô đun Crawler
Gồm hai mô đun: Crawler1, Crawler2 có chung nhiệm vụ là tải các trang web về dựa theo việc phân tích liên kết trong nội dung của các trang. Mô đun Crawler1 tải các trang từ một thư mục trên Internet, còn mô đun Crawler2 dựa vào máy tìm kiếm để tải các trang về.
a. Mô đun Crawler1 - Yêu cầu:
input: địa chỉ của một trang web có chứa địa chỉ của tập các trang web cần sinh từ khóa( ví dụ như 1 thư mục trong các máy tìm kiếm).
output: Tải về nội dung của các trang có địa chỉ trong trang thư mục đó, kể cả các thư mục con của nó.
- Quy trình thực thi:
Bước 1: Tải trang web của thư mục cần lấy về.
Bước 2: Phân tích nội dung trang này, lấy về các địa chỉ cần sinh từ khóa.
Bước 3: Tải các trang cần sinh từ khóa có địa chỉ vừa lấy được.
Bước 4: Đưa địa chỉ các thư mục khác liên quan rồi quay lại bước 2. Lặp cho đến khi không còn trang web, hoặc đạt đến số trang cần lấy.
29
- Yêu cầu:
input: địa chỉ trang web cần sinh từ khóa
output: Tải về nội dung của các trang có liên kết đến trang web này. - Quy trình thực thi:
Gửi yêu cầu đến các công cụ tìm kiếm là google, yahoo, altavista. Yêu cầu dạng : “link:A” (với A là địa chỉ trang web cần sinh từ khóa).
Tải các trang nội dung trả về từ các máy tìm kiếm.
Phân tích nội dung các trang này, tìm các địa chỉ và tải các trang về. Lặp lại để tìm được số lượng trang phù hợp.
Để tiết kiệm bộ nhớ không phải lưu nội dung các trang khi tải về, có thể kết hợp việc tải các trang và xử lý sinh từ khóa cùng lúc.
3.2.3. Mô đun sinh từ khóa
Đây là mô đun chính, sử dụng các phương pháp khác nhau. Phương pháp chủ
đạo dành cho các trang web là sử dụng độ quan trọng của các thẻ HTML và đồ thị
web. Phương pháp khai phá log hỗ trợ, nâng cao chất lượng của từ khóa. Phương pháp sử dụng từ điển hỗ trợ chỉ sử dụng đối với một số tóm tắt văn bản, hay những văn bản ngắn.
Tập các
trang web Tliên kập các trang có ết trỏđến
Mô đun sử dụng trọng số thẻ HTML Mô đun tìm từ khóa sử dụng đồ thị web Tập từ khóa 1 Tập từ khóa 2 Tổng hợp từ khóa Tập các từ khóa Tập từ khóa từ log Tập từ khóa (từđiển)
30
3.2.3.1. Mô đun sử dụng trọng số thẻ HTML
- Nhiệm vụ :
+ input: tập các trang web cần sinh từ khoá. + output: tập các từ khoá.
Kĩ thuật sử dụng là dùng những thông tin nội tại trong trang web, xét độ quan trọng của các thẻ khác nhau trong tập văn bản HTML để sinh từ khóa. Các từ xuất hiện trong thẻ nào thì nó sẽ có giá trị là trọng số của thẻ đó. Nếu một từ xuất hiện trong các thẻ khác nhau, trọng số của từ đó sẽ là tổng trọng số các thẻ nó thuộc vào.
Đối với các trang Web tiếng Việt thì sử dụng mô đun tách từ, còn các trang tiếng Anh có thể bỏ qua các trang tách từ. Trong giai đoạn tách từ, các từ dừng sẽ được loại bỏ để tránh nhiễu.
31
- Mô hình chi tiết:
Nội dung của thẻ(<a>) Nội dung của thẻ(<b> ) Nội dung của thẻ(<u>) Sử dụng tách câu, tách từ(Tiếng Việt) Tập các từ(a) Tập các từ (b) Tập các từ(u) Tập các từ (toàn bộ trang) Thống kê từ có trọng số cao Trọng số thẻ Tập trang web HTML parser Nội dung toàn bộtrang Tập từ khóa (thẻ HTML)
32
- Quá trình thực thi:
+ Với đầu vào là tập các trang web cần sinh từ khoá. Ở mỗi thời điểm ta chọn 1 trang để sinh từ khoá.
+ Trang dưới dạng HTML được đưa qua bộ phân tích cú pháp HTML(HTML parser).
+ Đối với từng thẻ xác định (chỉ đề cập đến một số thẻ quan trọng) lấy ra nội
dung của nó. Cùng với đó ta cũng lấy toàn bộ text của trang web (vì trong các tag quan trọng không có p, div...)
+ Nội dung sau khi được trích ra đi qua bộ phân tích để tách câu, tách từ (đối với tiếng Việt).
+ Với mỗi thẻ trong HTML có trọng số khác nhau. Gán trọng số cho mỗi thẻ, nếu từ nào trong thẻ nào thì nhận trọng số của thẻ đó, nếu từ nằm trong nhiều thẻ thì cộng các giá trị lại với nhau.
+ Qua thống kê loại bỏ những trọng số quá yếu đi => tâp các từ khóa (thẻ HTML)
3.2.3.2. Mô đun sử dụng đồ thị web
- Nhiệm vụ: Bởi vì những trang trỏ đến những trang khác thì nó có khả năng nói lên được một cách ngắn gọn về trang đó. Nhiệm vụ của mô đun nhằm tìm ra những từ là nội dung của các thẻ a liên kết đến trang ta cần sinh tag.
- Mô hình chi tiết:
- Quy trình thực thi:
+ Đầu vào là một tập các trang web có liên kết đến trang cần tìm khoá.
Tập các trang có liên kết tới
HTML Parser Địa chỉ trang
Nội dung của thẻ <a> có
href=địa chỉ trang Tập tthừị khóa ( web) đồ
33
+ Chỉ quan tâm domain, không quan tâm những link sub domain. + Với mỗi trang dùng HTML parser
+ lấy ra nội dung của các thẻ a mà có href trỏ trực tiếp đến trang ta quan tâm. + Loại bỏ trùng lặp=> tập các từ khóa (đồ thị web) sử dụng tần số.
3.2.3.3. Các phương pháp hỗ trợ
Có hai phương pháp nhằm hỗ trợ nâng cao chất lượng từ khóa sinh ra là: sử dụng log của máy tìm kiếm, sử dụng từ điển hỗ trợ. Hai phương pháp này giới hạn về ngôn ngữ, và loại trang web sử dụng.
3.2.3.3.1. Phương pháp sử dụng log
- Yêu cầu: có log của các máy tìm kiếm, chèn chúng vào cơ sở dữ liệu thì truy vấn kết quả sẽ nhanh hơn. Các trang web phù hợp với ngôn ngữ được dùng trong log.
- Nhiệm vụ:
+ input: địa chị trang web cần sinh từ khóa. + output: tập các từ khóa.
- Mô hình chi tiết:
- Quy trình thực thi:
+ Truy vấn trong CSDL Log với url = địa chị trang web cần sinh, lấy các query tương ứng.
+ tổng hợp các query kết quả trả về, rồi tính toán dựa vào tần số xuất hiện.
+ Sắp xếp theo tần số xuất hiện để có tập từ khóa. => tập từ khóa (log).
CSDL log
Địa chỉ trang web
Mô đun sinh từ
khóa dựa vào log truy vấn
kết quả
tập từ khóa (log)
34
3.2.3.3.2.Phương pháp sử dụng từđiển
- Yêu cầu: cần có bộ từ điển
- Nhiệm vụ: Dùng từ điển chuyên dụng để tìm ra những từ có trong từ điển và hay gặp, nâng cao chất lượng của từ.
- Mô hình chi tiết
- Quy trình thực thi:
+ Với mỗi trang web đầu vào đi qua bộ HTML parser.
+ Lấy ra nội dung văn bản của toàn bộ trang (hoặc có thể chỉ lấy phần quan trọng như phần tóm tắt đối với báo).
+ Khớp các từ trong nội dung với các từ trong từ điển đã có để tìm ra các từ. Có xét đến tần số xuất hiện của từ.
+ Sắp xếp có một tập các từ => tập các từ khóa (từ điển). Tập trang web HTML parser Lấy toàn bộ phần văn bản Tìm những từ xuất hiện trong từđiển Tập từđiển Tập từ khóa (từđiển)
35