3.2.2. Mơ đun Crawler
Gồm hai mơ đun: Crawler1, Crawler2 cĩ chung nhiệm vụ là tải các trang web về dựa theo việc phân tích liên kết trong nội dung của các trang. Mơ đun Crawler1 tải các trang từ một thư mục trên Internet, cịn mơ đun Crawler2 dựa vào máy tìm kiếm để tải các trang về.
a. Mơ đun Crawler1 - Yêu cầu:
input: địa chỉ của một trang web cĩ chứa địa chỉ của tập các trang web cần sinh từ khĩa( ví dụ như 1 thư mục trong các máy tìm kiếm).
output: Tải về nội dung của các trang cĩ địa chỉ trong trang thư mục đĩ, kể cả các thư mục con của nĩ.
- Quy trình thực thi:
Bước 1: Tải trang web của thư mục cần lấy về.
Bước 2: Phân tích nội dung trang này, lấy về các địa chỉ cần sinh từ khĩa. Bước 3: Tải các trang cần sinh từ khĩa cĩ địa chỉ vừa lấy được.
Bước 4: Đưa địa chỉ các thư mục khác liên quan rồi quay lại bước 2. Lặp cho đến khi khơng cịn trang web, hoặc đạt đến số trang cần lấy.
b. Mơ đun Crawler2 - Yêu cầu:
input: địa chỉ trang web cần sinh từ khĩa
output: Tải về nội dung của các trang cĩ liên kết đến trang web này. - Quy trình thực thi:
Gửi yêu cầu đến các cơng cụ tìm kiếm là google, yahoo, altavista. Yêu cầu dạng : “link:A” (với A là địa chỉ trang web cần sinh từ khĩa).
Phân tích nội dung các trang này, tìm các địa chỉ và tải các trang về. Lặp lại để tìm được số lượng trang phù hợp.
Để tiết kiệm bộ nhớ khơng phải lưu nội dung các trang khi tải về, cĩ thể kết hợp việc tải các trang và xử lý sinh từ khĩa cùng lúc.
3.2.3. Mơ đun sinh từ khĩa
Đây là mơ đun chính, sử dụng các phương pháp khác nhau. Phương pháp chủ đạo dành cho các trang web là sử dụng độ quan trọng của các thẻ HTML và đồ thị web. Phương pháp khai phá log hỗ trợ, nâng cao chất lượng của từ khĩa. Phương pháp sử dụng từ điển hỗ trợ chỉ sử dụng đối với một số tĩm tắt văn bản, hay những văn bản ngắn.
3.2.3.1. Mơ đun sử dụng trọng số thẻ HTML
- Nhiệm vụ :
+ input: tập các trang web cần sinh từ khố. + output: tập các từ khố.
Kĩ thuật sử dụng là dùng những thơng tin nội tại trong trang web, xét độ quan trọng của các thẻ khác nhau trong tập văn bản HTML để sinh từ khĩa. Các từ xuất hiện trong thẻ nào thì nĩ sẽ cĩ giá trị là trọng số của thẻ đĩ. Nếu một từ xuất hiện trong các
Tập các trang web Tập các trang cĩ liên kết trỏ đến Mơ đun sử dụng trọng số thẻ HTML Mơ đun tìm từ khĩa sử dụng đồ thị web Tập từ khĩa 1 khĩa 2Tập từ Tổng hợp từ khĩa Tập các từ khĩa Tập từ khĩa từ log Tập từ khĩa (từ điển)
Đối với các trang Web tiếng Việt thì sử dụng mơ đun tách từ, cịn các trang tiếng Anh cĩ thể bỏ qua các trang tách từ. Trong giai đoạn tách từ, các từ dừng sẽ được loại bỏ để tránh nhiễu.
- Mơ hình chi tiết: Nội dung của thẻ(<a>) Nội dung của thẻ (<b> ) Nội dung của thẻ (<u>)
Sử dụng tách câu, tách từ(Tiếng Việt)
Tập các từ(a) Tập các từ (b) Tập các từ(u) Tập các từ (tồn bộ trang) Thống kê từ cĩ trọng số cao Trọng số thẻ b Tập trang web HTML parser Nội dung tồn bộ trang Tập từ khĩa (thẻ HTML)
- Quá trình thực thi:
+ Với đầu vào là tập các trang web cần sinh từ khố. Ở mỗi thời điểm ta chọn 1 trang để sinh từ khố.
+ Trang dưới dạng HTML được đưa qua bộ phân tích cú pháp HTML(HTML parser).
+ Đối với từng thẻ xác định (chỉ đề cập đến một số thẻ quan trọng) lấy ra nội dung của nĩ. Cùng với đĩ ta cũng lấy tồn bộ text của trang web (vì trong các tag quan trọng khơng cĩ p, div...)
+ Nội dung sau khi được trích ra đi qua bộ phân tích để tách câu, tách từ (đối với tiếng Việt).
+ Với mỗi thẻ trong HTML cĩ trọng số khác nhau. Gán trọng số cho mỗi thẻ, nếu từ nào trong thẻ nào thì nhận trọng số của thẻ đĩ, nếu từ nằm trong nhiều thẻ thì cộng các giá trị lại với nhau.
+ Qua thống kê loại bỏ những trọng số quá yếu đi => tâp các từ khĩa (thẻ HTML)
3.2.3.2. Mơ đun sử dụng đồ thị web
- Nhiệm vụ: Bởi vì những trang trỏ đến những trang khác thì nĩ cĩ khả năng nĩi lên được một cách ngắn gọn về trang đĩ. Nhiệm vụ của mơ đun nhằm tìm ra những từ là nội dung của các thẻ a liên kết đến trang ta cần sinh tag.
- Mơ hình chi tiết:
- Quy trình thực thi:
+ Đầu vào là một tập các trang web cĩ liên kết đến trang cần tìm khố. + Chỉ quan tâm domain, khơng quan tâm những link sub domain.
Tập các trang cĩ liên kết tới
HTML Parser Địa chỉ trang
Nội dung của thẻ <a>
cĩ href=địa chỉ trang Tập từ khĩa (đồ thị web)
+ Với mỗi trang dùng HTML parser
+ lấy ra nội dung của các thẻ a mà cĩ href trỏ trực tiếp đến trang ta quan tâm. + Loại bỏ trùng lặp=> tập các từ khĩa (đồ thị web) sử dụng tần số.
3.2.3.3. Các phương pháp hỗ trợ
Cĩ hai phương pháp nhằm hỗ trợ nâng cao chất lượng từ khĩa sinh ra là: sử dụng log của máy tìm kiếm, sử dụng từ điển hỗ trợ. Hai phương pháp này giới hạn về ngơn ngữ, và loại trang web sử dụng.
3.2.3.3.1. Phương pháp sử dụng log
- Yêu cầu: cĩ log của các máy tìm kiếm, chèn chúng vào cơ sở dữ liệu thì truy vấn kết quả sẽ nhanh hơn. Các trang web phù hợp với ngơn ngữ được dùng trong log.
- Nhiệm vụ:
+ input: địa chị trang web cần sinh từ khĩa. + output: tập các từ khĩa.
- Mơ hình chi tiết:
- Quy trình thực thi:
+ Truy vấn trong CSDL Log với url = địa chị trang web cần sinh, lấy các query tương ứng.
+ tổng hợp các query kết quả trả về, rồi tính tốn dựa vào tần số xuất hiện. + Sắp xếp theo tần số xuất hiện để cĩ tập từ khĩa. => tập từ khĩa (log).
CSDL log
Địa chỉ trang web
Mơ đun sinh từ khĩa dựa vào log truy vấn
kết quả
tập từ khĩa (log)
3.2.3.3.2.Phương pháp sử dụng từ điển
- Yêu cầu: cần cĩ bộ từ điển
- Nhiệm vụ: Dùng từ điển chuyên dụng để tìm ra những từ cĩ trong từ điển và hay gặp, nâng cao chất lượng của từ.
- Mơ hình chi tiết
- Quy trình thực thi:
+ Với mỗi trang web đầu vào đi qua bộ HTML parser.
+ Lấy ra nội dung văn bản của tồn bộ trang (hoặc cĩ thể chỉ lấy phần quan trọng như phần tĩm tắt đối với báo).
+ Khớp các từ trong nội dung với các từ trong từ điển đã cĩ để tìm ra các từ. Cĩ xét đến tần số xuất hiện của từ.
+ Sắp xếp cĩ một tập các từ => tập các từ khĩa (từ điển). Tập trang web HTML parser Lấy tồn bộ phần văn bản Tìm những từ xuất hiện trong từ điển Tập từ điển Tập từ khĩa (từ điển)