a. Các trang chủ
Dữ liệu dùng để làm đầu vào cho việc sinh tự động từ khố chính là tập các trang web. Các trang web được crawl để chỉ lấy về url của nĩ từ địa chỉ http://www.dmoz.org/World/Tiếng_Việt/ gồm các mục con như : Địa phương(99), Doanh nghiệp(246)....(Hình 16) Số ở trong ngoặc là số trang web cĩ trong thư mục. Các thư mục cĩ thể bao gồm các thư mục khác nữa, hoặc trống, hoặc cĩ các link đến các trang web tiếng Việt. Tổng số trang web trên http://dmoz.org/Worl/Tiếng_Việt/ gồm cĩ 1016 trang.
Hình 16. Thư mục Tiếng_Việt của dmoz
Nhiệm vụ đặt ra là cần lấy được tồn bộ 1016 link trong Director Tiếng_Việt này. Qua mơ đun Crawler1(phần mơ hình chương III), bằng thuật tốn duyệt theo chiều sâu, tơi
39
đã thống kê được tồn bộ số liên kết trên và lưu trong một file văn bản. Các liên kết được lấy ra cĩ dạng như Hình 17, tồn bộ nội dung thơng tin liên quan của dmoz và đường dẫn đến thư mục cũng được ghi nhớ với từng trang web.
Hình 17.Các liên kết cần lấy về trong các thư mục
Một loại dữ liệu thực nghiệm nữa là các trang Tiếng Anh, crawl về cũng trên dmoz. Lấy khoảng tầm 200 trang về để sinh từ khố.
b. Query log
Query log được lấy từ máy tìm kiếm của MSN [39] với khoảng 12 triệu query tương ứng với các url được vào. Query log này được qua quá trình tiền xử lý như : loại bỏ các từ dừng, các trường cĩ chữ Trung Quốc, Ả Rập, giữ lại hai trường quan trọng là query và url.... Sau đĩ, các query và url này sẽ được chèn vào hệ cơ sở dữ liệu MySQL bằng câu lệnh sau:
“load data infile 'C:/log.txt' into table logquery fields terminated by '\t'”
c. Các bài báo
Đối với các bài báo (những trang cĩ nội dung tập trung) tơi chỉ lấy một số bài của trang Việt Báo [43], và thử nghiệm và so sánh với các kết quả từ khĩa của Việt Báo bằng phương pháp gán từ khĩa dựa vào từ điển.
Từ điển để phục vụ cho việc gán từ khĩa do chúng tơi tự tổng hợp (dựa vào trang báo mới [48] ). Từ điển này được chia theo các loại từ khác nhau như : cụm từ(16512 từ), danh từ(11744 từ), động từ (8599 từ).... Chất lượng của việc sinh từ khĩa sẽ do từ điển quyết định.
40
- Input: Tập các địa chỉ tới trang web, hoặc nhập vào địa chỉ trang web cần sinh từ khố. Tiến hành thực nghiệm với tồn bộ 1016 địa chỉ tìm được ở thư mục Tiếng_Việt của dmoz. Tuy nhiên do nhiều kết nối bị lỗi nên chỉ tiến hành thực nghiệm trên 920 trang. Thời gian chạy trung bình mỗi trang là 30s .
- Output: Là tập các file chứa từ khố được sinh ra tương ứng với tập trang web đầu vào.