a. Các trang chủ
Dữ liệu dùng để làm đầu vào cho việc sinh tự động từ khoá chính là tập các trang web. Các trang web được crawl để chỉ lấy về url của nó từ địa chỉ
http://www.dmoz.org/World/Tiếng_Việt/ gồm các mục con như : Địa phương(99), Doanh nghiệp(246)....(Hình 16) Số ở trong ngoặc là số trang web có trong thư mục. Các thư mục có thể bao gồm các thư mục khác nữa, hoặc trống, hoặc có các link đến các trang web tiếng Việt. Tổng số trang web trên http://dmoz.org/Worl/Tiếng_Việt/
gồm có 1016 trang.
Hình 16. Thư mục Tiếng_Việt của dmoz
Nhiệm vụ đặt ra là cần lấy được toàn bộ 1016 link trong Director Tiếng_Việt này. Qua mô đun Crawler1(phần mô hình chương III), bằng thuật toán duyệt theo chiều sâu, tôi
39
đã thống kê được toàn bộ số liên kết trên và lưu trong một file văn bản. Các liên kết được lấy ra có dạng như Hình 17, toàn bộ nội dung thông tin liên quan của dmoz và đường dẫn đến thư mục cũng được ghi nhớ với từng trang web.
Hình 17.Các liên kết cần lấy về trong các thư mục
Một loại dữ liệu thực nghiệm nữa là các trang Tiếng Anh, crawl về cũng trên dmoz. Lấy khoảng tầm 200 trang về để sinh từ khoá.
b. Query log
Query log được lấy từ máy tìm kiếm của MSN [39] với khoảng 12 triệu query tương ứng với các url được vào. Query log này được qua quá trình tiền xử lý như : loại bỏ các từ dừng, các trường có chữ Trung Quốc, Ả Rập, giữ lại hai trường quan trọng là query và url.... Sau đó, các query và url này sẽ được chèn vào hệ cơ sở dữ liệu MySQL bằng câu lệnh sau:
“load data infile 'C:/log.txt' into table logquery fields terminated by '\t'”
c. Các bài báo
Đối với các bài báo (những trang có nội dung tập trung) tôi chỉ lấy một số bài của trang Việt Báo [43], và thử nghiệm và so sánh với các kết quả từ khóa của Việt Báo bằng phương pháp gán từ khóa dựa vào từ điển.
Từ điển để phục vụ cho việc gán từ khóa do chúng tôi tự tổng hợp (dựa vào
trang báo mới [48] ). Từ điển này được chia theo các loại từ khác nhau như : cụm từ(16512 từ), danh từ(11744 từ), động từ (8599 từ).... Chất lượng của việc sinh từ khóa sẽ do từ điển quyết định.
40
- Input: Tập các địa chỉ tới trang web, hoặc nhập vào địa chỉ trang web cần sinh từ khoá. Tiến hành thực nghiệm với toàn bộ 1016 địa chỉ tìm được ở thư mục Tiếng_Việt của dmoz. Tuy nhiên do nhiều kết nối bị lỗi nên chỉ tiến hành thực nghiệm trên 920 trang. Thời gian chạy trung bình mỗi trang là 30s .
- Output: Là tập các file chứa từ khoá được sinh ra tương ứng với tập trang web đầu vào.