Dữ liệu thử nghiệm

Một phần của tài liệu BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB (Trang 47 - 49)

a. Các trang chủ

Dữ liệu dùng để làm đầu vào cho việc sinh tự động từ khố chính là tập các trang web. Các trang web được crawl để chỉ lấy về url của nĩ từ địa chỉ

http://www. dmoz .org/World/ Tiếng _ Việt / gồm các mục con như : Địa phương(99), Doanh nghiệp(246)....(Hình 15) Số ở trong ngoặc là số trang web cĩ trong thư mục. Các thư mục cĩ thể bao gồm các thư mục khác nữa, hoặc trống, hoặc cĩ các link đến các trang web tiếng Việt. Tổng số trang web trên http://dmoz.org/Worl/Tiếng_Việt/ gồm cĩ 1016 trang.

Hình 15. Thư mục Tiếng_Việt của dmoz

Nhiệm vụ đặt ra là cần lấy được tồn bộ 1016 link trong Director Tiếng_Việt này. Qua mơ đun Crawler1(phần mơ hình chương III), bằng thuật tốn duyệt theo chiều sâu, tơi đã thống kê được tồn bộ số liên kết trên và lưu trong một file văn bản. Các liên kết được lấy ra cĩ dạng như Hình 16, tồn bộ nội dung thơng tin liên quan của dmoz và đường dẫn đến thư mục cũng được ghi nhớ với từng trang web.

Hình 16.Các liên kết cần lấy về trong các thư mục

Một loại dữ liệu thực nghiệm nữa là các trang Tiếng Anh, crawl về cũng trên dmoz. Lấy khoảng tầm 200 trang về để sinh từ khố.

b. Query log

Query log được lấy từ máy tìm kiếm của MSN [39] với khoảng 12 triệu query tương ứng với các url được vào. Query log này được qua quá trình tiền xử lý như : loại bỏ các từ dừng, các trường cĩ chữ Trung Quốc, Ả Rập, giữ lại hai trường quan trọng là query và url.... Sau đĩ, các query và url này sẽ được chèn vào hệ cơ sở dữ liệu MySQL bằng câu lệnh sau:

“load data infile 'C:/log.txt' into table logquery fields terminated by '\t'”

c. Các bài báo

Đối với các bài báo (những trang cĩ nội dung tập trung) tơi chỉ lấy một số bài của trang Việt Báo [43], và thử nghiệm và so sánh với các kết quả từ khĩa của Việt Báo bằng phương pháp gán từ khĩa dựa vào từ điển.

Từ điển để phục vụ cho việc gán từ khĩa do chúng tơi tự tổng hợp (dựa vào trang báo mới [48] ). Từ điển này được chia theo các loại từ khác nhau như : cụm từ(16512 từ), danh từ(11744 từ), động từ (8599 từ).... Chất lượng của việc sinh từ khĩa sẽ do từ điển quyết định.

d. Mơ tả dữ liệu

- Input: Tập các địa chỉ tới trang web, hoặc nhập vào địa chỉ trang web cần sinh từ khố. Tiến hành thực nghiệm với tồn bộ 1016 địa chỉ tìm được ở thư mục Tiếng_Việt của dmoz. Tuy nhiên do nhiều kết nối bị lỗi nên chỉ tiến hành thực nghiệm trên 920 trang. Thời gian chạy trung bình mỗi trang là 30s .

- Output: Là tập các file chứa từ khố được sinh ra tương ứng với tập trang web đầu vào.

Một phần của tài liệu BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB (Trang 47 - 49)