Kết quả thử nghiệm

Một phần của tài liệu Hệ thống bóc tách giá cả sản phẩm tự động (Trang 69)

Chương trình thu thập và bóc tách được thông tin từ web chứa sản phẩm, cụ thể:

Kiểm nghiệm

Kiểm tra kết quả của hệ thống với 5 site ngẫu nhiên của Việt Nam

 http://www.phanhoadigi.com.vn

 http://hoanghamobile.com

 http://www.huyen.com.vn

 http://www.quangmobile.com.vn

Số sản phẩm bóc tách được là trên 1000 sản phẩm khác nhau (không tính đến các sản phẩm trùng nhau của các cửa hàng, và các sản phẩm đã bị loại bỏ do không có thông tin về giá cả). Chương trình đang được kiểm nghiệm sản phẩm trên thực tế nhiều hơn để tìm ra các điểm yếu và có một kết quả chính xác, toàn diện hơn.

Tính trên các sản phẩm đã bóc tách được, so sánh với số lượng sản phẩm thống kê bằng tay trên Website của các cửa hàng chắc chắn đạt trung bình trên 80%. Lí do không thể đưa ra con số chính xác là vì trong các lần thực hiện crawler có nhiều yếu tố ảnh hưởng đến kết quả

− Sự ổn định của đường truyền mạng

− Khả năng của Web Server đang hosting các trang bán hàng, nếu máy chủ Web không mạnh thì trong thời gian crawler số lượng yêu cầu gửi đến lớn sẽ làm dữ liệu trả về có sai sót (bị thiếu một số response).

− Một số lỗi tiềm tàng, nên chương trình vẫn tiếp tục thử nghiệm để tìm ra các lỗi, cải tiến để đạt được kết quả tốt hơn.

Tùy thuộc vào thời điểm chạy cập nhật, thời gian chạy có thể lâu hoặc nhanh hơn (do các máy chủ đang xử lí nhiều hay ít nên các dữ liệu trả về nhanh hay chậm).

Qua thực nghiệm cho thấy rằng, một số điểm có thể tối ưu thời gian, đó là khi thực hiện cập nhật với một cửa hàng, ban đầu luồng crawler cũng chạy nhanh hơn so với luồng bóc tách tức là kết quả thu được nhiều hơn khả năng xử lí của extractor. Càng về cuối do xác suất gặp URL mới thấp đi nên luồng crawler cho số lượng kết quả ít dần và luồng bóc tách thường phải chờ dữ liệu từ luồng crawler.

Độ chính xác của các dữ liệu bóc tách được vào khoảng 93%. Trong số này các sản phẩm sai rơi vào các tình huống sau

− Trường tên sai, hoặc bị nhầm sang trường giá cả

− Trường giá bị nhận dạng sai dẫn đến một số giá vô lí

Sau đây là một số tổng hợp về kết quả thực nghiệm đối với mô đun bóc tách dữ liệu (bản demo) URL Số sản phẩm thực tế Số sản phẩm có đủ thông tin Số sản phẩm bóc tách được Số sản phẩm bóc tách chính xác (1) 10 10 10 10 (2) 16 16 16 16 (3) 99 85 85 85 (4) 6 6 6 6 (5) 18 18 16 15

(6) 7 6 6 6 (7) 30 30 30 30 (8) 30 27 27 26 (1) http://hoanghamobile.com/Search.aspx?ManufacturerName=Nokia (2) http://khongday.com.vn/ (3) http://tienthanhphone.com/ (4) http://www.phanhoadigi.com.vn (5) http://dienthoaididong.com.vn/ (6) http://www.quangmobile.com.vn/ (7) http://www.huyen.com.vn (8) http://www.trananh.vn/Dien-thoai.9.mobile.html Đây là kết quả bóc tách được của trang:

http://www.quangmobile.com.vn/?mod=product&cid=1

Hình ảnh Tên sản phẩm Giá cả

cp/upload/small_img/1260244372_6760-slide.jpg Nokia 6760 slide 4850000

cp/upload/small_img/1260073195_nho.jpg Nokia 3710 fold 3650000

cp/upload/small_img/1259835322_x3.jpg Nokia X3 3100000

cp/upload/small_img/1259294392_3720 nho.jpg Nokia 3720 classic 3050000

cp/upload/small_img/1258863012_5230 nho.jpg Nokia 5230 4280000

cp/upload/small_img/1258371364_N97-mini_1.jpg Nokia N97 mini 10990000

cp/upload/small_img/1258369515_E72 brown.jpg Nokia E72 Gray 8390000

cp/upload/small_img/1258369281_Nokia-E72 den.jpg Nokia E72 Black 8390000

cp/upload/small_img/1258369198_E72.jpg Nokia E72 Brown 8450000

cp/upload/small_img/1254569339_2730-classic.jpg Nokia 2730 classic 1990000

cp/upload/small_img/1253105348_11.jpg Nokia 2720 fold 1390000

cp/upload/small_img/1252928643_5530 mho.jpg Nokia 5530

XpressMusic 4690000

cp/upload/small_img/1249963406_6710_Navigator_n.jpg Nokia 6710

Navigator 7080000

cp/upload/small_img/1248849565_6730-classic.jpg Nokia 6730 Classic 4550000 cp/upload/small_img/1247805229_6720classic.jpg Nokia 6720 Classic 4950000 cp/upload/small_img/1247746324_5630_XpressMusic.jpg Nokia 5630 Xpress

Music 4480000

cp/upload/small_img/1247029426_2700.jpg Nokia 2700 Classic 1750000

XpressMusic

cp/upload/small_img/1246020743_n97.jpg Nokia N97 Black 11750000

cp/upload/small_img/1245508734_images.jpg Nokia N97 Whtie 11750000

cp/upload/small_img/1244983025_8800_Gold_Arte2.jpg Nokia 8800 Gold

Arte 27650000

cp/upload/small_img/1244956047_E75do.jpg Nokia E75 Red 6900000

cp/upload/small_img/1244956207_e753.jpg Nokia E75 Sive 6900000

cp/upload/small_img/1247976001_1_241_small_Nokia_2

323_classic_1.jpg Nokia 2323 Classic 990000

cp/upload/small_img/1244956069_E75vang.jpg Nokia E75 6900000

cp/upload/small_img/1238040815_1.jpg Nokia E71 Red 6390000

cp/upload/small_img/1240807990_black-nokia-e71.jpg Nokia E71 Full

Black 6390000

cp/upload/small_img/1224511231_modle1445.jpg Nokia E71 Sive 6390000

cp/upload/small_img/1220597361_E71_01.jpg Nokia E71 White 6390000

cp/upload/small_img/1243746358_2330.jpg Nokia 2330 Classic 1180000

cp/upload/small_img/1243931427_1_259_small_Nokia50 30_XpressRadio_1.jpg

Nokia 5030

XpressRadio 890000

cp/upload/small_img/1245907304_E63.jpg Nokia E63 Red 4490000

cp/upload/small_img/1245907221_images.jpg Nokia E63 Black 4490000

cp/upload/small_img/1244956415_images.jpg Nokia E63 Blue 4490000

cp/upload/small_img/1244956472_7510.jpg Nokia 7510 Nova 3480000

cp/upload/small_img/1235797874_1202.jpg Nokia 1202 490000 cp/upload/small_img/1221817256_NokiaN85n.jpg Nokia N85_8Gb 7150000 cp/upload/small_img/1202980646_N96.jpg Nokia N96 9250000 cp/upload/small_img/1224511369_8800_1.jpg 8800 Carbon 22950000 cp/upload/small_img/1239858528_1_240_small_Nokia_1 661_1.jpg Nokia 1661 730000

cp/upload/small_img/1218986683_nokia-8800narte.jpg Nokia 8800 Arte 17450000

KẾT LUẬN

Luận văn đã trình bày tổng quan về những vấn đề khai phá dữ liệu nói chung và khai phá web nói riêng. Tiếp đó luận văn đã trình bày những cơ sở lý thuyết về cấu trúc dữ liệu web và những thuật toán cho phép nhận được các cấu trúc dữ liệu từ các trang web đa dạng

Từ những cơ sở lý thuyết ở trên, đề tài tập trung phát triển hệ thống bóc tách tự động các dữ liệu của sản phẩm như tên, giá cả, hình ảnh từ các site khác nhau chứa các dữ liệu về sản phẩm. Với mục tiêu đặt ra trên, hệ thống được xây dựng đã đạt đến độ chính xác cao. Cụ thể là, các sản phẩm được bóc tách từ 8 site chọn ngẫu nhiên chứa các dữ liệu về sản phẩm đã đạt được độ chính xác 93% so với các dữ liệu đầu vào có trong các trang web.

Để đạt được kết quả trên, luận văn đã sử dụng lý thuyết về khoảng cách soạn thảo cây để đưa ra thuật toán bóc tách thông tin. Ngoài ra, chương trình cũng sử dụng kết quả là các mẫu hàm đã được xây dựng trong MSHTML. (Bộ mã nguồn mở do tác giả Simon Morier công bố) để phát triển hệ thống của mình.

Tuy nhiên, trong hệ thống mới xây dựng được các module chính là thu thập và bóc tách dữ liệu, còn các mô đun khác liên quan đến việc cung cấp giao diện người dùng ở mức tiện ích mới dừng lại ở phân tích và thiết kế.

Mặc dù đã có những kết quả thiết thực, hệ thống đã xây dựng cần tiếp tục hoàn thiện và mở rộng với các hướng sau:

− Hoàn thiện các môđun Web, môđun quản trị.

− Hoàn thiện hệ thống phân loại các sản phẩm tự động sau bóc tách.

− Triển khai hệ thống trên nền tảng xử lí phân tán để có thể đáp ứng với các nhu cầu lớn.

− Thiết kế hệ thống thu phí dịch vụ cung cấp thông tin cho người sử dụng.

Nếu hoàn thiện được với các mục tiêu trên thì sản phẩm sẽ có tính thương mại rất cao và được sử dụng rộng rãi trong thực tế.

TÀI LIỆU THAM KHẢO

Tiếng Việt

1. Nguyễn Đức Cường (2005), “Tổng quan về Khai phá dữ liệu”, Kỷ yếu Hội nghị Khoa học & Công nghệ lần thứ 9, ĐH Bách Khoa Tp. HCM, Phân ban CNTT,

tr. 2- 4.

2. Nguyễn Ngọc Long (2005), Khai phá dữ liệu sử dụng luật kết hợp, Luận văn Thạc sĩ, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, tr.18-32.

Tiếng Anh

3. Bing Liu, Robert Grossman, Yanhong Zhai (2003), Mining Data Records in Web Pages, Department of Computer Science University of Illinois at Chicago, Morgan Street, Chicago, USA.

4. Bing Liu and Yanhong Zhai (2005), NET − A System for Extracting Web Data from Flat and Nested Data Records, Department of Computer Science University of Illinois at Chicago, Morgan Street, Chicago, USA.

5. Bing Liu (2005) Web Content Mining”,The 14th International World Wide Web Conference 2005, Chiba, Japan, pp. 32-50.

6. Lizhen Liu, Junjie Chen, Hantao Song (2002), “The research of Web Mining”,

Proceedings of the 4th World Congress on Intelligent Control and Automation,

Shanghai, China.

7. Soumen Chakrabarti (2003), Mining the Web, Elsevier Science,USA.

8. Yanhong Zhai, Bing Liu (2005), Web Data Extraction Based on Partial Tree Alignmen, Department of Computer Science University of Illinois at Chicago, Morgan Street, Chicago, USA.

9. Yanhong Zhai, Bing Liu (2005), Extracting Web Data Using Instance-Based Learning, Department of Computer Science University of Illinois at Chicago, Morgan Street, Chicago, USA.

10. http://codeproject.com

11. http://codeguru.com

Sản phẩm có liên quan

Một phần của tài liệu Hệ thống bóc tách giá cả sản phẩm tự động (Trang 69)

Tải bản đầy đủ (PDF)

(74 trang)