Thực nghiệm thu thập và trích xuất thông tin từ một website

Một phần của tài liệu bài toán trích xuất thông tin cho dữ liệu bán cấu trúc và áp dụng xây dựng hệ thống tìm kiếm giá cả sản phẩm (Trang 63)

Mô tả thực nghiệm

Mục đích của thực nghiệm này để kiểm nghiệm phương pháp trích xuất thông tin sản phẩm nêu ở “bài toán tựđộng trích xuất tên và giá của sản phẩm” trong muc 3.3.3. Thực nghiệm này cũng giúp đánh giá được tính chính xác của các mẫu trích xuất trong thực nghiệm 4.3.2

-Đầu vào : Website kinh doanh và các mẫu trích xuất tương ứng với wesite đó ở thực nghiệm xác định website kinh doanh.

- Đầu ra : Tên sản phẩm và giá của các sản phẩm .

Dữ liệu sử dụng

Trong thực nghiệm này chúng tôi sẽ sử dụng 2 website trong thực nghiệm 2:

- www.dienthoaididong.com.vn

- www.trananh.vn

Hai website kinh doanh sẽđược thu thập dữ liệu, với số lượng 5000 tài liệu trên một website và trích xuất dữ liệu từ tập dữ liệu này dựa vào các mẫu trích xuất tương ứng với từng website đó.

53 Bng 6. Kết qu thc nghim trích xut sn phm Website Kết quả trích xuất được www.dienthoaididong.com.vn 743 sản phẩm www.trananh.vn 416 sản phẩm Nhận xét

Số lượng sản phẩm trích xuất được là khá nhiều. Trong số những sản phẩm trích xuất được thì tất cả những sản phẩm đó đều chính xác, điều đó cho thấy phương pháp trích xuất thông tin này chính xác.

Tuy nhiên trong 416 sản phẩm của website www.trananh.vn thì chỉ có các sản phẩm về điện thoại di động trong khi website này còn có những sản phẩm về máy vi tính, nguyên nhân của kết quả này là do sản phẩm trên tập hạt giống đều là tên của các loại điện thoại di động và khuôn mẫu của lĩnh vực điện thoại và máy tính ở website này là khác nhau.

4.2.4 Thực nghiệm khả năng thu thập thông tin của hệ thống

Mô tả thực nghiệm

Mục đích thực nghiệm này là đánh giá khả năng thu thập thông tin về tên và giá sản phẩm của hệ thống

- Đầu vào: Tập hạt giống tên sản phẩm

- Đầu ra: Tên và giá của những sản phẩm có thể trích xuất được.

Dữ liệu thực nghiệm

Tên sản phẩm trong tập hạt giống được lấy từ trang vatgia.comError! Reference source not found.. Các tên sản phẩm này được phân bố đều nhiều loại sản phẩm như: điện thoại, máy tính, máy ảnh, trang sức, đồ gia dụng…

54

Bng 7. Kết qu thc nghim kh năng thu thp thông tin ca h thng

Số lượng tên sản phẩm trong tập hạt giống

Số lượng website kinh doanh được xác định

Số lượng sản phẩm trích xuất được

334 sản phẩm 125 trang kinh doanh (phụ lục 2)

47.856 sản phẩm, trong đó có 34.012 sản phẩm không trùng

nhau

Nhận xét:

Những sản phẩm trích xuất được cũng dàn trải trên nhiều lĩnh vực như tập hạt giống. Ví dụ một số sản phẩm tiêu biểu như:

Bng 8. Mt s sn phm trích xut được

Tên sản phẩm Giá sản phẩm (adsbygoogle = window.adsbygoogle || []).push({});

nokia 2680 slide 1,530,000 vnđ

canon powershot g10 8.645.000 vnđ

dell inspiron mini 9 - r560921vn ( pc - dos ) 8,029,000 vnđ

Comple nam hiệu Cavil Klein 14.560.000 vnđ

Phấn trang điểm - Ohui 575.000 vnđ

55

Kết lun

Kết quả đạt được của khóa luận này

Từ việc nghiên cứu bài toán trích xuất thông tin cho dữ liệu bán cấu trúc, khóa luận đã đưa ra phương pháp tự động trích xuất giá của sản phẩm. Qua những kết quả thực nghiệm đạt được cho thấy tính hữu dụng của phương pháp này.

Về mặt nội dung, khóa luận đã đạt được những kết quả sau:

- Giới thiệu bài toán trích xuất thông tin: Khái niệm, miền dữ liệu và các hướng tiếp cận của bài toán

- Nghiên cứu bài toán trích xuất thông tin cho dữ liệu bán cấu trúc: Nêu được những phương pháp sử dụng trong việc trích xuất, giới thiệu hai giải thuật trích xuất Stalker và Roadrunner đồng thời phân tích những ưu nhược điểm của các giải thuật này nhằm xây dựng phương pháp phù hợp để giải quyết bài toán trích xuất thông tin giá sản phẩm.

- Thông qua cơ sở lý thuyết để giải quyết bài toán trích xuất thông tin giá sản phẩm, khóa luận đã xây dựng được mô hình hệ thống tìm kiếm giá cả sản phẩm.

- Xây dựng được chương trình để thi hành được bài toán trích xuất thông tin giá cả sản phẩm trên ngôn ngữ Java, môi trường Eclipse để đánh giá được mô hình hệ thống đã xây dựng.

Bên cạnh những, do hạn chế về mặt thời gian và kiến thức khóa luận vẫn còn hạn chế sau:

- Khóa luận chưa xây dựng được giao diện người dùng và kết quả thực nghiệm xác định giá thực chưa đạt độ chính xác như mong muốn.

Định hướng tương lai

Trong tương lai, khóa luận sẽ tiếp tục hoàn thiện những hạn chế nên trên, đồng thời cũng cố gắng để công bố hệ thống này để phục vụ cho người sử dụng.

56

Tài liu tham kho

[1]. Andrew Carlson and Charles Schafer, Bootstrapping Information Extraction from

Semi-structured Web Pages, ECML/PKDD, 2008.

[2]. Bing Liu, Web Data Mining Exploring Hyperlinks, Contents, and Usage Data,

http://www.cs.uic.edu/~liub/WebMiningBook.html ,December, 2006.

[3]. Elwin Chai, Rick Jones, Automated Price Comparison Shopping Search Engine _

PriceHunter, CSE,2001

[4]. Irmak, and T. Suel, Interactive Wrapper Generation with Minimal User Effort. In Proc. of the 15th Intl. Conf. on World Wide Web (WWW'06), 2006.

[5]. I. Muslea, S. Minton, and C. A. Knoblock. A Hierarchical Approach to Wrapper

Induction. In Proc. of the Intl. Conf. on Autonomous Agents (AGENTS’99), pp. 190–

197, 1999. (adsbygoogle = window.adsbygoogle || []).push({});

[6]. Jaeyoung Yang, Heekuck Oh, Kyung-Goo Doh and Joongmin Choi A ,Knowledge-

Based Information Extraction System for Semi-structured Labeled Documents,

Proceedings of the Third International Conference on Intelligent Data Engineering and Automated Learning, 2002

[7]. Robert Bo Doorenbos, Oren Etzioni, and Daniel So Weld, A Scalable Comparison-

Shopping Agent for the World-Wide Web,

www.cs.washington.edu/homes/etzioni/papers/agents97.pdf, 1997

[8]. Sergey Brin, Extracting Patterns and Relations from the World Wide Web, WebDB Workshop at 6th International Conference on Extending Database Technology, 1998

[9]. S. Debnath, P. Mitra, N. Pal, and C. L. Giles. Automatic Identification of

Informative , IEEE Trans. Knowl. Data Eng. 17 , 2005

[10]. S. Debnath, P. Mitra, and C. L. Giles. Automatic extraction of informative blocks

from webpages. In Proc. SAC, pages 1722-1726, 2005.

57 [12]. V. Crescenzi, G. Mecca, and P. Merialdo. Roadrunner: Towards Automatic Data

Extraction from Large Web Sites.In Proc. of Very Large Data Bases (VLDB’01),

pp.109–118, 2001.

[13]. WIEN N. Kushmerick. Wrapper Induction for Information Extraction. Ph.D Thesis. Dept. of Computer Science, University of Washington, TR UW-CSE-97-11- 04, 1997

[14]. W. Cohen, M. Hurst, and L. S. Jensen. A Flexible Learning System for Wrapping

Tables and Lists in Html Documents. In Proc. of the 11th Intl. World Wide Web Conf.

(WWW’02), pp. 232–241, 2002. [15]. http://www.w3.org/DOM/ [16]. http://www.w3.org/TR/xpath

[17]. http://www.dcs.bbk.ac.uk/~ptw/teaching/ssd/toc.html [18]. http://en.wikipedia.org/wiki/Price_comparison_service

58 Phụ lục

Phụ lục 1: Danh sách một số website được khảo sát đặc trưng của giá sản phẩm Địa chỉ website www.amazon.com www.jr.com www.imobilecellphones.com www.220depot.com www.trananh.vn www.vatgia.com www.rongbay.com www.vinabook.com www.sieuthitrangsuc.com www.aodaiminhthu.com www.goodsmart.vn

59

Phụ lục 2: Danh sách một số website kinh doanh xác định được trong thực nghiệm 4.4.4 Địa chỉ website www.ducminhmobile.net www.gsmserver.com www.gounlock.com www.123mua.com.vn www.dienthoaididong.com.vn www.vatgia.com www.aha.vn www.chodientu.vn www.raovat.net www.trananh.vn www.megabuy.vn

Một phần của tài liệu bài toán trích xuất thông tin cho dữ liệu bán cấu trúc và áp dụng xây dựng hệ thống tìm kiếm giá cả sản phẩm (Trang 63)