Thực nghiệm thu thập và trích xuất thông tin từ một website

Một phần của tài liệu LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx (Trang 63 - 71)

Mô tả thực nghiệm

Mục đích của thực nghiệm này để kiểm nghiệm phương pháp trích xuất thông tin sản phẩm nêu ở “bài toán tựđộng trích xuất tên và giá của sản phẩm” trong muc 3.3.3. Thực nghiệm này cũng giúp đánh giá được tính chính xác của các mẫu trích xuất trong thực nghiệm 4.3.2

- Đầu vào : Website kinh doanh và các mẫu trích xuất tương ứng với wesite đó ở

thực nghiệm xác định website kinh doanh.

- Đầu ra : Tên sản phẩm và giá của các sản phẩm .

Dữ liệu sử dụng

Trong thực nghiệm này chúng tôi sẽ sử dụng 2 website trong thực nghiệm 2:

- www.dienthoaididong.com.vn

- www.trananh.vn

Hai website kinh doanh sẽđược thu thập dữ liệu, với số lượng 5000 tài liệu trên một website và trích xuất dữ liệu từ tập dữ liệu này dựa vào các mẫu trích xuất tương ứng với từng website đó.

53

Kết quả thực nghiệm được mô tả thông qua bảng 6.

Bảng 6. Kết quả thực nghiệm trích xuất sản phẩm

Website Kết quả trích xuất được

www.dienthoaididong.com.vn 743 sản phẩm

www.trananh.vn 416 sản phẩm

Nhận xét

Số lượng sản phẩm trích xuất được là khá nhiều. Trong số những sản phẩm trích xuất được thì tất cả những sản phẩm đó đều chính xác, điều đó cho thấy phương pháp trích xuất thông tin này chính xác.

Tuy nhiên trong 416 sản phẩm của website www.trananh.vn thì chỉ có các sản phẩm về điện thoại di động trong khi website này còn có những sản phẩm về máy vi tính, nguyên nhân của kết quả này là do sản phẩm trên tập hạt giống đều là tên của các loại

điện thoại di động và khuôn mẫu của lĩnh vực điện thoại và máy tính ở website này là khác nhau.

4.2.4 Thực nghiệm khả năng thu thập thông tin của hệ thống Mô tả thực nghiệm

Mục đích thực nghiệm này là đánh giá khả năng thu thập thông tin về tên và giá sản phẩm của hệ thống

- Đầu vào: Tập hạt giống tên sản phẩm

- Đầu ra: Tên và giá của những sản phẩm có thể trích xuất được.

Dữ liệu thực nghiệm

Tên sản phẩm trong tập hạt giống được lấy từ trang vatgia.com [19]. Các tên sản phẩm này được phân bố đều nhiều loại sản phẩm như: điện thoại, máy tính, máy ảnh, trang sức, đồ gia dụng…

54

Kết quả thực nghiệm được mô tả thông qua bảng 7 dưới đây.

Bảng 7. Kết quả thực nghiệm khả năng thu thập thông tin của hệ thống

Số lượng tên sản phẩm trong tập hạt giống

Số lượng website kinh doanh được xác định (adsbygoogle = window.adsbygoogle || []).push({});

Số lượng sản phẩm trích xuất được

334 sản phẩm 125 trang kinh doanh (phụ lục 2)

47.856 sản phẩm, trong đó có 34.012 sản phẩm không trùng

nhau

Nhận xét:

Kết quả này cho thấy khả năng thu thập thông tin trong hệ thống đạt hiệu quả tốt. Số

lượng sản phẩm được hệ thống trích xuất được là lớn, những sản phẩm này cũng dàn trải trên nhiều chủng loại . Một số sản phẩm tiêu biểu được minh họa bởi bảng 8.

Bảng 8. Một số sản phẩm trích xuất được

Tên sản phẩm Giá sản phẩm Chủng loại

nokia 2680 slide 1,530,000 vnđ Điện thoại di động canon powershot g10 8.645.000 vnđ Máy ảnh kỹ thuật số

dell inspiron mini 9 - r560921vn ( pc

- dos ) 8,029,000 vnđ

Máy laptop

Comple nam hiệu Cavil Klein 14.560.000 vnđ Thời trang Phấn trang điểm - Ohui 575.000 vnđ Mỹ phẩm

55

Kết lun

Kết quả đạt được của khóa luận này

Từ việc nghiên cứu bài toán trích xuất thông tin cho dữ liệu bán cấu trúc, khóa luận

đã đưa ra phương pháp tự động trích xuất giá của sản phẩm. Qua những kết quả thực nghiệm đạt được cho thấy tính hữu dụng của phương pháp này.

Về mặt nội dung, khóa luận đã đạt được những kết quả sau:

- Trình bày khái niệm, miền dữ liệu và các hướng tiếp cận của bài toán trích xuất thông tin trên Web

- Nghiên cứu bài toán trích xuất thông tin cho dữ liệu bán cấu trúc: Nêu được những phương pháp sử dụng trong việc trích xuất, giới thiệu hai giải thuật trích xuất Stalker và Roadrunner đồng thời phân tích những ưu nhược điểm của các giải thuật này nhằm xây dựng phương pháp phù hợp để giải quyết bài toán trích xuất thông tin giá sản phẩm.

- Xây dựng được tập luật để trích xuất giá khi biết tên sản phẩm trong một trang web, ngoài ra khóa luận cũng xây dựng được các tập luật để trích xuất ảnh, thông tin bảo hành của sản phẩm.

- Xây dựng được mô hình hệ thống tìm kiếm giá cả sản phẩm dựa vào cơ sở lý thuyết của bài toán trích xuất thông tin giá sản phẩm.

- Xây dựng được module trích xuất giá sản khi biết tên sản phẩm.

- Xây dựng module xác định website kinh doanh sản phẩm.

- Xây dựng được module trích xuất thông tin về tên và giá sản phẩm trong một website kinh doanh sản phẩm thông qua các mẫu trích xuất.

- Xây dựng được chương trình để thi hành được bài toán trích xuất thông tin giá cả sản phẩm và đạt được kết quả khả quan trong việc thu thập thông tin.

56

Bên cạnh những, do hạn chế về mặt thời gian và kiến thức khóa luận vẫn còn hạn chế sau: (adsbygoogle = window.adsbygoogle || []).push({});

- Khóa luận chưa xây dựng được giao diện người dùng và kết quả thực nghiệm xác định giá thực của một sản phẩm cho trước chưa đạt độ chính xác như mong muốn.

Định hướng tương lai

Trong tương lai, khóa luận sẽ tiếp tục hoàn thiện những hạn chế nên trên, đồng thời cũng cố gắng để công bố hệ thống này để phục vụ cho người sử dụng.

57

Tài liu tham kho

[1]. Andrew Carlson and Charles Schafer, Bootstrapping Information Extraction from Semi-structured Web Pages, ECML/PKDD, 2008.

[2]. Bing Liu, Web Data Mining Exploring Hyperlinks, Contents, and Usage Data, http://www.cs.uic.edu/~liub/WebMiningBook.html ,December, 2006.

[3]. Elwin Chai, Rick Jones, Automated Price Comparison Shopping Search Engine _ PriceHunter, CSE,2001

[4]. Irmak, and T. Suel, Interactive Wrapper Generation with Minimal User Effort. In Proc. of the 15th Intl. Conf. on World Wide Web (WWW'06), 2006.

[5]. I. Muslea, S. Minton, and C. A. Knoblock. A Hierarchical Approach to Wrapper Induction. In Proc. of the Intl. Conf. on Autonomous Agents (AGENTS’99), pp. 190– 197, 1999.

[6]. Jaeyoung Yang, Heekuck Oh, Kyung-Goo Doh and Joongmin Choi A ,Knowledge- Based Information Extraction System for Semi-structured Labeled Documents, Proceedings of the Third International Conference on Intelligent Data Engineering and Automated Learning, 2002

[7]. Robert Bo Doorenbos, Oren Etzioni, and Daniel So Weld, A Scalable Comparison- Shopping Agent for the World-Wide Web,

www.cs.washington.edu/homes/etzioni/papers/agents97.pdf, 1997

[8]. Sergey Brin, Extracting Patterns and Relations from the World Wide Web, WebDB Workshop at 6th International Conference on Extending Database Technology, 1998

[9]. S. Debnath, P. Mitra, N. Pal, and C. L. Giles. Automatic Identification of Informative , IEEE Trans. Knowl. Data Eng. 17 , 2005

[10]. S. Debnath, P. Mitra, and C. L. Giles. Automatic extraction of informative blocks from webpages. In Proc. SAC, pages 1722-1726, 2005.

58

[12]. V. Crescenzi, G. Mecca, and P. Merialdo. Roadrunner: Towards Automatic Data Extraction from Large Web Sites.In Proc. of Very Large Data Bases (VLDB’01), pp.109–118, 2001.

[13]. WIEN N. Kushmerick. Wrapper Induction for Information Extraction. Ph.D Thesis. Dept. of Computer Science, University of Washington, TR UW-CSE-97-11- 04, 1997

[14]. W. Cohen, M. Hurst, and L. S. Jensen. A Flexible Learning System for Wrapping Tables and Lists in Html Documents. In Proc. of the 11th Intl. World Wide Web Conf. (WWW’02), pp. 232–241, 2002. [15]. http://www.w3.org/DOM/ [16]. http://www.w3.org/TR/xpath [17]. http://www.dcs.bbk.ac.uk/~ptw/teaching/ssd/toc.html [18]. http://en.wikipedia.org/wiki/Price_comparison_service [19]. http://www.vatgia.com

59

Phụ lục

Phụ lục 1: Danh sách một số website được khảo sát đặc trưng của giá sản phẩm Địa chỉ website www.amazon.com www.jr.com www.imobilecellphones.com www.220depot.com www.trananh.vn www.vatgia.com www.rongbay.com www.vinabook.com www.sieuthitrangsuc.com www.aodaiminhthu.com www.goodsmart.vn

60

Phụ lục 2: Danh sách một số website kinh doanh xác định được trong thực nghiệm 4.4.4 Địa chỉ website www.ducminhmobile.net www.gsmserver.com www.gounlock.com www.123mua.com.vn www.dienthoaididong.com.vn www.vatgia.com www.aha.vn www.chodientu.vn www.raovat.net www.trananh.vn www.megabuy.vn

Một phần của tài liệu LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx (Trang 63 - 71)