Môi trường phần cứng và phần mề m

Một phần của tài liệu bài toán trích xuất thông tin cho dữ liệu bán cấu trúc và áp dụng xây dựng hệ thống tìm kiếm giá cả sản phẩm (Trang 52)

4.1.1 Cấu hình phần cứng

Bng 1. Cu hình phn cng s dng trong thc nghim

Thành phần Chỉ số

CPU Intel Celeron ® CPU 2.66 ghz

RAM 768 MB

OS WindowsXP Service Pack 2

Bộ nhớ ngoài 40GB 4.1.2 Công cụ phần mềm Bng 2.Các phn mm s dng trong thc nghim STT Tên phần mềm Tác giả Nguồn 1 Neko HTML Phân phối bởi Apache http://sourceforge.net/projects/ne kohtml 2 eclipse-SDK- 3.4.1-win32 http://www.eclipse.org/download s/

42 Với các công cụ phần mềm trên khóa luận đã xây dựng chương trình để thực thi trích xuất giá của sản phẩm. Cấu trúc chương trình được phân làm 3 gói (package) chính như sau:

• Crawler : chức năng chính của gói này đó là thu thập dữ liệu

• GettingPattern: Chức năng của gói này là xác định mẫu trích xuất thông tin về giá và tên sản phẩm của một trang web.

• Extracting: chức năng của gói này đó là trích là xác định các website kinh doanh và trích xuất tên, giá sản phẩm trong website đó.

43

Bng 3. Mô t chương trình thc thi để trích xut giá sn phm

Packages Classes Chức năng

Crawling Thu thập dữ liệu từ một website

SEProcessing Thu thập các url trả về từ truy vấn gửi đến google Crawler StandardHTML Loại bỏ một số thành phần không quan trọng trong mã HTML như các đoạn mã SCRIPT, STYLE …

ParserHTML Phân tích mã HTML sang dạng cây

DOM (sử dụng NekoHTML) GettingXPath Xác định tất cả các mẫu trích xuất trỏ đến tên và giá sản phẩm. GettingPattern ProcessingXPath Xác định được mẫu trích xuất chính xác tên và giá sản phẩm.

GettingWebsite Xác định được website kinh doanh sản phẩm và mẫu trích xuất của website đó Extracting

ExtractingInformation

Trích xuất thông tin về tên, giá các sản phẩm trong các website kinh doanh sản phẩm

44

4.2 Kết qu thc nghim

4.2.1 Thực nghiệm trích xuất giá của một sản phẩm cho trước

Mô tả thực nghiệm

Mục đích của thực nghiệm này để kiểm nghiệm tính đúng đắn của “bài toán xác định giá thực của sản phẩm” bằng các luật nêu ở mục 3.3.2.

- Đầu vào : Tên sản phẩm và trang web chứa tên sản phẩm đó.

- Đầu ra : Giá của sản phẩm nếu trang web có chứa giá.

Dữ liệu thực nghiệm

- Dữ liệu để trích xuất giá của một sản phẩm được thu thập thông qua máy tìm kiếm google.

- Với một tên sản phẩm cho trước, ta sẽ tạo ra truy vấn gửi đến máy tìm kiếm. (adsbygoogle = window.adsbygoogle || []).push({});

o Ví dụ:

Với tên sản phẩm máy ảnh “Canon PowerShot G10” thì truy vấn gửi đến máy tìm kiếm sẽ là : “Canon PowerShot G10” + “VNĐ OR USD”

- Lấy một lượng kết quả trả vềđầu tiên của máy tìm kiếm, ta sẽ trích xuất được tập các url từ kết quảđó

o Ví dụ:

Ứng với truy vấn “Canon PowerShot G10” + “VNĐ OR USD” thì 5 kết quảđầu tiên trả về thông qua máy tìm kiếm google và các url tương ứng được mô tả trong hình dưới đây :

45

Hình 26. Trích xut các URL liên quan

- Sau đó các url này sẽđược chuẩn hóa về dạng chuẩn và được tải dữ liệu trang web đó về.

- Dữ liệu được tải về được cho qua module trích xuất giá để sinh ra giá của sản phẩm.

Ví dụ:

Tương ứng với 5 URL trên thì kết quả trích xuất được sẽ là:

- http://www.vatgia.com/319/257728/canon-powershot-g10.html

o Product: canon powershot g10 Price:8.008.000 vnđ (440,00 usd)

URL trích xuất

46

- http://www.raovatmienphi.com/canon-powershot-g10-gia-490-usd.html

o Product: canon powershot g10 Price: giá 490 usd

- http://www.123mua.com.vn/xem?sp=RXGQRVfReX

o Product: canon powershot g10 Price:644 sd

- http://enbac.com/Ky-thuat-so/p167975/May-chup-hinh-Canon-PowerShot-

G10.html

o Product: máy chụp hình canon powershot g10 Price:8.550.000vnđ

- http://www.megabuy.vn/?a=NEWS&news=DETA&hdn_news_id=10434

o Product: canon powershot g10 Price:665 usd

Kết quả thực nghiệm

Khóa luận đã thực nghiệm trên tập các sản phẩm: nokia 1200, lenovo thinkpad t61, canon powershot g103; mỗi sản phẩm này sẽ thực nghiệm trên 3 trường hợp tương ứng với số lượng 10, 30, 100 kết quả mà google trả về. Đểđánh giá kết quả thực nghiệm khóa luận này đã sử dụng độđo hồi tưởng (R) và độ tin cậy (P). Kết quả thực nghiệm được mô tả theo bảng sau:

47 Bng 4. Kết qu thc nghim trích xut giá thc ca mt sn phm Tên sản phẩm Query Số lượng kết quả trả về bởi google Kết quả thực tế đúng Kết quả trích xuất được Kết quả đúng Thời gian thực thi Độ hồi tưởng Độ tin cậy 10 8 8 8 37,45 s 100% 100% 30 23 26 23 147,4 3s 100% 88,46% Nokia 1200 “Nokia 1200” + “VNĐ OR USD” 100 68 70 67 407,1 7s 98,53 % 95,71 % 10 10 10 9 39,67s 90% 90% 30 23 25 22 125,2 5s 95,6% 88% Lenovo Thinkpad t61 “Lenovo Thinkpad t61” + “VNĐ OR USD” 100 43 46 40 1200s 93,02% 86,95% 10 9 9 9 52,92s 100% 100% 30 19 21 18 86,91s 94,74 % 85,71 % Canon PowerShot G10 “Canon PowerSho t G10” + “VNĐ OR USD” 100 45 50 44 263,3 3s 97,78% 88%

48

Nhận xét (adsbygoogle = window.adsbygoogle || []).push({});

Với tất cả các kết quả đạt được thì ta có thể thấy rằng độ tin cậy thấp hơn độ hồi tưởng. Sở dĩ có kết quả như vậy bởi vì: Có một vài trường hợp giá xuất hiện quá nhập nhằng.

Ví dụ:

Hình 27. Trang Web có s nhp nhng giá c

Với trường hợp này có thể nhận dạng nhầm thành: “nokia 1200” có giá: “599.000

đồng

Thực tế thì nó lại muốn cung cấp thông tin về “nokia 1202” có giá: “599.000

đồng

Độ hồi tưởng cao bởi vì hầu như các trang có giá đúng thì có thể trích xuất được chính xác. Giá đúng là giá mà thể hiện là giá thực của sản phẩm.

49

Hình 28. Trang Web có giá c rõ ràng

Kết quả trích xuất được sẽ là:

Tên sản phẩm: nokia 1200 black , Giá sản phẩm: 520,000 vnđ

4.2.2 Thực nghiệm xác định website kinh doanh

Mô tả thực nghiệm

Mục đích của thực nghiệm này là kiểm nghiệm sự chính xác và khả năng xác định được các trang kinh doanh sản phẩm từ tập hạt giống tên sản phẩm ban đầu của bài toán “tựđộng trích xuất thông tin về tên và giá của sản phẩm” trong mục 3.3.3

- Đầu vào : Một tập hạt giống tên các sản phẩm.

- Đầu ra : Website kinh doanh sản phẩm có bán những sản phẩm trong tập hạt giống đó và các mẫu trích xuất tương ứng với website.

Dữ liệu thực nghiệm

- Tập hạt giống tên sản phẩm cho trước.

50

- Tạo truy vấn từ tên các sản phẩm ở tập hạt giống, gửi tới google, để thu được các trang liên quan

- Tải các trang liên quan đến sản phẩm và xác định được các mẫu trích xuất thông tin sản phẩm, ta sẽ thu được một bộ (Website, mẫu_trích_tên sản phẩm, mẫu_trích_giá sản phẩm)

Xác định sự trùng lặp của các bộ, nếu một bộ trùng lặp nhiều lần, thì website trong bộ đó là website kinh doanh và các mẫu trích xuất trong bộ là mẫu trích xuất có thể áp dụng cho website này.

Kết quả thực nghiệm

Với tập hạt giống gồm 4 tên sản phẩm như sau :

- nokia 1200

- nokia e71 white steel

- nokia 1202

- nokia 6300 silver

51 (adsbygoogle = window.adsbygoogle || []).push({});

Bng 5. Kết qu thc nghim xác định website kinh doanh sn phm

Số lượng kết quả từ google trả về Thời gian chạy Domain bán hàng nhận được 10 288,84s www.123mua.com.vn www.vatgia.com www.chodientu.vn www.vinacms.vn 30 708s www.123mua.com.vn www.vatgia.com www.chodientu.vn www.vinacms.vn www.enbac.com 100 3638.76s www.123mua.com.vn www.vatgia.com www.chodientu.vn www.vinacms.vn www.enbac.com www.quangcaosanpham.com www.dienthoaididong.com.vn www.aha.vn www.trananh.vn

52

Nhận xét

Kết quảđạt được là khả quan. Trong các website mà hệ thống xác định được thì tất cảđều là website kinh doanh sản phẩm.

Tương ứng với các trường hợp :

- google trả về là 10 thì nhận dạng được 4 website

- google trả về là 30 thì nhận dạng được 5 website

- google trả về là 100 thì nhận dạng được 10 website

Tuy nhiên do số lượng tập hạt giống ban đầu mới chỉ có 4 tên sản phẩm nên số lượng website kinh doanh sản phẩm nhận dạng được vẫn còn ít.

4.2.3 Thực nghiệm thu thập và trích xuất thông tin từ một website

Mô tả thực nghiệm

Mục đích của thực nghiệm này để kiểm nghiệm phương pháp trích xuất thông tin sản phẩm nêu ở “bài toán tựđộng trích xuất tên và giá của sản phẩm” trong muc 3.3.3. Thực nghiệm này cũng giúp đánh giá được tính chính xác của các mẫu trích xuất trong thực nghiệm 4.3.2

-Đầu vào : Website kinh doanh và các mẫu trích xuất tương ứng với wesite đó ở thực nghiệm xác định website kinh doanh.

- Đầu ra : Tên sản phẩm và giá của các sản phẩm .

Dữ liệu sử dụng

Trong thực nghiệm này chúng tôi sẽ sử dụng 2 website trong thực nghiệm 2:

- www.dienthoaididong.com.vn

- www.trananh.vn

Hai website kinh doanh sẽđược thu thập dữ liệu, với số lượng 5000 tài liệu trên một website và trích xuất dữ liệu từ tập dữ liệu này dựa vào các mẫu trích xuất tương ứng với từng website đó.

53 Bng 6. Kết qu thc nghim trích xut sn phm Website Kết quả trích xuất được www.dienthoaididong.com.vn 743 sản phẩm www.trananh.vn 416 sản phẩm Nhận xét

Số lượng sản phẩm trích xuất được là khá nhiều. Trong số những sản phẩm trích xuất được thì tất cả những sản phẩm đó đều chính xác, điều đó cho thấy phương pháp trích xuất thông tin này chính xác.

Tuy nhiên trong 416 sản phẩm của website www.trananh.vn thì chỉ có các sản phẩm về điện thoại di động trong khi website này còn có những sản phẩm về máy vi tính, nguyên nhân của kết quả này là do sản phẩm trên tập hạt giống đều là tên của các loại điện thoại di động và khuôn mẫu của lĩnh vực điện thoại và máy tính ở website này là khác nhau.

4.2.4 Thực nghiệm khả năng thu thập thông tin của hệ thống

Mô tả thực nghiệm

Mục đích thực nghiệm này là đánh giá khả năng thu thập thông tin về tên và giá sản phẩm của hệ thống

- Đầu vào: Tập hạt giống tên sản phẩm

- Đầu ra: Tên và giá của những sản phẩm có thể trích xuất được.

Dữ liệu thực nghiệm

Tên sản phẩm trong tập hạt giống được lấy từ trang vatgia.comError! Reference source not found.. Các tên sản phẩm này được phân bố đều nhiều loại sản phẩm như: điện thoại, máy tính, máy ảnh, trang sức, đồ gia dụng… (adsbygoogle = window.adsbygoogle || []).push({});

54

Bng 7. Kết qu thc nghim kh năng thu thp thông tin ca h thng

Số lượng tên sản phẩm trong tập hạt giống

Số lượng website kinh doanh được xác định

Số lượng sản phẩm trích xuất được

334 sản phẩm 125 trang kinh doanh (phụ lục 2)

47.856 sản phẩm, trong đó có 34.012 sản phẩm không trùng

nhau

Nhận xét:

Những sản phẩm trích xuất được cũng dàn trải trên nhiều lĩnh vực như tập hạt giống. Ví dụ một số sản phẩm tiêu biểu như:

Bng 8. Mt s sn phm trích xut được

Tên sản phẩm Giá sản phẩm

nokia 2680 slide 1,530,000 vnđ

canon powershot g10 8.645.000 vnđ

dell inspiron mini 9 - r560921vn ( pc - dos ) 8,029,000 vnđ

Comple nam hiệu Cavil Klein 14.560.000 vnđ

Phấn trang điểm - Ohui 575.000 vnđ

55

Kết lun

Kết quả đạt được của khóa luận này

Từ việc nghiên cứu bài toán trích xuất thông tin cho dữ liệu bán cấu trúc, khóa luận đã đưa ra phương pháp tự động trích xuất giá của sản phẩm. Qua những kết quả thực nghiệm đạt được cho thấy tính hữu dụng của phương pháp này.

Về mặt nội dung, khóa luận đã đạt được những kết quả sau:

- Giới thiệu bài toán trích xuất thông tin: Khái niệm, miền dữ liệu và các hướng tiếp cận của bài toán

- Nghiên cứu bài toán trích xuất thông tin cho dữ liệu bán cấu trúc: Nêu được những phương pháp sử dụng trong việc trích xuất, giới thiệu hai giải thuật trích xuất Stalker và Roadrunner đồng thời phân tích những ưu nhược điểm của các giải thuật này nhằm xây dựng phương pháp phù hợp để giải quyết bài toán trích xuất thông tin giá sản phẩm.

- Thông qua cơ sở lý thuyết để giải quyết bài toán trích xuất thông tin giá sản phẩm, khóa luận đã xây dựng được mô hình hệ thống tìm kiếm giá cả sản phẩm.

- Xây dựng được chương trình để thi hành được bài toán trích xuất thông tin giá cả sản phẩm trên ngôn ngữ Java, môi trường Eclipse để đánh giá được mô hình hệ thống đã xây dựng.

Bên cạnh những, do hạn chế về mặt thời gian và kiến thức khóa luận vẫn còn hạn chế sau:

- Khóa luận chưa xây dựng được giao diện người dùng và kết quả thực nghiệm xác định giá thực chưa đạt độ chính xác như mong muốn.

Định hướng tương lai

Trong tương lai, khóa luận sẽ tiếp tục hoàn thiện những hạn chế nên trên, đồng thời cũng cố gắng để công bố hệ thống này để phục vụ cho người sử dụng. (adsbygoogle = window.adsbygoogle || []).push({});

56

Tài liu tham kho

[1]. Andrew Carlson and Charles Schafer, Bootstrapping Information Extraction from

Semi-structured Web Pages, ECML/PKDD, 2008.

[2]. Bing Liu, Web Data Mining Exploring Hyperlinks, Contents, and Usage Data,

http://www.cs.uic.edu/~liub/WebMiningBook.html ,December, 2006.

[3]. Elwin Chai, Rick Jones, Automated Price Comparison Shopping Search Engine _

PriceHunter, CSE,2001

[4]. Irmak, and T. Suel, Interactive Wrapper Generation with Minimal User Effort. In Proc. of the 15th Intl. Conf. on World Wide Web (WWW'06), 2006.

[5]. I. Muslea, S. Minton, and C. A. Knoblock. A Hierarchical Approach to Wrapper

Induction. In Proc. of the Intl. Conf. on Autonomous Agents (AGENTS’99), pp. 190–

197, 1999.

[6]. Jaeyoung Yang, Heekuck Oh, Kyung-Goo Doh and Joongmin Choi A ,Knowledge-

Based Information Extraction System for Semi-structured Labeled Documents,

Proceedings of the Third International Conference on Intelligent Data Engineering and Automated Learning, 2002

[7]. Robert Bo Doorenbos, Oren Etzioni, and Daniel So Weld, A Scalable Comparison-

Shopping Agent for the World-Wide Web,

www.cs.washington.edu/homes/etzioni/papers/agents97.pdf, 1997

[8]. Sergey Brin, Extracting Patterns and Relations from the World Wide Web, WebDB Workshop at 6th International Conference on Extending Database Technology, 1998

[9]. S. Debnath, P. Mitra, N. Pal, and C. L. Giles. Automatic Identification of

Informative , IEEE Trans. Knowl. Data Eng. 17 , 2005

[10]. S. Debnath, P. Mitra, and C. L. Giles. Automatic extraction of informative blocks

from webpages. In Proc. SAC, pages 1722-1726, 2005.

57 [12]. V. Crescenzi, G. Mecca, and P. Merialdo. Roadrunner: Towards Automatic Data

Extraction from Large Web Sites.In Proc. of Very Large Data Bases (VLDB’01),

pp.109–118, 2001.

[13]. WIEN N. Kushmerick. Wrapper Induction for Information Extraction. Ph.D Thesis. Dept. of Computer Science, University of Washington, TR UW-CSE-97-11- 04, 1997

[14]. W. Cohen, M. Hurst, and L. S. Jensen. A Flexible Learning System for Wrapping

Tables and Lists in Html Documents. In Proc. of the 11th Intl. World Wide Web Conf.

(WWW’02), pp. 232–241, 2002. [15]. http://www.w3.org/DOM/ [16]. http://www.w3.org/TR/xpath (adsbygoogle = window.adsbygoogle || []).push({});

[17]. http://www.dcs.bbk.ac.uk/~ptw/teaching/ssd/toc.html [18]. http://en.wikipedia.org/wiki/Price_comparison_service

58 Phụ lục

Phụ lục 1: Danh sách một số website được khảo sát đặc trưng của giá sản phẩm Địa chỉ website www.amazon.com www.jr.com www.imobilecellphones.com www.220depot.com www.trananh.vn www.vatgia.com www.rongbay.com www.vinabook.com www.sieuthitrangsuc.com www.aodaiminhthu.com www.goodsmart.vn

59

Phụ lục 2: Danh sách một số website kinh doanh xác định được trong thực nghiệm 4.4.4 Địa chỉ website www.ducminhmobile.net www.gsmserver.com www.gounlock.com www.123mua.com.vn www.dienthoaididong.com.vn www.vatgia.com www.aha.vn www.chodientu.vn www.raovat.net www.trananh.vn www.megabuy.vn

Một phần của tài liệu bài toán trích xuất thông tin cho dữ liệu bán cấu trúc và áp dụng xây dựng hệ thống tìm kiếm giá cả sản phẩm (Trang 52)