4.1.1 Cấu hình phần cứng
Bảng 1 mô tả cấu hình phần cứng sử dụng trong thực nghiệm.
Bảng 1. Cấu hình phần cứng sử dụng trong thực nghiệm
Thành phần Chỉ số
CPU Intel Celeron ® CPU 2.66 ghz
RAM 768 MB
Hệđiều hành WindowsXP Service Pack 2
Bộ nhớ ngoài 40GB
4.1.2 Công cụ phần mềm
Các công cụ phần mềm mã nguồn mở mà khóa luận sử dụng để xây dựng thực nghiệm được mô tảở bảng 2 dưới đây
42 Bảng 2.Các phần mềm sử dụng trong thực nghiệm STT Tên phần mềm Tác giả Nguồn 1 Neko HTML Phân phối bởi Apache http://sourceforge.net/projects/ne kohtml 2 eclipse-SDK- 3.4.1-win32 http://www.eclipse.org/download s/
Với các công cụ phần mềm trên khóa luận đã xây dựng chương trình để thực thi trích xuất giá của sản phẩm. Cấu trúc chương trình được phân làm 3 gói (package) chính như sau:
• Crawler : chức năng chính của gói này đó là thu thập dữ liệu
• GettingPattern: Chức năng của gói này là xác định mẫu trích xuất thông tin về giá và tên sản phẩm của một trang web.
• Extracting: chức năng của gói này đó là trích là xác định các website kinh doanh và trích xuất tên, giá sản phẩm trong website đó.
43
Bảng 3. Mô tả chương trình thực thi để trích xuất giá sản phẩm
Tên gói (package)
Tên lớp (class) Chức năng
Crawling Thu thập dữ liệu từ một website
SEProcessing Thu thập các url trả về từ truy vấn gửi
đến google Crawler StandardHTML Loại bỏ một số thành phần không quan trọng trong mã HTML như các đoạn mã SCRIPT, STYLE …
ParserHTML Phân tích mã HTML sang dạng cây
DOM (sử dụng NekoHTML) GettingXPath Xác định tất cả các mẫu trích xuất trỏ đến tên và giá sản phẩm. GettingPattern ProcessingXPath Xác định được mẫu trích xuất chính xác tên và giá sản phẩm.
GettingWebsite Xác định được website kinh doanh sản phẩm và mẫu trích xuất của website đó Extracting
ExtractingInformation
Trích xuất thông tin về tên, giá các sản phẩm trong các website kinh doanh sản phẩm
44
4.2 Kết quả thực nghiệm
4.2.1 Thực nghiệm trích xuất giá của một sản phẩm cho trước
Mô tả thực nghiệm
Mục đích của thực nghiệm này để kiểm nghiệm tính đúng đắn của “bài toán xác
định giá thực của sản phẩm” bằng các luật nêu ở mục 3.3.2.
- Đầu vào : Tên sản phẩm và trang web chứa tên sản phẩm đó.
- Đầu ra : Giá của sản phẩm nếu trang web có chứa giá.
Dữ liệu thực nghiệm
- Dữ liệu để trích xuất giá của một sản phẩm được thu thập thông qua máy tìm kiếm google.
- Với một tên sản phẩm cho trước, ta sẽ tạo ra truy vấn gửi đến máy tìm kiếm.
o Ví dụ:
Với tên sản phẩm máy ảnh “Canon PowerShot G10” thì truy vấn gửi đến máy tìm kiếm sẽ là : “Canon PowerShot G10” + “VNĐ OR USD”
- Lấy một lượng kết quả trả vềđầu tiên của máy tìm kiếm, ta sẽ trích xuất được tập các url từ kết quảđó
o Ví dụ:
Ứng với truy vấn “Canon PowerShot G10” + “VNĐ OR USD” thì 5 kết quảđầu tiên trả về thông qua máy tìm kiếm google và các url tương ứng
45
Hình 26. Trích xuất các URL liên quan
- Sau đó các url này sẽđược chuẩn hóa về dạng chuẩn và được tải dữ liệu trang web
đó về.
- Dữ liệu được tải về được cho qua module trích xuất giá để sinh ra giá của sản phẩm.
Ví dụ:
Tương ứng với 5 URL trên thì kết quả trích xuất được sẽ là:
- http://www.vatgia.com/319/257728/canon-powershot-g10.html
o Product: canon powershot g10 Price:8.008.000 vnđ (440,00 usd)
URL trích xuất
46
- http://www.raovatmienphi.com/canon-powershot-g10-gia-490-usd.html
o Product: canon powershot g10 Price: giá 490 usd
- http://www.123mua.com.vn/xem?sp=RXGQRVfReX
o Product: canon powershot g10 Price:644 sd
- http://enbac.com/Ky-thuat-so/p167975/May-chup-hinh-Canon-PowerShot- G10.html
o Product: máy chụp hình canon powershot g10 Price:8.550.000vnđ
- http://www.megabuy.vn/?a=NEWS&news=DETA&hdn_news_id=10434
o Product: canon powershot g10 Price:665 usd
Khóa luận đã thực nghiệm trên tập các sản phẩm: nokia 1200, lenovo thinkpad t61, canon powershot g103; mỗi sản phẩm này sẽ thực nghiệm trên 3 trường hợp tương ứng với số lượng 10, 30, 100 kết quả mà google trả về. Đểđánh giá kết quả thực nghiệm khóa luận này sử dụng độđo hồi tưởng (R) và độ tin cậy (P).
47
Bảng 4. Kết quả thực nghiệm trích xuất giá thực của một sản phẩm
Tên sản phẩm Query Số lượng kết quả trả về bởi google Kết quả thực tế đúng Kết quả trích xuất được Kết quả đúng Thời gian thực thi Độ hồi tưởng Độ tin cậy 10 8 8 8 37,45 s 100% 100% 30 23 26 23 147,4 3s 100% 88,46% Nokia 1200 “Nokia 1200” + “VNĐ OR USD” 100 68 70 67 407,1 7s 98,53 % 95,71 % 10 10 10 9 39,67s 90% 90% 30 23 25 22 125,2 5s 95,6% 88% Lenovo Thinkpad t61 “Lenovo Thinkpad t61” + “VNĐ OR USD” 100 43 46 40 1200s 93,02% 86,95% 10 9 9 9 52,92s 100% 100% 30 19 21 18 86,91s 94,74 % 85,71 % Canon PowerShot G10 “Canon PowerSho t G10” + “VNĐ OR USD” 100 45 50 44 263,3 3s 97,78% 88%
48
Nhận xét
Với tất cả các kết quả đạt được thì ta có thể thấy rằng độ tin cậy thấp hơn độ hồi tưởng. Sở dĩ có kết quả như vậy bởi vì: Có một vài trường hợp giá xuất hiện quá nhập nhằng.
Hình 27 là minh họa về trường hợp trang web chứa giá nhập nhằng.
Hình 27. Trang Web có sự nhập nhằng giá cả
Với trường hợp này có thể nhận dạng nhầm thành: “nokia 1200” có giá: “599.000
đồng”
Thực tế thì nó lại muốn cung cấp thông tin về “nokia 1202” có giá: “599.000
đồng”
Độ hồi tưởng cao bởi vì hầu như các trang có giá đúng thì có thể trích xuất được chính xác. Giá đúng là giá mà thể hiện là giá thực của sản phẩm.
49
Ví dụ: Hình 28 là minh họa về trang web chứa giá không nhập nhằng
Hình 28. Trang Web có giá cả rõ ràng
Kết quả trích xuất được sẽ là:
Tên sản phẩm: nokia 1200 black , Giá sản phẩm: 520,000 vnđ
4.2.2 Thực nghiệm xác định website kinh doanh
Mô tả thực nghiệm
Mục đích của thực nghiệm này là kiểm nghiệm sự chính xác và khả năng xác định
được các trang kinh doanh sản phẩm từ tập hạt giống tên sản phẩm ban đầu của bài toán “tựđộng trích xuất thông tin về tên và giá của sản phẩm” trong mục 3.3.3
- Đầu vào : Một tập hạt giống tên các sản phẩm.
- Đầu ra : Website kinh doanh sản phẩm có bán những sản phẩm trong tập hạt giống
đó và các mẫu trích xuất tương ứng với website.
Dữ liệu thực nghiệm
- Tập hạt giống tên sản phẩm cho trước.
50
- Tạo truy vấn từ tên các sản phẩm ở tập hạt giống, gửi tới google, để thu được các trang liên quan
- Tải các trang liên quan đến sản phẩm và xác định được các mẫu trích xuất thông tin sản phẩm, ta sẽ thu được một bộ (Website, mẫu_trích_tên sản phẩm, mẫu_trích_giá sản phẩm)
Xác định sự trùng lặp của các bộ, nếu một bộ trùng lặp nhiều lần, thì website trong bộ đó là website kinh doanh và các mẫu trích xuất trong bộ là mẫu trích xuất có thể áp dụng cho website này.
Với tập hạt giống gồm 4 tên sản phẩm như sau :
- nokia 1200
- nokia e71 white steel
- nokia 1202
- nokia 6300 silver
Chọn ngưỡng là 3 thì ta có:
51
Bảng 5. Kết quả thực nghiệm xác định website kinh doanh sản phẩm
Số lượng kết quả từ google trả về Thời gian chạy Domain bán hàng nhận được 10 288,84s www.123mua.com.vn www.vatgia.com www.chodientu.vn www.vinacms.vn 30 708s www.123mua.com.vn www.vatgia.com www.chodientu.vn www.vinacms.vn www.enbac.com 100 3638.76s www.123mua.com.vn www.vatgia.com www.chodientu.vn www.vinacms.vn www.enbac.com www.quangcaosanpham.com www.dienthoaididong.com.vn www.aha.vn www.trananh.vn
52
Nhận xét
Kết quảđạt được là khả quan. Trong các website mà hệ thống xác định được thì tất cảđều là website kinh doanh sản phẩm.
Tương ứng với các trường hợp :
- google trả về là 10 thì nhận dạng được 4 website
- google trả về là 30 thì nhận dạng được 5 website
- google trả về là 100 thì nhận dạng được 10 website
Tuy nhiên do số lượng tập hạt giống ban đầu mới chỉ có 4 tên sản phẩm nên số
lượng website kinh doanh sản phẩm nhận dạng được vẫn còn ít.
4.2.3 Thực nghiệm thu thập và trích xuất thông tin từ một website Mô tả thực nghiệm Mô tả thực nghiệm
Mục đích của thực nghiệm này để kiểm nghiệm phương pháp trích xuất thông tin sản phẩm nêu ở “bài toán tựđộng trích xuất tên và giá của sản phẩm” trong muc 3.3.3. Thực nghiệm này cũng giúp đánh giá được tính chính xác của các mẫu trích xuất trong thực nghiệm 4.3.2
- Đầu vào : Website kinh doanh và các mẫu trích xuất tương ứng với wesite đó ở
thực nghiệm xác định website kinh doanh.
- Đầu ra : Tên sản phẩm và giá của các sản phẩm .
Dữ liệu sử dụng
Trong thực nghiệm này chúng tôi sẽ sử dụng 2 website trong thực nghiệm 2:
- www.dienthoaididong.com.vn
- www.trananh.vn
Hai website kinh doanh sẽđược thu thập dữ liệu, với số lượng 5000 tài liệu trên một website và trích xuất dữ liệu từ tập dữ liệu này dựa vào các mẫu trích xuất tương ứng với từng website đó.
53
Kết quả thực nghiệm được mô tả thông qua bảng 6.
Bảng 6. Kết quả thực nghiệm trích xuất sản phẩm
Website Kết quả trích xuất được
www.dienthoaididong.com.vn 743 sản phẩm
www.trananh.vn 416 sản phẩm
Nhận xét
Số lượng sản phẩm trích xuất được là khá nhiều. Trong số những sản phẩm trích xuất được thì tất cả những sản phẩm đó đều chính xác, điều đó cho thấy phương pháp trích xuất thông tin này chính xác.
Tuy nhiên trong 416 sản phẩm của website www.trananh.vn thì chỉ có các sản phẩm về điện thoại di động trong khi website này còn có những sản phẩm về máy vi tính, nguyên nhân của kết quả này là do sản phẩm trên tập hạt giống đều là tên của các loại
điện thoại di động và khuôn mẫu của lĩnh vực điện thoại và máy tính ở website này là khác nhau.
4.2.4 Thực nghiệm khả năng thu thập thông tin của hệ thống Mô tả thực nghiệm
Mục đích thực nghiệm này là đánh giá khả năng thu thập thông tin về tên và giá sản phẩm của hệ thống
- Đầu vào: Tập hạt giống tên sản phẩm
- Đầu ra: Tên và giá của những sản phẩm có thể trích xuất được.
Dữ liệu thực nghiệm
Tên sản phẩm trong tập hạt giống được lấy từ trang vatgia.com [19]. Các tên sản phẩm này được phân bố đều nhiều loại sản phẩm như: điện thoại, máy tính, máy ảnh, trang sức, đồ gia dụng…
54
Kết quả thực nghiệm được mô tả thông qua bảng 7 dưới đây.
Bảng 7. Kết quả thực nghiệm khả năng thu thập thông tin của hệ thống
Số lượng tên sản phẩm trong tập hạt giống
Số lượng website kinh doanh được xác định
Số lượng sản phẩm trích xuất được
334 sản phẩm 125 trang kinh doanh (phụ lục 2)
47.856 sản phẩm, trong đó có 34.012 sản phẩm không trùng
nhau
Nhận xét:
Kết quả này cho thấy khả năng thu thập thông tin trong hệ thống đạt hiệu quả tốt. Số
lượng sản phẩm được hệ thống trích xuất được là lớn, những sản phẩm này cũng dàn trải trên nhiều chủng loại . Một số sản phẩm tiêu biểu được minh họa bởi bảng 8.
Bảng 8. Một số sản phẩm trích xuất được
Tên sản phẩm Giá sản phẩm Chủng loại
nokia 2680 slide 1,530,000 vnđ Điện thoại di động canon powershot g10 8.645.000 vnđ Máy ảnh kỹ thuật số
dell inspiron mini 9 - r560921vn ( pc
- dos ) 8,029,000 vnđ
Máy laptop
Comple nam hiệu Cavil Klein 14.560.000 vnđ Thời trang Phấn trang điểm - Ohui 575.000 vnđ Mỹ phẩm
55
Kết luận
Kết quả đạt được của khóa luận này
Từ việc nghiên cứu bài toán trích xuất thông tin cho dữ liệu bán cấu trúc, khóa luận
đã đưa ra phương pháp tự động trích xuất giá của sản phẩm. Qua những kết quả thực nghiệm đạt được cho thấy tính hữu dụng của phương pháp này.
Về mặt nội dung, khóa luận đã đạt được những kết quả sau:
- Trình bày khái niệm, miền dữ liệu và các hướng tiếp cận của bài toán trích xuất thông tin trên Web
- Nghiên cứu bài toán trích xuất thông tin cho dữ liệu bán cấu trúc: Nêu được những phương pháp sử dụng trong việc trích xuất, giới thiệu hai giải thuật trích xuất Stalker và Roadrunner đồng thời phân tích những ưu nhược điểm của các giải thuật này nhằm xây dựng phương pháp phù hợp để giải quyết bài toán trích xuất thông tin giá sản phẩm.
- Xây dựng được tập luật để trích xuất giá khi biết tên sản phẩm trong một trang web, ngoài ra khóa luận cũng xây dựng được các tập luật để trích xuất ảnh, thông tin bảo hành của sản phẩm.
- Xây dựng được mô hình hệ thống tìm kiếm giá cả sản phẩm dựa vào cơ sở lý thuyết của bài toán trích xuất thông tin giá sản phẩm.
- Xây dựng được module trích xuất giá sản khi biết tên sản phẩm.
- Xây dựng module xác định website kinh doanh sản phẩm.
- Xây dựng được module trích xuất thông tin về tên và giá sản phẩm trong một website kinh doanh sản phẩm thông qua các mẫu trích xuất.
- Xây dựng được chương trình để thi hành được bài toán trích xuất thông tin giá cả sản phẩm và đạt được kết quả khả quan trong việc thu thập thông tin.
56
Bên cạnh những, do hạn chế về mặt thời gian và kiến thức khóa luận vẫn còn hạn chế sau:
- Khóa luận chưa xây dựng được giao diện người dùng và kết quả thực nghiệm xác định giá thực của một sản phẩm cho trước chưa đạt độ chính xác như mong muốn.
Định hướng tương lai
Trong tương lai, khóa luận sẽ tiếp tục hoàn thiện những hạn chế nên trên, đồng thời cũng cố gắng để công bố hệ thống này để phục vụ cho người sử dụng.
57
Tài liệu tham khảo
[1]. Andrew Carlson and Charles Schafer, Bootstrapping Information Extraction from Semi-structured Web Pages, ECML/PKDD, 2008.
[2]. Bing Liu, Web Data Mining Exploring Hyperlinks, Contents, and Usage Data, http://www.cs.uic.edu/~liub/WebMiningBook.html ,December, 2006.
[3]. Elwin Chai, Rick Jones, Automated Price Comparison Shopping Search Engine _ PriceHunter, CSE,2001
[4]. Irmak, and T. Suel, Interactive Wrapper Generation with Minimal User Effort. In Proc. of the 15th Intl. Conf. on World Wide Web (WWW'06), 2006.
[5]. I. Muslea, S. Minton, and C. A. Knoblock. A Hierarchical Approach to Wrapper Induction. In Proc. of the Intl. Conf. on Autonomous Agents (AGENTS’99), pp. 190– 197, 1999.
[6]. Jaeyoung Yang, Heekuck Oh, Kyung-Goo Doh and Joongmin Choi A ,Knowledge- Based Information Extraction System for Semi-structured Labeled Documents, Proceedings of the Third International Conference on Intelligent Data Engineering and Automated Learning, 2002
[7]. Robert Bo Doorenbos, Oren Etzioni, and Daniel So Weld, A Scalable Comparison- Shopping Agent for the World-Wide Web,
www.cs.washington.edu/homes/etzioni/papers/agents97.pdf, 1997
[8]. Sergey Brin, Extracting Patterns and Relations from the World Wide Web, WebDB Workshop at 6th International Conference on Extending Database Technology, 1998
[9]. S. Debnath, P. Mitra, N. Pal, and C. L. Giles. Automatic Identification of Informative , IEEE Trans. Knowl. Data Eng. 17 , 2005
[10]. S. Debnath, P. Mitra, and C. L. Giles. Automatic extraction of informative blocks from webpages. In Proc. SAC, pages 1722-1726, 2005.
58
[12]. V. Crescenzi, G. Mecca, and P. Merialdo. Roadrunner: Towards Automatic Data Extraction from Large Web Sites.In Proc. of Very Large Data Bases (VLDB’01), pp.109–118, 2001.
[13]. WIEN N. Kushmerick. Wrapper Induction for Information Extraction. Ph.D Thesis. Dept. of Computer Science, University of Washington, TR UW-CSE-97-11- 04, 1997
[14]. W. Cohen, M. Hurst, and L. S. Jensen. A Flexible Learning System for Wrapping Tables and Lists in Html Documents. In Proc. of the 11th Intl. World Wide Web Conf.