1. Trang chủ
  2. » Luận Văn - Báo Cáo

LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx

71 640 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 71
Dung lượng 1,69 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Tiến Thành BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Tiến Thành BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: Th.S. Trần Thị Oanh Cán bộ đồng hướng dẫn: CN. Trần Mai Vũ HÀ NỘI – 2009 Lời cảm ơn Lời đầu tiên, tôi xin gửi lời cảm ơn lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy, Thạc sỹ Trần Thị Oanh, Cử nhân Trần Mai Vũ đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để tôi học tập nghiên cứu tại tr ường Đại Học Công Nghệ. Tôi cũng xin gửi lời cảm ơn tới các anh chị các bạn sinh viên trong nhóm “Khai phá dữ liệu” đã giúp tôi rất nhiều trong việc thu thập xử lý dữ liệu. Tôi xin gửi lời cảm ơn tới các bạn trong lớp K50CA K50CHTTT đã ủng hộ khuyến khích tôi trong suốt quá trình học tập tại trường. Cuối cùng, tôi muốn được gửi lời cảm ơn vô hạn tới gia đình b ạn bè, những người thân yêu luôn bên cạnh động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn ! Sinh viên Vũ Tiến Thành i Tóm tắt nội dung Trích xuất thông tin từ dữ liệu bán cấu trúc là một bài toán được sự quan tâm tại nhiều hội nghị lớn trên thế giới [9], [10], [12], [13]. Bài toán này là một thành phần không thể thiếu trong các ứng dụng về thu thập trích xuất thông tin hiện nay. Một trong những ứng dụng đó là trích xuất thông tin của sản phẩm từ các trang thương mại điện tử để xây dựng hệ thống tìm kiếm giá cả, nhằm cung cấp thông tin tố t nhất đến người tiêu dùng. Khóa luận này tập trung nghiên cứu bài toán trích xuất thông tin từ dữ liệu web áp dụng để xây dựng hệ thống tìm kiếm giá cả sản phẩm. Khóa luận xác định một tập luật để giải quyết bài toán trích xuất giá khi cho biết tên sản phẩm, trên cơ sở đó, bài toán tự động trích xuất thông tin về tên giá của sản phẩm được giải quyết. Khóa luận đưa ra các bước xây dự ng hệ thống tìm kiếm giá cho sản phẩm trên các trang web tiếng Việt, tiến hành các thực nghiệm trên hệ thống đánh giá kết quả. Kết quả thực nghiệm cho thấy các thông tin được trích xuất từ hệ thống là có độ tin cậy. ii Mục lục Tóm tắt nội dung i Mục lục ii Bảng các kí hiệu chữ viết tắt v Danh sách các hình vi Danh sách bảng biểu viii Giới thiệu 1 Chương 1. Khái quát bài toán trích xuất thông tin cho dữ liệu bán cấu trúc 3 1.1 Bài toán trích xuất thông tin 3 1.1.1 Giới thiệu bài toán 3 1.1.2 Dữ liệu của bài toán 3 1.1.3 Các hướng tiếp cận trong bài toán trích xuất thông tin 4 1.2 Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc 6 1.2.1 Vấn đề đặt ra với bài toán 6 1.2.2 Một số phương pháp trích xu ất thông tin cho dữ liệu bán cấu trúc 6 1.2.3 Phương pháp đánh giá 7 1.2.4 Ứng dụng của bài toán trích xuất thông tin cho dữ liệu bán cấu trúc 8 Chương 2. Một số phương pháp sử dụng trong bài toán trích xuất thông tin cho dữ liệu bán cấu trúc 10 2.1 Trích xuất thông tin dựa vào cây DOM 10 2.1.1 Khái nhiệm cây DOM 10 2.1.2 Xây dựng cây DOM 10 2.1.3 Sử dụng cây DOM để trích xuất thông tin 12 2.2 Trích xuất thông tin dựa theo các mẫu biểu thức chính qui 13 iii 2.2.1 Khái niệm biểu thức chính qui 13 2.2.2 Sử dụng biểu thức chính qui để trích xuất thông tin 14 2.3 Một số giải thuật trích xuất thông tin cho dữ liệu bán cấu trúc 14 2.3.1 Hai kiểu biểu diễn của các trang giàu dữ liệu 14 2.3.2 Một số giải thuật điển hình 15 Chương 3. Áp dụng bài toán trích xuất thông tin bán cấu trúc để xây dựng hệ thống tìm kiếm giá cả sản phẩm 21 3.1 Khái quát hệ thống tìm kiếm giá cả củ a sản phẩm 21 3.1.1 Khái niệm 21 3.1.2 Các phương pháp xây dựng 21 3.1.3 Các hệ thống hiện tại 22 3.2 Cơ sở thực tiễn 23 3.3 Cơ sở khoa học 25 3.3.1 Phân loại trang kinh doanh 26 3.3.2 Bài toán trích xuất thông tin giá cả của một sản phẩm xác định. 27 3.3.3 Bài toán tự động trích xuất thông tin về tên giá của sản phẩm trong các trang kinh doanh sản phẩm 33 3.4 Các bước xây dựng hệ thống 37 3.4.1 Mô hình hệ thống 37 3.4.2 Khả năng mở rộng củ a hệ thống 40 Chương 4. Thực nghiệm đánh giá kết quả 41 4.1 Môi trường phần cứng phần mềm 41 4.1.1 Cấu hình phần cứng 41 4.1.2 Công cụ phần mềm 41 4.2 Kết quả thực nghiệm 44 iv 4.2.1 Thực nghiệm trích xuất giá của một sản phẩm cho trước 44 4.2.2 Thực nghiệm xác định website kinh doanh 49 4.2.3 Thực nghiệm thu thập trích xuất thông tin từ một website 52 4.2.4 Thực nghiệm khả năng thu thập thông tin của hệ thống 53 Kết luận 55 Tài liệu tham khảo 57 v Bảng các kí hiệu chữ viết tắt Kí hiệu Diễn giải HTML HyperText Markup Language URL Uniform Resource Locator XPath XML Path DOM Document Object Model W3C World Wide Web Consortium vi Danh sách các hình Hình 1. Ví dụ về tính cấu trúc của trang web bán cấu trúc 4 Hình 2. Ví dụ về bài toán nhận dạng thực thể 5 Hình 3. Ví dụ về trích xuất nội dung chính của trang Web 8 Hình 4. Ví dụ về hệ thống tìm kiếm giá cả 9 Hình 5. Ví dụ xây dựng cây DOM sử dụng hộp ảo 12 Hình 6. Dạng biểu diễn của trang list page 15 Hình 7. Dạng biểu diễn của trang detail page 15 Hình 8. Chuyển đổi từ mã HTML sang cây EC 16 Hình 9. Ví dụ giải thuật RoadRunner [12] 20 Hình 10. Trang giới thiệu sản phẩ m HP CQ60-203TX 24 Hình 11. Trang giới thiệu sản phẩm HP CQ60-101TX 24 Hình 12. Biểu diễn cây DOM của mã HTML hai trang về sản phẩm HP 25 Hình 13. Ví dụ về trang kinh doanh thông thường 26 Hình 14. Ví dụ về trang rao vặt 27 Hình 15. Ví dụ về trích xuất giá trong một trang web 27 Hình 16. Ví dụ về sản phẩm chứa những giá không đúng 29 Hình 17. Ví dụ về trích xuất giá thực của trang sản phẩm 29 Hình 18. Tập luật trích xuất giá sản phẩm 32 Hình 19. Luật trích xuất ảnh sản phẩm 33 Hình 20. Luật trích xu ất thông tin bảo hành sản phẩm 33 Hình 21. Kết quả google trả về với truy vấn "nokia 1200" 35 Hình 22. Kết quả trả về của google với query "nokia 1200" + "vnđ OR usd" 36 Hình 23. Mô hình tổng quan của hệ thống 38 Hình 24. Module xác định các website kinh doanh sản phẩm các mẫu trích xuất 39 vii Hình 25. Module Thu thập dữ liệu trích xuất thông tin 40 Hình 26. Trích xuất các URL liên quan 45 Hình 27. Trang Web có sự nhập nhằng giá cả 48 Hình 28. Trang Web có giá cả rõ ràng 49 [...]... xuất giá cả sản phẩm Phần kết luận tóm lược nội dung chính của khóa luận nêu định hướng phát triển trong thời gian tới 2 Chương 1 Khái quát bài toán trích xuất thông tin cho dữ liệu bán cấu trúc Chủ đề chính của khóa luậnáp dụng bài toán trích xuất thông tin cho dữ liệu bán cấu trúc để xây dựng hệ thống tìm kiếm giá cả Chương này sẽ giới thiệu bài toán trích xuất thông tin nói chung bài toán. .. qua miền dữ liệu (có cấu trúc, không cấu trúc bán cấu trúc) giới thiệu bài toán trích chọn thông tin cho dữ liệu bán cấu trúc , phương pháp đánh giá khả năng trích xuất thông tin thông qua độ hồi tưởng (R), độ tin cây (P) các ứng dụng thực tiễn của bài toán Chương 2 Một số phương pháp sử dụng trong bài toán trích xuất thông tin cho dữ liệu bán cấu trúc giới thiệu về các sử dụng cây DOM biểu... tin cho dữ liệu bán cấu trúc để xây dựng hệ thống tìm kiếm giá cả sản phẩm là vấn đề quan trọng nhất của khóa luận Trong chương này khóa luận sẽ đề cập đến khái niệm của hệ thống tìm kiếm giá cả, phương pháp xây dựng hệ thống cách đánh giá các hệ thống đang tồn tại 3.1 Khái quát hệ thống tìm kiếm giá cả của sản phẩm Trong phần này khóa luận sẽ đề cập tới khái niệm về hệ thống tìm kiếm giá cả, các phương... bài toán trích xuất thông tin cho dữ liệu bán cấu trúc nói riêng, từ đó đưa ra một số ứng dụng của bài toán trích xuất thông tin cho dữ liệu bán cấu trúc, đồng thời cũng giới thiệu về phương pháp đánh giá khả năng trích xuất thông qua độ hồi tưởng (R), độ tin cậy (P) 1.1 Bài toán trích xuất thông tin 1.1.1 Giới thiệu bài toán Trích xuất thông tinbài toán nhận dạng những thành phần thông tin cụ thể... trình trích xuất thông tin sẽ dựa vào đường đi từ gốc đến node chứa thông tin cần trích xuất 1.2 Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc 1.2.1 Vấn đề đặt ra với bài toán Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc là rất hữu dụng bởi vì nó cho phép chúng ta thu được tích hợp dữ liệu từ nhiều nguồn để cung cấp cho những dịch vụ giá trị gia tăng như : thu được những thông tin. .. Hình 3 Ví dụ về trích xuất nội dung chính của trang Web 8 • Hệ thống tìm kiếm giá cả sản phẩm Hệ thống cho phép người sử dụng so sánh được giá cả của sản phẩm mà họ muốn mua Hệ thống này phải duyệt qua các trang web kinh doanh sản phẩm để trích xuất các thông tin hữu dụng về sản phẩm Hình 4 dưới đây là ví dụ về một hệ thống tìm kiếm giá cả sản phẩm Hình 4 Ví dụ về hệ thống tìm kiếm giá cả 9 Chương 2... với bài toán trích xuất thông tin từ dữ liệu bán cấu trúc để xây dựng cơ sở lý thuyết để trích xuất thông tin giá cả của sản phẩm, đưa ra mô hình của hệ thống nêu được tính mở của hệ thống đề xuất Chương 4 Thực nghiệm đánh giá kết quả để đánh giá các bài toán nêu ở phần cơ sở lý thuyết tại chương 3 về trích xuất giá cả của sản phẩm Kết quả thực nghiệm cho thấy được hiệu quả của phương pháp trích. .. phương pháp sử dụng trong bài toán trích xuất thông tin cho dữ liệu bán cấu trúc Chương 2 sẽ giới thiệu hướng tiếp cận trích xuất sử dụng cây DOM [15],[6] biểu thức chính qui [2] Đồng thời chương cũng trình bày hai giải thuật trong bài toán trích xuất thông tin cho dữ liệu bán cấu trúc cũng như các ưu nhược điểm của nó Đây cũng chính là những tiền đề để xây dựng phương pháp trích xuất giá cả sản phẩm. .. giống nhau Hình 1 Ví dụ về tính cấu trúc của trang web bán cấu trúc 1.1.3 Các hướng tiếp cận trong bài toán trích xuất thông tin Các bài toán trích xuất thông tin thông thường được tiếp cận theo dữ liệubài toán đó xử lý Vì vậy có những dạng bài toán như sau: 4 • Dữ liệucấu trúc Đối với dữ liệucấu trúc, việc trích xuất thông tin là khá đơn giản Vì các thông tin đã được biểu diễn theo những... hiện nay Có rất nhiều bài toán được đề xuất theo phương thức tiếp cận thứ ba để xây dựng hệ thống tìm kiếm giá cả như: - Andrew Carlson Charles Schafer áp dụng [1] để trích xuất tự động các thông tin ở các website du lịch kinh doanh nhà đất, nhằm xây dựng hệ thống tìm kiếm giá cả về nhà đất du lịch - “Elwin Chai, Rick Jones áp dụng [3] để xây dựng hệ thống tìm kiếm giá cả tự động PriceHunter . quát bài toán trích xuất thông tin cho dữ liệu bán cấu trúc Chủ đề chính của khóa luận là áp dụng bài toán trích xuất thông tin cho dữ liệu bán cấu trúc để xây dựng hệ thống tìm kiếm giá cả. . bài toán trích xuất thông tin nói chung và bài toán trích xuất thông tin cho dữ liệu bán cấu trúc nói riêng, từ đó đưa ra một số ứng dụng của bài toán trích xuất thông tin cho dữ liệu bán cấu. chứa thông tin cần trích xuất. 1.2 Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc 1.2.1 Vấn đề đặt ra với bài toán Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc là rất hữu dụng

Ngày đăng: 27/06/2014, 22:20

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Andrew Carlson and Charles Schafer, Bootstrapping Information Extraction from Semi-structured Web Pages, ECML/PKDD, 2008 Sách, tạp chí
Tiêu đề: Bootstrapping Information Extraction from Semi-structured Web Pages
[2]. Bing Liu, Web Data Mining Exploring Hyperlinks, Contents, and Usage Data, http://www.cs.uic.edu/~liub/WebMiningBook.html ,December, 2006 Sách, tạp chí
Tiêu đề: Web Data Mining Exploring Hyperlinks, Contents, and Usage Data
[3]. Elwin Chai, Rick Jones, Automated Price Comparison Shopping Search Engine _ PriceHunter, CSE,2001 Sách, tạp chí
Tiêu đề: Automated Price Comparison Shopping Search Engine _ PriceHunter
[4]. Irmak, and T. Suel, Interactive Wrapper Generation with Minimal User Effort. In Proc. of the 15th Intl. Conf. on World Wide Web (WWW'06), 2006 Sách, tạp chí
Tiêu đề: Interactive Wrapper Generation with Minimal User Effort
[5]. I. Muslea, S. Minton, and C. A. Knoblock. A Hierarchical Approach to Wrapper Induction. In Proc. of the Intl. Conf. on Autonomous Agents (AGENTS’99), pp. 190–197, 1999 Sách, tạp chí
Tiêu đề: A Hierarchical Approach to Wrapper Induction
[6]. Jaeyoung Yang, Heekuck Oh, Kyung-Goo Doh and Joongmin Choi A ,Knowledge- Based Information Extraction System for Semi-structured Labeled Documents, Proceedings of the Third International Conference on Intelligent Data Engineering and Automated Learning, 2002 Sách, tạp chí
Tiêu đề: Knowledge-Based Information Extraction System for Semi-structured Labeled Documents
[7]. Robert Bo Doorenbos, Oren Etzioni, and Daniel So Weld, A Scalable Comparison- Shopping Agent for the World-Wide Web,www.cs.washington.edu/homes/etzioni/papers/agents97.pdf, 1997 Sách, tạp chí
Tiêu đề: A Scalable Comparison-Shopping Agent for the World-Wide Web
[8]. Sergey Brin, Extracting Patterns and Relations from the World Wide Web, WebDB Workshop at 6th International Conference on Extending Database Technology, 1998 Sách, tạp chí
Tiêu đề: Extracting Patterns and Relations from the World Wide Web
[9]. S. Debnath, P. Mitra, N. Pal, and C. L. Giles. Automatic Identification of Informative , IEEE Trans. Knowl. Data Eng. 17 , 2005 Sách, tạp chí
Tiêu đề: Automatic Identification of Informative
[10]. S. Debnath, P. Mitra, and C. L. Giles. Automatic extraction of informative blocks from webpages. In Proc. SAC, pages 1722-1726, 2005 Sách, tạp chí
Tiêu đề: Automatic extraction of informative blocks from webpages
[12]. V. Crescenzi, G. Mecca, and P. Merialdo. Roadrunner: Towards Automatic Data Extraction from Large Web Sites.In Proc. of Very Large Data Bases (VLDB’01), pp.109–118, 2001 Sách, tạp chí
Tiêu đề: Roadrunner: Towards Automatic Data Extraction from Large Web Sites
[13]. WIEN N. Kushmerick. Wrapper Induction for Information Extraction. Ph.D Thesis. Dept. of Computer Science, University of Washington, TR UW-CSE-97-11- 04, 1997 Sách, tạp chí
Tiêu đề: Wrapper Induction for Information Extraction
[14]. W. Cohen, M. Hurst, and L. S. Jensen. A Flexible Learning System for Wrapping Tables and Lists in Html Documents. In Proc. of the 11th Intl. World Wide Web Conf.(WWW’02), pp. 232–241, 2002 Sách, tạp chí
Tiêu đề: A Flexible Learning System for Wrapping Tables and Lists in Html Documents

HÌNH ẢNH LIÊN QUAN

Bảng các kí hiệu và chữ viết tắt - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Bảng c ác kí hiệu và chữ viết tắt (Trang 8)
Hình 1. Ví dụ về tính cấu trúc của trang web bán cấu trúc - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 1. Ví dụ về tính cấu trúc của trang web bán cấu trúc (Trang 15)
Hình 2. Ví dụ về bài toán nhận dạng thực thể - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 2. Ví dụ về bài toán nhận dạng thực thể (Trang 16)
Hình 3. Ví dụ về trích xuất nội dung chính của trang Web - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 3. Ví dụ về trích xuất nội dung chính của trang Web (Trang 19)
Hình 4. Ví dụ về hệ thống tìm kiếm giá cả - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 4. Ví dụ về hệ thống tìm kiếm giá cả (Trang 20)
Hình 5 là một ví dụ minh họa về sử dụng visual cue: - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 5 là một ví dụ minh họa về sử dụng visual cue: (Trang 23)
Hình 6. Dạng biểu diễn của trang list page - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 6. Dạng biểu diễn của trang list page (Trang 26)
Hình 7. Dạng biểu diễn của trang detail page - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 7. Dạng biểu diễn của trang detail page (Trang 26)
Hình 8 bên dưới là ví dụ sự chuyển đổi một  đoạn mã HTML sang cây EC. Chú ý  rằng chúng ta sử dụng LIST ở đây bởi vì tập hợp các địa chỉ luôn luôn có thứ tự - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 8 bên dưới là ví dụ sự chuyển đổi một đoạn mã HTML sang cây EC. Chú ý rằng chúng ta sử dụng LIST ở đây bởi vì tập hợp các địa chỉ luôn luôn có thứ tự (Trang 27)
Hình 9. Ví dụ giải thuật RoadRunner  [12] - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 9. Ví dụ giải thuật RoadRunner [12] (Trang 31)
Hình 12. Biểu diễn cây DOM của mã HTML hai trang về sản phẩm HP - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 12. Biểu diễn cây DOM của mã HTML hai trang về sản phẩm HP (Trang 36)
Hình 13. Ví dụ về trang kinh doanh thông thường - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 13. Ví dụ về trang kinh doanh thông thường (Trang 37)
Hình 14 dưới đây là ví dụ một trang ra vặt. - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 14 dưới đây là ví dụ một trang ra vặt (Trang 38)
Hình 16. Ví dụ về sản phẩm chứa những giá không đúng - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 16. Ví dụ về sản phẩm chứa những giá không đúng (Trang 40)
Hình 17. Ví dụ về trích xuất giá thực của trang sản phẩm - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 17. Ví dụ về trích xuất giá thực của trang sản phẩm (Trang 40)
Hình 19. Luật trích xuất ảnh sản phẩm - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 19. Luật trích xuất ảnh sản phẩm (Trang 44)
Hình 21. Kết quả google trả về với truy vấn "nokia 1200" - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 21. Kết quả google trả về với truy vấn "nokia 1200" (Trang 46)
Hình 22. Kết quả trả về của google với query "nokia 1200" + "vnđ OR usd" - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 22. Kết quả trả về của google với query "nokia 1200" + "vnđ OR usd" (Trang 47)
Hình 23. Mô hình tổng quan của hệ thống - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 23. Mô hình tổng quan của hệ thống (Trang 49)
Hình 24. Module xác định các website kinh doanh sản phẩm và các mẫu trích xuất - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 24. Module xác định các website kinh doanh sản phẩm và các mẫu trích xuất (Trang 50)
Hình 25. Module Thu thập dữ liệu và trích xuất thông tin - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 25. Module Thu thập dữ liệu và trích xuất thông tin (Trang 51)
Bảng 1 mô tả cấu hình phần cứng sử dụng trong thực nghiệm. - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Bảng 1 mô tả cấu hình phần cứng sử dụng trong thực nghiệm (Trang 52)
Bảng 2.Các phần mềm sử dụng trong thực nghiệm - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Bảng 2. Các phần mềm sử dụng trong thực nghiệm (Trang 53)
Bảng 3. Mô tả chương trình thực thi để trích xuất giá sản phẩm - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Bảng 3. Mô tả chương trình thực thi để trích xuất giá sản phẩm (Trang 54)
Hình 26. Trích xuất các URL liên quan - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 26. Trích xuất các URL liên quan (Trang 56)
Bảng 4. Kết quả thực nghiệm trích xuất giá thực của một sản phẩm - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Bảng 4. Kết quả thực nghiệm trích xuất giá thực của một sản phẩm (Trang 58)
Hình 27 là minh họa về trường hợp trang web chứa giá nhập nhằng. - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Hình 27 là minh họa về trường hợp trang web chứa giá nhập nhằng (Trang 59)
Hỡnh 28. Trang Web cú giỏ cả rừ ràng - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
nh 28. Trang Web cú giỏ cả rừ ràng (Trang 60)
Bảng 5. Kết quả thực nghiệm xác định website kinh doanh sản phẩm - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Bảng 5. Kết quả thực nghiệm xác định website kinh doanh sản phẩm (Trang 62)
Bảng 6. Kết quả thực nghiệm trích xuất sản phẩm - LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT THÔNG TIN CHO DỮ LIỆU BÁN CẤU TRÚC VÀ ÁP DỤNG XÂY DỰNG HỆ THỐNG TÌM KIẾM GIÁ CẢ SẢN PHẨM potx
Bảng 6. Kết quả thực nghiệm trích xuất sản phẩm (Trang 64)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w