bài toán trích xuất thông tin cho dữ liệu bán cấu trúc và áp dụng xây dựng hệ thống tìm kiếm giá cả sản phẩm

luận văn về bài toán trích xuất thông tin cho dữ liệu bán cấu trúc và áp dụng xây dựng hệ thống tìm kiếm giá cả sản phẩm

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

HÀ NỘI 2009

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

Cán bộ hướng dẫn: Th.S Trần Thị Oanh

Cán bộ đồng hướng dẫn: CN Trần Mai Vũ

HÀ NỘI – 2009

Trang 3

Lời cảm ơn

Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến

sĩ Hà Quang Thụy, Thạc sỹ Trần Thị Oanh, Cử nhân Trần Mai Vũ đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp

Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để tôi học tập và nghiên cứu tại trường Đại Học Công Nghệ

Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá dữ liệu” đã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu

Tôi xin gửi lời cảm ơn tới các bạn trong lớp K50CA và K50CHTTT đã ủng hộ khuyến khích tôi trong suốt quá trình học tập tại trường

Cuối cùng, tôi muốn được gửi lời cảm ơn vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp

Tôi xin chân thành cảm ơn !

Sinh viên

Vũ Tiến Thành

Trang 4

Tóm tắt nội dung

Trích xuất thông tin từ dữ liệu bán cấu trúc là một bài toán được sự quan tâm tại nhiều hội nghị lớn trên thế giới [9],[10],[12],[13] Bài toán này là một thành phần không thể thiếu trong các ứng dụng về thu thập và trích xuất thông tin hiện nay Một trong những ứng dụng đó là trích xuất thông tin của sản phẩm từ các trang thương mại điện tử

để xây dựng hệ thống tìm kiếm giá cả, nhằm cung cấp thông tin tốt nhất đến người tiêu dùng

Khóa luận này tập trung nghiên cứu bài toán trích xuất thông tin từ dữ liệu bán cấu trúc và áp dụng để xây dựng hệ thống tìm kiếm giá cả sản phẩm Khóa luận xác định một tập luật trích xuất giá cả để giải bài toán trích xuất giá khi cho biết tên sản phẩm và trên

cơ sở đó, bài toán tự động trích xuất thông tin về tên và giá của sản phẩm được giải quyết Khóa luận đưa ra các bước xây dựng hệ thống tìm kiếm giá cho sản phẩm trên các trang web tiếng Việt Khóa luận đã tiến hành các thực nghiệm và đánh giá kết quả Kết quả thực nghiệm cho thầy các thông tin được trích xuất từ hệ thống là có độ tin cậy

Trang 5

Mục lục

Tóm tắt nội dung i

Mục lục ii

Bảng các kí hiệu và chữ viết tắt v

Danh sách các hình vi

Danh sách bảng biểu viii

Giới thiệu 1

Chương 1 Khái quát bài toán trích xuất thông tin cho dữ liệu bán cấu trúc 3

1.1 Bài toán trích xuất thông tin 3

1.1.1 Giới thiệu bài toán 3

1.1.2 Dữ liệu của bài toán 3

1.1.3 Các hướng tiếp cận trong bài toán trích xuất thông tin 4

1.2 Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc 6

1.2.1 Vấn đề đặt ra với bài toán 6

1.2.2 Một số phương pháp trích xuất thông tin cho dữ liệu bán cấu trúc 6

1.2.3 Phương pháp đánh giá 7

1.2.4 Ứng dụng của bài toán trích xuất thông tin cho dữ liệu bán cấu trúc 8

Chương 2 Một số phương pháp sử dụng trong bài toán trích xuất thông tin cho dữ liệu bán cấu trúc 10

2.1 Trích xuất thông tin dựa vào cây DOM 10

2.1.1 Khái nhiệm cây DOM 10

2.1.2 Xây dựng cây DOM 11

2.1.3 Sử dụng cây DOM để trích xuất thông tin 12

2.2 Trích xuất thông tin dựa theo các mẫu biểu thức chính qui 13

Trang 6

2.2.1 Khái niệm biểu thức chính qui 13

2.2.2 Sử dụng biểu thức chính qui để trích xuất thông tin 14

2.3 Một số giải thuật trích xuất thông tin cho dữ liệu bán cấu trúc 14

2.3.1 Hai kiểu biểu diễn của các trang giàu dữ liệu 14

2.3.2 Một số giải thuật điển hình 16

Chương 3 Áp dụng bài toán trích xuất thông tin bán cấu trúc để xây dựng hệ thống tìm kiếm giá cả sản phẩm 21

3.1 Khái quát hệ thống tìm kiếm giá cả của sản phẩm 21

3.1.1 Khái niệm 21

3.1.2 Các phương pháp xây dựng 21

3.1.3 Các hệ thống hiện tại 22

3.2 Cơ sở thực tiễn 23

3.3 Cơ sở khoa học 25

3.3.1 Phân loại trang kinh doanh 26

3.3.2 Bài toán trích xuất thông tin giá cả của một sản phẩm xác định .27

3.3.3 Bài toán tự động trích xuất thông tin về tên và giá của sản phẩm trong các trang kinh doanh sản phẩm 33

3.4 Các bước xây dựng hệ thống 37

3.4.1 Mô hình hệ thống 37

3.4.2 Khả năng mở rộng của hệ thống 40

Chương 4 Thực nghiệm và đánh giá kết quả 41

4.1 Môi trường phần cứng và phần mềm 41

4.1.1 Cấu hình phần cứng 41

4.1.2 Công cụ phần mềm 41

4.2 Kết quả thực nghiệm 44

Trang 7

4.2.1 Thực nghiệm trích xuất giá của một sản phẩm cho trước 44

4.2.2 Thực nghiệm xác định website kinh doanh 49

4.2.3 Thực nghiệm thu thập và trích xuất thông tin từ một website 52

4.2.4 Thực nghiệm khả năng thu thập thông tin của hệ thống 53

Kết luận 55

Tài liệu tham khảo 56

Trang 8

Bảng các kí hiệu và chữ viết tắt

HTML HyperText Markup Language

W3C World Wide Web Consortium

Trang 9

Danh sách các hình

Hình 1 Ví dụ về tính cấu trúc của trang web bán cấu trúc 4

Hình 2 Ví dụ về bài toán nhận dạng thực thể 5

Hình 3 Ví dụ về trích xuất nội dung chính của trang Web 8

Hình 4 Ví dụ về hệ thống tìm kiếm giá cả 9

Hình 5 Ví dụ xây dựng cây DOM sử dụng hộp ảo 12

Hình 6 Dạng biểu diễn của trang list page 15

Hình 7 Dạng biểu diễn của trang detail page 15

Hình 8 Chuyển đổi từ mã HTML sang cây EC 16

Hình 9 Ví dụ giải thuật RoadRunner [12] 20

Hình 10 Trang giới thiệu sản phẩm HP CQ60-203TX 24

Hình 11 Trang giới thiệu sản phẩm HP CQ60-101TX 24

Hình 12 Biểu diễn cây DOM của mã HTML hai trang về sản phẩm HP 25

Hình 13 Ví dụ về trang kinh doanh thông thường 26

Hình 14 Ví dụ về trang rao vặt 27

Hình 15 Ví dụ về trích xuất giá trong một trang web 27

Hình 16 Ví dụ về sản phẩm chứa những giá không đúng 29

Hình 17 Ví dụ về trích xuất giá thực của trang sản phẩm 29

Hình 18 Tập luật trích xuất giá sản phẩm 32

Hình 19 Luật trích xuất ảnh sản phẩm 33

Hình 20 Luật trích xuất thông tin bảo hành sản phẩm 33

Hình 21 Kết quả google trả về với truy vấn "nokia 1200" 35

Hình 22 Kết quả trả về của google với query "nokia 1200" + "vnđ OR usd" 36

Hình 23 Mô hình tổng quan của hệ thống 38

Hình 24 Module xác định các website kinh doanh sản phẩm và các mẫu trích xuất 39

Trang 10

Hình 25 Module Thu thập dữ liệu và trích xuất thông tin 40

Hình 26 Trích xuất các URL liên quan 45

Hình 27 Trang Web có sự nhập nhằng giá cả 48

Hình 28 Trang Web có giá cả rõ ràng 49

Trang 11

Danh sách bảng biểu

Bảng 1 Cấu hình phần cứng sử dụng trong thực nghiệm 41

Bảng 2.Các phần mềm sử dụng trong thực nghiệm 41

Bảng 3 Mô tả chương trình thực thi để trích xuất giá sản phẩm 43

Bảng 4 Kết quả thực nghiệm trích xuất giá thực của một sản phẩm 47

Bảng 5 Kết quả thực nghiệm xác định website kinh doanh sản phẩm 51

Bảng 6 Kết quả thực nghiệm trích xuất sản phẩm 53

Bảng 7 Kết quả thực nghiệm khả năng thu thập thông tin của hệ thống 54

Bảng 8 Một số sản phẩm trích xuất được 54

Trang 12

Giới thiệu

Nhưng năm gần đây, cùng với sự phát triển mạnh mẽ của hạ tầng cơ sở mạng cũng như công nghệ lưu trữ Internet đã trở thành một thành phần không thể thiếu trong đời sống con người Hàng loạt các ứng dụng dựa trên nền tảng của Internet đã ra đời để phục

vụ cho nhu cầu, lợi ích của con người Nổi bật lên trong các ứng dụng đó chính là các ứng

dụng liên quan đến thương mại điện tử Thương mại điện tử ra đời giúp con người giảm

thiểu tối đa thời gian cũng như chi phí khi tham gia giao dịch hàng hóa.Tuy nhiên cùng với sự phát triển của thông tin trên Internet thì các thông tin liên quan đến thương mại điển tử cũng bùng nổ không kém, hàng loạt các trang web bán hàng trực tuyến cùng với

nó là hàng triệu sản phẩm và các thông tin liên quan đến sản phẩm làm cho con người khó

khăn trong việc tìm kiếm Các câu hỏi: Sản phẩm nào tốt ? Giá cả cửa hàng nào tốt hơn ? Tìm kiếm thông tin của sản phẩm ở đâu ? làm con người khó khăn khi lựa chọn một sản

phẩm cần giao dịch Giải pháp cho vấn đề này đó chính là cần có một hệ thống tìm kiếm phục vụ cho nhu cầu tìm kiếm này của con người các hệ thống này thường được biết đến

với tên gọi hệ thống tìm kiếm giá cả sản phẩm

Chính từ nhu cầu thực tế đấy, hệ thống tìm kiếm giá cả đã được sự quan tâm của rất nhiều công ty lớn như Yahoo, Google, Amazon…bên cạnh đó nó cũng được sự quan tâm của công động nghiên cứu khoa học Nhiều bài báo liên quan đến các thành phần của hệ thống cũng xuất hiện trên nhiều hội nghị lớn của thế giới như: WWW1, SIGMOD2,…[1],[3],[7] hay các sản phẩm mang tính thương mại như: PriceScan, Kelkoo, Yahoo!Shopping Mặc dù đã tồn tại khá nhiều các hệ thống như vậy nhưng bài toán này vẫn đặt ra rất nhiều các thách thức hiện nay Do các hệ thống có sẵn hầu hết thu thập dữ liệu đều thông qua việc cung cấp của các cửa hàng hay nhập dữ liệu thu công, công việc này tốn nhiều chi phí và thời gian Nhiều nghiên cứu đã được đưa ra để giảm thiểu chi phí này, hầu hết các nghiên cứu đều tập trung vào việc áp dụng các phương pháp trích xuất tự động dựa vào dữ liệu bán cấu trúc để xây dựng các thành phần thu thập tự động thông tin trên các trang web bán hàng trực tuyến

Trên cở sở các nghiên cứu đã có, luận văn cũng đã dựa trên định hướng xây dựng thành phần trích xuất thông tin tự động dựa vào trích xuất thông tin trên dữ liệu bán cấu

1 The International World Wide Web Conferences

Trang 13

trúc để đề xuất ra một mô hình hệ thống tìm kiếm giá cả sản phẩm Và qua mô hình đã đề xuất tác giả đã tiến hành các thực nghiệm để đánh giá các kết quả đạt được của mô hình Khóa luận gồm 4 chương nội dung được mô tả sơ bộ dưới đây:

Chương 1 Khái quát bài toán trích xuất thông tin cho dữ liệu bán cấu trúc

khái quát bài toán trích chọn thông tin nói chung, các cách tiếp cận giải quyết bài toán thông qua miền dữ liệu (có cấu trúc, không cấu trúc và bán cấu trúc) và giới thiệu bài toán trích chọn thông tin cho dữ liệu bán cấu trúc , phương pháp đánh giá khả năng trích xuất thông tin thông qua độ hồi tưởng (R), độ tin cây (P) và các ứng dụng thực tiễn của bài toán

Chương 2 Một số phương pháp sử dụng trong bài toán trích xuất thông tin

cho dữ liệu bán cấu trúc giới thiệu về các sử dụng cây DOM và biểu thức chính

qui để trích xuất thông tin Chương này cũng đề cập đến hai giải thuật trích xuất tiêu biểu đó là giải thuật dựa trên hệ thống Stalker và giải thuật RoadRunner

Chương 3 Áp dụng trích xuất thông tin bán cấu trúc để xây dựng hệ thống tìm

kiếm giá cả sản phẩm nêu khái niệm về hệ thống tìm kiếm giá cả, giới thiệu các

hệ thống hiện tại Chương này cũng đề cập đến cơ sở thực tiễn về công nghệ web hiện tại , từ cơ sở thực tiễn kết hợp với bài toán trích xuất thông tin từ dữ liệu bán cấu trúc để xây dựng cơ sở lý thuyết để trích xuất thông tin giá cả của sản phẩm, đưa ra mô hình của hệ thống và nêu được tính mở của hệ thống đề xuất

Chương 4 Thực nghiệm và đánh giá kết quả để đánh giá các bài toán nêu ở

phần cơ sở lý thuyết tại chương 3 về trích xuất giá cả của sản phẩm Kết quả thực nghiệm cho thấy được hiệu quả của phương pháp trích xuất giá cả sản phẩm

Phần kết luận tóm lược nội dung chính của khóa luận và nêu định hướng phát

triển trong thời gian tới

Trang 14

Chương 1 Khái quát bài toán trích xuất thông tin cho dữ liệu bán cấu trúc

Chủ đề chính của khóa luận là áp dụng bài toán trích xuất thông tin cho dữ liệu bán cấu trúc để xây dựng hệ thống tìm kiếm giá cả Chương này sẽ giới thiệu bài toán trích xuất thông tin nói chung và bài toán trích xuất thông tin cho dữ liệu bán cấu trúc nói riêng, từ đó đưa ra một số ứng dụng của bài toán trích xuất thông tin cho dữ liệu bán cấu trúc, đồng thời cũng giới thiệu về phương pháp đánh giá khả năng trích xuất thông qua độ hồi tưởng (R), độ tin cậy (P)

1.1 Bài toán trích xuất thông tin

1.1.1 Giới thiệu bài toán

Trích xuất thông tin bài toán nhận dạng những thành phần thông tin cụ thể của một văn bản, những thành phần này chính là hạt nhân tạo nên nội dung ngữ nghĩa của văn bản

đó [6]

Ví dụ: Với một báo cáo thời tiết có thể trích xuất được thông tin về các vùng, thời gian, nhiệt độ cao hay thấp Với một trang web về kinh doanh sản phẩm trực tuyến có thể trích xuất được thông tin về tên sản phẩm, thuộc tính của sản phẩm và giá của sản phẩm

đó

1.1.2 Dữ liệu của bài toán

Dữ liệu thông thường được chia thành 3 dạng cơ bản[17]:

• Dữ liệu không cấu trúc: Dữ liệu không cấu trúc thường dùng để chỉ dữ liệu ở dạng tự do và không cần có cấu trúc định nghĩa sẵn ví dụ như: ngôn ngữ tự nhiên

• Dữ liệu có cấu trúc: Dữ liệu có cấu trúc thường dùng để chỉ dữ liệu lưu trữ trong các hệ quản trị cơ sở dữ liệu quan hệ như MS SQL server hay MySQL, trong đó các thực thể và các thuộc tính được định nghĩa sẵn

• Dữ liệu bán cấu trúc: Là dữ liệu có cấu trúc nhưng không hoàn toàn tường minh,

nó không tuân theo những cấu trúc, cách thức cấu trúc của bảng và các mô hình

dữ liệu trong cơ sở dữ liệu nhưng nó chứa những thẻ , những đánh dấu tới những

Trang 15

phần tử ngữ nghĩa riêng biệt của các bản ghi và các trường riêng biệt bên trong

dữ liệu

Các trang web thông thường là một dạng tiêu biểu của dữ liệu bán cấu trúc, những thành phần có cấu trúc trong trang web đó là dữ liệu được lấy từ tầng cơ sở dữ liệu (có cấu trúc) bên dưới và hiện thị trên web thông qua các thẻ HTML…

Hình 1: Mô tả dữ liệu bán cấu trúc về trang sản phẩm, dữ liệu này chứa tên các sản phẩm, giá sản phẩm và các thông tin chi tiết về sản phẩm Các thông tin ứng với từng sản phẩm được mô tả dưới dạng mã HTML đã định trước Dữ liệu này được lấy từ tầng cơ sở

dữ liệu (có cấu trúc) bên dưới và hiển thị trên trang web thông qua các thẻ HTML Đây chính là thành phần có cấu trúc của trang web

Hình 1 Ví dụ về tính cấu trúc của trang web bán cấu trúc

1.1.3 Các hướng tiếp cận trong bài toán trích xuất thông tin

Các bài toán trích xuất thông tin thông thường được tiếp cận theo dữ liệu mà bài toán đó xử lý Vì vậy có những dạng bài toán như sau:

Cấu trúc HTML giống nhau

Trang 16

• Dữ liệu có cấu trúc

Đối với dữ liệu có cấu trúc, việc trích xuất thông tin là khá đơn giản Vì các thông tin đã được biểu diễn theo những định dạng chuẩn của bảng, thực thể nên có thể lấy được những thông tin cần thiết một các dễ dàng dựa vào những truy vấn

Ví dụ: dữ liệu có cấu trúc được lưu trữ trong hệ quản trị cơ sở dữ liệu MS SQL, MySQL có thể trích xuất được những thông tin cần thiết dựa vào các lệnh SQL như SELECT, JOIN

• Dữ liệu không cấu trúc

Đối với dữ liệu không cấu trúc thì có một số bài toán về trích xuất thông tin như nhận dạng và trích xuất thực thể: tên người, tên tổ chức…

Một ví dụ của trích xuất thực thể:

Hình 2 Ví dụ về bài toán nhận dạng thực thể

Để giải quyết bài toán trích xuất thực thể thì có nhiều cách tiếp cận như HMM, SVM hay CRF…ngoài ra còn một giải thuật khá nổi tiếng đó là giải thuật DIPRE - Dual Iterative Pattern Relation Expansion của BRin [8] trong việc trích xuất cặp thực thể quan

hệ tên sách và tác giả đối với trang amazon.com

Trang 17

• Dữ liệu bán cấu trúc

Web là dữ liệu điển hình trong dữ liệu bán cấu trúc Trích xuất thông tin web đó là vấn đề trích xuất các thành phần thông tin mục tiêu từ những trang Web Một chương

trình hay một luật trích xuất thường được gọi là một wrapper [2]

Phương pháp trích xuất này có nhiều hướng tiếp cận như sử dụng cây DOM[15] Phương pháp này sẽ phân tích mã nguồn HTML dưới dạng một cây các node, mỗi node là một thẻ HTML, quá trình trích xuất thông tin sẽ dựa vào đường đi từ gốc đến node chứa thông tin cần trích xuất

1.2 Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc

1.2.1 Vấn đề đặt ra với bài toán

Trích xuất thông tin cho dữ liệu bán cấu trúc

Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc là rất hữu dụng bởi vì nó cho phép chúng ta thu được và tích hợp dữ liệu từ nhiều nguồn để cung cấp cho những dịch

vụ giá trị gia tăng như : thu được những thông tin Web một cách tùy ý, hệ thống tìm kiếm giá cả, hay meta-search Ngày càng nhiều các công ty, các tổ chức phổ cập các thông tin ở trên Web, thì khả năng trích xuất dữ liệu từ các trang Web đó ngày càng trở nên quan trọng

Bài toán này đã được bắt đầu nghiên cứu vào giữa những năm của thập niên 1990 bởi nhiều công ty và các nhà nghiên cứu[2]

1.2.2 Một số phương pháp trích xuất thông tin cho dữ liệu bán cấu trúc

Như ta đã nói về một số hướng tiếp cận ở mục 1.1.3 đối với dữ liệu bán cấu trúc thì bài toán trích xuất có một số phương pháp điển hình như:

• Phương pháp thủ công

Quan sát một trang Web và mã nguồn của nó, người lập trình sẽ tìm một vài mẫu và viết chương trình để trích xuất các dữ liệu mục tiêu Để làm đơn giản hơn cho người lập trình, một vài ngôn ngữ miêu tả mẫu và các giao diện người dùng đã được xây dựng Tuy nhiên với phương pháp này thì không thể làm việc với một số lượng lớn các trang[2]

Trang 18

• Wrapper qui nạp

Đây là phương pháp bán tự động Nó được đề xuất vào khoảng năm 1995-1996 Trong phương pháp này thì một tập hợp các luật trích xuất được học từ một bộ các trang

đã được gán nhãn bằng tay Sau đó các luật này sẽ được dùng để trích xuất các thành phần

dữ liệu từ những trang có định dạng tương tự Một số giải thuật tiêu biểu như: Stalker[5], WIEN[13](được sử dụng trong máy tìm kiếm lycos)

q

x n

%100

q

x m

Ví dụ:

Nếu tập dữ liệu cần trích xuất là 100 (tài liệu)

Dữ liệu trích xuất được là: 97 (tài liệu)

Dữ liệu trích xuất đúng là: 90 (tài liệu)

%100100

90

x

%10097

90

x

Trang 19

1.2.4 Ứng dụng của bài toán trích xuất thông tin cho dữ liệu bán cấu trúc

• Nhận dạng và trích xuất nội dung chính của trang Web

Với một trang web ngoài những thành phần mang thông tin chính thì còn những thành phần ít có ý nghĩa về mặt thông tin như quảng cáo, các menu Việc nhận dạng và trích xuất nội dung chính của trang web giúp giảm thiểu việc lưu trữ thông tin và tối ưu kết quả trả về trong các máy tìm kiếm vì máy tìm kiếm chỉ phải lưu nội dung chính của trang web và tìm kiếm trong nội dung chính này Các giải thuật được đề xuất như ContentExtractor và FeatureExtractor của Debnath[9],[10]

Hình 3 Ví dụ về trích xuất nội dung chính của trang Web

Nội dung chính

Trang 20

• Hệ thống tìm kiếm giá cả sản phẩm

Hệ thống cho phép người sử dụng so sánh được giá cả của sản phẩm mà họ muốn mua Hệ thống này phải duyệt qua các trang web kinh doanh sản phẩm để trích xuất các thông tin hữu dụng về sản phẩm

Hình 4 Ví dụ về hệ thống tìm kiếm giá cả

Trang 21

Chương 2 Một số phương pháp sử dụng trong bài toán trích xuất thông tin cho dữ liệu bán cấu trúc

Có nhiều kỹ thuật cũng như giải thuật được sử dụng để giải quyết bài toán trích xuất thông tin cho dữ liệu bán cấu trúc Chương 2 sẽ giới thiệu những kỹ thuật trích xuất sử dụng cây DOM [15],[6] và biểu thức chính qui[2] Chương này cũng đề cập đến hai giải thuật trong bài toán trích xuất thông tin cho dữ liệu bán cấu trúc và các ưu nhược điểm của giải thuật đó

2.1 Trích xuất thông tin dựa vào cây DOM

2.1.1 Khái nhiệm cây DOM

Theo W3C thì DOM (Document Object Model) là một giao diện lập trình ứng dụng (API) cho các văn bản HTML hợp lệ và các văn bản XML có cấu trúc chặt trẽ Nó định nghĩa cấu trúc logic của các văn bản và cách thức một văn bản được truy cập và thao tác[15] Ví dụ về một bảng được lấy văn bản HTML:

Trang 22

2.1.2 Xây dựng cây DOM

Xây dựng cây DOM từ những trang Web đầu vào là một bước cần thiết trang nhiều giải thuật trích xuất dữ liệu [2] Có hai phương pháp cơ bản để xây dựng các cây DOM

- Sử dụng các thẻ riêng biệt

Hầu hết các thẻ HTML làm việc trong một cặp Mỗi cặp chứa một thẻ mở <> và một thẻ đóng </> Bên trong mỗi cặp thẻ có thể có những cặp thẻ khác, kết quả là cấu trúc trở nên chồng chéo Xây dựng một cây DOM từ một trang Web bằng cách sử dụng mã HTML của nó là một vấn đề cần thiết Trong một cây DOM, mỗi cặp thẻ là một node, những cặp thẻ ẩn bên trong là node con của node hiện tại Có hai nhiệm vụ cần thi hành

đó là:

¾ Làm sạch mã HTML: Một vài thẻ không cần thẻ đóng (như <li>, <hr>,) mặc

dù chúng có thẻ đóng Bởi vậy một thẻ đóng nên được chèn vào để tất cả các thẻ được cân bằng Các thẻ được định dạng không tốt cũng cần thiết được sửa chữa Một thẻ sai thường là một thẻ đóng, đó là thẻ cắt ngang các khối ẩn bên trong Ví

dụ: <tr> … <td> … </tr> … </td>, sẽ rất khó để sửa lỗi trường hợp này nếu

tồn tại sự chồng chéo đa cấp Có một vài phần mềm mã nguồn mở để làm sạch

mã HTML, một số những phần mềm thông dụng như: JTidy, NekoHTML, HTMLCleaner

¾ Xây dựng cây: Chúng ta có thể đi theo các khối con của các thẻ HTML để xây

dựng được cây DOM

- Sử dụng các thẻ và các hộp ảo (visual cue)

Thay vì phân tích mã HTML để sửa lỗi, có thể sử dụng sự biểu diễn hoặc các thông tin ảo (ví dụ như: địa chỉ trên màn hình mà các thẻ được biểu diễn) để suy luận mối quan

hệ có cấu trúc của các thẻ và có thể xây dựng được cây DOM Phương thức xây dựng có thể phân tích mã HTML thành cây DOM, miễn là trình duyệt có thể hiển thị được đoạn

mã đó một cách chính xác

Trong một trình duyệt web, mỗi phần tử HTML (chứa đựng một thẻ mở, các thuộc tính tùy chọn, nội dung HTML được nhúng tùy ý và một thẻ đóng, thẻ này có thể thiếu) được biểu diễn như một hình chữ nhật Thông tin ảo này có thể lấy được sau khi mã

Trang 23

HTML được biểu diễn trên trình duyệt Một cây DOM sau đó có thể được xây dựng dựa vào các thông tin ảo này Các bước xử lý như sau:

¾ Tìm 4 đường biên của hình chữ nhật ứng với mỗi phần tử HTML thông qua việc công cụ trình diễn của trình duyệt, ví dụ: Internet Explorer

¾ Theo sự tuần tự của các thẻ mở và sự kiểm tra xem một hình chữ nhật có nằm trong một hình chữ nhật khác không, để xây dựng cây DOM

Ví dụ minh họa về sử dụng visual cue:

Một đoạn mã HTML có 3 lỗi sử dụng thông tin ảo có thể dễ dàng xây dựng được cây DOM

Hình 5 Ví dụ xây dựng cây DOM sử dụng hộp ảo

2.1.3 Sử dụng cây DOM để trích xuất thông tin

Để trích xuất được thông tin cần thiết ở một node của cây DOM, chúng ta cần chỉ rõ đường đi từ gốc của cây đến node cần trích xuất thông tin Đường đi này gọi là một XPath[16]hay mẫu trích xuất

Trích xuất thông tin web dựa vào cây DOM trước tiên việc trích xuất này được hỗ trợ bởi xây dựng cây DOM cho mã HTML của trang

Các mẫu trích xuất có thể được làm rõ như đường dẫn từ gốc của cây DOM đến node chứa nội dung cần trích xuất

Trang 24

Ví dụ :

Đây là cây DOM của một đoạn mã HTML chứa thông tin về cuốn sách, gồm tên cuốn sách (title) và tên tác giả (author) Bài toán đặt ra là sử dụng cây DOM này trích xuất các thông tin về tên sách và tác giả viết sách Mẫu trích xuất được xây dựng sau:

2.2 Trích xuất thông tin dựa theo các mẫu biểu thức chính qui

2.2.1 Khái niệm biểu thức chính qui

Một biểu thức chính qui có thể được sử dụng để mô hình mã hóa HTML [2] Cho một tập các ký tự alphabe ∑ và một token “#text” không thuộc ∑, một biểu thức chính qui trên ∑ là một chuỗi trên ∑∪{#text, *,?,|,(,)} được định nghĩa như sau :

Sample DOM Tree Extraction

Mẫu trích xuất tên sách: HTMLÆBODYÆBÆCharacterData

Mẫu trích xuất tên tác giả: HTMLÆ BODYÆFONTÆAÆ CharacterData

HTML

BODY

FONT B

Age of Spiritual Machines

Ray Kurzwei

Element

Character-Data HEADER

A

Trang 25

Một chuỗi rỗng ε và tất cả các phần tử trong ∑ ∪ {#text} đều là một biểu thức chính qui

Nếu A và B là một biểu thức chính qui, thì AB, (A|B) và (A)? cũng là một biểu thức chính qui, trong đó (A|B) tức là A hoặc B và (A)? thức là (A|ε)

Nếu A là một biểu thức chính qui, thì (A)* cũng là biểu thức chính qui, trong đo (A)*= {ε, A, AA, AAA,…}

Chúng ta cũng sử dụng (A)+ để chỉ A(A)* Nếu biểu thức chính qui không có chứa (A|B) thì nó gọi là biểu thức chính qui kết hợp tự do Một biểu thức chính qui thường dùng để thể hiện một mẫu trích xuất

2.2.2 Sử dụng biểu thức chính qui để trích xuất thông tin

Với một biểu thức chính qui, một otomat hữu hạn trạng thái có thể được xây dựng

và được sử dụng để so khớp sự xuất hiện của nó trong chuỗi tuần tự các trang web Trong quá trình này, dữ liệu có thể được trích xuất

Ví dụ: Với mã HTML như sau:

<head>

</head>

Để lấy được phần tiêu đề của đoạn mã này thì ta có thể xây dựng biểu thức chính qui như sau: <head>.*?<title>(#text)</title>

2.3 Một số giải thuật trích xuất thông tin cho dữ liệu bán cấu trúc

2.3.1 Hai kiểu biểu diễn của các trang giàu dữ liệu

Các trang giàu dữ liệu được chia thành hai loại thông qua sự biểu diễn của chúng[2]

- List Page: là trang chứa đựng một vài danh sách của các đối tượng Hình 8 giới

thiệu một list page Có hai dạng trang list, đó là trang list bố trí theo chiều ngang

Trang 26

hoặc chiều dọc Bên trong mỗi vùng, bản ghi dữ liệu được định dạng sử dụng cùng một mẫu và mẫu sử dụng trong hai vùng khác nhau là khác nhau [2]

- Detail Page: là trang chỉ giới thiệu một đối tượng đơn Ví dụ hình 9 là một trang

detail page giới thiệu về sản phẩm Nó chứa đựng tất cả các thuộc tính của sản phẩm như: tên, ảnh, giá, thông số kỹ thuật, thời gian bảo hành [2]

Hình 6 Dạng biểu diễn của trang list page

Hình 7 Dạng biểu diễn của trang detail page

Trang 27

2.3.2 Một số giải thuật điển hình

Hiện nay tư tưởng của phương pháp trích xuất thủ công không còn được sử dụng

Vì vậy khóa luận chỉ giới thiệu phương pháp trích xuất thông tin tự động và bán tự động cho “bài toán trích xuất thông tin cho dữ liệu bán cấu trúc”

• Phương pháp Wrapper qui nạp: đây là phương pháp trích xuất bán tự động

Giải thuật được nêu ra dưới đây là giải thuật dựa trên hệ thống Stalker

- Một ví dụ về trích xuất theo giải thuật dựa trên hệ thống Stalker

Một trang Web có thể được nhìn dưới dạng có thứ tự của token S (ví dụ như: các từ, các số và các thẻ HTML) Việc trích xuất sử dụng một cấu trúc cây gọi là cây EC(embedded catalog tree), đây là công cụ để mô hình dữ liệu nhúng trong một trang HTML Gốc của cây là văn bản chứa tất cả các token tuần tự S của trang, nội dung của mỗi node con là một chuỗi con của node cha Để trích xuất một node, Wrapper sử dụng miêu tả cây EC của trang đó và tập hợp các luật trích xuất

Ví dụ bên dưới là sự chuyển đổi một đoạn mã HTML sang cây EC Chú ý rằng chúng ta sử dụng LIST ở đây bởi vì tập hợp các địa chỉ luôn luôn có thứ tự

Hình 8 Chuyển đổi từ mã HTML sang cây EC

Trang 28

Với mỗi node trong cây, Wrapper nhận dạng hoặc trích xuất nội dung của node từ cha của nó, node cha là node chứa đựng chuỗi token của tất cả các node con Mỗi trích xuất được thực hiện bởi 2 luật, Start Rule và End Rule Start Rule chỉ ra sự bắt đầu của node và End Rule chỉ ra sự kết thúc của node Phương thức này có thể áp dụng cho cả node lá và các node danh sách (list node)

Các luật trích xuất dựa trên ý tưởng của mỏ neo (landmark) Mỗi mỏ neo là một chuỗi các token liên tiếp và nó dùng để đánh dấu sự bắt đầu hay kết thúc của một phần tử mục tiêu Hình dưới đây là trình diễn mã HTML của trang web trong hình 10

Restaurant Name: Good Noodles

<li> 205 Willow, Glen, Phone 1-773-366-1987</li>

<li> 25 Oak, Forest, Phone (800) 234-7903 </li>

<li> 324 Halsted St., Chicago, Phone 1-800-996-5023 </li>

<li> 700 Lake St., Oak Park, Phone: (708) 798-0008 </li>

Để trích xuất được tên của quán ăn “Good Noodles” thì luật trích xuất sẽ là:

Start Rule: R1: SkipTo() tức là hệ thống nên xuất phát ở điểm bắt đầu của trang

và bỏ qua tất cả các token cho đến khi chúng thấy được thẻ đầu tiên Các luật

SkipTo(:) hoặc SkipTo(i) đề không đúng Vì theo cây EC trong hình 10 R1 là cha của node name, như vậy nó sẽ là node gốc Node gốc thì chứa chuỗi token tuần tự của cả

trang Web

Tương tự End Rule : R2: SkipTo () sẽ xác định được điểm kết thúc tên của quán ăn

- Quá trình học luật

Trong hệ thống Wrapper qui nạp quá trình học là một quá trình chủ đạo

Khóa luận này sẽ trình bày giải thuật học của wrapper để sinh ra các luật trích xuất Ý tưởng cơ bản của giải thuật học luật như sau:

Để sinh ra Start Rule cho một node của cây EC, một vài token tiền tố hay các đại diện của node được nhận dạng như các mỏ neo, chúng có thể nhận dạng đơn nhất sự bắt đầu của một node Để sinh ra End Rule cho một node, một vài token hậu tố hay các đại

Trang 29

diện của node được nhận dạng như một mỏ neo Tiến trình sinh Start Rule và End Rule là giống nhau

Cho trước một tập các mẫu huấn luyện đã được gán nhãn, giải thuật học sẽ sinh ra các luật trích xuất tổng quan để trích xuất tất cả các phần tử mục tiêu (positive items) mà không trích xuất các phần tử khác (nagertive items)

Sau quá trình này thì một wrapper đã được sinh ra , nó sẽ được áp dụng cho các trang web khác chứa đựng các dữ liệu tương tự và được định dạng cùng một cách với tập mẫu huấn luyện

- Ưu điểm và nhược điểm

Ưu điểm:

Người sử dụng chỉ phải gán nhãn một lượng nhỏ các dữ liệu mẫu.Quá trình học là

quá trình tự động để sinh ra luật trích xuất

Nhược điểm:

Nếu một site thay đổi, làm sao để wrapper biết được sự thay đổi đó?

Nếu phát hiện chính xác có sự thay đổi, làm sao để tự động sử wrapper?

Vì phương pháp này phụ thuộc vào việc gán nhãn bằng tay nên nó không phù hợp cho trích xuất một lượng lớn các trang Ví dụ, nếu một trang kinh doanh sản phẩm muốn trích xuất tất cả các các sản phẩm được bán trên Web, việc gán nhãn bằng tay hầu như là nhiệm vụ không thể Việc duy trì wrapper là việc làm rất tốn kém, vì web là một môi trường động Các site thì luôn luôn thay đổi

• Phương pháp trích xuất tự động

Để hạn chế nhược điểm của Wrapper qui nạp, phương pháp trích xuất tự động đã được nghiên cứu rất nhiều Việc trích xuất tự động là hoàn toàn có thể bởi vì dữ liệu trên một website thường được mã hóa với một số lượng mẫu cố định Có thể tìm những khuôn mẫu đó bằng việc khai phá những mẫu lặp lại trong nhiều trang của một website

Trong một vài ứng dụng, chúng ta cần trích xuất dữ liệu từ các trang detail-page, vì những trang này chứa nhiều thông tin hơn Ví dụ: trong một trang list-page, thông tin của mỗi sản phẩm thông thường chỉ là tên, ảnh và giá Tuy nhiên nếu ứng dụng cần những thông tin miêu tả sản phẩm thì chúng ta cần trích xuất từ những trang detail

Trang 30

Một thuật toán trích xuất tự động khá tiêu biểu mà có thể trích xuất ở cả trang detail

và trang list đó là RoadRunner

- Mô tả giải thuật

Đầu vào: Một tập hợp các trang mẫu, mỗi trang chứa đựng một hay nhiều bản ghi

(một trang có thể là list page hoặc detail page)

Đầu ra: Một mẫu trích xuất có thể trích xuất được tất các các trang trong tập mẫu,

trong giải thuật này mẫu trích xuất đó là biểu thức chính qui kết hợp tự do

- Phương thức tiếp cận

Ban đầu, giải thuật sẽ lấy một số lượng ngẫu nhiên các trang với mẫu trích xuất W Mẫu trích xuất W sau đó được định nghĩa lại bởi việc kết hợp có thứ tự với mã HTML của mỗi trang pi khác trong tập mẫu, để giải quyết vấn đề sai khác giữa các mẫu trích xuất của các trang trong tập mẫu Cuối sung giải thuật sinh ra một wrapper chung có thể trích xuất được tất cả các trang trong tập mẫu Wrapper này sẽ được áp dụng trích xuất cho những trang khác có cấu trúc tương tự với những trang trong mẫu

Sự sai khác xuất hiện khi một vài token của trang pi xuất hiện sai khác so với W

Có hai kiểu sai khác trong việc so khớp đó là:

¾ Sự sai lệch xâu văn bản (string mismatch) : Chúng biểu thị thông qua các trường

dữ liệu hay các mục

¾ Sự sai khác giữa các thẻ (tag mismatch)

Giải thuật này được làm rõ trong hình dưới đây:

Trang 31

Hình 9 Ví dụ giải thuật RoadRunner [12]

- Ưu, nhược điểm của giải thuật

Ưu điểm: Không cần sự gán nhãn của người dùng với tập mẫu huấn luyện, có thể

tự động xây dựng được mẫu trích xuất

Nhược điểm: Nó không thể tự động nhận dạng được đâu là thực thể thông tin

mong muốn của người dùng Vì vậy người sử dụng sẽ vẫn phải tự gán nhãn những kết quả đầu ra Ví dụ: hình trên khi nó xác định được thẻ có dữ liệu tương đương của 2 trang nhưng nó không thể xác định đấy là tên của quyển sách,

mà chỉ có thể xác định nó là một xâu ký tự

Trang 32

Chương 3 Áp dụng bài toán trích xuất thông tin bán cấu trúc để xây dựng hệ thống tìm kiếm giá cả sản phẩm

Việc áp dụng bài toán trích xuất thông tin cho dữ liệu bán cấu trúc để xây dựng hệ thống tìm kiếm giá cả sản phẩm là vấn đề quan trọng nhất của khóa luận Trong chương này khóa luận sẽ đề cập đến khái niệm của hệ thống tìm kiếm giá cả, phương pháp xây dựng hệ thống và cách đánh giá các hệ thống đang tồn tại

3.1 Khái quát hệ thống tìm kiếm giá cả của sản phẩm

Trong phần này khóa luận sẽ đề cập tới khái niệm về hệ thống tìm kiếm giá cả, các phương pháp xây dựng, ưu nhược điểm của các hệ thống tìm kiếm giá cả hiện tại, từ đó đưa ra cách tiếp cận để xây dựng hệ thống tìm kiếm giá cả phù hợp

3.1.1 Khái niệm

Hệ thống tìm kiếm giá cả (hay còn được biết đến với tên là “dịch vụ so sánh giá cả”)

là một khái niệm thuộc lĩnh vực thương mại điện tử Các hệ thống này cho phép người

sử dụng tìm kiếm và thấy được sự so sánh giá cả của một sản phẩm cụ thể trên nhiều trang web bán hàng khác nhau [18] Hệ thống tìm kiếm giá cả thông thường không phải là một hệ thống bán hàng trực tuyến, tuy nhiên nó chính là một công cụ gián tiếp hỗ trợ việc giới thiệu sản phẩm của các cửa hàng kinh doanh cũng như việc mua hàng của người sử dụng

3.1.2 Các phương pháp xây dựng

Do các hệ thống tìm kiếm giá cả tập trung vào việc thể hiện các thông tin giá cả trên nhiều trang web bán hàng khác nhau nên hướng tiếp cận để giải quyết bài toán này cũng đều đi sâu vào việc tạo ra một môi trường tốt nhất cho việc thu thập, trao đổi thông tin sản phẩm giữa các cửa hàng có sản phẩm và hệ thống Thông thường có ba phương pháp để xây dựng hệ thống dựa vào đặc trưng trên [18] :

- Phương pháp dựa vào sự cung cấp thông tin trực tiếp từ các cửa hàng Các hệ

thống dạng này sẽ nhận được sự cung cấp thông tin của các cửa hàng về thông tin, giá cả của sản phẩm, người quản trị hệ thống sẽ cập nhập vào cơ sở dữ liệu của hệ thống Các cửa hàng sẽ không tương tác trực tiếp lên hệ thống

Trang 33

- Phương pháp dựa vào sự tương tác của cửa hàng trên hệ thống Các hệ thống dạng

này thường được biết đến như là các mô hình B2C(Business To Customer), B2B (Business To Business) trong thương mại điện tử Hệ thống sẽ tạo ra môi trường giao diện, cho phép các cửa hàng tương tác trực tiếp với hệ thống để cung cấp thông tin

- Phương pháp tự động thu thập thông tin từ các trang web bán hàng hay giới thiệu

sản phẩm của các cửa hàng Hệ thống dạng này sẽ không dựa vào sự cung cấp thông tin của các cửa hàng mà tự động truy nhập vào các trang web của cửa hàng để trích xuất các thông tin sản phẩm đưa về cơ sở dữ liệu của hệ thống

3.1.3 Các hệ thống hiện tại

• Các hệ thống hiện tại

Đối với ba phương pháp tiếp cận đã được giới thiệu ở mục 3.1.2, việc áp dụng hai phương pháp đầu sẽ gặp phải các hạn chế do dữ liệu của hệ thống hoàn toàn phụ thuộc vào sự cung cấp của các cửa hàng trong khi giá cả là dạng dữ liệu biến động liên tục theo thời gian đòi hỏi phải có sự cập nhật liên tục thông tin vào cơ sở dữ liệu Bên cạnh đó, việc áp dụng hai phương pháp này, cơ sở dữ liệu sẽ bị giới hạn về số lượngcửa hàng cung cấp dữ liệu cho hệ thống Do đó hai phương pháp này không phải là phương pháp tối ưu

để xây dựng hệ thống tìm kiếm giá cả

Còn ở phương pháp tiếp cận thứ ba, dữ liệu được thu thập thông qua các trang kinh doanh sản phẩm Hệ thống sẽ quét qua những trang web cửa hạng để nhận được giá cả của sản phẩm, thay vì phải sử dụng nguồn cung cấp của người kinh doanh Vì vậy đây là phương pháp có giá trị nhất tình tới thời điểm hiện nay

Có rất nhiều bài toán được đề xuất theo phương thức tiếp cận thứ ba để xây dựng hệ thống tìm kiếm giá cả như:

- “Bootstrapping Information Extraction from Semi-structured Web Pages” được đề

xuất bởi Andrew Carlson và Charles Schafer áp dụng cho những trang cho thuê nhà

và du lịch … [1]

- “Automated Price Comparison Shopping Search Engine” của Elwin Chai, Rick

Jones áp dụng cho hệ thống PriceHunter [3]

- “A Scalable Comparison-Shopping Agent for the World-Wide Web” của Robert Bo

Trang 34

• Các vấn đề của bài toán nêu trên

Các bài toán này được đề xuất để xây dựng những hệ thống tìm kiếm giá cả sản phẩm, tuy nhiên chúng gặp phải một vấn đề, đó là các tên của sản phẩm phải được cung

cấp trước và các trang kinh doanh sản phẩm phải xác định rõ trên hệ thống

Ở Việt Nam hiện nay cũng có một vài hệ thống khá tiêu biểu như : Vatgia1, Aha2 Tuy nhiên hai hệ thống này lại xây dựng theo cách tiếp cận thứ hai, nên phải phụ thuộc nhiều vào các nhà kinh doanh

Từ những nhận định đã nêu trên, khóa luận này sử dụng cách tiếp cận thứ ba để xây dựng hệ thống và sẽ giải quyết một số tồn tại một số phương pháp xây dựng hệ thống tìm kiếm giá cả hiện tại

3.2 Cơ sở thực tiễn

Hiện nay các trang web đều xây dựng trên nền những ngôn ngữ lập trình động như PHP, ASP… Khi người dùng vào một trang kinh doanh sản phẩm và tìm kiếm một sản phẩm nào đó thì kết quả được trả về và hiển thị trên trình duyệt theo một số khuôn mẫu định sẵn, các trang trong cùng khuôn mẫu này thì có chung cấu trúc HTML Tức là khi chúng ta biết mẫu để trích xuất một trang trong khuôn mẫu này, thì có thể sử dụng mẫu đó

để trích xuất những thông tin của những trang khác có cùng khuôn mẫu

Ví dụ : Với website www.trananh.vn, hình 13,14 là hai sản phẩm của laptop HP được biểu diễn bởi hai trang detail

1 http://www.vatgia.com

Trang 35

Hình 10 Trang giới thiệu sản phẩm HP CQ60-203TX

Hình 11 Trang giới thiệu sản phẩm HP CQ60-101TX

Hai trang detail này tuy giới thiệu về hai sản phẩm khác nhau nhưng đều có chung một dạng biểu diễn của cây DOM

Tiêu đề	Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc và áp dụng xây dựng hệ thống tìm kiếm giá cả sản phẩm
Tác giả	Vũ Tiến Thành
Người hướng dẫn	Th.S. Trần Thị Oanh, CN. Trần Mai Vũ
Trường học	Đại Học Công Nghệ
Chuyên ngành	Công nghệ thông tin
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2009
Thành phố	Hà Nội

Định dạng
Số trang	70
Dung lượng	1,71 MB

bài toán trích xuất thông tin cho dữ liệu bán cấu trúc và áp dụng xây dựng hệ thống tìm kiếm giá cả sản phẩm

Một số giải thuật điển hình

Các hệ thống hiện tạ i