1. Trang chủ
  2. » Luận Văn - Báo Cáo

LUẬN VĂN NGHIÊN CỨU CÔNG NGHỆ KHAI PHÁ DỮ LIỆU VĂN BẢN, ÁP DỤNG CHO CÁC TRANG TIN TỨC TRÊN CÁC THIẾT BỊ CẦM TAY (PDAS & SMARTPHONES)

62 1,5K 11

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 2,53 MB

Nội dung

LUẬN VĂN NGHIÊN CỨU CÔNG NGHỆ KHAI PHÁ DỮ LIỆU VĂN BẢN, ÁP DỤNG CHO CÁC TRANG TIN TỨC TRÊN CÁC THIẾT BỊ CẦM TAY (PDAS & SMARTPHONES)

Trang 1

VŨ NGỌC ANH

NGHIÊN CỨU CÔNG NGHỆ KHAI PHÁ DỮ LIỆU VĂN BẢN,

ÁP DỤNG CHO CÁC TRANG TIN TỨC TRÊN CÁC THIẾT BỊ

CẦM TAY (PDAS & SMARTPHONES)

LUẬN VĂN THẠC SỸ KHOA HỌC

HÀ NỘI-2006

Trang 2

Vũ Ngọc Anh – K9T3 Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

VŨ NGỌC ANH

NGHIÊN CỨU CÔNG NGHỆ KHAI PHÁ DỮ LIỆU VĂN BẢN,

ÁP DỤNG CHO CÁC TRANG TIN TỨC TRÊN CÁC THIẾT BỊ

CẦM TAY (PDAS & SMARTPHONES)

NGÀNH CÔNG NGHỆ THÔNG TIN

CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN

MÃ SỐ: 01.01.10

LUẬN VĂN THẠC SỸ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS HÀ QUANG THỤY

HÀ NỘI-2006

Trang 3

Vũ Ngọc Anh – K9T3 Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan các kết quả nêu trong luận văn là trung thực và chưa từng được công bố trong các công trình khác

Tác giả luận văn

Vũ Ngọc Anh

Trang 4

Vũ Ngọc Anh – K9T3 Trang 3

MỤC LỤC

TÓM TẮT 5

CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT 6

CHÚ GIẢI KÝ HIỆU VÀ MÔ HÌNH 7

CÁC HÌNH MINH HỌA 8

MỞ ĐẦU 9

CHƯƠNG I XÂY DỰNG KÊNH CUNG CẤP TIN ĐIỆN TỬ TRÊN THIẾT BỊ CẦM TAY 12

1.1 Báo điện tử và công nghệ Internet không dây 12

1.1.1 Báo điện tử - một thành tựu của Internet 12

1.1.2 Sự phát triển của các thiết bị cầm tay 13

1.1.3 Công nghệ kết nối internet không dây 14

1.2 Bài toán xây dựng kênh tin tức điện tử trên thiết bị cầm tay 15

1.2.1 Mô tả bài toán 15

1.2.2 Mô tả các chức năng cơ bản của hệ thống 16

1.3 Hướng tiếp cận giải quyết bài toán 16

Chương II THUẬT TOÁN RTDM VÀ ỨNG DỤNG TRONG TRÍCH XUẤT TIN 18

2.1 Khái niệm “Chi phí chuyển đổi cây” 18

2.2 Thuật toán RTDM 22

2.3 Áp dụng RTDM trích xuất tin tức tự động 29

2.3.1 Phân cụm trang 31

2.3.2 Trích xuất mẫu chung 32

2.3.3 Khớp dữ liệu 35

2.3.4 Gán nhãn dữ liệu 37

Trang 5

Vũ Ngọc Anh – K9T3 Trang 4

Chương III PHÂN TÍCH THIẾT KẾ HỆ THỐNG 39

3.1.Giới thiệu 39

3.2 Mô hình Use Case: 40

3.2 Mô hình lớp 45

3.4 Danh sách các thực thể 47

3.5 Mô hình thực thể liên kết 48

Chương IV KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 49

4.1 Giới thiệu chung về hệ thống 49

4.2 Thực nghiệm và đánh giá kết quả 49

KẾT LUẬN 54

TÀI LIỆU THAM KHẢO 55

PHỤ LỤC MÔ TẢ CHI TIẾT CÁC THỰC THỂ 58

Trang 6

Vũ Ngọc Anh – K9T3 Trang 5

TÓM TẮT

Luận văn quan tâm nghiên cứu các giải pháp trích chọn thông tin trên Web nhằm xây dựng một hệ thống cung cấp tin tức trên các thiết bị cầm tay thông minh mà tin tức này được trích chọn từ các báo điện tử tiếng Việt

Luận văn sử dụng thuật toán RTDM (Restricted Top-Down Mapping) do Davi

de Castro Reis và các đồng tác giả đề xuất [28], một thuật toán được đánh giá rất hiệu quả trong việc trích chọn tin tức tức tự động thông qua việc phân tích cấu trúc cây Hiện nay RTDM được dùng như là thành phần lõi chính của hệ thống trích xuất tin tức có tên là AkwanClipping (Akwan Information Technologies, http://www.akwan.com, thuộc công ty Google tại Braxin) cung cấp tin tức hàng ngày của các tờ báo phổ biến nhất tại Braxin

Luận văn đã tiến hành chi tiết và hoàn thiện các phần nội dung không công bố của thuật toán RTDM, đồng thời tiến hành xây dựng một hệ thống kênh cung cấp tin điện tử trên các thiết bị cầm tay thông minh Hệ thống thử nghiệm việc trích chọn tin tức trên các báo điện tử tiếng Việt phổ dụng hiện nay và đã cho kết quả đáng khích lệ Chúng tôi đang tiến hành cải tiến tốc độ làm việc của hệ thống nhằm tiến tới đưa hệ thống vào hoạt động thực tế

Trang 7

Vũ Ngọc Anh – K9T3 Trang 6

CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT

Từ viết tắt Giải nghĩa

Data extraction Trích xuất dữ liệu

Edit distance Chi phí chuyển đổi giữa 2 cây (thay thế, chèn, xoá nút)

t[i] Cây con có nút gốc tại vị trí thứ i

Trang 8

với hệ thống trong quá trình thực hiện

tương ứng với các kết quả nhận được

tượng

Trang 9

Vũ Ngọc Anh – K9T3 Trang 8

CÁC HÌNH MINH HỌA

Hình 3 - Ví dụ về ánh xạ giữa 2 cây 20

Hình 4 – Ví dụ ánh xạ trên-xuống 21

Hình 5 – Một ví dụ về ánh xạ trên xuống hạn chế 23

Hình 6 - Một mẫu tin chi tiết Quốc tế trên trang tienphongonline.com.vn 30

Hình 7: Các bước trích xuất tin tức [28] 31

Hình 8 - Các bước hình thành ne-pattern từ các nhóm 37

Hình 9 : Gói các lớp quản lý các cây HTML Error! Bookmark not defined. Hình 10 : Gói các lớp phục vụ tính toán giá trị RTDM 46

Hình 11 : Gói các lớp quản lý các trang tin tức 46

Trang 10

Vũ Ngọc Anh – K9T3 Trang 9

MỞ ĐẦU

Sự phát triển của báo điện tử, một thành quả của Internet nói riêng và của Công nghệ thông tin nói chung, đã dẫn tới các thay đổi lớn đối với thói quen đọc báo Internet với ưu thế về tốc độ và khả năng vươn xa cho phép độc giả có thể tiếp cận tin tức mọi lúc mọi nơi Với sự tiến bộ không ngừng của công nghệ viễn thông, ngày nay thiết bị cầm tay thông minh ngày càng được phổ biến với giá

cả ngày càng hạ và đã trở thành một công cụ đắc lực, bình dân và không thể thay thế Tốc độ kết nối Internet không dây được cải thiện không chỉ về tốc độ

mà cả về phạm vi phủ sóng, trong đó, thế hệ mạng không dây chuẩn WIMAX (IEEE 802.16) cho phép khoảng cách phủ sóng tới 50km và thông lượng tối đa tới 70Mbps

Tất cả những yếu tố trên đây đã trở thành tiền đề cho việc đáp ứng nhu cầu xem tin tức trên thiết bị cầm tay, một nhu cầu đã trở thành thiết yếu, hàng ngày, hàng giờ của mỗi người dùng cuối các thiết bị này

Tuy nhiên, việc đọc báo trên các thiết bị cầm tay còn nhiều bất tiện Khung màn hình hạn chế của thiết bị cầm tay không cho phép hiển thị trang Web được thiết kế cho máy tính để bàn: font chữ thường bị lỗi khi xem tin tức trên thiết bị cầm tay, các thông tin quảng cáo và banner cũng được tải về cùng với tin tức làm giảm đáng kể tốc độ và gây tràn màn hình…

Chính vì vậy, mục đích của luận văn này là xây dựng một hệ thống cho phép

dễ dàng và thuận tiện xem tin tức tiếng Việt của báo điện tử bất kỳ trên thiết bị cầm tay thông minh

Luận văn sử dụng thuật toán RTDM (Restricted Top-Down Mapping) do Davi

de Castro Reis và các đồng tác giả đề xuất [28], một thuật toán được đánh giá rất hiệu quả trong việc trích xuất tin tức tức tự động thông qua việc phân tích cấu trúc cây

Thuật toán RTDM được cải tiến trên thuật toán trích xuất thông tin Web đã có

để áp dụng đặc thù riêng cho bài toán trích xuất tin tức Qua thực nghiệm trên

35 trang tin tức, thuật toán RTDM cho kết quả trung bình 87.71% trích xuất tin tức thành công không cần có sự can thiệp của con người Hiện tại, RTDM được sử dụng như là thành phần lõi chính của hệ thống trích xuất tin tức có tên

là AkwanClipping (Akwan Information Technologies, http://www.akwan.com,

Trang 11

Nội dung của luận văn được tổ chức thành bốn chương được giới thiệu sơ bộ như dưới đây

Chương 1 Xây dựng kênh tin tức điện tử trên các thiết bị cầm tay giới thiệu sự

phát triển nhanh chóng của báo điện tử và công nghệ kết nối Internet không dây, tiền đề cho việc ra đời của kênh cung cấp tin điện tử trên các thiết bị cầm tay Mô tả bài toán và hướng tiếp cận giải quyết bài toán xây dựng kênh tin điện tử từ các báo điện tử tiếng Việt trên các thiết bị cầm tay cũng được trình bày

Bài toán xây dựng kênh tin tức điện tử trên các thiết bị cầm tay được giải quyết trên cơ sở phân cụm các trang Web trong site báo điện tử theo đó nội dung tin tức cần trích chọn được lấy từ vùng nội dung thông tin trong cấu trúc các trang Web của site đó

Chương 2 Thuật toán RTDM và ứng dụng trong trích xuất tin trình bày vấn đề đánh giá tính tương đồng của các trang Web thông qua khái niệm chi phí chuyển đổi cây đối với kiến trúc cây mô tả các trang Web Sau khi phân cụm,

lớp tương ứng với mỗi cụm được gán nhãn để tạo dựng mô hình phân lớp cho các trang Web mới và trích chọn tin tức Luận văn đề xuất một phiên bản chi tiết của thuật toán để thi hành hệ thống trích chọn tin tức trên các báo điện tử Với phiên bản này, vấn đề thi hành hệ thống trở nên dễ dàng hơn

Chương 3 giới thiệu quá trình phân tích và thiết kế hệ thống theo tiếp cận hướng đối tượng Các mô hình tương ứng được trình bày ở đây

Chương 4 trình bày hệ thống thực nghiệm với một số nhận xét đánh giá kết quả thực nghiệm

Trang 12

Vũ Ngọc Anh – K9T3 Trang 11 Phần Kết luận tóm tắt các kết quả chính yếu nhất của luận văn

Trang 13

Vũ Ngọc Anh – K9T3 Trang 12

CHƯƠNG I XÂY DỰNG KÊNH CUNG CẤP TIN ĐIỆN TỬ

TRÊN THIẾT BỊ CẦM TAY

1.1 Báo điện tử và công nghệ Internet không dây

1.1.1 Báo điện tử - một thành tựu của Internet

Đọc báo chí, xem tin tức là một nhu cầu không thể thiếu của mỗi người trong

xã hội thông tin, không phân biệt lứa tuổi Các loại báo chí được phát hành đa dạng về nội dung, hình thức phù hợp với nhu cầu riêng biệt của từng độc giả Hiện nay, với sự phát triển lớn mạnh của internet kéo theo sự bùng nổ thông tin, thông qua các trang báo điện tử Chỉ với một thao tác tìm kiếm đơn giản, ta cũng có thể tìm được hàng trăm đến hàng ngàn trang báo đủ chủng loại Chẳng hạn ta sử dụng công cụ tìm kiếm của Google để tìm theo từ khoá "Báo điện tử"

và những trang từ Việt nam, hàng loạt các trang tin tức được liệt kê như vietnamnet.vn, vnexpress.net, dantri.com.vn, tuoitre.com.vn… Theo thống kê

của google.com.vn thì có đến 755.000 kết quả tìm được, tất nhiên trong số đó

rất nhiều các kết quả là trùng nhau, nhưng con số đó cũng đủ để nói lên sự phát triển lớn mạnh về số lượng của các trang tin tức điện tử tại Việt Nam hiện nay Một ưu điểm lớn của các tin tức trên các trang báo điện tử đó là tính thời sự, cập nhật rất cao Đối với các tin tức trên báo in giấy, có khi ta phải đợi đến ngày hôm sau mới được xem Nhanh nhất như báo "Thể thao Việt nam", cũng phải đến 5h sáng hôm sau mới có thể đăng thông tin về các trận đấu trong buổi đêm ngày hôm đó Ngược lại, đối với các báo điện tử, thông tin có thể được cập nhật gần như lập tức khi có sự kiện

Theo thống kê trên diễn đàn nghiệp vụ báo chí Việt Nam vào tháng 11 năm

20041, hiện có khoảng 2 triệu người Việt Nam truy cập Internet, và không ít hơn số đó là độc giả của các tờ báo điện tử như VietNamNet, VnExpress, TuoitreOnline, Lao động điện tử

Do ưu thế về phương tiện công nghệ mà báo điện tử ngày càng thu hút được nhiều độc giả Ở Mỹ, nếu tính theo số lượng độc giả thì báo giấy đang ngày càng bị thất thế so với báo điện tử Một nghiên cứu hồi tháng 3-2005 của Hiệp

1 http://www.vietnamjournalism.com/module.html?name=News&file=article&sid=185

Trang 14

1.1.2 Sự phát triển của các thiết bị cầm tay

Ngày nay, với sự phát triển vượt bậc của khoa học công nghệ, các sản phẩm cầm tay đã thực sự đem lại rất nhiều hiệu quả lao động cho con người Các thiết bị có thể kể đến ở đây là các điện thoại thông minh (smart phone), máy tính bỏ túi (pocket pc) Cùng với sự phát triển công nghệ, các thiết bị này đã được hỗ trợ khả năng lướt Web không dây với tốc độ ngày càng cải thiện Do

đó, đây cũng là một kênh tiếp cận thông tin, tin tức điện tử thuận tiện nhanh chóng, gọn nhẹ mọi lúc mọi nơi Hơn thế nữa, do nhu cầu công việc của con người cộng với giá cả cũng hợp lý nên các thiết bị này cũng ngày càng được dùng phổ biến hơn (nhiều nhất vẫn là trong các doanh nghiệp) Những thuận

2 http://www.vietnamjournalism.com/module.html?name=News&file=article&sid=866

http://www.vietnamjournalism.com/module.html?name=News&file=article&sid=837

Hình 1 Tin tức điện tử trên các thiết bị cầm tay

Trang 15

Vũ Ngọc Anh – K9T3 Trang 14

lợi này là cơ sở dẫn tới nhu cầu xem tin tức điện tử trên các thiết bị cầm tay ngày một phát triển3

1.1.3 Công nghệ kết nối internet không dây

Song song với sự phát triển của các thiết bị cầm tay, công nghệ kết nối không dây cũng phát triển ngày càng mạnh mà mới đây nhất là chuẩn Wimax - 802.16e với khả năng kết nối với tốc độ 20Mbps trong phạm vi 3km và có thể tiến xa hơn Wimax hay còn gọi là chuẩn 802.16, mới được công nhận vào tháng 1/2003, cung cấp khả năng truy cập băng rộng không dây giữa người sử dụng và điểm kết nối bằng các băng tần từ 2 đến 11 GHz, có thể kết nối mà không cần điều kiện tầm nhìn thẳng Hiện tại, chuẩn này đã được kết nối thử nghiệm tại khoảng trên 100 điểm trên toàn thế giới Công nghệ này đặc biệt phù hợp với việc phổ cập Internet băng rộng tại nhiều miền sâu, vùng xa

Trên thế giới hiện có khoảng 100 cuộc thử nghiệm công nghệ WiMAX đang được tiến hành Sự quan tâm của các chính phủ và các nhà cung cấp dịch vụ về triển khai công nghệ WiMAX là bằng chứng rõ ràng cho thấy công nghệ này rất thiết thực, người dùng cuối sẽ được tận hưởng những giá trị sử dụng cao từ dịch vụ băng rộng không dây và khả năng di động không giới hạn Hiện nay, công nghệ WiMAX đang được sử dụng làm công nghệ không dây cố định cho truy cập băng rộng đầu cuối trong năm 2005 và sẽ tiến tới di động hoàn toàn trong những năm tới4

Chưa cần đến khả năng kết nối tốc độ cao, các dịch vụ truy cập internet di động cũng sẽ được hình thành tại VN trong thời gian tới với tốc độ chấp nhận được 156Kbps đối với các thiết bị di động Dịch vụ băng rộng di động của EVN Telecom sử dụng công nghệ CDMA 2000-1X, tần số 450 Mhz, cho phép người sử dụng kết nối Internet trực tiếp trên máy điện thoại hoặc thông qua máy tính cá nhân với tốc độ 156 Kbps đối với mạng 1X tại bất cứ nơi nào có phủ sóng5

3 http://vnexpress.net/Vietnam/Vi-tinh/2004/06/3B9D3AA2/

4 http://www.vnexpress.net/Vietnam/Vi-tinh/2005/12/3B9E4EC3/

5 http://vnexpress.net/Vietnam/Vi-tinh/2005/12/3B9E511E/

Trang 16

Vũ Ngọc Anh – K9T3 Trang 15

1.2 Bài toán xây dựng kênh tin tức điện tử trên thiết bị cầm tay

1.2.1 Mô tả bài toán

Mục tiêu của luận văn là nghiên cứu các công nghệ khai phá dữ liệu văn bản,

áp dụng cho việc xây dựng một kênh tin tức điện tử hỗ trợ cho những người sử dụng có thể đọc tin tức trên thiết bị cầm tay (PDA) Hệ thống này sẽ trích lọc, thu gọn các trang báo cồng kềnh thành các trang tin gọn nhẹ, dễ đọc với sự loại

bỏ các thông tin dư thừa, các banner quảng cáo, thu nhỏ các hình ảnh sao cho phù hợp với màn hình hạn chế của các thiết bị cầm tay (Hình 1)

Hình 2 mô tả sơ đồ của hệ thống kênh tin tức điện tử cho các thiết bị cầm tay

Hệ thống được tích hợp vào phục vụ truy nhập Web của các thiết bị cầm tay, cung cấp dịch vụ đọc tin tức PDA Mỗi khi người dùng cuối sử dụng dịch vụ này, hệ thống căn cứ vào các khuôn mẫu đã được nhận biết về mỗi báo điện tử

để trích chọn chỉ nội dung tin tức cần thiết cho người dùng Cách làm như vậy

rất thích hợp với việc khai thác tin tức từ các thiết bị cầm tay

Hình 2 Sơ đồ hệ thống Kênh tin tức cho các thiết bị cầm tay

Trang 17

Vũ Ngọc Anh – K9T3 Trang 16

1.2.2 Mô tả các chức năng cơ bản của hệ thống

Hệ thống cần thực hiện được các chức năng cơ bản là xác định các tin - mục tin trên các báo điện tử, xử lý trang tin và định dạng hiển thị tin trên các thiết bị cầm tay Dưới đây là một số yêu cầu cơ bản của các chức năng này

a) Chức năng xác định các tin - mục tin trên các báo điện tử

- Yêu cầu: xác định được các mục tin của các trang báo điện tử, trong các trang

chi tiết, hệ thống phải xác định được các vùng tin cần trích xuất, vùng tin có thể loại bỏ Các vùng tin tức sau khi trích xuất sẽ được định dạng lại cho phép hiển thị trên thiết bị cầm tay

- Đề xuất giải pháp:

Sử dụng kĩ thuật phân tích cấu trúc trang tin sử dụng thuật toán RTDM [28] Giải pháp này áp dụng định dạng cho các trang tin bất kì có thể xem được trên các màn hình thiết bị cầm tay có kích thước hạn chế

b) Chức năng xử lý trang tin

- Yêu cầu: xử lý nội dung trang tin cần xem, xác định kiểu trang tin, lọc bỏ các

thông tin dư thừa và xây dựng lại trang tin cho phép hiển thị trên thiết bị cầm tay

c) Chức năng định dạng hiển thị tin trên các thiết bị cầm tay

- Yêu cầu: Hiển thị các trang tin (phân phối giữa hình ảnh, văn bản cho phù

hợp để có thể hiển thị tốt trên các thiết bị cầm tay)

- Đề xuất giải pháp: Bản thân các trình duyệt trên các thiết bị cầm tay khi kết

nối vào một trang bất kì sẽ hiển thị hết nội dung của trang đó, do vậy ta xây dựng một Web site thu nhỏ kích thước của trang Web tin tức Công việc chỉnh sửa này thực hiện trên Web server sẽ làm tăng hiệu quả hoạt động của thiết bị cầm tay do tốc độ xử lý của các thiết bị cầm tay là không yêu cầu cao

1.3 Hướng tiếp cận giải quyết bài toán

Nội dung đề tài này là giải quyết bài toán phân cụm các trang web theo nội dung Trên cơ sở bài toán phân cụm các trang web, hệ thống tìm ra các khuôn mẫu trang Web trong một site cung cấp tin tức điện tử, mỗi khuôn mẫu đó

Trang 18

Vũ Ngọc Anh – K9T3 Trang 17

được coi là một lớp các trang Web tương ứng trong site Đối với mỗi khuôn mẫu, hệ thống áp dụng việc trích xuất nội dung các trang tin tức và định dạng lại cho phép xem được trên các thiết bị cầm tay

Như vậy, một bài toán cốt lõi của hệ thống là phân cụm các trang Web thuộc site báo điện tử để xác định các lớp trang Web có chung khuôn dạng trình diễn, qua đó nhận diện được vùng trong khuôn mẫu này chứa các nội dung cần trích chọn Vấn đề xác định tính tương đồng giữa các trang Web, nền tảng để phân cụm, được trình bày trong chương tiếp theo thông qua khái niệm chi phí chuyển đổi cây và thuật toán RTDM [28]

Trang 19

Vũ Ngọc Anh – K9T3 Trang 18

Chương II THUẬT TOÁN RTDM VÀ ỨNG DỤNG TRONG TRÍCH

XUẤT TIN

2.1 Khái niệm “Chi phí chuyển đổi cây”

Như giới thiệu ở chương trước, việc tìm kiếm hoặc trích xuất dữ liệu từ các trang Web có thể được thực hiện thông qua việc phân tích cấu trúc của các trang Web đó Với việc phân tích cấu trúc của các trang Web này, ta có thể

nhóm các trang có cùng cấu trúc thành một nhóm trang và tìm những biểu diễn

giống nhau của cấu trúc của các trang Web này trong một nhóm

Nội dung chính của chương này được tổng hợp các nội dung cơ bản của [28] Phiên bản chi tiết của thuật toán RTDM do luận văn đề xuất Ngoài ra, luận văn cũng đưa ra một số nhận xét, ý tưởng có thể dùng để cải tiến thuật toán Theo Davi de Castro Reis và các đồng tác giả [28], cấu trúc của các trang Web

có thể được biểu diễn dưới dạng một cây (Ví dụ như Cây DOM), vì vậy chúng

ta sử dụng khái niệm chi phí chuyển đổi cây (Tree Edit Distance) để đánh giá

mức độ giống nhau giữa các trang Một cách trực quan, khoảng cách giữa hai cây TA và TB là "giá tối thiểu" phải trả cho một tập các thao tác để chuyển đổi

TA thành TB

Mặc dù có thể áp dụng cho cây bất kỳ, nhưng để thuận tiện áp dụng nên trong luận văn này, chúng tôi tập trung chủ yếu vào cây có thứ tự, được gán nhãn, có

gốc cố định (labeled ordered rooted tree) Một cây có gốc (rooted tree) là cây

có đỉnh gốc là cố định Cây có thứ tự có gốc (ordered rooted tree) là cây có gốc

cố định và thứ tự các con là cố định với mỗi đỉnh Cây có thứ tự, được gán

nhãn, có gốc cố định là cây có mỗi đỉnh được gán nhãn l Từ đây về sau, chúng

ta sẽ đơn giản sử dụng khái niệm "cây" để chỉ cây có thứ tự, được gán nhãn, có gốc cố định, các trường hợp khác sẽ được chú thích cụ thể

Trang 20

Vũ Ngọc Anh – K9T3 Trang 19

Để mô tả cấu trúc cây của các trang Web, ta giả sử rằng các trang Web này được biểu diễn dưới dạng một cây "cây có thứ tự, được gán nhãn, có gốc cố định" Các nhãn ở đây chính là các thẻ HTML như <table>, <tr>, <td> …

Hình 3 Ví dụ cây có thứ tự, được gán nhãn, có gốc cố định

Chi phí tính toán chi phí chuyển đổi cây thông qua việc sử dụng 3 thao tác

chính là Xoá đỉnh, Chèn đỉnh, Thay thế đỉnh Chi phí cho từng thao tác này là

khác nhau tuỳ trường hợp Giải pháp của bài toán chính là tìm tập hợp các thao tác được thực hiện với chi phí là nhỏ nhất để chuyển đổi giữa hai cây

Một bài toán tương đương chính là bài toán tìm ánh xạ chuyển đổi (dưới đây

gọi tắt là ánh xạ) giữa hai cây với chi phí nhỏ nhất

Trong các phần trình bày dưới đây, kí hiệu Tx để chỉ một cây và kí hiệu Tx[i]

để chỉ đỉnh thứ i của Tx Kích thước của một cây chính là số đỉnh có trong cây

đó Davi de Castro Reis và các đồng tác giả đã xem xét khái niệm ánh xạ chuyển đổi cây như một khái niệm cơ bản trong phương pháp của họ [28]

Trang 21

Nói một cách đơn giản, phép ánh xạ cho phép mô tả các bước hiệu chỉnh từ cây này thành cây kia, không quan tâm đến thứ tự các thao tác được áp dụng Trong hình 3, những đường nét đứt giữa các đỉnh của cây T1 và các đỉnh của cây T2 phải thay đổi nếu các đỉnh này khác nhau, các đỉnh còn lại không phải thay đổi Đỉnh không có đường nào nối tới trên cây T1 là đỉnh sẽ bị xoá, còn đỉnh không có đường nào nối tới trên cây T2 là đỉnh phải được chèn vào

Như đã đề cập ở trên, việc tìm chi phí chuyển đổi cây tương đương với việc tìm chi phí nhỏ nhất cho ánh xạ giữa 2 cây Gọi M là ánh xạ giữa hai cây T1 và cây T2, gọi S là tập con các cặp (i,j) ∈ M với các nhãn riêng biệt, D là tập hợp các nút trong T1 mà không xuất hiện trong bất cứ cặp (i,j) ∈ M, I là tập hợp các nút trong T2 mà không xuất hiện trong bất cứ cặp (i,j) ∈ M Khi đó chi phí cho việc ánh xạ được cho bởi công thức:

c = Sp + Iq + Dr

Trong đó p, q, r tương ứng là chi phí cho thao tác thay thế, chèn và xóa một nút Ta có thể giả thiết các chi phí này là bằng nhau nhưng khi cài đặt vào ứng dụng thực thì các chi phí này có thể khác nhau

Trang 22

Vũ Ngọc Anh – K9T3 Trang 21

Bài toán tính toán chi phí chuyển đổi giữa hai cây là một bài toán khó, có một

số giải thuật, đưa vào một số các yếu tố cân bằng khác nhau, được đề xuất gần đây, tuy nhiên tất cả đều có độ phức tạp tính toán trên cấp đa thức bậc hai Hơn nữa, người ta chứng minh rằng nếu hai cây không có thứ tự thì bài toán có độ phức tạp là NP-đầy đủ

Thuật toán đầu tiên về bài toán ánh xạ (được giới thiệu trong tài liệu [18]) với

độ phức tạp là O(n1n2h1h2) với n1 và n2 là kích thước của cây, h1 và h2 là độ cao tương ứng Đây là thuật toán tính toán động thực hiện việc tính toán đệ quy chi phí chuyển đổi giữa các xâu biểu diễn tập hợp các đỉnh con của các đỉnh của cây J T L Wang và các đồng tác giả [21] đã giới thiệu một thuật toán với độ phức tạp O(d 2 n 1 n 2 min(h 1 ,l 1 )min(h 2 ,l 2 )) với d là chi phí chuyển đổi giữa các cây con, h 1h 2 là chiều cao còn l 1l 2 là số các lá của mỗi cây

Một trong các cách tiếp cận điển hình là tiếp cận dựa trên phép ánh xạ xuống, phép ánh xạ trên-xuống hạn chế các thao tác chèn và xoá ở các nút lá Hình 4 minh hoạ một ánh xạ trên-xuống như định nghĩa dưới đây

trên-Định nghĩa 2

Ánh xạ M giữa cây T 1 và cây T 2 được gọi là trên-xuống khi và chỉ khi với mọi cặp (i 1 ,i 2 ) M, ta cũng có một cặp (cha(i 1 ), cha(i 2 )) M với i 1 và i 2 tương ứng không phải là nút gốc của T 1 và T 2

Hình 2 – Ví dụ ánh xạ trên-xuống

Trang 23

Ánh xạ trên-xuống cũng đã áp dụng thành công trong một số ứng dụng liên quan đến Web, ví dụ như ứng dụng phân loại tài liệu Trong [16], Nierman và Jagadish sử dụng thuật toán tính toán chi phí chuyển đổi cho ánh xạ trên xuống

để phân nhóm các tài liệu XML

Trong bài toán "Trích xuất tin tức tự động", luận văn này chỉ quan tâm đến vấn

đề xác định sự tương đồng giữa cấu trúc của các trang Web Thực sự là các trang Web có cấu trúc hoặc là cấu trúc HTML hoặc là XML, như đã đề cập ở trên, có thể biểu diễn dưới dạng cây có thứ tự được gán nhãn, có gốc cố định Thường mô hình DOM được vận dụng để mô tả cây

Trong phần tiếp theo sẽ trình bày thuật toán mới xác định chi phí ánh xạ giữa các cây biểu diễn cấu trúc của các trang Web cho lớp bài toán giới hạn đó là

ánh xạ trên-xuống, kết quả của thuật toán này chính là chi phí chuyển đổi giữa

các cây đó

2.2 Thuật toán RTDM

Mục này sẽ trình bày một thuật toán xác định một kiểu ánh xạ "trên-xuống hạn chế" (Restricted Top-Down Mapping) [28] Một cách trực quan, trong phép ánh xạ trên-xuống hạn chế, các thao tác chèn, xóa, thao tác thay thế các đỉnh chỉ hạn chế thao tác với các lá của cây

Trang 24

Vũ Ngọc Anh – K9T3 Trang 23

Định nghĩa 3 [28]

Một ánh xạ trên-xuống M giữa cây T 1 và cây T 2 được gọi là trên-xuống hạn chế khi và chỉ khi với mọi cặp (i 1 ,i 2 ) M, mà t 1 [i 1 ] t 2 [i 2 ], thì sẽ không có con cháu của i 1 và i 2 thuộc M, với i 1 và i 2 không phải là nút gốc của các cây T 1 , T 2

Hình 3 – Một ví dụ về ánh xạ trên xuống hạn chế

Theo [28], thuật toán RTDM là kết hợp giữa ý tưởng được nêu trong các công trình [19, 25] Để xác định ánh xạ giới hạn trên-xuống giữa 2 cây T1 và T2, đầu tiên thuật toán RTDM tìm các cây con cùng mức giống hệt nhau của T1 và T2 Bước này của thuật toán thực hiện trong thời gian tuyến tính sử dụng đồ thị các lớp tương đương thực hiện tương tự như trong [19], tuy nhiên thuật toán trong [28] thực hiện duyệt cây theo thứ tự sau và cách tiếp cận đơn giản hơn vì chỉ quan tâm đến những cây con cùng mức giống hệt nhau Sau khi các đỉnh của cây được nhóm thành các lớp tương đương, chúng ta áp dụng thuật toán của Yang [25] để tìm ánh xạ trên-xuống hạn chế nhỏ nhất giữa các cây Nội dung thuật toán RTDM được trình bày như sau:

1 RTDM(T 1 , T 2 , ε: ngưỡng)

3 m số con của nút gốc của cây T 1

Trang 26

Thuật toán RTDM có chi phí thời gian tính toán tồi nhất khi hai cây giống hệt nhau Trong các trường hợp khác, chi phí thường được cắt giảm khi thuật toán

bỏ qua các dòng lệnh 18-23 hoặc 15-16 Ở đây thuật toán có đưa ra khai niệm

“ngưỡng” để đề phòng trường hợp thuật toán rơi vào vòng lặp vô hạn, khi đó

thuật toán bỏ qua các dòng lệnh 13-14, trường hợp này rất hay xẩy ra khi chúng ta phân cụm các cây dựa trên cấu trúc tương tự của chúng

Chúng ta cũng nhận thấy rằng, nếu bỏ các dòng lệnh 18-23 thì thuật toán mới thu được áp dụng cho việc tính toán chi phí chuyển đổi cây trên-xuống thông thường

Một khía cạnh đáng chú ý khác của thuật toán RTDM là tính linh hoạt của chi phí các thao tác trên cây cho phép kết quả đưa ra có tính phức hợp cao Nó cho phép so sánh cây cho trước với mẫu có kích thước biến đổi

Thuật toán sẽ được áp dụng để tìm kiếm tin tức tự động trên các trang Web và trích xuất các thành phần của tin tức (ví dụ như: tiêu đề, nội dung,…)

Trang 27

Vũ Ngọc Anh – K9T3 Trang 26

Tuy nhiên thuật toán trên mới chỉ cho phép tính toán chi phí chuyển đổi cây, giá trị trả về là tổng các chi phí xoá, chèn và thay thế Giá trị đó chỉ có thể áp dụng trong bước 1 (phân cụm) trong 4 bước trích xuất đề cập trong phần sau Các bước trích xuất mẫu, khớp dữ liệu yêu cầu phải xác định được ánh xạ giữa hai cây Vì yếu tố bí mật kinh doanh nên Davi de Castro Reis và các đồng tác giả đã không đưa vào các bước cho phép lưu giữ ánh xạ giữa hai cây trong thuật toán này

Chính vì vậy luận văn này xin đề xuất thuật toán sửa đổi thuật toán RTDM của nhóm tác giả Braxin cho phép tính toán chi phí chuyển đổi cây và lưu giữ ánh

xạ giữa 2 cây này

1

SetTreeNodeIndex(T 1 )

SetTreeNodeIndex(T 2 )

Đánh số thứ tự cho các nút trên cây

T 1 và T 2 theo thứ tự duyệt trước

2 Mapping[i,j] = 0; (i = 0, M, j = 0, N)

Biến toán cục, Mapping[i,j]= 1- có ánh xạ giữa nút thứ i trên cây T 1 và nút thứ j trên cây T 2 , 0 – không có ánh xạ, M- số con cháu của T 1 , N – số con cháu của T 2

3 RTDM(T 1 , T 2 , ε: ngưỡng)

5 m số con của nút gốc của cây T 1

6 n số con của nút gốc của cây T 2

10 for i=1 to m do

Trang 28

33 if (d = min(d, i, s)) Action[i, j] = 2; Chi phí xoá nhỏ nhất

34 if (i = min(d, i, s)) Action[i, j] = 3; Chi phí chèn nhỏ nhất

Trang 29

39 while ((ii > 0) && (jj > 0))

theo vết ngược về vị trí M[0,0] tuỳ theo giá trị của Action để gán ánh xạ giữa các nút

Trang 30

Vũ Ngọc Anh – K9T3 Trang 29

Thuật toán đưa vào biến toàn cục Mapping là mảng có kích thước M x N, trong

đó M và N là số con cháu tương ứng của 2 cây Biến Mapping sẽ lưu giữ ánh

xạ giữa 2 cây, nếu giá trị tại vị trí i, j là 1 thì nút thứ i trên cây T 1 có ánh xạ

sang nút thứ j trên cây T 2 Biến Action là mảng 2 chiều có kích thước m x n, trong đó m, n là số con tương ứng của cây T 1 và cây T 2 Biến mảng Action sẽ

theo vết các thao tác (chèn, xoá, thay thế) có chi phí nhỏ nhất

Bước cuối cùng sẽ căn cứ giá trị của mảng Action thuật toán theo vết tìm

ngược về vị trí khởi tạo và gán ánh xạ cho các nút có chi phí thay đổi là nhỏ

nhất Mảng kết quả thu được Mapping sẽ xác định giữa 2 nút tương ứng trên 2 cây có ánh xạ hay không

2.3 Áp dụng RTDM trích xuất tin tức tự động

Trong mục này, chúng ta xem xét ứng dụng của thuật toán RTDM trong việc trích xuất tin tức tự động, bao gồm xác định nội dung tin và các thành phần liên quan, loại bỏ các thông tin dư thừa của trang Web tin tức như mục quảng cáo, các liên kết Công việc trích xuất này bao gồm 2 quá trình: (1) duyệt một loạt các trang tin tức cần xem để lấy thông tin của trang đó về, trích xuất các tin tức từ những trang HTML đã chọn lựa Các kĩ thuật duyệt qua các trang html của một Website đã được trình bày tại một số tài liệu, chẳng hạn [12], chúng ta chỉ xem xét quá trình trích xuất tin tức từ các trang này

Để xác định được một nội dung tin tức, ta cần phải tìm ra các điểm chung của các trang tin (news portal) Các tờ báo tin tức thường có cấu trúc như sau:

“trang chủ” (home page) chỉ hiển thị một số tiêu đề tóm tắt của các mục tin, các “trang mục tin” có các tin tức theo chủ đề nhất định và các tin này được tóm tắt bằng tiêu đề, hình ảnh đi kèm, và tin tóm lược Những “trang tin chi tiết” chứa nội dung tin thường có tiêu đề, tên tác giả, ngày đăng và nội dung

Trang 31

Hình 4 - Một mẫu tin chi tiết Quốc tế trên trang tienphongonline.com.vn

Định nghĩa 4:

Template là một tập hợp các khuôn dạng có cấu trúc và đặc trưng chung xuất hiện trong tập các trang HTML được sinh ra bởi một chương trình hoặc một đoạn mã chương trình

Với các trang Web tin tức, các nhà báo chỉ việc điền thông tin vào một template hoặc thông qua một giao diện cập nhật vào cơ sở dữ liệu Mỗi một trường trong template đó được gọi là một đối tượng siêu dữ liệu (data-rich object) Vì thế, nhiệm vụ của ta là phải xác định được chính xác các template

để từ đó trích xuất được nội dung tin, tiêu đề, ngày xuất bản…

Ngày đăng: 08/01/2014, 21:19

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w