Luận văn thạc sĩ Khoa học máy tính: Nghiên cứu, thử nghiệm mô hình rút trích thông tin và phân đa lớp văn bản bằng các chiến lược HAH và DDAG cải tiến

Đó là khởi nguồn cho bài toán rút trích thông tin và phân lớp văn bản và mở rộng hơn là bài toán phân đa lớpvăn bản dựa trên dữ liệu là nội dung các trang web trên internet.. TÔNG QUAN1.

PHƯƠNG PHÁPC .>2^ .c eeciee 12

Sử dụng Wrapper

Wrapper là phương pháp rút trích thông tin phổ biến từ các trang web Một wrapper được xem như một thủ tục thiết kế để rút trích nội dung của một nguồn thông tin cụ thể Trong môi trường web, wrapper chuyển đồi thông tin được lưu trữ dưới dang tài liệu HTML thành tài liệu được lưu trữ dưới dang dit liệu có cấu trúc để phục vụ cho những xử lý khác.

Một trong những giải pháp đầu tiên được sử dụng để tạo ra wrapper là phát triển ngôn ngữ xây dựng wrapper Trước khi phát triển giải pháp này, để xây dựng một wrapper thì ngôn ngữ Java thường được dùng Tuy nhiên việc tạo ra một thư viện các wrapper nhằm đề có thé rút trích những loại thông tin khác nhau thì đây là một cách rất mat nhiều công sức và thời gian Vì vậy người ta phát triển một lớp ngôn ngữ bên trên thân thiện, dễ dùng và không đòi hỏi những kiến thức sâu về kỹ thuật lập trình. Những công cụ theo hướng này có thé kể ra đây bao gồm: Lapis, Web-OQL, Tsimmis,

Mặc dù phát triển ngôn ngữ xây dung wrapper đã góp phan rất lớn giúp người sử dụng dễ dàng tạo wrapper rút trích thông tin mà mình quan tâm, tuy nhiên hiện nay các thông tin được trình bày theo phong cách và định dạng khác nhau ở các website khác nhau, thậm chí trên cùng một website nhưng cách trình bày thông tin của các trang web cũng khác nhau theo từng thời điểm khác nhau Điều này khiến cho người sử dụng phải liên tục cập nhật lại các wrapper mà mình đã viết, dé các wrapper này có thé rút trích những loại thông tin đã từng rút trích được nhưng bây giờ đã được trình bày theo định dạng khác.

Rút trích tự động nội dung liên quan đên từ khóa

Rút trích tự động từ khóa là xác định một tập hợp các từ, cụm từ khóa, từ khóa, phân đoạn quan trọng đại diện cho một văn bản.

Ta sử dụng phương pháp thống kê đơn giản Phương pháp này thực hiện tìm kiếm và tải về các trang web có nội dung liên quan đến từ khóa đó Nội dung tìm kiếm được lưu thành file dạng văn bản text, đã có sự sàng lọc, loại bỏ các phần không cần thiết như hình ảnh, quảng cao

“Thuật toán rút trích thông tin trong một trang web lấy ý tưởng từ thuật toán so sánh trùng hai cây html Dữ liệu biểu diễn mỗi trang web là một cây dang xml. Đối với mỗi trang web cần rút trích, chương trình sẽ quét các link trong trang đó để tìm link có cấp bậc gần nhất với nó và nhiều khả năng là trang chứa nội dung như nó, có cùng mẫu (template) với nó Khi được một cặp trang cần rút trích và trang mẫu, chương trình phân tích chúng thành cây, so sánh các nút của hai cây, từ gốc đến lá để tìm phan nội dung, loại bỏ phan trùng nhau giữa hai trang.

2.2.3 Xử lý ngôn ngữ tự nhiên Đây là phương pháp sử dụng các kỹ thuật xử lí ngôn ngữ tự nhiên được áp dụng cho những tài liệu mà thông tin trên đó là phi cấu trúc Các kỹ thuật này xem xét sự ràng buộc về mặt ngữ nghĩa và cú pháp dé từ đó có thé nhận dang ra các thông tin liên quan, cũng như dẫn xuất ra các luật rút trích thông tin Các công cụ sử dụng phương pháp này thích hợp cho việc rút trích thông tin trên những trang web có chứa những đoạn văn bản tuân theo qui luật văn phạm.

Tuy nhiên các thông tin trên web hiện nay đa phần là có cấu trúc hay bán cầu trúc và không phải lúc nào cũng được trình bày theo câu cú đúng văn phạm Một số công cụ áp dụng phương pháp này như: WHISK, RAPIER, SR [2.3].

Phương pháp rút trích thông tin này được thực hiện bằng cách so trùng trang web cần rút trích với trang web mẫu Việc này được thực hiện dễ dàng hơn đối với các trang web tin tức Nếu trang web cần rút trích có khung trình bày giống trang web mẫu, ta sẽ xác định được nội dung cần rút trích [3, 6, 7]

Cụ thể, ví dụ Hình 2.1 (nguồn [7]), phan thông tin trong khung nét liền là thông tin về khung trình bày chung của hai trang web, phần thông tin trong khung nét đứt là phần thông tin khác nhau mang nội dung chính của trang web, đây là nội dung cần rút trích.

Như vậy, để thực hiện phương pháp này Ta sử dụng các đoạn mã chương trình chạy trên web server để tạo ra đoạn mã Html thể hiện khung trình bày trang web mẫu, làm căn cứ so sánh với trang web cần rút trích dé tìm ra nội dung thông tin theo yêu câu.

Dé thực hiện việc rút trích thông tin người ta tuần tự làm những bước sau:

1 Tìm những trang web mà tiên liệu được rằng khuôn mẫu trình bày thông tin trên đó là giống nhau, sau đó nhóm chúng lại.

2 Đối với mỗi nhóm ở trên, người ta thực hiện so sánh các trang web dé đi tìm các điểm giống và khác nhau đề từ đó suy ra được khuôn mẫu trình bày chung của nhóm.

3 Từ khuôn mẫu tìm ra được của mỗi nhóm, thực hiện rút trích dữ liệu của các trang web thuộc nhóm đó.

Phương pháp này có điểm mạnh là có thể tự động rút trích thông tin mà kết quả không bị ảnh hưởng trong cả trường hợp cách trình bày thông tin khác nhau ở các trang web khác nhau và trường hợp cách trình bày thông tin trên một trang web luôn thay đổi Tuy nhiên kết quả rút trích của phương pháp này chỉ cho kết quả tốt với giả định rằng các trang web hiện nay thường trình bày thông tin theo một số mẫu và với mỗi mẫu sẽ được áp dụng lên một nhóm các trang Do đó nếu gặp các website không theo xu hướng này thì phương pháp đang trình bày sẽ thất bại.

Ngoài ra phương pháp này có thé được cải tiến bằng cách biến đổi hai trang web thành cây đa phân rồi tiến hành thực hiện việc so trùng trên cấu trúc của 2 cây đa phân này.

Kết quả nghiên cứu cho thấy phương pháp nhận dạng mẫu cải tiến bằng cách so trùng trên các cây da phân có độ chính xác cao khi rút trích thông tin trên các trang web Đặc biệt phương pháp này thích hợp cho việc rút trích thông tin trên các trang báo điện tử Vì hầu hết các trang báo điện tử hiện nay được tổ chức theo mô hình các trang tin tức trên một trang web đều có cùng cách trình bày như nhau [2,3].

Nhận dạng mẫu Chương 3 PHAN LỚP VĂN BẢN 222222222222222+22222222222222222222112221112XeY 17