Chương 1 CƠ SỞ LÝ THUYẾT
2.5. Thành phần bóc tách dữ liệu
2.5.2. Các phương pháp xử lý, bóc tách nội dung trang web
Hiện nay đã có một số phương pháp xử lý, bóc tách nội dung văn bản chính của trang web bất kỳ mà không cần biết đến bố cục nội dung của nó.
2.5.2.1. Loại bỏ các thẻ HTML
Đây là cách tiếp cận đơn giản sử dụng đoạn code sau để loại bỏ các thẻ HTML:
Phần nội dung chính của trang Web
Ta có kết quả:
Hình 2.6. Kết quả loại bỏ thẻ HTML
Tuy nhiên nội dung web không chỉ là các thẻ HTML mà còn chứa các nội dung khác. Vì vậy phương pháp này chỉ có thể áp dụng được cho các đoạn HTML nhỏ và riêng lẻ, việc áp dụng cho toàn bộ trang web không mang đến hiệu quả thực sự.
Loại bỏ các thẻ HTML:
Thứ trưởng Giáo dục: 'Không bất thường khi có nhiều điểm 10'
Thứ trưởng Bùi Văn Ga cho rằng đề trắc nghiệm khách quan chuẩn hóa đã phân loại thí sinh tốt. Bên cạnh nhiều điểm 10, số điểm 0 cũng cao.
Kỳ thi THPT 2017 có hơn 4.000 điểm 10, cao gấp hơn 50 lần so với năm 2016. Chiều 6/7, Thứ trưởng Giáo dục và Đào tạo Bùi Văn Ga đã trao đổi với VnExpress về vấn đề này.
2.5.2.2. Phân đoạn trang web VIPS
Phương pháp bóc tách nội dung trang web dựa trên phương pháp tiếp cận trực quan như mắt người nhìn nhận và phân biệt được các khối nội dung trong trang web được bộ phân nghiên cứu Microsoft phát triển với tên gọi VIPS (Vision- based Page Segmentation).
Phương pháp này dựa trên ý tưởng phân tích trang sang dạng Cây DOM với mỗi Node trên Cây mang chỉ số mức độ gắn kết (Degree of Coherence - DoC) nhằm để xác định độ liền mạch các khối thông tin trên trang web theo cảm nhận trực quan.
Thuật toán VIPS phân khối toàn bộ trang web với những đặc tính sau:
Đầu tiên, nó trích xuất tất cả các khối phù hợp dựa trên Cây DOM của trang web.
Tiếp đến, tiến hành tìm những dải phân cách giữa các khối đã được trích xuất. Các dải phân cách này dựa trên các đường ngang hoặc đường dọc được nhìn nhận như đường tách các khối.
Cuối cùng, dựa trên những dải phân cách này, tiến hành xây dựng cấu trúc của trang web.
Sau khi có các khối riêng biệt nhờ giải thuật VIPS, chúng ta tiến hành xác định mức độ quan trọng giữa các khối để bóc tách dữ liệu. Việc xác định độ quan trọng của khối, ta dựa trên các đặc tính của khối đó.
<những đặc trưng của khối > → <độ quan trọng của khối>.
Những đặc trưng của khối được xem xét với những tiêu chí như: tần suất xuất hiện các liên kết (hyperlink) trong khối, chiều dài của đoạn văn bản trong khối, màu nền, màu chữ của các đoạn văn bản, kích thước của khối.
Mỗi một khối được gán nhãn là (x,y) với x là đại diện những đặc trưng của khối, y là độ quan trọng (xem là nhãn). Tập các khối được gán nhãn luôn được tham chiếu đến tập huấn luyện T.
Qua đó, vấn đề ta cần tìm hàm f sao cho
2 )
,
(x y T f(x)y
là nhỏ nhất.
Đây là phương pháp khá hiệu quả nhưng khó khăn trong cài đặt để phát triển ứng dụng.
2.5.2.3. So sánh khung mẫu
Phương pháp bóc tách thông tin bằng cách so trùng hai trang web được xây dựng trên nền tảng nhận dạng mẫu được tác giả Trang Nhật Quang thực hiện trong nội dung ứng dụng thuật toán phân lớp rút trích thông tin văn bản FSVM trên Internet [3]. Phương pháp này cho phép so khớp trang web cần bóc tách với một trang web mẫu để xác định khung trình bày chung cho cả hai trang web cần bóc tách, từ đó đi đến rút trích ra nội dung nằm trong phần được xác định chứa nội dung chính trên trang mẫu.
(a) (b) (c)
Hình 2.7. Kết quả bóc tách nội dung chính bằng so sánh khung mẫu (a) Trang web cần bóc tách nội dung chính.
(b) Trang web khung mẫu (được xác định trước).
(c) Nội dung chính sau khi so khớp và rút được.
Phương pháp này không đòi hỏi người sử dụng phải biết về ngôn ngữ xây dựng wrapper hay phải thay đổi wrapper khi cách trình bày thay đổi do trang web mẫu có thể lấy trực tiếp từ trang chủ và có cùng cách trình bày với trang cần rút trích. Tuy nhiên, đối với mỗi domain, cần phải xác định được một trang web làm mẫu cho những trang khác. Đây cũng là một hạn chế trong quá trình tự động hóa xác định nội dung chính của web.
2.5.2.4. Xử lý ngôn ngữ tự nhiên
Đây là phương pháp sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên được áp dụng cho những tài liệu mà thông tin trên đó thường không có một cấu trúc nhất định (như truyện). Các kỹ thuật này xem xét sự ràng buộc về mặt cú pháp và ngữ nghĩa để nhận dạng ra các thông tin liên quan và rút trích ra thông tin cần thiết cho các bước xử lý nào đó. Các công cụ sử dụng phương pháp này thích hợp cho việc rút trích thông tin trên những trang web có chứa những đoạn văn tuân theo quy luật văn phạm. Một số công cụ sử dụng phương pháp xử lý ngôn ngữ tự nhiên trong việc bóc tách nội dung như: WHISK hay RAPIER.
Đặc trưng của phương pháp này còn phụ thuộc vào ngôn ngữ trên trang web cần được bóc tách nội dung. Đối với tiếng Việt có đề tài “Rút trích nội dung chính trang web dựa vào ngữ cảnh của trang web” của tác giả Hồ Anh Thư. Đề tài tiến hành xác định nội dung chính của trang web dựa vào ngữ cảnh của nội dung, sau đó tiến hành rút trích bản tóm tắt của nội dung dựa trên phương pháp chọn câu trội. Việc xác định nội dung chính được thực hiện qua các bước:
- Loại bỏ thông tin định dạng.
- Tách vùng nội dung dựa vào cấu trúc, mà cụ thể là sử dụng tag TABLE để tách vùng văn bản.
- Xác định mức độ liên quan về mặt nội dung để ghép nối các vùng kế cận với nhau.
- Chọn vùng văn bản có kích thước lớn nhất để xử lý tiếp.
Tuy nhiên phương pháp này có một số nhược điểm sau:
- Tùy theo mức độ xử lý mà quá trình bóc tách phụ thuộc nhiều hoặc ít vào ngôn ngữ xử lý.
- Phương pháp dựa vào độ đo tương tự giữa các vùng để ghép nối từ đó xác định nội dung chính. Những nếu các nội dung chính được chia trên nhiều table với các thông tin ít liên quan đến nhau thì sẽ khó khăn trong việc mở rộng và xác định vùng nội dung chính chứa tất cả chúng.
- Trường hợp thông tin trong một vùng (table) quá ít, sẽ ảnh hưởng đến quá trình tính tương đồng và mở rộng vùng nội dung chính.