) chúng có thẻ đóng Bởi thẻ đóng nên chèn vào để tất thẻ cân Các thẻ định dạng không tốt cần thiết sửa chữa - Một thẻ sai thường thẻ đóng, thẻ cắt ngang khối ẩn bên - Xây dựng cây: Chúng ta theo khối thẻ HTML để xây dựng DOM Sử dụng thẻ hộp ảo (visual cue) Thay phân tích mã HTML để sửa lỗi, sử dụng biểu diễn thông tin ảo để suy luận mối quan hệ có cấu trúc thẻ xây dựng DOM Trang 19 Các bước xử lý sau: Tìm đường biên hình chữ nhật ứng với phần tử HTML thơng qua việc cơng cụ trình diễn trình duyệt, ví dụ: Internet Explorer Theo thẻ mở kiểm tra xem hình chữ nhật có nằm hình chữ nhật khác không, để xây dựng DOM c Ứng dụng cấu trúc DOM để trích xuất thơng tin Để trích xuất thơng tin cần thiết node DOM, cần rõ đường từ gốc đến node cần trích xuất thông tin Đường gọi XPath[33] hay mẫu trích xuất 2.3.2 Thuật tốn BTE – Body Text Extraction Thuật toán BTE (Body Text Extractor) phát triển cách sử dụng thông tin mật độ chữ văn mật độ thẻ để đánh dấu cho phần khác trang web.Ý tưởng thuật toán BTE Aidan Finn [7] đề xuất sau : Xác định hai điểm i, j cho số thẻ HTML (tag-tokens) i j tối đa, đồng thời số từ (text-tokens) i j tối đa Kết trích rút dấu hiệu văn đoạn [i, j] tách 2.3.3 Đánh giá thuật tốn trích rút văn từ trang web Qua thử nghiệm cho thấy, thuật tốn BTE cải tiến áp dụng xác trích rút nội dung văn trang tin tức, điều phù hợp với mục tiêu đề xây kho ngữ liệu nghiên cứu từ vựng tiếng Việt, thu thập tự động trang web có đủ độ lớn, có tính kết nối văn 2.4 Kết chương Trong chương trình bày khái qt trích rút văn phương pháp trích rút văn từ trang web Phương pháp giới thiệu trích rút văn dựa vào DOM - thuật tốn Body Text Extraction Đồng thời trình Trang 20 bày số cải tiến cho thuật toán để giảm thời gian trích rút Chương trình cài đặt thử nghiệm cho thuật toán đánh giá kết thuật tốn trình bày chương CHƯƠNG III: CÀI ĐẶT THỬ NGHIỆM ỨNG DỤNG TRÍCH RÚT VĂN BẢN TỪ WEBSITE TIN TỨC 3.1 Yêu cầu thử nghiệm tập liệu thử nghiệm 3.1.1 Yêu cầu thử nghiệm Mơ tả tốn: Đầu vào: Nội dung trang tin tức, bao gồm thẻ HTML nội dung Đầu ra: nội dung trang tin tức lọc bỏ thẻ HTML nội dung khác 3.1.2 Tập liệu thử nghiệm Vnexpress.net biết đến tờ báo online có nhiều độc giả Việt Nam Ngoài tin tức thời sự, giáo dục, khoa học Vnexpress mở rộng thêm số trang web công nghệ (sohoa.vnexpress.net) văn hóa giải trí (ngoisao.net) Dantri.com.vn trang web tin tức hội khuyến học Việt Nam Được thành lập sau VNexpress.net trang web nhanh chóng thu hút nhiều độc giả cập nhật thơng tin nhanh chóng xác Ngồi cịn nhiều trang web tin tức khác có số lượng độc giả đông đảo thanhnien.com.vn hay vietnamnet.vn 3.2 Cài đặt thử nghiệm ứng dụng Trang 21 3.2.1 Yêu cầu phần cứng phần mềm Cấu hình phần cứng máy tính sử dụng để cài đặt chương trình: Thành phần Chỉ số CPU Intel® Core™2 Duo 1.8Ghz RAM 2048M OS Windows Professional Bộ nhớ 160G Danh mục phần mềm sử dụng thực nghiệm: STT Tên phần mềm Tác giả Nguồn Joomla CMS Netbean IDE for PHP Oracle Corporation https://netbeans.org/ MySQL client Oracle Corporation http://www.mysql.com/ Open source Matters, Inc http://www.joomla.org/ 3.2.2 Giới thiệu cấu trúc chương trình số module Các chức chương trình bao gồm: - Thu thập URL cần trích rút nội dung đầu vào tốn trích rút - Bóc tách nội dung trang tin tức dựa vào thuật tốn Body Text Extraction trình bày chương - Lưu nội dung trích rút vào sở liệu hiển thị kết thu hình - Đánh giá chung kết thu chương trình thử nghiệm Có thể mơ tả mơ hình tổng quan hệ thống hình 18: Trang 22 Hình 18 – Cấu trúc chương trình trích rút văn từ website 3.2.3 Giới thiệu số module Cấu trúc chi tiết chương trình trích rút thông tin từ trang tin tức mô tả theo bảng sau: Main class Functions Thu thập liệu từ website tin tức Crawlers Thu thập URL chứa nội dung chi tiết tin tức Extracting Nhập URL vào, dùng CURL function để lấy mã HTML Trang 23 tồn trang tin tức Phân tích mã HTML đưa vào theo thuật tốn BTE Trích xuất nội dung trang web theo BTE Storing Lưu nội dung vừa trích xuất vào sở liệu MySQL Display Hiển thị nội dung sau trích rút cho người dùng xem 3.3 Một số kết thu Thử nghiệm với vnexpress.net, vietnamnet.vn, dantri.com.vn Độ xác đạt khoảng 80%-90% có nhiều nội dung tạp nội dung Kết thu vnexpress.net vietnamnet.vn có độ xác cao Về mặt nội dung, phương pháp trích xuất liệu từ website tốt khả quan Tuy nhiên trích rút từ nhiều website khác nội dung trích rút bị trùng lặp nhiều Vì trang tin tức lớn đưa lên tin tức tương đồng số mặt sống, trị, giáo dục… 3.4 Kết chương Chương kết cài đặt thử nghiệm thuật toán Body Text Extraction cho trang web tin tức tiếng Việt dựa cấu trúc DOM trình bày chương II Chương trình cài đặt viết ngơn ngữ PHP sử dụng sở liệu MySQL để lưu trữ Trang 24 KẾT LUẬN Luận văn nghiên cứu tổng quan khai phá liệu web sâu nghiên cứu kỹ thuật trích rút văn từ trang web Trên sở đó, luận văn tiến hành cài đặt thử nghiệm thuật toán BTE trích rút văn từ số trang web tin tức tiếng Việt Cụ thể, luận văn đạt số kết sau: - Nghiên cứu khái quát khai phá liệu, ứng dụng khai phá liệu web mặt đời sống - Nghiên cứu trích rút thơng tin hướng tiếp cận tốn trích rút thơng tin Đồng thời vào chi tiết toán cụ thể trích rút văn từ trang web - Nghiên cứu thuật tốn trích rút văn từ trang web dựa vào cấu trúc DOM nội dung trang web Trong trình bày phương pháp cụ thể để trích rút văn từ trang tin tức - thuật toán Body Text Extraction Aidan Finn cải tiến số bước thuật toán để nâng cao hiệu suất sử dụng thuật toán với trang web tin tức tiếng Việt - Xây dựng phần mềm thử nghiệm trích rút văn với thuật tốn Body Text Extraction viết ngôn ngữ PHP với sở liệu MySQL Từ ứng dụng để xây dựng kho liệu từ nguồn tin tức Internet Trong tương lai, luận văn nghiên cứu tiếp tục theo hướng sau: - Nghiên cứu hướng sử dụng khối văn trích rút từ trang web Các hướng khả thi ứng dụng cho dịch tự động phân tích cú pháp - Triển khai thử nghiệm nhiều trang web có định dạng khác để đánh giá hiệu thuật toán ... thể trích rút văn từ trang web - Nghiên cứu thuật tốn trích rút văn từ trang web dựa vào cấu trúc DOM nội dung trang web Trong trình bày phương pháp cụ thể để trích rút văn từ trang tin tức -... Chương II sâu nghiên cứu kỹ thuật trích rút văn từ trang web CHƯƠNG II: CÁC KỸ THUẬT TRÍCH RÚT VĂN BẢN TỪ TRANG WEB 2.1 Khái quát trích rút thơng thơng tin 2.1.1 Giới thiệu chung trích rút thơng... liệu web sâu nghiên cứu kỹ thuật trích rút văn từ trang web Trên sở đó, luận văn tiến hành cài đặt thử nghiệm thuật toán BTE trích rút văn từ số trang web tin tức tiếng Việt Cụ thể, luận văn đạt