CHƯƠNG 3 PHÂN TÍCH VÀ THIẾT KẾ 3.1 Phân tích
3.2.3. Hướng giải quyết bài toán
Mô tả bài toán: Xây dựng hệ thống trích rút thực thể ứng dụng trong phân tích kinh tế.
Yêu cầu:
- Xây dựng hệ tổng hợp tin kinh tế từ trang web (chỉ lấy những tin về kinh tế). - Tổng hợp lại thành bảng bao gồm: tên công ty, địa chỉ, doanh thu trong từng năm.
Các bước giải thuật:
- Bắt đầu từ một tập luật mẫu ban đầu của các yếu tố trước và sau của tên công ty, địa chỉ, doanh thu như đối với công ty là công ty cổ phần, doanh nghiệp, các tiến tố của địa chỉ như là xã, huyện, phường, quận, huyện, doanh thu như hàng tỉ đồng, Việt Nam đồng,….
- Từ tập ứng cử thủ tục sẽ loại bỏ các ứng cử tên không chính xác để thu được một tập về tên công ty, địa chỉ, doanh thu của công ty. Nếu tập đó là tập rỗng thì giải thuật dừng.
- Dựa vào tập đã thu được thủ tục sinh mẫu sẽ sinh ra mẫu mới bằng cách khai báo kho văn bản đang có. Sau đó các ứng cử mẫu sẽ được lọc để loại bỏ các ứng cử trùng hoặc có độ chính xác thấp. Kết quả đầu ra của thủ tục này ta thu được một tập mẫu mới. Nếu tập mẫu mới thu được là tập rỗng thì giải thuật dừng.
- Từ tập mẫu mới và từ điển thủ tục trích chọn thứ 2 sẽ tìm ra các ứng cử tên mới. Giải thuật quay lại bước 2.
Tập dữ liệu từ điển ban đầu của tên công ty:
Bảng 3.1. Bảng tên công ty.
Bảng 3.3. Bảng doanh thu
3.2.4. Đánh giá
Qua kết quả, em nhận thấy khi tăng văn bản lên thì độ chính xác hệ thống trích rút thông tin chưa được cao như mong muốn, một phần vì chương trình vẫn còn nhiều thiết xót, một phần do cấu trúc văn bản phức tạp và thay đổi liên tục nên việc áp dụng luật cũng như quá trình sinh mẫu gây ra nhiều trường hợp nhập nhằng.
Hình 3.1 Giao diện chính của chương trình.
KẾT LUẬN
Những vấn đề đã được giải quyết trong đề tài.
Đề tài đã hệ thống hóa một số vấn đề lý thuyết về trích chọn thông tin, bài trích chọn thực thể nói chung và trích chọn tên công ty, địa chỉ, doanh thu trong tiếng Việt nói riêng. Đồng thời đề tài cũng nêu ra một số vấn đề và giải pháp đối với bài toán nhận biết thực thể tên người trong văn bản tiếng Việt trên môi trường web dựa trên nền giải thuật DIPRE của Brin, tuy rằng thực nghiệm và thu được một số kết quả chưa được như mong muốn.