Giới thiệu về giải thuật DIPRE

Một phần của tài liệu Báo cáo Tổng hợp tin tức từ các trang web tin tức (Trang 27)

CHƯƠNG 3 PHÂN TÍCH VÀ THIẾT KẾ 3.1 Phân tích

3.2.2.Giới thiệu về giải thuật DIPRE

Brin đã đưa ra phương pháp DIRPE cho việc mở rộng mối quan hệ mẫu trong văn bản môi trường Web để trích chọn thực thể. Phương pháp này dựa vào mẫu và các tập nhỏ ban đầu để trích ra các quan hệ mẫu phù hợp với yêu cầu. Giải thuật này hướng tới đó là trích chọn ra được các mẫu. Mẫu ở đây sẽ chưa các thành phần trong bộ mà ta cần trích chọn và thêm các ngữ cảnh liên quan. Phương pháp này chính là việc trích chọn các mẫu để đưa ra kết quả thu được là danh sách các thực thể tên mà ta cần trích.

Thuật toán mà DIRPE như sau:

• Sử dụng tập nhỏ chứa các ví dụ liên quan đến thực thể cần trích chọn để gán nhãn các dữ liệu.

• Tạo ra các mẫu từ các dữ liệu đã gán nhãn. • Đưa ra các mẫu từ dữ liệu chưa được gán nhãn.

• Quay trở lại bước 1 và lặp lại cho tới khi mẫu mới, quan hệ mới không được sinh ra thì giải thuật dừng.

Hệ thống sẽ thực hiện trích chọn thực thể như mô tả một ví dụ dưới đây. Cụ thể với tập nhỏ ban đầu gồm (tên công ty, địa chỉ, doanh thu).

 Hệ thống sẽ thực hiện tìm kiếm tài liệu từ nội dung trang web chứa cặp đó nếu không có hệ thống sẽ thông báo. Trong quá trình tìm kiếm, giả sử thấy một câu có chứa thực thể trên như sau:

“Công ty TNHH Panasonic Việt Nam phối hợp cùng với văn phòng UNESCO Hà Nội tổ chức chương trình "Giáo dục môi trường toàn cầu - Di sản thế giới Unesco.”

 Sau đó, thực hiện trích chọn bộ thực thể (tên công ty, địa chỉ, doanh thu)

Một phần của tài liệu Báo cáo Tổng hợp tin tức từ các trang web tin tức (Trang 27)