Tổng kết chương

Một phần của tài liệu trích chọn thực thể tên người trong tiếng việt (Trang 29 - 30)

Chương này giới thiệu các hướng tiếp cận nhằm giải quyết bào toán trích chọn

thông tin nói chung cũng như trích chọn thực thể nói riêng: hướng tiếp cận dựa trên hệ

luật (giải thuật DIPRE), các hướng tiếp cận học máy (HMM, MEMM, CRF). Có thể

thấy, mỗi hướng tiếp cận đều có những ưu và nhược điểm khác nhau như giải thuật

DIPRE có hiệu suất không cao, tốc độ xử lý chậm, HMM không thể tích hợp các thuộc tính phong phú của chuỗi dữ liệu quan sát vào quá trình phân lớp, và MEMM gặp phải vấn đề “label bias”. Sau đó lại tiếp tục nâng lên mô hình cao hơn khi sử dụng CRF để

khắc phục những nhược điểm mà HMM và MEMM gặp phải. CRF có khả năng xử lý

dữ liệu dạng này mạnh hơn so với các mô hình học máy khác như HMM hay MEMM.

Tuy nhiên, nhược điểm của mô hình CRF là thời gian tính toán của nó tương đối chậm trong trường hợp dữ liệu huấn luyện tương đối lớn. Thêm nữa là dữ liệu đầu vào của

các mô hình này đều phải sử dụng các công cụ để xử lý dữ liệu như phân tách, gán

nhãn trong khi nếu dựa theo giải thuật DIPRE của Brin thì những công việc tiền xử lý

dữ liệu như vậy hoàn toàn không phải thực hiện. Chi tiết về phương pháp sử dụng cho

Chương 3. Hệ thống trích chọn tên người trong văn bản tiếng Việt trên môi trường Web

Từ chương 2, ta có thể thấy rằng, việc sử dụng các mô hình HMM, MEMM, CRF cũng đều có những ưu nhược điểm nhất định. Một trong những nhược điểm đó là vấn đề tiền xử lý dữ liệu. Cả 3 mô hình đều phải sử dụng các công cụ để thực hiện phân

lớp dữ liệu trước khi đưa chúng vào xử lý, việc đó khiến cho hệ thống cũng một phần

trở nên cồng kềnh, tốn nhiều công sức, thời gian hơn. Do đó, khóa luận này hướng tới phương pháp trích chọn thực thể tên người mà không sử dụng bất cứ công cụ nào đối

với việc tiền xử lý dữ liệu. Đặc biệt, toàn bộ hệ thống sẽ xử lý trên dữ liệu thô. Để có

thể làm được việc đó, hướng tiếp cận mà khóa luận này muốn hướng tới là dựa theo

giải thuật DIPRE [17] mà Brin đã đề ra để thực hiện mở rộng quan hệ mẫu, từ đó trích

chọn ra thực thể tên người trong tiếng Việt. Các phần tiếp theo của chương này sẽ đề

cập tới hướng giải quyết này.

Một phần của tài liệu trích chọn thực thể tên người trong tiếng việt (Trang 29 - 30)

Tải bản đầy đủ (PDF)

(43 trang)