Chương này giới thiệu các hướng tiếp cận nhằm giải quyết bào toán trích chọn
thông tin nói chung cũng như trích chọn thực thể nói riêng: hướng tiếp cận dựa trên hệ
luật (giải thuật DIPRE), các hướng tiếp cận học máy (HMM, MEMM, CRF). Có thể
thấy, mỗi hướng tiếp cận đều có những ưu và nhược điểm khác nhau như giải thuật
DIPRE có hiệu suất không cao, tốc độ xử lý chậm, HMM không thể tích hợp các thuộc tính phong phú của chuỗi dữ liệu quan sát vào quá trình phân lớp, và MEMM gặp phải vấn đề “label bias”. Sau đó lại tiếp tục nâng lên mô hình cao hơn khi sử dụng CRF để
khắc phục những nhược điểm mà HMM và MEMM gặp phải. CRF có khả năng xử lý
dữ liệu dạng này mạnh hơn so với các mô hình học máy khác như HMM hay MEMM.
Tuy nhiên, nhược điểm của mô hình CRF là thời gian tính toán của nó tương đối chậm trong trường hợp dữ liệu huấn luyện tương đối lớn. Thêm nữa là dữ liệu đầu vào của
các mô hình này đều phải sử dụng các công cụ để xử lý dữ liệu như phân tách, gán
nhãn trong khi nếu dựa theo giải thuật DIPRE của Brin thì những công việc tiền xử lý
dữ liệu như vậy hoàn toàn không phải thực hiện. Chi tiết về phương pháp sử dụng cho
Chương 3. Hệ thống trích chọn tên người trong văn bản tiếng Việt trên môi trường Web
Từ chương 2, ta có thể thấy rằng, việc sử dụng các mô hình HMM, MEMM, CRF cũng đều có những ưu nhược điểm nhất định. Một trong những nhược điểm đó là vấn đề tiền xử lý dữ liệu. Cả 3 mô hình đều phải sử dụng các công cụ để thực hiện phân
lớp dữ liệu trước khi đưa chúng vào xử lý, việc đó khiến cho hệ thống cũng một phần
trở nên cồng kềnh, tốn nhiều công sức, thời gian hơn. Do đó, khóa luận này hướng tới phương pháp trích chọn thực thể tên người mà không sử dụng bất cứ công cụ nào đối
với việc tiền xử lý dữ liệu. Đặc biệt, toàn bộ hệ thống sẽ xử lý trên dữ liệu thô. Để có
thể làm được việc đó, hướng tiếp cận mà khóa luận này muốn hướng tới là dựa theo
giải thuật DIPRE [17] mà Brin đã đề ra để thực hiện mở rộng quan hệ mẫu, từ đó trích
chọn ra thực thể tên người trong tiếng Việt. Các phần tiếp theo của chương này sẽ đề
cập tới hướng giải quyết này.