.4 Lựa chọn các thuộc tính

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng Việt bằng phương pháp học thống kê Luận văn ThS. Công nghệ thông tin 1 01 10 (Trang 77 - 78)

Lựa cho ̣n các thuô ̣c tính từ tâ ̣p dữ liê ̣u huấn luyê ̣n là nhiệm vụ quan trọng nhất, giữ vai trò quyết đi ̣nh chất lượng của mô ̣t hê ̣ thống trích chọn tên riêng. Các thuô ̣c tính được lựa cho ̣n càng t inh tế thì đô ̣ chính xác của hê ̣ thống càng tăng . Do tiếng Viê ̣t thiếu các thông tin ngữ pháp (POS) cũng như các nguồn tài nguyên có thể tra cứu nên để có thể đa ̣t được đô ̣ chính xác gần với đô ̣ chính xác đa ̣t được với các hệ thống xây dựng cho tiếng Anh cần phải lựa chọn các thuộc tính một cách cẩn thâ ̣n và hợp lý.

Các thuộc tính tại vị trí i trong chuỗi dữ liệu quan sát gồm hai phần , mô ̣t là thông tin ngữ cảnh tai vi ̣ trí i của chuỗi dữ liê ̣u quan sát , hai là phần thông tin về

nhãn tương ứng. Công viê ̣c lựa cho ̣n các thuô ̣c tính thực chất là cho ̣n ra các mẫu vị từ ngữ cảnh (context predicate template), các mẫu này thể hiện những các thông tin đáng quan tâm ta ̣i m ột vị trí bất kì trong chuỗi dữ liệu quan sát . Áp dụng các mẫu ngữ cảnh này ta ̣i m ột vị trí trong chuỗi dữ liệu quan sát cho ta các thông tin ngữ cảnh (context predicate ) tại vị trí đó . Mỗi thông tin ngữ cảnh ta ̣i i khi kết hợp với thông tin nhãn tương ứng ta ̣i vi ̣ trí đó sẽ cho ta mô ̣t thuô ̣c tính của chuỗi dữ liê ̣u quan sát ta ̣i i . Như vâ ̣y mô ̣t khi đã có các mẫu ngữ cảnh , ta có thể rút ra được hàng nghìn thuộc tính một cách tự động từ tập dữ liệu huấn luyện.

Các thuộc tính được mô tả trong các file mẫu (template file) và file huấn luyện (train file). Các file mẫu mô tả các ngữ cảnh về từ vựng. Các file huấn luyện mô tả các dữ liệu được dùng để huấn luyện.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng Việt bằng phương pháp học thống kê Luận văn ThS. Công nghệ thông tin 1 01 10 (Trang 77 - 78)

Tải bản đầy đủ (PDF)

(92 trang)