Mơ tả thực nghiệm

Một phần của tài liệu nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm (Trang 37 - 38)

Thực nghiệm được tiến hành theo 4 bước sau đây:

 Bước 1: Thu thập dữ liệu từ một số hệ thống hỏi đáp (diễn đàn tin học, mục hỏi đáp của trang luật Dương gia …), phân tích và tiền xử lí dữ liệu (loại bỏ từ dừng, từ xuất hiện quá nhiều hoặc quá ít).

 Bước 2: Sử dụng cơng cụ Jvn Textpro để tách từ và gán nhãn từ loại và gán nhãn thực thể. Sau đĩ tiến hành kiểm tra và gán lại nhãn thủ cơng cho những trường hợp sai nhằm tăng độ chính xác khi huấn luyện mơ hình.

 Bước 3: Sử dụng bộ cơng cụ Standford CoreNLP tiến hành trích xuất các quan hệ phụ thuộc và huấn luyện mơ hình CRFs dựa trên dữ liệu đã được gán nhãn và các thuộc tính trích xuất được(tương ứng với pha huấn luyện mơ hình như đã trình bày ở trên)  Bước 4: Áp dụng mơ hình học suốt đời và tiến hành đánh giá thực nghiệm trên miền

Đánh giá nội miền: Thực hiện thực nghiệm trên 6 miền và chia dữ liệu của các miền thành 2 phần: 50% dữ liệu huấn luyện và 50% dữ liệu kiểm tra.

Đánh giá chéo miền: Thực hiện đánh giá chéo miền với 3 kịch bản sau đây:

Dữ liệu kiểm tra là và dữ liệu huấn luyện là dữ liệu của các miền cịn lại (khác )

Dữ liệu kiểm tra là 1/2 , tập dữ liệu huấn luyện gồm hai thành phần:

 Thành phần dữ liệu từ các miền khác

• Dữ liệu từ với số lượng tăng dần: 1/6 , 1/4 và 1/2

Dữ liệu kiểm tra là 1/2, dữ liệu huấn luyện là dữ liệu từ miền gần với dựa theo độ đo được trình bày dưới đây.

Một phần của tài liệu nhận dạng thực thể định danh từ văn bản ngắn tiếng việt và đánh giá thực nghiệm (Trang 37 - 38)

Tải bản đầy đủ (DOC)

(48 trang)
w