Minh họa phân lớp dữ liệu

Bước 4: Xây dựng giá trị cho các thuộc tính của các thể hiện của thực thể đã

nhận diện được. Chẳng hạn giá trị thuộc tính cho Hồ Chí Minh là tên khác, diện tích, dân số, khí hậu…

World Wide Web là một kho thông tin khổng lồ, cập nhật liên tục. Vì vậy, NCS sử dụng thơng tin từ các trang web để xây dựng và cập nhật các thuộc tính của các thực thể. Sử dụng các máy tìm kiếm dựa trên các từ khóa là các thuộc tính của các thực thể để có được danh sách các trang web có chứa từ khóa và danh sách này được liệt kê theo thứ tự về độ quan trọng.

Thông tin ở trang web được lưu trữ và trình bày dưới nhiều hình thức khác nhau. Đối với văn bản web phi cấu trúc, nghiên cứu quan tâm đến việc trích chọn đối tượng, trong đó các đối tượng được trích chọn bao gồm các thuộc tính, đặc điểm,… Việc trích chọn quan hệ giữa các thực thể đã được xác định cũng được sử dụng. Bên cạnh đó, thơng tin từ văn bản web bán cấu trúc cũng rất quan trọng cho việc xây dựng

thuộc tính cho các thực thể, chẳng hạn như họ tên, quê quán, tiểu sử,… của một nhân vật. Việc trích chọn thơng tin từ văn bản web có ba cách tiếp cận chính, bao gồm hướng tiếp cận thủ công sử dụng hệ luật, tiếp cận sử dụng các phương pháp học máy (Hidden Markov Models, Maximum Entropy Markov Models, Conditional Random Fields - CRFs) và tiếp cận lai bằng cách kết hợp ưu điểm của hai phương pháp trên. Nghiên cứu này sử dụng cách tiếp cận lai để xác định trích chọn dữ liệu nhằm gán giá trị thuộc tính cho các thực thể.

Một phần của tài liệu Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng việt (Trang 120 - 121)

Mơ hình hóa phương pháp dịch thống kê

Tổng hợp một số kho ngữ liệu