Phân tích văn bản được phân tách cú pháp thành tập- 123docz.net

1 Chủ yếu được xây dựng trong khuôn khổ đề tài VLSP, trang web demo ở đây:

4.1.5. Phân tích văn bản được phân tách cú pháp thành tập các bộ ba.

Sau khi các câu đã được phân tích cú pháp, bước kế tiếp là trích rút các bộ ba từ cây cú pháp để làm cơ sở đánh giá các cặp từ có quan hệ về nghĩa. Cây cú pháp dạng text (theo khuôn dạng các treebank thường dùng) sẽ được đọc vào bộ nhớ trong và chuyển thành object để tiện xử lý. Một ví dụ về cây cú pháp được thể hiện trong hình minh họa bên dưới. Một số bước tiền xử lý như từ vựng hóa cây cú pháp, loại bỏ nút rỗng, v.v.. sẽ được thực hiện. Các nút có nhãn H là phần tử trung tâm của luật cú pháp tương ứng. Trong trường hợp một nút không có nút con nào có nhãn H thì nút con đầu tiên sẽ được coi là phần tử trung tâm (đây là trường hợp đặc biệt, rất ít xảy ra).

Quá trình từ vựng hóa sẽ được thực hiện từ dưới lên như sau: Nút lá có giá trị từ là chính nó. Nút trong có giá trị từ bằng giá trị từ của phần tử trung tâm. Hình dưới đây minh họa cây đã được từ vựng hóa.

Sau khi cây đã được từ vựng hóa, các bộ ba dạng (w, r, w’) sẽ được xác định như sau: Duyệt qua cây, tại mỗi nút xét các nút con của nó, w ứng với từ ở nút trung tâm, w’ ứng với từ không ở nút trung tâm, r được xác định dựa vào nhãn của nút cha và nhãn của nút con chứa w’. Như vậy tại một nút có k nút con ta sẽ tách được tối đa k-1 bộ ba.

Ví dụ: Node cha là VP(“là”) tạo ra quan hệ giữa node V-H(“là”) với node NP- DOB(“tác_phẩm”) theo quan hệ (VP - V - NP)

Sau khi thực hiện từ vựng hóa ta thực hiện trích rút các bộ ba từ các quan hệ ngữ pháp được nêu ra ở mục 3.2. để lấy ra các bộ ba từ tập dữ liệu đã được phân tích. Ta lần lượt kiểm tra các bộ ba node gồm một node cha và 2 node con, giả sử node cha là node tagfather(“valuefather”) và hai node con được kiểm tra là node tagchil_1(valuechil_1) và tagchil_2(valuechil_2). Khi đó ta có các trường hợp trích rút các bộ ba như sau.

a) Tagfather là “V”, tagchil_1 là “V”, tagchil_2 là “Np” ta thu được 2 bộ ba

(valuechil_1, “sub”, valuechil_2) với valuechil_1 có từ loại là “V”

(valuechil_2, “sub-of”, valuechil_1) với valuechil_2 có từ loại là “N” b) Tagfather là “VP”, tagchil_1 là “V”, tagchil_2 là “Np” ta thu được 2 bộ ba

(valuechil_1, “obj”, valuechil_2) với valuechil_1 có từ loại là “V”

(valuechil_2, “obj-of”, valuechil_1) với valuechil_2 có từ loại là “N”

c) Tagfather là “NP”, tagchil_1 là “N”, tagchil_2 là “N”, “V” hoặc “A” ta thu được 2 bộ ba

(valuechil_1, “mod”, valuechil_2) với valuechil_1 có từ loại là “N”

(valuechil_2, “mod-of”, valuechil_1) với valuechil_2 có từ loại là tagchil_2 d) Tagfather là “PP”, tagchil_1 là “E”, tagchil_2 là “Np” ta thu được bộ ba

(valuechil_2, “mod”, valuechil_1) với valuechil_2 có từ loại là “N”

Sau khi xử lý tập dữ liệu chúng tôi thu về được 690, 000 bộ ba khác nhau từ tập dữ liệu ban đầu để làm cơ sở tính toán độ tương tự của các từ thu được.