Sử dụng mơ hình chủ đề trong WSI

Một phần của tài liệu (LUẬN văn THẠC sĩ) xử lý nhập nhằng nghĩa của từ sử dụng học máy không giám sát (Trang 28 - 30)

CHƢƠNG II : BÀI TỐN MƠ HÌNH CHỦ ĐỀ VÀ CÁC TIẾP CẬN ĐIỂN HÌNH

2.6. Sử dụng mơ hình chủ đề trong WSI

Nhƣ đã đề cập trong phần 2.5, mơ hình chủ đề cĩ thể đƣợc áp dụng cho bài tốn WSI. Trong phần này, chúng ta sẽ tìm hiểu cách sử dụng mơ hình chủ đề nhƣ thế nào cho giải quyết bài tốn WSI.

2.6.1. Ngữ cảnh địa phƣơng và ngữ cảnh tồn cục

Trong chƣơng 1, chúng ta đã chọn cách tiếp cận phân cụm theo ngữ cảnh đề giải quyết bài tốn WSI. Nghĩa của một từ đƣợc đặc trƣng bởi ngữ cảnh của nĩ. Cĩ hai ngữ cảnh đƣợc sử dụng cho WSI là ngữ cảnh tồn cục và ngữ cảnh địa phƣơng. Ngữ cảnh tồn cục của một từ cĩ thể là tồn bộ văn bản trong khi ngữ cảnh địa phƣơng chỉ là một vài từ xung quanh từ mục tiêu. Sử dụng ngữ cảnh tồn cục cĩ thể là khơng thích hợp khi các nghĩa của một từ là khác nhau hoặc cụm từ mục tiêu khác nhau xuất hiện trong cùng một văn bản. Ý nghĩa khác nhau và từ mục tiêu sẽ cĩ bối cảnh tƣơng tự, kết quả là hệ thống khơng thể phân biệt các ngữ nghĩa và từ mục tiêu. Ngữ cảnh địa phƣơng dƣờng nhƣ là sự lựa chọn tốt hơn trong nhiều trƣờng hợp vì nĩ làm giảm trƣờng hợp mà một ngữ cảnh cĩ nhiều nghĩa hoặc các từ mục tiêu. Hơn nữa, từ gần với từ mục tiêu cĩ những thơng tin giá trị về nghĩa của từ đĩ, trong khi các từ xa với từ mục tiêu cĩ ít thơng tin và các từ khơng liên quan đến từ mục tiêu làm giảm hiệu xuất của hệ thống WSI bởi vì nĩ làm giảm khả năng quan trọng của các từ trong ngữ cảnh. Một lợi thế của ngữ cảnh địa phƣơng hơn ngữ cảnh tồn cục là nĩ nhanh chĩng loại bỏ những từ mà khơng liên quan đến từ mục tiêu. Vì tất cả những lý do trên, ta chọn ngữ cảnh địa phƣơng cho bài tốn phân cụm.

2.6.2. Xem bài tốn WSI nhƣ một bài tốn mơ hình chủ đề

Để làm bật vấn đề phân cụm ngữ cảnh vào bài tốn mơ hình chủ đề, chúng ta xem ngữ cảnh của từ nhƣ là văn bản (document) và ngữ nghĩa nhƣ là chủ đề (topics). Một

cách để thực hiện ý tƣởng này là sử dụng ngữ cảnh tồn cục và ngữ liệu là tập hợp các ngữ cảnh tất cả các từ mục tiêu. Một mơ hình với một số lƣợng lớn ngữ nghĩa đƣợc xây dựng cho tất cả các từ. Trong năm 2010, Wesam Elshamy và cộng sự đã xây dựng hệ thống KSU-KDD dựa trên kiến trúc tƣơng tự mà sử dụng LDA nhƣ mơ hình chủ đề cơ bản. Cho 100 từ mục tiêu trong tập dữ liệu chuẩn đƣợc cung cấp bởi tổ chức SemEval - 2010, KSU - KDD xây dựng một mơ hình duy nhất với 50 nghĩa và sử dụng mơ hình đĩ đề kết luận nghĩa của từ. Hiệu suất của KSU-KDD là tƣơng đối thấp trong khi nĩ tốt hơn MFS. Lý do của hiệu suất thấp này đƣợc đề cập trong phần trƣớc: ngữ cảnh tồn cục khơng thích hợp cho WSI.

Một phƣơng pháp luận thuận lợi cho sử dụng ngữ cảnh địa phƣơng và xây dựng một mơ hình cho mỗi từ. Trong phƣơng pháp này, sẽ cĩ nhiều ngữ liệu, mỗi ngữ liệu bao gồm ngữ cảnh địa phƣơng của từ mục tiêu. Đối với mỗi từ mục tiêu, một mơ hình đƣợc xây dựng với số lƣợng nhỏ các nghĩa (ví dụ 3-10 ngữ nghĩa) (đối với LDA và CTM), và số lƣợng nghĩa sẽ tự động thay đổi (đối với HDP). Khi chúng ta muốn tạo ra các nghĩa của một từ, chúng ta lựa chọn mơ hình tƣơng ứng và cố gắng để suy ra tỷ lệ chủ đề từ ngữ cảnh địa phƣơng của từ đĩ. Chúng ta đã lựa chọn phƣơng pháp này để xây dựng hệ thống, chi tiết đƣợc đƣa ra trong chƣơng 3.

Một phần của tài liệu (LUẬN văn THẠC sĩ) xử lý nhập nhằng nghĩa của từ sử dụng học máy không giám sát (Trang 28 - 30)

Tải bản đầy đủ (PDF)

(89 trang)