Trọng số của từ

Một phần của tài liệu Phát hiện kế thừa văn bản tiếng Việt dựa trên từ vựng và từ điển đồng nghĩa (Trang 32 - 51)

Trọng số của từ liên quan tới độ quan trọng dựa trên trực giác (quan sát) từ việc tìm kiếm từ trong tìm kiếm thông tin. Trong đó độ đo IDF (Inverse Document Frequency) thường được sử dụng là một độ đo độ quan trọng. IDF là độ đo nghịch đảo sự phổ biến của một từ trong một tập hợp văn bản cho trước. IDF là độđo toàn cục, vì vậy đòi hỏi phải có một tập dữ liệu văn bản lớn cho trước để sử dụng độ đo toàn cục. Thời gian gần đây, IDF còn được sử dụng trong kế thừa văn bản. Monz và De Rijke đã đề xuất sử dụng IDF như một độ kiểm tra trọng số kế thừa [5]. Các tác giả đề xuất phương pháp đơn giản hiệu quả để kiểm tra kế thừa dựa trên độ đo tương tự quen thuộc trong tìm kiếm thông tin. Ý tưởng cơ bản bao gồm 2 bước. Đầu tiên, các tác giả biểu diễn văn bản như một túi từ. Sau đó, với mỗi chủđề, có một tập tài liệu liên quan,

21

đây chính là những tài liệu phải tính toán mối quan hệ kế thừa. Ngoài ra, để xác định trọng số, các tác giả sử dụng N để khai báo tổng số các đoạn trong chủ đề và # là số đoạn mà có chứa từ. Khi đó trọng số của từ được đưa ra bởi công thức sau:

$ = log#,

Những từ (thuật ngữ) xuất hiện nhiều như “the”, “some”, … sẽ nhận được idf-score thấp hơn so với những từ chỉ xuất hiện trong một vài đoạn. Cảm giác trực quan đằng sau idf-score là những từ với idf-score cao thì phù hợp hơn để phân biệt nội dung riêng biệt của một đoạn so với những đoạn khác trong chủ đề, hay nếu đoạn đó được đặt riêng nó sẽ mang nhiều nội dung thông tin hơn.

Cho hai tài liệu d, d’, với trọng số của từ được định nghĩa như trên, các tác giả tính trọng số kế thừa: %#"%(,-, ,-) của hai đoạn ,- trong d và ,- trong d’ bằng cách so sánh tổng trọng số từ xuất hiện trong cả hai đoạn với tổng trọng số của tất cả các từ trong ,- [5]:

%#"%(,-, ,-) = ∑0∈(12,3∩ 15,3)-/

∑0∈15,3-/

Ngoài việc sử dụng độ đo idf-score như trên, chúng ta có thể dùng một độ đo khác được đề xuất bởi Valentin Jijkoun và cộng sự [20]. Trong hệ thống phát hiện quan hệ kế thừa văn bản tiếng Anh dựa trên từ vựng, các tác giả đã tiến hành thực nghiệm với độ đo ICF (inverse collection frequency) được tính trên một tập lớn các văn bản. Với mỗi từ w: ICF (w) = # 788989: 7/ ; # 788989: 7/ <== ;7-: Khi đó trọng số của từ w là: weight (w) = 1 – >?@(;)A >?@B2C >?@BDEA >?@B2C

Giá trị cực đại và cực tiểu của tần số nghịch đảo được dùng để tạo cho các trọng số từ nằm trong đoạn (0, 1).

3.2. Độđo tương đồng từ vựng (wordsim)

Trong thuật toán trên, các tác giả sử dụng một độ đo tương đồng từ vựng (ký hiệu wordsim). Với dữ liệu thực nghiệm là tiếng Anh, các tác giả sử dụng hai độ đo: độ tương tự từ dựa trên phụ thuộc của Dekang Lin và độđo dựa trên chuỗi từ vựng trong WordNet [20][6]. Tuy nhiên đối với miền dữ liệu tiếng Việt, do thiếu các từ điển ứng dụng như WordNet nên việc sử dụng độ đo từ vựng dựa trên từđiển là không khả thi.

22

Trong quá trình thực nghiệm, em đã tiến hành ước lượng độ đo tương tự của từ theo công thức sau:

F, G = H 1 #ếI = 0 #ếI #Kượ" (L

3.3. Tri thức miền từđiển đồng nghĩa tiếng Việt

Qua khảo sát dữ liệu, với miền dữ liệu sử dụng dữ liệu tiếng Việt nên bài toán phát hiện kế thừa văn bản có những điểm khác so với bài toán RTE trên miền dữ liệu tiếng Anh. Đặc trưng của tiếng Việt là sự nhập nhằng, đa nghĩa. Bên cạnh đó, tiếng Việt còn có nhiều biến thể như: đồng âm khác nghĩa, từ đồng nghĩa, từ nhiều nghĩa, từ Hán Việt, từđịa phương, từ mượn. Tiếng Việt có sự nhập nhằng ranh giới từ. Do tiếng Việt là ngôn ngữ đơn lập nên từ vựng chủ yếu là các từ ghép vì thế khoảng trắng không phải luôn luôn là ranh giới chính xác. Giải quyết sự nhập nhằng ranh giới từ tiếng Việt là rất quan trọng. Hệ thống RTE tiếng Việt cần tách câu, tách từ thật chính xác.

Đặc trưng lớn nhất của tiếng Việt là vấn đề giải quyết nhập nhằng từđồng nghĩa. Từđồng nghĩa là từ có nghĩa giống nhau, nhưng cấu tạo nên chữđó có thể khác nhau. Đồng nghĩa thực ra là hiện tượng có mức độ khác nhau, về sự sở hữu những nét cơ bản giống nhau về mặt nghĩa. Trong tiếng Việt, chỉ những từ có nghĩa mới có hiện tượng đồng nghĩa từ vựng. Ví dụ: các từ “thiệt mạng”, “chết”, “hy sinh”, “đột tử”, “ngỏm”, “nghẻo”, .. đều có cùng một nghĩa. Tuy nhiên, rõ ràng xét về mặt từ vựng thì chúng hoàn toàn khác nhau. Chính sự nhập nhằng này mà trong nhiều trường hợp các từ trong câu văn bản và giả thuyết biểu diễn cùng một nghĩa nhưng từ vựng thì hoàn toàn khác nhau. Một hệ thống RTE đơn thuần dựa trên từ vựng sẽ đưa ra phán quyết sai trong những trường hợp này. Vì vậy, trong khóa luận này em tiến hành thực nghiệm dựa trên ngưỡng từ vựng kết hợp thêm việc sử dụng từ điển đồng nghĩa tiếng Việt nhằm đưa ra những phán quyết kế thừa chính xác.

Bên cạnh đó việc tiền xử lý dữ liệu tiếng Việt còn gặp phải một số khó khăn như: nhập nhằng từ đa nghĩa, nhập nhằng từ đồng âm. Bất cứ ngôn ngữ nào cũng có từ đa nghĩa, nguyên nhân là vì rất nhiều khái niệm có các sắc thái ý nghĩa tuy không hoàn toàn trùng khớp nhau nhưng lại có nhiều nét tương đồng. Tuy nhiên trong tiếng Việt, số lượng từ đã nghĩa là rất lớn. Ví dụ, từ “ăn” trong “ăn uống” và “ăn cướp” vừa có những nét nghĩa giống và khác nhau, theo cuốn từđiển tiếng Việt thì từăn có đến 12 nghĩa.

23

Vì những lý do trên mà thông thường trong lĩnh vực xử lý ngôn ngữ tự nhiên, một hệ thống có đầu vào là dữ liệu tiếng Việt thường thu được độ chính xác thấp hơn tiếng Anh và đặc thù trong việc sử dụng phương pháp (có những phương pháp áp dụng hiệu quả trên dữ liệu tiếng Anh nhưng lại không dùng được trong tiếng Việt).

3.4. Tinh chỉnh ngưỡng phán quyết kế thừa

Việc sử dụng ngưỡng để đưa ra phán quyết kế thừa là một ứng dụng điển hình trong các hệ thống nhận dạng quan hệ kế thừa. Tuy nhiên, trong quá trình thực nghiệm để xác định được một ngưỡng tối ưu nhất nhằm nâng cao độ chính xác của phán quyết kế thừa thì lại là một thách thức lớn đối với các hệ thống. Trong thuật toán trình bày ở trên, giá trị của các độđo đều có giá trị tuyệt đối nằm trong [0,1]. Vì vậy, ta có:

totalSim ≤ (N%Kℎ→| = (Q/(N%Kℎ| ∈ [0, 1]

Giá trị độ tuyệt đối của độ tương đồng từ vựng không vượt quá 1 là một điều kiện để đưa ra tinh chỉnh ngưỡng kế thừa.

3.4.1. Ngưỡng phán quyết

Trong quá trình tính toán độ tương đồng từ vựng, nếu tính tương đồng giữa văn bản T và giả thiết H càng cao thì phán quyết YES càng có độ tin cậy cao. Tuy nhiên, nếu hệ thống đưa ra một ngưỡng có giá trị gần 1 sẽ dẫn đến việc bỏ sót các cặp mẫu T- H nhãn YES nhưng có độ tương đồng thấp hơn ngưỡng. Ngược lại, nếu ngưỡng quá thấp thì sẽ lấy cả các cặp mẫu NO nhưng có độ tương đồng cao hơn ngưỡng. Do đó, để xác định giá trị ngưỡng threshold tốt nhất theo mẫu, bài toán tìm ngưỡng đưa về bài toán tối ưu: U V ∗ K# ( () − ℎ%ℎ() → X2 ∈Y<Z Trong đó: • Training là tập ví dụ học, • xi = (Ti, Hi) cặp (văn bản, giả thuyết) trong ví dụ học,

• yi = chỉ số phán quyết kế thừa tương ứng với xi : nếu phán quyết YES thì yi = 1, ngược lại yi = -1,

• sim (xi) là độ tương đồng giữa Ti với Hi được tính theo các phương pháp tương đồng ngữ nghĩa,

• sign: là hàm dấu, nhận giá trị 1 nếu đối số dương, nhận giá trị -1 nếu đối số âm,

24 (adsbygoogle = window.adsbygoogle || []).push({});

• threshold là ngưỡng phán quyết.

Lời giải cho bài toán tối ưu nói trên tương đối rõ ràng: xếp dãy sim (xi) trên trục số, đếm ngược từ 1 trở xuống (bộ đếm lúc đầu là 0), nếu gặp mẫu YES tăng bộ đếm lên 1 còn nếu gặp mẫu NO thì giảm bộđếm đi 1. Mỗi lần gặp một giá trị sim (xi) thì bộ đếm có 1 giá trị nào đó. Trong quá trình đếm, tồn tại 1 (hoặc một vài giá trị sim (xi)) làm bộđếm cực đại. Ngoài ra, tương ứng với 1 giá trị sim(xi) là cực đại hàm thì tồn tại khoảng giá trị từ giá trị này tới giá trị sim(xi) nhỏ hơn và gần nó nhất. Dựa trên tính chất này mà các hệ thống đòi hỏi phải có quá trình tinh chỉnh. Sự tinh chỉnh được tiến hành theo 2 cách sau:

1) Tinh chỉnh theo bộ kiểm tra

Chia ngẫu nhiên bộ dữ liệu thành 5 phần: 3 phần làm dữ liệu học, 1 phần làm dữ liệu tinh chỉnh ngưỡng và phần còn lại làm đánh giá phán quyết.

2) Tinh chỉnh độđo tương tự của các từ trong từđiển đồng nghĩa

Tinh chính liên quan tới hai khía cạnh: a. Độ tổn thất dùng từđồng nghĩa

Ví dụ: các từ “thiệt mạng”, “chết”, “hy sinh”, “đột tử”, “ngỏm”, “nghẻo”, .. đều có cùng một nghĩa. Tuy nhiên, trong những ngữ cảnh trang trọng người ta hay sử dụng từ “hy sinh” thay cho từ chết. Do đó, các từ tuy đồng nghĩa song có luôn có sự tổn thất nghĩa nhất định trong từng ngữ cảnh sử dụng phù hợp. Sử dụng tham sốα làm độđo tổn thất dùng từđồng nghĩa.

b. Độđo tương tự giữa hai cặp từđồng nghĩa

Các cặp từ đồng nghĩa không mang giá trị giống nhau phụ thuộc vào số lượng nghĩa (synset) của hai từđồng nghĩa này. Trong đó, nếu hai từđồng nghĩa có số lượng nghĩa ít thì tương tự nhiều hơn, ngược lại có số lượng nghĩa nhiều thì càng tương tự ít. Với: (v, w) là hai từ đồng nghĩa trong từ điển đồng nghĩa thì độ tương tự giữa hai từ này được xác định theo công thức:

([, ) = # \

25 Trong đó:

• nv và nw tương ứng là số nghĩa của v và w.

• α là tham sốđể tinh chỉnh.

Trong quá trình thực nghiệm, tham số\ là độ đo tổn thất từđồng nghĩa được thay đổi trong quá trình tinh chỉnh. Ban đầu khởi tạo \ = 1 ứng với trường hợp những từ tiếng Việt không có từđồng nghĩa.

3.5. Phát biểu bài toán

Dựa trên hướng tiếp cận trong phần cơ sở thực tiễn ở trên, em phát biểu bài toán phát hiện kế thừa văn bản với tiếng Việt như sau:

Đầu vào: Tập các cặp văn bản-giả thuyết sử dụng trong hội nghị RTE-3 đã được dịch ra tiếng Việt.

Đầu ra: Mô hình từ vựng và ngữ nghĩa để đưa ra phán quyết kế từa đối với từng cặp văn bản-giả thuyết.

26

Hình 4: Mô hình giải quyết bài toán

Khóa luận cải tiến giải pháp phát hiện kế thừa văn bản tiếng Anh dựa trên độ tương đồng từ vựng của Valentin Jijkoun và cộng sự theo hai khía cạnh như đã được đề cập trong mục 3.4.1. Thứ nhất, khóa luận sử dụng tri thức từ từ điển đồng nghĩa tiếng Việt song bổ sung thêm hai trọng số sử dụng từđồng nghĩa là độ đo tổn thất khi dùng từđồng nghĩa và trọng số nghĩa giao nhau của hai từ đồng nghĩa. Thứ hai, khóa luận tường minh việc xác định ngưỡng phán quyết kế thừa và cách thức tinh chỉnh ngưỡng kế thừa. Mô hình phát hiên kế thừa văn bản tương ứng được trình bày trên Hình 4. Tập dữ liệu huấn luyện Tập dữ liệu kiểm tra Ngưỡng kế thừa Nhãn kế thừa Tinh chỉnh ngưỡng kế thừa Tập dữ liệu tinh chỉnh Tiền xử lý Tính độ tương đồng từ vựng Từđiển Ngưỡng kế thừa từ vựng

27 Các bước thực hiện dựa theo mô hình ở trên:

1) Tiền xử lý

Đầu vào: Tập các cặp câu văn bản giả thuyết

Đầu ra: Tập các cặp câu văn bản-giả thuyết đã được tách từ.

2) Xây dựng mô hình tính toán độ tương đồng từ vựng kết hợp với từđiển đồng nghĩa tiếng Việt

Đầu vào: - Tập các cặp câu văn bản-giả thuyết đã được tách từ. - Từđiển đồng nghĩa

Đầu ra: Độ tương đồng từ vựng của cặp câu văn bản – giả thuyết. (adsbygoogle = window.adsbygoogle || []).push({});

X lý:

Tiến hành tính độ tương đồng từ vựng để xem câu giả thuyết h có kế thừa văn bản t hay không. Việc tính độ tương đồng này sẽ dựa theo công thức và thuật toán nhưđã trình bày ở trên. Ngoài ra, đểđem lại độ chính xác cao hơn thì em sử dụng thêm từ điển đồng nghĩa. Nếu có một từ u nào đó xuất hiện trong giả thuyết và nó không xuất hiện trong văn bản, nhưng nếu trong văn bản xuất hiện một từđồng nghĩa với từ u thì cũng tính như từ u có xuất hiện trong văn bản.

Kết hợp lại ta có một độđo tương đồng.

3) Tinh chỉnh ngưỡng kế thừa

Dựa vào tập đầu vào là tập huấn luyện thì sau khi qua bước này sẽ tính được giá trị độđo. Sau đó, dựa vào nhãn đã được gán từ trước (Yes/No) cho tập huấn luyện này và giá trị độ đo vừa tính được, hệ thống tạo ra ngưỡng kế thừa. Ngưỡng kế thừa là giá trị độ tương đồng từ vựng sao cho với giá trị này thì tổng các cặp văn bản-giả thuyết được gán giá trịđúng là lớn nhất.

Ngưỡng này được tính bởi quá trình thống kê toàn bộ độ tương đồng với mỗi cặp T-H trong tập đào tạo. Giá trị ngưỡng được xác định sao cho có thể phân loại tốt nhất các cặp văn bản – giả thuyết kế thừa và các cặp văn bản – giả thuyết không kế thừa lấy từ tập đào tạo. Giá trị của ngưỡng được tinh chỉnh trong quá trình huấn luyện đểđưa ra phán quyết chính xác nhất có thể.

4) Phán quyết kế thừa

Đầu vào: Tập dữ liệu cần kiểm tra (tập các cặp văn bản – giả thuyết) và mô hình vừa tính được ở bước 2.

28

X:

Từ mô hình ở trên, hệ thống tính được giá trị độ đo cho từng cặp văn bản- giả thuyết. Nếu cặp văn bản – giả thuyết nào có giá trị này lớn hơn hoặc bằng ngưỡng kế thừa thì cặp văn bản – giả thuyết đó sẽ được gán nhãn kế thừa là “Yes”, ngược lại sẽđược gán nhãn kế thừa là “No”.

3.6. Tóm tắt chương 3

Chương ba của khóa luận trình bày cơ sở lý thuyết để xây dựng mô hình giải quyết bài toán phát hiện quan hệ kế thừa trong văn bản tiếng Việt. Trong chương này, dựa trên phân tích các đặc trưng của miền dữ liệu tiếng Việt, cũng như khảo sát về mức độ hiệu quả trong việc áp dụng từ điển đồng nghĩa cho phát hiện kế thừa văn bản, khóa luận đã đề xuất một mô hình giải pháp ứng dụng cho bài toán phát hiện kế thừa văn bản trên miền dữ liệu Tiếng Việt, sử dụng giải thuật tính độ tương đồng từ vựng kết hợp với tri thức miền từ điển đồng nghĩa và tinh chỉnh ngưỡng. Kết quả thực nghiệm ở chương 4 cho thấy mô hình đã đề xuất là hoàn toàn khả thi.

29

Chương 4: Thực nghiệm

Do tiếng Việt có sự nhập nhằng về ngữ nghĩa, nhiều từ đồng âm, đồng nghĩa nên việc phát hiện quan hệ kế thừa trong văn bản tiếng Việt liên quan nhiều tới tri thức miền. Vì vậy em đề nghị mô hình giải quyết bài toán nhưở chương 3 và tiến hành thực nghiệm trên 1600 cặp câu văn bản – giả thuyết được dịch từ tập dữ liệu tiếng Anh trong hội nghị RTE3. Dựa trên kết quả thực nghiệm em tiến hành đánh giá hệ thống và đưa ra hướng giải quyết trong tương lai. Trong quá trình thực nghiệm, em sử dụng bộ

Một phần của tài liệu Phát hiện kế thừa văn bản tiếng Việt dựa trên từ vựng và từ điển đồng nghĩa (Trang 32 - 51)