CẤU TRÚC CỦA CHƯƠNG TRÌNH TẠO TRÍCH LƯỢC VĂN BẢN- 123docz.net

f) Trích danh từ, cụm danh từ làm đặc trưng (cĩ xem xét nghĩa của từ)

5.5. CẤU TRÚC CỦA CHƯƠNG TRÌNH TẠO TRÍCH LƯỢC VĂN BẢN

giữa hai câu cịn tùy thuộc vào ngữ cảnh, tri thức, và sự hiểu biết về văn bản. Các nghiên cứu gần đây ngồi việc sử dụng độ đo tần số xuất hiện cịn sử dụng thêm các thơng tin bổ sung khác, chẳng hạn cĩ phân tích thành phần câu, trích danh từ, động từ, …, cụm danh từ, … , hoặc bổ sung các hệ sốđồng nghĩa, …. Đĩ là một phần của hướng phân tích sâu ngơn ngữ. Như vậy, đây là sự kết hợp cả phân tích “nơng”, và phân tích “sâu”, cũng tương đương với kết hợp phương pháp thống kê và phân tích ngơn ngữ như trong cách phân loại thứ nhất. Đây cũng là hướng nghiên cứu đang được quan tâm hiện nay trên thế giới trong lĩnh vực tĩm tắt văn bản.

Đối với tiếng Việt, do kết quả cịn hạn chế trong xử lý ngơn ngữ tự nhiên hiện nay nên ta chưa thể áp dụng hướng phân tích ngơn ngữ “sâu” cũng như các hướng kết hợp kể trên, tạm thời ta chỉ cĩ thể vận dụng các kết quả phân tích thành phần câu để nâng cao hiệu quả của phương pháp thống kê.

Chi tiết hơn về các lý thuyết liên kết văn bản cĩ thể xem thêm trong cơng trình “Hệ thống liên kết văn bản tiếng Việt” của GS. Trần Ngọc Thêm, năm 2000. Trong cơng trình của TS. Võ Lý Hịa[10] cĩ nghiên cứu về các phương pháp phân tích ngơn ngữ “sâu” để tĩm tắt văn bản nhưng thực hiện bằng tay.

5.5. CẤU TRÚC CỦA CHƯƠNG TRÌNH TẠO TRÍCH LƯỢC VĂN BẢN BẢN

Trong đề tài này chúng tơi dùng cấu trúc tổng quát của các hệ thống tĩm tắt dạng

trích lược (extract) theo tiếp cận thống kê kết hợp với phân tích ngơn ngữ, xu hướng phổ biến trong các hệ thống tĩm tắt gần đây. Qui trình tĩm tắt nhìn chung cĩ thể

bao gồm các bước sau:

-Bước 1. Tiền xử lý tài liệu, loại bỏ các phần khơng cần thiết trong tài liệu. -Bước 2. Tách đoạn, tách câu. Vì bản tĩm tắt cuối cùng được tạo ra dựa trên

đơn vị là các câu, nên việc tách các câu làm đơn vị xử lý là bắt buộc.

-Bước 3. Xử lý ngơn ngữ tự nhiên. Giai đoạn xử lý ngơn ngữ tự nhiên bao gồm nhiều việc với nhiều cấp độ xử lý khác nhau. Tùy thuộc vào đặc điểm ngơn ngữ và yêu cầu đặt ra cho hệ thống, người xây dựng hệ thống sẽ xác định cơng việc nào cần được thực hiện và ở mức độ nào. Các cơng việc tiêu biểu liên quan

đến xử lý ngơn ngữ tự nhiên được ứng dụng trong tĩm tắt văn bản bao gồm những việc được liệt kê bên dưới.

Xử lý 1. Tách từ. Một ứng dụng về xử lý trên văn bản nếu muốn xử lý sâu hơn về mặt ngơn ngữ như ngữ nghĩa của từ, cấu trúc văn phạm, phân biệt các thành phần trong câu, … thì cơng việc bắt buộc phải làm đầu tiên là tách từ.

Khác với các ngơn ngữ như Anh, Pháp, …, việc tách từ chỉ đơn giản là tách theo các khoảng trắng, tiếng Việt là ngơn ngữ đơn lập, một từ cĩ thể bao gồm nhiều tiếng, thì việc tách từ theo khoảng trắng khơng đáp ứng được mà địi hỏi cơng việc xử lý phức tạp hơn nhiều,

địi hỏi nhiều kỹ thuật xử lý ngơn ngữ tự nhiên. Do vậy, tách từ cho văn bản tiếng Việt cũng là bài tốn được quan tâm trong lĩnh vực xử

lý ngơn ngữ tự nhiên.

Xử lý 2. Gán nhãn từ loại. Bước tiếp theo sau bước tách từ là gán nhãn từ loại. Kết quả của cơng đoạn này là mỗi từ trong câu sẽ được gán cho một nhãn từ loại như danh từ, động từ, tính từ, trạng từ, … Kết quả đĩ được sử dụng trong quá trình xét đến ngữ nghĩa cũng như quan hệ ngữ nghĩa của các từ vì ngữ nghĩa của mỗi từ sẽ đi kèm tương ứng với một loại từ nhất định, tức là cùng một từ nếu loại từ

tương ứng với các loại từ khác nhau cĩ thể cĩ những ý nghĩa khác nhau. Cũng do ý nghĩa của từ được gắn kèm với từ loại của từ nên khi xét đến quan hệ ngữ nghĩa của các từ người ta cũng xét giữa các từ cùng từ loại với nhau. Hơn nữa, trong các ứng dụng cĩ sử dụng xử

lý ngơn ngữ tự nhiên nĩi chung và ứng dụng tĩm tắt văn bản nĩi riêng, các danh từ thường được quan tâm nhiều hơn cả và thường ta chỉ lọc lấy các danh từ để rút đặc trưng của câu và biểu diễn câu vì danh từ là thành phần mang nhiều thơng tin nhất trong câu. Ngồi ra, kết quả của gán nhãn từ loại cũng được dùng trong quá trình phát hiện các ngữ trong câu, vì tương ứng với từng ngơn ngữ, cụ thể là tiếng Việt, ta đã cĩ một số cú pháp nhất định để tạo nên một ngữ từ các loại từđơn vị, như danh từ, tính từ, phụ tự, ….

Do những ứng dụng từ kết quả của gán nhãn từ loại được nêu ở

trên, đối với các hệ thống tĩm tắt khơng xử lý sâu hơn về mặt ngữ

nghĩa của từ hay nhu cầu phát hiện các ngữ thì sẽ khơng cĩ xử lý bước gán nhãn từ loại này. Trong đề tài này, chúng tơi xử lý ngữ nghĩa của từ và phát hiện cụm danh từ, do đĩ bước gán nhãn từ loại này cũng sẽ được thực hiện.

Xử lý 3. Phát hiện các cụm từ (cụm danh từ, cụm động từ, cụm tính từ, …). Cấu trúc tổng quát của một cụm từ là bao gồm một từ

chính và các thành phần phụ khác làm rõ nghĩa hơn hoặc giúp dễ dàng xác định rõ hơn đối tượng, hành động, hoặc tính chất được chỉ ra trong từ chính. Trong ứng dụng tĩm tắt văn bản của ta, thành phần

được quan tâm xử lý là danh từ, do đĩ ngữ cần phát hiện sẽ là cụm danh từ. Do tính chất của cụm từ, cụm danh từ sẽ miêu tả rõ hơn và xác định rõ đối tượng hơn danh từ, nên nếu ta dùng cụm danh từ để đặc trưng câu, hay biểu diễn câu, thì các đối tượng được thơng báo trong câu sẽđược trích ra chính xác hơn.

Ta xét ví dụ, trong câu cĩ cụm từ “đường truyền tốc độ cao”, nếu ta khơng cĩ xử lý phát hiện cụm danh từ thì các danh từ ta trích được trong câu đĩ sẽ cĩ “đường truyền” và “tốc độ” rời nhau, ngược lại, nếu cĩ phát hiện cụm danh từ thì ta sẽ trích được một cụm từ là “đường truyền tốc độ cao”. Ta thấy rõ là “đường truyền tốc độ cao” thì rõ nghĩa hơn “đường truyền” và nĩ chỉ ra một đối tượng khác hẳn. Cũng tương tự, “tốc độ cao” khác với “tốc độ”.

Như vậy, nếu dùng cụm từđể đặc trưng câu thì tốt hơn là dùng từ. Tuy nhiên, nếu ta trích ra các cụm từ quá chi tiết, chẳng hạn ngữ cĩ

kèm theo mệnh đề, thì đơi khi khơng cần thiết, vì như vậy sẽ làm mất tính tổng quát của đơn vị biểu diễn câu, từđĩ ảnh hưởng đến kết quả

so sánh độ tương tự giữa các câu, dẫn đến làm giảm hiệu quả của quá trình rút trích câu trội trong văn bản, và cuối cùng sẽ làm giảm chất lượng bản tĩm tắt.

Xử lý 4. Xét quan hệ ngữ nghĩa giữa các từ. Việc xét quan hệ

ngữ nghĩa giữa các từ giúp tăng hiệu quả so sánh độ tương tự giữa các câu. Thơng thường, đểđánh giá quan hệ ngữ nghĩa giữa các từ người ta dùng một từ điển ngữ nghĩa cĩ sẵn, chẳng hạn, trong tiếng Anh cĩ từ điển Wordnet trong đĩ gom các từ đồng nghĩa theo từng nhĩm và cĩ phân cấp các nhĩm theo quan hệ ngữ nghĩa cha-con. Chúng tơi xây dựng tự điển đồng nghĩa và ontology tiếng Việt cho lĩnh vực CNTT.

Bước 4. Biểu diễn tài liệu. Một tài liệu cĩ thể được xem là một tập các câu, biểu diễn tài liệu là biểu diễn các câu trong tập đĩ. Các câu sau bước xử lý ngơn ngữ tự nhiên sẽ được chia nhỏ và bao gồm các

đơn vị nhỏ hơn, là từ hoặc ngữ, mỗi đơn vị như vậy được gọi là từ hay cụm từ (term). Sau đĩ mỗi câu sẽđược biểu diễn lại theo một cấu trúc phù hợp để phục vụ cho bước xử lý sau là bước rút trích câu trội. Cho đến nay, trong các hệ thống tĩm tắt văn bản, cĩ nhiều cách biểu diễn câu, tùy theo mức độ xử lý ngơn ngữ của hệ thống đĩ. Bên dưới đây là danh sách liệt kê một số phương pháp biểu diễn tài liệu thơng dụng.

Cách 1. Biểu diễn câu sử dụng khơng gian vec-tơ dựa trên tần số xuất hiện của các từ hay cụm từ (term). Cách biểu diễn này được sử dụng khá phổ biến. Nĩ cho phép áp dụng các phương pháp xử lý ngơn ngữ tự nhiên trên các câu.

Cách 2. Biểu diễn câu sử dụng khơng gian vec-tơ dựa trên tần số xuất hiện của các n-gram, xem [18], với n-gram là một phần n ký tự của một chuỗi dài hơn. Xét ví dụ, ta cĩ một từ “TEXT”, từ này cĩ thểđược biểu diễn bằng các n-gram như như sau:

Các 2-gram: _T, TE, EX, XT, T_

Các 3-gram: _TE, TEX, EXT, XT_

Các 4-gram: _TEX, TEXT, EXT_

Ưu điểm của cách biểu diễn theo n-gram là nĩ cĩ khả năng bỏ qua các lỗi chính tả nhỏ. Ngồi ra, phương pháp này hồn tồn dùng kỹ

thuật thống kê, khơng địi hỏi các tri thức ngơn ngữ chuyên biệt nào, do đĩ khơng phụ thuộc vào ngơn ngữ. Tuy vậy, do đặc điểm khơng cần sử dụng các tri thức ngơn ngữ chuyên biệt nên phương pháp này khơng tận dụng được các kết quả xử lý ngơn ngữ tự nhiên, do đĩ khơng xét đến vấn đề ngữ nghĩa của từ và ý nghĩa ngữ pháp của các thành phần trong câu. Từ đĩ làm cho chất lượng của bản tĩm tắt khơng cao.

Cách 3. Biểu diễn câu bằng đồ thị khái niệm, xem [3]. Trong

đĩ, mỗi câu được biểu diễn bằng một đồ thị. Các đồ thị này bao gồm hai loại đỉnh:

các đỉnh khái niệm: tương ứng các thành phần trong câu (các danh từ, động từ, tính từ, trạng từ, …),

các đỉnh quan hệ: tương ứng với các kiểu quan hệ giữa các khái niệm.

Với cách biểu diễn này, để so sánh độ tương tự giữa các câu, người ta so sánh các độ thị biểu diễn các câu đĩ. Độ tương tự của hai đồ thịđược tính dựa trên hai thơng số: độ tương tự về các khái niệm trong hai đồ thị, và độ tương tự về các quan hệ khái niệm trong hai đồ thị.

Cách biểu diễn này cĩ ưu điểm là tận dụng được thơng tin ngữ nghĩa phát sinh do cách liên kết câu, trật tự từ trong câu. Tuy nhiên, cách biểu diễn bằng đồ thịđịi hỏi xử lý tương đối phức tạp, xem [3].

Đối với các phương pháp biểu diễn bằng vec-tơ (hai phương pháp

đầu) thì việc so sánh độ tương tự giữa các câu trở nên khá tự nhiên: gĩc giữa hai vec-tơ càng nhỏ thì hai câu càng tương tự nhau. Trong thực tế, người ta thường dùng hệ số cosin giữa hai vec-tơ để đặc trưng cho tính tương tự giữa hai câu. Ngồi ra, biểu diễn tài liệu theo cách này, phần lớn các thành phần của các vec-tơ cĩ trọng số là 0. Để giải quyết vấn đề

này, ta cĩ thể dùng kỹ thuật vec-tơ “thưa”.

-Bước 5. Rút các câu trội trong văn bản. Việc rút câu trội được dựa trên nguyên lý: các câu nổi trội là các câu chứa các thơng tin được nhắc lại nhiều lần trong văn bản, hay là thơng tin quan trọng trong văn bản. Do vậy, các câu trội sẽ được chọn ra từ các nhĩm câu tương tự cĩ số lượng câu trong nhĩm lớn nhất. Cơng đoạn này sử dụng kết quả biểu diễn câu ở bước trước và sử dụng các độđo

để đánh giá độ tương tự giữa các câu. Ngồi ra, cĩ những nghiên cứu sử dụng các heuristic, hoặc phương pháp học để rút ra các qui luật chọn câu quan trong dựa trên cấu trúc văn bản.

-Bước 6. Tạo tĩm tắt. Bước này sử dụng các câu trội đã chọn được ở bước trước để tạo nên bản tĩm tắt. Trong đề tài này, chúng tơi ghép các câu trội trích

được để tạo thành bản tĩm tắt, nhưng cĩ giữ lại đúng thứ tự các câu trong văn bản.

Việc xác định số lượng câu của tĩm tắt cĩ thể theo hai cách:

Cách 1. Xác định tỉ lệ về kích thước (theo câu) của bản tĩm tắt so với của văn bản nguồn. Cách này sẽ tạo ra các bản tĩm tắt cĩ kích thước khác nhau tùy theo kích thước của tài liệu nguồn.

Cách 2. Các bản tĩm tắt được tạo ra cĩ kích thước cố định

được, kích thước này được xác định chung cho cả hệ thống. Cách này khá phổ biến trong các hệ thống tĩm tắt hiện nay.

CẤU TRÚC CỦA CHƯƠNG TRÌNH TẠO TRÍCH LƯỢC VĂN BẢN

Nguồn dữ liệu từ điển LDOCE

Bước 2: Sử dụng mơ hình