Tóm tắt văn bản tự động sử dụng trích chọn câu hai- 123docz.net

Hệ thống tóm tắt trong [13] dựa trên cơ sở các phương pháp thống kê và thực hiện trích chọn câu theo hai bước. Vì nó tổ hợp các phương pháp thống kê và làm giảm dữ liệu nhiễu thông qua hai bước để có thể thu được hiệu suất cao.

Mục tiêu của tóm tắt văn bản là lấy thông tin, trích rút nội dung và biểu diễn những nội dung quan trọng nhất cho người sử dụng theo một form nào đó. Phương pháp có chi phí thấp và kiến trúc hệ thống vững chắc (robust) bởi vì nó không yêu cầu bất cứ nguồn ngôn ngữ nào cả. Hai bước tóm tắt cụ thể như sau:

- Bước đầu tiên, tạo ra các câu giả bi-gram bằng cách tổ hợp hai câu kề nhau (adjacent) để giải quyết vấn đề rời rạc đặc trưng (feature sparseness); vấn đề này xuất hiện nếu tóm tắt văn bản trích chọn đặc trưng chỉ từ một câu. Sau đó, ước lượng trọng số quan trọng của các câu giả bi-gram bằng phương pháp tổ hợp Title và Location. Có thể nhận được nhiều câu giả có ích hơn thông qua việc xóa đi các câu giả bi-gram không có giá trị (xóa dữ liệu nhiễu).

- Ở bước thứ hai, chia các câu giả bi-gram thành mỗi câu đơn gốc và biểu diễn trích chọn các câu quan trọng bằng phương pháp Aggregation Similarity. Bởi vì phương pháp Aggregation Similarity (độ tương đồng kết hợp) ước lượng các phần quan trọng nhất của câu bằng việc tính toán độ tương đồng của tất cả các câu khác trong một tài liệu, phương pháp Aggregation Similarity hiệu quả hơn sau khi xóa bỏ đi các câu nhiễu. Vì thế hệ

thống tóm tắt không yêu cầu nguồn ngôn ngữ như WordNet và bộ phân tích luật, nó cho chi phí thấp và vững chắc. [13]

Hình 3. Hệ thống tóm tắt sử dụng phương pháp trích chọn câu hai bước [13]

2.2.3.1. Các phương pháp thống kê tổng quát Title Method

Trọng số của các câu được tính bằng số từ phổ biến được sử dụng giữa câu và title. Tính toán này yêu cầu một truy vấn từ title trong mô hình không gian vector trọng số Boolean.

Trong đó: Si là một câu thứ i và Q là một truy vấn từ title, wik là trọng số của từ thứ k trong câu và wqk là trọng số của từ thứ k trong truy vấn.

Location Method

Trong đó: Si là câu thứ i và N là tổng số câu trong văn bản.

Aggregation Similarity Method

Trọng số của một câu được tính bằng tổng độ tương đồng của câu đó với tất cả các vectors câu khác trong mô hình không gian vector tài liệu. Mỗi trọng số được tính như sau:

Phương trình sim(Si, Sj) tính độ tương đồng giữa hai câu i và j, wik là trọng số của từ thứ k trong câu thứ i.

Frequency Method

Tần số của từ xuất hiện trong một tài liệu thường được sử dụng để tính toán độ quan trọng của các câu [15]. Trong phương pháp này, trọng số của một câu có thể được tính bằng tổng trọng số của các từ trong câu. Có thể dùng phương pháp TF.IDF truyền thống để tính trọng số wi của từ i như sau:

Trong đó: tfi là tần số từ của từ i trong tài liệu, N là tổng số từ trong văn bản và dfi là tần số tài liệu của từ i trong toàn bộ tập dữ liệu.

2.2.3.2. Phương pháp TF-Based Query

Như mô tảở trên, title thường sử dụng cho một truy vấn và phương pháp Title chỉ ra hiệu suất cao hơn các phương pháp tổng quan khác. Tuy nhiên, trong trường hợp đặc biệt, nó có thể khó trích rút một title từ các tài liệu hoặc bất cứ kiểu tài liệu nào không có title. Đối với trường hợp này, chúng tôi đề xuất một phương pháp để trích rút các từ chủđể cho một truy vấn. Phương pháp truy vấn trên cơ sở TF sử dụng một truy vấn – truy vấn bao

gồm các từ với tần số từ cao nhất trong một tài liệu. Phương pháp coi các từ với tần số cao như các khái niệm quan trọng [15].

Giống như phương pháp Title, ma trận tích được sử dụng như độ đo tương đồng giữa một câu và một truy vấn trên cơ sở TF. Để biểu diễn các câu, chỉ các từ thích hợp và danh từ phổ biến được sử dụng sau khi loại bỏ từ dừng.

Trong đó, tfik là các tần số từ của từ thứ k trong câu thứ i (trọng số Boolean) và Si là vector câu. Phương trình tính toán độ tương đồng giữa các câu và truy vấn trên cơ sở TF:

n là số lượng từ trong một tài liệu. wik là trọng số của từ thứ k trong câu thứ i và wTFQk là trọng số của từ thứ k trong truy vấn trên cơ sở TF.

2.2.3.3. Tổ hợp các phương pháp thống kê trong hai bước Xóa đi các câu nhiễu trong bước đầu tiên (First Step)

Phương trình đánh trọng số cho các câu giả bi-gram:

Sau khi tất cả các câu giả bi-gram được đánh trọng số, khoảng 50% trong số chúng bị xóa bởi vì chúng bị xem là những câu nhiễu.

Tóm tắt trích chọn trong bước thứ hai (Second Step)

Phương trình cuối cùng như sau:

Trong đó wa là giá trị trọng số phản ánh tầm quan trọng của phương pháp Aggregation Similarity.

Với trường hợp các tài liệu không có title, phương pháp truy vấn TF-based được sử dụng thay cho phương pháp Title. Phương trình cụ thể như sau:

2.2.3.4. Kết quả thực nghiệm

Trong thực nghiệm, phương pháp sử dụng dữ liệu test gồm nhiều bài báo tin tức của Korea Research and Development Information Center(KORDIC). Mỗi tài liệu test có title, content, tóm tắt theo tỉ lệ 30% và 10%. Các tóm tắt theo tỉ lệ 30% và 10% của các tài liệu test được làm bằng cách trích rút câu từ nội dung bằng tay. Để đo hiệu suất của phương pháp, độđo F1 được sử dụng như phương trình (13) sau:

Trong đó P là độ chính xác, R là độ hồi tưởng

Dưới đây là các kết quả thực nghiệm cụ thể của phương pháp

Để xác định hiệu quả của phương pháp tổ hợp hai bước, bài báo [13] so sánh hiệu suất của phương pháp tổ hợp hai bước với các phương pháp khác như Title, Location, và DOCUSUM.

Hình 4. So sánh giữa phương pháp Two-step và các phương pháp khác (trường hợp sử dụng Title) [13]

Như trên hình 4, hệ thống trích chọn câu hai bước đã chỉ ra hiệu suất tốt hơn phương pháp Title, Location và thậm chí là DOCUSUM. Thực nghiệm trong trường hợp no-title. cũng chỉ ra kết quả như vậy.

Hình 5. So sánh giữa phương pháp Two-step và các phương pháp khác (trường hợp không sử dụng Title) [13]

Tóm lại, phương pháp sử dụng các câu giả bi-gram để giải quyết vấn đề rời rạc đặc trưng và tổ hợp thống kê hai bước để cải thiện hiệu quả. Như kết quả, phương pháp thu được hiệu suất cao hơn các phương pháp thống kê khác và DOCUSUM. Phương pháp này không chỉ có hiệu suất cao mà còn có điểm mạnh là dễ thực hiện bởi vì nó chỉ sử dụng các phương pháp thống kê đơn giản.

Chương 3. Độ tương đồng câu và phương

pháp tính độ tương đồng câu

3.1. Độ tương đồng

Trong toán học, một độ đo là một hàm số cho tương ứng với một "chiều dài", một "thể tích" hoặc một "xác suất" với một phần nào đó của một tập hợp cho sẵn. Nó là một khái niệm quan trọng trong giải tích và trong lý thuyết xác suất.

Ví dụ, độđo đếm được định nghĩa bởi µ(S) = số phần tử của S

Rất khó để đo sự giống nhau, sự tương đồng. Sự tương đồng là một đại lượng (con số) phản ánh cường độ của mối quan hệ giữa hai đối tượng hoặc hai đặc trưng. Đại lượng này thường ở trong phạm vi từ -1 đến 1 hoặc 0 đến 1. Như vậy, một độđo tương đồng có thể coi là một loại scoring function (hàm tính điểm).

Ví dụ, trong mô hình không gian vector, ta sử dụng độ đo cosine để tính độ tương đồng giữa hai văn bản, mỗi văn bản được biểu diễn bởi một vector.

Phân loại độ đo tương đồng, ở đây có thể liệt kê ra một số độ đo như độ đo tương đồng giữa các từ, độ đo tương đồng giữa các văn bản, độ đo tương đồng giữa nhiều ảnh, độđo tương đồng giữa các ontology, …

3.2. Độ tương đồng câu

Xét ví dụ gồm hai câu “Tôi là nam” và “Tôi là nữ”. Ta có thể nhận thấy hai câu trên có sự tương đồng cao, tuy nhiên chúng ta cần phải có một độ đo để có thể tính được độ tương đồng của chúng.

Bài toán tính độ tương đồng câu được phát biểu như sau: Xét một tài liệu d gồm có n câu: d = s1,s2,… sn. Mục tiêu của bài toán là tìm ra được một giá trị của hàm S(si,sj) với S∈(0,1). Hàm S(si,sj) được gọi là độ tương đồng giữa hai câu si và sj. Giá trị này càng cao thì sự giống nhau về ngữ nghĩa của hai câu càng lớn.

Độ tương đồng ngữ nghĩa là một giá trị tin cậy phản ánh mối quan hệ ngữ nghĩa giữa hai câu. Trên thực tế, khó có thể lấy một giá trị có chính xác cao bởi vì ngữ nghĩa chỉ được hiểu đầy đủ trong một ngữ cảnh cụ thể.

3.3. Phương pháp để đo độ tương đồng câu

Nhưđã giới thiệu, hiện nay có hai phương pháp điển hình để đo độ tương đồng câu là phương pháp thống kê và phương pháp xử lý ngôn ngữ tự nhiên..

Với phương pháp thống kê, có một số phương pháp sử dụng các độ đo dựa vào tần suất xuất hiện của từ trong câu, nổi bật là phương pháp sử dụng độ đo cosin. Phương pháp này xử lý nhanh, tốn ít chi phí tuy nhiên vẫn chưa đảm bảo độ chính xác cao về mặt ngữ nghĩa.

Còn các phương pháp sử dụng xử lý ngôn ngữ tự nhiên, một số cách tiếp cận đặc trưng được đưa ra là sử dụng phân tích cấu trúc ngữ pháp, sử dụng mạng ngữ nghĩa đối với từ, như sử dụng Wordnet corpus hoặc Brown corpus. Phương pháp xử lý ngôn ngữ tự nhiên xử lý chậm hơn, tốn nhiều chi phí hơn tuy nhiên khi xét về mặt ngữ nghĩa thì cao hơn phương pháp thống kê.

Xét cho cùng, cả phương pháp xử lý ngôn ngữ tự nhiên cũng như phương pháp thống kê đều chỉ là những phương pháp “tạm thời” bởi vì chúng chưa đạt đến mức độ “thông minh” như con người mong muốn.

3.3.1. Phương pháp tính độ tương đồng câu sử dụng WordNet corpus

3.3.1.1. Mô hình của phương pháp

Mô hình của phương pháp dựa trên mô hình được đề xuất trong báo cáo [16] để tính toán độ tương đồng câu tiếng Anh.

Hình 6. Lược đồ tính toán độ tương đồng câu [16]

Về mặt cấu trúc, một đoạn văn bản gồm nhiều câu, mỗi câu được tạo thành bởi một chuỗi các từ mang các thông tin cần thiết. Phương pháp này được thực hiện dựa vào thông tin về ngữ nghĩa và cú pháp của các từ trong câu

Dựa vào mô hình, giải quyết bài toán có 5 bước:

Bước 1: Tiền xử lý

- Tách mỗi câu thành một danh sách các từ tố (token): Mỗi câu được tách ra thành một danh sách các từ và xóa đi các từ dừng. Từ dừng là các từ xuất hiện thường xuyên, các từ không có ý nghĩa.

- Xác định từ loại (part of speech: từ loại): Sau khi câu được tách thành danh sách các từ. Bước này sẽ xác định đúng từ loại (POS - như noun, verb, pronoun, adverb ...) của mỗi từ trong câu.

Bước 2: Tính độ tương tự từ

- Sau khi đã có danh sách các từ được gán nhãn, ta xác định được một tập từ chung cho hai câu. Tập từ chung này bao gồm tất cả những từ phân biệt có trong hai câu đó.

- Dựa vào tập từ chung đồng thời sử dụng wordnet ta sẽ ước tính được độ tương đồng về ngữ nghĩa cho các từ trong mỗi câu với tập từ chung .Từ đó đưa ra được vector ngữ nghĩa cho hai câu.

Bước 3: Tính độ tương đồng ngữ nghĩa cho hai câu

Khi tính được độ tương tự từ, ta đưa ra được vector ngữ nghĩa si cho mỗi câu. Sử dụng vector ngữ nghĩa của hai câu để tính độ tương đồng về ngữ nghĩa cho hai câu đó.

Bước 4: Tính độ tương đồng thứ tự từ

Dựa tập từ chung ta xác định vector thứ tự từ cho mỗi câu.

Bước 5: Tính độ tương đồng cho toàn bộ câu

Kết hợp giữa vector ngữ nghĩa và vector thứ tự của hai câu ta tính ra được độ tương đồng cho hai câu.

3.3.1.2. Tính độ tương tự từ dựa trên WordNet

Vì một đoạn văn bản gồm nhiều câu và mỗi câu có thể xem như một chuỗi các từ mang thông tin cần thiết nên từ được xem như là đơn vị thấp nhất về mặt ngữ nghĩa khi xét cho một văn bản. Vậy, muốn tính độ tương tự câu yêu cầu bắt buộc phải dựa vào độ tương tự của từ có trong câu.

Độ tương tự giữa các từ có ý nghĩa trong các bài toán trích chọn thông tin từ corpus và trong NLP được dùng để hỗ trợ cho việc biên soạn các từđiển từđồng nghĩa. Bên cạnh đó, nó cũng được ứng dụng để mở rộng và sửa các truy vấn ngôn ngữ tự nhiên [20].

Phương pháp tiến hành đo độ tương tự từ dựa vào wordnet

Như trên đã giới thiệu, WordNet là một mạng ngữ nghĩa trong đó có chứa rất nhiều node. Mỗi node sẽ biểu diễn một khái niệm về thế giới thực. Wordnet được xây dựng dưới dạng cây phân cấp nên thể hiện được mối quan hệ giữa các từ. Vì thế, việc sử dụng wordnet cho việc tính độ tương tự từ sẽ thuận tiện rất nhiều.

Ví dụ đối với hai từ boy và teacher, khi xét mối quan hệ giữa 2 từ này trên tập corpus wordnet ta có thể xây dựng được một cấu trúc cây thể hiện mối quan hệ ngữ nghĩa giữa hai từ thông qua các nút khác như trong hình vẽ. Teacher – educator – professional – adult – person – male – male child – boy [16].

Hình 7. Hệ thống cây phân cấp ngữ nghĩa[16]

Cho hai từ c1, c2, chúng ta cần tính độ tương tự từ cho hai từđó dựa vào WordNet. Ta sẽ tìm một lớp nào đó trong cây phân cấp để xác định các từ trong nhóm lớp đó, rồi tiến hành so sánh. Phương pháp này có thể được thực hiện dựa vào nhiều độ đo như: độ đo Jiang Conrath (JCN), độ đo Lin, Extended Gloss Overlaps, Hirst-St Onge, Resnik, Leacock-Chodorow. Từ [20], có bảng sau:

Measure Nouns Only All POS

Jiang-Conrath 0.46 n/a

Ex.Gloss Overlaps 0.43 0.34

Lin 0.39 n/a

Hirst-St.Onge 0.33 0.23

Resnik 0.29 n/a

Leacock Chodorow 0.28 n/a

Bảng 1. Các kết quả so sánh các độđo

Độ đo JCN luôn có giới hạn dưới là 0 nhưng không có giới hạn trên. JCN sử dụng nội dung thông tin (Information Content) của các khái niệm (concept).

IC = IC(concept) = –log(P(concept))

Xác suất xuất hiện của khái niệm trong một corpus được tính bằng tần số của từ đó trong corpus:

P(concept) = freq(concept)/N

Trong đó: N là tổng số khái niệm có trong corpus. Công thức tính khoảng cách ngữ nghĩa:

distance = IC(c1) + IC(c2) – 2. IC(lcs(c1, c2))

Trong đ ó: lcs(c1, c2): Khái niệm thấp nhất trong hệ thống cấp bậc quan hệ is-a hay nó là cha của hai từ c1và c2; distance: Khoảng cách của hai từ.

Từđó, đưa ra được mối quan hệ giữa hai từ c1 và c2 như sau:

Relatedness(c1, c2) = 1 / distance

Ví dụ: Xét hai từboy và teacher. Dựa vào hình 4 ta có lcs(boy, teacher) là person

3.3.1.3. Độ tương đồng về ngữ nghĩa giữa 2 câu

Sau khi tính được độ tương tự từ, ta đưa ra được vector ngữ nghĩa si cho mỗi câu. Giá trị của từng thành phần có trong vector là giá trị về độ tương tự từ của từng từ trong câu với tập từ chung [16].

Sự giống nhau về ngữ nghĩa giữa 2 câu là hệ số cosin giữa 2 vector :

. 2

1 s

3.3.1.4. Độ tương đồng về thứ tự của các từ trong câu

Mục tiêu của phần này là từ hai câu input, đưa ra được vector thứ tự từ cho mỗi câu. Ví dụ: Ta có hai câu T1 và T2 với

T1: A quick brown dog jumps over the lazy fox

Tóm tắt văn bản tự động sử dụng trích chọn câu hai bướ c