Giai tạo danh sách câu khả dụng

S1 = “Trong đầm gì đẹp bằng sen”

S2 = “Lá xanh bông trắng lại chen nhụy vàng”

S3 = “Nhụy vàng bông trắng lá xanh”

S4 = “Gần bùn mà chẳng hôi tanh mùi bùn”

Trực quan có thể thấy hai câu S1 và S2 có độ tương đồng ngữ nghĩa rất cao, do vậy, để việc tóm tắt văn bản đạt hiệu quả cao nhất thì cần phải loại những câu đồng ngữ nghĩa ra khỏi danh sách các câu cần dùng để tóm tắt. Danh sách các câu dùng để tạo bản tóm tắt theo ý nghĩa như vậy gọi là danh sách câu khả dụng. Như vậy có thể hiểu:

Danh sách câu khả dụng là danh sách chứa các câu của văn bản gốc

không có sự tương đồng ngữ nghĩa (từng đôi một).

Quá trình tạo danh sách câu khả dụng

Giả sử văn bản gốc D có danh sách các câu là S =S S1, 2,...,Sn

Chi tiết quá trình tạo danh sách câu khả dụng như sau: Input: S1, S2, ..., Sn - Các câu của văn bản D

VFD - Vector đại diện của văn bản theo tần suất từ

VFS1, VFS2, ..., VFSn - Vector đại diện các câu theo tần suất từ VTD - Vector đại diện của văn bản theo chủ đề ẩn

VTS1, VTS2, ..., VTSn - Vector đại diện các câu theo chủ đề ẩn Output: StCoAvaiList - Danh sách câu khả dụng

Phương pháp thực hiện: StCoAvaiList= 

Lặp với i = 1 đến n thực hiện

Add(StCoAvaiList, Si) // thêm câu Si vào StCoAvaiList

Lặp với i = 1 đến n và Si StCoAvaiListthực hiện

Lặp với j = i + 1 đến n và Si StCoAvaiList thực hiện

Nếu Sim S S( i, j) thì Remove(Si, Sj) // Sim S S( i, j) - tính theo công thức 2.5

//  - ngưỡng tương đồng (chọn qua thực nghiệm);

// Remove(Si, Sj) - loại câu có trọng số thấp hơn ra

// khỏi StCoAvaiList

Dưới đây là kết quả thực nghiệm tạo danh sách câu khả dụng của văn bản

D trong ví dụ 2.2.2 theo phương pháp trên:

Với hằng số trộn  =0, 7và ngưỡng tương đồng  =0, 55

Trọng số các câu: S1 =Sim S D( , )1 0,38; S2 0, 76; S3 0, 68; S4 0, 53

StCoAvaiList = {S1, S2, S3, S4}

Quá trình lặp tạo danh sách câu khả dụng như sau: Sim(S1, S2)  0,24878652865881926

Sim(S1, S3)  0,2750000000000004 Sim(S1, S4)  0,2630142022557633

Sim(S2, S3)  0,8581649733015537 => S2 tương đồng ngữ nghĩa với S3

Remove(S2, S3) => StCoAvaiList = {S1, S2, S4} Sim(S3, S4)  0.2724075666220406

Trong luận văn, trọng số câu là độ tương đồng ngữ nghĩa của câu với toàn văn bản hay nói cách khác trọng số câu là mức độ hàm chứa nội dung văn bản của câu. Do đó, trọng số của câu tính được tính theo công thức (2.5).

Giai đoạn tiền xử lý

Giai đoạn sinh văn bản tóm tắt