Đây là phương pháp đơn giản nhất. Các đơn vị ngữ liệu được trích rút hay giản lược từ các pha trước được liên kết lại thành đoạn theo thứ tự tiền định của chúng, không thêm bớt từ nối và cũng không sắp xếp lại các đơn vị ngữ liệu. Phương pháp này thường dùng cho các hệ Trích rút văn bản và Tóm tắt chỉđịnh. Văn bản kết quả của phương pháp này có độ dễ đọc dễ hiểu kém, thậm chí lủng củng về nghĩa vì các đơn vị ngữ liệu được trích rút mắc phải một số lỗi như mập mờ tham chiếu, không có từ nối hoặc là thừa từ và ngữ.
Ví dụ cho một trường hợp thừa ngữ chính là ví dụ Trích rút đầu tiên :
"Hôm qua, gia đình tôi đã tổ chức một buổi cuối tuần vui vẻ. Bữa ăn đã làm nên một cuối tuần tuyệt vời ".
“Bữa ăn” nào, “bữa ăn” ở đâu ra ? Như vậy câu cuối đã có những ngữ thừa. Điều này làm người đọc không hiểu được kết quả.
Một ví dụ khác, đề cập về mập mờ tham chiếu ( Dangling Anaphor ) :
Cho đoạn văn bản gốc gồm hai câu sau : "Tuấn hay đến thăm ngoại cậu ấy. Bà thường hay nấu cơm cho cậu ấy ăn." Giả sử khi trích rút đoạn trên được câu thứ
hai : " Bà thường hay nấu cơm cho cậu ấy ăn.". Xét riêng câu này người đọc sẽ
Các lỗi này sẽ được khắc phục bằng cách cắt bỏ các từ (ngữ) thừa, thêm các từ (ngữ) thiếu, thay thế các tham chiếu bằng các ngữ được tham chiếu. Việc này thông qua các thông tin về liên kết tham chiếu ở bước xác định chủ đề, áp dụng các phương pháp hợp giải tham chiếu (Coreference Resolution ) để thay thế, tránh tình trạng mập mờ tham chiếu. Khi áp dụng các phương pháp này thì
ứng dụng không phải là một hệ Trích rút nữa mà là một hệ Tóm lược vì đã xuất hiện các đơn vị ngữ liệu mới.
Ví dụ cho đoạn văn câu sau :
“Minh rất thông minh. Cậu ấy thường đạt kết quả cao trong học tập. Ngoài ra cậu
ấy còn có khả năng văn nghệ nữa”
Giả sử trong quá trình trích rút ta chỉ rút được câu thứ hai, và giống ví dụ
trên, chỉ có mỗi câu “Cậu ấy thường đạt kết quả cao trong học tập” làm chúng ta không biết được cậu ấy là ai. Nếu trước khi hiển thị kết quả này, chúng ta phát hiện tham chiếu Minh-Cậu ấy và thay thế Cậu ấy ở câu thứ hai và câu thứ ba thì sau khi trích rút ta sẽ có “Minh thường đạt kết quả cao trong học tập”. Và rõ ràng không còn hiện tượng mập mờ tham chiếu nữa.
Một vấn đề khác mà các phương pháp Hợp giải tham chiếu áp dụng để
tăng khả năng dễ đọc dễ hiểu đó là loại bỏ các tham chiếu tự do. Trong ví dụ
trên, các từ “ngoài ra”, “còn” ở trong câu thứ ba là các tham chiếu tự do như vậy. Nếu chỉ có câu thứ ba được trích rút, ngoài việc thay “Minh” bằng “Cậu ấy”, chúng ta cần phải loại bỏ các tham chiếu tự do như “ngoài ra” và “còn”.
Vấn đề Hợp giải tham chiếu cũng là một vấn đềđặc trưng của Xử lý ngôn ngữ tự
nhiên, và vì thế độ chính xác của các thuật toán không bao giờ đạt 100%. Điều này cũng ảnh hưởng đến kết quả của ứng dụng Tóm tắt.
3.3.2.Phương pháp Hiển thị liên kết
Việc hiển thị liên kết là tiếp nhận các đơn vị ngữ liệu đã được trích rút và giản lược từ các pha trước đó, phân tích mối quan hệ về nghĩa của các câu rồi thêm bớt các từ nối, từ dẫn và sắp xếp theo một thứ tự mới dựa vào những gì đã thu thập sao cho thỏa mãn yêu câu về hiển thị và yêu câu về độ dễ đọc, dễ hiểu của người dùng.
Đây là cả một lĩnh vực con của Xử lý ngôn ngữ tự nhiên, một lĩnh vực rất lớn và có nhiều ứng dụng. Đó là lĩnh vực Sinh ngôn ngữ tự nhiên (Natural
Language Generation – NLG ). Hàng năm bên cạnh các hội thảo về Trí tuệ nhân tạo, Xử lý ngôn ngữ tự nhiên thì cũng có rất nhiều các hội thảo về Sinh ngôn ngữ
tự nhiên
Một phương pháp thường dùng để thực hiện công việc hiển thị liên kết này là phương pháp dựa theo mẫu có sẵn (Templates ) và các phân tích về quan hệ câu để sinh từ nối và liên kết các câu. Mẫu có sẵn ở đây không phải là các mẫu khuôn dạng thông tin về câu hay đoạn như trong hệ Trích rút thông tin mà là mẫu về liên kết giữa các câu với nhau. Phương pháp này xét về mặt thuật toán gần như ngược lại với phương pháp quan hệ câu (Discourse-Based ) của pha Phân tích. Từ các đơn vị ngữ liệu đã có, ta xác định độ tương tự và độ tương phản về nghĩa, sau đó dựa trên Lý thuyết Cấu trúc diễn ngôn RST để gán cho các câu các quan hệ phù hợp từ đó thêm các từ nối và sắp xếp các thứ tự phù hợp.
Một phương pháp khác là phương pháp học dựa vào tập mẫu (Corpus) đế
xây dựng nên đoạn văn hay văn bản từ các đơn vị ngữ liệu.
3.3.3.So sánh 2 phương pháp
Trong hai phương pháp hiển thị ( thực ra là cách thức hiển thị ) được nhắc
ta chỉ xét đến hệ Trích rút ( không có các hành động khắc phục lỗi thừa thiếu từ, ngữ và lỗi mập mờ tham chiếu ) thì không cần cài đặt bất kỳ một thuật toán nào ngoài việc giữ lại thứ tự tự nhiên của từng câu trong văn bản đầu vào.
Phương pháp hiển thị liên kết có khó hơn nhưng nếu dùng độ liên quan tính bằng trọng số giữa hai câu trong văn bản để xác định quan hệ giữa chúng thì vấn đề
cũng được giải quyết phần nào. Thực hiện phương pháp này cũng đem lại một kết quả không phù hợp nếu yêu câu của người dùng về độ dễ đọc dễ hiểu là cao, tuy nhiên ở một mức độ nào đó chúng ta có thể chấp nhận được. Chúng ta có thể
cài đặt việc xác định độ liên quan về ngữ nghĩa bằng việc gán nhãn từ loại, gán nhãn ngữ nghĩa và gán nhãn quan hệ. Nếu dùng theo phương pháp này sẽ đạt
CHƯƠNG 4
THỬ NGHIỆM VÀ ĐÁNH GIÁ HỆ THỐNG
Trong chương này sẽ thực hiện thử nghiệm các hệ thống nhằm để biết hệ
thống nào cho kết quả tốt nhất, Và phương pháp đánh giá nào hiệu quả nhất. Rất tiếc do chúng tôi không tìm được đủ hệ thống tóm tắt tương đương với mọi phương pháp tóm tắt đó. Và chỉ có những hệ thống sau:
4.1. CÁC HỆ THỐNG DÙNG ĐỂ SO SÁNH
GISTSUMM
Là hệ thống sử dụng ý chính của văn bản nguồn để chỉ định, trích rút
đoạn văn và đưa vào kết quả tóm tắt cuối. Gist, đây có thể hiểu là ý chính được
đưa ra bởi người viết hoặc người đọc.
Ý tưởng cơ bản của Gistsumm là :
Mỗi văn bản được tạo ra dựa trên chủ đề chính
Ta có thể chỉ định trong văn bản một câu mà thể hiện ý chính của chủ đề
chính gọi là câu chính.
Dựa trên ý tưởng như vậy, ta có thểđưa ra giả thuyết sau :
I. Thông qua việc thống kê, ta có thể chỉ định câu chính hoặc câu mà xấp xỉ thoả mãn ý chính.
II. Dựa trên câu chính, thì có thể xây dựng trích rút chặt chễ mà có thể là chính bản thân câu chính đó, hoặc là nhiều câu khác mà thoả mãn với câu chính đó, do đó làm cho việc trích rút càng phong phú thông tin hơn.
Phương pháp sử dụng trong Gistsumm:
Gistsumm được chia thành 3 bước, phân đoạn, xếp hạng câu, và tạo ra
đoạn trích rút kết quả. Đầu tiên phân đoạn câu thành đơn vị nhỏ sau đó, phân loại câu để xác định ý chính thông qua phương pháp xếp hạng lựa chọn ( có thể
là từ khoá hoặc khái phá văn bản). Ngoài việc chỉđịnh câu chính, bước xếp hạng câu cũng phân loại câu khác để chỉ định chúng có thể xuất hiện trong văn bản trích rút cuối không. Trong bước này để hệ thống có kết quả chính xác hơn thì Gistsumm sử dụng một số tiến trình con sau : loại bỏ từ stopword ( the, then, some, all,those, this…), stemming ( asking, asked=> ask, build, building => build,…) và case folding (biến đổi chữ hoa thành chữ thường để dẽ so sánh).Cuối cùng bước tạo ra đoạn trích rút kết quả chỉ định câu nào thoả mãn (độ liên quan với Gist, sự thích hợp và giá trị rút gọn) được đưa vào bản trích rút kết quả.
Xếp hạng câu: Sentence Ranking
Việc cho điểm câu được thực hiện thông qua 2 bước: tiến xử lý và cho
điểm cầu. Bước đầu tiên là vectơ hoá câu của văn bản nguồn, sau đó mỗi vectơ được thông qua bước stopword, stemming, và case folding. Cuối cùng tần số
xuất hiện của từ được tính thông qua phương pháp Keywords và TF-ISF (Term- Frequency- Inverse Sentence Frequency)để xếp hạng câu. Câu nào có điểm cao nhất sẽđược coi là câu chính. Khi 2 hoặc nhiều câu trong văn bản nguồn có điểm trung khớp, thì cái câu cuối nhất đang được xử lý sẽ được chọn. Quyết định này là do sự chứng minh rằng, trong một tập ngữ liệu của văn bản khoa học, câu chính thường xuất hiện vào phần cuối của văn bản.
Tạo ra đoạn trích rút kết quả:
1) Tính trung bình điểm của câu, chỉđịnh ngưỡng của chúng. 2) Ngoài câu chính, Gistsumm con chọn câu khác như sau:
a. Chứa ít nhất một từ mà gốc từ đáp ứng tới một số từ trong câu chính ( Sử dụng mối quan hệ từ vựng)
b. Có điểm trên ngưõng (Nó đảm bảo rằng chỉ có câu liên quan với từ chính sẽ được chọn).
Bước trên cũng có ràng buộc với mức độ rút gọn. Nếu tuyệt đối chỉ
có câu chính được thoả mãn thì bước 2 sẽ bị bỏ. Rõ ràng thấy, bước 2 là
ưu điểm đặc biệt của Gistsumm so với phương pháp trích rút khác bước này sẽ làm cho văn bản tóm tắt kết quả có mức độ cung cấp thông tin phong phú hơn.
SWESUM
Là hệ thống tóm tắt đa ngôn ngữ ( Dalianis 2000) cho tiếng Thụy điển,
Đan mạch, Na uy, Tây ban nha, tiếng Anh, tiếng Pháp, Hy lạp, tiếng Đức, Tiếng Ba Tư.
Swesum sử dụng nhiều đặc trưng để cho điểm câu [30], như: - Vị trí câu,
- Câu mà xuất hiện sớm trong văn bản sẽ có điểm cao hơn câu xuất hiện cuối văn bản.
- Câu chứa dữ liệu sốđược cộng them điểm.
- Từ khoá được chỉ định bởi người sử dụng cũng có thể được cung cấp
Hình 4.1.Cấu trúc của Swesum [30]
Ta có thể thử nghiệm hệ thống này trên
http://swesum.nada.kth.se/index-eng-adv.html. Và dưới đây là giao diện của Swesum:
Hình 4.2.Giao diện của Swesum
MEAD
Mead là hệ thống tóm tắt đơn và đa tài liệu sử dụng nhiều đặc trưng để
cho điểm câu. Một số đặc trưng bao gồm vị trí của câu trong văn bản, sự trùng khớp của câu với câu đầu tiên, TFxIDF, Dãy con chung dài nhất, và từ khoá.
MEAD có thể thực hiện kiểu tóm tắt như sau [35]: • Tóm tắt đơn văn bản bằng phương pháp trích rút • Tóm tắt đa văn bản bằng phương pháp trích rút
• Tóm tắt dựa trên phương pháp baseline có thể là Lead-based hoặc Random
• Tóm tắt đơn ngôn ngữ bằng ngôn ngữ khác nhau ( tiếng Anh và tiếng trung quốc)
• Tóm tắt dựa trên sự truy vấn Mead bao gồm 3 bước :
1) Bước đâu tiên là trích rút đặc trưng, mỗi câu trong văn bản gốc được biến đổi thành vectơ đặc trưng sử dụng các đặc trưng định nghĩa bởi người sử
dụng.
2) Sau đó vectơđặc trưng được biến đổi thành giá trị vô hướng 3) Bước cuối cùng cho điểm câu
Các đặc trưng sử dụng trong Mead
- Trọng tâm: sự trùng khớp cosine với vectơ trọng tâm của cụm từ ( Redev et al., 2004 ).
- Sự trùng khớp cosine với câu đầu tiên trong văn bản ( hoặc với chủ đề, nếu có ).
- Độ dài: 1 nếu độ dài của câu lớn hơn ngưỡng đã cho và 0 nếu ngược lại. - Độ dài thật: Độ dài của câu tính bằng từ.
- Vị trí: Vị trí của câu trong văn bản
- Sự trùng khớp câu truy vấn: Sự trùng khớp cosine với câu hoặc đoạn truy vấn.
- Sự trùng khớp từ khoá: Sự trùng khớp với danh sách từ khoá. Phương pháp cho điểm câu:
- Mặc định: Giữ lại mọi điểm, nhưng bỏ qua câu mà quá giống với câu đã có trong phân tóm tắt.
- Cấu trúc tài liệu chéo: Áp dụng chính sách khác nhau được chỉ định bởi cấu trúc tài liệu chéo của cụm từ ( Radev, 2000, Zhang et al., 2002 ).
- MMR: Dựa trên phương pháp MMR (Car-bonell, Goldstein, 1998 ). Ta có thể thử nghiệm hệ thống này trên
http://tangra.si.umich.edu/clair/md/demo.cgi.
AUTOSUMM
Là hệ thống tóm tắt của microsoft được gói trong bộ microsoft word. Hệ
thống này dựa trên thuận toán tân số xuất hiện của thuận ngữ.Hệ thống cố gắng cắt từ, câu sau đó đưa vào bản tóm tắt kết quả bằng cách đếm từ và xếp hạng câu. Hệ thống chỉđịnh từ chung nhất ( không tính stop word), gán điểm cho mỗi câu dựa trên tần số xuất hiện của từ trong văn bản, sau đó tính trung bình bằng cách chia giá trị tổng số của câu với số từ của nó. Câu có điểm số cao được đưa ra bản tóm tắt cuối thường là 10 câu, 20 câu, 100 từ, 500 từ hoặc theo độ rút gọn của văn bản gốc. Nó gần như dựa trên lý thuyết tóm tắt của Lunh (1958).
Hiện rất nhiều nghiên cứu sử dụng nó như là một mốc chuẩn để đánh giá hệ thống của họ.
WEBSUMM:
Websumm ( Mani and Bloedorn,2000 ) là hệ thống đơn tóm tắt và đa tóm tắt được triển khai bởi MITRE. Ta có thể sử dụng hệ thống này để tạo ra tóm tắt chung chung và tóm tắt truy vấn. Websumm sử dụng mô hình liên kết đồ thị. Ý tưởng chính là thể hiện văn bản dạng thuận ngữ của các đồ thị, trong đó cấu trúc liên kết của đồ thị sẽ tiết lộ những gì đang quan tâm là nét nổi bật của thông tin trong văn bản. Một liên kết đồ thị chung tức là nút mà được kết nối với nhiều nút khác được coi là có khả năng đưa ra thông tin nổi bật. Trong Websumm, nút là từ, hoặc cụm từ và sự liên kết là mối quan hệ đồng nghĩa, quan hệ từ được nhắc lại, quan hệ từ có cùng sự ám chỉ.Giả sử là thể hiện dạng đồ thị cho một văn bản, thuật toán tóm tắt văn bản sẽ chọn một chủ đề ( sự truy vấn của người sử dụng) và tạo ra trích rút dựa trên chủ đề bằng cách tìm thuận ngữ truy vấn
thường xuất hiện trong đồ thị. Sau đó thuận toán phân bố sẽ khảo sát nút có quan hệ với nút truy vấn trong đồ thị. Bằng thuận toán phân bố, vị trí của thuận ngữ khác nhau trong đồ thị sẽ có trọng số khác nhau, sẽ tạo ra đường nét nổi bật cho văn bản. Sau đó câu được trích rút vào tóm tắt dựa trên trọng số của thuận ngữ của văn bản. Đối với tóm tắt chung chung, thuận toán phân bố sẽ không sử
dụng thay vào đó, hệ thống hoạt động như một tóm tắt dựa trên tần số xuất hiện của thuận ngữ, bằng cách sử dụng trọng số trong đồ thị gốc [34].
4.1.QUY TRÌNH KIỂM TRA
Trong quá trình này chúng tôi sẽ dùng 2 loại văn bản : 3 văn bản thử
nghiệm được gói theo hệ thống Mead và 10 văn bản được lấy từ SUM-TREE- BANK . Trong đó văn bản được lấy ra từ hệ thống Mead đã có sẵn việc cho
điểm câu của các chuyên gia và từ đó chúng tôi có thể tạo lại văn bản tóm tắt