Chương 2 CÁC KIẾN THỨC NỀN TẢNG
5.2. Mơ hình tóm tắt đa văn bản hướng trích rút
5.2.5. So sánh và đánh giá kết quả
Mơ hình đề xuất cũng được so sánh với các nghiên cứu hiện đại khác đã công bố trên cùng bộ dữ liệu thử nghiệm DUC 2007. Phương pháp DSDR [142] đại diện cho tóm tắt đa văn bản dựa trên cấu trúc lại câu. Trong phương pháp này, các câu quan trọng được lựa chọn và cấu trúc lại bằng cách học một chức năng cấu trúc lại câu. Sau đó, DSDR cung cấp một tập các câu đại diện tối ưu để ước lượng gần đúng toàn bộ tập văn bản bằng cách giảm thiểu lỗi khi cấu trúc lại. Phương pháp PV-DM [143] sử dụng bộ nhớ phân tán để biểu diễn văn bản và chọn các câu bằng cách cấu trúc lại ở mức văn bản. Phương pháp PV-DM không đánh giá cho độ đo R-L.
Hai mơ hình cơ sở Random và Lead cũng được sử dụng để so sánh với mơ hình đề xuất Kmeans_Centroid_EMDS. Kỹ thuật Random lựa chọn các câu ngẫu nhiên từ các văn bản đầu vào để đưa vào bản tóm tắt. Thay vào đó, Lead sắp xếp các văn bản đầu vào theo trình tự thời gian và chọn các câu dẫn đầu từ mỗi văn bản để đưa vào bản tóm tắt. Kết quả so sánh và đánh giá của các phương pháp được trình bày trong Bảng 5.4 dưới đây.
Phương pháp R-1 DUC 2007R-2 R-L R-1Corpus_TMVR-2 R-L
Random [142] 32,03 5,43 29,13 - - - Lead [142] 31,45 6,15 26,58 - - - DSDR [142] 39,57 7,44 35,34 - - - PV-DM [143] 39,83 8,51 - - - - K-means + Centroid-based + MMR + Vị trí câu 40,39 9,53 37,05 73,86 48,42 68,09
Bảng 5.4. So sánh và đánh giá kết quả của các phương pháp. Ký hiệu ‘-’ biểu diễn các phương pháp không được thử nghiệm trên bộ dữ liệu tương ứng
Bảng 5.4 cho thấy mơ hình tóm tắt đề xuất Kmeans_Centroid_EMDS cho kết quả tốt hơn so với một số phương pháp hiện đại đã được cơng bố. Điều đó cũng chứng minh rằng mơ hình đề xuất đã đạt được hiệu quả tốt cho tóm tắt đa văn bản hướng trích rút cho tiếng Anh và tiếng Việt.
Bảng 5.5 trình bày mẫu tóm tắt của cụm văn bản D0716D trong bộ dữ liệu DUC 2007 bao gồm một bản tóm tắt tham chiếu của con người và bản tóm tắt đầu ra của mơ hình đề xuất Kmeans_Centroid_EMDS. Các văn bản nguồn của mẫu tóm tắt này xem Phụ lục C.5 trong phần Phụ lục.
Một bản tóm tắt tham chiếu
“In October 1997, the Australian government gave permission to Energy Resources of Australia (ERA) to open the Jabiluka uranium mine on the edge of the Kakadu National Park which is on the World Heritage List, in Australia's Northern Territory. The mine is expected to produce 19.5 million tons of ore and generate 4.46 billion U.S. dollars to Australia's GNP over 28 years. Jabiluka is considered a litmus test for up to 12 other uranium mines in Australia. Conservationists and the Aboriginal "Mirrar" owners of the land oppose the mine while ERA insists that its environmental record has been proven by the 16-year operation of the Ranger mine, also located in the Kakadu Park. Opposition leader Kim Beazley said the Labor Party would stop Jabiluka if it won the government in the October national election. Shortly after construction began in mid June 1998, there were a series of public protests. An ERA office in Darwin was firebombed. A team from the United Nations World Heritage Bureau visited the site, then called for closing the Jabiluka mine because it poses a danger to the cultural and natural values of the Kakadu Park. In November 1998, the U.N. World Heritage Bureau, after intense lobbying by the Australian government, decided not to put the Kakadu National Park on its endangered list, but asked for a detailed report by April 15th 1999 on what has been done to prevent further damage and mitigate all threats to the Kakadu park by the Jabiluka mine.”
Bản tóm tắt của mơ hình đề xuất Kmeans_Centroid_EMDS
“The Australian federal government Thursday rejected a UNESCO report which called for Kakadu National Park in northwest Australia to be placed on the endangered list because of the threat posed by the Jabiluka uranium mine. CANBERRA, Australia (AP)A United Nations World Heritage committee called Wednesday for the scrapping of the proposed Jabiluka uranium mine in Australia's Northern Territory. The Australian: -- The Australian government's environmental report on the Jabiluka uranium mine (located in Kakadu Natural Park), to be released Thursday, found the area is not under threat and attacked a UNESCO report that said Kakadu Natural Park was in danger. In a major embarrassment to the Howard government, the Bureau of the U.N. World Heritage Committee found Kakadu was under threat, raising the prospect that the committee will this week make Kakadu only the 26th of the world's 552 World Heritage Sites to be placed on its endangered list. The Age -- Australian conservationists and traditional aboriginal owners threatened to blockade development of the huge Jabiluka uranium mine in the country's vast Kakadu National Park, which is on the World Heritage List, after the federal government approved the mining plan for the Jabilika mine yesterday. "The mission has concluded that
Kakadu National Park is exposed to a number of serious threats which are placing it under both ascertained and potential danger," the bureau said in a report after it sent a mission to Australia to examine claims by conservation groups that Kakadu (National Park in Northern Territory) was under threat from Jabiluka.”
Bảng 5.5. Các mẫu tóm tắt của cụm D0716D trong bộ dữ liệu DUC 2007 của mơ hình đề xuất và con người
Bảng 5.6 trình bày mẫu tóm tắt của cụm văn bản Cluster_2 trong bộ dữ liệu
Corpus_TMV gồm một bản tóm tắt tham chiếu và bản tóm tắt của mơ hình đề xuất. Các văn bản nguồn của mẫu tóm tắt này xem Phụ lục C.5 trong phần Phụ lục.
Một bản tóm tắt tham chiếu
“Tổ chức quan sát Nhân quyền có trụ sở tại Mỹ cho rằng 82 người, trong đó ít nhất 57 thường dân đã thiệt mạng do các cuộc tấn công của máy bay không người lái và máy bay tấn công khác ở Yemen giữa tháng 9/2012 và tháng 6/2013. Những cuộc tấn công như vậy là bừa bãi và trái với luật pháp quốc tế. Tuy nhiên, Mỹ đã ngay lập tức phủ nhận những cáo buộc trên. Phát ngôn viên Nhà Trắng Jay Carney cho biết: "Chúng tôi sẽ xem xét cẩn trọng những báo cáo này”. Carney cũng cho biết, khi quyết định sử dụng máy bay không người lái chống lại các nghi phạm khủng bố, thay vì sử dụng quân đội hoặc sử dụng các loại vũ khí khác, Washington đã "lựa chọn hành động ít có khả năng gây ra thiệt hại nhất đối với những người vô tội". Theo ông Carney, chính quyền Mỹ đang xem xét cẩn trọng báo mới nhất của tổ chức Ân Xá Quốc tế về số lượng thường dân thiệt mạng và bị thương trong các cuộc khơng kích bằng máy bay khơng người lái của Mỹ. Ơng Carney khẳng định, các chiến dịch chống khủng bố của Mỹ được tiến hành hoàn toàn tuân thủ theo luật pháp của Mỹ và quốc tế.”
Bản tóm tắt của mơ hình đề xuất Kmeans_Centroid_EMDS
“Hôm 22/10 , Tổ chức Ân xá Quốc tế và Tổ chức Nhân quyền có trụ sở tại Mỹ ( Human Rights Watch – HRW ) đã cùng đưa ra báo cáo chi tiết về những thương vong trong các hoạt động của Mỹ ở Pakistan và Yemen . Tổ chức quan sát Nhân quyền có trụ sở tại Mỹ cho rằng 82 người , trong đó ít nhất 57 thường dân đã thiệt mạng do các cuộc tấn công của máy bay không người lái và máy bay tấn công khác ở Yemen giữa tháng 9/2012 và tháng 6/2013 . Tổ chức Ân xá quốc tế có trụ sở tại London thì cho biết họ đang lo ngại các cuộc tấn công được nêu trong báo cáo và các cuộc tấn công khác là những hành động giết người trái pháp luật mà theo luật tố tụng có thể cấu thành tội ác chiến tranh . Tổ chức Ân xá dẫn nguồn của chính phủ Pakistan và các tổ chức phi chính phủ cho biết có đến từ 400 đến 900 thường dân đã bị giết hại trong hơn 300 cuộc tấn công từ năm 2004 đến tháng 9/2013 . Tuy nhiên , Mỹ đã ngay lập tức phủ nhận những cáo buộc trên.”
Bảng 5.6. Các mẫu tóm tắt của cụm Cluster_2 trong bộ dữ liệu Corpus_TMV của mơ hình đề xuất và con người
Với các bản tóm tắt kết quả trong Bảng 5.5 và Bảng 5.6, có thể thấy bản tóm tắt đầu ra của mơ hình đề xuất đưa ra các thơng tin chính giống với bản tóm tắt tham chiếu của con người tương ứng. Nói cách khác, nó chứa thơng tin chính của tập các văn bản đầu vào. Tuy nhiên, trình tự của các câu cần được xem xét kỹ lưỡng để cải thiện tính mạch lạc cho bản tóm tắt đầu ra của mơ hình đề xuất.