Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 155 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
155
Dung lượng
5,92 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN HOÀNG TÚ ANH TIẾP CẬN ĐỒ THỊ BIỂU DIỄN, KHAI THÁC VĂN BẢN VÀ ỨNG DỤNG Chuyên ngành: Đảm bảo toán học cho máy tính hệ thống tính tốn Mã số chuyên ngành: 1.01.10 Phản biện 1: GS.TS Nguyễn Thanh Thủy Phản biện 2: PGS.TS Đinh Điền Phản biện 3: TS Nguyễn Đức Cường Phản biện độc lập 1: PGS.TSKH Nguyễn Xuân Huy Phản biện độc lập 2: TS Quản Thành Thơ Phản biện độc lập 3: PGS.TS Nguyễn Kim Anh NGƯỜI HƯỚNG DẪN KHOA HỌC GS.TSKH HOÀNG VĂN KIẾM Tp Hồ Chí Minh – Năm 2011 Mục lục Mở đầu Dẫn nhập Mục tiêu đóng góp luận án Nội dung luận án Chương Tổng quan khai thác liệu văn 1.1 Tổng quan 1.1.1 Giới thiệu 1.1.2 Các tốn khai thác văn 1.2 Mơ hình biểu diễn văn 1.3 Bài toán phân loại văn 12 1.3.1 Phương pháp k-láng giềng gần (k-NN) 13 1.3.2 Phương pháp Naïve Bayes 14 1.3.3 Phương pháp SVM 16 1.4 Bài toán gom cụm văn 17 1.4.1 Phương pháp k-Means 18 1.4.2 Phương pháp HAC 19 1.5 Bài tốn tóm tắt văn 21 1.5.1 Phương pháp Heuristic 23 1.5.2 Các phương pháp khác 24 1.6 Kết luận 26 Chương Mơ hình biểu diễn văn đồ thị 27 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 Giới thiệu 27 Mơ hình đồ thị khái niệm 28 Mơ hình đồ thị hình 29 Mơ hình đồ thị tần số vô hướng 31 Mơ hình đồ thị đơn giản 32 Mơ hình đồ thị khoảng cách n đơn giản 33 Mơ hình đồ thị đỉnh câu 34 Mơ hình đồ thị lưỡng phần 35 Phân loại mơ hình đồ thị [CT4] 37 Kết luận 40 i Chương Phân loại văn dựa tiếp cận đồ thị 41 3.1 Giới thiệu 41 3.2 Các cơng trình nghiên cứu liên quan 42 3.2.1 Khai thác đồ thị phổ biến 42 3.2.2 Phân loại văn dựa tiếp cận đồ thị 44 3.2.3 Phân loại văn tiếng Việt 45 3.3 Qui trình phân loại văn dựa kỹ thuật khai thác đồ thị 46 3.3.1 Tiền xử lý văn 47 3.3.2 Mơ hình hóa văn thành đồ thị 48 3.3.3 Rút trích đặc trưng đồ thị 48 3.3.4 Xây dựng vectơ đại diện lớp 55 3.3.5 Bộ phân loại 56 3.4 Kết thử nghiệm 58 3.4.1 Thử nghiệm tập liệu email tiếng Anh 58 3.4.1 Thử nghiệm tập liệu tiếng Việt 65 3.5 Kết luận 71 Chương Gom cụm tập văn có biến động dựa biểu diễn đồ thị 73 4.1 Giới thiệu 73 4.2 Các công trình nghiên cứu liên quan 75 4.2.1 Gom cụm văn động 75 4.2.2 Gom cụm văn dựa tiếp cận đồ thị 77 4.2.3 Gom cụm văn tiếng Việt 78 4.3 Gom cụm tập văn có biến động dựa biểu diễn đồ thị 79 4.3.1 Tiền xử lý văn 80 4.3.2 Mơ hình hóa văn thành đồ thị 80 4.3.3 Rút trích đặc trưng đồ thị 82 4.3.4 Xác định độ tương tự văn 84 4.3.5 Kỹ thuật chọn lựa động đặc trưng 86 4.3.6 Thuật toán gom cụm động Incremental DBSCAN cải tiến 88 4.4 Kết thử nghiệm 93 4.5 Kết luận 103 Chương Tóm tắt văn dựa biểu diễn đồ thị 106 5.1 Giới thiệu 106 5.2 Các cơng trình nghiên cứu liên quan 108 5.2.1 Tóm tắt văn dựa tiếp cận đồ thị 108 5.2.2 Tóm tắt văn tiếng Việt 110 ii 5.3 Mơ hình tóm tắt văn tiếng Việt dựa biểu diễn đồ thị kỹ thuật xếp hạng 111 5.3.1 Tiền xử lý văn 113 5.3.2 Mơ hình hóa văn thành đồ thị 114 5.3.3 Xếp hạng câu 116 5.3.4 Tạo tóm tắt 119 5.4 Kết thử nghiệm 120 5.4.1 Kết tóm tắt văn đơn 121 5.4.1 Kết tóm tắt tập văn 123 5.5 Kết luận 126 Kết luận 128 Các kết đạt 128 Hướng phát triển 130 Danh mục cơng trình tác giả 131 Tài liệu tham khảo 133 Phụ lục A Các độ đo đánh giá 145 A.1 Đánh giá phương pháp phân loại 145 A.2 Đánh giá chất lượng gom cụm 145 A.3 Đánh giá tóm tắt 147 Phụ lục B Ví dụ biểu diễn văn đồ thị 149 Phụ lục C Kiểm định giả thiết thống kê 153 C.1 Khái niệm [4] 153 C.2 Kiểm định giả thiết số trung bình tổng thể 153 C.3 Kiểm định giả thiết tỷ lệ tổng thể 154 C.4 Kiểm định giả thiết khác biệt hai trung bình tổng thể 155 C.5 Kiểm định giả thiết hai tỷ lệ tổng thể 156 Phụ lục D Ví dụ kết tóm tắt văn 158 D.1 Ví dụ tóm tắt văn đơn 158 D.2 Ví dụ tóm tắt tập văn 162 iii Mở đầu Dẫn nhập Sự tiến vượt bậc công nghệ thông tin cung cấp nhiều phương pháp thu thập, lưu trữ khối lượng liệu khổng lồ cách hiệu tốn Rất nhiều thông tin chiến lược quan trọng nằm sở liệu to lớn Các phương pháp xử lý, tìm kiếm, phân tích rút trích thơng tin truyền thống khơng cịn thích hợp Như Rutherford D Rogers viết báo NewYork Times vào năm 1985: “Chúng ta ngập chìm liệu lại đói tri thức” Việc tìm kiếm thơng tin giá trị, tiềm ẩn khối lượng lớn liệu địi hỏi cơng cụ ngồi cơng cụ truy vấn thơng tin cổ điển Chính năm gần đây, lĩnh vực Khám phá tri thức sở liệu (Knowledge Discovery in Databases – KDD) hay gọi Khai thác liệu (Data mining) đời phát triển nhanh chóng Lĩnh vực khai thác liệu từ đời nhận ủng hộ tích cực nhà nghiên cứu phát triển mạnh mẽ vịng hai mươi năm qua Có thể liệt kê số nhà khoa học hàng đầu, có đóng góp bật cho lĩnh vực khai thác liệu Rakesh Agrawal, Usama Fayyad, Gregory Piatetsky-Shapiro, Heikki Manila, Jiawei Han, Padhraic Smyth, Christos Faloutsos, Osmar Zạane, … Hàng trăm cơng ty giới cung cấp công cụ khai thác liệu áp dụng vào nhiều lĩnh vực sống: kinh tế, thương mại, y tế, sinh học, … Tuy nhiên nhiều vấn đề bỏ ngỏ, dở dang, cần nghiên cứu [101] Ví dụ giảm độ phức tạp tính tốn, tìm phương pháp khai thác hiệu áp dụng kiểu liệu phức tạp (đa phương tiện, văn bản, chuỗi, thời gian, WWW, …), vấn đề bảo vệ bí mật cá nhân, áp dụng kỹ thuật khai thác liệu giải toán thực tế phức tạp, … Theo đánh giá cơng ty Oracle [76], có đến 80% liệu giới liệu văn bản, khai thác liệu phức tạp mà cụ thể khai thác liệu văn (text mining) vấn đề quan trọng, đầy thử thách cần đầu tư nghiên cứu Đặc điểm liệu phức tạp nói chung hay liệu văn nói riêng liệu thường khơng có cấu trúc bán cấu trúc, sở liệu lớn, đa chiều hay bị nhiễu Ngoài liệu văn phải đối mặt với vấn đề nhập nhằng nhiều cấp độ (cấp độ từ, ngữ, câu), nhiều khía cạnh (hình thái, ngữ pháp, ngữ nghĩa) Luận án tập trung nghiên cứu khai thác liệu văn bản, hay gọi khai thác văn Khai thác văn lĩnh vực liên ngành, liên quan đến truy vấn thông tin, khai thác liệu xử lý ngôn ngữ tự nhiên Khai thác văn bao gồm trình cấu trúc hóa văn đầu vào, tìm kiếm mẫu mới, chưa biết trước, có ích từ liệu cấu trúc hoá đánh giá, diễn giải kết thu Các tốn khai thác văn phân loại, gom cụm văn bản, rút trích thơng tin tóm tắt tài liệu Mặc dù có nhiều tiến nghiên cứu khai thác văn khoảng cách xa nhu cầu ứng dụng kết đạt Luận án tập trung nghiên cứu, phát triển kỹ thuật khai thác liệu có, kỹ thuật phân tích liệu văn nhằm tích hợp chúng tăng cường hiệu giải toán khai thác liệu văn Mục tiêu đóng góp luận án Với mục tiêu khai thác tập văn bản, ta cần tiền xử lý văn lưu trữ thơng tin dạng có cấu trúc phù hợp với bước xử lý sau Mơ hình khơng gian vectơ [80] phương pháp biểu diễn văn phổ biến Mơ hình khơng gian vectơ biểu diễn văn vectơ đặc trưng thuật ngữ (từ) xuất toàn tập văn Tuy nhiên, phương pháp không lưu trữ thông tin cấu trúc quan trọng trật tự xuất từ, vùng lân cận, vị trí xuất từ văn Những năm gần đây, mơ hình biểu diễn văn đồ thị (trong luận án gọi tắt mô hình đồ thị) đề xuất sử dụng riêng lẻ toán khác khai thác văn phân loại [11], [61], gom cụm [35], [81], rút trích thơng tin [89] tóm tắt văn [29], [68] Các kết áp dụng mô hình đồ thị văn tiếng Anh cho thấy mơ hình có nhiều tiềm tận dụng thông tin quan trọng cấu trúc mà biểu diễn vectơ bỏ qua Bên cạnh đó, viết ký tự La tinh mở rộng, tiếng Việt có đặc tính chung với ngôn ngữ châu Á đơn lập khác (tiếng Hoa, Lào, Thái) khó xác định ranh giới từ có điểm khác biệt ngữ âm, ngữ pháp so với tiếng Anh Tiế ng Viê ̣t thuô ̣c ngôn ngữ đơn lâ ̣p 1, tức là mô ̣t tiế ng (âm tiế t) đươ ̣c phát âm tách rời thể b ằng mô ̣t chữ viế t Đặc điểm thể rõ rệt tất mặt ngữ âm, hình thái, ngữ pháp Trong tiế ng Viê ̣t có loại đơn vị đặc biệt gọi "tiế ng" Về mă ̣t ngữ âm, mỗi tiế ng là mô ̣t âm tiế t Mỡi tiế ng, nói chung, yế u tố có nghia Tiế ng là đơn vi ̣cơ sở của ̣ thố ng các đơn vi ̣có nghia của tiế ng ̃ ̃ Viê ̣t Từ tiế ng, người ta tạo n vi ̣từ vựng khác để đinh danh sự vâ ̣t, hiê ̣n ̣ tươ ̣ng , chủ yếu nhờ phương thức ghép phương thức láy Từ của tiế ng Viê ̣t không biế n đổ i hinh thái Khi từ kế t hơ ̣p từ thành các kế t cấ u ngữ, câu, tiếng Việt coi ̀ trọng trật tự từ Viê ̣c sắ p xế p các từ theo mô ̣t trâ ̣t tự nhấ t đinh là cách chủ yế u để biể u ̣ thị quan hệ cú pháp Trong tiế ng Viê ̣t nói "Anh ta lại đế n " khác với "Lại đến anh ta" Như việc xác định ranh giới từ tiếng Việt tốn khó [27] đơn vị tiếng Việt “tiếng” từ Từ cấu trúc từ “tiếng” Từ bao gồm từ đơn (từ tiếng) từ phức (n-tiếng, với n < 5), bao gồm từ láy từ ghép Trong đó, từ tiếng Anh nhóm ký tự có nghĩa, phân cách ký tự khoảng trắng câu Do đó, khó áp dụng kỹ thuật hướng tiếp cận nghiên cứu thử nghiệm thành công tiếng Anh cho tiếng Việt không xây dựng thành công http://www.vietlex.vn/vietnamese.htm giải pháp cho việc tách từ văn tiếng Việt sử dụng mơ hình biểu diễn hạn chế ảnh hưởng toán tách từ Phần lớn nghiên cứu khai thác văn tiếng Việt [1], [2], [3], [6], [8], [9], [25], [27], [41] sử dụng mơ hình khơng gian vectơ biểu diễn văn địi hỏi cơng cụ tách từ tốt Ngồi ra, mơ hình khơng gian vectơ khơng quan tâm đến trật tự từ câu tiếng Việt, trật từ từ quan trọng Chẳng hạn nhờ trâ ̣t tự kế t hơ ̣p của từ mà "củ cải" khác với "cải củ", "tình cảm" khác với "cảm tình" Hiện nay, có nhóm Đỗ Phúc đồng áp dụng thuật toán SOM (Self Organizing Map) đồ thị để gom cụm văn từ rút ý tập văn [7], [26] Chất lượng gom cụm văn sử dụng đồ thị theo độ đo F có kết tốt dùng biểu diễn vectơ Nhận thấy tiềm ứng dụng tiếp cận đồ thị, luận án tập trung nghiên cứu, hệ thống hóa phân tích khả ứng dụng mơ hình đồ thị vào biểu diễn khai thác văn Luận án nghiên cứu, phát triển kỹ thuật khai thác liệu có để áp dụng hiệu đồ thị biểu diễn văn Luận án nghiên cứu, phát triển qui trình khai thác văn sử dụng tiếp cận đồ thị nhằm giải số tốn chính: phân loại, gom cụm tập văn có biến động tóm tắt văn Các đóng góp luận án: Hệ thống hóa mơ hình biểu diễn văn đồ thị Phân tích khả ứng dụng loại mơ hình lựa chọn mơ hình biểu diễn đồ thị phù hợp cho nhiệm vụ khai thác văn Cải tiến thuật toán gSpan khai thác đồ thị phổ biến cho tập đồ thị có hướng Cải tiến kỹ thuật trộn cụm thuật toán gom cụm động Incremental DBSCAN Đề xuất qui trình phân loại văn dựa biểu diễn đồ thị kỹ thuật khai thác đồ thị phổ biến cải tiến Đề xuất qui trình gom cụm tập văn có biến động sử dụng đồ thị biểu diễn văn kết hợp kỹ thuật chọn lựa động đặc trưng thuật toán Incremental DBSCAN cải tiến Đề xuất mơ hình tóm tắt văn tiếng Việt dựa biểu diễn đồ thị kết hợp kỹ thuật xếp hạng đỉnh Tiến hành thử nghiệm khai thác văn tiếng Việt dựa tiếp cận đồ thị theo mơ hình đề xuất Nội dung luận án Nội dung luận án bao gồm: Phần mở đầu trình bày tổng quan luận án, mục tiêu luận án Chƣơng trình bày tổng quan lĩnh vực khai thác liệu văn bản, đặc điểm liệu văn Chương phân tích tốn liên quan: mơ hình biểu diễn liệu văn bản, toán phân loại, gom cụm tóm tắt văn Chƣơng trình bày chi tiết mơ hình biểu diễn văn thành đồ thị, cách phân loại mơ hình đồ thị, phân tích khả ứng dụng chúng lựa chọn mơ hình biểu diễn đồ thị phù hợp cho nhiệm vụ khai thác văn Một phần chương cơng bố cơng trình số Chƣơng trình bày qui trình phân loại văn dựa biểu diễn đồ thị kỹ thuật khai thác đồ thị phổ biến cải tiến Một phần chương công bố cơng trình số 3, 6, 9, 10 Chƣơng trình bày qui trình gom cụm tập văn có biến động dựa biểu diễn đồ thị kết hợp với kỹ thuật chọn lựa động đặc trưng thuật toán Incremental DBSCAN cải tiến Một phần chương cơng bố cơng trình số 2, 5, Chƣơng trình bày mơ hình tóm tắt văn tiếng Việt dựa biểu diễn đồ thị sử dụng kỹ thuật xếp hạng đỉnh để xác định câu quan trọng văn Một phần chương công bố cơng trình số 1, Phần kết luận hƣớng phát triển Phụ lục A trình bày độ đo đánh giá kết phân loại, gom cụm chất lượng tóm tắt Phụ lục B nêu ví dụ biểu diễn văn đồ thị Phụ lục C trình bày kiểm định giả thiết thống kê Phụ lục D nêu ví dụ tóm tắt văn -Trường hợp 1: n ≥ 30, cho biết phương sai tổng thể 2, giá trị kiểm định Z tính sau: Z X 0 / n Qui tắt định: Bác bỏ H0 mức ý nghĩa α, Z > zα/2, với z có phân phối chuẩn Nếu chưa biết 2, ta thay 2 = S2 (phương sai mẫu) - Trường hợp 2: n < 30, giả định tổng thể phân phối chuẩn - Nếu biết 2,ta áp dụng trường hợp n ≥ 30 biết 2 - Nếu chưa biết 2, ta tính giá trị kiểm định T: T X 0 S/ n Qui tắt định: Bác bỏ H0 mức ý nghĩa α, T > tn-1,α/2, với tn-1 phân phối Student với n-1 bậc tự C.3 Kiểm định giả thiết tỷ lệ tổng thể Giả sử ta có mẫu ngẫu nhiên n quan sát Gọi p, p‟ tỷ lệ đơn vị có tính chất mà ta quan tâm tổng thể mẫu Với mẫu lớn (n 40), phân phối tỷ lệ mẫu p‟ xem chuẩn kiểm định giả thiết p sau: Giả thiết: H0: p = p0 (p0 giá trị cho trước) H1: p ≠ p0 Giá trị kiểm định Z tính sau: Z p' p0 p0 (1 p0 ) / n Qui tắt định: Bác bỏ H0 mức ý nghĩa α, Z > zα/2 với z có phân phối chuẩn 154 C.4 Kiểm định giả thiết khác biệt hai trung bình tổng thể - Trường hợp mẫu phối hợp cặp: Giả sử ta có n cặp quan sát (X, Y) Gọi x, y trung bình X, Y, d Sd trung bình độ lệch chuẩn tổng thể khác biệt (X-Y) Giả sử phân phối khác biệt X Y tổng thể chuẩn, Giả thiết: H0: x - y = D0 H1: x - y D0 (D0 giá trị cho trước Khi muốn kiểm định giá thiết x = y, ta đặt D0=0 ) Giá trị kiểm định T: T d D0 Sd / n Qui tắt định: Bác bỏ H0 mức ý nghĩa α, Z > tn-1,α/2, với tn-1 phân phối Student với n-1 bậc tự - Trường hợp mẫu ngẫu nhiên độc lập: - Đã biết phương sai tổng thể Giả sử ta có nx, ny mẫu ngẫu nhiên độc lập từ hai tổng thể phân phối 2 chuẩn X Y có trung bình x, y phương sai x , y Giả thiết: H0: x - y = D0 H1: x - y D0 Giá trị kiểm định Z: Z X Y D0 x2 nx 155 y ny Qui tắt định: Bác bỏ H0 mức ý nghĩa α, Z > zα/2 với z có phân phối chuẩn - Chưa biết phương sai tổng thể: - Nếu kích thước mẫu lớn ( 30), thay phương sai tổng thể 2 phương sai mẫu S x , S x - Nếu kích thước mẫu nhỏ ( t nx ny 2, / với t phân phối Student với (nx+ny-2) bậc tự C.5 Kiểm định giả thiết hai tỷ lệ tổng thể Giả sử ta có nx ny số đơn vị mẫu chọn ngẫu nhiên, độc lập từ hai tổng thể X Y có phân phối chuẩn Gọi px, py p' x , p' x tỷ lệ đơn vị có tính chất mà ta quan tâm tổng thể mẫu Với mẫu lớn ( 40), kiểm định giả thiết p sau Giả thiết: H0: px - py =0 H1: px - p0 ≠ 156 Giá trị kiểm định Z tính sau: Z p x ' p' y p'0 (1 p'0 )(1 / nx / n y ) p '0 nx p x ' n y p' y nx n y Qui tắt định: Bác bỏ H0 mức ý nghĩa α, Z > zα/2 với z có phân phối chuẩn 157 Phụ lục D Ví dụ kết tóm tắt văn D.1 Ví dụ tóm tắt văn đơn Bài báo “Rút tiền thẻ ATM liên tục bị cố”26 (ngày 13/8/2008): Sinh viên Phạm Đỗ Minh Long sử dụng thẻ ATM Vietcombank từ năm Thứ bảy tuần trước, anh phen hú hồn vô cớ triệu đồng từ máy tự động Ghé qua ATM đường Điện Biên Phủ (TP HCM), anh Long khơng thể rút tiền máy báo lỗi thiết bị Tình trạng tương tự lặp lại khu vực giao dịch tự động Vietcombank đường Trần Quang Khải Tuy nhiên, có điều lạ giao dịch ATM thứ thuộc khu vực Trần Quang Khải, tới thao tác rút tiền, anh nghe rõ tiếng máy đếm tiền, dưng lại có thông báo lỗi thiết bị Sau thử máy kế bên, anh Long nhận thông báo: "Tài khoản bạn không đủ để thực giao dịch, giao dịch bị hủy bỏ" Kiểm tra lại tài khoản bị trừ triệu đồng, vừa vặn số tiền anh định rút, dù "vốn liếng" có 2,5 triệu đồng Sự cố xảy vào thứ bảy, nên anh Long liên hệ đường dây nóng ngân hàng trả lời xử lý vào thứ Sau đó, Vietcombank đưa hẹn 8-10 ngày, "trong thời gian sớm nhất" để tìm hiểu nguyên nhân hướng xử lý sau khách hàng để lại số tài khoản, số điện thoại liên lạc Khá xúc với trường hợp với sinh viên, triệu đồng số tiền lớn chưa kể 10 ngày tới khơng có tiền để sinh hoạt, anh Long cho rằng, Vietcombank nên xem lại vấn đề liên quan đến lỗi thiết bị thành lập phận giải trường hợp khẩn cấp vào ngày cuối tuần hay ngày lễ để hỗ trợ khách hàng gặp cố Hồi tháng 7, anh Vũ Quốc Tuấn quận Bình Thạnh, TP HCM lại gặp cố hy hữu liên quan tới biên lai Anh Tuấn cho biết rút tiền vào ngày 9/7, biên lai 26 http://vnexpress.net/gl/kinh-doanh/2008/08/3ba056a8/ 158 ATM lại ghi nhận giao dịch diễn ngày 10/7 Khiếu nại lên Vietcombank, anh giải thích hệ thống cập nhật muộn, "những giao dịch diễn sau 7-8 tối ghi nhận cho ngày hôm sau" Tuy nhiên, anh Tuấn thắc mắc trường hợp sau 7- 8h khách hàng rút tiền vượt mức có tài khoản nhà băng phát xử lý kịp, nhân viên ngân hàng không trả lời Với việc kết nối thành công hai hệ thống Smartlink Banknetvn, chủ thẻ Vietcombank, Agribank, BIDV, Vietinbank Techcombank rút tiền từ ATM ngân hàng Thế nhưng, chị Thu Hoa, ngụ quận 12 cho biết, nhiều lúc dùng thẻ ATM Vietcombank để rút tiền liên minh Bộ phận trực đường dây nóng ngân hàng cho chị lời giải thích kết nối nên chưa ổn định hệ thống bảo trì Trao đổi với VnExpress.net, ông Lê Huỳnh Hà, Trưởng phòng phòng quản lý dịch vụ ATM Vietcombank chi nhánh TP HCM đưa nhiều nguyên nhân, khách hàng chưa nhận tiền bị trừ tài khoản máy ATM điện lúc tiền chuẩn bị nhả khiến giao dịch khơng thực Hoặc lỗi mạng từ phía Vietcombank hay khơng đồng việc kết nối Vietcombank ngân hàng khác khách hàng rút liên minh thẻ Tuy nhiên, nhận phản ánh khách hàng cố liên quan đến thẻ, ngân hàng ghi nhận thơng tin xử lý Ơng Hà cho biết, tùy trường hợp ngân hàng xử lý nhanh hay chậm, đồng thời hoàn lại tiền cho khách hàng lỗi thuộc hệ thống mạng, trục trặc kỹ thuật Theo ông Hà, thông thường, máy ATM đặt khu vực "nóng" với lượng khách hàng rút tiền cao kiểm tra thường xuyên Máy xa khu trung tâm khoảng tuần kiểm tra lần Qua đó, đối chiếu tổng số tiền tốn số dư cịn lại máy, dư ra, Vietcombank kiểm tra giao dịch hoàn trả lại cho khách hàng Riêng trục trặc tiến hành giao dịch vào ngày cuối tuần, ông Hà cho hay, có phận trực 24/24 để hỗ trợ, tư vấn khách hàng, cịn việc xử lý thực vào ngày làm việc cần đối chiếu liệu để kiểm tra 159 Song thực tế giao dịch ATM bị lỗi khiến khách tiền vào cuối tuần, nạn nhân khó lịng liên hệ với phận dịch vụ nhà băng chấp nhận nhấp nhổm đứng ngồi chờ đến đầu tuần sau khiếu nại đến ngân hàng được, theo anh Vũ Quốc Tuấn nhận xét Hiện Vietcombank có khoảng triệu chủ thẻ Sau liên minh thẻ Smartlink Banknetvn kết nối thành công, số lượng giao dịch qua ATM Vietcombank tăng mạnh Ông Hà cho hay, cố khách hàng sử dụng liên minh thời gian đầu điều không tránh khỏi hệ thống đưa vào vận hành Hiện có khoảng 1.500 máy ATM Vietcombank toàn quốc, riêng TP HCM có khoảng 300 máy Bản tóm tắt kèm (dạng tóm lược) người viết sau: “Chƣa rút đƣợc tiền nhƣng bị trừ tài khoản, máy hay bị trục trặc kỹ thuật khiến cho việc thực giao dịch không thành công nhiều cố gần gây bất an cho khách hàng sử dụng thẻ.” Kết tóm tắt văn trên: Bản tóm tắt dạng trích lƣợc TSGVi với độ rút gọn: 20%, ngưỡng tạo cạnh = 0.05 tham số ưu tiên cho từ thuộc tiêu đề β= 1.5 sau: “Rút tiền ATM liên tục bị cố Ghé qua ATM đường Điện Biên Phủ TP HCM, anh Long rút tiền máy báo lỗi thiết bị Kiểm tra lại tài khoản bị trừ triệu đồng, vừa vặn số tiền anh định rút, dù “vốn liếng” có 2.5 triệu đồng Trao đổi với VnExpress.net, ông Lê Huỳnh Hà, Trưởng phòng phòng quản lý dịch vụ ATM Vietcombank chi nhánh TP HCM đưa nhiều nguyên nhân, khách hàng chưa nhận tiền bị trừ tài khoản máy ATM điện lúc tiền chuẩn bị nhả khiến giao dịch không thực Tuy nhiên, nhận phản ánh khách hàng cố liên quan đến thẻ, ngân hàng ghi nhận thông tin xử lý Ông Hà cho hay cố khách hàng sử dụng liên 160 minh thời gian đầu điều không tránh khỏi hệ thống đưa vào vận hành.” Kết tóm tắt AutoSummarize (MS Word) với độ rút gọn=20%: “Rút tiền ATM liên tục bị cố Sau thử máy kế bên, anh Long nhận thông báo: "Tài khoản bạn không đủ để thực giao dịch, giao dịch bị hủy bỏ" Anh Tuấn cho biết rút tiền vào ngày 9/7, biên lai ATM lại ghi nhận giao dịch diễn ngày 10/7 Hoặc lỗi mạng từ phía Vietcombank hay không đồng việc kết nối Vietcombank ngân hàng khác khách hàng rút liên minh thẻ Tuy nhiên, nhận phản ánh khách hàng cố liên quan đến thẻ, ngân hàng ghi nhận thông tin xử lý Theo ông Hà, thông thường, máy ATM đặt khu vực "nóng" với lượng khách hàng rút tiền cao kiểm tra thường xuyên Qua đó, đối chiếu tổng số tiền toán số dư lại máy, dư ra, Vietcombank kiểm tra giao dịch hoàn trả lại cho khách hàng Hiện Vietcombank có khoảng triệu chủ thẻ” Phƣơng pháp Baseline với tóm tắt từ câu đầu đoạn, độ nén =20%: “Sinh viên Phạm Đỗ Minh Long sử dụng thẻ ATM Vietcombank từ năm Ghé qua ATM đường Điện Biên Phủ (TP HCM), anh Long khơng thể rút tiền máy báo lỗi thiết bị Tuy nhiên, có điều lạ giao dịch ATM thứ thuộc khu vực Trần Quang Khải, tới thao tác rút tiền, anh nghe rõ tiếng máy đếm tiền, dưng lại có thơng báo lỗi thiết bị Kiểm tra lại tài khoản bị trừ triệu đồng, vừa vặn số tiền anh định rút, dù "vốn liếng" có 2,5 triệu đồng Sự cố xảy vào thứ bảy, nên anh Long liên hệ đường dây nóng ngân hàng trả lời xử lý vào thứ Khá xúc với trường hợp với sinh viên, triệu đồng số tiền lớn chưa kể 10 ngày tới khơng có tiền để sinh hoạt, anh Long cho rằng, Vietcombank nên xem lại vấn đề liên quan đến lỗi thiết bị thành lập phận giải 161 trường hợp khẩn cấp vào ngày cuối tuần hay ngày lễ để hỗ trợ khách hàng gặp cố Hồi tháng 7, anh Vũ Quốc Tuấn quận Bình Thạnh, TP HCM lại gặp cố hy hữu liên quan tới biên lai.” D.2 Ví dụ tóm tắt tập văn Tập văn gồm năm báo điện tử thu thập từ trang web www.thanhnien.com.vn Các báo thuộc lĩnh vực y tế - sức khỏe với chủ đề đại dịch cúm A/H1N1 năm 2009 Bài báo 1: Phát thêm nhiều ca nhiễm cúm A/H1N127 (ngày 30/06/2009) (TNO) Theo tin từ Bộ Y tế, ngày 30.6, Việt Nam ghi nhận thêm trường hợp dương tính với cúm A/H1N1, bao gồm trường hợp khu vực phía Nam trường hợp khu vực phía Bắc Trong có trường hợp mang quốc tịch Đức trường hợp người Việt Nam, nước đường hàng không chuyến bay: TG 686 ngày 25.6, UA 869 ngày 26.6, VN 929 ngày 26.6, VN 780 ngày 25.6 ngày 26.6 Còn lại trường hợp lây nhiễm nước tiếp xúc gần với người bị bệnh Như vậy, tính đến 17 ngày 30.6, Việt Nam ghi nhận 131 trường hợp dương tính với cúm A/H1N1 (miền Nam: 109, miền Trung: miền Bắc: 14 trường hợp) Theo Bộ Y tế, đến dịch cúm A/H1N1 Việt Nam chưa có lây lan cộng đồng, khơng có tử vong Các bệnh nhân cách ly, điều trị bệnh viện tình trạng sức khỏe ổn định Trong đó, theo thông báo ngày 29.6 Tổ chức Y tế giới, giới có 70.893 ca nhiễm cúm A/H1N1 116 quốc gia/vùng lãnh thổ, có 311 trường hợp tử vong Bài báo 2: TP.HCM: Thêm 20 ca nhiễm cúm A/H1N128 (ngày 01/07/2009) (TNO) Báo cáo nhanh Sở Y tế TP.HCM lúc 19 tối (1.7) cho biết, ngày hôm đơn vị phát đến 20 trường hợp dương tính với virus cúm A/H1N1, nâng tổng số ca nhiễm cúm A/H1N1 TP.HCM phát lên 128 ca 27 http://www.thanhnien.com.vn/News/Pages/200927/20090630202128.aspx 28 http://www.thanhnien.com.vn/News/Pages/200927/20090701192555.aspx 162 Đây số ca nhiễm cúm A/H1N1 phát nhiều ngày, kể từ TP.HCM phát trường hợp nhiễm cúm A/H1N1 Theo bác sĩ Phan Văn Nghiệm, Trưởng phòng Nghiệp vụ Y, Sở Y tế TP.HCM, tổng số 128 ca nhiễm cúm A/H1N1 kể trên, có 75 người quốc tịch nước ngoài, 40 người quốc tịch Việt Nam có nước ngồi có 13 người Việt Nam bị lây nhiễm nước tiếp xúc gần với bệnh nhân nhiễm cúm A/H1N1 từ nước về; chưa phát trường hợp lây nhiễm cúm A/H1N1 cộng đồng Cũng theo bác sĩ Nghiệm, tính đến 17 chiều nay, có 82 tổng số 128 bệnh nhân nhiễm cúm A/H1N1 phát điều trị TP.HCM khỏi bệnh xuất viện; bệnh nhân cịn lại có tình trạng sức khỏe ổn định điều trị cách ly Ngồi ra, Sở Y tế TP.HCM cịn cho hay, đơn vị tiếp tục cách ly theo dõi 12 trường hợp có kết dương tính với cúm A/H1N1 lần xét nghiệm đầu Cũng ngày hôm nay, Trung tâm Kiểm dịch Y tế Quốc tế TP.HCM tiếp tục phát thêm 48 trường hợp có thân nhiệt cao cửa sân bay Tân Sơn Nhất nhanh chóng đưa cách ly theo dõi bệnh viện Phạm Ngọc Thạch; riêng sở y tế địa bàn chuyển đến bệnh viện Phạm Ngọc Thạch 17 trường hợp nghi ngờ nhiễm cúm A/H1N1 Trước tình hình dịch cúm diễn biến ngày phức tạp, với số ca nghi ngờ nhiễm cúm A/H1N1 ngày nhiều, ngày hôm nay, Sở Y tế TP.HCM tiến hành kiểm tra sở vật chất, trang thiết bị Khoa Nội - Bệnh viện quận để thành lập khu cách ly tiếp nhận trường hợp nghi nhiễm cúm A/H1N1 từ Trung tâm Kiểm dịch Y tế Quốc tế TP.HCM chuyển đến Theo tin từ Bộ Y tế, hôm 1.7, Việt Nam ghi nhận thêm 35 trường hợp dương tính với cúm A/H1N1, tất trường hợp khu vực phía Nam Trong trường hợp phát trên, số người xác định Việt Nam đường hàng không chuyến bay: UA 869 PR ngày 29.6, VN 782 ngày 29.6, VN 850 VN 782 ngày 28.6 Như vậy, tính đến 17 chiều 163 nay, Việt Nam ghi nhận 166 trường hợp dương tính với cúm A/H1N1 (miền Nam: 144, miền Trung: 8, miền Bắc: 14 trường hợp) Bài báo 3: Hơn 200 ca nhiễm cúm A/H1N1 VN29 (ngày 03/07/2009) (TNO) Theo báo cáo nhanh Sở Y tế TP.HCM lúc 19 tối (3.7), ngày hôm nay, đơn vị phát đến 25 trường hợp dương tính với vi-rút cúm A/H1N1, nâng tổng số ca nhiễm cúm A/H1N1 TP.HCM phát lên 164 ca, có 124 ca đăng ký lưu trú TP.HCM Đây số ca nhiễm cúm A/H1N1 phát nhiều ngày, kể từ TP.HCM phát trường hợp nhiễm cúm A/H1N1 Trong đó, báo cáo Cục Y tế dự phịng Mơi trường, Bộ Y tế chiều cho biết ngày hôm nay, VN ghi nhận thêm 27 trường hợp dương tính với vi-rút cúm A/H1N1, cụ thể: miền Nam (25 ca), miền Bắc (2 ca) Như vậy, tính đến 17 ngày 3.7, VN ghi nhận 208 trường hợp dương tính (miền Nam: 182, miền Trung: miền Bắc: 17 trường hợp) Số bệnh nhân viện 114; 94 trường hợp lại cách ly, điều trị bệnh viện tình trạng sức khỏe ổn định Trong số 25 ca nhiễm cúm A/H1N1 quan chức TP.HCM phát hôm có trường hợp người VN nhiễm bệnh tiếp xúc gần với bệnh nhân nhiễm cúm A/H1N1 từ nước Theo bác sĩ Nguyễn Văn Châu, Giám đốc Sở Y tế TP.HCM, tổng số 164 ca nhiễm cúm A/H1N1 TP.HCM phát kể trên, có 95 người quốc tịch nước ngoài, 52 người quốc tịch VN có nước ngồi có 17 người VN bị lây nhiễm nước tiếp xúc gần với bệnh nhân nhiễm cúm A/H1N1 từ nước về; chưa phát trường hợp lây nhiễm cúm A/H1N1 cộng đồng Cũng theo bác sĩ Châu, tính đến 19 tối nay, có 103 tổng số 164 bệnh nhân nhiễm cúm A/H1N1 phát điều trị TP.HCM khỏi bệnh xuất viện; bệnh nhân cịn lại có tình trạng sức khỏe ổn định điều trị cách ly 29 http://www.thanhnien.com.vn/News/Pages/200927/20090703191845.aspx 164 Ngồi ra, Sở Y tế TP.HCM cịn cho hay, đơn vị tiếp tục cách ly theo dõi trường hợp có kết dương tính với cúm A/H1N1 lần xét nghiệm đầu Cũng ngày hôm nay, Trung tâm Kiểm dịch Y tế Quốc tế TP.HCM tiếp tục phát thêm 61 trường hợp có thân nhiệt cao cửa sân bay Tân Sơn Nhất nhanh chóng đưa cách ly theo dõi bệnh viện Phạm Ngọc Thạch Trước tình hình dịch cúm diễn biến ngày phức tạp, với số ca nghi ngờ nhiễm cúm A/H1N1 ngày nhiều, ngày hơm nay, Sở Y tế TP.HCM thức thành lập đưa vào sử dụng khu cách ly bệnh nhân nghi nhiễm cúm A/H1N1 Bệnh viện quận với 30 giường, để tiếp nhận trường hợp nghi nhiễm cúm A/H1N1 từ Trung tâm Kiểm dịch Y tế Quốc tế TP.HCM chuyển đến Đặc biệt, Sở Y tế TP.HCM vừa tăng cường thêm 20 giường bệnh khu cách ly điều trị bệnh viện Bệnh Nhiệt đới Theo thông báo Tổ chức Y tế giới (WHO), đến ngày 2.7, có 77.201 trường hợp dương tính với cúm A/H1N1 120 quốc gia/vùng lãnh thổ, có 322 trường hợp tử vong Tại khu vực Đông Nam Á, Philippine ghi nhận 861 trường hợp, có trường hợp tử vong; Singapore: 701 trường hợp dương tính Bộ Y tế Thái Lan thông báo nước ghi nhận 1.414 ca dương tính, trường hợp tử vong cúm A/H1N1 Bài báo 4: TP.HCM: Thêm nhiều ca dương tính với cúm A/H1N1 30 (ngày 04/07/2009) (TNO) Theo báo cáo nhanh Sở Y tế TP.HCM, tính đến 18 30 tối (4.7), TP.HCM phát tổng cộng 169 trường hợp dương tính với cúm A/H1N1 Trong đó, riêng ngày hơm có ca nhiễm Theo bác sĩ Phan Văn Nghiệm, Trưởng phòng Nghiệp vụ Y, Sở Y tế TP.HCM, tổng số 169 ca nhiễm cúm A/H1N1 kể trên, có 129 ca có địa đăng ký lưu trú TP.HCM; số cịn lại lưu trú tỉnh miền Đơng miền Tây Nam Trong đó, có 97 người quốc tịch nước ngồi, 55 người Việt Nam có nước 17 30 http://www.thanhnien.com.vn/news/Pages/200927/20090704185756.aspx 165 người Việt Nam bị lây nhiễm nước tiếp xúc gần với bệnh nhân nhiễm cúm A/H1N1 từ nước về; chưa phát trường hợp lây nhiễm cúm A/H1N1 cộng đồng Cũng theo bác sĩ Nghiệm, tính đến 18 30 tối nay, có 103 tổng số 169 bệnh nhân nhiễm cúm A/H1N1 phát điều trị TP.HCM khỏi bệnh xuất viện; bệnh nhân cịn lại có tình trạng sức khỏe ổn định điều trị cách ly Ngồi ra, Sở Y tế TP.HCM cịn cho hay, đơn vị tiếp tục cách ly theo dõi trường hợp có kết dương tính với cúm A/H1N1 lần xét nghiệm đầu Cũng ngày hôm nay, Trung tâm Kiểm dịch Y tế Quốc tế TP.HCM phát thêm 27 trường hợp có thân nhiệt cao cửa sân bay Tân Sơn Nhất nhanh chóng đưa cách ly theo dõi Bệnh viện Phạm Ngọc Thạch Bệnh viện quận Như tính từ ngày 26.4 đến 4.7, Trung tâm Kiểm dịch Y tế Quốc tế TP.HCM phát 866 hành khách nhập cảnh vào sân bay Tân Sơn Nhất có thân nhiệt cao Trong đó, có 131 hành khách xác định nhiễm cúm A/H1N1 Bài báo 5: TP.HCM: Thêm ca nhiễm cúm A/H1N131 (ngày 05/07/2009) (TNO) Theo báo cáo nhanh Sở Y tế TP.HCM, ngày hơm nay, đơn vị thức xác nhận có trường hợp dương tính với vi-rút cúm A/H1N1 Trong đó, có trường hợp người Việt Nam trường hợp người nước ngồi Tính từ ngày 26.4 đến 18 tối (5.7), TP.HCM phát tổng cộng 17 trường hợp người Việt Nam (khơng nước ngồi) bị nhiễm vi-rút cúm A/H1N1 tiếp xúc gần với người nhiễm bệnh từ nước chuyến bay nhập cảnh sân bay Tân Sơn Nhất Cũng theo báo cáo Sở Y tế TP.HCM, Như vậy, tính đến 18 tối nay, TP.HCM phát tổng cộng 175 ca nhiễm cúm A/H1N1 Trong đó, có 135 ca có địa đăng ký lưu trú TP.HCM; số lại tỉnh miền Tây miền Đông Nam Bộ 31 http://www.thanhnien.com.vn/News/Pages/200927/20090705190937.aspx 166 Theo bác sĩ Phan Văn Nghiệm, Trưởng phòng Nghiệp vụ Y, Sở Y tế TP.HCM, trường hợp xác định nhiễm cúm A/H1N1 vừa kể trên, ngày hơm nay, ngành Y tế TP.HCM cịn cách ly theo dõi trường hợp có kết dương tính với cúm A/H1N1 lần xét nghiệm đầu Cũng ngày hôm nay, Trung tâm Kiểm dịch Y tế Quốc tế TP.HCM phát thêm 23 trường hợp có thân nhiệt cao cửa sân bay Tân Sơn Nhất nhanh chóng đưa cách ly theo dõi Bệnh viện Phạm Ngọc Thạch (12 người), Bệnh viện quận (10 người) em bé đưa cách ly bệnh viện Nhi Đồng Theo thông báo Tổ chức Y tế giới (WHO) đưa vào ngày 3.7, có 89.921 trường hợp dương tính với cúm A/H1N1 giới, có 382 trường hợp tử vong Như so với thông báo trước cách hai ngày (vào ngày 1.7), số ca tử vong giới tăng đến 50 người thêm 12.720 ca nhiễm Số ca tử vong nhiễm bệnh chủ yếu tập trung Mỹ với thêm 6.185 ca nhiễm 43 ca tử vong Bản tóm tắt chuyên gia thực hiện: (yêu cầu tóm tắt: 100 chữ) Như vậy, tính đến 17 ngày 30.6, Việt Nam ghi nhận 131 trường hợp dương tính với cúm A/H1N1 (miền Nam: 109, miền Trung: miền Bắc: 14 trường hợp) Tại khu vực Đông Nam Á, Philippine ghi nhận 861 trường hợp, có trường hợp tử vong; Singapore: 701 trường hợp dương tính Theo báo cáo nhanh Sở Y tế TP.HCM, tính đến 18 30 tối (4.7), TP.HCM phát tổng cộng 169 trường hợp dương tính với cúm A/H1N1 Trong đó, riêng ngày hơm có ca nhiễm Kết tóm tắt tập văn bản: Bản tóm tắt theo dạng trích lƣợc TSGVi: (u cầu tóm tắt: 100 từ) (TNO) Theo tin từ Bộ Y tế, ngày 30.6, Việt Nam ghi nhận thêm trường hợp dương tính với cúm A/H1N1, bao gồm trường hợp khu vực phía Nam trường hợp khu vực phía Bắc Theo báo cáo nhanh Sở Y tế TP.HCM, tính đến 18 30 tối (4.7), TP.HCM phát tổng cộng 169 trường hợp dương tính với cúm A/H1N1.Tính từ ngày 26.4 đến 18 tối (5.7), TP.HCM phát 167 tổng cộng 17 trường hợp người Việt Nam (không nước ngoài) bị nhiễm vi-rút cúm A/H1N1 tiếp xúc gần với người nhiễm bệnh từ nước chuyến bay nhập cảnh sân bay Tân Sơn Nhất Bản tóm tắt hệ thống LexRank: (yêu cầu tóm tắt: 100 từ) Trong đó, báo cáo Cục Y tế dự phịng Mơi trường, Bộ Y tế chiều cho biết ngày hôm nay, VN ghi nhận thêm 27 trường hợp dương tính với vi-rút cúm A/H1N1, cụ thể: miền Nam (25 ca), miền Bắc (2 ca) Số bệnh nhân viện 114; 94 trường hợp lại cách ly, điều trị bệnh viện tình trạng sức khỏe ổn định Tính từ ngày 26.4 đến 18 tối (5.7), TP.HCM phát tổng cộng 17 trường hợp người Việt Nam (không nước ngoài) bị nhiễm vi-rút cúm A/H1N1 tiếp xúc gần với người nhiễm bệnh từ nước chuyến bay nhập cảnh sân bay Tân Sơn Nhất Bản tóm tắt hệ thống TextRank: (yêu cầu tóm tắt: 100 từ) Cũng theo bác sĩ Nghiệm, tính đến 17 chiều nay, có 82 tổng số 128 bệnh nhân nhiễm cúm A/H1N1 phát điều trị TP.HCM khỏi bệnh xuất viện; bệnh nhân cịn lại có tình trạng sức khỏe ổn định điều trị cách ly Bộ Y tế Thái Lan thông báo nước ghi nhận 1.414 ca dương tính, trường hợp tử vong cúm A/H1N1 Như so với thơng báo trước cách hai ngày (vào ngày 1.7), số ca tử vong giới tăng đến 50 người thêm 12.720 ca nhiễm Bản tóm tắt hệ thống LEAD: (yêu cầu tóm tắt: 100 từ) Báo cáo nhanh Sở Y tế TP.HCM lúc 19 tối (1.7) cho biết, ngày hôm đơn vị phát đến 20 trường hợp dương tính với virus cúm A/H1N1, nâng tổng số ca nhiễm cúm A/H1N1 TP.HCM phát lên 128 ca Theo báo cáo nhanh Sở Y tế TP.HCM lúc 19 tối (3.7), ngày hôm nay, đơn vị phát đến 25 trường hợp dương tính với vi-rút cúm A/H1N1, nâng tổng số ca nhiễm cúm A/H1N1 TP.HCM phát lên 164 ca, có 124 ca đăng ký lưu trú TP.HCM 168