Theo quan điểm của các nhà nghiên cứu về tóm tắt văn bản thì bản tóm tắt là một bản rút gọn của một hay nhiều văn bản gốc thông qua việc lựa chọn và tổng quát hóa các khái niệm quan trọng. Bài viết này sẽ nghiên cứu một số đặc trưng riêng, trên cơ sở đó áp dụng đánh giá các đặc trưng đó trong trích rút câu phục vụ tóm tắt tự động văn bản tiếng Việt thể loại báo mạng điện tử.
Kỷ yếu Hội nghị Quốc gia lần thứ XI Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/08/2018 DOI: 10.15625/vap.2018.00044 MỘT SỐ ĐẶC TRƯNG TRONG TÓM TẮT VĂN BẢN BÁO MẠNG ĐIỆN TỬ TIẾNG VIỆT Lê Ngọc Thắng1,2, Lê Quang Minh2 Cục Tham mưu An ninh, Bộ Công an Viện Công nghệ thông tin, Đại học Quốc gia Hà Nội lengocthang@gmail.com, quangminh@vnu.edu.vn TĨM TẮT: Tóm tắt văn tự động nghiên cứu từ năm 1950 kỷ 20 Tóm tắt tự động văn tiếng Việt tập trung nghiên cứu từ năm đầu kỷ 21 Về nghiên cứu ngắn hạn, đơn lẻ tập trung vào hướng trích rút qua việc sử dụng đặc trưng ngôn ngữ tiếng Anh để áp dụng vào mơ hình tóm tắt tự động văn tiếng Việt Phần lớn kết thử nghiệm thực thể loại văn báo mạng điện tử Tuy nhiên, nay, chưa có nhiều nghiên cứu đặc trưng ngôn ngữ thể loại văn báo mạng điện tử tiếng Việt phục vụ cho tốn trích rút câu Bài báo nghiên cứu số đặc trưng riêng, sở áp dụng đánh giá đặc trưng trích rút câu phục vụ tóm tắt tự động văn tiếng Việt thể loại báo mạng điện tử Từ khóa: tóm tắt văn tự động, tóm tắt văn tiếng Việt, báo mạng điện tử, từ khóa I GIỚI THIỆU Theo quan điểm nhà nghiên cứu tóm tắt văn tóm tắt rút gọn hay nhiều văn gốc thông qua việc lựa chọn tổng quát hóa khái niệm quan trọng Theo Mani cộng [1] tóm tắt văn q trình trích lược chắt lọc thông tin quan trọng từ văn gốc để tạo phiên giản lược sử dụng cho mục đích nhiệm vụ khác Thơng thường văn tóm tắt có độ dài khơng q nửa so với văn gốc Có nhiều phương pháp tiếp cận tóm tắt văn bản, qua có nhiều cách phân loại hệ thống tóm tắt văn bản, nhiên, thơng thường người ta hay sử dụng cách phân loại theo kết đầu (output) Đối với cách phân loại có 02 phương pháp tóm tắt văn tóm tắt theo phương pháp trích rút (Extract) tóm tắt theo phương pháp tóm lược (Abstract) Phương pháp tóm tắt trích rút phương pháp tìm đơn vị quan trọng văn đầu vào (đơn vị thường sử dụng câu) sau lựa chọn câu có liên quan đến đơn vị quan trọng để tạo văn tóm tắt Đặc trưng phương pháp xác định xem câu văn đầu vào có thuộc văn tóm tắt hay khơng, văn tóm tắt thường tuân theo thứ tự nội dung văn đầu vào Đối với phương pháp có số hướng tiếp cận: Hướng tiếp cận tiên phong; hướng tiếp cận theo thống kê; hướng tiếp cận dựa kết nối văn bản; hướng tiếp cận dựa lý thuyết đồ thị; hướng tiếp cận dựa vào học máy hướng tiếp cận đại số Phương pháp tóm lược xuất phát từ mục tiêu hiểu đầy đủ nội dung văn tóm tắt, sau tạo câu cho tóm tắt theo tỉ lệ yêu cầu người dùng Phương pháp giống với cách tóm tắt người mặt thực tế khó để đạt kết tóm tắt thủ cơng Một số hướng nghiên cứu dựa vào đơn vị đặc trưng từ, cụm từ, thành phần câu quan trọng để sinh câu cho tóm tắt Một số hướng tiếp cận phương pháp sau: Dựa vào từ cụm từ quan trọng; dựa kỹ thuật cô đọng văn bản; dựa kỹ thuật rút gọn văn bản, nối câu; dựa kỹ thuật rút gọn câu Về lĩnh vực tóm tắt tự động văn tiếng Việt, với hướng tiếp cận tóm tắt trích rút có số cơng trình Nguyễn Lê Minh cộng [2], Hà Thành Lê cộng [3], Đỗ Phúc Hoàng Kiếm [4], Lê Thanh Hương cộng [5], Nguyễn Thị Thu Hà [6], Nguyễn Nhật An [7] Nguyễn Lê Minh cộng [2] trích rút sử dụng phương pháp SVM với đặc trưng gồm vị trí câu, chiều dài câu, độ liên quan chủ đề, tần suất từ, cụm từ khoảng cách từ Hà Thành Lê cộng [3] kết hợp số phương pháp trích rút đặc trưng trích rút văn tiếng Việt đặc trưng tần suất từ TF×IDF, vị trí, từ tiêu đề, từ liên quan Các đặc trưng kết hợp tuyến tính với để tính trọng số câu văn gốc Lê Thanh Hương cộng [5] sử dụng giải thuật PageRank cải tiến với hệ số nhân cho từ xuất tiêu đề văn để trích rút câu Nguyễn Thị Thu Hà [6] sử dụng đặc trưng tần suất từ, vị trí câu đặc trưng tiêu đề để trích rút câu quan trọng Nguyễn Nhật An [7] trích rút câu dựa đặc trưng vị trí câu, tần suất từ, độ dài câu, xác suất thực từ, thực thể có tên, liệu số, tương tự với tiêu đề câu trung tâm để tính trọng số câu Có thể nhận thấy đề tài có chung số đặc điểm phần lớn sử dụng đặc trưng chung ngơn ngữ nội văn Có số nghiên cứu bước đầu đề cập tới tiêu đề văn [5], [7], cịn lại nhìn chung chưa khai thác nhiều thông tin liên quan khác văn Trong kết thực nghiệm phần lớn dựa liệu thể loại văn báo mạng điện tử, thể loại văn có tính đặc thù, có nhiều đặc trưng riêng, có nhiều thành phần mang thơng tin khác Lê Ngọc Thắng, Lê Quang Minh 331 Xuất phát từ thực tế đó, để nghiên cứu tốn trích rút câu cho thể loại văn báo mạng điện tử tiếng Việt chúng tơi xây dựng mơ hình để giải toán dựa đặc trưng riêng thể loại báo mạng điện tử Đối tượng nghiên cứu, xử lý báo văn báo mạng điện tử tiếng Việt II ĐẶC TRƢNG CỦA VĂN BẢN BÁO MẠNG ĐIỆN TỬ TIẾNG VIỆT Theo Nguyễn Thị Trường Giang [9] nay, báo mạng điện tử Việt Nam phát triển qua giai đoạn Giai đoạn từ năm 1997-2001 giai đoạn hình thành, nội dung chủ yếu lấy từ báo in đưa lên, thường chưa có thơng tin phóng viên báo mạng điện tử tự làm Giai đoạn từ 2001-2005 giai đoạn phát triển nở rộ báo lớn, nhiên, đội ngũ người làm báo mạng điện tử chưa phát triển bản, thiếu chuyên nghiệp Giai đoạn 2005 đến đánh dấu trưởng thành số lượng chất lượng báo mạng điện tử Việt Nam Giai đoạn báo mạng điện tử vào chuyên nghiệp, trọng nhiều đến nội dung hình thức, số báo có thương hiệu phong cách riêng Các ưu điểm vượt trội báo mạng điện tử khả đa phương tiện, tính tương tác cao, tìm kiếm nhanh ngày quan tâm tận dụng khai thác có hiệu Về ngôn ngữ, báo mạng điện tử Việt Nam hình thành lên đặc điểm mặt ngôn ngữ sau: Ngôn ngữ báo mạng điện tử ngôn ngữ đa phương tiên; ngắn gọn, rõ ràng, dễ hiểu; mang tính thời cao loại hình báo chí; thành tố trình bày linh hoạt, phục vụ cho liên kết đa chiều; ngơn ngữ thể tính hội nhập cao Về bản, cấu trúc thông tin báo mạng điện tử gồm 11 phần: Tít chính, Sa pơ, Chính Văn, Tít phụ, Tranh - ảnh, Đồ hình, Video ảnh động, Âm thanh, Các box thông tin tư liệu, đường link, Từ khóa Tags Trong Sa pơ câu mào đầu báo, mục đích để tạo hấp dẫn cho người đọc Theo Hồng Anh [10] Sa pơ bao gồm câu, vài câu nhiều câu Trong báo chí đại lời mào đầu thường có xu hướng ngắn gọn tốt Hiện có số nghiên cứu nhà công nghệ thông tin thường nhầm lẫn Sa pơ phần tóm tắt báo tác giả Trong [12] tác giả nêu đoạn văn cần tóm tắt báo phần tóm tắt đoạn mơ tả phía tiêu đề Nguyễn Nhật An [7] đề cập tới việc sử dụng tóm tắt tác giả tiêu đề báo để làm sở đánh giá kết nghiên cứu Những nhầm lần dẫn đến kết khơng xác nghiên cứu Qua nghiên cứu đặc điểm báo mạng điện tử, nhận thấy từ khóa, từ gán nhãn (Tags) thực thể có tên, cụm từ có câu tiêu đề, sa pô thành phần mang nhiều thông tin văn Để xử lý thông tin mạng internet, nghiên cứu không tập trung vào nội dung đối tượng mà đề cập tới thành phần mang thông tin khác Trong [8] tác giả sử dụng hashtags ảnh facebook cung cấp người dùng để nhận dạng ảnh qua học sâu Do để trích xuất câu văn bản, thấy cần phải nghiên cứu, đánh giá vai trò mặt ngữ nghĩa đặc trưng văn báo mạng điện tử 2.1 Từ khóa nhãn báo mạng điện tử Theo từ điển “The Oxford English Dictionary” [14] từ khóa (keywords) từ dùng để nói đến chìa khóa loại mật mã sử dụng để giải quyết, giới thiệu vật tượng cụ thể Đó từ đóng vai trị quan trọng có ý nghĩa việc thể nội dung văn Theo Lê Thanh Hà [11] “Từ khoá báo điện tử cụm từ gồm đến chữ tóm tắt nội dung chủ đề viết, t báo sử dụng nhiều cụm từ thông dụng việc trực tiếp dùng để tìm kiếm tin tức ngày, vấn đề mang tính thời sự, xã hội, kinh tế, đời sống, giải trí, cơng nghệ… ngồi nước Mỗi tờ báo điện tử hướng theo lĩnh vực riêng, người dùng riêng, tương đương với từ khoá riêng cho lĩnh vực Nếu muốn trang web bạn để xếp hạng cao kết tìm kiếm thu hút nhiều người đến trang web – bạn phải chọn từ khóa cách cẩn thận” Từ khóa thích hợp giúp tác phẩm báo mạng điện tử nằm đầu bảng kết cơng cụ tìm kiếm Google, Bing Từ khóa nhà báo lựa chọn từ nội dung viết Trong trường hợp có nhiều từ khóa khác nhau, để lựa chọn từ khóa tìm kiếm nhiều song phù hợp với nội dung viết, nhà báo lựa chọn kinh nghiệm, độ nhạy cảm, thói quen cơng cụ hỗ trợ Từ khóa lựa chọn phải đáp ứng yêu cầu phù hợp với nội dung viết song phải từ khóa nhiều người tìm kiếm qua cơng cụ tìm kiếm mạng Một số cơng cụ gợi ý từ khóa thường sử dụng keywordtool.io, google trends Sau xác định từ khóa chính, biên tập viên, nhà báo xác định thêm từ khóa liên quan – gọi Tag (từ gán nhãn) Tag định nghĩa từ khoá liên quan đến viết, khơng phải từ khố Tag từ khóa gần nghĩa với từ khóa từ khố đơn lẻ theo cơng thức: Who (ai, gì) – Where (ở đâu, xảy đâu) – What (vấn đề gì) – When (xảy nào) Thông thường, báo mạng điện tử sử dụng tối đa tags, tối thiểu tags Trong đó, phần lớn báo mạng điện tử phân bố theo cấu tag – từ khố gần nghĩa (có thể nhiều hơn), tag – – từ khoá theo cơng thức Như rõ ràng từ khóa từ gán nhãn có vai trị ngữ nghĩa quan trọng báo mạng điện tử MỘT SỐ ĐẶC TRƯNG TRONG TÓM TẮT VĂN BẢN BÁO MẠNG ĐIỆN TỬ TIẾNG VIỆT 332 2.2 Thực thể có tên Theo Nguyễn Trí Nhiệm, Nguyễn Thị Trường Giang [13] cấu trúc theo hình tháp ngược “Cái – Ai – Ở đâu – Khi – Vì – Như nào” cấu trúc đại phù hợp với yêu cầu viết cho báo mạng điện tử phải đưa thông tin quan trọng lên đầu Với cấu trúc này, phương diện ngôn ngữ, hai yếu tố Ai – Cái trở thành chủ ngữ vị ngữ câu, yếu tố lại trở thành trạng ngữ Do vậy, thực thể có tên người, địa danh, tổ chức,… đóng vai trị quan trọng ngữ nghĩa văn báo mạng điện tử Nguyễn Nhật An [7] vai trò quan trọng thực thể có tên văn tiếng Việt thuộc thể loại tin tức Trong [15] tác giả sử dụng tiêu chí thực thể có tên xuất 02 lần trở lên văn thực thể có ngữ nghĩa quan trọng để trích rút câu Ở đây, thực thể có tên xem quan trọng xuất từ lần trở lên nội dung báo, thực thể có tên tiêu đề sa pơ Sau đề cập đến thực thể có tên hiểu thực thể có tên đáp ứng yêu cầu trên* III TRÍCH RÚT CÂU VĂN BẢN BÁO MẠNG ĐIỆN TỬ TIẾNG VIỆT DỰA TRÊN TỪ KHÓA VÀ THỰC THỂ CÓ TÊN Có hai vấn đề cần xem xét phương pháp tóm tắt văn theo hướng trích rút câu Một là, xem xét phù hợp đặc trưng tốn tóm tắt văn tiếng Việt lựa chọn tập đặc trưng phù hợp văn tiếng Việt cần nghiên cứu Hai là, giá trị đặc trưng sử dụng phải xác định hệ số cho thích hợp tốn Trong báo này, để tính độ quan trọng câu dựa 03 đặc trưng từ khóa chính, từ khóa nhãn (tags) thực thể có tên, sau xác định hệ số đặc trưng phù hợp Bài tốn mơ hình hóa sau: Đối với văn V: Gọi: - S = S1, S2 … , Sl , Si câu thứ i văn có l câu - Ti = t1, t2, …, tq, tj từ thứ j câu Si có q từ - X = x1, x2 … , xn tập từ khóa Giá trị ngữ nghĩa từ khóa xi câu tính α từ khóa có câu, từ khóa khơng có câu - Y = y1, y2, … , ym tập từ gán nhãn Giá trị ngữ nghĩa từ gán nhãn yi câu tính β từ khóa có câu, từ gán nhãn khơng có câu - Z = z1, z2, … , zk tập thực thể có tên Giá trị ngữ nghĩa thực thể có tên zi câu tính γ từ khóa có câu, thực thể có tên khơng có câu Các tập X, Y, Z chuẩn hóa đảm bảo X Y = ; Y Z = ; Z nhiều tập chuẩn hóa giữ lại tập có trọng số ngữ nghĩa cao Độ quan trọng câu xác định công thức: w(V) = α x |X số phần tử X X = , nghĩa từ thuộc T| + β x |Y T| + γ x |Z T| , với |X| Như ta coi α, β, γ hệ số đặc trưng ngữ nghĩa từ khóa, từ khóa nhãn thực thể có tên văn V Thực tiễn ngữ nghĩa nhận thấy giá trị ngữ nghĩa từ khóa cao từ khóa nhãn ngữ nghĩa từ khóa nhãn cao ngữ nghĩa thực thể có tên Do ta tương quan ngữ nghĩa ta có α > β > γ Để xác định giá trị phù hợp đạt hiệu cao sử dụng hệ số này, ta cần phải có trình thực nghiệm với kết giải thuật áp dụng phương pháp học máy Do thời gian thực nghiệm chưa nhiều nên tạm thời lấy giá trị cho hệ số sau số lần đối sánh kết với hệ số khác 50 văn mẫu α = 2, β = 1.5, γ = Với từ xi câu đóng vai trị vừa từ khóa, từ gán nhãn thực thể có tên, vậy, chúng tơi lựa chọn trường hợp có trọng số cao Ví dụ 02 câu: Ngày 13/5, Tổng bí thư Nguyễn Phú Trọng đại biểu Quốc hội ứng cử Đơn vị bầu cử số Đoàn đại biểu Quốc hội thành phố Hà Nội dành ngày tiếp xúc cử tri quận Ba Đình, Hồn Kiếm Tây Hồ, chuẩn bị cho Kỳ họp thứ 5, Quốc hội khóa XIV Cuộc tiếp xúc Tổng Bí thư cử tri diễn sau ngày bế mạc Hội nghị Trung ương Ban Chấp hành Trung ương Đảng khóa XII, thơng điệp lớn cử tri bày tỏ niềm tin vào kết đấu tranh phòng chống tham nhũng thời gian vừa qua Trong báo có tập từ khóa “Tổng bí thư”, “tiếp xúc”, “cử tri”; Tập từ gán nhãn “phòng”, “chống”, “tham nhũng”, “cán bộ”, “Hà Nội” Tập thực thể có tên 02 câu xác định bao gồm: “Nguyễn Phú Trọng” Lê Ngọc Thắng, Lê Quang Minh 333 Trọng số w câu tính sau: w1 = x + 1.5 x + x = 8.5 có chưa 03 từ khóa, 01 từ gán nhãn 01 thực thể có tên Trọng số w câu tính: w2 = x + 1.5 x + x = 10.5 có chứa 03 từ khóa, 03 từ gán nhãn có thực thể có tên Sau tính độ quan trọng câu, xếp thứ tự câu theo thứ tự giảm dần trọng số w Căn vào tỉ lệ trích rút người dùng hệ thống chọn từ xuống để sinh trích rút tương ứng Để thực tiền xử lý tiếng Việt sử dụng thư viện VnCoreNLP [16] Thanh Vu, Dat Quoc Nguyen, Dai Quoc Nguyen, Mark Dras and Mark Johnson (2018) cho việc tách câu, tách từ, gán nhãn từ loại nhận dạng thực thể có tên Sau nhận dạng thực thể có tên, chúng tơi xây dựng tập thực thể có tên theo tiêu chí* Lưu đồ thuật tốn trích rút câu tiến hành sau: Với văn V: Xác định tập từ khóa X a X = Words(Keywords) // sử dụng công cụ tách từ cho từ khóa thu thập văn Xác định tập từ gán nhãn Y a Y = Words(Tags) // sử dụng công cụ tách từ cho tập từ khóa gán nhãn thu thập văn b yi Y yi X Y = Y \ {yi} Xác định tập thực thể có tên Z a Z = NER(V) // sử dụng công cụ nhận dạng thực thể có tên cho văn V b Z = Z* // xây dựng Z* từ Z c zi Z zi X Z = Z \ {zi} d zi Z zi Y Z = Z \ {zi} Đối với văn xác định tập câu S a S = Sentences(V) // Sử dụng công cụ tách câu văn V Đối với câu si S a T = Words(si) //Tách câu thành tập từ T b Tính trọng số wi câu si : w(si) = x |X T| + 1.5 x |Y T| + |Z T| Sắp xếp tập câu S theo trọng số wi Lựa chọn số câu theo tỉ lệ người dùng cần trích rút để sinh trích rút IV ĐÁNH GIÁ KẾT QUẢ TĨM TẮT 4.1 Xây dựng kho ngữ liệu Như trình bày trên, kho ngữ liệu dành cho tóm tắt văn cịn hạn chế, chia sẻ cộng đồng Có số kho ngữ liệu chia sẻ mạng Internet nhiên kho ngữ liệu chưa có từ khóa văn nên khơng sử dụng tốn Do vậy, bắt buộc phải xây dựng kho ngữ liệu thử nghiệm riêng Để xây dựng kho ngữ liệu báo xác định phương pháp sau: Lựa chọn ngẫu nhiên báo từ trang báo mạng điện tử Việt Nam gồm trang http://dangcongsan.vn, https://news.zing.vn, https://vnexpress.net , đảm bảo báo có khoảng 500 từ trở lên Mỗi báo thu thập 04 nội dung gồm: tiêu đề, sa pơ, nội dung, từ khóa từ gán nhãn Mỗi nội dung lưu vào file txt tương ứng Đối với văn xây dựng 01 trích rút giữ lại khoảng 30%, 01 trích rút giữ lại khoảng 60% số câu văn tương ứng S30 S60 để làm kết so sánh Chúng sử dụng chuyên gia nhà báo có kinh nghiệm để lựa chọn số câu văn Để đảm bảo tính độc lập kết quả, chuyên gia cung cấp tiêu đề nội dung văn bản, không cung cấp thơng tin từ khóa hay từ gán nhãn Do việc xây dựng tập văn tóm tắt chuyên gia nhiều thời gian, công sức nên báo sử dụng tập 100 văn 4.2 Phƣơng pháp đánh giá thực nghiệm Để đánh giá độ xác trích rút tự động, sử dụng phương pháp Precision and recall Phương pháp đánh giá sử dụng phù hợp với tóm tắt theo hướng trích rút câu qua việc so sánh tóm tắt hệ thống trích rút với tóm tắt người trích rút sử dụng độ đo xác (precision), triệu hồi (recall), giá trị f- score Độ đo xác (precision) tỉ số số lượng câu hệ thống người trích rút số câu hệ thống trích rút 334 MỘT SỐ ĐẶC TRƯNG TRONG TÓM TẮT VĂN BẢN BÁO MẠNG ĐIỆN TỬ TIẾNG VIỆT Độ đo triệu hồi (recall) tỉ số số lượng câu trích rút hệ thống trùng với số câu mà người trích rút số câu lựa chọn người Độ đo F-score độ đo kết hợp precision recall Ở quan tâm đến độ đo F1-score định nghĩa trung bình hàm điều hịa recision recall Các giá trị F-score nhận giá trị đoạn [0, 1], giá trị tốt Precision = ; Recall = ; F1-score = x Trong đó: M tập câu trích rút từ hệ thống, H tập câu trích rút chuyên gia, |M| số phần tử tập M Bảng Đánh giá độ xác tập gồm 100 văn Precision Recall F1-score S30 76,67% 69,70% 73,02% S60 76,79% 71,67% 74,14% Từ Bảng 1, chúng tơi có số nhận xét sau: - Độ xác có kết tốt, 75% - Độ triệu hồi cho kết khả quan, xấp xỉ 70% - Độ đo F1-score có kết tốt hai trường hợp, chứng tỏ vai trò ngữ nghĩa đặc trưng văn báo mạng điện tử - Độ xác độ triệu hồi tập S30 S60 tương đối giống nhau, cho thấy tỉ lệ lựa chọn không phụ thuộc nhiều vào tỉ lệ câu trích xuất Tuy nhiên, kết cho thấy tỉ lệ trích rút cao cho kết xác cao Khi xem xét cụ thể trích rút chuyên gia hệ thống thực nhận thấy: - Có khác biệt sau: Bản trích rút chuyên gia lựa chọn đồng văn (các câu chọn phân bố tồn văn bản); trích rút hệ thống lựa chọn có số báo phân bố khơng đều, phần cuối nội dung báo thường chọn - Số lượng câu khơng chứa ba đặc trưng từ khóa, từ gán nhãn, thực thể có tên (câu có trọng số 0) tương đối (14,3%) V KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Bài báo đưa phương pháp tiếp cận tóm tắt trích rút văn báo mạng điện tử dựa đánh giá độ quan trọng từ khóa chính, từ khóa gán nhãn thực thể có tên Kết thu từ thực nghiệm cho thấy vai trò đặc trưng văn báo mạng điện tử khẳng định tiếp cận có triển vọng việc trích rút câu văn báo mạng điện tử Trong thời gian tới nâng cao hiệu phương pháp cách mở rộng tập văn thử nghiệm xác định tham số ngữ nghĩa α, β γ qua học máy Đồng thời nghiên cứu việc sử dụng đặc trưng văn báo mạng điện tử kết hợp với đặc trưng chung văn tiếng Việt nghiên cứu trước VI LỜI CẢM ƠN Chúng chân thành gửi lời cám ơn tới nhà báo Trần Lệ Thủy phóng viên báo Phụ Nữ Việt Nam hỗ trợ trình nghiên cứu xây dựng kho ngữ liệu cho báo này, trân trọng gửi lời cám ơn nhóm tác giả thư viện VnCoreNLP VII TÀI LIỆU THAM KHẢO [1] Mani, I., House, D., Klein, G., et al The TIPSTER SUMMAC Text Summarization Evaluation In Proceedings of EACL, 1999 [2] M.L Nguyen, A Shimazu, X.H Phan, T.B Ho, S Horiguchi, Sentence Extraction with Support Vector Machine Ensemble In Proceedings of the First World Congress of the International Federation for Systems Research : The New Roles of Systems Sciences For a Knowledge-based Society, 2005 Lê Ngọc Thắng, Lê Quang Minh 335 [3] Thanh Le Ha, Quyet Thang Huynh, Chi Mai Luong, A Primary Study on Summarization of Documents in Vietnamese, Proceedings of the First World Congress of the International Federation for Systems Research: The New Roles of Systems Sciences For a Knowledge-based Society, 2005 [4] Đỗ Phúc, Hồng Kiếm, Rút trích ý từ văn tiếng Việt Tạp chí Cơng nghệ Thơng tin Truyền thơng, 2006 [5] Lê Thanh Hương, Nghiên cứu số phương pháp tóm tắt văn tự động máy tính áp dụng cho tiếng Việt, Báo cáo tổng kết đề tài cấp KH CN cấp bộ, Đại học Bách khoa Hà Nội, 2014 [6] Nguyễn Thị Thu Hà, Phát triển số thuật tốn tóm tắt văn tiếng Việt sử dụng phương pháp học bán giám sát, Luận án Tiến sỹ, Học viện Kỹ thuật quân sự, 2012 [7] Nguyễn Nhật An, Nghiên cứu, phát triển kỹ thuật tự động tóm tắt văn tiếng Việt, Luận án Tiến sỹ Tốn học, Viện Khoa học Cơng nghệ Quân sự, 2015 [8] Dhruv Mahajan, Ross Girshick, Vignesh Ramanathan, Manohar Paluri, Laurens van der Maaten, “Advancing state-of-the-art image recognition with deep learning on hashtags”, https://code.facebook.com/posts/1700437286678763/advancing-state-of-the-art-image-recognition-with-deeplearning-on-hashtags/ [9] Nguyễn Thị Trường Giang, Báo mạng điện tử - vấn đề bản, Nhà xuất Chính trị Quốc gia, 2014 [10] Hồng Anh, Những kỹ sử dụng ngơn ngữ truyền thông đại chúng, Nhà xuất Đại học Quốc gia Hà Nội, 2008 [11] Lê Thanh Hà, Cách thức tạo từ khóa (Keyword) báo điện tử Việt Nam, Luận văn Thạc sỹ chuyên ngành Báo chí học, Trường Đại học Khoa học xã hội Nhân văn, 2016 [12] Lâm Quang Tường, Phạm Thế Phi, Đỗ Đức Hào, Tóm tắt văn tiếng Việt tự động với mơ hình sequence-tosequence, Tạp chí Khoa học Trường Đại học Cần Thơ, pp.125-132, 2017 [13] Nguyễn Trí Nhiệm, Nguyễn Thị Trường Giang, Báo mạng điện tử - đặc trưng phương pháp sáng tạo, Nhà xuất Chính trị Quốc gia, 2014 [14] https://en.oxforddictionaries.com/ [15] Nguyễn Ngọc Duy, Phan Thị Tươi, Tóm tắt văn sở phân loại ý kiến độc giả báo mạng tiếng Việt, Tạp chí Phát triển KH&CN, Tập 19, số K5-2016, 2016 [16] https://github.com/vncorenlp THE FEATURES OF THE VIETNAMESE ONLINE NEWSPAPER IN TEXT SUMMARIZATION Le Ngoc Thang, Le Quang Minh ABSTRACT: Text auto summarization have been studied since the 1950s of the 20th century In Vietnamese language, it has only been focused on in the early years of the 21st century At this time, these studies are short, single and focused on the direction of extracting using the features of the English language Most of the results are tested in the online newspaper document However, up to now, there have not been many studies on the linguistic features of Vietnamese online newspaper document for the sentence extraction This article will study the features of Vietnamese online newspaper document and how to apply them in the pharse of automatic sentences extraction of text summarization ... loại văn báo mạng điện tử tiếng Việt chúng tơi xây dựng mơ hình để giải toán dựa đặc trưng riêng thể loại báo mạng điện tử Đối tượng nghiên cứu, xử lý báo văn báo mạng điện tử tiếng Việt II ĐẶC... ràng từ khóa từ gán nhãn có vai trị ngữ nghĩa quan trọng báo mạng điện tử MỘT SỐ ĐẶC TRƯNG TRONG TÓM TẮT VĂN BẢN BÁO MẠNG ĐIỆN TỬ TIẾNG VIỆT 332 2.2 Thực thể có tên Theo Nguyễn Trí Nhiệm, Nguyễn... trích rút 334 MỘT SỐ ĐẶC TRƯNG TRONG TÓM TẮT VĂN BẢN BÁO MẠNG ĐIỆN TỬ TIẾNG VIỆT Độ đo triệu hồi (recall) tỉ số số lượng câu trích rút hệ thống trùng với số câu mà người trích rút số câu lựa chọn