XÂY DỰNG HỆ THỐNG RÚT TRÍCH CÁC NỘI DUNG CHÍNH CỦA VĂN BẢN KHOA HỌC TIẾNG VIỆT DỰA TRÊN CẤU TRÚC

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	12
Dung lượng	725,52 KB

Nội dung

Tạp chí Khoa học Cơng nghệ 52 (3) (2014) 269-280 XÂY DỰNG HỆ THỐNG RÚT TRÍCH CÁC NỘI DUNG CHÍNH CỦA VĂN BẢN KHOA HỌC TIẾNG VIỆT DỰA TRÊN CẤU TRÚC Tạ Nguyễn1, Vũ Đức Lung2 Khoa Công nghệ thông tin, trường Đại học Lạc Hồng Trường Đại học Công nghệ thông tin – ĐHQG TP.HCM Email: nguyen@lhu.edu.vn, lungvd@uit.edu.vn Đến Tòa soạn: 21/8/2013; Chấp nhận đăng: 11/3/2014 TĨM TẮT Bài báo trình bày cách thức rút trích câu có nội dung quan trọng văn khoa học tiếng Việt dựa cấu trúc Hệ thống rút trích xây dựng dựa quy trình chặt chẽ mà báo đề xuất với việc áp dụng nhiều phương pháp khác việc tính tốn độ quan trọng thơng tin câu Kết thử nghiệm cho thấy kết hợp phương pháp độ đo cục toàn cục (TF.IDF) với cách đánh giá câu theo cách cộng dồn trọng số từ cho kết tốt Bước đầu thử nghiệm báo khoa học toàn văn báo cáo thuộc lĩnh vực Công nghệ thông tin cho kết có độ xác cao so với u cầu Từ khóa: rút trích, văn bản, ý chính, quy trình, trọng số từ, cấu trúc văn GIỚI THIỆU Đối với người làm nghiên cứu việc tìm kiếm tài liệu để tham khảo vấn đề vô quan trọng, khơng phải đọc lướt qua người ta nắm mà tác giả muốn nêu tài liệu Có nhiều thời gian để đọc hết tài liệu nhận tài liệu khơng phù hợp với mục tiêu tìm kiếm Khác với việc đọc tự rút cho ý tồn văn lâu người thường làm, điều khơng tránh khỏi chủ quan chọn lựa ý người có trình độ khác nhau, có chun mơn khác Trong đặc điểm văn khoa học văn bản, tác giả – nhà khoa học – ln mong muốn trình bày, chí khẳng định ý tưởng khoa học cụ thể [1] Với mục đích giúp người tiết kiệm thời gian việc tìm kiếm, sàng lọc tổng hợp thông tin cách khách quan kho tri thức khổng lồ nhân loại – Internet, báo muốn đề cập đến quy trình cho phép máy tính tự động rút trích ý từ văn tương đối xác mà cụ thể văn khoa học ngành công nghệ thơng tin báo khoa học tồn văn báo cáo Bên cạnh báo trình bày nhiều phương pháp thực khác việc tính độ quan trọng thông tin câu để đưa nhận xét đánh giá phương pháp tối ưu, từ đưa vào quy trình thực việc rút trích 269 Tạ Nguyễn, Vũ Đức Lung Vấn đề rút trích tự động ý văn nhận nhiều quan tâm nhà công nghệ thơng tin giới Có thể thấy rõ qua công cụ AutoSummarize phần mềm Microsoft Word tập đồn Microsoft Có thể nói sơ qua chế làm việc cơng cụ tính điểm cho câu chứa từ lặp lại nhiều lần Những câu nhiều điểm gợi ý đưa cho người dùng Tuy nhiên văn tiếng Việt cơng cụ cho kết khơng có tính xác cao Ngồi có số báo đề cập đến cơng trình nghiên cứu liên quan đến vấn đề xử lí ngơn ngữ tự nhiên việc rút trích tự động ý văn như: - Vấn đề Extracting Sentence Segments for Text Summarization: A Machine Learning Approach - tạm dịch rút trích phân đoạn câu phục vụ cho việc tóm tắt văn bản: phương pháp tiếp cận học máy - Wesley T.Chuang làm việc Computer Science Department, UCLA, Los Angeles, CA 90095, USA Jihoon Yang làm việc HRL Laboratories, LLC, 3011 Malibu Canyon Road, CA 90265, USA nghiên cứu [2] - Đề tài Automatic Evaluation of Summaries Using N-gram Co-Occurrence Statistics tạm dịch Đánh giá tự động phần tóm tắt sử dụng N-gram kết hợp với thống kê tần suất tác giả Chin-Yew Lin and Eduard Hovy vào năm 2003 [3] Các đề tài có ưu điểm định hầu hết đề tài tập trung xử lí ngơn ngữ tiếng nước ngoài, đa số văn tiếng Anh Để áp dụng cho tài liệu tiếng Việt khơng có độ xác mong muốn đặc điểm ngơn ngữ tiếng Việt phức tạp có nhiều điểm khác biệt so với ngơn ngữ khác Còn nước có cơng trình nghiên cứu Hồng Kiếm Đỗ Phúc đề tài Rút trích ý từ văn tiếng Việt hỗ trợ tạo tóm tắt nội dung dựa việc sử dụng hậu tố để phát dãy từ phổ biến câu văn bản, dùng từ điển để tìm dãy từ có nghĩa để giải vấn đề ngữ nghĩa từ Cuối dùng kĩ thuật gom cụm để gom câu văn hình thành vector đặc trưng cụm [1] Các đề tài làm vấn đề có ưu điểm định nó, nhiên phạm vi xử lí văn q rộng, khơng xác định cụ thể cho loại văn Nếu đầu vào truyện ngắn, tiểu thuyết hay báo khoa học thuộc lĩnh vực khác kết đầu có độ xác nào? Đó vấn đề mà với đề tài tập trung tìm hiểu vào loại hình tài liệu, văn khoa học ngành công nghệ thông tin nhằm đem lại kết có độ xác tốt với u cầu người dùng PHƯƠNG PHÁP RÚT TRÍCH Ý CHÍNH TRONG VĂN BẢN TIẾNG VIỆT Nghiên cứu cơng trình áp dụng phương pháp thống kê có cải tiến kết hợp học máy, thực đối tượng văn khoa học cụ thể nên tập trung khảo sát cấu trúc loại tài liệu, đưa số liệu thống kê vị trí thành phần quan trọng, xây dựng tập ngữ cố định dùng phân lớp câu để trích chọn trực tiếp huấn luyện từ chun ngành phục vụ cho việc tính tốn độ quan trọng câu Việc tính tốn độ quan trọng câu sử dụng hai phương pháp khác để từ đưa nhận xét phương pháp cho kết tối ưu Đồng thời cho phép người dùng rút trích ý văn theo tỉ lệ theo ngưỡng đó, ngưỡng điểm tối thiểu mà câu đánh giá tính điểm Tập câu kết sau trích chọn khơng xếp theo điểm quan trọng mà giữ nguyên trật tự văn gốc nhằm đảm bảo mạch ý tưởng trình bày tác giả văn Bên cạnh kết huấn luyện bổ sung tập liệu dùng cơng thức tính độ quan trọng câu 270 Xây dựng hệ thống rút trích nội dung văn khoa học tiếng Việt dựa cấu trúc 2.1 Quy trình rút trích ý đề xuất Hình Quy trình tổng qt rút trích ý văn khoa học 2.2 Phương pháp tách câu Câu nghiên cứu xem đơn vị văn bản, xác việc tách câu ảnh hưởng nhiều đến việc rút trích hay xử lí văn Chính module đóng vai trò quan trọng chương trình Dựa tập kí hiệu nhận dạng tách câu chương trình xử lí 271 Tạ Nguyễn, Vũ Đức Lung tách câu cho văn Các câu sau tách đưa vào kho chứa dùng để xử lí tiếp tục cho giai đoạn sau 2.3 Phương pháp tách từ Sử dụng mơ hình n-gram với n = kết hợp so khớp từ điển rút gọn để tách từ ghép có nghĩa văn bản, huấn luyện tài liệu đồng thời ghi nhận tổng số từ văn làm tham số đầu vào cho giai đoạn tính tốn Từ điển rút gọn từ điển chứa từ tiếng Việt có nghĩa cụm từ tách n-gram, cải tiến nhằm giảm bớt thời gian xử lí việc so khớp Sau có túi từ chương trình huấn luyện từ vào kho ngữ liệu dùng để phục vụ cho phần tính tốn sau 2.4 Rút trích dựa cấu trúc tài liệu Chương trình ghi nhận vị trí quan trọng mã câu sau tách câu, dựa vị trí quan trọng tập dấu hiệu nhận dạng cho phần quan trọng khảo sát từ trước Sau có vị trí nạp phần vào tập câu kết Lưu ý giai đoạn rút trích sở áp dụng cho loại tài liệu báo khoa học, tồn văn chương trình khơng rút phần quan trọng tồn văn mà đánh giá tất câu 2.5 Phân lớp câu Từ tập câu không rơi vào thành phần quan trọng đưa vào xử lí phân lớp câu Bộ xử lí dựa tập ngữ cố định nhấn mạnh phân lớp câu thành hai tập câu Một tập chứa câu mà có tồn ngữ cố định nhấn mạnh, tập lại khơng chứa ngữ nhấn mạnh Tập câu chứa ngữ nhấn mạnh đưa vào tập câu kết 2.6 Tính độ quan trọng từ 2.6.1 Công thức kết hợp độ đo cục toàn cục Hiện thuật tốn đánh giá từ khóa dựa kết hợp độ đo cục toàn cục TF.IDF (Term Frequency - Inverse Document Frequency) cho kết tốt Cách tiếp cận TF.IDF ước lượng độ quan trọng từ văn danh sách tập tài liệu văn cho trước Nguyên lí TF.IDF là: “độ quan trọng từ tăng lên với số lần xuất văn giảm xuống từ xuất nhiều văn khác” [4] Lí đơn giản từ xuất nhiều văn khác có nghĩa từ thơng dụng khả từ khóa giảm xuống (ví dụ từ “vì thế”, “tuy nhiên”, “nhưng”, “và”…) Do độ đo quan trọng từ t tài liệu f tính bằng: tf * idf, với tf độ phổ biến từ t tài liệu f idf nghịch đảo độ phổ biến từ t tài liệu lại tập tài liệu Được tóm tắt cơng thức tổng qt sau: Weightwi = tf * idf với tf = Ns(t)/ ∑w 272 Xây dựng hệ thống rút trích nội dung văn khoa học tiếng Việt dựa cấu trúc idf = log(∑d/(d:t d)) đó: Ns(t): Số lần xuất từ t tài liệu f; ∑w: Tổng số từ tài liệu f; ∑d = tổng số tài liệu; d:t d: số tài liệu có chứa từ t Ví dụ: Có văn gồm 100 từ, từ “máy tính” xuất 10 lần độ phổ biến: tf(“máy tính”) = 10 / 100 = 0,1 Bây giả sử có 1000 tài liệu, có 200 tài liệu chứa từ “máy tính” Lúc tính idf(“máy tính”) = log(1000 / 200) = 0.699 Như tính độ đo TF.IDF = tf*idf = 0.1 * 0.699 = 0.0699 Độ đo từ cao khả từ khóa lớn Hướng tiếp cận độ đo TF.IDF thông dụng 2.6.2 Cơng thức tính điểm thơng tin quan trọng ( Information Significant Score) Theo [5] độ quan trọng thơng tin, từ tiếng Việt thể qua cơng thức sau : đó: Ns(wi): số lần xuất wi văn gốc; ∑wi: Tổng số wi câu gốc; ND(wi): Tổng số văn huấn luyện có mặt wi; ND: Tổng số tài liệu huấn luyện (D) Trong công thức độ quan trọng thông tin từ xét câu so với tồn văn Để kiểm nghiệm tính đắn việc tính tốn độ quan trọng từ đề tài cài đặt hai công thức vào module đánh giá câu hệ thống, qua đưa nhận xét kết luận khả ứng dụng kết thực công thức 2.7 Đánh giá câu Theo Makoto [6] độ quan trọng câu trọng số từ câu tổng số từ câu định, theo cơng thức mà Makoto đưa sau : Score(W) = đó: N: tổng số từ câu; I(wn): trọng số từ; Với trọng số từ tính cơng thức TF.IDF nói Tuy nhiên cơng thức Makoto đưa áp dụng cho việc xử lí đánh giá câu khơng phải tiếng Việt Và theo đề tài dùng trọng số từ để tóm tắt văn tác giả R.C Balabantara cộng đăng International Journal of Computer Applications (0975 – 8887) vào năm 2012 [7] có ý tưởng tương tự tác giả Makoto Công thức mà đề tài tác giả R.C Balabantara [7] đưa sau : 273 Tạ Nguyễn, Vũ Đức Lung với Wts điểm câu, wti trọng số từ tính cơng thức tính độ đo cục kết hợp tồn cục n số từ có câu Qua thấy quan niệm hai tác giả đề tài [6] [7] giống Điều có nghĩa câu chứa từ chứa thơng tin quan trọng Lại có quan niệm câu có nhiều từ quan trọng câu xem quan trọng, điều có nghĩa độ quan trọng câu tổng điểm (tf*idf) từ câu Sau gọi quan niệm thông thường KẾT QUẢ VÀ ĐÁNH GIÁ 3.1 Thực nghiệm đánh giá kết EMIS (Extract Main Ideas System) Chương trình thực nghiệm xử lí báo khoa học có chủ đề “Nghiên cứu phát triển cơng cụ nhập điểm thơng qua nhận dạng giọng nói” Về thành phần quan trọng mặc định báo Chương trình rút trích phần quan trọng quy định ban đầu là: ‐ Chủ đề (Tên tài liệu) ‐ Tóm tắt ‐ Kết luận ‐ Cấu trúc tài liệu (Mục lục) Hình Rút trích thành phần quan trọng mặc định Qua hình thấy kết xử lí cho tài liệu xác với phần rút trích đầy đủ quy định 274 Xây dựng hệ thống rút trích nội dung văn khoa học tiếng Việt dựa cấu trúc Về việc xử lí đánh giá câu Lọc theo tỉ lệ % kết cho 13 câu có điểm cao (kể câu có ngữ cố định nhấn mạnh) Bảng Lọc kết theo tỉ lệ % Mã câu Nội dung Để khắc phục khó khăn việc nhập điểm tay trên, nghiên cứu phát triển công cụ hỗ trợ cho giáo viên việc nhập điểm, sử dụng giọng nói để thay cho việc nhập điểm tay Với công cụ phần mềm Sphinx, phần mềm mã nguồn mở chuyên cơng nghệ nhận dạng giọng nói đại học Carnegie Mellon University nghiên cứu phát triển, tiếng Anh ngơn ngữ Sphinx hỗ trợ tốt khả huấn luyện nhận dạng số ngôn ngữ khác có tiếng Việt 10 Sau nghiên cứu, chúng tơi tích hợp thành cơng cơng nghệ nhận dạng giọng nói Sphinx vào ứng dụng mình, hồn thành phần mềm VSMark có khả chuyển đổi giọng nói thành từ dạng điểm số xuất vị trí mong muốn 11 Phần mềm Vsmark có khả hỗ trợ nhập điểm cho tất phần mềm quản lí điểm với độ xác nhận dạng giọng nói đạt gần 100% giúp giáo viên cảm thấy dễ dàng, đơn giản đảm bảo xác nhập điểm vào hệ thống quản lí điểm khác 18 Vì thế, việc đưa giải pháp để thay cho việc nhập điểm tay nhu cầu khách quan, đưa giải pháp sử dụng giọng nói tự nhiên để thay cho việc nhập điểm tay trước 22 Đơn giản, dễ sử dụng, việc sử dụng giọng nói tự nhiên để nhập điểm gần gũi với sống ngày, người sử dụng dễ dàng tiếp thu sử dụng 37 Phần mềm có khả hỗ trợ cho hầu hết phần mềm quản lí điểm với độ xác nhận dạng đạt sĩ 100% có khả thích ứng với nhiều giọng nói khác 47 Chúng sử dụng công cụ Sphinx4-beta6 SphinxTrain-1.0.7 CMUclmtk-0.7 ngơn ngữ lập trình Java để hồn thành phần mềm VSMark 55 Xác định yêu cầu đặt trình nhập điểm phần mềm quản lí điểm 56 Tạo khả thích ứng với hệ thống quản lí điểm khác cho phần mềm hỗ trợ nhập điểm 67 Ngôn ngữ lập trình Java với Java Runtime JDK1.6.0 với cơng cụ hỗ trợ lập trình NetBean IDE 6.9.1 75 Tiến hành thử nghiệm phần mềm môi trường khác nhau: mơi trường văn phòng n tĩnh mơi trường có nhiều tạp âm (tiếng gió, tiếng trò chuyện) 117 Tiến hành thử nghiệm hai đối tượng sử dụng khác nhau, đối tượng thu âm sở liệu, đối tượng chưa thu âm Thật khó để đánh giá kết chưa có ứng dụng đánh giá tóm tắt văn tiếng Việt, để có nhìn khách quan tính đắn hệ rút trích xem xét tiêu chí với nhìn người đọc như: 275 Tạ Nguyễn, Vũ Đức Lung ‐ Câu phải chứa thơng tin cụ thể ‐ Lí thực đề tài ‐ Phương pháp thực ‐ Kết Đây tiêu chí mà người dùng quan tâm muốn tìm ý tài liệu khoa học Qua tiêu chí thấy: ‐ Các câu chứa thông tin cụ thể, không mơ hồ ‐ Lí thực đề tài: câu số 8, 18, 22 ‐ Phương pháp thực hiện: câu số 9, 10, 47, 55, 56, 67,75,117 ‐ Kết quả: câu số 11, 37 Như số câu mang tiêu chí 13/13 câu, tỉ lệ 100% Qua thấy kết sở để người dùng tham khảo đưa định, tỉ lệ thay đổi theo số lượng câu mà người dùng chọn ban đầu, tỉ lệ thay đổi để người dùng tham khảo thêm nhiều câu đến đưa định hay nhận biết nội dung tài liệu 3.2 Đánh giá kết thực nghiệm từ hai công thức sử dụng Trong đề tài chương trình sử dụng hai cơng thức, công thức TF.IDF công thức Information Significant Score [5] để đánh giá độ quan trọng cho câu Đây hai cơng thức có từ trước, việc định cơng thức phù hợp với tốn rút trích cơng thức cho độ xác cao thực nghiệm qua chương trình Bên cạnh với cơng thức tính độ đo cục toàn cục đề tài xét kết đánh giá câu theo hai quan niệm đề cập phần trước quan niệm thông thường quan niệm Makoto [6] Qua kết thực nghiệm đề tài nhận thấy để đạt kết tốt nên chọn lựa sử dụng phương pháp kết hợp độ đo cục toàn cục (TF.IDF) với cách đánh giá câu theo quan niệm câu chứa nhiều từ có độ quan trọng cao câu có độ quan trọng cao 3.3 Đánh giá kết người với kết EMIS (Extract Main Ideas System) Bảng kết rút trích 10 người học tập làm việc lĩnh vực công nghệ thông tin hệ thống rút trích ý (EMIS) tham gia xử lí tài liệu sau: Tài liệu 1: Xây dựng hệ thống mô phòng máy dùng quản lí hỏng hóc, sửa chữa tác giả Nguyễn Minh Sơn Phan Thị Hường, Hội nghị nghiên cứu khoa học, truờng Đại học Lạc Hồng, 2012 Tài liệu 2: Hệ thống điều khiển Robot di chuyển tự động theo mục tiêu màu ứng dụng Board DE2 tác giả Vũ Đức Lung, Trần Ngọc Đức Lê Phước Phát Đạt Đức Hội nghị nghiên cứu khoa học, truờng Đại học Công nghệ thông tin, Đại học Quốc gia TP.HCM, 2012 Tài liệu 3: Enrichment Computer Science Bibliography tác giả Đỗ Văn Tiến, Nguyễn Phước Cường Huỳnh Ngọc Tín, Hội nghị khoa học trẻ UIT 2011 Tài liệu 4: Build social networking location-based services on Windows Phone environments tác giả Đoàn Ngọc Nam, Trần Lễ Nhơn, Phạm Thi Vương, Hội nghị khoa 276 Xây dựng hệ thống rút trích nội dung văn khoa học tiếng Việt dựa cấu trúc học trẻ UIT 2011 Tài liệu 5: Một số vấn đề xử lí ngữ nghĩa dịch tự động ngôn ngữ tự nhiên tác giả Trương Xuân Nam Hồ Sỹ Đàm, công bố năm 2004 Bảng Chi tiết kết rút trích Chú thích: - n(S): n số câu người dùng rút trích S tập câu rút trích với số nguyên mã câu sau EMIS xử lí - Tập câu nêu cột “EMIS” bao gồm tất câu EMIS rút xếp giảm dần theo điểm quan trọng - Các câu in đậm câu nằm thành phần quan trọng EMIS rút nên mặc định tính trùng khớp với EMIS - Các câu mà EMIS rút bảng không bao gồm câu phần tóm tắt kết luận báo khoa học – thành phần đặc biệt quan trọng mặc định rút trích Cách thức đánh giá - Kết đánh giá theo số lượng câu mà người dùng rút để bảo đảm tính khách quan Ví dụ người dùng rút 12 câu lấy 12 câu có điểm cao mà EMIS xử lí để so sánh, người dùng rút câu lấy câu điểm cao EMIS để so sánh 277 Tạ Nguyễn, Vũ Đức Lung Sau bảng kết so sánh người EMIS Bảng Kết tỉ lệ rút trích người EMIS Chú thích: m/n: m số câu rút trùng khớp người dùng EMIS, n tổng số câu dùng so sánh Nhận xét Qua bảng thấy người tham gia khảo sát có khác biệt nhiều việc rút trích, người ý, câu quan trọng với người lại ý nghĩa với người khác Qua thấy phức tạp vấn đề rút trích, ngồi việc đáp ứng gần 100 % tiêu chí báo đề cập phần đánh giá kết xử lí tổng qt việc đáp ứng phía người dùng vơ quan trọng Qua bảng nhận thấy tổng số câu mà người dùng rút hay nói cách khác tổng số câu mà người dùng xem ý 565 câu có 304 câu trùng khớp với câu mà EMIS rút trích Như tỉ lệ trùng khớp 53,81 % Cũng cần nói thêm [7] cơng bố năm 2012, cách đánh giá [7] tương tự tác giả cho kết trung bình khoảng 60 % có hai khác biệt lớn so với báo này: - [7] xử lí ngơn ngữ tiếng Anh - Độ nén [7] thấp nhiều so với báo Trong khảo sát mà [7] trình bày việc rút trích đoạn văn khoảng 10 câu, rút từ - câu, độ nén khoảng 30 – 50 % Trong với báo xử lí báo khoa học tồn văn số lượng câu lớn nhiều, báo (trung bình khoảng 200 câu) độ nén khoảng từ – 10 %, tồn văn (trung bình khoảng 1800 câu) độ nén thấp từ – % Chính xác suất xử lí báo khơng thể lớn việc xử lí số lượng câu nhiều Hay nói việc chọn câu 100 câu xác suất trùng khớp khó mà cao việc chọn câu 10 câu Cho nên nói với tỉ lệ xử lí 53,81 % kết chấp nhận nhóm tác giả tiếp tục xây dựng thêm kho ngữ liệu qua việc huấn luyện cập nhật để nâng cao tính xác hệ thống KẾT LUẬN Bài tốn tóm tắt văn khơng phải vấn đề giới, có nhiều đề tài nghiên cứu vấn đề Nhưng đến chưa có hệ tóm tắt văn tiếng Việt 278 Xây dựng hệ thống rút trích nội dung văn khoa học tiếng Việt dựa cấu trúc hoàn chỉnh đạt độ xác mong muốn, phần phức tạp tiếng Việt, phần miền giá trị xử lí số đề tài rộng không đảm bảo độ xác mong muốn Với báo này, chúng tơi hy vọng đem đến quy trình rút trích cho thể loại văn cụ thể dựa đặc trưng ngôn ngữ tiếng Việt, cấu trúc tài liệu đồng thời thử nghiệm phương pháp áp dụng thành công với tiếng Anh vào việc xử lí tiếng Việt Từ đưa đánh giá đề xuất quy trình rút trích ý mà sử dụng phương pháp cho kết tốt Kết thực nghiệm khảo sát cho thấy mức độ xác việc rút trích máy dựa quy trình đề xuất so với tiêu chí đề tốt so với người chấp nhận được, bước đầu tạo tiền đề xây dựng hệ tóm tắt văn tiếng Việt hồn chỉnh với độ xác cao Sau trình nghiên cứu thực hiện, báo đạt kết sau: ‐ Tìm hiểu hệ thống rút trích ý văn tiếng Việt dựa tốn tóm tắt văn tự động ‐ Tìm hiểu tốn tách từ, tách câu tiếng Việt từ xây dựng module tách từ sử dụng mơ hình n-gram kết hợp so khớp từ điển rút gọn đem lại kết tách từ xác, tham gia vào việc huấn luyện tài liệu phục vụ cho việc tính tốn độ quan trọng từ câu ‐ Xây dựng xử lí tính tốn độ quan trọng câu dựa nhiều phương pháp khác nhau, so sánh đánh giá kết để chọn phương pháp tốt ‐ Xây dựng kho liệu ngữ cố định nhấn mạnh, ngữ cố định dư thừa phục vụ cho việc lọc phân lớp câu ‐ Xây dựng quy trình rút trích ý văn tiếng Việt với giai đoạn chặt chẽ kết rút trích với độ xác tốt ‐ xuất Xây dựng chương trình rút trích ý văn khoa học thể quy trình đề Hướng phát triển tiếp nhóm tác giả báo này: ‐ Phát triển thêm kho ngữ liệu ngữ cố định nhấn mạnh, ngữ cố định dư thừa từ ghép chuyên ngành để tăng thêm độ xác việc tính tốn độ quan trọng câu ‐ Cải thiện thuật tốn phân lớp tính tốn câu để tăng tốc độ xử lí cho hệ thống ‐ Mở rộng xử lí rút trích thêm lĩnh vực khác TÀI LIỆU THAM KHẢO Đỗ Phúc Hoàng Kiếm - Rút trích ý từ văn tiếng Việt hỗ trợ tạo tóm tắt nội dung, Tạp chí Bưu Chính Viễn thơng, Chun san Cơng trình nghiên cứu triển khai Viễn thông Công nghệ Thông tin 13 (2004) Wesley T Chuang and Jihoon Yang - Extracting Sentence Segments for Text Summarization: A Machine Learning Approach, SIGIR '00 Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval (2000) 152-159 Chin-Yew Lin and Eduard Hovy - Automatic Evaluation of Summaries Using N-Gram Co-Occurrence Statistics, NAACL '03 Proceedings of the 2003 Conference of the North 279 Tạ Nguyễn, Vũ Đức Lung American Chapter of the Association for Computational Linguistics on Human Language Technology (2003) 71-78 Nguyễn Quý Minh - Xây dựng công cụ quảng cáo theo ngữ cảnh tiếng Việt, Luận văn thạc sĩ ngành Khoa học máy tính – Trường Đại học Khoa học tự Nhiên, TP Hồ Chí Minh, 2009 tr 78 Ha Nguyen Thi Thu and Quynh Nguyen Huu - Concatenate the Most Likelihood Substring for Generating Vietnamese Sentence Reduction, IACSIT International Journal of Engineering and Technology (3) (2011) 203-207 Makoto Hirohata et al - Sentence extraction-based presentation summarization techniques and evaluation metrics, Acoustics, Speech, and Signal Processing, (ICASSP '05) IEEE International Conference (2005) 1065-1068 Balabantara R C et al - Text Summarization using Term Weights, International Journal of Computer Applications 38 (1) (2012) 0975-8887, 10-14 ABSTRACT EXTRACTING THE MAIN CONTENT OF VIETNAMESE SCIENTIFIC DOCUMENTS BASED ON THE STRUCTURE Ta Nguyen1, Vu Duc Lung2 Department of Information Technology,Lac Hong Universit, 10 Huynh Van Nghe Street, Buu Long Ward, Bien Hoa City, Dong Nai Province University of Information Technology, Vietnam National University - Ho Chi Minh city, Ward 6, Thu Duc District, Ho Chi Minh City Email: nguyen@lhu.edu.vn, lungvd@uit.edu.vn This paper presents how to extract the main content in Vietnamese scientific documents based on their structure In order to build this extraction system we proposed a strict process using different methods to evaluate the importance of the information of each sentence The experimental results show that combining Term Frequency - Inverse Document Frequency method (TF.IDF) and Makoto Hirohata method gives us the best results Our initiative tests only on full-text scientific papers and reports in information technology field, which are usually very long, offer a comparative extraction accuracy Keywords: extract, main content, extracting process, word weight, document structure 280

Ngày đăng: 08/01/2018, 16:14