(TIỂU LUẬN) khai thác văn bản (text mining) là một quá trình xử lý và trích xuất thông tin hữu ích và quan trọng nằm trong văn bản

1 Định Nghĩa Khai thác văn (text mining) q trình xử lý trích xuất thơng tin hữu ích quan trọng nằm văn Các văn định dạng tài liệu không đồng nhất, chẳng hạn trang web, email, đăng mạng xã hội, báo tạp chí, v.v Ứng Dụng Khai thác văn có nhiều ứng dụng Ví dụ: khai thác văn giúp tìm cơng nghệ sáng tạo số miền định Đây phương pháp hiệu để tạo thông tin kiến thức Phương pháp cho phép công ty cắt giảm thời gian dành cho việc đọc văn lớn đoạn trích văn học Điều có nghĩa tài nguyên quan trọng tìm thấy nhanh hiệu Nó cho phép người dùng có thơng tin mà khơng khó tìm thấy Cơng nghệ khai thác văn nhiều người dùng, từ tổ chức phủ, quan nghiên cứu doanh nghiệp áp dụng rộng rãi cho nhu cầu hàng ngày họ Dưới số ví dụ việc sử dụng lĩnh vực khác nhau: Nghiên cứu: v.d khám phá kiến thức, y tế / chăm sóc sức khỏe - trước đây, nhà nghiên cứu người phải nhiều thời gian để phân tích thu thập thơng tin liên quan Trong số trường hợp, thơng tin chí khơng thể truy xuất Khai thác văn cho phép nhà nghiên cứu tìm thêm thơng tin theo cách nhanh hiệu Doanh nghiệp: v.d quản lý rủi ro, lọc hồ sơ - Các công ty lớn sử dụng khai thác văn để giúp đưa định nhanh chóng trả lời truy vấn khách hàng sử dụng để tạo liên kết khách hàng tiềm sản phẩm cho mục đích tiếp thị Bảo mật: v.d chống khủng bố - phân tích khai thác văn blog nguồn văn trực tuyến khác sử dụng để ngăn chặn tội phạm internet chống gian lận Hàng ngày, ví dụ: lọc thư rác, phân tích liệu mạng xã hội - khai thác văn sử dụng trang web email để tạo phương pháp lọc đáng tin cậy hiệu Nó sử dụng cho mục đích truyền thơng xã hội cách xác định mối quan hệ người dùng sản phẩm định để xác định ý kiến người dùng chủ đề cụ thể Quy Trình Khai thác văn chia thành năm bước Thu thập: Thu thập liệu từ nguồn khác nhau, chẳng hạn trang web, email, nhận xét khách hàng, tệp tài liệu Tùy thuộc vào ứng dụng, q trình hồn tồn tự động hướng dẫn trình khai thác văn Tiền xử lý: chẳng hạn xác định nội dung / trích xuất tính đại diện Dọn dẹp văn bản: xóa thơng tin khơng cần thiết khơng mong muốn, chẳng hạn xố quảng cáo khỏi trang Mã hóa: máy tính 'nhìn thấy' chuỗi ký tự, chẳng hạn xác định đoạn văn, câu từ Tokenization chia văn thành thực thể có nghĩa (từ, câu, v.v.) cung cấp cho khoảng trắng dấu chấm câu Trích xuất đặc trưng (cịn gọi lựa chọn thuộc tính): q trình mơ tả đặc điểm văn để có tập hợp phép đo định lượng Ví dụ tần số xuất từ văn bản, loại từ, thơng tin cú pháp Các tính sau sử dụng để xử lý thêm Chỉ mục: Tạo mục thuật ngữ định, vị trí số lượng chúng Điều cho phép truy cập nhanh cấu trúc liệu xử lý Khai thác: Ở bước này, văn xử lý trước cách 'khai thác' Vì vậy, chúng tơi áp dụng kỹ thuật khám phá liệu khác để tiết lộ kiến thức Ví dụ, điều bao gồm việc xác định đề cập đến thuật ngữ cụ thể, liên kết thuật ngữ với từ điển từ đồng nghĩa để phân biệt xác định mối quan hệ thuật ngữ khác Phân tích: Các bước khai thác tạo kết thô Những điều cần đánh giá hình dung để chúng giải thích câu hỏi mà người khai thác văn muốn điều tra 3.1 Thực Tiễn Một ví dụ minh họa quy trình khai thác văn bản: Tưởng tượng đơn vị hành cấp phường xã muốn cập nhật tình trạng nhân người dân địa bàn Trong có hạng mục, xét tình trạng nhân thơng qua án nhân gia đình tồ xét xử Tức trường hợp án cho phép bị đơn nguyên đơn ly hơn, tình trạng nhân bị đơn nguyên đơn độc thân ngược lại kết Đầu tiên, nhóm cần thu thập tất án hôn nhân từ trang web pháp luật, trang web nhận kết tồ án Vì có hàng trăm nghìn văn internet, nhóm khơng muốn tải chúng xuống theo cách thủ công Vì vậy, cần phần mềm để thu thập liệu web, tải xuống án mà tìm thấy xếp chúng sở liệu thích hợp Thứ hai, nhóm muốn tiền xử lý tài liệu thu thập để công cụ (bước đến bước 5) hoạt động hiệu Ví dụ: nhóm muốn xố quảng cáo, menu trang web, mã nguồn khỏi trang web HTML chuyển tài liệu định dạng văn bản, thống tên văn theo thời gian, địa điểm… Sau đó, nhóm muốn tính tốn số đặc điểm (trích xuất tính năng) cho sưu tập án Ví dụ: muốn biết số lượng từ án Để có số lượng từ này, trước tiên cần phải chia văn (chuỗi ký tự) thành từ (mã hóa) Chúng ta xem xét cách trích xuất số thống kê từ kho ngữ liệu, chẳng hạn số lượng câu, v.v cách sử dụng mã hóa Những thống kê sau sử dụng để thiết lập số tham số mơ hình Ở bước thứ ba, nhóm muốn tạo mục Ví dụ, để liệt kê từ tìm thấy văn Bạn coi mục lục sách Nếu khơng có mục, khó để xác định thông tin chủ đề cụ thể Nhưng với mục, việc tìm kiếm tìm kiếm dễ dàng nhanh chóng nhiều Ở đây, giả sử muốn tra xem tình trạng nhân người có tên A sau muốn biết án người này, việc đánh mục giúp dễ dàng truy ngược, tìm lại án tình trạng nhân với câu truy vấn tên người cần tìm Sau đó, bước thứ tư, nhóm muốn khai thác văn để trích xuất tình trạng nhân ngun đơn bị đơn từ mục tiêu tóm tắt văn để rút trích thơng tin quan trọng án tồ án khơng đồng thuận hay cho phép hai bên ly Trong trường hợp này, trình nhận dạng thực thể cố gắng nhận câu đề cập đến nguyên đơn, bị đơn, chấp thuận, đồng ý, ly hơn, khơng cơng nhận Sau đó, bước thứ năm, nhóm muốn thực phân tích Trong trường hợp kết bước thứ tư cho thấy tồ đồng thuận ly Ta cập nhật tình trạng nhân ngun đơn bị đơn độc thân Thu thập liệu 4.1 Xác định liệu cần thu thập Đầu tiên cần xác định liệu cần thu thập thuộc dạng sơ cấp hay thứ cấp lựa chọn phương pháp tiếp cận cho phù hợp Dữ liệu sơ cấp liệu chưa có sẵn, thu thập lần đầu, người nghiên cứu thu thập Trong thực tế, liệu thứ cấp không đáp ứng u cầu nghiên cứu, khơng tìm liệu thứ cấp phù hợp nhà nghiên cứu phải tiến hành thu thập liệu sơ cấp Trong phạm vi đề tài liệu thuộc dạng thứ cấp thu thập thơng qua nguồn tin lưu trữ công bố công khai Các nguồn liệu lưu trữ phát hành dạng có trả phí khơng có trả phí 4.2 Các nguồn thu thập liệu Trước tiến hành thu thập liệu thứ cấp ta cần kiểm tra tính khả dụng liệu, có phép sử dụng liệu cơng khai cho mục đích nghiên cứu hay khơng Đối với liệu phạm vi tiểu luận thu thập thơng qua nguồn thông tin sau Tất phù hợp với mục đích nghiên cứu đề tài 4.3 - Thư viện lưu trữ - Trang báo cung cấp thông tin - Diễn đàn cộng đồng - Mạng xã hội Chuyển văn liệu văn thành dạng chữ Các liệu sau thu thập đa số lưu trữ định dạng pdf, docx Nên cần trích xuất nội dung văn thành dạng text để sử dụng bước Tokenizing Text Token hóa trình mà số lượng lớn văn chia thành phần nhỏ Tách từ q trình xử lý nhằm mục đích xác định ranh giới từ câu văn, hiểu đơn giản tách từ trình xác định từ đơn, từ ghép… có câu Đối với xử lý ngơn ngữ, để xác định cấu trúc ngữ pháp câu, xác định từ loại từ câu, yêu cầu thiết đặt phải xác định đâu từ câu Vấn đề tưởng chừng đơn giản với người máy tính, tốn khó giải Chính lý tách từ xem bước xử lý quan trọng hệ thống Xử Lý Ngôn Ngữ Tự Nhiên, đặc biệt ngôn ngữ thuộc vùng Đơng Á theo loại hình ngơn ngữ đơn lập, ví dụ: tiếng Trung Quốc, tiếng Nhật, tiếng Thái, tiếng Việt Với ngơn ngữ thuộc loại hình này, ranh giới từ không đơn giản khoảng trắng ngơn ngữ thuộc loại hình hịa kết tiếng Anh…, mà có liên hệ chặt chẽ tiếng với nhau, từ cấu tạo nhiều tiếng Vì ngôn ngữ thuộc vùng Đông Á, vấn đề toán tách từ khử nhập nhằng ranh giới từ Các hướng tiếp cận: Một cách tổng qt thấy tốn tách từ có phương pháp tiếp cận : ● Tiếp cận dựa vào từ điển cố định ● Tiếp cận dựa vào thống kê túy ● Tiếp cận dựa hai phương pháp Các phương pháp sử dụng: ● So khớp từ dài (Longest Matching) ● So khớp cực đại (Maximum Matching) ● Mơ hình Markov ẩn (Hidden Markov Models- HMM) ● Học dựa cải biến (Transformation-based Learning – TBL) ● Chuyển đổi trạng thái trọng số hữu hạn (Weighted Finite State Transducer – WFST) ● Độ hỗn loạn cực đại (Maximum Entropy – ME) ● Máy học sử dụng vectơ hỗ trợ (Support Vector Machines) ● Trường xác suất có điều kiện (CRFs) ● Ngồi cịn kết hợp phương pháp Đối với tiếng Việt, có cơng cụ tách từ vnTokenizer phát triển đề tài A hybrid approach to word segmentation of Vietnamese texts Lê Hồng Phương Độ xác đạt 97% Và ví dụ nhóm, việc tách từ thực thư viện NLTK Python Index Chỉ mục cấu trúc liệu quan trọng làm tảng cho tất hệ thống truy xuất thông tin đại, từ hệ thống chạy máy tính xách tay đơn lẻ hay cơng cụ tìm kiếm thương mại lớn Một mục cấu trúc liệu khai thác ma trận thưa sau thực tiền xử lý liệu cho phép thực truy xuất hiệu Với thuật ngữ, từ lưu trữ thành danh sách tất tài liệu có chứa từ đó, danh sách gọi Dictionary Mỗi tài liệu xác định số docID, ví dụ ta gọi tài liệu ,2… Với tài liệu có chứa từ liệt kê thành danh sách gọi postings Và với truy vấn, ta gọi văn phù hợp có chứa truy vấn Word Embedding Sau tiền xử lý liệu, để máy tính hiểu câu chữ hay từ ngữ phải chuyển đổi sang dạng số Các phương pháp gọi học cách diễn đạt văn (text presentations) Trong năm gần đây, phương pháp biểu diễn word embedding chiếm ưu phổ biến Tập nhúng từ (word embedding) tên chung cho tập hợp mơ hình ngơn ngữ phương pháp học đặc trưng xử lý ngôn ngữ tự nhiên (NLP), nơi từ cụm từ từ vựng ánh xạ tới vectơ số thực Một cách khái quát, phương pháp liên quan đến việc nhúng toán học từ không gian tới không gian khác, với chiều cho từ chuyển vào không gian vectơ liên tục nơi có số chiều thay đổi Bắt đầu với One-hot encoding - phương pháp biến đổi word embedding, biến đổi từ vựng thành ma trận nơi mà từ thành vector có giá trị nơi vị trí từ tương ứng phần cịn lại Trong dự án nhóm sử dụng phương pháp hướng chuyển đổi câu, từ thành vector đầu tiên, tạo kết sở One-hot encoding phương pháp dễ tiếp cận, tồn nhiều hạn chế ví dụ giới hạn số từ lớn hay không hiểu ý nghĩa liên quan từ… Từ đây, có nhiều phương pháp phát triển dựa tảng để cải thiện khả encode, hướng tiếp cận đến từ việc cải thiện trình xử lý liệu (ví dụ cách nhóm từ khâu tokenizing) mà cịn thuật tốn học chuyển đổi Ta chia thành nhóm chính: 7.1 - Embedding dựa tần suất (frequency-based) - Embedding dựa dự đoán (prediction-based) Embedding dựa tần suất Embedding dựa tần suất (Frequency-based) dựa vào tần số xuất từ để tạo vector từ, có loại phổ biến nhất: - tf-idf Vector (term frequency - and inverse document frequency) giúp có thêm thông tin tần số xuất từ toàn tập liệu Về ý tưởng bản, ngữ cảnh ảnh hưởng xác định, phương pháp hiểu từ xuất nhiều văn giá trị nhỏ hay tính phân loại thấp Do đó, phương pháp không lấy thông tin mặt ngữ cảnh - Co-occurrence Matrix giúp cải thiện vấn phần vấn đề trên, cách trích xuất mối quan hệ ngữ nghĩa dựa số lần xuất cặp từ khung ngữ cảnh (context windows), khung ngữ cảnh định nghĩa với kích thước hướng khác Hạn chế phương pháp ma trận thường lớn cần kết hợp với phương pháp giảm chiều ma trận SVD (Singular Value Decomposition) hay rộng phương pháp phân tích LDA (Latent Dirichlet Allocation) 7.2 - Embedding dựa dự đoán Prediction-based Embedding xây dựng vector từ dựa vào mơ hình học sâu để dự đốn Tiêu biểu Word2vec, kết hợp mơ hình: CBOW (Continuous Bag Of Words) Skip-gram Cả hai mơ hình xây dựng dựa mạng neuron gồm lớp: Input Layer đến Hidden Layer Output Layer Sự kết hợp mô hình CBOW hoạt động dựa cách thức dự đoán xác suất từ đưa theo ngữ cảnh (một ngữ cảnh gồm nhiều từ), mơ hình Skip-gram có đồng cấu trúc có luồng thơng tin ngược lại giúp dự đoán ngữ cảnh từ đưa vào, cho phép Word2vec mạng neuron có khả học trọng số biểu diễn vector từ theo ngữ cảnh xác thực - Bên cạnh có GloVe (Global Vectors) kết hợp phương pháp đếm phương pháp dự đốn Cấu trúc mơ hình cho phép tính tốn tốn thống kê ngữ liệu học hay huấn luyện bới gradient descent Tổng quan tính tốn mà nói GloVe thực tính tốn xác suất từ dựa tồn tập liệu Word2vec học dựa ngữ cảnh đơn lẻ, lý mà GloVe có trội Word2vec mơ hình khác việc giải số tốn về: ngữ nghĩa, nhận dạng thực thể có gắn tên,vv… Ngồi ra, GloVe có độ ổn định trung bình tốt Word2vec, độ ổn định độ biến thiên kết hai lần ta thực việc học với điều kiện xác định (cùng liệu, tham số, điều kiện phần cứng, …) Ngồi ra, có mạng pretrained encoder mạng deep learning huấn luyện sẵn liệu lớn ngôn ngữ, giúp việc encode chuyển đổi từ từ ngữ sang vector số tốt, từ ngữ chuyển đổi giữ ý nghĩa ngữ cảnh Một số ví dụ là: Bert - mạng huấn luyện chiều với chế tập trung ý thông minh cho ngữ cảnh từ liên quan, mạng nhóm VinAI huấn luyện tập liệu Tiếng Việt gọi PhoBert Cuối cùng, Word Embedding giúp tạo vector từ mà dựa vào ta áp dụng chúng để thực thao tác ngữ nghĩa tìm từ đồng nghĩa, trái nghĩa,… Ngoài ra, chúng nguồn tài nguyên cho hệ thống Machine Learning, Deep Learning nhằm thực mục đích cao hệ thống máy dịch, phân tích cảm xúc dựa ngơn từ, hay hệ thống tóm tắt văn nhóm chúng tơi thực dự án Tóm Tắt Văn Bản 8.1 Phương Pháp Tóm Tắt Trích Xuất Extractive Summarization hay phương pháp tóm tắt trích xuất, phương pháp xác định thành phần quan trọng văn mục tiêu không tạo văn Thông thường bao gồm việc lấy cụm từ hay câu từ tài liệu thực tế mà chúng đại diện cho cụm từ hay câu cịn lại, kết hợp cụm từ để tạo thành tóm tắt ngắn gọn Các tính chất tóm tắt trích xuất: - Thuật toán dễ tiếp cận diễn giải sinh văn tóm tắt - Nhiều phân tích liên quan từ với phần Tokenization - Chỉ lọc câu hay cụm từ văn mục đích, khơng có diễn giải lại cách viết lại câu khác - Các mơ hình có tính linh hoạt tinh chỉnh cập nhật từ khóa cần nhiều đóng góp kiến thức chuyên gia Có hướng tiếp cận sau: - Các phương pháp Tìm từ chủ đề (Topic words), Ma trận từ thường xuyên (Frequency-matrix), Mơ hình xác suất có điều kiện Bayes, Mơ hình hóa ngữ cảnh (Concept modelling) có ý tưởng chung phân tách tính điểm cho từ câu cách sử dụng phương pháp giảm chiều (LDA, SVM, ) hay phân cụm (K-means, Gaussian Mixture clustering, ), từ sinh đoạn văn tóm tắt từ cụm từ hay câu chọn Các phương pháp thường phụ thuộc nhiều q trình mã hóa (tokenizing) hay nhúng chuyển đổi (embedding), thơng tin vector đại diện chuyển đổi cách xác nhiều thơng tin thuật tốn chấm điểm đưa kết đáng tin cậy - Graph Based Approach - hướng tiếp cận dựa lý thuyết đồ thị, ý tưởng hình thành độ thị điểm cụm từ hay câu để tìm độ giống cụm từ câu này, sau chọn nhóm để tạo văn tóm tắt Các thuật tốn tiêu biểu là: TextRank, hay phân tích thành phần Fuzzy Hiện nay, thuật toán TextRank tối ưu với việc huấn luyện qua mơ hình học sâu tập liệu gắn nhãn với tên gọi RankNet, cho kết tóm tắt cải thiện nhiều góc độ nghiên cứu Trên nhóm thuật tốn đại diện cho phương pháp tóm tắt trích xuất, ngồi cịn có nhiều nhóm khác lĩnh vực Trong dự án nhóm chúng tơi chọn nhóm tiếp cận phương pháp gom nhóm (clustering based) để thực tóm tắt văn mục tiêu đưa văn tóm tắt Bên cách nhờ vào mạnh mạng học sâu đào tạo BertSum hy vọng đưa kết tóm tắt khả quan Nhìn chung, thuật tốn nằm nhóm phân loại Unsupervised Learning Methods - Học không giám sát (khi mà chưa có chuẩn đầu cho văn tóm tắt) Vì vậy, với góc nhìn khác quan kết thuật tốn hay mơ hình đánh giá dựa ý kiến người đọc hay chuyên gia 8.2 Phương Pháp Tóm Tắt Trừu Tượng Abstract Summary hay cịn gọi phương pháp tóm tắt trừu tượng, phương pháp cho phép tạo văn tóm tắt dựa thơng tin ngữ cảnh đọc văn mục đích Văn tóm tắt dùng từ ngữ, văn phạm hoàn toàn chưa xuất văn mục tiêu Các tính chất tóm tắt trừu tượng: - Thuật tốn phức tạp khó giải thích lý sinh văn tóm tắt - Cho phép sinh văn tóm tắt với ý nghĩa tóm tắt hay diễn giải từ ngữ văn phạm khác - Thuật tốn linh hoạt tóm tắt nhiều chủ đề khác mà khơng cần cập nhật từ khóa… kiến thức chuyên gia cần thiết - Văn phạm tóm tắt giống với người Có hướng tiếp cận sau: - Các phương pháp tóm tắt trừu tượng dựa kiến trúc như: phương pháp họ Cây phân tách (tree based), phương pháp tiếp cận dựa thể học (Ontology based) phương pháp dựa quy tắc (rule based) Tổng quan, phương pháp cần nhiều kiến thức chuyên gia khả phân tách tìm đặc trưng Các phương pháp thiết lập hệ quy tắc từ sinh văn tóm tắt trừu tượng có khả trùng lặp quy tắc khơng đủ lớn - Các phương pháp tóm tắt trừu tượng dựa ngữ nghĩa có bước tiến lớn giai đoạn 2010-2020, với tảng thuật toán học sâu ngày phát triển giúp thực hóa khả hiểu rõ ngữ nghĩa hay ngữ cảnh từ xác định Các tiêu biểu nhóm thường dựa theo mạng học sâu gồm Mã hóa Giải mã (Encoder-Decoder), với mục tiêu tạo mạng học sâu có khả mã hóa để hiểu văn mục đích mức cụm từ ngữ cảnh nó, sau tiếp tục học cách giải mã vector thành cụm từ cấu thành văn tóm tắt gán nhãn xác định, kiến trúc gọi seq2seq (câu sang câu) Trong dự án thời gian hạn chế thời gian nhóm chúng tơi khơng thực nghiệm phương pháp Thực Nghiệm Trong dự án thực nghiệm thuật tốn tóm tắt Embedding based Clustering Dữ liệu: Bộ 100 văn án pháp luật nhân gia đình Q trình thực nghiệm gồm bước: Văn mục tiêu xử lý qua phương pháp tokenizer để tách câu hay đoạn từ ngữ theo mục đích, hồn thành bước danh sách câu xử lý Ngoài ra, thông qua xử lý rút phần thông tin thông qua việc tạo từ khóa tìm kiếm chúng câu a “key extractor 1” từ khóa giúp xác định thành phần văn bản: Phần mở đầu văn gồm thông tin nhân vật có buổi tranh kiện, nội dung hay vấn cần tịa án xét xử, Phần thân văn bảo gồm vấn đề cần nêu buổi tranh kiện ví dụ vấn đề tài sản, đền bù, … mà nhân vật tham gia tranh chấp Phần cuối kết luận tòa án b “key extractor 2” từ khóa giúp tìm kiếm cụ thể phần cần rút văn Ví dụ từ [nguyên đơn, người tố tụng, có mặt, nạn nhân] giúp tìm nguyên đơn án c Ngồi phần trích qua “key extractor 2” phần lớn văn lại, phân thành mục tiêu thông tin khác đưa tiếp qua bước để xử lý tóm tắt Ở bước này, câu chuyển thành vector số thực thông phương pháp bước Embedding, cụ thể sử dụng Glove hay PhoBert để có vector số thực tốt cho nhóm từ cụ thể tiếng Việt Sau có danh sách vector đưa qua tiếp thuật tốn clustering Ở phần nhóm chúng tơi sử dụng thuật tốn k-means gaussian mixture để xác định vectơ trung tâm đại diện cho vectơ cịn lại 4 Cuối việc nhóm vector đại diện văn mục tiêu văn tóm tắt Nhóm chúng tơi sử dụng tinh chỉnh source code mở dmmiller61 code xây dựng theo quy trình tóm tắt văn trên: - Mơ hình embedding sử dụng phobert-large mã nguồn mở công bố VinAI, mơ hình học sâu huấn luyện giúp giải mã tiếng Việt liệu huấn luyện nguồn mở Wiki tiếng Việt, giúp kết giải mã vecto khả quan 9.1 Kết Sau kết tóm tắt phần nguyên nhẫn dẫn đến nhu cầu tòa án xử lý: Văn mục tiêu: “anh nguyễn văn b kết hôn với chị nguyễn thị h 02 tháng 12 năm 1989 Hai người kết hôn sở tự nguyện tìm hiểu có đăng ký kết uỷ ban nhân dân xã m huyện th tỉnh b sau tổ chức lễ kết hôn chị h chung sống tình cảm vợ chồng ban đầu hồ thuận hạnh phúc năm 1998 anh bị tai nạn lao động 95% sức khoẻ năm 2007 vợ chồng phát sinh mâu thuẫn nguyên nhân mâu thuẫn sức khỏe anh yếu chị h khơng chăm sóc quan tâm anh năm 2009 anh đuổi chị h vợ chồng ly thân chấm dứt quan hệ từ đến năm 2010 chị h có đơn ly anh tịa án nhân dân huyện thuận thành xử bác đơn ly hôn anh xác định tình cảm vợ chồng khơng cịn mục đích nhân khơng đạt nên anh đề nghị tồ án giải cho anh ly với chị nguyễn thị h.” Văn tóm tắt - phương pháp Kmeans: “anh kết hôn với chị nguyễn thị h 02 tháng 12 năm 1989 có đăng ký kết hôn uỷ ban nhân dân xã m huyện th tỉnh b sau tổ chức lễ kết hôn chị h chung sống năm 1998 anh bị tai nạn lao động 95% sức khỏe nguyên nhân mâu thuẫn sức khỏe anh yếu năm 2010 chị h có đơn ly anh tịa án nhân dân huyện thuận thành xử bác đơn ly mục đích nhân khơng đạt nên anh đề nghị án giải cho anh ly hôn với chị nguyễn thị h.” Nhận định: - giảm ~50% độ dài văn - nhận định có ý văn mục tiêu Văn tóm tắt - phương pháp Gaussian mixture: “anh kết hôn với chị nguyễn thị h 02 tháng 12 năm 1989 có đăng ký kết uỷ ban nhân dân xã m huyện th tỉnh b sau tổ chức lễ kết hôn chị h chung sống năm 1998 anh bị tai nạn lao động 95% sức khỏe nguyên nhân mâu thuẫn sức khỏe anh yếu.” Nhận định: - giảm ~70% độ dài văn - bị ý từ văn mục tiêu Nguồn Nghiên Cứu 10 - https://github.com/dmmiller612/bert-extractive-summarizer https://sites.google.com/site/trangmonhocitc/text-summarization - ... khai thác văn để trích xuất tình trạng nhân ngun đơn bị đơn từ mục tiêu tóm tắt văn để rút trích thơng tin quan trọng án tồ án khơng đồng thuận hay cho phép hai bên ly Trong trường hợp này, trình. .. dụng, q trình hồn tồn tự động hướng dẫn trình khai thác văn Tiền xử lý: chẳng hạn xác định nội dung / trích xuất tính đại diện Dọn dẹp văn bản: xóa thơng tin khơng cần thiết khơng mong muốn, chẳng... số xuất từ văn bản, loại từ, thông tin cú pháp Các tính sau sử dụng để xử lý thêm Chỉ mục: Tạo mục thuật ngữ định, vị trí số lượng chúng Điều cho phép truy cập nhanh cấu trúc liệu xử lý Khai thác: