Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Mục tiêu, đối tượng và phạm vi giới hạn của đề tài

Mục tiêu

Trong bài viết này, chúng ta sẽ khám phá các phương pháp phân cụm dữ liệu và các mô hình phát hiện chủ đề phổ biến Đặc biệt, chúng ta sẽ tập trung vào thuật toán K-Means++ và mô hình phân bố Dirichlet tiềm ẩn (LDA), giúp hiểu rõ hơn về cách nhóm và phân tích dữ liệu hiệu quả.

Véc-tơ sentence embedding được hình thành thông qua mô hình BERT, với kiến trúc và cơ chế hoạt động độc đáo giúp tạo ra các véc-tơ này Bên cạnh đó, RoBERTa là một phiên bản cải tiến của BERT, mang lại hiệu suất tốt hơn trong nhiều tác vụ ngôn ngữ Đặc biệt, mô hình PhoBERT được thiết kế riêng cho tiếng Việt, cung cấp các giải pháp tối ưu cho việc xử lý ngôn ngữ tự nhiên trong ngữ cảnh tiếng Việt.

Dựa trên những ưu và nhược điểm của các mô hình đã nghiên cứu, chúng tôi đề xuất một phương án xây dựng mô hình mới nhằm khắc phục các điểm yếu và tối ưu hóa các điểm mạnh Mục tiêu là phát triển một mô hình phát hiện chủ đề với độ chính xác cao hơn, đáp ứng nhu cầu ngày càng tăng trong việc phân tích và xử lý thông tin.

Xây dựng mô hình dựa trên phương pháp đã đề xuất, kết hợp thực nghiệm với bộ dữ liệu thu thập để so sánh và đánh giá khả năng của mô hình mới so với các mô hình trước đó Đồng thời, nhận diện những nhược điểm còn tồn tại trong mô hình và đề xuất giải pháp cải thiện độ chính xác cho mô hình đã phát triển.

Đối tượng và phạm vi giới hạn của đề tài

• Các phương pháp phân cụm dữ liệu.

• Các mô hình phát hiện chủ đề.

• Các phương pháp thu giảm chiều dữ liệu.

• Các mô hình hiện đại khai thác tính mạch lạc ngữ nghĩa.

• Mô hình kết hợp dựa trên phương pháp đề xuất.

• Đặc trưng của bài toán phân cụm dữ liệu.

Phạm vi giới hạn của đề tài

• Một vài phương pháp phân cụm đặc trưng và chú trọng vào thuật toán Kmeans++.

• Lịch sử sự phát triển của mô hình chủ đề, một số mô hình chủ đề nền tảng và trọng tâm vào nghiên cứu mô hình LDA.

• Một số phương pháp thu giảm chiều dữ liệu trong đó chủ yếu làm rõ phương pháp AutoEn- coder.

Mô hình hiện đại trong khai thác tính mạch lạc ngữ nghĩa bao gồm việc tìm hiểu cơ bản về Transformer, cùng với hai mô hình tiên tiến là BERT và PhoBERT, được phát triển dựa trên nền tảng RoBERTa.

Dữ liệu đã được thu thập trong hơn 3 tháng, từ tháng 3 năm 2021 đến đầu tháng 6 năm 2021, với việc phân tích sự thay đổi của các chủ đề trong hai tháng 4 và 5 năm 2021.

Phương pháp nghiên cứu

Đề tài luận văn được thực hiện nghiên cứu dựa trên tổ hợp hai phương pháp là nghiên cứu lý thuyết và nghiên cứu thực nghiệm

• Nghiên cứu lý thuyết: Tổng hợp các vấn đề lý thuyết liên quan từ các bài báo khoa học, sách khoa học, luận văn, luận án, giáo trình, Internet.

– Nghiên cứu cài đặt thực hành các công cụ hỗ trợ thuật toán.

Thu thập và xử lý dữ liệu từ các trang mạng xã hội là bước quan trọng để tạo ra bộ dữ liệu chất lượng, phục vụ cho việc phân cụm văn bản bằng các thuật toán phổ biến Việc chọn lọc dữ liệu phù hợp giúp nâng cao hiệu quả và độ chính xác trong quá trình phân tích.

– Dựa vào các yếu điểm của các thuật toán nền tảng đã đề xuất, chọn phương pháp giải quyết và tiến hành thử nghiệm mô hình đã cải tiến.

– Đánh giá, nhận xét kết quả thông qua độ đo giữa mô hình đề xuất với các phương pháp chưa áp dụng cải tiến.

Các thách thức gặp phải trong quá trình thực hiện luận văn

Nguồn dữ liệu được thu thập từ các trang báo mạng và diễn đàn có thể gặp khó khăn trong việc lọc thông tin, như các bài viết chứa nhiều hình ảnh, video hoặc quảng cáo Quá trình tiền xử lý dữ liệu giúp đảm bảo rằng hơn 95% thông tin thu thập được là phù hợp cho các thực nghiệm.

• Dữ liệu tiếng Việt phức tạp trong quá trình xử lý ngữ nghĩa cho văn bản Số lượng dữ liệu chỉ đạt ngưỡng trung bình, trên 10000 bài báo.

• Quá trình hiện thực và chạy mô hình trên Google Colab hạn chế nhiều trong việc sử dụng tài nguyên phần cứng.

Quá trình nghiên cứu lý thuyết chiếm 50% tổng thời gian thực hiện đề tài, dẫn đến việc hạn chế khả năng tìm hiểu sâu về các công thức toán học của các mô hình đã được đề cập.

Ý nghĩa của đề tài

Ý nghĩa khoa học

Nghiên cứu về xử lý ngôn ngữ tự nhiên, đặc biệt trong phân cụm dữ liệu văn bản, đang thu hút sự quan tâm của các nhà khoa học toàn cầu Bài viết này trình bày một mô hình gom cụm văn bản dựa trên bộ dữ liệu thực tế, đóng góp cho nghiên cứu trong lĩnh vực khoa học máy tính Mô hình không chỉ thể hiện hiệu quả trong việc phân loại dữ liệu mà còn hỗ trợ trong việc tạo ra nguồn dữ liệu cho các nghiên cứu trí tuệ nhân tạo, giúp tiết kiệm thời gian trong quá trình thu thập và gán nhãn dữ liệu.

Luận văn này nhằm nhận diện và khắc phục các yếu điểm của mô hình khai thác chủ đề hiện tại, đồng thời kết hợp với mô hình gom cụm để hình thành một mô hình mới, hướng tới kết quả khả quan hơn trong thực nghiệm và đánh giá Nghiên cứu tập trung vào việc đóng góp cho khoa học thực tiễn thông qua thử nghiệm dữ liệu và áp dụng các phương pháp thực tế.

Ý nghĩa thực tiễn

Luận văn này giới thiệu một phương pháp mới trong nghiên cứu gom cụm văn bản tiếng Việt, với đóng góp chính là phân tích xu hướng dư luận Phương pháp này hỗ trợ các nhà phân tích dữ liệu và chuyên gia nhận diện các chủ đề nổi bật trên diễn đàn và báo mạng, từ đó đưa ra quyết định và chỉ đạo phù hợp Điều này không chỉ giúp các công ty cải tiến sản phẩm mà còn hỗ trợ chính phủ trong việc ứng phó với thiên tai và dịch bệnh.

Mô hình này sẽ tạo nền tảng cho các ứng dụng phát hiện thông tin đặc biệt trong văn bản, như hệ thống đề cử bài báo liên quan trên mạng xã hội, chatbot tương tác với người dùng, nhận diện chủ đề quan trọng từ bình luận, và ứng dụng trong y học cũng như giáo dục để tự động chấm điểm.

Tổng quan về mô hình chủ đề

Tổng quan về chủ đề

Chủ đề là vấn đề cốt lõi mà người viết hoặc người nói muốn truyền đạt qua văn bản hoặc lời nói Nó không chỉ giúp người đọc hoặc người nghe hiểu nội dung chính mà còn chi phối các nội dung khác trong văn bản, tạo ra sự liên kết và mạch lạc cho toàn bộ thông điệp.

Chủ đề trong văn bản có thể được định nghĩa khác nhau tùy vào ngữ cảnh, nhưng nhìn chung, nó đại diện cho nội dung chính hoặc nội dung bao quát mà văn bản đề cập Mỗi văn bản thường xoay quanh một chủ đề cụ thể, và nhiều văn bản có thể chia sẻ một chủ đề chung, từ đó tạo ra các mô hình gom cụm chủ đề cho các nội dung liên quan.

Tổng quan về mô hình chủ đề

Khái niệm về mô hình chủ đề

Trong lĩnh vực học máy và xử lý ngôn ngữ tự nhiên, mô hình chủ đề là một công cụ thống kê quan trọng giúp khám phá các khái niệm trừu tượng về "chủ đề" trong tập hợp văn bản Mô hình này thường được sử dụng để phát hiện cấu trúc ngữ nghĩa tiềm ẩn trong nội dung, với các "chủ đề" được xác định qua các văn bản có những cụm từ tương đồng.

Lịch sử của mô hình chủ đề

Mô hình chủ đề đầu tiên, được giới thiệu vào năm 1998 bởi Papadimitriou, Raghavan, Tamaki và Vempala, có tên là "Lập chỉ mục ngữ nghĩa tiềm ẩn" (LSI).

Vào năm 1999, giáo sư Thomas Hofmann đã công bố mô hình "Phân tích xác suất ngữ nghĩa tiềm ẩn" (pLSA) Đến năm 2002, David Blei, Andrew Ng, và Michael I Jordan giới thiệu mô hình "Phân bổ Dirichlet ngữ nghĩa tiềm ẩn" (LDA), một phiên bản cải tiến của pLSA với việc sử dụng phân bổ tiên nghiệm Dirichlet cho quá trình phân phối xác suất giữa văn bản và chủ đề Hiện nay, nhiều mô hình chủ đề dựa vào LDA do khả năng mang lại kết quả tốt Các cải tiến nhằm nâng cao độ chính xác cho mô hình chủ đề hoặc áp dụng vào các bài toán phân cụm cụ thể, như mô hình "Phân bổ Panchinko," đã được phát triển để mô hình hóa mối liên hệ giữa các chủ đề Tuy nhiên, hầu hết các mô hình này đều thuộc loại học tập không giám sát, tập trung vào việc phát hiện các chủ đề trong kho văn bản.

Hiện nay, có nhiều phương pháp, mô hình và thuật toán mới mang tính đột phá trong lĩnh vực phân tích dữ liệu Một ví dụ nổi bật là mô hình "Phân tích cây tiềm ẩn phân cấp" (Hierarchical latent tree analysis), mô hình này giúp mô hình hóa sự đồng xuất hiện của từ thông qua cây các biến tiềm ẩn và trạng thái của chúng, tương ứng với các cụm tài liệu, được hiểu là các chủ đề Đặc biệt, vào năm 2018, một phương pháp mới dựa trên mô hình khối Stochastic đã được giới thiệu, mở ra hướng đi mới cho việc nghiên cứu mô hình chủ đề.

Một số mô hình chủ đề chính

Mô hình LSA

Phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis - LSA), còn được gọi là LSI, là một mô hình toán học dựa trên phép phân tích suy biến (Singular Value Decomposition) nhằm khám phá không gian ngữ nghĩa của văn bản, giữ lại các mối quan hệ ngữ nghĩa và ngữ cảnh quan trọng Được đề xuất bởi Deerwester vào năm 1990, LSA đã được áp dụng trong nhiều lĩnh vực như truy xuất thông tin, xử lý ngôn ngữ tự nhiên và mô hình hóa kiến thức ngôn ngữ của con người Hiện nay, LSA được sử dụng rộng rãi trong khai phá văn bản, bao gồm các ứng dụng như chấm điểm bài luận tự động, phân tích mạng xã hội, tóm tắt văn bản và trí tuệ nhân tạo.

Giả thuyết phân phối là cơ sở lý thuyết cho LSA, cho rằng các từ có nghĩa tương tự thường xuất hiện trong các ngữ cảnh giống nhau Điều này giả định rằng những từ có nghĩa gần gũi sẽ nằm trong các đoạn văn bản liên quan.

Mô hình LSA (Latent Semantic Analysis) được thiết kế để trích xuất những ý nghĩa ẩn trong văn bản từ tập hợp nhiều tài liệu Mô hình này sử dụng ma trận thể hiện mối quan hệ giữa các tài liệu và từ ngữ để phân tích và khám phá các khía cạnh ngữ nghĩa sâu xa hơn trong nội dung văn bản.

Trong bài viết này, chúng ta sẽ tìm hiểu về LSA (Phân tích nghĩa tiềm ẩn) và cách nó sử dụng phép phân tích suy biến SVD để biến đổi ma trận A thành ba ma trận: ma trận suy biến trái U, ma trận đường chéo S và ma trận suy biến phải V Cụ thể, quá trình này được diễn ra theo công thức: A mxn = U mxt S txt (V nxt ) T.

Hình 2.1: Kiến trúc của mô hình LSA(hashtags là những document)

Trong đó t là tham số số lượng topics được lựa chọn.

• Ma trận U là ma trận document-topic

• Ma trận V là ma trận term-topic

• Mỗi dòng của U sẽ biểu diễn phân phối của văn bản và mỗi dòng của V là phân phối của mỗi từ theo t topic ẩn

• Các cột của U, V đại diện cho các topic ẩn

Để xác định sự tương đồng giữa hai văn bản hoặc hai từ, chúng ta sẽ tính toán độ tương quan giữa các vector dòng tương ứng trong ma trận U hoặc các vector dòng của ma trận V.

Nhận xét về ưu, nhược điểm và một số mô hình dựa trên của LSA:

– Giảm được số chiều của tập dữ liệu nhờ sử dụng SVD so sánh với TF-IDF

– Giải quyết vấn đề dữ liệu thưa thớt và bắt được các từ đồng nghĩa

– Không yêu cầu nền tảng thống kê và lý thuyết xác suất

– Khám phá được các cấu trúc đặc biệt như những nhân tố có ảnh hưởng đến kết quả mô hình

– Việc tính toán hoàn toàn dựa trên phân tích ma trận

– Các topic được xác định hoàn toàn trên các phép chiếu tuyến tính nên mối quan hệ topic-document và topic-term là tuyến tính

– Làm việc không hiệu quả với kích thước dữ liệu lớn, tốn chi phí tính toán

Việc gán nhãn cho các chủ đề và xác định số lượng chủ đề trong tập dữ liệu là một thách thức khó khăn Do đó, quá trình xác định các chủ đề nên dựa hoàn toàn vào con người để đảm bảo tính chính xác và hiệu quả.

– Không bắt được mối tương quan giữa nhiều chủ đề

• Các mô hình dựa trên LSA

– Hierarchy-Regularized Latent Semantic Indexing(HLSI)[27]

– Feature Latent Semantic Analysis(FLSA)[45]

Mô hình pLSA

Mô hình Probabilistic Latent Semantic Analysis (PLSA) là một phương pháp tiên tiến trong việc mô hình hóa chủ đề, được phát triển để khắc phục những hạn chế của mô hình LSA Được giới thiệu bởi Jan Puttichai và Thomas Hofmann vào năm 1999, PLSA sử dụng kỹ thuật giảm chiều dữ liệu thông qua việc phân tích đồng xuất hiện ngữ nghĩa của từ dựa trên nền tảng xác suất Theo Kakkonen và các đồng tác giả năm 2008, PLSA dựa trên mô hình khía cạnh, liên kết các biến không quan sát với các quan sát tương ứng Mô hình này giả định rằng mỗi từ thuộc về một chủ đề nhất định, và văn bản là tập hợp các từ từ nhiều chủ đề khác nhau PLSA sử dụng phương pháp Tối đa hóa cực đại kỳ vọng (EM) để suy luận phân phối văn bản - chủ đề và phân phối chủ đề - từ từ bộ ngữ liệu, nhằm tìm ra các tham số tối ưu cho mô hình dựa trên các chủ đề ẩn.

Mô hình PLSA (Probabilistic Latent Semantic Analysis) là một phương pháp xác suất trong đó các biến tiềm ẩn k tương ứng với các lớp ngữ nghĩa tiềm ẩn Mô hình này bao gồm các thành phần quan trọng như p(d), đại diện cho xác suất của văn bản trong bộ dữ liệu, p(c|d), phản ánh phân phối topic-document, và p(w|c), thể hiện phân phối từ theo topic PLSA mô tả sự đồng xuất hiện của mỗi cặp (w, d) trong tài liệu và từ ngữ như một hỗn hợp của các phân phối đa thức độc lập có điều kiện, được biểu diễn qua công thức: p(w,d) =∑ c p(c)p(d|c)p(w|c) =p(d)∑ c p(c|d)p(w|c).

Hình 2.2: Kiến trúc của mô hình PLSA

Xác suất đồng xuất hiện của một cặp tài liệu và từ được xác định qua phân phối xác suất của chủ đề trong văn bản p(c|d) và phân phối các từ theo chủ đề p(w|c).

Trong mô hình này, các tham số p(d), p(c,d) và p(w,c) đóng vai trò quan trọng Tham số p(d) có thể xác định trực tiếp từ bộ văn bản, trong khi p(c|d) và p(w|c) là các phân phối đa thức được huấn luyện thông qua phương pháp EM.

Quá trình hồi qui pLSA được mô tả như một quá trình sinh trên đồ thị, bắt đầu từ việc chọn topic hoặc văn bản Nếu khởi đầu với văn bản, ta sẽ tạo ra các phân phối văn bản, sau đó sinh ra phân phối topic ngẫu nhiên và cuối cùng là phân phối từ dựa trên topic Ngược lại, nếu bắt đầu bằng topic, sẽ sinh ra các topic ngẫu nhiên và đồng thời tạo ra văn bản và từ dựa trên những topic đó.

Hình 2.3: Hai quá trình sinh của mô hình PLSA mô tả theo đồ thị

Nhận xét về ưu, nhược điểm và một số mô hình dựa trên của pLSA:

– Dựa trên mô hình xác suất nên có thể dễ dàng mở rộng và nhúng vào các mô hình phức tạp hơn

– Việc sinh từng từ cho từng chủ đề đơn lẻ khiến một văn bản có thể chứa nhiều từ khác nhau được tạo từ nhiều chủ đề khác nhau

– Xử lý được tính đa nghĩa của từ

Mô hình thống kê hiện tại chưa đủ khái quát, khiến cho các văn bản mới hoặc chưa từng xuất hiện trong bộ ngữ liệu không được đưa vào quá trình huấn luyện Điều này dẫn đến hiện tượng overfit, khi mô hình phụ thuộc quá nhiều vào kích thước của bộ dữ liệu.

– Ở cấp độ văn bản, pLSA không thể hình thành mô hình xác suất

• Các mô hình dựa trên pLSA

– Bigram PLSA Topic Model(BPTM)[41]

– Incremental probabilistic Latent Semantic Analysis(IpLSA)[47]

Mô hình LDA

Latent Dirichlet Allocation (LDA) là mô hình sinh xác suất cho dữ liệu rời rạc, dựa trên phân phối Dirichlet, được phát triển bởi David Blei, Andrew Ng, và Michael I Jordan vào năm 2013 LDA hoạt động trên nguyên tắc rằng mỗi tài liệu chứa nhiều chủ đề khác nhau, và mỗi chủ đề được đại diện bởi một tập hợp từ ngữ phong phú.

Giới thiệu chi tiết ở phần 2.4.

Mô hình CTM

Mô hình CTM (Correlated Topic Model) là một phương pháp thống kê trong lĩnh vực xử lý ngôn ngữ tự nhiên và học máy, nhằm khám phá các chủ đề trong một tập tài liệu Mô hình này dựa trên phân phối chuẩn logistic và cải tiến từ mô hình LDA, cho phép phân phối linh hoạt hơn về tỷ lệ các chủ đề Điều này giúp tạo ra một cấu trúc chủ đề tiềm ẩn thực tế hơn, nơi sự hiện diện của một chủ đề có thể tương quan với sự hiện diện của một chủ đề khác.

Mô hình CTM áp dụng phân phối chuẩn logistic thay vì phân phối Dirichlet truyền thống Cụ thể, CTM sử dụng công thức f(N(η,∑)), trong đó f(x) đại diện cho biến đổi logistic và N là phân phối chuẩn đa chiều Biến đổi logistic được tính theo công thức θ j = exp(ηj).

Hình 2.4: Kiến trúc của Mô hình CTM

• β đại diện cho phân phối Dirichlet của từ theo topic

• η đại diện cho biến đổi logistic cho phân phối của topic theo văn bản

• z đại diện cho topic thể hiện cho một từ nằm trong văn bản

• w đại diện cho index của một từ trong bộ ngữ liệu(vocabulary) nằm trong văn bản

Nhận xét về ưu, nhược điểm và một số mô hình dựa trên của CTM:

– Có thể nhận thấy tính tương quan giữa các chủ đề có sự liên quan gần nhau

– Phù hợp với mô hình có nhiều chủ đề và sự tương quan giữa các chủ đề phức tạp

– Yêu cầu nhiều thời gian để thực hiện tính toán

– Có khá nhiều từ tổng quát xuất hiện khá nhiều trong các chủ đề

• Các mô hình dựa trên CTM

Một số mô hình khác

LSTM (Long Short Term Memory) là một mô hình mạng thuộc loại RNN, được phát triển dựa trên thuật toán LSTM của Hochreiter và Schmidhuber vào năm 1997 Mô hình này nổi bật trong việc hiệu quả hóa quá trình mô hình hóa các mẫu ngữ cảnh tuần tự trong tập văn bản.

NVDM (Neural Variational Document Model) là một mô hình sinh văn bản không giám sát được giới thiệu vào năm 2016, nhằm mục đích trích xuất một biến tiềm ẩn ngữ nghĩa liên tục cho mỗi văn bản Mô hình này có thể được hiểu như một bộ mã hóa tự động biến thể, trong đó bộ mã hóa MLP (mạng suy luận) nén biểu diễn BOW (Bag of Words) của văn bản thành một phân phối tiềm ẩn liên tục, trong khi bộ giải mã softmax (mô hình sinh) tái cấu trúc văn bản bằng cách sinh ra các từ một cách độc lập.

Phương pháp mô hình hóa chủ đề dựa trên tài liệu giả (PTM) được phát triển vào năm 2016 nhằm giải quyết các vấn đề khó hiểu bằng cách tổng hợp các đoạn văn bản ngắn thành văn bản dài hơn PTM giả định rằng mỗi đoạn văn ngắn được lấy từ một mẫu của các văn bản dài giả, từ đó suy ra các chủ đề ẩn Để thiết lập mô hình phân phối cho các văn bản ngắn, PTM sử dụng phân phối đa thức, giúp xác định các yếu tố tiềm ẩn trong nội dung văn bản.

K-competitive autoencoder for text (KATE) được phát triển vào năm 2017 nhằm khắc phục những hạn chế của bộ mã hóa truyền thống trong việc xử lý dữ liệu văn bản Khác với các bộ mã hóa truyền thống, KATE không cố gắng tái tạo mỗi chiều của tập vector đầu vào một cách bình đẳng, điều này giúp cải thiện khả năng phù hợp với đặc thù của dữ liệu văn bản KATE áp dụng thuật toán học sâu thông qua việc học tập cạnh tranh giữa các nơron trong quá trình tự động mã hóa.

Mô hình hsBM - Hierarchical Stochastic Block Modeling (2019) kết hợp quy trình phân cấp Dirichlet và mô hình khối ngẫu nhiên, cải thiện hiệu suất trong việc nhận diện các mối liên hệ trong mạng phức tạp Sự kết hợp này cho phép mô hình hoạt động tốt hơn các phiên bản trước đó, nhờ vào khả năng phân tích trên các lớp khác nhau.

TANKG (2019) là một mô hình sinh cụm từ khóa dựa trên khung chuỗi thần kinh nối tiếp (seq2seq), được phát triển bởi Meng và cộng sự (2017) Mô hình này giúp thể hiện các chủ đề tiềm ẩn trong dữ liệu, đồng thời giảm thiểu tình trạng dữ liệu thưa thớt trong ngôn ngữ truyền thông.

• JoSH(Hierarchical Topic Mining via Joint Spherical Tree and Text Embedding) (2020)

JosH sử dụng cây danh mục để mô tả các danh mục chỉ bằng tên, với mục tiêu khai thác tập hợp thuật ngữ đại diện cho từng danh mục trong kho ngữ liệu Hệ thống phát triển một cây liên kết mới và phương pháp nhúng văn bản, kết hợp với quy trình tối ưu hóa nguyên tắc, cho phép mô hình hóa đồng thời cấu trúc cây danh mục và quá trình sinh ngữ liệu trong không gian hình cầu, nhằm khám phá các thuật ngữ đại diện cho danh mục một cách hiệu quả nhất.

Mô hình LDA

Latent Dirichlet Allocation (LDA) là một mô hình sinh xác suất cho dữ liệu rời rạc, dựa trên phân phối Dirichlet, được giới thiệu bởi David Blei, Andrew Ng, và Michael I Jordan vào năm 2013 Mô hình này cho rằng mỗi tài liệu chứa nhiều chủ đề khác nhau, và mỗi chủ đề được biểu diễn thông qua một tập hợp các từ.

Kể từ khi ra đời, LDA đã trở thành nền tảng cho nhiều thuật toán trong việc khai thác các nhân tố tiềm ẩn thông qua mô hình chủ đề xác suất Đây là thuật toán mô hình chủ đề phổ biến nhất trong các ứng dụng thực tế để trích xuất chủ đề từ tập văn bản nhờ vào độ chính xác cao và khả năng học trực tuyến, cho phép mô hình tiếp tục học từ các văn bản mới Dữ liệu được tổ chức như một bộ trộn ngẫu nhiên của các chủ đề ẩn, trong khi các chủ đề ẩn lại được phân phối qua các từ.

Hiện mô hình LDA có rất nhiều ứng dụng như: Khám phá vai trò trong mô hình Author-

Recipient-Topic (ART) plays a crucial role in social network analysis, particularly in the context of emotion topics It enhances automatic essay grading systems and contributes to anti-phishing efforts, ensuring a more secure online environment.

Lý thuyết về mô hình LDA:

Từ là đơn vị cơ bản của dữ liệu rời rạc, được xác định bởi chỉ số index trong bộ từ vựng có giá trị từ {1, 2, 3, , V} Mỗi từ được biểu diễn dưới dạng một one-hot vector w_i ∈ R^V, trong đó vị trí thứ i có giá trị 1, còn các vị trí khác trong vector đều mang giá trị 0.

• Văn bản(document): là một tập hợp của N từ được kí hiệu bởiw= (w1,w2, ,w N ), trong đó mỗiw n đại diện cho một từ trong câu

• Bộ ngữ liệu(corpus): là một tập hợp củaMvăn bản, kí hiệuD=w 1 ,w 2 , ,w M

Chủ đề ẩn (latent topic) là các chủ đề không rõ ràng, được xác định thông qua phân phối từ ngữ, và đóng vai trò như một cầu nối để biểu diễn các văn bản dưới dạng tập hợp của nhiều chủ đề khác nhau Số lượng chủ đề này được xác định trước và được ký hiệu là K.

2 Tham số của mô hình

• α là tham số phân phối tiên nghiệm Dirichlet của topic đối với mỗi document

• β là tham số phân phối tiên nghiệm Dirichlet của word đối với mỗi topic

• θilà phân phối của topic đối với document thứ i, ma trận MxK

• ϕ k là phân phối của word đối với topic thứ k, ma trận KxV

• z i j là topic của word thứ j đối với document thứ i Là một số nguyên trong khoảng

• wi j là index của word thứ i thuộc document j trong vocabulary Là một số nguyên trong khoảng[1 V]

Trong mô hình LDA, biến suy nhất có thể quan sát được là wi j, trong khi các yếu tố khác được sinh ra từ phân phối xác suất Dirichlet (Dir) và Multinomial (Mul).

3 Mô phỏng mô hình và quá trình sinh xác suất

Hình 2.5: Kiến trúc của Mô hình LDA

LDA giả định quá trình sinh xác suất cho toàn bộ văn bảnDbao gồm M văn bản như sau:

• Với mỗi document lựa chọn độ dài văn bảnN∼Poisson(ξ)

Lựa chọn ma trận θ theo phân phối Dirichlet với tham số α, trong đó θ đại diện cho phân phối của chủ đề trong tài liệu thứ i Tham số α thường được thiết lập dưới dạng vector one-hot k chiều, với mỗi chiều của α tương ứng với một chủ đề cụ thể.

Ma trận ϕ ∼Dir(β) được chọn để đại diện cho phân phối từ theo từng chủ đề Tham số β thường được sử dụng dưới dạng một vectorkchiều one-hot, trong đó mỗi chiều của β đặc trưng cho một chủ đề cụ thể.

• Đối với mỗi một wordw i j thuộc document i và ở vị trí thứ j trong document đó:

Chọn một phân phối topic với j∼Multinomial(θi), trong đó α zi jl là một số nguyên trong khoảng [1 K], xác định chủ đề cho tất cả các từ trong tài liệu Điều này có nghĩa là mỗi từ đều được gán cho một chủ đề cụ thể.

Lựa chọn một từ w_i,j từ phân phối Multinomial(ϕ_i,j) hay p(w_n|z_n,β) cho thấy rằng các từ được sinh ra dựa trên các chủ đề đã được xác định, với i,j là các số nguyên trong khoảng [1 V].

Giả định rằng số lượng các chủ đề đã được xác định trước là k, và k cũng sẽ quy định số chiều của phân phối Dirichlet Tiếp theo, xác suất từ được tham số hóa bằng ma trận β(kxV), trong đó mỗi phần tử βij biểu thị phân phối xác suất của từ thứ j cho chủ đề i, hay βij = p(wj=1|zi=1) Chúng ta sẽ cố định các tham số này.

Biến xác suất ngẫu nhiên k chiều Dirichlet θ nằm trong khoảng (k-1), với hàm mật độ xác suất cho các chủ đề trong tài liệu dựa trên tham số α theo phân phối Dirichlet được biểu diễn bằng công thức f(θ;α) = Γ(∑ K i=1 αi).

Phân phối xác suất chung của hỗn hợp topicθ với tập N topic z và tập N từ w khiα,β biết trước là: p(θ,z,w|α,β) =p(θ|α)

Thành phần p(θ|α) là phân phối xác suất hỗn hợp của topic liên quan đến văn bản đã biết, với tham số phân phối Dirichlet α Phần còn lại ∏ N i=1 p(zn|θ)p(wn|zn,β) đại diện cho phân phối xác suất khi đã biết phân phối hỗn hợp θ và tham số Dirichlet β Để tính xác suất biên của một văn bản, ta thực hiện tích phân theo θ và tổng hợp tất cả các z, từ đó thu được p(w|α,β).

Cuối cùng, xác suất của toàn bộ văn bản dựa trên xác suất biên của mỗi từ trong văn bản: p(D|α,β) M

Từ phương trình xác suất trên áp dụng phương pháp EM sẽ ước lượng được các tham sốα,β từ đó tính raθ,z,ϕ,w

Nhận xét về ưu, nhược điểm và một số mô hình dựa trên của LDA:

– Không yêu cầu dán nhãn dữ liệu vì thuật toán này thuộc bài toán học không giám sát

LDA cung cấp nhiều diễn giải ngữ nghĩa hơn so với LSA và pLSA, hoạt động hiệu quả hơn khi không bị giới hạn thời gian Độ chính xác của LDA phụ thuộc vào hai tham số α và β; quá trình học tập kéo dài giúp điều chỉnh hai tham số này tốt hơn.

– Tính được phân bố xuất hiện của từ trong chủ đề và lọc được những từ quan trọng trong chủ đề

– Xử lý được bộ dữ liệu mà văn bản có độ dài chênh lệch lớn

– Cần sự sắp xếp các tin nhắn ngắn gọn để tránh tình trạng dữ liệu bị thưa thớt trong những văn bản ngắn

– Không thể mô hình hóa mối quan hệ giữa những chủ đề và không khai thác sâu trong cấu trúc của những văn bản

Để tối ưu hóa việc tìm kiếm chủ đề, cần xác định một số lượng chủ đề cụ thể Nếu số lượng này quá ít, các chủ đề sẽ trở nên quá phổ biến và thiếu tính sáng tạo Ngược lại, nếu số lượng quá nhiều, có thể dẫn đến tình trạng trùng lặp hoặc khó khăn trong việc xác định chủ đề chính.

• Các mô hình mở rộng dựa trên mô hình LDA

Tổng kết chương 2

Chương 2 nhằm mục đích khám phá lý thuyết và sự phát triển của các mô hình chủ đề từ khi ra đời cho đến nay, bao gồm việc áp dụng các phương pháp hiện đại Nghiên cứu sẽ phân tích những ưu điểm và hạn chế của từng mô hình chủ đề, với trọng tâm làm rõ mô hình LDA, mô hình được sử dụng để thực nghiệm trong đề tài này.

Tổng quan về gom cụm

Gom cụm hay phân cụm là phương pháp học không giám sát trong học máy, nơi các kết luận được rút ra từ dữ liệu không có nhãn Kỹ thuật này cho phép phân tích và khai thác thông tin từ các tập dữ liệu đa biến, giúp phát hiện các mẫu và cấu trúc ẩn trong dữ liệu.

Phân cụm là quá trình chia nhỏ tập dữ liệu thành các nhóm cụ thể, trong đó các điểm dữ liệu trong cùng một cụm có những đặc điểm tương đồng Mục tiêu của phân cụm là tạo ra các cụm mà khoảng cách giữa các điểm dữ liệu trong cùng một cụm là nhỏ nhất, đồng thời thể hiện những vùng có mật độ điểm dữ liệu tương tự cao Hình dạng của các cụm có thể khác nhau tùy thuộc vào bản chất của dữ liệu và phương pháp đo lường sự tương đồng được sử dụng trong phân tích.

Những phương pháp phân cụm dữ liệu:

Phân cụm dựa trên mật độ (Density-Based Clustering) là phương pháp phân nhóm dữ liệu dựa trên sự dày đặc của các điểm trong không gian dữ liệu Các khu vực có mật độ cao của dữ liệu được gọi là cụm dữ liệu (cluster), trong khi những khu vực thưa thớt, nơi có ít điểm dữ liệu, được xem là vùng nhiễu (noise) hoặc vùng ngoại lai (outlier) Một số thuật toán phổ biến trong phân cụm dựa trên mật độ bao gồm DBSCAN và OPTICS.

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)[23], OPTICS (Ordering Points to Identify Clustering Structure)[2], HDBSCAN (Hierarchical Density- Based Spatial Clustering of Applications with Noise)[13]

Phân cụm phân cấp (Hierarchical Clustering) là một phương pháp xây dựng hệ thống phân cấp cho các cụm, bao gồm hai chiến lược chính: Tổng hợp (Agglomerative hoặc Bottom-Up) và Phân chia (Divide hoặc Top-Down) Trong chiến lược Tổng hợp, mỗi điểm dữ liệu bắt đầu là một cụm riêng lẻ và các cặp cụm sẽ được hợp nhất khi di chuyển lên trên kiến trúc phân cấp Ngược lại, trong chiến lược Phân chia, tất cả các điểm bắt đầu trong một cụm khởi tạo và quá trình phân chia diễn ra đệ quy khi di chuyển xuống dưới Cả hai chiến lược đều áp dụng phương pháp tham lam, và kết quả phân cụm thường được thể hiện qua biểu đồ dendrogram.

Phân cụm mờ (Fuzzy Clustering) là một phương pháp gán điểm dữ liệu cho các cụm mà không mang tính quyết định, cho phép mỗi điểm dữ liệu có thể thuộc về nhiều hơn một cụm Kết quả của phân cụm mờ là xác suất cho thấy mức độ thuộc về của mỗi điểm dữ liệu đối với từng cụm Thuật toán chính được sử dụng trong phân cụm mờ là Fuzzy C-means clustering (FCM), được phát triển bởi J.C Dunn vào năm 1973 và được cải tiến bởi J.C Bezdek vào năm 1981.

Phân cụm phân vùng (Partitioning Clustering) là một phương pháp phổ biến trong phân tích dữ liệu, cho phép các nhà nghiên cứu phân chia các cụm dựa trên đặc điểm của các điểm dữ liệu Phương pháp này yêu cầu người dùng chỉ định số lượng cụm cần thiết, tùy thuộc vào yêu cầu của bài toán Các thuật toán trong phân cụm phân vùng hoạt động theo quy trình lặp đi lặp lại, gán các điểm dữ liệu vào các cụm dựa trên khoảng cách Thuật toán Kmeans là một trong những thuật toán chính, hoạt động bằng cách phân chia các điểm dữ liệu đến các trung tâm cụm (centroid) cho đến khi việc gán lại không thay đổi Ngoài Kmeans, còn có một số thuật toán khác phát triển từ Kmeans như PAM (Partitioning Around Medoids - Kmeans-medoid) và Kmeans-medians.

Phân cụm dựa trên lưới (Grid-Based Clustering) là một phương pháp tổ chức dữ liệu thành cấu trúc lưới với các ô, chú trọng vào không gian giá trị xung quanh các điểm dữ liệu thay vì chỉ tập trung vào bản thân điểm dữ liệu Thuật toán này giảm độ phức tạp tính toán, làm cho nó phù hợp với việc xử lý dữ liệu lớn Ý tưởng chính là phân vùng dữ liệu thành các ô và sử dụng mật độ của các ô đó để thực hiện phân cụm Một số thuật toán tiêu biểu trong phân cụm dựa trên lưới bao gồm STING, WaveCluster và CLIQUE.

Gom cụm dữ liệu có rất nhiều ứng dụng trong nhiều ngành công nghiệp khác nhau Một số ứng dụng của gom cụm như:

Công cụ đề xuất (Recommendation engine) sử dụng quá trình gom cụm để phát hiện các đặc trưng tương đồng trong từng cụm cụ thể, từ đó cá nhân hóa hành động, sở thích và thói quen của khách hàng Quá trình này không chỉ giúp nâng cao độ chính xác của thuật toán mà còn cải thiện hiệu quả của các hệ thống đề xuất.

Phân khúc thị trường là quá trình chia nhỏ thị trường mục tiêu thành các nhóm khách hàng cụ thể dựa trên các đặc điểm chung như nhân khẩu học, sở thích và nhu cầu Việc này giúp các công ty xác định và tập trung vào những nhóm khách hàng tiềm năng cho sản phẩm và dịch vụ của mình trong tương lai.

Phân tích mạng xã hội là quá trình phân cụm dữ liệu nhằm đo lường và hiểu rõ các mối quan hệ ràng buộc cũng như xung đột giữa các thành phần trong mạng xã hội, bao gồm con người, công ty, quốc gia và mạng máy tính Qua việc phân cụm dữ liệu, phân tích mạng xã hội giúp hình dung rõ nét các tương tác giữa các đối tượng, đồng thời cung cấp thông tin quan trọng về vai trò của từng đối tượng hoặc nhóm mà chúng thuộc về.

Các công cụ tìm kiếm hiện nay phân cụm kết quả tìm kiếm dựa trên sự liên quan của các đối tượng với nhau Dữ liệu được gán cho từng cụm tùy thuộc vào các thuộc tính hoặc đối tượng tương tự, tạo ra nhiều tập hợp kết quả phong phú cho người dùng Mục tiêu của các công cụ tìm kiếm là nhóm các đối tượng giống nhau vào một cụm và phân tách chúng khỏi các cụm khác.

Phân tích dữ liệu sinh học thường liên quan đến các cấu trúc mạng hoặc chuỗi, trong đó phương pháp phân nhóm đóng vai trò quan trọng trong việc xác định thông tin cần thiết từ khối lượng dữ liệu lớn Mục đích của phân cụm là cung cấp dự đoán và mô tả cấu trúc dữ liệu, giúp mô hình hóa các tập hợp cấu trúc sinh học một cách hiệu quả.

Phân tích hình ảnh y khoa để xác định tế bào ung thư là một quá trình quan trọng, trong đó áp dụng phân cụm dữ liệu cho tập hợp hình ảnh chứa và không chứa tế bào ung thư Qua việc phân tích đặc trưng của từng cụm, chúng ta có thể học cách nhận diện sự khác biệt giữa các hình ảnh Quá trình này thuộc bài toán học không giám sát, giúp cải thiện khả năng dự đoán hình ảnh tế bào ung thư một cách hiệu quả.

Phương pháp gom cụm dữ liệu với Kmeans++

Kmeans++ là thuật toán gom cụm dữ liệu được giới thiệu vào năm 2007 bởi David Arthur và Sergei Vassilvitskii Thuật toán này thuộc loại gom cụm phân vùng, dựa trên Kmeans nhưng cải tiến quá trình khởi tạo các trung tâm (centroid) một cách thông minh Sự cải tiến này giúp nâng cao tốc độ và chất lượng phân cụm, mang lại hiệu quả tốt hơn trong việc phân nhóm dữ liệu.

Thuật toán Kmeans là một phương pháp lặp để phân chia dữ liệu thành K cụm riêng biệt, với K được xác định trước Mỗi điểm dữ liệu chỉ thuộc về một cụm, và thuật toán này tối ưu hóa việc giữ cho các điểm trong cùng một cụm gần nhau, trong khi khoảng cách giữa các cụm phải càng xa càng tốt Kmeans chỉ định các điểm dữ liệu sao cho tổng khoảng cách bình phương giữa các điểm trong cụm và trọng tâm của nó là nhỏ nhất, từ đó đảm bảo tính đồng nhất cao trong từng cụm.

Hình 3.1: Mô phỏng thuật toán Kmeans[55]

Phân tích thuật toán Kmeans:

1 Chọn số cụm cần phân chia K

2 Lựa chọn K điểm dữ liệu ngẫu nhiên trong bộ dữ liệu để làm K trung tâm cụm khởi tạo ban đầu

Quá trình lặp lại diễn ra cho đến khi không còn sự thay đổi nào ở các trung tâm cụm, nghĩa là việc phân loại các điểm dữ liệu vào các cụm sẽ không có sự thay đổi.

• Tính tổng bình phương khoảng cách giữa các điểm dữ liệu và toàn bộ trung tâm cụm.

• Gán các điểm dữ liệu cho trung tâm cụm gần nó nhất

Kmeans tính toán lại trung tâm cụm bằng cách lấy giá trị trung bình của tất cả các điểm dữ liệu trong cụm Phương pháp này có ưu điểm là dễ thực hiện, hội tụ nhanh sau một số lần lặp và tạo ra các cụm có sự phân biệt tốt, đồng thời vẫn mang lại kết quả hiệu quả trong việc phân cụm dữ liệu.

Kmeans có nhược điểm là tính chất lặp lại và khởi tạo ngẫu nhiên các trung tâm cụm, dẫn đến việc các lần khởi tạo khác nhau tạo ra các cụm khác nhau Thuật toán này có thể bị mắc kẹt trong các cụm cục bộ mà không hình thành được các cụm toàn cục Để khắc phục vấn đề này, một giải pháp hiệu quả là chọn các trung tâm khởi đầu một cách thông minh, giúp các cụm hội tụ ở mức cục bộ Kmeans++ đã được phát triển để giải quyết vấn đề này.

Giả sử D(x) là khoảng cách ngắn nhất từ điểm dữ liệu đến trung tâm cụm gần nhất đã được chọn từ trước Thực hiện các bước sau:

1 Lựa chọn một điểm dữ liệu làm trung tâm cụm đầu tiênc1ngẫu nhiên từ bộ dữ liệuX

2 Quá trình lặp đi lặp lại cho đến khi chọn được K trung tâm cụm Sao cho:

Chọn trung tâm cụm tiếp theoc i với xác suất D(x) 2

3 Tiếp tục với thuật toán Kmeans cho K trung tâm đã được chọn

Phương pháp gieo hạt (seeding method) cải thiện đáng kể sai số cuối cùng của thuật toán Kmeans bằng cách lựa chọn các centroid khởi đầu hiệu quả Mặc dù việc chọn lựa ban đầu có thể tốn thời gian, nhưng thuật toán Kmeans nhanh chóng hội tụ, giúp giảm thời gian tính toán tổng thể Các tác giả đã thử nghiệm phương pháp này trên các bộ dữ liệu thực và tổng hợp, ghi nhận cải tiến gấp 2 lần về tốc độ và trong một số trường hợp, gần 1000 lần cải thiện về sai số.

Tổng kết chương 3

Chương 3 liên quan đến lý thuyết phân cụm dữ liệu Hiểu về các phương pháp phân cụm và một số thuật toán cơ bản của từng phương pháp.

Quá trình phân cụm với thuật toán Kmeans được cải thiện về thời gian thực thi và độ chính xác thông qua việc lựa chọn trung tâm cụm khởi đầu thông minh nhờ thuật toán Kmeans++ Do đó, trong mô hình đề xuất, phương pháp phân cụm Clustering sẽ được xây dựng dựa trên thuật toán Kmeans++, giúp nâng cao hiệu quả của quá trình phân cụm.

Phương pháp khai thác ngữ nghĩa trong văn bản

Tổng quan về Sentence Embedding

Một câu văn được cấu thành từ nhiều từ, do đó, việc nhúng câu (sentence embedding) cũng dựa trên các nhúng từ (word embedding) của những từ đó.

Word embedding là cách biểu diễn từ dưới dạng véc-tơ trong không gian n chiều, giúp các từ có nghĩa tương đồng như "boat" và "ship" hay có mối quan hệ ngữ nghĩa như "boat" và "water" được thể hiện gần nhau trong quá trình huấn luyện Hai phương pháp chính được sử dụng trong việc huấn luyện các véc-tơ word embedding là

• Sử dụng văn bản làm ngữ cảnh(LSA, Mô hình chủ đề) Nắm bắt về sự tương quan ngữ nghĩa.

Mô hình ngôn ngữ sử dụng nơ-ron (Neural Language Model) và mô hình ngữ nghĩa phân tán (Distributed Semantic Model) là những công cụ quan trọng trong việc phân tích ngữ cảnh và nắm bắt sự tương đồng về ngữ nghĩa Những mô hình này giúp cải thiện khả năng hiểu và xử lý ngôn ngữ tự nhiên, từ đó nâng cao hiệu quả trong các ứng dụng như tìm kiếm thông tin và dịch máy.

Sentence embedding được hình thành nhằm cải thiện khả năng biểu diễn của word embedding, khai thác các đặc tính ngôn ngữ như vị trí, ngữ nghĩa và cấu trúc trong một câu Hiện nay, sentence embedding đóng vai trò quan trọng trong việc đánh giá hiệu quả của các tác vụ bên dưới (downstream task), giúp nâng cao khả năng biểu diễn câu và thực hiện các tác vụ ngôn ngữ một cách thông minh, phù hợp với các đặc điểm và quy tắc của ngôn ngữ.

Một phương pháp đơn giản để tạo ra sentence embedding là sử dụng mô hình nhúng từ để mã hóa từng từ trong câu và tính giá trị trung bình của các véc-tơ này Phương pháp này mang lại một nền tảng vững chắc, cho phép véc-tơ sinh ra phản ánh đặc tính của các từ trong câu Tuy nhiên, nó có thể không đầy đủ trong việc nắm bắt thông tin về trật tự từ và các khía cạnh ngữ nghĩa khác của câu.

Hiện nay, các phương pháp hiện đại để tìm sentence embedding đã được phát triển thông qua việc sử dụng các thuật toán học sâu, bao gồm cả học giám sát và không giám sát Những thuật toán này thường được đào tạo cho các mục tiêu cụ thể trong quá trình học đa tác vụ (multi-task learning), cho phép giải quyết nhiều nhiệm vụ NLP với tập dữ liệu gán nhãn Kết quả là, các mô hình này tạo ra những bản sentence embedding phổ quát, có thể tối ưu cho các nhiệm vụ khác nhau thông qua transfer learning Những phương pháp này không chỉ làm phong phú thêm biểu diễn câu mà còn đạt hiệu quả cao trong các tác vụ yêu cầu sự thông minh và khai thác mạch ngữ nghĩa Thêm vào đó, việc áp dụng huấn luyện đa ngôn ngữ giúp các mô hình xử lý hiệu quả văn bản đa ngôn ngữ.

Giới thiệu qua một số State-of-the-art về sentence embedding:

FastTest, được phát triển bởi nhóm nghiên cứu của Tomas Mikolov, người sáng lập nền tảng word2vec vào năm 2013, đã tạo ra bước tiến lớn trong nghiên cứu sentence embedding Điểm cải tiến nổi bật của FastTest so với word2vec là sử dụng các ký tự n-grams, cho phép tính toán biểu diễn cho những từ chưa xuất hiện trong dữ liệu huấn luyện Hơn nữa, các véc-tơ FastTest có tốc độ huấn luyện nhanh và hiện đã được đào tạo cho 157 ngôn ngữ dựa trên dữ liệu từ Wikipedia và Crawl.

• ElMo[43](2018): Biểu diễn từ theo độ sâu ngữ cảnh Được phát triển bởi viện Allen về

AI sẽ được giới thiệu tại NAACL 2018 vào đầu tháng 6 ELMo cung cấp một biểu diễn cho mỗi từ dựa trên toàn bộ câu văn bản mà từ đó thuộc về Việc nhúng này được tính toán từ các trạng thái bên trong của Mô hình ngôn ngữ hai chiều hai lớp (LM - two-layers bidirectional Language Model), do đó có tên gọi "ELMo": Embeddings from Language Models.

• Skip-thoughts[32](2015): Là một mô hình học không giám sát cho sentence embedding.

Mô hình skip-gram được phát triển cho word embedding nhằm dự đoán các câu xung quanh một câu cụ thể, thay vì chỉ dự đoán các từ xung quanh Nó sử dụng một bộ encoder-decoder dựa trên RNNs (Recurrent Neural Networks) để tái tạo một câu từ các câu khác.

InferSent, introduced in 2017, utilizes the Stanford Natural Language Inference (SNLI) dataset, which consists of 570,000 labeled sentence pairs categorized into three types: neutral, contradictory, and question The model trains a classifier on top of a sentence encoder, where both sentences are encoded using the same encoder This approach generates a pair representation through the embedding of the two sentences Conneau and colleagues employed a bidirectional LSTM along with a max-pooling operator as the sentence encoder to enhance performance.

The Universal Sentence Encoder, introduced in early 2018, utilizes a distinct architecture based on Transformers instead of RNNs This innovative approach enhances the ability to capture context and generate sentence embeddings for entire sentences effectively.

BERT, được ra mắt vào cuối năm 2018, đã chứng tỏ hiệu suất vượt trội so với các mô hình trước như ELMo và Skip-thought trong các tác vụ xử lý ngôn ngữ tự nhiên (NLP) Mô hình này sử dụng kiến trúc encoder của transformer, và đây cũng là kiến trúc sẽ được áp dụng trong mô hình đề xuất, được trình bày chi tiết ở phần 4.2.

Mô hình BERT

Sự ra đời của BERT

Bidirectional Encoder Representations from Transformers (BERT) is a language model developed by Google that utilizes transformer technology for natural language processing Introduced in 2018 by Jacob Devlin and his team at Google, BERT has significantly advanced the field of NLP.

Năm 2019, Google đã tích hợp BERT để cải thiện khả năng hiểu các tìm kiếm của người dùng Sự ra đời của BERT đã đánh dấu một bước tiến quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên, đặc biệt trong các tác vụ như GLUE, SWAG và SQuAD.

BERT là một mô hình học sẵn (pre-trained model) được thiết kế để tạo ra các véc-tơ đại diện ngôn ngữ văn bản thông qua ngữ cảnh hai chiều Khác với các mô hình trước, BERT đào tạo từ cả hai hướng (trái qua phải và ngược lại) Các véc-tơ đại diện này sau đó được tinh chỉnh với các lớp đầu ra bổ sung, cho phép phát triển các kiến trúc mới phục vụ cho các tác vụ xử lý ngôn ngữ tự nhiên như Question Answering và Language Inference, mà không cần thay đổi nhiều từ kiến trúc cơ bản của BERT.

Học chuyển tiếp là việc áp dụng kiến thức và kỹ năng đã học vào tình huống mới Dựa trên cơ chế này, sự biểu diễn tiền huấn luyện ngôn ngữ được phát triển để đo lường khả năng đọc hiểu ngôn ngữ của máy tính Ý tưởng chính là sử dụng mô hình học máy đã được tiền huấn luyện để xử lý các tác vụ khác nhau, với hai chiến lược chính là dựa trên đặc tính và tinh chỉnh Tuy nhiên, cả hai phương pháp này đều có hạn chế, đặc biệt là phương pháp tinh chỉnh, do các mô hình ngôn ngữ hiện tại thường chỉ áp dụng hướng tiếp cận ngữ cảnh một chiều Nhằm khai thác tối đa khả năng của sự biểu diễn tiền huấn luyện ngôn ngữ, mô hình BERT đã ra đời.

Kiến trúc

Kiến trúc của BERT là một kiến trúc đa tầng nhiều lớp Bidirectional Transformer encoder dựa trên kiến trúc của Encoder trong Transformer mô tả bởi Vaswani et al[53].

BERT sử dụng kiến trúc Encoder trong transformer, cho phép truyền tải tất cả các từ trong câu mà không chú trọng đến chiều lan truyền dữ liệu Mặc dù BERT gọi đây là cơ chế hai chiều, thực tế nó hoạt động không chiều, giúp mô hình nắm bắt bối cảnh từ qua mối liên hệ ngữ nghĩa của các từ xung quanh So với decoder transformer của OpenAI GPT, BERT khác biệt ở chỗ GPT chỉ sử dụng ngữ cảnh từ trái qua phải, trong khi ELMo áp dụng phương pháp kết hợp nông hai chiều thông qua LSTM.

BERT là một bước tiến vượt bậc, kết hợp ý tưởng lấy ngữ cảnh từ hai chiều của câu và áp dụng kiến trúc transformer của OpenAI, nhưng chỉ sử dụng phần encoder.

Hình 4.1: Kiến trúc BERT, OpenAI GPT và ELMo

Gọi L là số lớp Transformer được sử dụng, kích thước các lớp ẩn là H, và số heads ở lớp attention là A BERT thường có hai kích thước chủ yếu là:

Hình 4.2: Kiến trúc BERT mô phỏng 3D(Mỗi layer huấn luyện tương ứng với một encoder của transformer)

Hình 4.3: Kiến trúc Transformer gồm cả hai khối encoder-decoder; BERT chỉ sử dụng khối encoder

Trong lĩnh vực xử lý ngôn ngữ tự nhiên, các nhiệm vụ khác nhau yêu cầu đầu vào khác nhau; ví dụ, phân tích cảm xúc thường sử dụng một câu văn bản, trong khi các tác vụ như hỏi và trả lời hoặc phân loại văn bản lại cần một cặp câu hoặc toàn bộ văn bản làm đầu vào.

Quá trình biểu diễn đầu vào của BERT được thực hiện bằng cách kết hợp các token đầu vào với véc-tơ phân đoạn và vị trí tương ứng trong văn bản, giúp mô hình hiểu rõ ngữ cảnh và cấu trúc của câu.

Hình 4.4: Mô phỏng quá trình biểu diễn đầu vào của BERT

• Văn bản đầu vào được thêm một token [CLS] ở đầu tiên của văn bản Đầu ra của

Transformer cuối cùng (lớp Hidden State) tương ứng với token này sẽ đại diện cho toàn bộ câu trong nhiệm vụ phân loại Nếu không thực hiện nhiệm vụ phân loại, véc-tơ này sẽ không được sử dụng.

• Các từ - token được chuyển đổi từ những từ thành những véc-tơ có 768 chiều.

Segment Embedding xác định các token thuộc về câu A và câu B, giúp phân biệt rõ ràng giữa hai câu bằng cách sử dụng token [CLS] để bắt đầu và token [SEP] để kết thúc câu.

Position Embedding giúp xác định vị trí của các token trong câu, với chiều dài tối đa lên đến 512, tương ứng với khả năng xử lý tối đa 512 token trong một input đầu vào.

• Kết hợp cả 3 biểu diễn cho văn bản đầu vào bao gồm Token Embedding, Segment Embedding và Position Embedding tạo ra đầu vào của mô hình BERT.

2 Những tác vụ tiền huấn luyện

BERT áp dụng hai nhiệm vụ dự đoán không giám sát, bao gồm Mô hình ngôn ngữ có mặt nạ (Mask Language Model) và Dự đoán câu tiếp theo (Next Sentence Prediction).

Mô hình Ngôn ngữ Che giấu (Mask Language Model) là một phương pháp học sâu mà BERT áp dụng để xử lý ngữ cảnh hai chiều, khắc phục vấn đề nghịch lý khi một từ có thể nhìn thấy gián tiếp trong ngữ cảnh phức tạp BERT thực hiện điều này bằng cách che giấu một token trong câu và thay thế bằng token [MASK], từ đó dự đoán token bị che giấu dựa trên các token ngữ cảnh hai chiều Các véc-tơ ẩn ở lớp cuối tương ứng với các token [MASK] được đưa vào một lớp softmax để dự đoán, và nghiên cứu của Google cho thấy việc che giấu 15% số token mang lại hiệu quả tốt nhất trong quá trình dự đoán.

Hình 4.5: Mô phỏng quá trình che giấu token và dự đoán token được che giấu đó

Quá trình pre-trained và fine-tuning có nhược điểm khi các token [MASK] trong giai đoạn tiền huấn luyện không xuất hiện trong giai đoạn tinh chỉnh Điều này khiến việc che giấu các token không thể thực hiện một cách nhất quán, vì chỉ có 15% token được chọn ngẫu nhiên từ toàn bộ tập từ (vocabulary) để che giấu.

Lấy ví dụ "Hôm nay tôi đi học" từ được chọn để che giấu là "học":

• Thay thế 80% từ được chọn trong tập huấn luyện với [MASK] token => "Hôm nay tôi đi [MASK]"

• Thay thế 10% từ được chọn với một từ ngẫu nhiên => "Hôm nay tôi đi nằm"

• 10% các từ được chọn còn lại vẫn giữ nguyên => "Hôm nay tôi đi học"

Dự đoán Câu Tiếp Theo (Next Sentence Prediction) là một nhiệm vụ quan trọng trong xử lý ngôn ngữ tự nhiên, đặc biệt trong các ứng dụng như Trả Lời Câu Hỏi (Question Answering) Quá trình này liên quan đến việc mô hình nhận các cặp câu đầu vào và xác định xem câu thứ hai có phải là câu tiếp theo của câu đầu tiên hay không Ví dụ, với cặp câu A và B, mô hình sẽ dự đoán mối quan hệ giữa chúng để xác định tính liên kết trong văn bản.

Trong quá trình huấn luyện mô hình, các cặp câu A và B được phân chia thành hai nhóm: 50% B (nhãn IsNext) là câu tiếp theo của A, trong khi 50% còn lại B (nhãn NotNext) là một câu ngẫu nhiên từ tập ngữ liệu Giả thuyết đặt ra là câu A không liên quan đến câu B.

Trong quá trình xử lý dữ liệu, token [CLS] được thêm vào đầu câu đầu tiên, trong khi token [SEP] đánh dấu điểm kết thúc của mỗi câu Để xác định vị trí các câu, segment embedding được sử dụng Mô hình sẽ dự đoán mối quan hệ giữa các câu bằng cách tính xác suất nhãn IsNext hoặc NotNext cho cặp câu đầu vào.

Cơ chế self-attention của Transformer cho phép tinh chỉnh các tham số một cách đơn giản Bằng cách thay đổi thứ tự vị trí đầu vào và đầu ra, các tác vụ liên quan đến văn bản ngắn hoặc dài đều có thể được xử lý hiệu quả.

Việc tinh chỉnh các tham số được thực hiện một cách đơn giản thông qua việc thêm một lớp layer mang tính đặc trưng cho tác vụ đó:

• Những tác vụ phân loại bằng cách thêm 1 lớp phân loại lên trên lớp phân loại lên trên đầu ra của Transformers cho [CLS] token.

• Trong tác vụ Trả lời câu hỏi, BERT học thêm 2 vector đánh dấu phần đầu và phần cuối của câu trả lời

Trong tác vụ Nhận dạng tên thực thể, BERT sử dụng vector đầu ra của từng token để huấn luyện và phân loại, nhằm dự đoán nhãn cho các thực thể.

Kết quả BERT đạt được

Các thử nghiệm thực tế trên các tác vụ cụ thể BERT đã đạt được:

Tập dữ liệu General Language Understanding Evaluation (GLUE) được thiết kế để đánh giá khả năng hiểu ngôn ngữ tự nhiên với nhiều tác vụ khác nhau Mô hình BERT đã chứng minh hiệu quả vượt trội, đạt điểm trung bình 81.9 cho phiên bản BERT Large và 79.6 cho phiên bản BERT Base.

So sánh với OpenAI GPT(75.2) và các mô hình khác(PreOpenAI Sota, BiLSTM + ELMO + Atm dưới 75)

Tập dữ liệu Stanford Question Answering Dataset (SQuAD) bao gồm 100.000 ví dụ mẫu với các cặp câu hỏi và câu trả lời do cộng đồng đóng góp Nhiệm vụ của SQuAD là xác định câu chứa câu trả lời trong một đoạn văn từ Wikipedia dựa trên câu hỏi được đưa ra Mô hình BERT Large đạt được F1 score là 83.1, vượt trội hơn so với mạng unet với 74.9, nhưng vẫn thấp hơn so với dự đoán của con người là 89.5.

The performance evaluation of a token labeling task reveals that BERT, fine-tuned on the CoNLL 2003 Named Entity Recognition (NER) dataset, achieved impressive F1 scores of 92.8 for BERT Large and 92.4 for BERT Base This dataset consists of 200,000 manually labeled words categorized into entities such as Person, Organization, Location, Miscellaneous, and Other In comparison, the ELMO+BiLSTM+CRF model scored 92.2, while the CVT+Multi model achieved 92.6, highlighting BERT's superior performance in named entity recognition tasks.

Khai thác ngữ nghĩa văn bản tiếng Việt với PhoBERT

Khối LDA

Khối PhoBERT

Khối Autoencoder

Khối Clustering

Thu thập dữ liệu

Đánh giá khách quan, chủ quan và so sánh các mô hình

Kết quả từ các tập dữ liệu

Tiêu đề	Gom Cụm Văn Bản Dựa Trên Mô Hình Phát Hiện Chủ Đề
Tác giả	Nguyễn Văn Quyền Lâm
Người hướng dẫn	TS. Lê Thanh Vân
Trường học	Đại Học Bách Khoa
Chuyên ngành	Khoa Học Máy Tính
Thể loại	Luận Văn Tốt Nghiệp
Năm xuất bản	2021
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	98
Dung lượng	1,88 MB

Gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Mục tiêu, đối tượng và phạm vi giới hạn của đề tài

Mục tiêu

Đối tượng và phạm vi giới hạn của đề tài

Phương pháp nghiên cứu

Các thách thức gặp phải trong quá trình thực hiện luận văn

Ý nghĩa của đề tài

Ý nghĩa khoa học

Ý nghĩa thực tiễn

Tổng quan về chủ đề

Tổng quan về mô hình chủ đề

Khái niệm về mô hình chủ đề

Lịch sử của mô hình chủ đề

Một số mô hình chủ đề chính

Mô hình LSA

Mô hình pLSA

Mô hình LDA

Mô hình CTM

Một số mô hình khác

Mô hình LDA

Tổng kết chương 2

Tổng quan về gom cụm

Phương pháp gom cụm dữ liệu với Kmeans++

Tổng kết chương 3

Tổng quan về Sentence Embedding

Mô hình BERT

Sự ra đời của BERT

Kiến trúc

Kết quả BERT đạt được

Khai thác ngữ nghĩa văn bản tiếng Việt với PhoBERT

Khối LDA

Khối PhoBERT

Khối Autoencoder

Khối Clustering

Thu thập dữ liệu

Đánh giá khách quan, chủ quan và so sánh các mô hình

Kết quả từ các tập dữ liệu

Mô phỏng thuật toán Kmeans[55]

Kiến trúc của một Autoencoder [19]