5 Đề xuất mơ hình gom cụm văn bản dựa trên mơ hình chủ đề kết hợp với véc-tơ ngữ
2.5 Kiến trúc của Mơ hình LDA
LDA giả định q trình sinh xác suất cho tồn bộ văn bảnDbao gồm M văn bản như sau:
• Với mỗi document lựa chọn độ dài văn bảnN∼Poisson(ξ)
• Lựa chọn ma trậnθ ∼Dir(α). Sao cho tham sốθichính là phân phối của topic của văn bản document thứ i. Tham sốα thường là một one-hot vectork chiều. Mỗi chiều của
α đặc trưng cho một topic
• Lựa chọn ma trận ϕ ∼Dir(β)đại diện cho phân phối của từ theo topic. Tham số β
thường là một one-hot vectorkchiều. Mỗi chiều củaβ đặc trưng cho một topic
• Đối với mỗi một wordwi j thuộc document i và ở vị trí thứ j trong document đó:
– Lựa chọn một phân phối topiczi j∼Multinomial(θi). Trong đóα zi jlà một số nguyên nằm trong khoảng[1..K]xác định topic của tất cả các word trong document. Có nghĩa là tất cả các word đều được xác định bởi một topic cụ thể.
– Lựa chọn một từ wi j ∼Multinomial(ϕi,j) hay p(wn|zn,β). Trong đówi j là các số nguyên trong khoảng[1..V]. Có nghĩa là các từ được sinh ra dựa trên các chủ đề đã
được xác định.
Giả định số lượng các topics là biết trước là k, k cũng sẽ quy định số chiều của phân phối Dirichlet. Tiếp theo, xác định xác suất từ được tham số hố bằng ma trậnβ(kxV), trong đó mỗi phần tửβi j đại diện cho phân phối xác suất của từ thứ j cho chủ đề i hay
Biến xác suất ngẫu nhiên k chiều Dirichlet θ nhận giá trị trong khoảng (k-1), và hàm mật độ xác suất các các topics đối với documents khi biết tham số α theo phân phối Dirichlet: f(θ;α) = Γ(∑ K i=1αi) ∏Ki=1Γ(αi) K ∏ i=1 θiαi−1
Phân phối xác suất chung của hỗn hợp topicθ với tập N topic z và tập N từ w khiα,β
biết trước là: p(θ,z,w|α,β) =p(θ|α) N ∏ i=1 p(zn|θ)p(wn|zn,β)
Thành phần p(θ|α)chính là phân phối xác suất hỗn hợp của topic tương ứng với văn bản đã biết khi biết trước tham số phân phối Dirichletα. Phần cịn lại∏Ni=1p(zn|θ)p(wn|zn,β)
chính là phân phối xác suất khi biết trước phân phối hỗn hợpθ và tham số phân phối Dirichletβ. Nếu lấy xác suất biên của một văn bản bằng cách tích phân theoθ và lấy tổng tồn bộ các z ta được: p(w|α,β) = Z p(θ|α) N ∏ i=1 ∑ zn p(zn|θ)p(wn|zn,β)dθ
Cuối cùng, xác suất của toàn bộ văn bản dựa trên xác suất biên của mỗi từ trong văn bản: p(D|α,β) = M ∏ d=1 Z p(θd|α) N ∏ i=1 ∑ zn p(zn|θ)p(wn|zn,β)dθd
Từ phương trình xác suất trên áp dụng phương pháp EM sẽ ước lượng được các tham sốα,β từ đó tính raθ,z,ϕ,w
Nhận xét về ưu, nhược điểm và một số mơ hình dựa trên của LDA:
• Ưu điểm của LDA
– Khơng u cầu dán nhãn dữ liệu vì thuật tốn này thuộc bài tốn học khơng giám sát
– Cung cấp nhiều diễn giải theo ngữ nghĩa hơn so với LSA hay pLSA và hoạt động tốt nếu không giới hạn thời gian do hai tham sốα vàβ tạo nên độ chính xác của LDA, quá trình học tập càng dài thì hai tham số này được điều chỉnh càng tốt
– Tính được phân bố xuất hiện của từ trong chủ đề và lọc được những từ quan trọng trong chủ đề
– Xử lý được bộ dữ liệu mà văn bản có độ dài chênh lệch lớn
• Nhược điểm của LDA
– Cần sự sắp xếp các tin nhắn ngắn gọn để tránh tình trạng dữ liệu bị thưa thớt trong những văn bản ngắn
– Khơng thể mơ hình hóa mối quan hệ giữa những chủ đề và không khai thác sâu trong cấu trúc của những văn bản
– Yêu cầu số lượng chủ đề xác định trước, nếu số lượng chủ đề xác định trước này quá nhỏ thì các chủ đề tìm được q thơng dụng, nếu số lượng quá lớn thì các chủ đề tìm được có thể bị trùng lặp hoặc khơng thể xác định chủ đề.
• Các mơ hình mở rộng dựa trên mơ hình LDA
– HLDA(Hierarchical Latent Dirichlet Allocation)(2004)[24]. HLDA được giới thiệu như một phiên bản mở rộng của LDA, thay vì sử dụng chủ đề dạng phẳng(flat topic) thì mơ hình này sử dụng cây chủ đề (tree of topic). HLDA sử dụng một mơ hình Bayesian phi tham số đề sinh phân phối tiên nghiệm dựa trên từng phần sử dụng quy trình nhà hàng Trung Quốc để xây dựng phân cấp chủ đề. Mỗi nút trong cây được liên kết với nhau như một chủ đề và những chủ đề này là một phân phối của các từ. Văn bản được sinh ra bởi việc duyệt qua các chủ đề từ gốc đến lá, việc lấy mẫu chủ đề được lặp đi lặp lại trên các đường dẫn và lấy mẫu từ từ các chủ đề lồng nhau
– DTM(Dynamic topic modeling)(2006)[11]. DTM được giới thiệu là một phần mở rộng của LDA dựa trên việc phát hiện các chủ đề như một quá trình phát triển của thời gian trong tập văn bản được sắp xếp tuần tự. Những văn bản siêu dữ liệu được sử dụng như khái niệm thời gian mô tả phân phối xác suất word-topic để giúp trực giác hóa sự phát triển xu hướng chủ đề. Một chủ đề là một chuỗi các phân phối của nhiều từ thay vì chỉ là một phân phối đơn trên các từ. DTM suy luận phức tạp hơn bởi vì phương pháp lấy mẫu và tính khơng liên hợp (no-conjugacy) - được khắc phục bởi sử dụng Hồi quy Wavelet hoặc phương pháp lọc biến Variational Kalman. DTM có khả năng theo dõi một số lượng cố định những chủ đề thông qua khái niệm rời rạc về thời gian
– CorrTM(Correlated topic models)(2006)[10]. Được giới thiệu là để vượt qua những hạn chế của LDA trong xử lý các mối tương quan giữa những chủ đề. Phân phối chuẩn logistic thể hiện mối tương quan giữa tỷ lệ các chủ đề thay vì sử dụng phân phối Dirichlet. CorrTM có thể tạo một mơ hình cấu trúc phức tạp của các chủ đề cơ bản với ma trận trực giác hiệp phương sai tạo thành một dạng đồ thị chủ đề. So với LDA thì mơ hình bắt buộc sự độc lập lẫn nhau giữa các chủ đề nên dẫn đến các chủ đề mang tính rõ ràng hơn. Thuật tốn Mean variational sử dụng để suy luận trong mơ hình này tạo thành một phân phối thừa số của các chủ đề. CorrTM luôn chứng
minh khả năng biểu hiện tốt hơn LDA và rất hiệu quả trong việc khám phá và hình dung chủ đề.
– MGLDA (Multi-Gran Topic Model)(2008)[52]. Được giới thiệu như một phiên bản mở rộng cho LDA và PLSA trong việc tạo ra nhiều chủ đề (multi-grain topics). Trong mơ hình này các chủ đề được định danh là duy nhất và như là những chủ đề toàn cục và chủ đề cục bộ. Phân phối các chủ đề cục bộ thay đổi thông qua các văn bản. Việc lấy mẫu cho từ trong văn bản là bộ trộn từ những chủ đề cục bộ trong một ngữ cảnh cục bộ của từ hoặc từ bộ trộn của những chủ đề toàn cục. Gibbs Sampling được sử dụng để suy luận trong mô hình. MGLDA đã cho những kết quả đầy hứa hẹn khi được áp dụng để trích xuất các khía cạnh đánh giá từ những bài đánh giá online. Mơ hình này phù hợp cho bài toán xếp hạng đánh giá online
– CTM(Concept Topic Model)(2011)[51]. Được giới thiệu là một mơ hình xác suất kết hợp hệ thống phân cấp của con người định nghĩa các khái niệm ngữ nghĩa với một mơ hình xác suất chủ đề để tạo ra khái niệm giàu ngữ nghĩa. Trong mơ hình này các khái niệm(concept) được thêm vào các chủ đề (topics) của mơ hình chủ đề để tạo ra một bộ chủ đề hiệu quả hơn và phân phối xác suất concept-word cho mỗi văn bản.
– SCNTM(Supervised Citation Network Topic Model)(2015)[34]. Được giới thiệu là mơ hình chủ đề phi tham số, là sự kết hợp giữa bộ bộ trộn của mơ hình author-topic và mơ hình liên kết Poison mixed-topic để mà tổ hợp phân tích bộ ba authors, topics và documents. SCNTM sinh những vector xác suất dưới dạng những biến đếm sử dụng phân phối xác suất Griffiths-Engen-McCloskey (GEM) kết hợp với nền tảng phân phối xác suất như Pitman-Yor process (PYP) - tăng quá trình hierarchical Pitman-Yor process (HPYP). Trong mơ hình này mỗi documents và thơng tin tác giả đề được gán nhãn phân loại để sử dụng cho quá trình học giám sát. Quá trình học của mơ hình sử dụng thuật toán Markov chain Monte Carlo (MCMC) - thuật toán này sử dụng liên hợp giữa phân phối đa thức và phân phối Dirichlet
– ELDA (EnrichedLDA)(2017)[40]. Mơ hình này đề xuất phương pháp kết hợp quan hệ đồng xuất hiện như các kiến thức miền tiên nghiệm h vào mơ hình LDA. Trong mơ hình này khởi tạo các khía cạnh được mơ hình LDA thực hiện. Sau đó sẽ lặp đi lặp lại q trình trích xuất kiến thức tiên nghiệm một cách tự động nhờ mối quan hệ đồng xuất hiện. Cuối cùng là trích xuất những kiến thức đã lấy được và đưa vào mơ hình LDA.
Qua đó, mơ hình LDA thể hiện đem lại được những kết quả tương đối tốt và hiện nay vẫn được ứng dụng, nghiên cứu nhiều. Nhìn nhận được các điểm yếu cịn tồn tại của mơ hình, áp dụng các phương pháp hiện đại cùng với việc chỉnh sửa cho các tham số với hi vọng sẽ cải thiện độ chính xác và đem lại một mơ hình mới khả thi hơn. Do đó đề tài này quyết định lựa chọn mơ hình LDA là một trong những trọng tâm lý thuyết, thực nghiệm và nghiên cứu chính.
2.5 Tổng kết chương 2
Chương 2 với mục tiêu tìm hiểu lý thuyết liên quan và sự phát triển của các mơ hình chủ đề từ khi ra đời đến lúc áp dụng các phương pháp hiện đại ngày nay. Qua đó nghiên cứu những ưu điểm và hạn chế của từng mơ hình chủ đề. Tập trung làm rõ mơ hình LDA - mơ hình được sử dụng để thực nghiệm trong đề tài này.
Chương 3
Gom cụm(Clustering)
3.1 Tổng quan về gom cụm
Gom cụm hay phân cụm là một loại phương pháp học không giám sát(unsupervised learn- ing) trong học máy(machine learning). Trong phương pháp học không giám sát, các kết luận được rút ra từ một đầu vào là những tập dữ liệu không dán nhãn. Đây là một kỹ thuật phân tích khai phá dữ liệu cho phép phân tích trên những tập dữ liệu đa biến.
Phân cụm là nhiệm vụ phân chia các tập dữ liệu thành một số cụm nhất định sao cho các điểm dữ liệu thuộc một cụm nhất định có các đặc điểm tương tự nhau. Các cụm đại diện cho những nhóm các điểm dữ liệu mà ở đó khoảng cách giữa các điểm dữ liệu trong cụm là nhỏ nhất. Nói một cách khác, các cụm sẽ là những vùng có mật độ các điểm dữ liệu tương tự cao. Các cụm sẽ có nhiều hình dạng khác nhau tuỳ thuộc vào bản chất dữ liệu và độ đo tương tự dữ liệu được sử dụng khi phân tích cụm.
Những phương pháp phân cụm dữ liệu:
• Phân cụm dựa trên mật độ(Density-Based Clustering). Trong phương pháp này việc phân cụm dựa trên mật độ của các điểm dữ liệu trong không gian dữ liệu. Các vùng có sự xuất hiện dày đặc của lượng lớn dữ liệu được gọi là các cụm dữ liệu(cluster). Ngược lại, các vùng mà thưa thớt dữ liệu, nơi mà sự xuất hiện dữ liệu rất ít thì được xem là vùng nhiễu(noise) hoặc vùng ngoại lai(outlier). Một số thuật toán phân cụm dựa trên mật độ:
DBSCAN (Density-Based Spatial Clustering of Applications with Noise)[23], OPTICS (Ordering Points to Identify Clustering Structure)[2], HDBSCAN (Hierarchical Density- Based Spatial Clustering of Applications with Noise)[13]
• Phân cụm phân cấp(Hierarchical Clustering). Là phương pháp phân cụm nhằm xây dựng một hệ thống phân cấp cho các cụm. Phương pháp này có hai chiến lược: Tổng hợp(Agglomerative hoặc Bottum-Up) - mỗi điểm dữ liệu bắt đầu là một cụm và các cặp cụm sẽ được hợp nhất khi di chuyển lên trên của kiến trúc phân cấp, Phân chia(Divide hoặc Top-Down) - tất cả các điểm bắt đầu trong một cụm khởi tạo, việc phân chia cụm sẽ thực hiện đệ quy khi di chuyển xuống dưới của kiến trúc phân cấp. Sự hợp nhất và phân chia cụm được tiến hành theo chiến lược tham lam, kết quả của việc phân chia cụm thường được biểu diễn trong một biểu đồ(dendrogram).
• Phân cụm mờ(Fuzzy Clustering). Việc gán các điểm dữ liệu cho bất kì các cụm khơng mang tính quyết định. Các điểm dữ liệu có thể thuộc về nhiều hơn một cụm. Kết quả của phân cụm mờ là xác suất của điểm dữ liệu thuộc về mỗi cụm. Thuật toán được sử dụng trong phân cụm mờ là Fuzzy C-means clustering (FCM) được phát triển năm 1973 bởi J.C. Dunn[22] và được cải tiến năm 1981 bởi J.C. Bezdek[8].
• Phân cụm phân vùng(Partitioning Clustering). Là một phương pháp phổ biến được sử dụng cho các nhà nghiên cứu hoặc phân tích trong phân cụm dữ liệu. Trong phân cụm phân vùng, các cụm được phân vùng dựa trên đặc điểm của các điểm dữ liệu. Việc phân cụm này cần được chỉ định số lượng cụm cần được phân chia, quá trình này tuỳ thuộc vào yêu cầu bài toán đang xử lý. Các thuật tốn trong phương pháp này tn theo một quy trình lặp đi lặp lại để gán các điểm dữ liệu giữa các cụm dựa trên khoảng cách. Thuật toán được sử dụng là Kmeans[36], thuật toán này dựa trên ý tưởng là phân chia các điểm dữ liệu đến các trung tâm cụm(centroid), sao cho đến một lúc nào đó, việc gán lại các điểm dữ liệu sẽ không thay đổi cho các cụm. Ngồi ra cũng có một số thuật tốn khác phát triển dựa trên Kmeans như: PAM (Partitioning Around Medoids - Kmeans-medoid), Kmeans-medians, ...
• Phân cụm dựa trên lưới(Grid-Based Clustering). Tập dữ liệu được biểu diễn thành một cấu trúc lưới bao gồm các ơ. Cách tiếp cận tổng thể của thuật tốn này nằm trong việc quan tâm nhiều hơn đến không gian giá trị xung quanh các điểm dữ liệu hơn là bản thân điểm dữ liệu. Một trong những ưu điểm lớn nhất của thuật toán này là giảm độ phức tạp trong tính tốn. Giúp nó thích hợp trong xử lý dữ liệu lớn, khổng lồ. Ý tưởng của thuật toán nằm trong việc phân vùng dữ liệu thành nhiều ơ, sau đó dựa vào mật độ các ơ sinh ra để phân cụm
dữ liệu. Một số thuật toán phân cụm dựa trên lưới: STING (Statistical Information Grid Approach)[54], WaveCluster[50], CLIQUE (Clustering in Quest)[44]
Gom cụm dữ liệu có rất nhiều ứng dụng trong nhiều ngành công nghiệp khác nhau. Một số ứng dụng của gom cụm như:
• Cơng cụ đề xuất(Recommendation engine). Q trình gom cụm giúp phát hiện được những đặc trưng giống nhau trong một cụm cụ thể từ đó có thể cá nhân hố hành động, sở thích, thói quen ... cho một dạng khách hàng cụ thể. Q trình này góp phần tăng độ chính xác của thuật tốn ứng dụng trong các hệ thống đề xuất.
• Phân khúc thị trường và khách hàng. Quá trình phân chia thị trường mục tiêu thành các thị trường nhỏ hơn, tập trung chủ yếu vào một lượng khách hàng nhất định đó là q trình phân khúc thị trường. Gom cụm giúp phân khúc khách hàng theo các đặc điểm giống nhau về nhân khẩu học, sở thích, nhu cầu,... Các nhóm khách hàng được tạo ra giúp các cơng ty xác định được nhóm khách hàng tiềm năng cho sản phẩm và dịch vụ của mình trong tương lai.
• Phân tích mạng xã hội. Phân cụm dữ liệu phân tích và đo lường những mối quan hệ ràng buộc và xung đột giữa các thành phần có trong mạng xã hội như con người, công ty, quốc gia, mạng máy tính. Thơng qua phân cụm dữ liệu, phân tích mạng xã hội có thể hình dung được mối tương tác giữa các đối tượng và một số thơng tin quan trọng về vai trị của đối tượng hay nhóm mà đối tượng thuộc về.
• Phân cụm kết quả tìm kiếm. Các kết quả tìm kiếm trên các cơng cụ tìm kiếm hiện nay là tập hợp của các đối tượng có liên quan mật thiết với nhau bởi dữ liệu được tìm kiếm. Tuỳ thuộc vào các đối tượng hoặc thuộc tính tương tự gần nhất mà dữ liệu được gán cho một cụm, do đó hình thành một lượng lớn các tập hợp kết quả cho người dùng. Hay các cơng