Thành phần xác định sự kiện tụ tập đông người làm nhiệm vụ nhận diện ra các bài viết, ý kiến có tính chất kêu gọi tụ tập. Chúng tôi xây dựng một mô hình phân lớp các sự kiện đã được nhận diện ở thành phần trước vào hai lớp: sự kiện bình thường và sự kiện có kêu gọi tu tập.
Hình 17 Mô hình phân lớp Maximum Entropy
Để xây dựng mô hình phân lớp chúng tôi tiến hành thu thập thủ công các bài viết, ý kiến trên mạng xã hội Facebook về kêu gọi tu tập đông người và các bài viết, ý kiến có một từ “nhạy cảm” (ví dụ: xuống đường, biểu tình,…) nhưng không phải là kêu gọi tu tập.
Ví dụ: “ai Hà Nội xuống đường biểu tình đê!”(sự kiện kêu gọi tu tập)
hay “TOÀN DÂN XUỐNG ĐƯỜNG BIỂU TÌNH PHẢN ĐỐI TRUNG QUỐC GÂY HẤN VÀ XÂM PHẠM CHỦ QUYỀN VIỆT NAM TRÊN BIỂN ĐÔNG NGÀY CHỦ NHẬT
02.06.2013!”(sự kiện kêu gọi tu tập)
hoặc “Tôi suốt ngày nghe thấy biểu tình này nọ” (không phải sự kiện kêu gọi tu tập)
Các đặc trưng được sử dụng là: đặc trưng từ vựng, nhãn từ loại, nhãn cụm từ, ngữ cảnh xung quanh,… Mô hình được xây dựng bằng giải thuật entropy cực đại (Maximum entropy - Maxent). Giải thuật này được đánh giá hoạt động tốt đối với các tập dữ liệu thưa.
Bài viết/ ý kiến được nhận diện là tụ tập đông người thì các sự kiện chứa các bài viết/ ý kiến đấy sẽ được cảnh báo với người giám sát.
31
Phần tiếp theo trình bày về mô hình entropy cực đại và phương pháp xây dựng mô hình.
Giới thiệu mô hình entropy cực đại
Mô hình entropy cực đại (Maximum entropy) là mô hình dựa trên xác suất có điều kiện cho phép tích hợp các thuộc tính đa dạng từ dữ liệu mẫu nhằm hỗ trợ quá trình phân lớp.
Trước khi trình bày về mô hình entropy cực đại, chúng ta cùng xem xét một ví dụ đơn giản sau. Xét một quá trình ngẫu nhiên: gieo con súc sắc, đồng chất, cân đối. Quan sát 1.000 lần thử, thống kê xác suất xuất hiện của từng mặt ta có nhận xét:
∑ 𝑝(𝑖) 6
𝑖=1
= 1 (1)
p(i)là xác suất xuất hiện của mặt có i chấm.
Dễ dàng nhận thấy có rất nhiều nghiệm thỏa mãn phương trình (1), ví dụ với p(1) = 1 và tất cả các mặt khác có xác suất bằng 0 nghĩa là mặt xuất hiện luôn là mặt 1.
Tuy nhiên, ta biết rằng trong thực tếquá trình sinh các mặt là ngẫu nhiên nên phân phối giống với phân phối thực nhất là: xác suất xuất hiện cho từng mặt là bằng nhau, hay nói khác phân phối xác suất ở đây là phân phối đều:
p(1) = p(2) = p(3) = p(4) = p(5) = p(6) = 1/6
Giả sử, vì một lý do sản xuất nào đó, con súc sắc bị lệch về hai mặt 1 và 4. Trong 1000 lần gieo thử, ta quan sát thấy rằng số lần xuất hiện mặt 1 và mặt 4 chiếm 50% số lần tung:
p(1) + p(4) = 1/2 (2)
Vì phân phối xác suất cho các mặt vẫn tuân theo phương trình (1) nên ta có:
p(2) + p(3) + p(5) + p(6) = 1/2 (3)
Rõ ràng có rất nhiều phân phối thoả mãn cho cả phương trình (2) và (3), ví dụ với p(1) = 1/3, p(4) = 1/6 và p(2) = 1/8, các mặt 3, 5, 6 có xác suất xuất hiện là 0. Tuy nhiên, lại một lần nữa ta thấy rằng, phân phối giống với phân phối thực nhất là:
p(1) = p(4) = 1/4
p(2) = p(3) = p(5) = p(6) = 1/8
Dữ liệu trong thế giới thực là vô hạn, khó đoán nhận, ta mong muốn xây dựng được một mô hình mà ước lượng được gần đúng với phân phối thực thông qua một tập dữ liệu mẫu. Qua ví dụ vừa nêu trên chúng ta có nhận xét rằng: trong tập dữ liệu mẫu mà ta có được,
32
mô hình có phân phối đều nhất thì sẽ gần giống với phân phối thực nhất. Vì vậy, vấn đề đặt ra là: làm thế nào để tìm được một mô hình như vậy? Phương pháp entropy cực đại cho phép tìm ra được mô hình này.
Tư tưởng chủ đạo của nguyên lý entropy cực đại rất đơn giản: ta phải xác định môt phân phối mô hình sao cho phân phối đó tuân theo mọi giả thiết đã quan sát từ thực nghiệm, ngoài ra không cho thêm bất kì giả thiết nào khác. Điều này có nghĩa là phân phối mô hình phải thoả mãn các ràng buộc quan sát từ thực nghiệm, và phải gần nhất với phân phối đều.
Entropy là độ đo về tính đồng đều hay tính không chắc chắn của một phân phối xác suất. Một phân phối xác suất có entropy càng cao thì phân phối của nó càng đều. Độ đo
Entropy điều kiện của một phân phối xác suất trên một chuối các trạng thái với điều kiện biết từ một chuỗi dữ liệu quan sát được tính như sau:
𝐻(𝑝) ≡ − ∑ 𝑝̃(𝑥)𝑝(𝑦|𝑥)𝑙𝑜𝑔 𝑝(𝑦|𝑥) 𝑥,𝑦
Xây dựng mô hình entropy cực đại
Xem xét bài toán phân lớp, với Y là tập các lớp, X là tập các thông tin ngữ cảnh, là những thông tin quan trọng cần cho việc phân lớp văn bản vào lớp Y một cách chính xác.
Nhiệm vụ trong bài toán phân lớp là xây dựng một mô hình thống kê mà dự đoán chính xác lớp của văn bản bất kì. Mô hình như vậy chính là phương pháp ước lượng xác suất có điều kiện p(y|x).
Mô hình entropy cực đại cung cấp một phương pháp đơn giản để ước lượng xác suất có điều kiện p(y|x) thông qua việc thống kê các thuộc tính quan trọng quan sát được từ tập dữ liệu huấn luyện.
• Tập dữ liệu huấn luyện
Như các phương pháp học máy khác, để làm bài toán phân lớp trước tiên phải xây dựng tập dữ liệu huấn luyện T = {(x1, y1), ..., (xN, yN)} trong đó {x1, ..., xN} là tập các thông tin ngữ cảnh đã được gán nhãn tương ứng là tập các lớp {y1, ..., yN}.
Với mỗi cặp (xi, yi), phân phối xác suất thực nghiệm của nó được tính bởi:
𝑝̃(𝑥𝑖, 𝑦𝑖) = 1
𝑁∗ 𝑠ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 ℎ𝑖ệ𝑛 𝑐ủ𝑎 (𝑥𝑖, 𝑦𝑖) 𝑡𝑟𝑜𝑛𝑔 𝑡ậ𝑝 𝑑ữ 𝑙𝑖ệ𝑢 𝑚ẫ𝑢
Thông thường thì mỗi cặp (𝑥𝑖, 𝑦𝑖) không thể không xuất hiện trong tập mẫu, nó sẽ xuất
33
• Thống kê, đặc trưng và ràng buộc
Những thống kê từ dữ liệu mẫu chính là những viên gạch đầu tiên để xây dựng mô hình. Ví dụ, khi xét bài toán lọc thưrác. Một thư được xếp vào một trong 3 nhóm sau: thư rác (Spam), không phải thư rác (non-Spam), để xem xét (warning). Quan sát từ tập dữliệu mẫu là 1.000 thư đã được gán nhãn, ta có nhận xét như sau: “nếu thư có chứa cụm từ“sản phẩm mới”, thì xác suất thư đó là thư rác là 80%”. Đây chính là một thống kê.
Ví dụ cách biểu diễn sự kiện “thư có chứa cụm từ “sản phẩm mới” là thư rác” như sau:
Gọi hàm f được biểu diễn như trên là hàm đặc trưng hay đặc trưng. Giá trị kì vọng của f
đối với phân phối thực nghiệm 𝑝̃(𝑥, 𝑦) là giá trị thống kê được một cách là giá trị thống
kê được một cách chính xác (trong ví dụ trên thì đó là: 0,8): số lần xuất hiện của f trong tập dữ liệu huấn luyện. Nó được biểu diễn như sau:
Bất kì thống kê nào sinh ra từ tập dữ liệu mẫu cũng có thể được biểu diễn một hàm kì vọng của đặc trưng f theo quy tắc như trên.
• Nguyên lý entropy cực đại
Giả sử quá trình thống kê từ tập dữ liệu huấn luyện sinh ra n đặc trưng fi, mỗi đặc trưng này sẽ xác định một ràng buộc. Gọi P là không gian của tất cả các phân phối xác suất, C là tập con của P sẽ được mô tả như sau:
Nguyên lý entropy cực đại được phát biểu rằng: “Từ tập các phân bố xác suất có thể được
là C, sẽ tìm ra được một mô hình p* ∈ C thoả mãn điều kiện làm cực đại độ đo entropy
H(p):
Dễ dàng chỉ ra rằng p* luôn luôn xác định và trong bất kì một tập C nào, cũng chỉ có duy nhất một mô hình p* làm cực đại entropy.
34