Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
1,48 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ HỒ THỊ NGA PHÂN LOẠI THÔNG ĐIỆP TRÊN MẠNG XÃ HỘI TIẾNG VIỆT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Phan Xuân Hiếu Hà Nội – 2012 MỤC LỤC MỞ ĐẦU Chương 1: TỔNG QUAN VỀ PHÂN LOẠI THÔNG ĐIỆP TRÊN MẠNG XÃ HỘI 1.1 Tổng quan phân loại văn 1.1.1 Định nghĩa 1.1.2 Một số hướng phân loại văn 1.2 Tổng quan mạng xã hội Việt Nam 1.3 Bài toán phân loại thông điệp mạng xã hội Tiếng Việt 1.3.1 Thông điệp mạng xã hội Việt Nam 1.3.2 Bài tốn phân loại thơng điệp Chương 2: PHÂN LOẠI THÔNG ĐIỆP TRÊN MẠNG XÃ HỘI TIẾNG VIỆT 10 11 2.1 Bài tốn phân loại thơng điệp mạng xã hội 11 2.2 Các chủ đề mạng xã hội Tiếng Việt 12 2.2.1 Các chủ đề chung 12 2.2.2 Các chủ đề hướng kiện (chủ đề nóng) 13 2.3 Mơ hình phân loại 14 2.3.1 Mơ hình chức 14 2.3.2 Mơ hình logic 15 2.4 Phân tích thơng điệp mạng xã hội ZingLive 16 2.4.1 Cấu trúc thông điệp ZingLive 16 2.4.2 Đặc điểm thơng điệp ZingLive 17 Chương 3: PHÂN TÍCH CHỦ ĐỀ PHỤC VỤ CHO PHÂN LOẠI 19 3.1 Chủ đề chung 19 3.2 Chủ đề nóng 21 3.3 Đại diện thông điệp 27 Chương 4: ĐỐI SÁNH VÀ PHÂN LOẠI 29 4.1 Biểu diễn chủ đề thông điệp 29 4.2 Một số phương pháp đối sánh đơn giản 30 4.2.1 Số từ khóa chung lớn 30 4.2.2 Tính tổng trọng số từ khóa chung tập chủ đề 30 4.2.3 Tính tổng trọng số từ khóa chung thông điệp 30 4.3 Phương pháp so khớp đề xuất 30 4.3.1 Chủ đề chung 30 4.3.2 Chủ đề nóng 31 Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 35 5.1 Môi trường thực nghiệm, liệu, tham số 38 5.2 Phát chủ đề nóng 38 5.3 Chủ đề chung 42 5.4 Đối sánh chủ đề 35 KẾT LUẬN 49 TÀI LIỆU THAM KHẢO 51 MỞ ĐẦU Bắt đầu vào Việt Nam vào khoảng năm 1997, từ mơ hình thử nghiệm phạm vi hẹp, kết nối với tồn cầu ba năm sau đó, internet Việt Nam đạt bước tiến dài, nhanh chóng hịa nhập với cộng đồng quốc tế Internet Việt Nam trở thành thị trường tiềm với số tăng trưởng ấn tượng (từ 800 nghìn người dùng năm 2003 lên tới 32 triệu người dùng năm 2012[2]) kèm theo tăng trưởng số lượng người dùng, lĩnh vực hoạt động internet Việt Nam không ngừng mở rộng Gần nhất, mạng xã hội xu hướng phát triển tiềm khai thác mạnh mẽ thị trường Internet Việt Mạng xã hội định nghĩa xã hội thu nhỏ ảo internet, đó, người dùng có trang cá nhân mình, họ tùy ý đưa ý kiến cá nhân vấn đề xã hội, hay chia sẻ với bạn bè sống… Sự thoải mái tính hướng cá nhân tạo nên cộng đồng mạng với khối lượng liệu chia sẻ khổng lồ Với lượng chia sẻ lên tới hàng triệu thông điệp ngày tất lĩnh vực xã hội, kiện nóng hổi thơng tin mang tính cá nhân người dùng, yêu cầu đặt với mạng xã hội cần phân loại thông điệp chia sẻ, để tiện cho theo dõi người dùng, tiện cho việc phân tích xu hướng cộng đồng hay ứng dụng quảng cáo trực tuyến hướng ngữ cảnh, v.v Từ thực tế này, em lựa chọn toán “Phân loại thông điệp mạng xã hội Tiếng Việt” làm đề tài luận văn thạc sỹ Trong tốn phân loại thông điệp mạng xã hội Việt Nam có vài vấn đề sau (1) Những thơng điệp chia sẻ mạng xã hội thường thơng điệp ngắn (dưới 500 ký tự), khó áp dụng thành công phương pháp phân loại văn thơng thường cho tốn phân loại thơng điệp (2) Cũng đặc trưng ngắn thông điệp, số lượng từ đặc trưng khơng đủ nhiều, nên khó phát chủ đề tương ứng với thông điệp cách xác (3) Thơng tin mạng xã hội có tính thay đổi liên tục theo thời gian, kiện thời điểm chia sẻ thơng điệp, chủ đề chung lĩnh vực đời sống, cần có thêm chủ đề thường xuyên cập nhật theo thời gian (4) Ứng dụng phân loại thông điệp mạng xã hội thực tế yêu cầu gần thời gian thực, cần phương pháp xử lý nhanh, đáp ứng nhu cầu sử dụng hàng triệu người dùng thời điểm đạt độ xác cao Từ vấn đề tốn phân loại thơng điệp mạng xã hội Việt Nam, sở kiến thức tìm hiểu được, em xây dựng mơ hình phân loại thông điệp cách so sánh tương đồng mặt nội dung thông điệp chủ đề theo công thức đề xuất Một cách tổng quan, mơ hình xây dựng từ thành phần sau đây: (1) Tập liệu chủ đề/từ khóa thu thập từ nguồn baomoi.com tác giả [3,4] (2) Tập chủ đề nóng thu thập thường xuyên từ internet (trong khoảng 3-7 ngày trở lại) (3) Bộ công cụ so sánh tương quan chủ đề thông điệp sử dụng công thức so sánh trích rút từ thực tế liệu Cấu trúc luận văn trình bày sau: Chương 1: Đưa số khái niệm tốn phân loại văn bản, số thơng tin phát triển mạng xã hội Việt Nam áp dụng toán phân loại văn trường hợp phân loại thông điệp mạng xã hội Việt Nam Chương 2: Mơ tả tổng quan tồn tốn phân loại thơng điệp mạng xã hội Trong sâu vào phân tích đặc trưng thông điệp mạng xã hội nội dung, chủ đề chung, chủ đề nóng – chủ đề mà thông điệp không phân loại vào Chương 3: Trình bày kỹ chủ đề tốn phân loại thơng điệp mạng xã hội Việt Nam Chương giới thiệu chi tiết bước xây dựng tập chủ đề dùng cho mạng xã hội, bao gồm việc chọn lọc từ khóa cho chủ đề chung, việc phát hiện, trích rút tập từ khóa cho chủ đề nóng Chương 4: Đề cập đến số phương pháp để phân loại thơng điệp mạng xã hội, giải thích chi tiết cơng thức so khớp mà tác giả đề xuất sử dụng cho việc phân loại thơng điệp vào chủ đề chung, chủ đề nóng Chương 5: Là phần trình bày mơ hình thực nghiệm kết thực nghiệm đạt Chương phân tích kết đạt hai trường hợp: Phân loại thông điệp vào chủ đề chung (sử dụng lại tập từ khóa tác giả [23]) Phân loại thông điệp theo chủ đề nóng (theo thời gian) tác giả phát triển Phần KẾT LUẬN đưa nhận xét tổng quan kết đạt đề tài Phân tích vấn đề tồn hướng cải tiến tương lai Chương 1: TỔNG QUAN VỀ PHÂN LOẠI THÔNG ĐIỆP TRÊN MẠNG XÃ HỘI Chương giới thiệu nhìn tổng quan khái niệm, liệu liên quan đến tốn phân loại thơng điệp mạng xã hội, cụ thể gồm có: phân loại văn bản, mạng xã hội, mạng xã hội Việt Nam tốn phân loại thơng điệp mạng xã hội 1.1 Tổng quan phân loại văn 1.1.1 Định nghĩa Phân loại văn (hay gọi phân lớp văn - text classification) q trình gán nhãn lớp/tên lớp văn ngơn ngữ tự nhiên vào hay nhiều lớp cho trước Văn Chủ đề Văn đầu vào Bộ phân loại văn Chủ đề n Hình 1.0.1 - Mơ hình phân loại văn Định nghĩa phân loại (lớp) văn [1]: Phân loại văn nhiệm vụ đặt giá trị nhị phân cho cặp (d j , ci ) D C , D tập văn bản, C c1 , c2 , , cc tập lớp cho trước Giá trị F (false) gán cho cặp d , c có nghĩa tài liệu d Giá trị T (true) gán cho cặp d j , ci có nghĩa tài liệu d j thuộc lớp ci j i j khơng thuộc lớp ci Hay nói cách khác, phân loại văn tốn tìm hàm : D C T , F D tập văn bản, C c1 , c2 , , cc tập lớp cho trước, hàm : D C T , F gọi phân loại 1.1.2 Một số hướng phân loại văn Cách đơn giản để phân loại văn dùng phương pháp thủ cơng, duyệt qua tồn nội dung văn định xem văn thuộc lớp Tuy nhiên, phương pháp gặp phải số khó khăn sau[1]: - Đối với lĩnh vực đặc biệt, phân loại đối tượng (như sở liệu y tế, pháp luật) vào lớp cho trước cần có hiểu biết lĩnh vực - Phân lớp tay đơi khơng xác định phụ thuộc vào hiểu biết động người thực - Quyết định hai chuyên gia khác nảy sinh bất đồng ý kiến Vì cơng cụ để tự động phân lớp văn vào lớp hữu ích với cơng việc thơng tin tràn ngập ngày Có nhiều phương pháp đưa để giải toán này, có số phương pháp Bayesian, máy vector hỗ trợ (Support Vector Machines), K người láng giềng gần (K-NN), định (Decision Tree) 1.2 Mạng xã hội (*) Mạng xã hội, hay gọi mạng xã hội ảo, (tiếng Anh: social network) dịch vụ nối kết thành viên sở thích Internet lại với với nhiều mục đích khác khơng phân biệt khơng gian thời gian Nút (node): Là thực thể mạng Thực thể cá nhân, doanh nghiệp tổ chức Liên kết (tie): mối quan hệ thực thể Trong mạng có nhiều kiểu liên kết Ở dạng đơn giản nhất, mạng xã hội đơn đồ thị vô hướng mối liên kết phù hợp nút Ta biểu diễn mạng liên kết biểu đồ mà nút biểu diễn điểm liên kết biểu diễn đoạn thẳng Hình 1.0.2 – Mơ hình liên kết mạng xã hội 1.3 Mạng xã hội Việt Nam Hình 1.0.3 – Một số mạng xã hội Việt Nam Sự phát triển mạnh mẽ mạng xã hội Việt Nam, với lượng thông tin chia sẻ không lồ, đưa nhiều toán cần giải mạng xã hội Việt Nam, số đó, tốn phân loại thơng điệp mạng xã hội Tiếng Việt 1.4 Bài toán phân loại thông điệp mạng xã hội Tiếng Việt 1.4.1 Thông điệp mạng xã hội Tiếng Việt Mạng xã hội nói chung, có số đặc điểm sau thông điệp chia sẻ - Do cộng đồng (những người sở hữu tài khoản mạng xã hội) đưa lên - Số lượng lớn thường cập nhật liên tục - Đa dạng, phong phú nội dung (video, hình ảnh, âm nhạc, viết giải trí, viết học thuật, chia sẻ tâm sự, tình cảm…) - Thông điệp viết Tiếng Việt, Tiếng Việt không dấu, viết tắt, không chuẩn ngữ pháp 1.4.2 Một số đặc trưng tiếng Việt Tiếng Việt ngôn ngữ khác có đặc trưng riêng mà cần phải nắm trước thực xử lý nó[4] 1.4.3 Bài tốn phân loại thơng điệp Thực tế, tốn phân loại thơng điệp tốn phân loại văn Tuy nhiên, với trường hợp thông điệp chia sẻ mạng xã hội Tiếng Việt, tốn phân loại thơng điệp có đặc tính riêng sau: - Xử lý trường hợp thông điệp ngắn, thông điệp thường khơng có ngữ cảnh, khơng có nhiều từ đặc trưng để dễ dàng nhận đề cập tới chủ đề - Số lượng thông điệp xử lý lớn (có thể lên tới hàng triệu – ví dụ mạng xã hội ZingMe, ngày có khoảng 14.000 blog 383.000 trạng thái (status) chia sẻ) - Xử lý với Tiếng Việt theo đặc trưng ngữ âm, cấu tạo từ, ngữ pháp nêu phần 1.4.2 Chương 2: PHÂN LOẠI THÔNG ĐIỆP TRÊN MẠNG XÃ HỘI TIẾNG VIỆT Chương hai giới thiệu chi tiết tốn phân loại thơng điệp mạng xã hội Tiếng Việt, đồng thời, trọng giới thiệu tập chủ đề đặc trưng tương ứng chúng mạng xã hội Chương đưa mơ hình xử lý tổng quan mơ hình lơgic tốn phân loại thơng điệp mạng xã hội Việt Nam mà tác giả xây dựng 2.1 Phân loại thông điệp mạng xã hội Tiếng Việt Dữ liệu: Thông điệp m với đặc trưng: o Ngắn o Được viết Tiếng Việt o Có thể chứa liên kết web Yêu cầu: Thiết kế hệ thống phân loại thông điệp, đáp ứng yêu cầu sau đây: o Số lượng thơng điệp lớn, lên tới hàng triệu thông điệp đăng ngày o Tốc độ xử lý nhanh – gần với thời gian thực o Tính thay đổi chủ đề cao, chủ đề mạng xã hội thường không ổn định theo lớp sẵn có, mà thay đổi theo thời gian, kiện bật báo chí, truyền hình đưa tin… 2.2 Các chủ đề mạng xã hội Tiếng Việt 2.2.1 Các chủ đề chung Với đặc trưng mạng xã hội, nội dung đưa lên phần lớn người dùng, thông tin chia sẻ mạng xã hội thường thông tin cập nhật hàng ngày Tập chủ đề thu thập từ liệu trang Baomoi tác giả [18], em xây dựng tập gồm 49 chủ đề chung như: Ẩm thực-Dinh dưỡng, Kinh-tế_Tài-chính_Ngân-hàng, Xã-hội_Giáo dục, Giải-trí, Cơng-nghệ-thơng-tin_Truyền-thơng, Tâmsự_Tình-u, Pháp-luật… Chi tiết tất chủ đề xem (*) Các chủ đề khơng hồn tồn tách biệt mà đơi trùng khớp phần nhau, thơng điệp có nhiều lớp chủ đề Ẩm-thực_Dinh-dưỡng Bất-động-sản Biển-đảo Chính-phủ_Chính_sách Chính-phủ_Hợp-tác-quốc-tế Chính-trị_Việt-Nam Chính-trị_Thế-giới Chứng-khốn Cơng-nghệ-thơng-tin_Truyềnthơng Cơng-nghiệp_Sản-xuất Dịch-vụ_Mobile Doanh-nghiệp_Doanh-nhân Du-lịch_Văn-hóa Giải-trí Games Giao-thơng_Tai-nạn Hơn-nhân_Gia-đình Lễ-hội_Q-tặng Kiến-trúc_Thiết-kế Khoa-học_Cơng-nghệ Khác Kinh-tế_Tài-chính_Ngânhàng Kinh-doanh_Tiêu-dùng Năng-lượng Nhiếp-ảnh Nơng-ngư-nghiệp Pháp-luật Phương-tiện_Giao-thơng Qn-sự_An-ninh_Vũ-khí Quốc-tế Smartphone Văn-hóa_Nghệ-thuật Xã-hội_Dân-sinh Xã-hội_Giáo-dục Xã-hội_Tệ-nạn Xã-hội_Tham-nhũng Xã-hội_Tự-nhiên Xã-hội_Vệ-sinh-an-tồn Xây-dựng_Quy-hoạch Xuất-nhập-khẩu Y-tế_Sức-khỏe Việc-làm_Tuyển-dụng_Nhânsự Tài-ngun_Mơi Trường Tài-ngun_Khống-sảnTâmsự_Tình-u Thảm-họa Thời-tiết_Khí-hậu Thời-trang_Làm-đẹp Thể-thao Truyền-hình_Báo-chí Bảng 2.1- 50 chủ đề chung 2.2.2 Các chủ đề hướng kiện (chủ đề nóng) Đây tập chủ đề thay đổi theo kiện diễn hàng ngày sống Do đó, khơng cố định số lượng tên chủ đề Ví dụ, kiện xảy ra, nhiều quan tâm thời điểm gần “Cầu-thủ-Huy-Hồng-phê-thuốc”, “Động-đất-thủy-điện-Sơng-Tranh”… Các chủ đề phát dựa tập liệu thu thập từ trang tin tức thời điểm ba ngày đến tuần gần với thời điểm Mỗi chủ đề biểu diễn tập từ khóa trọng số tương ứng, nhiên, trọng số số lần xuất từ tập văn bản, từ Viết Hoa chủ thể kiện, đánh trọng số cao từ khác Ví dụ: Cầu-thủ-Huy-Hồng-phê-thuốc = { (Huy_Hồng, 100), (Nghệ_An, 100),(Thanh_Hố , 100), ( xe, 16.0), (giao_thơng, 12.0), (cơng_an, 10.0)….} Động-đất-thủy-điện-Sông-Tranh = { (Sông_Tranh, 100), (Bắc_Trà_My, 100), (Viện, 100), (Quảng_Nam, 100), (động_đất, 57.0), (thủy_điện, 44.0), (nước, 30.0)….} v v Đặc trưng chủ đề tiềm hướng kiện thay đổi theo thời gian Một thông điệp thuộc lớp tiềm hướng kiện thuộc chủ đề chung đề cập phần 2.1.1 Ví dụ, thơng điệp phân loại vào chủ đề “Cầu-thủ-Huy-Hồng-phê-thuốc”có thể thuộc chủ đề “Xã-hội_Tệ-nạn”, “Thể-thao” đề cập phía trên, thơng điệp thuộc chủ đề “Độngđất-thủy-điện-Sơng-Tranh” thuộc chủ đề “Thảm họa”, v.v… 2.3 Mơ hình phân loại 2.3.1 Mơ hình chức Ở mức tổng quan, mơ hình phân loại thơng điệp mạng xã hội Tiếng Việt biểu diễn hình 2.1: Tập liệu Chủ đề Bộ xử lý Thông điệp Thông điệp phân loại thông điệp Chủ đề n Tập chủ đề Hình 2.1 - Mơ hình chức phân loại thơng điệp 10 2.3.2 Mơ hình logic Về mặt logic, mơ hình phân loại thơng điệp mạng xã hội mơ tả chi tiết hình 2.2 đây: C = {𝑐1 , 𝑐2 , … , 𝑐𝑝 } - - 𝑐1 𝑐2 𝑐3 𝑐𝑝 ci chủ đề chung (1 ≤ 𝑖 ≤ 𝑝) p tổng số chủ đề chung Bộ đối sánh chủ đề chung M = {𝑚1 , 𝑚2 , … , 𝑚𝑛 } - mj thông điệp đăng người dùng (1 ≤ 𝑗 ≤ 𝑛) 𝑚1 𝑚2 𝑚3 - n tổng số thông điệp 𝑚𝑛 Bộ đối sánh chủ đề nóng T = {𝑡1 , 𝑡2 , … 𝑡𝑞 } - 𝑡𝑘 chủ đề nóng thời điểm thơng điệp đăng (1 ≤ 𝑘 ≤ 𝑞) 𝑚4 𝑡1 𝑡2 𝑡𝑞 - q tổng số chủ đề nóng thời điểm thơng điệp đươc đăng Hình 2.2 – Logic phân loại thơng điệp 11 Chương 3: PHÂN TÍCH CHỦ ĐỀ PHỤC VỤ CHO PHÂN LOẠI Chương giới thiệu bước cần thiết đề chuẩn bị liệu cho việc phân loại thông điệp – nêu chi tiết chương Chương đặc biệt nhấn mạnh vào phần phát xây dựng tập từ khóa cho chủ đề nóng dựa tập báo đăng vòng ba ngày đến tuần quanh thời điểm thu thập liệu Ngồi ra, chương mơ tả chi tiết bước thực cần thiết để xây dựng tập chủ đề chung, tập đại diện thông điệp từ liệu thô 3.1 Chủ đề chung Như đề cập Chương 2, tập chủ đề chung mạng xã hội Tiếng Việt chọn lọc dựa phân tích liệu thực tế từ tập từ khóa thu từ Baomoi.com Mỗi chủ đề tạo thành Tên chủ đề Tập từ khóa đặc trưng chủ đề o Từ khóa đặc trưng cố định: Được trích xuất từ tập từ khóa chủ đề trích rút từ tập liệu baomoi.com[18]) o Từ khóa đặc trưng mở rộng: Được thêm vào tay dựa phân tích liệu Tập từ khóa đặc trưng cố định c Chủ đề c Tập từ khóa đặc trưng mở rộng c Hình 3.0.1 – Chủ đề chung Tập từ khóa trích rút từ tập liệu lớn (trong trường hợp tập văn lấy từ Vnexpress) thực hình (tóm tắt mơ hình đề xuất [18]): Dữ liệu từ baomoi.com LDA Tập từ đặc trưng phân loại theo chủ đề Hình 3.0.2- Trích lọc chủ đề chung Trong [18, 19] tác giả đưa tập liệu gồm 300 chủ đề, đánh số từ đến 299 Mỗi chủ đề bao gồm tập từ khóa, xếp theo độ quan trọng giảm dần từ xuống Từ tập chủ đề này, tập từ khóa cho chủ đề chung lựa chọn, cách lựa chọn chủ đề chung đề cập đến chủ đề lớn hơn, sau trộn từ khóa chủ đề phù hợp với chủ đề chung đề cập chương 2, xếp chúng lại theo thứ tự giảm dần độ quan trọng Việc lựa chọn tập từ khóa cho chủ đề chung gồm bước sau: 13 Chủ đề tập từ khóa Tập chủ đề từ khóa lấy từ vnexpress Chủ đề chung tập từ khóa … … … … … … … … … … Hình 3.0.3 – Lựa chọn từ khóa cho chủ đề chung ……… ……… ……… ……… …… 3.2 Chủ đề nóng Tập chủ đề nóng tập hợp chủ đề biến đổi theo thời gian, chủ đề trích rút từ báo đăng vịng 3-7 ngày trở lại tới thời điểm thơng điệp đăng lên Có thể ví dụ số chủ đề nóng gần : bầu Kiên bị bắt, Giá xăng tăng, v.v… Để xây dựng tập chủ đề này, cần thực bước sau: Bước - Thu thập liệu Bước - Tiền xử lý tách từ Bộ lọc nội dung văn Tập liệu thu thập từ Vnexpress Tập liệu gồm nội dung, mô tả tiêu đề văn bản, từ tách Hình 3.0.4 – Tiền xử lý tách từ Bước – Phân loại văn Tập văn chủ đề Tập liệu gồm nội dung, mô tả tiêu đề văn bản, từ tách Bộ phân loại văn theo chủ đề chung Tập văn chủ đề Tập văn chủ đề n Hình 3.0.5 – Phân loại tập văn vào chủ đề chung Bước - Thu thập kiện: Tập liệu gồm nội dung, mô tả tiêu đề văn bản, từ tách theo chủ đề chung Bộ lọc từ khóa kiện W {w1 , w , , w p } Hình 3.0.6 – Chọn lọc từ khóa kiện 14 Bước – Tổ chức tập văn theo kiện: Giả sử tập từ kiện W có p từ W = 𝑤1, , 𝑤2 , … , 𝑤𝑝 Với từ khóa 𝑤𝑖 ( 1≤ 𝑖 ≤ 𝑝 ), tìm văn có chứa từ khóa 𝑤𝑖 𝐷𝑤 𝑖 = 𝑐á𝑐 𝑡à𝑖 𝑙𝑖ệ𝑢 𝑑 𝑐ứ𝑎 𝑡ừ 𝑘ó𝑎 𝑤𝑖 Gom từ kiện nói chủ đề nóng thành tập, cách tính độ tương đồng cặp tập tài liệu: 𝐷𝑤 𝑖 ∩ 𝐷𝑤 𝑗 𝑓= 𝑘 o Với trọng trọng số 𝑓 ≥ ∆ ta coi 𝑤𝑖 𝑤𝑗 nói chủ đề o Kết hợp văn tương ứng với từ khóa nói chủ đề, ta tập văn tương ứng cho chủ đề 𝐷 = 𝐷𝑡1, 𝐷𝑡2, … , 𝐷𝑡𝑘 Ta thu tập hợp tập văn tương ứng với chủ đề nóng 𝐷 ∗ , với: 𝐷∗ = {𝐷′1 , 𝐷′2 , … , 𝐷′𝑞 } , 𝑞 ≤ 𝑝 ∗ o q = 𝐷 số chủ đề nóng thời điểm thông điệp đăng lên Thu thập tập từ khóa cho chủ đề nóng 𝑡𝑖 o Với tập văn 𝐷′𝑖 , trích chọn từ khóa phương pháp tách từ, sau loại bỏ từ dừng o Đánh trọng số từ xuất văn theo số lần xuất hiện, xếp theo thứ tự giảm dần trọng số o Bổ sung từ kiện tương ứng thu Bước vào tập từ khóa Các từ đánh trọng số cao so với từ thu thập từ tập văn Sắp xếp tập từ khóa thu từ xuống theo thứ tự giảm dần trọng số o …… …… …… …… …… …… …… …… …… …… …… …… …… …… Top p từ khóa W = {𝑤1 , 𝑤2 , … , 𝑤𝑝 } 𝐷𝑤 = 𝑑 𝑐ứ𝑎 𝑤1 𝐷𝑤 = 𝑑 𝑐ứ𝑎 𝑤2 𝐷𝑤 𝑝 = 𝑑 𝑐ứ𝑎 𝑤𝑝 𝐷 ∗ = {𝐷′1 , 𝐷′2 , … , 𝐷′𝑞 } Bộ trích chọn đặc trưng 𝑡1 𝑡2 … … … … Trọng số … … … … Từ khóa … … … … … … … … … … … … … chủ đề nóng Hình…3.0.7… – Xây dựng tập từ… khóa cho 𝑡𝑞 … … … … … … … … … … … … 15 3.3 Đại diện thông điệp Thông điệp dạng thô Loại bỏ thẻ HTML Tách câu Tách biệt dấu câu Từ khóa chủ thể Từ khóa ……… … … Trích chọn, đánh trọng số Loại bỏ ký tự đặc biêt Loại bỏ từ dừng Tách từ … … … … … … … … … … Hình 3.0.8 – Tạo tập từ đại diện cho thông điệp …Trọng số … 3.4 Kết luận… Các phần 3.1, 3.2, 3.3 mô tả chi tiết bước xử lý thu thập chủ đề chung, phát … chủ đề nóng, tạo đại diện thơng điệp Trong đó, chủ đề chung chủ yếu xây thu thập …dựa thực tế liệu, chủ đề nóng xây dựng dựa chủ đề chung, dựng tay văn cùng…đề cập đến kiện khoảng thời gian gần nhau, thông điệp tiền xử lý để xây… dựng tập từ khóa trọng số tương tự với tập chủ đề nóng, chủ đề chung Các liệu xây dựng chương đầu vào cho bước đối sánh chủ đề chương tiếp sau … … … … … … … 16 Chương 4: ĐỐI SÁNH VÀ PHÂN LOẠI 4.1 Biểu diễn chủ đề thông điệp Biểu diễn chủ đề chung o Tâp chủ đề chung mức cao nhất: C {c1 , c2 , c3 c p } o Mỗi chủ đề c biểu diễn tập từ khóa trọng số tương ứng đặc trưng cho nó: c c c c c c c {(w1 , v1 ),(w , v2 ), (w R , vR )} từ khóa cho chủ đề c Biểu diễn chủ đề nóng o Tập chủ đề nóng mức cao T {t1 , t2 , t3 tq } o Mỗi chủ đề nóng t biểu diễn tập từ khóa trọng số tương ứng đặc trưng cho t: t t t t t t t {(w1 , v1 ),(w , v2 ), (w S , vS )} w c từ khóa xuất chủ đề, vc trọng số tương ứng R số lượng w t từ khóa xuất chủ đề, vt trọng số tương ứng S số lượng từ khóa cho chủ đề nóng t Biểu diễn thơng điệp o Tập thơng điệp mức cao M {m1 , m2 , m3 mq } o Mỗi thông điệp m biểu diễn tập từ khóa trọng số tương ứng: m m m m m m m {(w1 , f1 ), (w , f ), (w Q , fQ )} w m từ khóa xuất chủ đề, f m trọng số tương ứng Q số lượng từ khóa cho thơng điệp m Tập từ khóa chung thơng điệp chủ đề o Wm {w1 , w , w k } o k số từ khóa chung chủ đề thơng điệp 4.2 Một số phương pháp đối sánh đơn giản 4.2.1 Số từ khóa chung lớn total _ weight = w1 , w , w k (1) 4.2.2 Tính tổng trọng số từ khóa chung tập chủ đề total _ weight = v1 v2 vk (2) 4.2.3 Tính tổng trọng số từ khóa chung thơng điệp total _ weight = f1 f f k (3) 4.3 Một số đề xuất 4.3.1 Đề xuất thứ 4.3.1.1 Chủ đề chung Trọng số từ khóa chung lớn tập từ khóa chủ đề chung tập từ khóa thơng điệp tính sau: k total _ weight vi log10 ( x fi ).k i 1 (4) Trong đó: - 𝑥 trọng số (𝑥 ≤ 1) giúp đảm bảo log10 𝑥 + 𝑓𝑖 luôn khác - Một số tham số đầu vào cần thiết lập 17 Biến x cho trường hợp tính trọng số o 4.3.1.2 Chủ đề nóng Chủ đề nóng thơng điệp có cách tính trọng số - số lần xuất từ khóa tập văn total _ weight w w p pm pt pmw wWm w (5) w t t Trong pt , pm vị trí xuất từ khóa w tập từ khóa chủ đề tập từ khóa thơng điệp 4.3.2 Đề xuất thứ hai cho chủ đề chung Công thức đề xuất (4) phản ánh độ quan trọng từ khóa có trọng số cao chủ đề thơng điệp, nhiên, tổng trọng số từ khóa topic khơng giống nhau, nên xác xuất phân phối thông điệp vào chủ đề không giống nhau: 1.5 0.5 weight Topic Topic Topic Topic Topic Topic 11 Topic 13 Topic 15 Topic 17 Topic 19 Topic 21 Topic 23 Topic 25 Topic 27 Topic 29 Topic 31 Topic 33 Topic 35 Topic 37 Topic 39 Topic 41 Topic 43 Topic 45 Topic 47 Topic 49 Hình 4.0.1 – Chênh lệch trọng số từ khóa topic chung 0.3 0.25 0.2 0.15 0.1 0.05 keyword 500 keyword 450 keyword 400 keyword 350 keyword 300 keyword 250 keyword 200 keyword 150 keyword 100 keyword 90 keyword 80 keyword 70 keyword 60 keyword 50 keyword 40 keyword 30 keyword 20 keyword 15 keyword 10 keyword keyword weight Hình 4.0.2 – Trọng số từ khóa topic The-thao 0.6 0.5 0.4 0.3 0.2 0.1 keyword 500 keyword 450 keyword 400 keyword 350 keyword 300 keyword 250 keyword 200 keyword 150 keyword 100 keyword 90 keyword 80 keyword 70 keyword 60 keyword 50 keyword 40 keyword 30 keyword 20 keyword 15 keyword 10 keyword keyword weight Hình 4.0.3 – Trọng số từ khóa chủ đề Khoa-học_Công-nghe 18 Để giảm bớt chênh lệch trọng số từ khóa chủ đề, từ khóa topic, tác giả đề xuất sử dụng phương pháp tính trọng số từ khóa cách lấy log vị trí từ khóa tập từ khóa cơng thức (6.1) w log (log10 (R 2) log10 (i 2) 2) (6.1) Trong đó: - w trọng số từ khóa chủ đề - R số lượng từ khóa lấy chủ đề - i vị trí từ khóa tập từ khóa tương ứng với chủ đề Với cơng thức trên, trọng số từ khóa có vị trí chủ đề khác nhau: 0.8 0.6 0.4 0.2 Topic Topic Topic Topic Topic Topic 11 Topic 13 Topic 15 Topic 17 Topic 19 Topic 21 Topic 23 Topic 25 Topic 27 Topic 29 Topic 31 Topic 33 Topic 35 Topic 37 Topic 39 Topic 41 Topic 43 Topic 45 Topic 47 Topic 49 weight Hình 4.0.4 – Trọng số từ khóa topic keyword… keyword… keyword… keyword… keyword… keyword… keyword… keyword… keyword… keyword… keyword… keyword… keyword… keyword… keyword… keyword… keyword… keyword… keyword keyword 0.8 0.6 0.4 0.2 keyword… Trong chủ đề, phân bổ trọng số từ khóa theo thứ tự giảm dần từ xuống hình 4.5 đây: weight Hình 4.0.5 – Phân bổ trọng số từ khóa tập chủ đề sau chuẩn hóa Thay (6.1) vào (4), ta cơng thức tính trọng số đối sánh k total _ weight log (log10 ( R 2) log10 (i 2) 2).log10 ( x f i ) k (6) i 1 Trong - R tổng số từ khóa lấy chủ đề - i vị trí từ khóa tính - k tổng số từ khóa chung chủ đề thông điệp - fi trọng số từ khóa chung thơng điệp - x số biến đổi từ đến 19 Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 5.1 Mô trường thực nghiệm, liệu, tham số - Tập liệu gồm có: 49 chủ đề chung tổng hợp từ 300 chủ đề sinh tự động từ tập liệu Baomoi.com, phương pháp LDA 300 báo lấy từ vnexpress.net 500 thông điệp lấy từ trang ZingLive(live.zing.vn) Dữ liệu thí nghiệm chạy máy tính PC cấu hình: RAM 4GB, Bộ xử lý Intel(R) Core(TM) i5 3.20GHz 5.2 Phát chủ đề nóng o Dữ liệu thực nghiệm gồm có: 49 chủ đề chung, 300 báo lấy ngẫu nhiên ba chủ đề Kinh tế, Xã hội, Giải trí báo vnexpress Thiết lập thơng số Thí nghiệm 1: Số file chung tối thiểu: Trọng số tối thiểu từ khóa kiện: 25 20 15 10 Số văn Hình 5.0.6 – Số văn tương ứng với chủ đề nóng Tỉ lệ số văn thuộc chủ đề Tỉ lệ phát chủ đề nóng thành cơng Bầu Kiên bị bắt Động đất Quảng Nam The-voice Có chủ đề Viet-nam-idol Khơng chủ đề Khơng tên Hình 5.0.7 – Tỉ lệ số văn thuộc chủ đề cơng Hình 5.0.8 – Tỉ lệ phát chủ đề nóng thành Thí nghiệm 2: số file chung tối thiểu: 2, trọng số tối thiểu từ khóa: 40 30 20 10 Số văn Động đất Mưa lũ Huy Việt Nam The voice Bầu Kiên Khơng Quảng miền Hồng Idol bị bắt tên Nam Trung phê thuốc Hình 5.0.9 – Số văn tương ứng chủ đề nóng 20 Động đất Quảng Nam Có chủ đề Mưa lũ miền Trung Khơng rõ chủ đề Huy Hồng phê thuốc Hình 5.0.10 - Tỉ lệ chủ đề tập từ khóa xây dựng Hình 5.0.11 – Tỉ lệ chủ đề phát tập từ khóa Sau thí nghiệm 2, số chủ đề nóng thu từ tập tài liệu thu thập từ ba mục Kinh tế, Xã hội, Giải trí vnexpress.net gồm có: Cầu-thủ-Huy-Hồng-phê-thuốc, Mưa-lũ-miền-trung, Động-đất-thủy-điện-SơngTranh, Bầu-Kiên-bị-bắt, Giọng hát Việtm Việt-nam-idol Với tập từ khóa trọng số bảng 5.1 Bầu Kiên bị bắt Cầu thủ Huy Hồng phê thuốc Động đất thủy điện Sơng Tranh Nghệ_An (100.0) Nguyễn_Huy_Hồng (100.0) Huy_Hồng (100.0) Lam_Nghệ_An (100.0) Mỵ_Duy_Xn (100.0) Thanh_Hố (100.0) xe (16.0) giao_thông (12.0) …… Sông_Tranh (100) Bắc_Trà_My (100) Quảng_Nam (100) cơng_trình (19.0) đánh_giá (18.0) viện (17.0) khu_vực (16.0) …… Giọng hát Việt Việt Nam Idol Mưa lũ miền Trung Nghệ_An (100.0) Trung (100.0) Vinh (100.0) An (100.0) Hương_Khê (100.0) Phịng (100.0) Ơng (100.0) Hà_Tĩnh (100) Huyện (100.0) …… Trưởng (100.0) The_Voice (100.0) Huy_Khánh (100.0) Zalkamate (100.0) Trần_Lập (100.0) Quân (100.0) Phó (100.0) Đàm_Vĩnh_Hưng Idol (100.0) Lý_Xuân_Hải (100.0) Tâm (100.0) (100.0) Giọng (100.0) Dũng (100.0) Trần_Mộng_Hùng Đà_Nẵng (100.0) Sáng (100.0) (100.0) Đàm 100.0 Giọng (100.0) Kiên (100.0) Thu_Minh (100.0) Nam (100.0) Châu (100.0) Hồ_Ngọc_Hà Nguyễn_Thanh_Hưng Phạm_Trung_Cang (100.0) (100.0) (100.0) …… …… …… Bảng – Tập từ khóa chủ đề nóng 5.3 Chủ đề chung Tập chủ đề chung xây dựng tay gồm 49 chủ đề Bảng 5.2 số ví dụ chủ đề chung tập từ khóa nó: Bất động sản bất_động_sản (0.084963) căn_hộ (0.056968) chung_cư ( 0.046077) bđs (0.039107) biệt_thự (0.030865) diện_tích (0.029485) cơng_viên ( 0.025415) kcn (0.010132) cao_ốc (0.007724) cao_tầng ( 0.005308) cưỡng_chế (0.00292) hạ_tầng (0.002687) khuôn_viên (0.001146) …… Thể thao barca (0.057122) arsenal (0.055034) chuyển_nhượng (0.029366) bayern (0.027063) bóng ( 0.021237) calisto (0.020405) cầu_thủ (0.019149) bundesliga ( 0.014583) ac (0.011813) công_vinh (0.009985) alex_ferguson (0.00902) capello (0.008486) ancelotti (0.008048) …… CNTT-TT cntt (0.022171) fpt (0.020377) android (0.018498) công_nghệ_thông_tin (0.01658) blog ( 0.012603) dữ_liệu (0.00992) card (0.007671) bưu_chính (0.00752) cơng_nghệ (0.007452) blackberry (0.00628) camera (0.005364) dế (0.00498) …… Giải trí clip (0.044855) ca_khúc (0.032808) album (0.026206) diễn_viên (0.020861) fan (0.008321) giải_trí (0.007213) ca_sĩ (0.006985) ca_hát (0.005991) cải_lương (0.005727) biểu_diễn (0.005456) chèo (0.00459) dàn_nhạc (0.004503) …… Bảng – Tập từ khóa chủ đề chung 21 5.4 Đối sánh chủ đề Thực nghiệm luận văn thực số phép đối sánh chủ đề với liệu tập chủ đề chung, chủ đề nóng xây dựng chương công thức đề xuất phần 4.3, số kết thu bảng 5.2 5.3 đây: Chủ đề chung Giáo dục Message 752: [thủ_khoa, học, lớp, trường, chuyên, phan_bội_châu, nghệ_an, hiện, riêng, 12a1, điều, đặc_biệt, bạn, thi, khối] Message 670: [điểm_chuẩn chiều, trường, đh thương, mại, hà_nội, công_bố, ngành, cao, kinh_tế, thương_mại, điểm] Bảng 5.3 – Thông điệp thuộc chủ đề giáo dục Giải trí Message 721: [thu_minh, hà_hồ, đua, rơi, nước_mắt, cháu, gái, lam_trường, ca_khúc, i, will, survive, tiêu_châu_như_quỳnh] Message 739: [diễn_viên, đóng, cảnh, nude, tiết_lộ, giá, đi_khách, sao, hoa_ngữ, chương_tử_di, phim, dạ, yến] Bảng 5.4 – Thông điệp thuộc chủ đề giải trí Thị trường – Tiêu dùng Message 200: [tăng_giá, hiện_tại, chợ, đầu_mối, địa_bàn, hà_nội, rau, xanh, xu_hướng, giảm_giá, nguồn, cung, hàng_hóa] Message 251: [hàng, tẩy_chay, tìm, cách, đội_lốt, nước, tiêu_thụ, nhân, bánh_trung_thu, trung_quốc, việt_nam, chợ, tp.hcm] Bảng 5.5 – Thông điệp thuộc chủ đề Thị trường – Tiêu dùng Chủ đề nóng: Mưa lũ miền Trung Message 65: [Cầu_Chày, Quảng_Phú, Thanh_Hóa, Thọ_Xuân, lượng, mưa, nước, lũ, dâng, cao, tràn, bờ, gây, ngập_lụt, tuyến, đê, chắn, sơng, cầu_chày] Message 227: [Trung, tính, giờ, chiều, địa_bàn, tỉnh, người, chết, mất_tích, lũ, gây, đợt, miền, trung] Bảng 5.6 – Thơng điệp thuộc chủ đề nóng Mưa-lũ-miền-Trung Huy Hồng phê thuốc Message 73: [Huy_Hồng, Hằng, phản_ánh, gia_đình, nạn_nhân, hôm, chị, hằng, nằm, viện, người, gây, tai_nạn, thăm_hỏi, vụ, xe, đại_náo, cầu_thủ, huy_hồng, lên_tiếng] Message 576: [Cựu, Huy_Hồng, Thanh_Hóa, vi_phạm_giao_thông, câu_lạc_bộ, trụ_sở] Bảng 5.7 – Thông điệp thuộc chủ đề nóng Huy-Hồng-phê-thuốc Động đất thủy điện Sơng Tranh Message 299: [Bắc_Trà_My, Quảng_Nam, Sông_Tranh, Trà_My, rung, chấn, người_dân, hoảng_hốt, địa_chất, vùng, chắc, vấn_đề, rung_chuyển, mạnh, thủy_điện] Message 240 : [Sông_Tranh, sáng, trận, động_đất, mạnh, độ, richter, xảy, khu_vực, thủy_điện, sông_tranh, liên_tiếp] Bảng 5.8 – Thơng điệp thuộc chủ đề nóng Động-đất-thủy-điện-Sông-Tranh 5.5 Một số kết đối sánh sử dụng công thức đưa chương 5.5.1 So khớp chủ đề nóng Sử dụng tập từ khóa thu thí nghiệm phát chủ đề nóng phần 5.2, áp dụng công thức (1), (2), (3), (4), (5) đưa chương 4, ta có kết hình 5.7 22 1.5 Huy-Hồng Sông-Tranh 0.5 Mưa-lũ CT1 CT2 CT3 CT4 The-voice CT5 Hình 5.7 – Tỉ lệ so khớp thành cơng chủ đề nóng 5.5.2 So khớp chủ đề chung Sử dụng tập từ khóa xây dựng phần 5.3, thực việc so khớp tập liệu thông điệp zingLive với tập chủ đề theo công thức (1), (2), (3), (4), (5), kết so khớp xác đạt tỷ lệ biểu đồ 5.8 đây: 100 80 60 40 20 CT1 CT2 CT3 CT4 CT6 FALSE Xuat-nhap-khau Xa-hoi_Ve-sinh-… Xa-hoi_Te-nan Xa-hoi_Dan-sinh Van-hoc_Nghe-… Thoi-trang_Lam-… The-thao Tam-su_Tinh-yeu Smartphone Phap-luat_An-ninh Nhiep-anh Lich-su Khoa-hoc_Cong-… Kinh-… Hon-nhan_Gia-… Giai-tri Du-lich_Van-hoa Cong-nghe-… Chinh-tri_Quan-… Chinh-phu_Hop-… Bien-dao 250 200 150 100 50 Am-thuc_Dinh-… Hình 5.8 – Tỉ lệ phân loại xác theo cơng thức (1), (2), (3), (4), (6) TRUE Hình 5.9 – Tỉ lệ xác theo số lượng chủ đề 23 FALSE Xuat-nhap-khau Xa-hoi_Ve-sinh-an-… Xa-hoi_Te-nan Xa-hoi_Dan-sinh Van-hoc_Nghe-thuat The-thao Thoi-trang_Lam-dep Tam-su_Tinh-yeu Smartphone Phap-luat_An-ninh Lich-su Nhiep-anh Khoa-hoc_Cong-nghe Kinh-doanh_Tieu-dung Hon-nhan_Gia-dinh Giai-tri Du-lich_Van-hoa Cong-nghe-thong-… Chinh-tri_Quan-… Chinh-phu_Hop-tac-… Bien-dao Am-thuc_Dinh-duong 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% TRUE 5.10 - Tỉ lệ xác phân loại theo chủ đề chung theo phần trăm Hình 5.11 5.12 thể độ xác chi tiết công thức phân loại chủ đề (5) theo chủ đề chung Có thể có vài nhận xét sau việc phân loại thông điệp theo chủ đề chung: Về phân bố chủ đề: Với 500 thông điệp lấy ngẫu nhiên từ mạng xã hội ZingLive, phân bổ thông điệp vào chủ đề không giống Các chủ đề đề cập nhiều Giải-trí (98), Ẩm-thực_Dinh-dưỡng (24), Hơn-nhân_Gia-đình (27), Kinh-doanh_Tiêu-dùng(24), Phápluật (24), Thảm-họa(31), Văn-hóa_Nghệ-thuật(22), Y-tế_Sức-khỏe(24)… Tuy nhiên, có vài chủ đề không xuất hiện, xuất với số lượng như: Biển-đảo (1), Khoa-họccơng-nghệ(1), Xã hội_Tham-nhũng (2)… Về độ xác đối sánh: Các chủ đề khác có tỉ lệ đối sánh xác khác nhau, số chủ đề Giải-trí, Kinh doanh-Tiêu dùng, Smartphone… đạt độ xác tới 80%, đó, chủ đề Kiến-trúc-Thiết kế, Nơng-ngư-nghiệp độ xác đạt khoảng 10% Như vậy, độ xác việc đối sánh chủ đề nhìn chung đạt kết tương đối tốt (79%), nhiên, chủ đề riêng lẻ độ xác đối sánh cịn chưa đồng 5.6 Phương hướng cải tiến Theo kết thực nghiệm phần 5.4 5.5 trên, thấy kết đạt tương đối tốt, nhiên cần cải thiện thêm để đạt kết tốt Để thực việc cải tiến, ngồi việc tìm cơng thức so khớp cho độ xác cao, việc quan trọng cần phải thực cải thiện tập từ khóa chủ đề dùng cho việc so khớp Em đề xuất hướng cải tiến thử nghiệm thời gian tới, cụ thể sau: Cải thiện tập chủ đề chung o Mở rộng tập liệu thu thập để bao trọn nhiều chủ đề o Lọc bỏ từ khóa chung chung, từ lỗi, khơng liên quan đến chủ đề cho vào chủ đề o Chạy thí nghiệm nhiều lần để chọn chủ đề cho tỉ lệ đối sánh thành công thấp, tinh lọc lại tập từ khóa Cải thiện tập chủ đề nóng o Mở rộng thu thập báo gần nhiều lĩnh vực (Thể thao, văn hóa, trị…) o Lọc bỏ tay từ khóa khơng liên quan đến chủ đề lại xuất chủ đề với trọng số cao o Thử sử dụng tập từ khóa kiện - dạng viết hoa - việc đối sánh chủ đề 24 KẾT LUẬN Luận văn đạt số kết q trình nghiên cứu Một là, xây dựng tay 49 chủ đề chung tiếng Việt trích rút từ tập 300 chủ đề sinh mơ hình LDA từ tập liệu baomoi.com Trong đó, chủ đề tập cặp từ 50-500 từ khóa trọng số tương ứng Các chủ đề chung sử dụng cho việc phân loại thơng điệp vào chủ đề mà đề cập tới Ví dụ chủ đề chung có cấu trúc sau: Ẩm-thực_Dinh-dưỡng = {(món, 0.045062), (dinh_dưỡng, 0.021539), (chất_béo, 0.007114), (giết_mổ, 0.006983), (gia_vị, 0.006689), (canxi, 0.005317)…} Hai là, luận văn xây dựng phương pháp cơng cụ phát chủ đề nóng, xây dựng tập từ khóa cho chủ đề nóng Chủ đề nóng kiện đề cập đến nhiều khoảng thời gian xác định tên chủ đề khơng xác định trước Ví dụ chủ đề nóng gần đây: Động-đất-thủy-điện-Sơng-Tranh = { (Sông_Tranh, 100), (Bắc_Trà_My, 100), (Viện, 100), (Quảng_Nam, 100), (động_đất, 57.0), (thủy_điện, 44.0), (nước, 30.0)….} Ba là, luận văn cơng thức tính trọng số cho việc đối sánh chủ đề với thông điệp, cho kết phân loại thông điệp thành công với tỉ lệ khoảng 75% Công thức đề xuất: 𝑘 𝑡𝑜𝑡𝑎𝑙_𝑤𝑒𝑖𝑔𝑡 = 𝑣𝑖 log10 𝑥 + 𝑓𝑖 𝑘 𝑖=1 Trong đó: - k số từ chung chủ đề thông điệp - vi trọng số từ chủ đề tính theo công thức o vi log10 (R 2) log10 (i 2) o R tổng số từ khóa topic, i vị trí từ khóa topic - f trọng số từ thông điệp - x tham số thực nghiệm Các kết có thể cải tiến thêm cho phù hợp để áp dụng vào phần mềm phân loại chủ đề mạng xã hội ZingLive Các đề xuất đáp ứng số yêu cầu thiết yếu ứng dụng mạng xã hội: o Xử lý tốt với số lượng thông điệp lớn o Xử lý tốt với trường hợp tài liệu ngắn, thiếu thông tin ngữ cảnh cần thiết để phát chủ đề o Xử lý tốc độ nhanh, đáp ứng nhu cầu gần với thời gian thực ứng dụng thực tế Tuy nhiên, luận văn số kết chưa đạt mong muốn Thứ nhất, tỉ lệ phân loại chưa cao (~80%) Thứ hai, giới hạn mặt thời gian, nên liệu thực nghiệm chưa nhiều Thứ ba, cơng thức áp dụng luận văn tối ưu thêm, để nâng tỉ lệ phân loại thành công giảm thời gian xử lý Đề tài mở số hướng nghiên cứu cải thiện tốc độ xử lý, chất lượng xử lý Hoặc ứng dụng kết đề tài vào nhiều mục đích khác phát cộng đồng, quảng cáo, phân tích nhu cầu người dùng, v.v… 25 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Thị Hương Thảo, “Phân lớp phân cấp Taxonomy văn Web ứng dụng”, Khóa luận tốt nghiệp đại học, Đại học Cơng nghệ, ĐHQGHN [2] ZingMe Infographic http://www.tinhte.vn/threads/1391118/ [3] Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, “Giáo trình khai phá liệu web”, nhà xuất Giáo Dục Việt Nam [4] Vũ Xuân Lương, “Đặc điểm tiếng Việt” http://www.vietlex.com/ngon-ngu-hoc/11Dac_diem_tieng_Viet Tiếng Anh [4] Anand Rajaraman, Jeff Ullman: Mining of Massive Datasets [5] Bhattacharya, I and Getoor, L (2006), “A Latent Dirichlet Allocation Model for Entity Resolution”, In Proceedings of 6th SIAM Conference on Data Mining, Maryland, USA [6] Blei, D.M., Ng, A.Y and Jornal, M.I (2003), “Latent Dirichlet Allocation”, Journal of Machine Learning Research 3, pp.993-1022 [7] Cam-Tu Nguyen, Hidden “Topic Discovery toward classification and clustering in Vietnamese web document”, Master Thesis, University of Enginnering and Technology, Hanoi, 2008 [8] Cam-Tu Nguyen, Xuan-Hieu Phan, Susumu Horiguchi, Thu-Trang Nguyen, and Quang-Thuy Ha: Web Search Clustering and Labeling with Hidden Topics, ACM Transactions on Asian Language and Information Processing (ACM TALIP), Vol.8, No.3, 2009 [9] D Easley, J Kleinberg Networks, Crowds, and Markets: Reasoning About a Highly Connected World Cambridge University Press, 2010 [10] Hofmann, T., “Probabilistic Latent Semantic Analysis”, In Proceedings of UAI [11] Hofmann, T., (2001), “Unsupervised Learning by Probabilistic Latent Semantic Analysis”, Machine Learning 42, pp 177-196 [12] J Lafferty, A McCallum, and F Pereira Conditional random fields: probabilistic models for segmenting and labeling sequence data In Proc of ICML, pp.282-289, 2001 [13] K Nigam, J Lafferty, and A McCallum, "Using maximunm Entropy for text classification", Proceeding of the 16th International Joint Conference Workshop on machine Learning for Information Filtering: 61-67 Stockholm, Sweden, 1999 [14] L Cai and T Hofmann, “Text Categorization by Boosting Automatically Extracted Concepts,” Proc ACM SIGIR, 2003 [15] Nguyen Viet Cuong, Nguyen Thi Thuy Linh Ha, Quang Thuy and Phan Xuan Hieu (2006) A Maximum Entropy Model for Text Classification The International Conference on Internet Information Retrieval 2006:134-139, Hankuk Aviation University, December 6, 2006, Goyang-si, Korea [16] Simon Tong and Daphne Koller “Support Vector Machine Active Learning with Applications to Text Classification” [17] Thorsten Joachims, SVM multiclass Multi-Class Support Vector Machine, Cornell University Department of Computer Science Http://svmlight.joachims.org/ [18] Xuan-Hieu Phan, Cam-Tu Nguyen, Dieu-Thu Le, Le-Minh Nguyen, Susumu Horiguchi, and Quang-Thuy Ha: “A Hidden Topic-based Framework towards Building Applications with Short Web Documents”, IEEE Transactions on Knowledge and Data Engineering (IEEE TKDE), Vol.23, No.7, pp.961-976, 2011 Xuan-Hieu Phan, Le-Minh Nguyen, and Susumu Horiguchi: Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections, The 17th International World Wide Web Conference (WWW), pp.91-100, April 2008, Beijing, China 26 Thank you for evaluating AnyBizSoft PDF Splitter A watermark is added at the end of each output PDF file To remove the watermark, you need to purchase the software from http://www.anypdftools.com/buy/buy-pdf-splitter.html ... xã hội Tiếng Việt 1.3.1 Thông điệp mạng xã hội Việt Nam 1.3.2 Bài toán phân loại thơng điệp Chương 2: PHÂN LOẠI THƠNG ĐIỆP TRÊN MẠNG XÃ HỘI TIẾNG VIỆT 10 11 2.1 Bài toán phân loại thông điệp mạng. .. loại thơng điệp mạng xã hội, cụ thể gồm có: phân loại văn bản, mạng xã hội, mạng xã hội Việt Nam toán phân loại thông điệp mạng xã hội 1.1 Tổng quan phân loại văn 1.1.1 Định nghĩa Phân loại văn... toán phân loại văn trường hợp phân loại thông điệp mạng xã hội Việt Nam Chương 2: Mô tả tổng quan tồn tốn phân loại thơng điệp mạng xã hội Trong sâu vào phân tích đặc trưng thơng điệp mạng xã hội