1. Trang chủ
  2. » Thể loại khác

Phân loại thông điệp trên mạng xã hội tiếng Việt

56 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 56
Dung lượng 1,61 MB

Nội dung

MỤC LỤC MỞ ĐẦU Chương 1: TỔNG QUAN VỀ PHÂN LOẠI THÔNG ĐIỆP TRÊN MẠNG XÃ HỘI 1.1 Tổng quan phân loại văn 1.1.1 Định nghĩa 1.1.2 Một số hướng phân loại văn 1.2 Tổng quan mạng xã hội Việt Nam 1.3 Bài tốn phân loại thơng điệp mạng xã hội Tiếng Việt 1.3.1 Thông điệp mạng xã hội Việt Nam 1.3.2 Bài toán phân loại thơng điệp Chương 2: PHÂN LOẠI THƠNG ĐIỆP TRÊN MẠNG XÃ HỘI TIẾNG VIỆT 10 11 2.1 Bài toán phân loại thông điệp mạng xã hội 11 2.2 Các chủ đề mạng xã hội Tiếng Việt 12 2.2.1 Các chủ đề chung 12 2.2.2 Các chủ đề hướng kiện (chủ đề nóng) 13 2.3 Mơ hình phân loại 14 2.3.1 Mơ hình chức 14 2.3.2 Mơ hình logic 15 2.4 Phân tích thơng điệp mạng xã hội ZingLive 16 2.4.1 Cấu trúc thông điệp ZingLive 16 2.4.2 Đặc điểm thông điệp ZingLive 17 Chương 3: PHÂN TÍCH CHỦ ĐỀ PHỤC VỤ CHO PHÂN LOẠI 19 3.1 Chủ đề chung 19 3.2 Chủ đề nóng 21 3.3 Đại diện thơng điệp 27 Chương 4: ĐỐI SÁNH VÀ PHÂN LOẠI 29 4.1 Biểu diễn chủ đề thông điệp 29 4.2 Một số phương pháp đối sánh đơn giản 30 4.2.1 Số từ khóa chung lớn 30 4.2.2 Tính tổng trọng số từ khóa chung tập chủ đề 30 4.2.3 Tính tổng trọng số từ khóa chung thơng điệp 30 4.3 Phương pháp so khớp đề xuất 30 4.3.1 Chủ đề chung 30 4.3.2 Chủ đề nóng 31 Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 35 5.1 Môi trường thực nghiệm, liệu, tham số 38 5.2 Phát chủ đề nóng 38 5.3 Chủ đề chung 42 5.4 Đối sánh chủ đề 35 KẾT LUẬN 49 TÀI LIỆU THAM KHẢO 51 DANH MỤC HÌNH VẼ Hình 1.1 - Mơ hình phân loại văn Hình 1.2 – Mơ hình liên kết mạng xã hội Hình 1.3 – Một số mạng xã hội Việt Nam Hình 2.1 - Mơ hình chức phân loại thông điệp 14 Hình 2.2 – Logic phân loại thông điệp 15 Hình 2.3 – Thơng điệp ZingLive: Có nội dung, khơng có mơ tả liên kết 16 Hình 2.4 - Khơng có liên kết mô tả liên kết 16 Hình 2.5 – Thơng điệp ZingLive: Có liên kết, mơ tả liên kết, khơng có nội dung 17 Hình 3.1 – Chủ đề chung 19 Hình 3.2- Trích lọc chủ đề chung 20 Hình 3.3 – Lựa chọn từ khóa cho chủ đề chung 21 Hình 3.4 – Tiền xử lý tách từ 22 Hình 3.5 – Phân loại tập văn vào chủ đề chung 22 Hình 3.6 – Chọn lọc từ khóa kiện 23 Hình 3.7 – Xây dựng tập từ khóa cho chủ đề nóng 26 Hình 3.8 – Tạo tập từ đại diện cho thông điệp 27 Hình 4.1 – Chênh lệch trọng số từ khóa topic chung 32 Hình 4.2 – Trọng số từ khóa topic The-thao 33 Hình 4.3 – Trọng số từ khóa chủ đề Khoa-học_Cơng-nghe 33 Hình 4.4 – Trọng số từ khóa topic 34 Hình 4.5 – Phân bổ trọng số từ khóa tập chủ đề sau chuẩn hóa 35 Hình 5.1 – Số văn tương ứng với chủ đề nóng 39 Hình 5.2 – Tỉ lệ số văn thuộc chủ đề 38 Hình 5.3 – Tỉ lệ phát chủ đề nóng thành công 39 Hình 5.4 – Số văn tương ứng chủ đề nóng 40 Hình 5.5 - Tỉ lệ chủ đề tập từ khóa xây dựng 40 Hình 5.6 – Tỉ lệ chủ đề phát tập từ khóa 41 Hình 5.7 – Tỉ lệ so khớp thành cơng chủ đề nóng 43 Hình 5.8 – Tỉ lệ phân loại xác theo cơng thức (1), (2), (3), (4), (6) 44 Hình 5.11 – Tỉ lệ phân loại xác-khơng xác theo số lượng 45 Hình 5.12 – Tỉ lệ xác phân loại theo chủ đề chung theo phần trăm 46 DANH MỤC BẢNG Bảng 2.0.1- 50 chủ đề chung 13 Bảng 3.1 – Minh họa phân loại văn vào chủ đề chung 23 Bảng 3.2 – Minh họa từ khóa kiện theo chủ đề chung 24 Bảng 3.3- Minh họa tập từ khóa chủ đề nóng 26 Bảng 4.1 – Thông điệp thuộc chủ đề giáo dục 36 Bảng 4.2 – Thơng điệp thuộc chủ đề giải trí 36 Bảng 4.3 – Thông điệp thuộc chủ đề Thị trường – Tiêu dùng 36 Bảng 4.4 – Thông điệp thuộc chủ đề nóng Mưa-lũ-miền-Trung 36 Bảng 4.5 – Thơng điệp thuộc chủ đề nóng Huy-Hồng-phê-thuốc 37 Bảng 4.6 – Thơng điệp thuộc chủ đề nóng Động-đất-thủy-điện-Sơng-Tranh 37 Bảng 5.1- Chủ đề nóng tập từ khóa 42 Bảng 5.2 – Tập từ khóa chủ đề chung 43 MỞ ĐẦU Bắt đầu vào Việt Nam vào khoảng năm 1997, từ mơ hình thử nghiệm phạm vi hẹp, kết nối với tồn cầu ba năm sau đó, internet Việt Nam đạt bước tiến dài, nhanh chóng hịa nhập với cộng đồng quốc tế Internet Việt Nam trở thành thị trường tiềm với số tăng trưởng ấn tượng (từ 800 nghìn người dùng năm 2003 lên tới 32 triệu người dùng năm 2012 [3]) kèm theo tăng trưởng số lượng người dùng, lĩnh vực hoạt động Internet Việt Nam khơng ngừng mở rộng, từ có dịch vụ trang tin điện tử, tán gẫu mạng, hay thư điện tử Đến nay, Internet Việt Nam lan rộng lĩnh vực thương mại điện tử, truyền thông, đa phương tiện, ứng dụng tương tác trực tuyến, gần nhất, mạng xã hội xu hướng khai thác mạnh mẽ thị trường Internet Việt Như tên nó, mạng xã hội định nghĩa xã hội ảo thu nhỏ Internet, đó, người dùng có trang cá nhân mình, họ tùy ý đưa ý kiến cá nhân vấn đề xã hội, hay chia sẻ với bạn bè sống… Chính thoải mái tính cá nhân hóa tạo nên cộng đồng mạng với khối lượng liệu chia sẻ khổng lồ Với lượng chia sẻ lên tới hàng triệu thông điệp ngày tất lĩnh vực xã hội, kiện nóng hổi thơng tin mang tính cá nhân người dùng, yêu cầu đặt với mạng xã hội cần phân loại thông điệp chia sẻ, để tiện cho theo dõi người dùng, tiện cho việc phân tích xu hướng cộng đồng hay ứng dụng quảng cáo trực tuyến hướng ngữ cảnh, v.v Chính thực tế này, em lựa chọn tốn “Phân loại thông điệp mạng xã hội Tiếng Việt” làm đề tài luận văn thạc sỹ Bài tốn phân loại thơng điệp mạng xã hội Tiếng Việt có vài vấn đề sau (1) Những thông điệp chia sẻ mạng xã hội thường thơng điệp ngắn (dưới 500 ký tự), khó áp dụng thành công phương pháp phân loại văn thơng thường cho tốn phân loại thơng điệp (2) Cũng đặc trưng ngắn thông điệp, số lượng từ đặc trưng khơng đủ nhiều, nên khó phát chủ đề tương ứng với thông điệp cách xác (3) Thơng tin mạng xã hội có tính thay đổi liên tục theo thời gian, kiện thời điểm chia sẻ thông điệp, ngồi chủ đề chung lĩnh vực đời sống, cần có thêm chủ đề thường xuyên cập nhật theo thời gian (4) Ứng dụng phân loại thông điệp mạng xã hội thực tế yêu cầu gần thời gian thực, cần phương pháp xử lý nhanh, đáp ứng nhu cầu sử dụng hàng triệu người dùng thời điểm đạt độ xác cao Từ vấn đề tốn phân loại thơng điệp mạng xã hội Việt Nam, sở kiến thức tìm hiểu được, em xây dựng mơ hình phân loại thơng điệp cách so sánh tương đồng mặt nội dung thông điệp chủ đề theo công thức đề xuất Một cách tổng quan, mơ hình xây dựng từ thành phần sau đây: (1) Tập liệu chủ đề/từ khóa thu thập từ nguồn baomoi.com tác giả [7,17] (2) Tập chủ đề nóng thu thập thường xuyên từ internet (trong khoảng 3-7 ngày trở lại) (3) Bộ công cụ so sánh tương quan chủ đề thông điệp sử dụng công thức so sánh trích rút từ thực tế liệu Kết đạt luận văn sử dụng việc phân loại thông điệp mạng xã hội ZingLive nay, cịn dùng liệu đầu vào cho tốn phân tích xu hướng, khai phá cộng đồng mạng xã hội, v.v Cấu trúc luận văn trình bày sau: Chương 1: Đưa số khái niệm tốn phân loại văn bản, số thơng tin phát triển mạng xã hội Việt Nam áp dụng toán phân loại văn trường hợp phân loại thông điệp mạng xã hội Việt Nam Chương 2: Mơ tả tổng quan tồn tốn phân loại thơng điệp mạng xã hội Trong sâu vào phân tích đặc trưng thông điệp mạng xã hội nội dung, chủ đề chung, chủ đề nóng – chủ đề mà thông điệp không phân loại vào Chương 3: Trình bày kỹ chủ đề tốn phân loại thơng điệp mạng xã hội Việt Nam Chương giới thiệu chi tiết bước xây dựng tập chủ đề dùng cho mạng xã hội, bao gồm việc chọn lọc từ khóa cho chủ đề chung, việc phát hiện, trích rút tập từ khóa cho chủ đề nóng Chương 4: Đề cập đến số phương pháp để phân loại thơng điệp mạng xã hội, giải thích chi tiết cơng thức so khớp mà tác giả đề xuất sử dụng cho việc phân loại thơng điệp vào chủ đề chung, chủ đề nóng Chương 5: Là phần trình bày mơ hình thực nghiệm kết thực nghiệm đạt Chương phân tích kết đạt hai trường hợp: Phân loại thông điệp vào chủ đề chung (sử dụng lại tập từ khóa tác giả [23]) Phân loại thông điệp theo chủ đề nóng (theo thời gian) tác giả phát triển Phần KẾT LUẬN đưa nhận xét tổng quan kết đạt đề tài Phân tích vấn đề cịn tồn hướng cải tiến tương lai Chương 1: TỔNG QUAN VỀ PHÂN LOẠI THÔNG ĐIỆP TRÊN MẠNG XÃ HỘI Chương giới thiệu nhìn tổng quan khái niệm, liệu liên quan đến toán phân loại thơng điệp mạng xã hội, cụ thể gồm có: phân loại văn bản, mạng xã hội, mạng xã hội Việt Nam tốn phân loại thơng điệp mạng xã hội 1.1 Tổng quan phân loại văn 1.1.1 Định nghĩa Phân loại văn (hay gọi phân lớp văn - text classification) trình gán nhãn lớp/tên lớp văn ngôn ngữ tự nhiên vào hay nhiều lớp cho trước Văn Chủ đề Văn đầu vào Bộ phân loại văn Chủ đề n Hình 1.1 - Mơ hình phân loại văn Định nghĩa phân loại (lớp) văn [1]: Phân loại văn nhiệm vụ đặt giá trị nhị phân cho cặp (d j , ci )  D  C , D tập văn bản, C  c1 , c2 , , cc  tập lớp cho trước Giá trị T (true) gán cho cặp  d j , ci  có nghĩa tài liệu d j thuộc lớp ci Giá trị F (false) gán cho cặp  d j , ci  có nghĩa tài liệu d j khơng thuộc lớp ci Hay nói cách khác, phân loại văn tốn tìm hàm  : D  C  T , F  D tập văn bản, C  c1 , c2 , , cc  tập lớp cho trước, hàm  : D  C  T , F  gọi phân loại 1.1.2 Một số hướng phân loại văn Cách đơn giản để phân loại văn dùng phương pháp thủ cơng, duyệt qua tồn nội dung văn định xem văn thuộc lớp Tuy nhiên, phương pháp gặp phải số khó khăn sau[3]: - Đối với lĩnh vực đặc biệt, phân loại đối tượng (như sở liệu y tế, pháp luật) vào lớp cho trước cần có hiểu biết lĩnh vực - Phân lớp tay đơi khơng xác định phụ thuộc vào hiểu biết động người thực - Quyết định hai chuyên gia khác nảy sinh bất đồng ý kiến Vì cơng cụ để tự động phân lớp văn vào lớp hữu ích với cơng việc thơng tin tràn ngập ngày Có nhiều phương pháp đưa để giải toán này, có số phương pháp Naïve Bayes, K láng giềng gần (K-NN), máy vector hỗ trợ (Support Vector Machines), định (Decision tree), mạng nơron nhân tạo (ANN) Trong khuân khổ luận văn, tác giả xin trình bày tóm tắt ba phương pháp đơn giản phổ biến Naïve Bayes, K láng giềng gần nhất, máy vector hỗ trợ Phương pháp Naïve Bayes phương pháp nhận dạng dựa công thức Bayes P(C |x) = 𝑃 𝐶 𝑃(𝑥|𝐶) 𝑃(𝑥) x vector đặc trưng mẫu cần phân lớp C lớp Phương pháp có ưu điểm đơn giản, nhiên nhược điểm phương pháp giả thiết độc lập đặc trưng liệu phải thoả mãn Một cách toán học P(x1, x2) = P(x1) P(x2) với x1 x2 hai đặc trưng liệu Phương pháp học máy phổ biến thứ hai giải toán phân loại văn phuơng pháp K láng giềng gần Ý tưởng phương pháp việc phân loại văn dựa vào số đơng nhãn K văn “gần” K thường có giá trị nguyên dương thường có giá trị nhỏ Với K = văn xét đuợc gán (*) http://wikipedia.com vào lớp chứa văn gần so với văn xét Nhược điểm thuật tốn lớp mà có chứa nhiều phần tử liệu có xu huớng chi phối kết phân lớp văn Một nhược điểm khác kNN u cầu khối lượng tính tốn lớn, đặc biệt kích thước liệu tăng nhanh Phương pháp thứ ba phương pháp máy vector hỗ trợ (SVM), phương pháp phân loại văn phổ biến cho kết phân lớp tốt SVM dạng chuẩn phương pháp học có giám sát (supervised learning) dùng cho việc phân lớp nhị phân, có nghĩa phân loại liệu vào hai lớp khác Trong mơ hình SVM trước tiên liệu luyện tập biểu diễn điểm không gian, tiếp đến mô hình SVM xây dựng siêu phẳng khơng gian cho khoảng cách từ ví dụ luyện tập tới siêu phẳng xa Dữ liệu kiểm tra (testing data) biểu diễn khơng gian SVM dự đốn thuộc hai lớp tùy vào mẫu liệu nằm phía siêu phẳng Phương pháp có ưu điểm kết phân lớp có độ xác cao, nhiên nhược điểm SVM tốc độ phân lớp chậm pha huấn luyện địi hỏi khơng gian nhớ lớn 1.2 Mạng xã hội (*) Mạng xã hội, hay gọi mạng xã hội ảo, (tiếng Anh: social network) dịch vụ nối kết thành viên sở thích Internet lại với với nhiều mục đích khác khơng phân biệt không gian thời gian Mạng xã hội có tính chat, e-mail, phim ảnh, voice chat, chia sẻ file, blog xã luận Mạng đổi hoàn toàn cách cư dân mạng liên kết với trở thành phần tất yếu ngày cho hàng trăm triệu thành viên khắp giới Các dịch vụ có nhiều phương cách để thành viên tìm kiếm bạn bè, đối tác: dựa theo group (ví dụ tên trường tên thành phố), dựa thông tin cá nhân (như địa e-mail screen name), dựa sở thích cá nhân (như thể thao, phim ảnh, sách báo, ca nhạc), lĩnh vực quan tâm: kinh doanh, mua bán (*) http://wikipedia.com Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 5.1 Môi trường thực nghiệm, liệu, tham số  Tập liệu gồm có: - 49 chủ đề chung tổng hợp từ 300 chủ đề sinh tự động từ tập liệu Baomoi.com, phương pháp LDA.[7] - 300 báo lấy từ vnexpress.net (dùng cho thực nghiệm phần phát chủ đề nóng) - 500 thông điệp lấy từ trang ZingLive(live.zing.vn) (dùng cho thực nghiệm phần phân loại thông điệp)  Dữ liệu thí nghiệm chạy máy tính PC cấu hình: - RAM 4GB - Bộ xử lý Intel(R) Core(TM) i5 3.20GHz  Các module chương trình - Module tiền xử lý liệu, thực việc chọn nội dung từ file html (nếu có), tách câu, tách từ, loại bỏ ký tự đặc biệt, loại bỏ từ dừng, loại bỏ từ phổ biến (khơng có ý nghĩa việc phân loại) Module tác giả xây dựng, có sử dụng mã nguồn tool jsoup, công cụ tác giả Phan Xuân Hiếu - Module phát trích trọn chủ đề nóng Do tác giả xây dựng, dựa lý thuyết công thức đề cập chương trước - Module đối sánh thông điệp chủ đề, tác giả xây dựng, dựa công thức đề xuất chương 5.2 Phát chủ đề nóng Dữ liệu thực nghiệm gồm có: o 49 chủ đề chung o 300 báo lấy ngẫu nhiên ba chủ đề Kinh tế, Xã hội, Giải trí báo vnexpress  38 Thiết lập thơng số  Thí nghiệm 1: o Số file chung tối thiểu: o Trọng số tối thiểu từ khóa kiện: 25 20 15 Số văn 10 Bầu Kiên bị bắt Động đất Quảng Nam The-voice Vietnam-idol Không tên Hình 5.1 – Số văn tương ứng với chủ đề nóng Tỉ lệ số văn thuộc chủ đề Bầu Kiên bị bắt Tỉ lệ phát chủ đề nóng thành cơng Động đất Quảng Nam The-voice Có chủ đề Viet-nam-idol Khơng tên Hình 5.2 – Tỉ lệ số văn thuộc chủ đề Khơng chủ đề Hình 5.3 – Tỉ lệ phát chủ đề nóng thành cơng Thí nghiệm 2: - số file chung tối thiểu: 39 - trọng số tối thiểu từ khóa: 40 35 30 25 20 Số văn 15 10 Động đất Quảng Nam Mưa lũ Huy Việt Nam The voice Bầu Kiên Khơng tên miền Hồng phê Idol bị bắt Trung thuốc Hình 5.4 – Số văn tương ứng chủ đề nóng Động đất Quảng Nam Mưa lũ miền Trung Huy Hoàng phê thuốc Việt Nam Idol The voice Bầu Kiên bị bắt No name Hình 5.5 - Tỉ lệ chủ đề tập từ khóa xây dựng 40 Độ xác tập tin từ khóa trọng số thu được: Có chủ đề Khơng rõ chủ đề Hình 5.6 – Tỉ lệ chủ đề phát tập từ khóa Sau thí nghiệm 2, số chủ đề nóng thu từ tập tài liệu thu thập từ ba mục Kinh tế, Xã hội, Giải trí vnexpress.net gồm có: o o o o o o Cầu-thủ-Huy-Hồng-phê-thuốc Mưa-lũ-miền-trung Động-đất-thủy-điện-Sơng-Tranh Bầu-Kiên-bị-bắt Giọng hát Việt Việt-nam-idol 41 Mưa lũ miền Trung Bầu Kiên bị bắt Giọng hát Việt Việt Nam Idol Sông_Tranh (100) Bắc_Trà_My (100) Nghệ_An (100.0) Trung (100.0) Trưởng (100.0) Zalkamate (100.0) The_Voice (100.0) Trần_Lập (100.0) Huy_Khánh (100.0) Quân (100.0) (100.0) Huy_Hoàng (100.0) Lam_Nghệ_An Quảng_Nam (100) cơng_trình (19.0) đánh_giá (18.0) Vinh (100.0) An (100.0) Hương_Khê Phó (100.0) Đàm_Vĩnh_Hưng Lý_Xuân_Hải (100.0) (100.0) Trần_Mộng_Hùng Giọng (100.0) Idol (100.0) Tâm (100.0) Dũng (100.0) (100.0) Mỵ_Duy_Xuân (100.0) viện (17.0) xảy (17.0) khu_vực (16.0) (100.0) Phịng (100.0) Ơng (100.0) (100.0) Kiên (100.0) Châu (100.0) Đà_Nẵng (100.0) Đàm 100.0 Thu_Minh (100.0) Sáng (100.0) Giọng (100.0) Nam (100.0) Sơng (100.0) Thanh_Hố (100.0) xe (16.0) huy_hoàng ( 14.0) mạnh (15.0) bắc_trà_my (14.0) thấm (14.0) an_toàn (14.0) Hà_Tĩnh (100.0) Huyện (100.0) bị (27.0) mưa (22.0) Phạm_Trung_Cang (100.0) Nguyễn_Thanh_Toại (100.0) Hồ_Ngọc_Hà (100.0) Nam (100.0) Mr (100.0) Thanh_Lam (100.0) Nguyễn_Thanh_Hưng (100.0) Nguyễn_Thanh_Tùng (100.0) giao_thông (12.0) công_an (10.0) cảnh_sát (10.0) quảng_nam (13.0) khảo_sát (12.0) xử_lý (12.0) lũ (20.0) nước (20.0) huyện (15.0) Bầu_Kiên (100.0) Nguyễn_Đức_Kiên (100.0) (58.0) anh (42.0) hát (36.0) Mỹ_Tâm (100.0) Vietnam_Idol (100.0) Khùng (100.0) người (9.0) tai_nạn (9.0) chiếc (8.0) richter (11.0) điểm (11.0) ứng_viên (11.0) (14.0) người (14.0) sông (13.0) Hungary (100.0) kiên (73.0) ngân_hàng (62.0) xem (20.0) khán_giả (14.0) đàm_vĩnh_hưng Ya_Suy (100.0) Phạm_Hồng_Phước (100.0) gây (8.0) cầu_thủ (7.0) thanh_hoá (7.0) người_dân (11.0) sự_cố (11.0) hồ (11.0) dân (13.0) người (12.0) nhiều (12.0) acb (56.0) chủ_tịch (55.0) công_ty (51.0) (14.0) clip (14.0) giọng (14.0) Quang_Dũng (100.0) Nguyễn_Quang_Dũng (100.0) thanh_niên (7.0) tài_xế (7.0) crv (6.0) tích (10.0) năng_lực (9.0) địa_chất (9.0) ngập (12.0) hà_tĩnh (12.0) đường 9.0 nguyễn_đức_kiên (47.0) đầu_tư (38.0) thí_sinh (14.0) ca_sĩ (12.0) bảo_anh (12.0) Duy_Khánh (100.0) Quốc_Trung (100.0) Đức_Thảo (100.0) ôtô (6.0) đội_tuyển ( 6.0) xế (5.0) cạnh_tranh (9.0) chấn (9.0) vật_lý (9.0) nước 9.0 lũ 8.0 miền 8.0 doanh_nghiệp (32.0) ca_khúc (10.0) cổ_phần (28.0) đêm (10.0) bầu (25.0) thanh_lam (9.0) tơi (66.0) thí_sinh (55.0) hát (51.0) lắc (5.0) bóng_đá (5.0) …… nhà (8.0) rung (7.0) …… trôi 8.0 …… bóng_đá ( 22.0) điều_tra (22.0) …… giọng (35.0) vietnam_idol (32.0) …… Cầu thủ Huy Hoàng phê thuốc Động đất thủy điện Sơng Tranh Nghệ_An (100.0) Nguyễn_Huy_Hồng nhạc (9.0) chương_trình (7.0) …… Bảng 5.1- Chủ đề nóng tập từ khóa 5.3 Chủ đề chung Tập chủ đề chung xây dựng tay gồm 49 chủ đề Bảng 5.2 số ví dụ chủ đề chung tập từ khóa nó: 42 Bất động sản Thể thao CNTT-TT Giải trí bất_động_sản (0.084963) căn_hộ (0.056968) chung_cư ( 0.046077) bđs (0.039107) biệt_thự (0.030865) diện_tích (0.029485) cơng_viên ( 0.025415) kcn (0.010132) cao_ốc (0.007724) cao_tầng ( 0.005308) cưỡng_chế (0.00292) hạ_tầng (0.002687) khuôn_viên (0.001146) cơi_nới (8.63E-4) chủ_hộ (4.49E-4) khai_hoang (3.5E-4) …… …… …… barca (0.057122) arsenal (0.055034) chuyển_nhượng (0.029366) bayern (0.027063) bóng ( 0.021237) calisto (0.020405) cầu_thủ (0.019149) bundesliga ( 0.014583) ac (0.011813) công_vinh (0.009985) alex_ferguson (0.00902) capello (0.008486) ancelotti (0.008048) benzema (0.00733) blđ (0.007153) chân_sút (0.006231) …… …… …… cntt (0.022171) fpt (0.020377) android (0.018498) công_nghệ_thông_tin (0.01658) blog ( 0.012603) dữ_liệu (0.00992) card (0.007671) bưu_chính (0.00752) cơng_nghệ (0.007452) blackberry (0.00628) camera (0.005364) bưu_điện (0.005113) dế (0.00498) core (0.004901) firefox (0.004311) asus (0.004181) …… …… clip (0.044855) ca_khúc (0.032808) album (0.026206) diễn_viên (0.020861) fan (0.008321) giải_trí (0.007213) ca_sĩ (0.006985) ca_hát (0.005991) cải_lương (0.005727) biểu_diễn (0.005456) chèo (0.00459) dàn_nhạc (0.004503) giao_hưởng (0.004382) ghi_hình (0.003985) cơng_chiếu (0.003313) entertainment (0.003199) …… …… …… Bảng 5.2 – Tập từ khóa chủ đề chung 5.5 Một số kết đối sánh sử dụng công thức đưa chương 5.5.1 So khớp chủ đề nóng Sử dụng tập từ khóa thu thí nghiệm phát chủ đề nóng phần 5.2, áp dụng công thức (1), (2), (3), (4), (5) đưa chương 4, ta có kết hình 5.7 1.2 Huy-Hồng 0.8 Sông-Tranh Mưa-lũ 0.6 The-voice Vietnam-Idol 0.4 Bầu-Kiên 0.2 Nguyễn-Bá-Thanh CT1 CT2 CT3 CT4 CT5 Hình 5.7 – Tỉ lệ so khớp thành cơng chủ đề nóng 43 5.5.2 So khớp chủ đề chung Sử dụng tập từ khóa xây dựng phần 5.3, thực việc so khớp tập liệu thông điệp zingLive với tập chủ đề theo công thức (1), (2), (3), (4), (5), kết so khớp xác đạt tỷ lệ biểu đồ 5.8 đây: 90 80 70 60 50 40 30 20 10 CT1 CT2 CT3 CT4 CT6 Hình 5.8 – Tỉ lệ phân loại xác theo công thức (1), (2), (3), (4), (6) 44 Am-thuc_Dinh-duong Bat-dong-san Bien-dao Chinh-phu_Chinh-sach Chinh-phu_Hop-tac-quoc-te Chinh-tri_Quan-su_The-gioi Chinh-tri_Quan-su_Vietnam Chung-khoan Cong-nghe-thong-tin_Truyen-thong Doanh-nghiep_Doanh-nhan Du-lich_Van-hoa Games Giai-tri Giao-thong_Tai-nan Hon-nhan_Gia-dinh Kien-truc_Thiet-ke Kinh-doanh_Tieu-dung Kinh-te_Tai-chinh_Ngan-hang Khoa-hoc_Cong-nghe Le-hoi_Qua-tang Lich-su Nang-luong Nhiep-anh Nong-ngu-nghiep Phap-luat_An-ninh Phuong-tien-giao-thong Smartphone Tai-nguyen_Moi-truong Tam-su_Tinh-yeu Tham-hoa The-thao Thoi-tiet_Khi-hau Thoi-trang_Lam-dep Truyen-hinh_Bao-chi Van-hoc_Nghe-thuat Vien-thong_Mobile Xa-hoi_Dan-sinh Xa-hoi_Giao-duc Xa-hoi_Te-nan Xa-hoi_Tham-nhung Xa-hoi_Ve-sinh-an-toan Xay-dung_Quy-hoach Xuat-nhap-khau Y-te_Suc-khoe 250 200 150 100 50 FALSE TRUE Hình 5.11 – Tỉ lệ phân loại xác-khơng xác theo số lượng 45 Am-thuc_Dinh-duong Bat-dong-san Bien-dao Chinh-phu_Chinh-sach Chinh-phu_Hop-tac-quoc-te Chinh-tri_Quan-su_The-gioi Chinh-tri_Quan-su_Vietnam Chung-khoan Cong-nghe-thong-tin_Truyen-thong Doanh-nghiep_Doanh-nhan Du-lich_Van-hoa Games Giai-tri Giao-thong_Tai-nan Hon-nhan_Gia-dinh Kien-truc_Thiet-ke Kinh-doanh_Tieu-dung Kinh-te_Tai-chinh_Ngan-hang Khoa-hoc_Cong-nghe Le-hoi_Qua-tang Lich-su Nang-luong Nhiep-anh Nong-ngu-nghiep Phap-luat_An-ninh Phuong-tien-giao-thong Smartphone Tai-nguyen_Moi-truong Tam-su_Tinh-yeu Tham-hoa The-thao Thoi-tiet_Khi-hau Thoi-trang_Lam-dep Truyen-hinh_Bao-chi Van-hoc_Nghe-thuat Vien-thong_Mobile Xa-hoi_Dan-sinh Xa-hoi_Giao-duc Xa-hoi_Te-nan Xa-hoi_Tham-nhung Xa-hoi_Ve-sinh-an-toan Xay-dung_Quy-hoach Xuat-nhap-khau Y-te_Suc-khoe 100% 90% 80% 70% 60% 50% 40% 30% 20% FALSE 10% TRUE 0% Hình 5.12 – Tỉ lệ xác phân loại theo chủ đề chung theo phần trăm 46 Hình 5.11 5.12 thể độ xác chi tiết công thức phân loại chủ đề (5) theo chủ đề chung Có thể có vài nhận xét sau việc phân loại thông điệp theo chủ đề chung:  Về phân bố chủ đề: Với 500 thông điệp lấy ngẫu nhiên từ mạng xã hội ZingLive, phân bổ thông điệp vào chủ đề không giống Các chủ đề đề cập nhiều Giải-trí (98), Ẩm-thực_Dinh-dưỡng (24), Hơn-nhân_Giađình (27), Kinh-doanh_Tiêu-dùng(24), Pháp-luật (24), Thảm-họa(31), Vănhóa_Nghệ-thuật(22), Y-tế_Sức-khỏe(24)… Tuy nhiên, có vài chủ đề không xuất hiện, xuất với số lượng như: Biển-đảo (1), Khoa-họccơng-nghệ(1), Xã hội_Tham-nhũng (2)…  Về độ xác đối sánh: Các chủ đề khác có tỉ lệ đối sánh xác khác nhau, số chủ đề Giải-trí, Kinh doanh-Tiêu dùng, Smartphone… đạt độ xác tới 80%, đó, chủ đề Kiến-trúcThiết kế, Nơng-ngư-nghiệp độ xác đạt khoảng 10% Như vậy, độ xác việc đối sánh chủ đề nhìn chung đạt kết tương đối tốt (79%), nhiên, chủ đề riêng lẻ độ xác đối sánh chưa đồng 5.6 Phương hướng cải tiến Theo kết thực nghiệm phần 5.4 5.5 trên, thấy kết đạt tương đối tốt, nhiên cần cải thiện thêm để đạt kết tốt Để thực việc cải tiến, ngồi việc tìm cơng thức so khớp cho độ xác cao, việc quan trọng cần phải thực cải thiện tập từ khóa chủ đề dùng cho việc so khớp Em đề xuất hướng cải tiến thử nghiệm thời gian tới, cụ thể sau:  Cải thiện tập chủ đề chung o Mở rộng tập liệu thu thập để bao trọn nhiều chủ đề o Lọc bỏ từ khóa chung chung, từ lỗi, không liên quan đến chủ đề cho vào chủ đề o Chạy thí nghiệm nhiều lần để chọn chủ đề cho tỉ lệ đối sánh thành công thấp, tinh lọc lại tập từ khóa 47  Cải thiện tập chủ đề nóng o Mở rộng thu thập báo gần nhiều lĩnh vực (Thể thao, văn hóa, trị…) o Lọc bỏ tay từ khóa khơng liên quan đến chủ đề lại xuất chủ đề với trọng số cao o Thử sử dụng tập từ khóa kiện - dạng viết hoa - việc đối sánh chủ đề 48 KẾT LUẬN Luận văn đạt số kết q trình nghiên cứu Một là, xây dựng tay 49 chủ đề chung tiếng Việt trích rút từ tập 300 chủ đề sinh mơ hình LDA từ tập liệu baomoi.com Trong đó, chủ đề tập cặp từ 50-500 từ khóa trọng số tương ứng Các chủ đề chung sử dụng cho việc phân loại thơng điệp vào chủ đề mà đề cập tới Ví dụ chủ đề chung có cấu trúc sau: Ẩm-thực_Dinh-dưỡng = {(món, 0.045062), (dinh_dưỡng, 0.021539), (chất_béo, 0.007114), (giết_mổ, 0.006983), (gia_vị, 0.006689), (canxi, 0.005317)…} Hai là, luận văn xây dựng phương pháp cơng cụ phát chủ đề nóng, xây dựng tập từ khóa cho chủ đề nóng đó, phương pháp tác giả luận văn TS Phan Xn Hiếu đề xuất, chưa có cơng bố cơng trình khoa học nước quốc tế Chủ đề nóng kiện đề cập đến nhiều khoảng thời gian xác định tên chủ đề không xác định trước Ví dụ chủ đề nóng gần đây: Động-đất-thủy-điện-Sông-Tranh = { (Sông_Tranh, 100), (Bắc_Trà_My, 100), (Viện, 100), (Quảng_Nam, 100), (động_đất, 57.0), (thủy_điện, 44.0), (nước, 30.0)….} Ba là, luận văn cơng thức tính trọng số cho việc đối sánh chủ đề với thông điệp, cho kết phân loại thông điệp thành công với tỉ lệ khoảng 79%, phương pháp tác giả luận văn TS Phan Xuân Hiếu đề xuất, chưa cơng bố cơng trình khoa học ngồi nước Cơng thức đề xuất: 𝑘 𝑡𝑜𝑡𝑎𝑙_𝑤𝑒𝑖𝑔𝑕𝑡 = 𝑣𝑖 log10 𝑥 + 𝑓𝑖 𝑘 𝑖=1 Trong đó: - k số từ chung chủ đề thông điệp - vi trọng số từ chủ đề tính theo cơng thức o vi  log10 (R  2)  log10 (i  2) o R tổng số từ khóa topic, i vị trí từ khóa topic 49 - f trọng số từ thông điệp - x tham số thực nghiệm Các kết có thể cải tiến thêm cho phù hợp để áp dụng vào phần mềm phân loại chủ đề mạng xã hội ZingLive Các đề xuất đáp ứng số yêu cầu thiết yếu ứng dụng mạng xã hội: o Xử lý tốt với số lượng thông điệp lớn o Xử lý tốt với trường hợp tài liệu ngắn, thiếu thơng tin ngữ cảnh cần thiết để phát chủ đề o Xử lý tốc độ nhanh, đáp ứng nhu cầu gần với thời gian thực ứng dụng thực tế Tuy nhiên, luận văn số kết chưa đạt mong muốn Thứ nhất, tỉ lệ phân loại chưa cao (~80%) Thứ hai, giới hạn mặt thời gian, nên liệu thực nghiệm chưa nhiều Thứ ba, công thức áp dụng luận văn tối ưu thêm, để nâng tỉ lệ phân loại thành công giảm thời gian xử lý Đề tài mở số hướng nghiên cứu cải thiện tốc độ xử lý, chất lượng xử lý Hoặc ứng dụng kết đề tài vào nhiều mục đích khác phát cộng đồng, quảng cáo, phân tích nhu cầu người dùng, v.v… 50 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hà Quang Thụy, Phan Xuân Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, “Giáo trình khai phá liệu web”, nhà xuất Giáo Dục Việt Nam [2] Bộ thông tin truyền thông, “Sách trắng Công nghệ thông tin Việt Nam” [3] Nguyễn Thị Hương Thảo, “Phân lớp phân cấp Taxonomy văn Web ứng dụng”, Khóa luận tốt nghiệp đại học, Đại học Công nghệ, ĐHQGHN [4] Vũ Xuân Lương, “Đặc điểm tiếng Việt” http://www.vietlex.com/ngon-ngu-hoc/11Dac_diem_tieng_Viet Tiếng Anh [5] Bhattacharya, I and Getoor, L (2006), “A Latent Dirichlet Allocation Model for Entity Resolution”, In Proceedings of 6th SIAM Conference on Data Mining, Maryland, USA [6] Blei, D.M., Ng, A.Y and Jornal, M.I (2003), “Latent Dirichlet Allocation”, Journal of Machine Learning Research 3, pp.993-1022 [7] Cam-Tu Nguyen, Hidden “Topic Discovery toward classification and clustering in Vietnamese web document”, Master Thesis, University of Enginnering and Technology, Hanoi, 2008 [8] Cam-Tu Nguyen, Xuan-Hieu Phan, Susumu Horiguchi, Thu-Trang Nguyen, and Quang-Thuy Ha: Web Search Clustering and Labeling with Hidden Topics, ACM Transactions on Asian Language and Information Processing (ACM TALIP), Vol.8, No.3, 2009 [9] Hofmann, T., “Probabilistic Latent Semantic Analysis”, In Proceedings of UAI [10] Hofmann, T., (2001), “Unsupervised Learning by Probabilistic Latent Semantic Analysis”, Machine Learning 42, pp 177-196 [11] J Lafferty, A McCallum, and F Pereira Conditional random fields: probabilistic models for segmenting and labeling sequence data In Proc of ICML, pp.282-289, 2001 [12] K Nigam, J Lafferty, and A McCallum, "Using maximunm Entropy for text classification", Proceeding of the 16th International Joint Conference Workshop on machine Learning for Information Filtering: 61-67 Stockholm, Sweden, 1999 [13] L Cai and T Hofmann, “Text Categorization by Boosting Automatically Extracted Concepts,” Proc ACM SIGIR, 2003 51 [14] Nguyen Viet Cuong, Nguyen Thi Thuy Linh Ha, Quang Thuy and Phan Xuan Hieu (2006) A Maximum Entropy Model for Text Classification The International Conference on Internet Information Retrieval 2006:134-139, Hankuk Aviation University, December 6, 2006, Goyangsi, Korea [15] Simon Tong and Daphne Koller “Support Vector Machine Active Learning with Applications to Text Classification” [16] Thorsten Joachims, SVM multiclass Multi-Class Support Vector Machine, Cornell University Department of Computer Science Http://svmlight.joachims.org/ [17] Xuan-Hieu Phan, Cam-Tu Nguyen, Dieu-Thu Le, Le-Minh Nguyen, Susumu Horiguchi, and Quang-Thuy Ha: “A Hidden Topic-based Framework towards Building Applications with Short Web Documents”, IEEE Transactions on Knowledge and Data Engineering (IEEE TKDE), Vol.23, No.7, pp.961-976, 2011 [18] Xuan-Hieu Phan, Le-Minh Nguyen, and Susumu Horiguchi: Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections, The 17th International World Wide Web Conference (WWW), pp.91-100, April 2008, Beijing, China 52

Ngày đăng: 23/09/2020, 23:02

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w