ứng dụng khai phá dữ liệu để trích rút thông tin theo chủ đề từ các mạng xã hội

26 800 1
ứng dụng khai phá dữ liệu để trích rút thông tin theo chủ đề từ các mạng xã hội

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TRẦN THỊ ÁI QUỲNH ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ TRÍCH RÚT THƠNG TIN THEO CHỦ ĐỀ TỪ CÁC MẠNG XÃ HỘI Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2013 Cơng trình hồn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: TS Huỳnh Cơng Pháp Phản biện 1: TS Hồng Thị Thanh Hà Phản biện 2: PGS TS Lê Mạnh Thạnh Luận văn bảo vệ trước hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật họp Đại học Đà Nẵng vào ngày 19 tháng 11 năm 2013 Có thể tìm hiểu luận văn tại: - Trung tâm-Thông tin học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng MỞ ĐẦU Tính cấp thiết đề tài Trong năm gần đây, công nghệ thông tin phát triển mạnh mẽ việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội làm cho lượng liệu tăng lên nhanh chóng từ mức độ terabytes đến mức độ petabytes Do đó, việc khai thác chọn lọc liệu có ích từ lượng liệu khổng lồ việc cần thiết, đóng vai trị định hoạt động Hiện nay, mạng xã hội có đa dạng người sử dụng, họ chia sẻ ý kiến nhiều chủ đề khác nhau, nguồn liệu có giá trị Chúng ta biết việc trích lọc ý kiến người dùng có sức ảnh hưởng mang lại nhiều lợi ích thiết thực mang đến hội kinh doanh, ý kiến mặt hàng mà họ mua, tốt xấu…, có ảnh hưởng đến bỏ phiếu trị, ảnh hưởng đến thảo luận mang tính xã hội,… Hơn thập niên trở lại đây, khai phá liệu (KPDL) trở thành hướng nghiên cứu quan trọng lĩnh vực khoa học máy tính cơng nghệ tri thức Hàng loạt nghiên cứu, đề xuất đời thử nghiệm ứng dụng thành công vào đời sống với lịch sử cho thấy KPDL lĩnh vực nghiên cứu ổn định, có tảng lý thuyết vững Ngày nay, với phát triển internet nhu cầu đưa thông tin lên mạng, trang web với liệu fulltex trở nên phổ biến Cùng với kỹ thuật khai phá liệu nói chung, kỹ thuật khai phá web quan tâm nhằm chắt lọc, trích rút thơng tin phục vụ cho mục đích ứng dụng cần thiết Mặt khác, với mục tiêu tạo môi trường giao lưu, chia sẻ thông tin đa dạng, phong phú Vì vậy, đề tài “ Ứng dụng khai phá liệu để trích rút thơng tin theo chủ đề từ trang mạng xã hội” cần thiết có ý nghĩa mặt lý thuyết thực tiễn Mục đích nghiên cứu - Nghiên cứu phương pháp, kỹ thuật khai phá văn - Nghiên cứu phương pháp tách từ, phân loại văn Tiếng Việt - Nghiên cứu phương pháp lấy liệu người dùng chủ đề mạng xã hội Twitter - Xây dựng hệ thống phân loại văn SVM theo chủ đề từ liệu lấy từ mạng xã hội Twitter - Đưa định hướng hướng phát triển đề tài Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu o Kỹ thuật, phương pháp khai phá liệu o Phương pháp thu thập liệu từ mạng xã hội o Các chủ đề quan tâm mạng xã hội Twitter Phạm vi nghiên cứu Ứng dụng thuật toán kỹ thuật rút trích thơng tin để xây dựng đưa danh sách ý kiến người dùng chủ đề quan tâm mạng xã hội Twitter Phương pháp nghiên cứu Phương pháp nghiên cứu lý luận Thu thập, đọc hiểu, phân tích thơng tin, liệu từ tài liệu, giáo trình, sách liên quan đến khai phá liệu, rút trích thơng tin Phương pháp nghiên cứu thực tiễn o Tiến hành nghiên cứu kỹ thuật rút trích thơng tin, ứng dụng kỹ thuật để xây dựng mơ hình đưa danh sách ý kiến người dùng theo chủ đề mạng xã hội o So sánh đánh giá kết đạt để từ đề xuất hướng phát triển tốt Ý nghĩa khoa học thực tiễn Ý nghĩa khoa học Với phát triển lớn mạng Internet lượng người dùng tham giá vào trang mạng xã hội không ngừng tăng lên việc khai thác nguồn liệu từ trang mạng xã hội để phục vụ cho cơng việc kinh doanh mục đích trị xã hội khác trào lưu ưu chuộng Dữ liệu trang mạng xã hội đa dạng có số lượng lớn Với lượng liệu khổng lồ thế, làm để khai thác, chọn lọc liệu có ích từ nguồn liệu khổng lồ Nhu cầu phát triển kỹ thuật chọn lọc, thu thập, phân tích liệu,trích rút thơng tin cách thơng minh hiệu quả, thế, đặt hết Từ đó, kỹ thuật khai phá liệu giúp tự động phân tích tập liệu lớn để khám phá tri thức trích rút mẫu quan trọng cần thiết có ý nghĩa thực tiễn cao Ý nghĩa thực tiễn Xây dựng cơng cụ để trích rút thơng tin chủ đề, đưa danh sách ý kiến theo chủ đề người dùng mạng xã hội, từ thống kê ý kiến người dùng chủ đề Bố cục luận văn Nội dung luận văn chia thành chương với nội dung sau: + Chương 1: Nghiên cứu tổng quan khai phá liệu + Chương 2: Nghiên cứu phương pháp lấy liệu từ mạng xã hội Twitter thuật toán CONGA + Chương 3: Thử nghiệm đánh giá CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 KHÁI NIỆM VÀ QUÁ TRÌNH KHAI PHÁ DỮ LIỆU 1.1.1 Khái niệm khai phá liệu Khai phá liệu lĩnh vực nghiên cứu ổn định, đời vào khoảng năm cuối của thập kỷ 1980 KPDL q trình khảo sát phân tích lượng lớn liệu lưu trữ CSDL, kho liệu,…để từ trích xuất thơng tin quan trọng, có giá trị tiềm ẩn bên Khám phá tri thức sở liệu (KDD) mục tiêu KPDL, hai khái niệm khai phá liệu KDD nhà khoa học xem tương đương Thế nhưng, phân chia cách chi tiết khai phá liệu bước q trình KDD 1.1.2 Quá trình khai phá liệu Quá trình phá tri thức chia thành bước sau [10]: - Trích lọc liệu - Tiền xử lý liệu - Biến đổi liệu - Khai phá liệu - Đánh giá biểu diễn tri thức 1.1.3 Những chức khai phá liệu Hai mục tiêu KPDL mơ tả dự báo a Mô tả khái niệm b Phân tích kết hợp c Phân lớp dự báo d Phân cụm e Phân tích đối tượng ngồi f Phân tích tiến hóa 1.1.4 Các cơng trình khai phá xử lý liệu phát triển - Khai phá liệu website kĩ thuật phân cụm - Lựa chọn thuộc tính khai phá liệu - Nghiên cứu ứng dụng tập phổ biến luật kết hợp vào toán phân loại văn Tiếng Việt có xem xét ngữ nghĩa - Phân loại văn Tiếng Việt với vector hỗ trợ SVM - Phân loại văn Tiếng Việt với máy học vector hỗ trợ định - Phương pháp luật kết hợp ứng dụng - Ứng dụng khai phá liệu để tư vấn học tập - Nghiên cứu ứng dụng phân lớp liệu quản lý khách hàng mạng - Dự báo bùng nổ kiện mạng xã hội - Phát cộng đồng sử dụng thuật toán CONGA khai phá quan điểm cộng đồng - Khai phá quan điểm liệu twitter 1.1.5 Một số thách thức đặt cho việc khai phá liệu v Các sở liệu lớn v Số chiều lớn v Thay đổi liệu tri thức làm cho mẫu phát khơng cịn phù hợp v Dữ liệu bị thiếu nhiễu v Quan hệ trường phức tạp v Giao tiếp với người sử dụng kết hợp với tri thức v Tích hợp với hệ thống khác… có 1.2 PHƯƠNG PHÁP VÀ KỸ THUẬT KHAI PHÁ DỮ LIỆU 1.2.1 Các kỹ thuật áp dụng khai phá liệu KDD lĩnh vực liên ngành, bao gồm: Tổ chức liệu, học máy, trí tuệ nhân tạo khoa học khác a Theo quan điểm học máy - Học có giám sát - Học khơng có giám sát - Học nửa giám sát b Căn vào lớp toán cần giải Chia làm nhóm chính: - Kỹ thuật mơ tả - Kỹ thuật dự đoán 1.2.2 So sánh kỹ thuật khai phá liệu 1.2.3 So sánh phương pháp khai phá liệu với phương pháp học máy, phương pháp hệ chuyên gia phương pháp thống kê 1.3 KHAI PHÁ DỮ LIỆU WEB 1.3.1 Các dạng liệu 1.3.2 Các loại khai phá Web 1.3.3 Một số vấn đề xử lý liệu văn 1.4 CÁC PHƯƠNG PHÁP TÁCH TỪ TIẾNG VIỆT HIỆN NAY 1.4.1 Phương pháp Maximum Matching 1.4.2 Phương pháp giải thuật học cải biến (Transformation-based Learning, TBL) 1.4.3 Mơ hình tách từ WFST mạng Neural 1.4.4 Phương pháp quy hoạch động (dynamic programming) 1.4.5 Phương pháp tách từ tiếng Việt dựa thống kê từ Internet thuật toán di truyền (Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese - IGATEC) 1.4.6 So sánh phương pháp tách từ Tiếng Việt 1.5 KẾT LUẬN CHƯƠNG Chương luận văn giới thiệu khái quát khái niệm, trình, kỹ thuật phương pháp khai phá liệu Đồng thời, chương tơi trình bày phương pháp phân tách từ Tiếng Việt nay, so sánh phương pháp với để chọn phương pháp tốt phù hợp cho toán phân loại văn SVM theo chủ đề đề cập chương luận văn Chương giới thiệu mạng xã hội Twitter, cấu trúc tính cộng đồng Đồng thời, tơi trình bày phương pháp thu thập liệu từ mạng xã hội Twitter thuật toán CONGA để phát cộng đồng, phương pháp phân loại văn 10 Bài toán phân lớp quan điểm theo chủ đề mạng xã hội quan tâm người trình làm việc với tập đối tượng Chính điều mà giúp cho việc xếp, tìm kiếm đối tượng cách nhanh chóng c Thuật toán Girvan-Newman Ý tưởng thuật toán: Thuật toán dựa ý tưởng cộng đồng gắn kết với đường cộng đồng đến cộng đồng khác qua cạnh nối cộng đồng với tần suất cao Mục đích thuật tốn tìm cạnh nối [5] Thuật tốn thực theo bước sau: Tính độ đo trung gian cho tất cạnh mạng Hủy bỏ cạnh có độ trung gian cao Tính lại độ trung gian cho tất cạnh bị ảnh hưởng theo cạnh loại bỏ Lặp lại từ bước khơng cịn cạnh trung gian Ưu điểm thuật toán: Thuật toán đơn giản dễ hiểu Tồn thuật tốn biểu diễn dendrogram, ta hiểu thuật toán từ gốc đến Các nhánh biểu diễn cho phép loại bỏ cạnh để chia đồ thị thành cộng đồng riêng rẽ Nhược điểm thuật toán: Số lượng cộng đồng hồn tồn khơng kiểm sốt trước thuật toán Girvan-Newman sử dụng phương pháp loại trừ đến khơng có cạnh vượt qua ngưỡng độ trung gian cao 11 Khó xác định phân vùng mang lại hiệu cao Độ phức tạp thuật toán lớn O(m2n) Với cách phân chia Girvan-Newman khơng giải tượng chồng chéo cộng đồng thực tế, đơn vị nút mạng thuộc nhiều cộng đồng khác Dựa ưu điểm nhược điểm thuật toán Girvan-Newman, nhà khoa học tìm cách để cải tiến thuật toán nhằm khắc phục nhược điểm thuật tốn GirvenNewman tìm phép phân vùng tốt nhất, giảm độ phức tạp thuật toán, giải tượng chồng chéo cộng đồng Với cách tiếp cận khác nhau, năm 2007 Gregory đề xuất thuật toán CONGA (Cluster Overlap Newman-Girvan Algorithm) d Thuật toán CONGA Thuật toán CONGA Gregory cải tiến từ thuật tốn Girvan-Newman nhằm mục đích giải vấn đề chồng chéo cộng đồng [16] Ý tưởng thuật toán: Dựa ý tưởng thuật toán GirvanNewman, tác giả đề xuất thêm ý tưởng phép chia đỉnh thành nhiều phần khác nhau, để phần đỉnh chia xuất cộng đồng Tác giả đề độ đo mới, độ trung gian phép phân chia, độ đo cho phép ta xác định cần phân chia đỉnh, thay loại bỏ cạnh, đỉnh cần phân chia phân chia Thuật tốn CONGA chia làm bước sau: − Tính độ trung gian tất cạnh đồ thị 12 − Tính độ trung gian đỉnh đồ thị, dựa vào độ trung gian cạnh cơng thức − Tìm danh sách đỉnh mà độ trung gian đỉnh lớn giá trị lớn độ trung gian cạnh − Nếu danh sách bước không rỗng, tính độ trung gian theo cặp đỉnh danh sách, sau xác định phép phân chia tối ưu cho đỉnh − Thực việc loại bỏ cạnh, phân chia đỉnh để chia đồ thị thành thành phần − Tính lại độ trung gian cạnh tất thành phần vừa chia − Lặp lại bước đến khơng cịn cạnh Ưu diểm thuật toán: Giải vấn đề chồng chéo cộng đồng cách đặt phép phân chia đỉnh, nội dung thuật toán tương đối dễ hiểu xác định phép phân chia tối ưu trường hợp Nhược điểm thuật toán: Thời gian tính tốn, với độ phức tạp tính tốn lên tới O(m3) với m số cạnh 2.2 PHƯƠNG PHÁP THU THẬP DỮ LIỆU VÀ PHÁT HIỆN CỘNG ĐỒNG TỪ MẠNG XÃ HỘI TWITTER Quá trình thực sau: Thu thập liệu: Mạng xã hội Twitter cung cấp API giúp người sử dụng lấy thông tin người dùng mạng xã hội đó, từ nguồn liệu Twitter cung cấp qua Twitter API, ta tiến hành thu thập liệu người sử dụng ID, tên truy cập, thông tin cá nhân người dùng, bình luận, Bộ thư viện mã nguồn mở Twitter4j thiết 13 kếvới mục đích giúp người sử dụng có khả tương tác với Twitter API qua Java lấy liệu từ Twitter Bộ thư viện Yusuke Yamamoto, lập trình viên người Nhật cộng phát triển năm 2009 [17] Tiền xử lý liệu: Từ liệu thu thập được, tiến hành tiền xử lý loại bỏ thông tin người dùng thiếu thông tin sử dụng, thiếu kết nối với đỉnh khác mạng Như bước này, liệu thu thập chuẩn hóa phù hợp với mơ hình cần xây dựng Xây dựng mơ hình mạng xã hội: Từ tập liệu chuẩn hóa tiến hành xây dựng đồ thị mơ tả mạng xã hội Trong với đỉnh người sử dụng thu dựa vào danh sách friends danh sách followers người dùng để đưa danh sách mối liên kết đỉnh với Do thuật toán yêu cầu đầu vào thuật toán CONGA đồ thị vơ hướng, khơng có trọng số nên kết đầu lưu vào file.txt, hàng đưa cạnh liên kết đồ thị, bao gồm hai đỉnh đầu vào cuối cạnh Áp dụng thuật tốn CONGA: Từ mạng xã hội vừa xây dựng bước 3, cho qua CONGA để phát cộng đồng mạng xã hội Dựa đồ thị vừa xây dựng được, tiến hành cài đặt thuật toán CONGA cho đồ thị đó, dựa thư viện mà tác giả thuật tốn cung cấp Đầu vào chương trình tập tin văn biểu diễn đồ thị xây dựng bước Đầu chương trình tập cộng đồng phân cách phân chia mang lại hiệu cao 14 2.3 CÁC PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN HIỆN NAY 2.3.1 Máy vector hỗ trợ (SVM) 2.3.2 K lân cận (kNN) 2.3.3 Xác suất Naïve Bayes (NB) 2.3.4 Mạng Nơron (NNet) 2.3.5 Tuyến tính bình phương tối thiểu (LLSF) 2.3.6 Vector trọng tâm (Centroid- based vector) 2.3.7 So sánh phương pháp phân loại văn Các thuật toán phân loại từ thuật toán phân loại lớp (SVM) đến thuật toán phân loại đa lớp (kNN) có điểm chung yêu cầu văn phải biểu diễn dạng vector đặc trưng Ngồi thuật tốn kNN,NB,LLSF phải sử dụng ước lượng tham số ngưỡng tối ưu thuật tốn SVM tự tìm tham số tối ưu Trong phương pháp SVM phương pháp sử dụng không gian vector đặc trưng lớn (hơn 10000 chiều) 2000 NB, 2415 cho kNN LLSF, 1000 cho Nnet [6] Thời gian huấn luyện khác phương pháp, Nnet (sử dụng mạng tương ứng chủ đề) SVM hai phương pháp có thời gian huấn luyện lâu kNN,NB,LLSF Centroid phương pháp có tốc độ (thời gian huấn luyện, phân loại) nhanh cài đặt dễ dàng Về hiệu suất, dựa vào thử nghiệm Yang tập liệu Reuter-21578 với 90 chủ đề 7769 văn bản, ta xếp phương pháp phân loại văn theo thứ tự sau SVM > kNN >> {LLSF,NB,Nnet}[6] Tuy nhiên kết khơng áp dụng thử nghiệm phân loại Tiếng Việt 15 2.4 KẾT LUẬN CHƯƠNG Trong chương 2, khóa luận giới thiệu mạng xã hội Twitter, cấu trúc tính cộng đồng Chính nhờ vào cấu trúc, tính cộng đồng mạng xã hội, áp dụng thuật toán CONGA để phát cộng đồng thu thập liệu từ mạng xã hội Twitter Đồng thời, chương tơi trình bày cụ thể phương pháp thu thập liệu từ mạng xã hội Twitter, phương pháp phân loại văn so sánh phương pháp với nhằm để tìm phương pháp phân loại văn tốt phù hợp cho trình thực nghiệm phân loại văn theo chủ đề mà liệu thu thập từ mạng xã hội Twitter Chương tơi trình bày cụ thể phương pháp, thuật toán SVM đề áp dụng cho toán phân lớp ý kiến người dùng theo chủ đề mô giải pháp cho tốn, kết thực nghiệm đánh giá 16 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1 ÁP DỤNG PHƯƠNG PHÁP SVM CHO BÀI TOÁN PHÂN LỚP Ý KIẾN NGƯỜI DÙNG THEO TỪNG CHỦ ĐỀ 3.1.1 Lý chọn phương pháp SVM Chúng ta thấy từ thuật tốn phân lớp hai lớp SVM đến thuật toán phân lớp đa lớp có đặc điểm chung yêu cầu văn phải biểu diễn dạng vector đặc trưng, nhiên thuật toán khác phải sử dụng uớc lượng tham số ngưỡng tối ưu thuật tốn SVM tự tìm tham số tối ưu Trong phương pháp SVM phương pháp sử dụng khơng gian vector đặc trưng lớn (hơn 10.000 chiều) phương pháp khác có số chiều bé nhiều (như Naïve Bayes 2000, k-Nearest Neighbors 2415…) So sánh với phương pháp phân loại khác, khả phân loại SVM tương đương tốt đáng kể [3] 3.1.2 Thuật toán SVM Đặc trưng định khả phân loại phân loại hiệu suất tổng quát hóa Thuật toán huấn luyện đánh giá tốt sau q trình huấn luyện, hiệu suất tổng qt hóa phân loại nhận cao Hiệu suất tổng quát hóa phụ thuộc vào hai tham số sai số huấn luyện lực máy học Trong sai số huấn luyện tỷ lệ lỗi phân loại tập liệu huấn luyện Còn lực máy học xác định kích thước VapnikChervonenkis (kích thước VC) Kích thước VC khái niệm quan trọng họ hàm phân tách (hay phân loại) Đại lượng xác định số điểm cực đại mà họ hàm 17 phân tách hồn tồn khơng gian đối tượng Một phân loại tốt phân loại có lực thấp (có nghĩa đơn giản nhất) đảm bảo sai số huấn luyện nhỏ Tập phân lớp SVM mặt siêu phẳng phân tách mẫu dương khỏi mẫu âm với độ chênh lệch cực đại, độ chênh lệch – cịn gọi Lề (margin) xác định khoảng cách mẫu dương mẫu âm gần mặt siêu phẳng (Hình 2.5) Mặt siêu phẳng gọi mặt siêu phẳng lề tối ưu Máy học SVM họ mặt siêu phẳng phụ thuộc vào tham số w b Mục tiêu phương pháp SVM ước lượng w b để cực đại hóa lề lớp liệu dương âm Các giá trị khác lề cho ta họ mặt siêu phẳng khác nhau, lề lớn lực máy học giảm Như vậy, cực đại hóa lề thực chất việc tìm máy học có lực nhỏ Q trình phân loại tối ưu sai số phân loại cực tiểu Ta phải giải phương trình sau: min(w,b s.t ) yi [w xi - b] + ≥1 (3.2) ≥ 0, i = 1, …., N Tìm vector trọng số w sai số điểm tập huấn luyện , với C tham số cho trước, từ ta có phương trình tổng qt siêu phẳng tìm thuật tốn SVM là: (x1, x2,…, xn) = C + ∑wi xi Với i = 1,…, n Trong n số liệu huấn luyện 18 Sau tìm phương trình siêu phẳng thuật tốn SVM, sử dụng cơng thức để tìm nhãn lớp cho liệu 3.1.3 Huấn luyện SVM SVM phân loại tốt huấn luyện với nhiều đặc trưng Điều làm cho SVM trở thành phương pháp thích hợp cho phân loại văn bản, giải thuật SVM có khả điều chỉnh lực phân loại tự động đảm bảo hiệu suất tổng qt hóa tốt, chí khơng gian liệu có số chiều cao (số đặc trưng lớn) lượng tài liệu mẫu có hạn 3.1.4 Áp dụng SVM cho toán phân lớp ý kiến người dùng theo chủ đề Quy trình thực sau: Bước 1: Thu thập câu câu đánh giá, nhận xét kiện nhắc đến dựa vào công cụ Twitter4j Bước 2: Tiền xử lý liệu Sau làm sạch, liệu đưa qua module tách câu Mỗi câu biểu diễn dòng Module tách câu lọc liệu, loại bỏ câu cảm thán, câu khơng có nghĩa Như trình bày 1.4, phương pháp tách từ tiếng Việt tơi áp dụng cho q trình thực nghiệm phương pháp khớp tối đa (Maximum Matching) Bước 3: Trích xuất tập từ đặc trưng xây xựng vector đặc trưng văn tiến hành lựa chọn đặc trưng trích xuất tập từ đặc trưng xây xựng vector đặc trưng văn Khi tập liệu huấn luyện biểu diễn tập vector đặc trưng Mỗi từ văn tính trọng số TFxIDF đưa vào vector đặc trưng.Vector đặc trưng đầu vào cho trình 19 huấn luyện SVM bước Để xây dựng vector đặc trưng, chọn phương pháp lựa chọn tần suất nghịch đảo từ TFxIDF đo lượng tin tương hỗ v Phương pháp tần suất từ TF v Phương pháp tần suất nghịch đảo từ TFxIDF IDF = log(N/DF) + (3.4) v Đo lượng tin tương hỗ Lượng tin tương hỗ từ t lớp c tính sau: (3.5) v Độ đo MI tồn cục (tính tồn tập tài liệu huấn luyện) cho từ t tính sau: (3.6) Bước 4: Chọn tập liệu học, qua phân lớp nhị phân, từ cho mơ hình huấn luyện Tại phân lớp nhị phân, vector đặc trưng tập liệu học sử dụng để tính tốn cho mơ hình huấn luyện Trong đó, đặc trưng vector xem xét phân lớp thuộc Iphone hay Bana Hill Bước 5: Tập liệu kiểm tra, cho qua mơ hình huấn luyện, ta kết đánh giá cộng đồng mạng xã hội Dựa vào mô hình huấn luyện hình thành bước 4, ta phân lớp cho câu tập liệu kiểm tra (với đầu vào vector đặc trưng) 3.2 MƠ HÌNH VÀ GIẢI PHÁP CHO BÀI TỐN 3.2.1 Đề xuất giải tốn Thơng tin người dùng Twitter follow lấy về, xây dựng lại mạng xã hội cho qua CONGA để phát cộng đồng Từ cộng đồng đó, ta xây dựng liệu 20 đánh giá nhóm người dùng kiện, tượng chung Với liệu lấy Tiếng Việt, sử dụng phân lớp SVM để phân tách nhận định người dùng theo chủ đề sản phẩm Iphone dịch vụ du lịch Bana Hill, để từ đưa đánh giá chung kiện, tượng đó, phần người nhóm hướng dẫn thầy TS Huỳnh Công Pháp bạn Nguyễn Hải Minh Phùng Hữu Đoàn thực Đầu vào: Tập người dùng mạng xã hội, liên kết tương ứng, nhận xét, đánh giá người dùng kiện, tượng Đầu ra: Phân lớp theo chủ đề nhóm cộng đồng tất ý kiến, đánh giá, nhận xét Phát biểu toán: Coi người dùng nút mạng, xây dựng mạng xã hội phân chia thành nhóm (cộng đồng) dựa liên kết nút mạng Đưa danh sách quan điểm kiện, tượng cộng đồng vừa xây dựng theo chủ đề chọn Như trình bày chương 2, phần 3.1 tơi chọn thuật tốn CONGA phát cộng đồng, phận lớp SVM để giải tốn 3.2.2 Mơ tả thực nghiệm Như trình bày, mơ hình phần 2.2, mơ hình đề xuất cho tốn Khóa luận tập trung chủ yếu vào việc đánh giá kết thực nghiệm pha chính: phân nhóm cộng đồng CONGA phân lớp SVM a Mô tả liệu Dữ liệu thu thập theo phần: 21 Phần 1: Ta thu thập thơng tin người sử dụng trực tuyến Twitter, ID, tên truy cập, danh sách bạn bè, follower following, status, mẫu tin Tweet mà người sử dụng gửi từ API mà Twitter cung cấp cho người sử dụng để tương tác với sở liệu Twitter Phần 2: Thu thập liệu tweet mà người dùng mạng xã hội vừa xây dựng đề cập đến kiện, tượng Từ phân chia liệu đến cộng đồng mạng xã hội cộng đồng kiện Số lượng tin tức retweet tweet từ tương đối lớn, đủ để phục vụ cho việc học kiểm tra phân lớp theo cộng đồng khác b Môi trường thực nghiệm c Các công cụ phần mềm sử dụng 3.3 Kết thực nghiệm đánh giá a Kết thực nghiệm v Phần 1: Phát cộng đồng Hình 3.2 Kết phân chia cộng đồng Hình 3.3 Cấu trúc đồ thị chia thành cộng đồng v Phần 2: Phân loại văn SVM Giao diện chương trình 22 Hình 3.5 Kết phân loại văn Tập liệu đầu vào từ người dùng chia theo nhóm cộng đồng đầu CONGA, sau qua bước tiền xử lý cho tổng cộng 3053 câu quan điểm để xây dựng máy học kiểm chứng hiệu Sau tách từ loại bỏ stopword, số từ lại 19937 từ Sau mơ hình hóa, văn vector trọng số từ, trọng số số TF*IDF trình bày Như tập ngữ liệu mơ hình hóa ma trận chứa TF*IDF từ có kích thước 19937*3053 phần tử Kết bước đầu, chương trình phân lớp theo chủ để văn đầu vào xác dựa liệu học được, đạt 78,08% độ xác b Đánh giá + Kết đánh giá phát cộng đồng mạng sử dụng CONGA đạt 86,9 % độ xác 23 + Kết đánh giá phân lớp SVM đạt 78,08% độ xác Nhận xét: Dựa vào kết đánh giá, nhận thấy phương pháp phân lớp quan điểm cộng đồng theo chủ đề sử dụng thuật toán CONGA vector đặc trưng SVM mang lại kết hợp lý 3.4 KẾT LUẬN CHƯƠNG Trong chương này, trình bày lý lựa chọn thuật tốn SVM, thuật tốn Tơi tiến hành thực nghiệm, xem xét đánh giá kết trình thực nghiệm mơ hình gồm phát khai phá quan điểm cộng đồng mạng xã hội Twitter với miền tiếng Việt sử dụng phương pháp phát cộng đồng CONGA phân lớp văn tho chủ đề máy vector hỗ trợ SVM Qua đánh giá cho thấy kết khả quan 24 KẾT LUẬN Nội dung nghiên cứu kết đạt Trong luận văn này, xây dựng mơ hình phát cộng đồng mạng xã hội thực nghiệm mạng xã hội Twitter cách sử dụng thuật toán phát cộng đồng CONGA Phương pháp đem lại kết tốt việc phát cộng đồng chồng chéo mạng xã hội Đồng thời áp dụng phương pháp xây dựng mơ hình phân lớp SVM quan điểm người dùng theo chủ đề Tôi tiến hành cài đặt thử nghiệm tập người dùng Twitter cho kết khả quan, mơ hình phân nhóm cộng đồng chuẩn xác, phân lớp quan điểm người dùng theo chủ đề đạt độ xác 78,08% Hướng phát triển Mở rộng cài đặt thử nghiệm với thuật toán phân loại văn khác kNN, Naïve Bayes, đem nhiều kết lĩnh vực Mở rộng cài đặt thử nghiệm khai phá liệu để rút trích thơng tin mạng xã hội khác Facebook,… Áp dụng cho vùng liệu lớn tổng quát ... thập liệu từ mạng xã hội o Các chủ đề quan tâm mạng xã hội Twitter Phạm vi nghiên cứu Ứng dụng thuật tốn kỹ thuật rút trích thơng tin để xây dựng đưa danh sách ý kiến người dùng chủ đề quan tâm mạng. .. tạo môi trường giao lưu, chia sẻ thơng tin đa dạng, phong phú Vì vậy, đề tài “ Ứng dụng khai phá liệu để trích rút thông tin theo chủ đề từ trang mạng xã hội? ?? cần thiết có ý nghĩa mặt lý thuyết... Phương pháp luật kết hợp ứng dụng - Ứng dụng khai phá liệu để tư vấn học tập - Nghiên cứu ứng dụng phân lớp liệu quản lý khách hàng mạng - Dự báo bùng nổ kiện mạng xã hội - Phát cộng đồng sử dụng

Ngày đăng: 30/10/2014, 16:04

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan