1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Luận văn thạc sĩ VNU UET phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia

53 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 53
Dung lượng 1,42 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ - NGÔ THỊ HOA PHÂN LOẠI QUAN ĐIỂM TRÊN PHƯƠNG TIỆN XÃ HỘI ĐỐI VỚI DỰ THẢO ĐỀ ÁN QUỐC GIA LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2015 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ - NGÔ THỊ HOA PHÂN LOẠI QUAN ĐIỂM TRÊN PHƯƠNG TIỆN XÃ HỘI ĐỐI VỚI DỰ THẢO ĐỀ ÁN QUỐC GIA Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐẶNG THANH HẢI TS NGUYỄN CẨM TÚ Hà Nội - 2015 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Lời cảm ơn xin gửi đến TS Đặng Thanh Hải TS Nguyễn Cẩm Tú Thầy cô người đưa ý tưởng chọn đề tài cung cấp cho tài liệu, phương pháp nghiên cứu theo sát tơi suốt q trình tơi làm luận văn Tôi xin chân thành cảm ơn bạn, em phòng KT-Lab dẫn động viên gặp vướng mắc lý thuyết thực nghiệm Tôi xin chân thành cảm ơn thầy Khoa Cơng nghệ thơng tin Phịng Đào tạo sau đại học, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội tạo điều kiện tốt để tơi hồn thành khóa học Đồng thời, tơi xin cảm ơn gia đình, bạn bè, người ln khuyến khích giúp đỡ tơi hồn cảnh khó khăn Tác giả luận văn Ngơ Thị Hoa LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu độc lập riêng thực hướng dẫn TS Đặng Thanh Hải TS Nguyễn Cẩm Tú, không chép luận văn, luận án tác giả khác Nếu có vấn đề tơi xin hồn tồn chịu trách nhiệm Tác giả luận văn Ngô Thị Hoa LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT DANH SÁCH CÁC BẢNG DANH SÁCH CÁC HÌNH MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU, KHAI PHÁ QUAN ĐIỂM 10 1.1 Khai phá liệu 10 1.2 Các phương pháp khai phá liệu 12 1.3 Các kỹ thuật khai phá liệu 13 1.4 Các thách thức khai phá liệu 15 1.5 Ứng dụng khai phá liệu 17 1.6 Phân tích khai phá quan điểm 18 1.6.1 Phân tích quan điểm qua cấp độ liệu 18 1.6.2 Các thách thức khai phá quan điểm 19 CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÂN LỚP QUAN ĐIỂM 21 2.1 Kỹ thuật học có giám sát 21 2.2 Lựa chọn đặc trưng 22 2.3 Các phương pháp phân lớp quan điểm 24 2.3.1 Mơ hình học máy SVM 24 2.3.2 Mơ hình định 26 2.3.3 Mô hình xác suất Bayes 29 2.3.4 Thuật toán KNN 31 2.4 Đánh giá mơ hình phân lớp 33 CHƯƠNG 3: PHÂN LỚP QUAN ĐIỂM TRÊN MƠ HÌNH QUI HỒI LOGISTIC 35 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.1 Cơ sở lý thuyết 35 3.1.1 Các khái niệm 35 3.1.2 Mơ hình qui hồi Logistic 36 3.1.3 Phương pháp tìm tham số tối ưu mơ hình qui hồi Logistic 36 3.2 Mơ hình qui hồi Logistic áp dụng toán phân lớp quan điểm 37 CHƯƠNG 4: THỰC NGHIỆM 39 4.1 Môi trường mơ hình thực nghiệm 39 4.2 Thu thập xử lý liệu 40 4.2.1 Dữ liệu dự thảo đề án quốc gia 40 4.2.2 Xử lý liệu 42 4.3 Thực nghiệm phân lớp đánh giá 43 4.4 Đánh giá kết thực nghiệm 48 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TIẾP THEO 49 TÀI LIỆU THAM KHẢO 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT Từ viết tắt Từ tiếng Anh TF Term Frequency IDF Inverse Document Frequency TFIDF Term Frequency - Inverse Document Frequency SVM Support Vector Machine KNN K Nearest Neighbors Stopword Những từ phổ biến gặp, khơng có giá trị phân lớp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH SÁCH CÁC BẢNG Bảng 1: Môi trường thực nghiệm Bảng 2: Các phần mềm sử dụng Bảng 3: Tổng hợp liệu thực nghiệm Bảng 4: Tổng hợp kết với kích thước tập huấn luyện Bảng 5: Độ đo phân lớp mơ hình qui hồi Logistic thuật toán KNN LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH SÁCH CÁC HÌNH Hình 1: Quá trình khai phá tri thức Hình 2: Các kỹ thuật Khai phá liệu Hình 3: Thuật tốn KNN phân lớp quan điểm Hình 4: Mơ hình thực nghiệm Hình 5: Quy trình xử lý liệu Hình 6: Mơ tả liệu thực nghiệm Hình 7: Kết thực nghiệm với L1, L2 Hình 8: Kết phân lớp Hình 9: Biểu diễn đánh giá mơ hình qui hồi Logistic KNN LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Khai phá tri thức lĩnh vực phát triển năm gần ứng dụng nhiều lĩnh vực Khi quyền tự ngôn luận ngày Nhà nước ta trọng, cơng dân có quyền tham gia bàn bạc, thảo luận đóng góp ý kiến vào vấn đề chung đất nước đặt Bài toán cho khai phá tri thức, cụ thể khai phá quan điểm: “Làm để phân tích quan điểm trao đổi phương tiện thơng tin đại chúng, để từ đưa dự đoán cho vấn đề thảo luận?” Nhận thấy dự thảo đề án quốc gia ln có tác động lớn đến kinh tế, đời sống xã hội, ln nhận nhiều ý kiến đóng góp chuyên gia nhân dân Các ý kiến đóng góp có tác động ngược lại đến đề án suốt trình khởi tạo diễn dự án Luận văn “Phân loại quan điểm phương tiện xã hội dự thảo đề án quốc gia” đưa giải pháp giải vấn đề Bài tốn phân tích quan điểm phương tiện thơng tin đại chúng, cụ thể môi trường mạng Để làm việc này, luận văn tiến hành nghiên cứu sở lý thuyết, đề xuất giải pháp thực áp dụng thực nghiệm miền liệu dự thảo đề án quốc gia Cấu trúc luận văn gồm bốn chương từ tổng quan đến chi tiết vấn đề, giải pháp thực nghiệm: Chương 1: Trình bày tổng quan khai phá liệu, khai phá quan điểm Xuất phát điểm từ kiến thức tảng cần nắm lĩnh vực khai phá tri thức, khai phá quan điểm, luận văn trình bày sở lý thuyết theo logic giải Bài tốn Từ đó, ta chọn phương pháp phù hợp với Bài tốn trình bày chương Chương 2: Nghiên cứu phương pháp phân lớp quan điểm Có nhiều phương pháp để phân lớp quan điểm, phương pháp có lịch sử, tư tưởng đặc trưng riêng phù hợp giải vấn đề Chương 3: Phân lớp quan điểm với qui hồi Logistic Mơ hình qui hồi Logistic phương pháp mà luận văn lựa chọn để phân lớp quan điểm dự báo, qua phân tích kết thực nghiệm Mơ hình phân LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 37 Áp dụng phân phối Bernoulli với phép thử y1, …, yn, ta xác định xác suất phân phối: Như vậy, hợp lý cực đại đạt giá trị lớn khi: Nếu phép thử có xác suất thành cơng pi xác suất hợp lý hóa cực đại là: =1 yi = 1, = yi = 0, xác suất yi đạt hợp lý hóa cực đại tương ứng xác suất xi pi = p (xi, ) Như xi tương ứng với pi Do ta hồn tồn xác định , từ tính tham số mơ hình qui hồi Logistic hàm hợp lý cực đại 3.2 Mơ hình qui hồi Logistic áp dụng toán phân lớp quan điểm Xét toán phân lớp nhị phân với y = {-1, 1}, với đối tượng x cần phân vào lớp y, tương ứng với quan điểm tiêu cực (y= -1) tích cực (y = 1) toán Biểu diễn ý kiến (các dự đoán) dạng vector tham số , x Giả sử ý kiến độc lập nhau, sử dụng hàm logistic sigmoid để dự báo phân lớp, x thuộc lớp y = nếu: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 38 lớp y = -1 nếu: Xét toán phân đa lớp, lớp biểu diễn vector tham số diễn dự đoán x, , biểu x Xác định xác suất hàm softmax sau: Huấn luyện mơ hình phân lớp: Tìm vector tham số luyện hợp lý hóa cực đại (likelihood) tập huấn , cần giải toán tối ưu: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 39 CHƯƠNG 4: THỰC NGHIỆM 4.1 Mơi trường mơ hình thực nghiệm * Cấu hình phần cứng Tên thiết bị Cấu hình CPU Intel(R) Core Duo T5870 @ 2.00GHz RAM 2.00 GB OS Windows Ultimate SP1 32-bit HDD 300 GB Bảng 1: Môi trường thực nghiệm * Các phần mềm sử dụng Tên phần mềm Nguồn Xampp 1.8.3 https://www.apachefriends.org/index.html Anacoda - Python 2.7 http://continuum.io/ Eclipse – 32 bit http://www.eclipse.org/download Bảng 2: Các phần mềm sử dụng * Các thư viện sử dụng - simple_html_dom.php - JvnTextpro.jar LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 40 * Mơ hình thực nghiệm: Dữ liệu thực nghiệm Xử lý liệu Tập đặc trưng Huấn luyện mơ hình Dữ liệu phân lớp Hình 4: Mơ hình thực nghiệm 4.2 Thu thập xử lý liệu 4.2.1 Dữ liệu dự thảo đề án quốc gia “Đề án” hiểu ý kiến đề đạt kế hoạch, công việc, muốn triển khai cơng việc hay dự án cần phải xây dựng đề án cho cơng việc, dự án Xã hội ngày phát triển ngành, cấp phải có đề án Các đề án quốc gia đầu tư quản lý quan hành Nhà nước, thể định hướng phát triển đất nước thời kỳ, giai đoạn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 41 Khi tiến hành phân tích quan điểm xã luận đề án quốc gia, luận văn tiến hành thu thập ý kiến trao đổi dự thảo đề án bắt đầu truyền thông phương tiện thông tin đại chúng Để kết thực nghiệm hiệu quả, luận văn chọn đề án nhiều ý kiến quan tâm trao đổi trang báo mạng thời gian năm trở lại Dữ liệu tập hợp báo, bình luận dự thảo đề án tìm kiếm với từ khóa Mỗi dự thảo đề án coi chủ đề tách thành văn ý kiến dịng Dữ liệu nhiều mơ hình phân lớp huấn luyện bao quát Trong giới hạn luận văn tiến hành phân lớp liệu với dự thảo đề án quốc gia, báo, bình luận lấy từ nhiều trang báo mạng Việt Nam: vnexpress.net, tuoitre.vn, nld.com.vn, baodatviet.vn, thanhnien.com.vn, baodatviet.vn, cand.com.vn giaoduc.net.vn Quá trình thu thập tiến hành đồng thời thủ cơng lập trình Các website chứa báo bình luận cần lấy liệu lưu lại, dùng công cụ lập trình PHP để tách phần nội dung bình luận thẻ html -

Ngày đăng: 05/12/2022, 17:26

HÌNH ẢNH LIÊN QUAN

Hình 1: Quá trình khai phá dữ tri thức - Luận văn thạc sĩ VNU UET phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
Hình 1 Quá trình khai phá dữ tri thức (Trang 12)
2.3.1 Mơ hình học máy SVM - Luận văn thạc sĩ VNU UET phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
2.3.1 Mơ hình học máy SVM (Trang 26)
2.3.2 Mơ hình cây quyết định - Luận văn thạc sĩ VNU UET phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
2.3.2 Mơ hình cây quyết định (Trang 28)
Huấn luyện mơ hình phân lớp: - Luận văn thạc sĩ VNU UET phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
u ấn luyện mơ hình phân lớp: (Trang 40)
4.1 Mơi trường và mơ hình thực nghiệm - Luận văn thạc sĩ VNU UET phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
4.1 Mơi trường và mơ hình thực nghiệm (Trang 41)
* Mơ hình thực nghiệm: - Luận văn thạc sĩ VNU UET phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
h ình thực nghiệm: (Trang 42)
Bảng 3: Tổng hợp dữ liệu thực nghiệm - Luận văn thạc sĩ VNU UET phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
Bảng 3 Tổng hợp dữ liệu thực nghiệm (Trang 44)
* Chuyển đổi dữ liệu về hình thức phù hợp và làm sạch dữ liệu: - Luận văn thạc sĩ VNU UET phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
huy ển đổi dữ liệu về hình thức phù hợp và làm sạch dữ liệu: (Trang 44)
Hình 7: Kết quả thực nghiệm với L1, L2 - Luận văn thạc sĩ VNU UET phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
Hình 7 Kết quả thực nghiệm với L1, L2 (Trang 47)
Từ kết quả củ a2 thử nghiệm trên, luận văn tiến hành áp dụng mơ hình huấn luyện cho dữ liệu thực nghiệm gồm 6 dự thảo đề án - Luận văn thạc sĩ VNU UET phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
k ết quả củ a2 thử nghiệm trên, luận văn tiến hành áp dụng mơ hình huấn luyện cho dữ liệu thực nghiệm gồm 6 dự thảo đề án (Trang 48)
Bảng 4: Tổng hợp kết quả với các kích thước tập huấn luyện - Luận văn thạc sĩ VNU UET phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
Bảng 4 Tổng hợp kết quả với các kích thước tập huấn luyện (Trang 48)
Bảng 5: Độ đo phân lớp mơ hình qui hồi Logistic và thuật tốn KNN - Luận văn thạc sĩ VNU UET phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
Bảng 5 Độ đo phân lớp mơ hình qui hồi Logistic và thuật tốn KNN (Trang 49)
So sánh tỉ lệ gán nhãn đúng tập training và tập test của mơ hình qui hồi - Luận văn thạc sĩ VNU UET phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
o sánh tỉ lệ gán nhãn đúng tập training và tập test của mơ hình qui hồi (Trang 49)