1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt luận văn Thạc sĩ Kỹ thuật: Khai phá dữ liệu từ các mạng xã hội để khảo sát ý kiến của khách hàng đối với một sản phẩm thương mại điện tử

26 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 460,99 KB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN HẢI MINH KHAI PHÁ DỮ LIỆU TỪ CÁC MẠNG XÃ HỘI ĐỂ KHẢO SÁT Ý KIẾN CỦA KHÁCH HÀNG ĐỐI VỚI MỘT SẢN PHẨM THƯƠNG MẠI ĐIỆN TỬ Chuyên ngành: Khoa học máy tính Mã số : 60.48.01 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng – Năm 2013 Cơng trình hồn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: TS HUỲNH CÔNG PHÁP Phản biện 1: TS Nguyễn Thanh Bình Phản biện 2: PGS.TS Trương Công Tuấn Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp Thạc sĩ kỹ thuật họp Đại Học Đà Nẵng vào ngày 16 tháng 10 năm 2013 Có thể tìm hiểu Luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng MỞ ĐẦU Lý chọn đề tài Trong thời buổi kinh tế thị trường ngày hôm nay, doanh nghiệp muốn tồn phát triển cần phải khai thác thu thập ý kiến phản hồi người dùng sản phẩm hay dịch vụ từ đưa định hướng điều chỉnh hoạt động sản xuất kinh doanh phù hợp Cùng với đời internet, xuất phát triển không ngừng lĩnh vực thương mại điện tử khiến cho việc xúc tiến hoạt động kinh doanh, buôn bán, quảng bá sản phẩm, dịch vụ diễn khắp kênh thông tin xã hội đặc biệt mạng internet Điều vơ hình dung tạo nên cầu nối người dùng nhà cung cấp, từ cầu nối người dùng đưa ý kiến họ sản phẩm hay dịch vụ mà nhà cung cấp mang lại Như biết ngày thông tin đưa lên trang mạng xã hội dạng posts nhiều người dùng để lại các nhận xét posts dạng comments, ta nhận thấy kho thông tin khổng lồ mà từ khai phá trích rút tất comments người dùng, sau phân tích phân loại liệu ấy, thu kết khảo sát cần thiết phục vụ cho hoạt động sản xuất kinh doanh Kết khảo sát tỉ lệ người dùng thích, khơng thích hay khơng có ý kiến sản phẩm hay dịch vụ mà họ quan tâm Từ việc nhìn thấy kho liệu khổng lồ trích rút từ trang mạng xã hội, kết hợp với niềm cảm hứng dự án khảo sát ý kiến người tiêu dùng sản phẩm điều kiện phát triển mạnh mẽ lĩnh vực thương mại điện tử, định xây dựng đề tài “Khai phá liệu từ mạng xã hội để khảo sát ý kiến khách hàng sản phẩm thương mại điện tử” Mục tiêu nhiệm vụ nghiên cứu Nghiên cứu tổng quan khai phá liệu kỹ thuật khai phá liệu Nghiên cứu kĩ thuật phân loại văn tiếng Việt Nghiên cứu kĩ thuật tách từ tiếng Việt Nghiên cứu phương pháp phân loại ý kiến phát triển ngày Nghiên cứu phương pháp phân loại ý kiến dựa vào phân lớp văn bản, áp dụng kĩ thuật máy học vector hỗ trợ SVM Xây dựng công cụ mà với đầu vào tập hợp ý kiến nhận xét người dùng sản phẩm thương mại điện tử trích rút từ trang mạng xã hội đầu thống kê ý kiến phản hồi người dùng sản phẩm đó, từ biết số lượng ý kiến tích cực, tiêu cực chưa xác định Đối tượng phạm vi nghiên cứu - Đối tượng nghiên cứu: nhận xét người dùng sản phẩm thương mại điện tử trang mạng xã hội facebook, twister, yahoo - Phạm vi nghiên cứu v Về lý thuyết: o Cơ sở lý thuyết xử lý ngôn ngữ tự nhiên, trí tuệ nhân tạo o Tìm hiểu tổng quan kĩ thuật khai phá liệu o Tìm hiểu tổng quan kĩ thuật phân loại văn tiếng Việt o Tìm hiểu tổng quan kĩ thuật tách từ tiếng Việt o Tìm hiểu tổng quan kĩ thuật phương pháp phân loại ý kiến v Về mặt thực nghiệm: o Trình bày ứng dụng phương pháp phân loại SVM để phân loại ý kiến khách hàng sản phẩm thương mại điện tử Áp dụng miền sản phẩm điện thoại Iphone5 o Chỉ xử lý văn tiếng Việt có dấu o Có nhiều tiêu chí để phân loại ý kiến, đề tài xét ba tiêu chi tích cực, tiêu cực khơng xác định Phương pháp nghiên cứu - Tìm hiểu các kĩ thuật khai phá liệu - Tìm hiểu kĩ thuật phân loại văn tiếng Việt - Tìm hiểu kỹ thuật tách từ tiếng Việt - Tìm hiểu phương pháp phân loại ý kiến - Phân tích thiết kế hệ thống chương trình ứng dụng - Xây dựng kho liệu huấn luyện thể quan điểm người dùng sản phẩm thương mại điện tử, mà phạm vi đề tài sản phẩm điện thoại Iphone5 hãng Apple Ý nghĩa khoa học thực tiễn - Ý nghĩa khoa học: Nghiên cứu tìm hiểu kĩ thuật trích rút thơng tin, xử lý ngơn ngữ tự nhiên, xử lý văn tiếng việt phương pháp phân loại ý kiến nay.Tạo tiền đề cho nghiên cứu tương lai - Ý nghĩa thực tiễn: Xây dựng giải pháp khảo sát ý kiến khách hàng sản phẩm thương mại điện tử Cấu trúc luận văn Ngoài phần mở đầu kết luận, luận văn gồm có chương: Chương Tổng quan phương pháp khai phá liệu: chương trình bày lý thuyết khai phá liệu kĩ thuật khai phá liệu Chương Các phương pháp khảo sát ý kiến khách hàng sản phẩm thương mại điện tử: chương trình bày phương pháp khảo sát ý kiến khách hàng nay, vấn đề liên quan đến phân loại ý kiến, hướng tiếp cận toán phân loại ý kiến giải pháp phân loại ý kiến Chương Đề xuất giải pháp xây dựng chương trình thực nghiệm: chương trình bày phương pháp phân loại SVM áp dụng vào toán phân loại ý kiến khách hàng sản phẩm thương mại điện tử Sau trình bày đề xuất hướng cải tiến toán hiệu CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU Chương trình bày tổng quan khai phá liệu, trình khai phá liệu, phương pháp kĩ thuật dùng khai phá liệu kĩ thuật phân lớp, kĩ thuật tách từ tiếng Việt 1.1 VÀI NÉT KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Khái niệm khai phá liệu Khai phá liệu lĩnh vực khoa học xuất hiện, nhằm tự động hóa khai thác thơng tin, tri thức hữu ích, tiềm ẩn CSDL cho tổ chức, doanh nghiệp, từ thúc đẩy khả sản xuất, kinh doanh, cạnh tranh tổ chức, doanh nghiệp Khai phá liệu trình tìm kiếm, phát tri thức mới, hữu ích tiềm ẩn sở liệu lớn 1.1.2 Các bước khai phá liệu 1.2 MỘT SỐ NGHIÊN CỨU GẦN ĐÂY VỀ KHAI PHÁ DỮ LIỆU - Khai phá liệu website kĩ thuật phân cụm - Lựa chọn thuộc tính khai phá liệu - Nghiên cứu ứng dụng tập phổ biến luật kết hợp vào toán phân loại văn tiếng Việt có xem xét ngữ nghĩa - Phân loại văn tiếng Việt với vector hỗ trợ định - Ứng dụng khai phá liệu để tư vấn học tập 1.3 CÁC KĨ THUẬT KHAI PHÁ VÀ XỬ LÝ DỮ LIỆU HIỆN NAY 1.3.1 Các kĩ thuật khai phá liệu - Đứng quan điểm học máy, kỹ thuật KPDL bao gồm: v Học có giám sát v Học khơng có giám sát v Học nửa giám sát - Nếu vào lớp toán cần giải quyết, KPDL bao gồm kỹ thuật áp dụng sau: v Phân lớp dự đoán v Phân cụm v Luật kết hợp v Phân tích hồi quy v Phân tích mẫu theo thời gian v Mô tả khái niệm 1.3.2 So sánh khai phá liệu với phương pháp khác 1.3.3 Các phương pháp phân lớp văn a Support Vector Machine (SVM) SVM phương pháp tiếp cận phân loại hiệu Vapnik giới thiệu năm 1995 để giải vấn đề nhận dạng mẫu lớp sử dụng nguyên lý cực tiểu hóa rủi ro có cấu trúc (Structural Risk Minimization) Ý tưởng thuật toán việc cho trước tập huấn luyện biểu diễn khơng gian vector tài liệu điểm, phương pháp tìm siêu mặt phẳng h định tốt chia điểm không gian thành hai lớp riêng biệt tương ứng lớp + lớp – Chất lượng siêu mặt phẳng định khoảng cách (gọi biên) điểm liệu gần lớp đến mặt phẳng Khoảng cách biên lớn mặt phẳng định tốt đồng thời việc phân loại xác Mục đích thuật tốn SVM tìm khoảng cách biên lớn b K–Nearest Neighbor (kNN) kNN phương pháp truyền thống tiếng hướng tiếp cận dựa thống kê nghiên cứu nhận dạng mẫu bốn thập kỷ qua kNN đánh giá phương pháp tốt (áp dụng tập liệu Reuters phiên 21450), sử dụng từ thời kỳ đầu việc phân loại văn c Naïve Bayes (NB) NB phương pháp phân loại dựa vào xác suất sử dụng rộng rãi lĩnh vực máy học sử dụng lần lĩnh vực phân loại Maron vào năm 1961 sau trở nên phổ biến dùng nhiều lĩnh vực cơng cụ tìm kiếm, lọc mail d Neural Network (NNet) Nnet nghiên cứu mạnh hướng trí tuệ nhân tạo Wiener người sử dụng Nnet để phân loại văn bản, sử dụng hướng tiếp cận: kiến trúc phẳng (không sử dụng lớp ẩn) mạng nơron lớp (bao gồm lớp ẩn) Cả hai hệ thống sử dụng mạng nơron riêng rẽ cho chủ đề, NNet học cách ánh xạ phi tuyến tính yếu tố đầu vào từ, hay mơ hình vector văn vào chủ đề cụ thể e Linear Least Square Fit (LLSF) LLSF cách tiếp cận ánh xạ phát triển Yang Chute vào năm1992 Đầu tiên, LLSF Yang Chute thử nghiệmtrong lĩnh vực xác định từ đồng nghĩa sau sử dụng phân loại vào năm 1994 Các thử nghiệm Ỵang cho thấy hiệu suất phân loại LLSF ngang với phương pháp kNN kinh điển f Centroid- based vector Là phương pháp phân loại đơn giản, dễ cài đặt tốc độ nhanh có độ phức tạp tuyến tính O(n) Mỗi lớp liệu huấn luyện biểu diễn vector trọng tâm Việc xác định lớp văn thử thơng qua viêc tìm vector trọng tâm gần với vector biểu diễn văn thử Lớp văn thử lớp mà vector trọng tâm đại diện Khoảng cách tính theo độ đo cosine 1.3.4 Nhận xét phương pháp phân lớp văn 1.3.5 Một số phương pháp tách từ tiếng Việt a Phương pháp Maximum Matching b Phương pháp giải thuật học cải biến c Mơ hình tách từ WFST mạng Neural d Phương pháp quy hoạch động e Phương pháp tách từ tiếng Việt dựa thống kê từ Internet thuật toán di truyền 1.3.6 Đánh giá phương pháp tách từ tiếng Việt CHƯƠNG CÁC PHƯƠNG PHÁP KHẢO SÁT VÀ PHÂN LOẠI Ý KIẾN CỦA KHÁCH HÀNG ĐỐI VỚI MỘT SẢN PHẨM TMĐT Chương tập trung trình bày vấn đề liên quan đến phương pháp khảo sát phân loại ý kiến khách hang sản phẩm TMĐT tìm hiểu khái niệm sản phẩm TMĐT, cần thiết việc lấy ý kiến khách hàng, phương pháp khảo sát ý kiến khách hàng nay, vấn đề liên quan đến phân loại ý kiến, hướng tiếp cận toán phân loại ý kiến cuối chương trình bày số phương pháp phân loại ý kiến 2.1 TÌM HIỂU CHUNG VỀ SẢN PHẨM TMĐT Trước vào tìm hiểu phương pháp khảo sát phân loại ý kiến khách hàng sản phẩm thương mại điện tử, nên tìm hiểu lĩnh vực thương mại điện tử sản phẩm thương mại điện tử ngày Vì thương mại điện tử sản phẩm thương mại điện tử môi trường đối tượng cần thiểt để từ khai thác kho liệu khổng lồ ý kiến 10 2.1.3 Sản phẩm thương mại điện tử Sản phẩm thương mại điện tử sản phẩm buôn bán, giao dịch môi trường thương mại điện tử 2.2 VÌ SAO PHẢI LẤY Ý KIẾN KHÁCH HÀNG Khảo sát ý kiến khách hàng cách tuyệt vời để tìm hiểu xem khách hàng cảm thấy sản phẩm mới, dịch vụ, địa điểm, sách điều quan trọng cơng việc kinh doanh Thông qua khảo sát biết điều khách hàng mong đợi, từ có định hướng chuyển biến phù hợp hoạt động sản xuất kinh doanh 2.3 CÁC PHƯƠNG PHÁP KHẢO SÁT Ý KIẾN KHÁCH HÀNG 2.3.1 Khảo sát ý kiến khách hàng phương pháp thủ công Trong lĩnh vực điều tra khảo sát ý kiến khách hàng, có nhiều phương pháp giúp người thu thập thơng tin có nhìn tồn diện khảo sát mình, phương pháp quy phương pháp phương pháp vấn phương pháp dùng phiếu thăm dò ý kiến khách hàng a Phương pháp vấn b Dùng phiếu thăm dò ý kiến khách hàng c Các phương pháp khác 2.3.2 Khảo sát ý kiến khách hàng phương pháp tự động a Sự cần thiết việc khảo sát ý kiến khách hàng theo hướng tự động b Các cơng trình nghiên cứu ứng dụng khảo sát ý kiến 11 khách hàng - Khai phá quan điểm liệu twister - Phát cộng đồng sử dụng thuật toán CONGA khai phá quan điểm cộng đồng mạng xã hội - Dự báo thị trường chứng khoán dựa khai phá liệu Twitter - Khai phá quan điểm Blog để dự đoán việc bán sản phẩm 2.4 CÁC VẤN ĐỀ LIÊN QUAN ĐẾN PHÂN LOẠI Ý KIẾN 2.4.1 Khái quát phân loại ý kiến - Phân loại ý kiến lĩnh vực thu hút quan tâm nhiều nhà khoa học, nhà sản xuất nhiều cơng ty doanh nghiệp Việc phân loại ý kiến có ý nghĩa quan trọng việc nhìn nhận định vấn đề - Phân loại ý kiến áp dụng nhiều kết nghiên cứu lĩnh vực xử lý ngôn ngữ tự nhiên, học máy khai phá văn - Phân loại ý kiến bắt đầu việc xác định từ thể quan điểm “tốt”, “xấu”, “tuyệt vời” , từ xác định xu hướng quan điểm từ, cụm từ, câu, đoạn văn bản, đặc trưng 2.4.2 Các khái niệm thường dùng phân loại ý kiến 2.4.3 Các toán phân loại ý kiến Phân loại ý kiến gọi khai phá quan điểm hay phân lớp nhận định, có ba tốn điển hình là: - Phân lớp ý kiến - Khai phá tổng hợp quan điểm dựa đặc trưng - Khai phá quan hệ (so sánh) 12 2.5 HƯỚNG TIẾP CẬN BÀI TOÁN PHÂN LOẠI Ý KIẾN 2.5.1 Xu hướng nghiên cứu gần phân loại ý kiến a Xác định từ, cụm từ thể quan điểm b Xác định chiều hướng từ, cụm từ thể quan điểm c Phân lớp câu, tài liệu quan điểm 2.5.2 Những thách thức toán phân loại ý kiến Những vấn đề thách thức đánh giá quan điểm tồn việc sử dụng từ loại, việc xây dựng từ ngữ quan điểm, nhập nhằng câu phủ định, mức độ tình cảm (như excellent good), câu hay văn phức tạp, từ ngữ văn cảnh khác nhau,… a Các từ loại khác b Thuật ngữ quan điểm c Tính phủ định d Cấp độ quan điểm e Sự phức tạp câu, tài liệu f Quan điểm theo ngữ cảnh g Tài liệu không đồng 2.6 MỘT SỐ PHƯƠNG PHÁP PHÂN LOẠI Ý KIẾN Hiện có ba phương pháp phân loại ý kiến sử dụng phổ biến là: Phân loại ý kiến dựa vào cụm từ thể quan điểm, phân loại ý kiến dựa vào hàm tính điểm số, phân loại ý kiến dựa vào phương pháp phân lớp văn 13 2.6.1 Phân loại ý kiến dựa vào cụm từ thể quan điểm Phương pháp phân loại dựa vào từ thể quan điểm tích cực hay tiêu cực văn đánh giá Thuật toán sử dụng kỹ thuật xử lí ngơn ngữ tự nhiên gọi gán nhãn từ loại (part-ofspeech) Đánh dấu cho từ xác định cú pháp ngữ nghĩa 2.6.2 Phân loại ý kiến dựa vào hàm tính điểm số Phương pháp dựa vào từ thể quan điểm để tính điểm số cho văn bản, sau dựa vào điểm số để xác định văn cần phân loại thuộc lớp 2.6.3 Phân loại ý kiến dựa vào phương pháp phân lớp văn - Đây phương pháp đơn giản để giải toán phân lớp quan điểm dựa vào chủ đề Sau đó, áp dụng kỹ thuật học máy để phân lớp Bayesian, SVM, KNN¼ - Ý tưởng phương pháp đưa tốn phân loại ý kiến toán phân lớp văn để giải Khi ý kiến xem văn Ý kiến chia làm nhiều loại, loại ý kiến xem chủ đề CHƯƠNG ĐỀ XUẤT GIẢI PHÁP VÀ XÂY DỰNG CHƯƠNG TRÌNH THỰC NGHIỆM Sau tìm hiểu tổng quan lĩnh vực khai phá liệu chương đến chương luận văn phân tích trình bày cách phương pháp khảo sát ý kiến khách hàng, hướng tiếp cận toán phân loại ý kiến phương pháp 14 phân loại ý kiến Từ tiền đề lý thuyết ban đầu ấy, định chọn phương pháp phân loại ý kiến dựa vào phân loại văn để giải toán phân loại ý kiến khách hàng tính đơn giản hiệu cao Hiện có nhiều phương pháp phân loại văn bản, vấn đề đặt phải tìm phương pháp phân loại tối ưu áp dụng vào tốn Bằng việc so sánh đối chiếu phương pháp phân lớp văn nêu cuối chương 1, nhận thấy SVM phương pháp phân loại phù hợp nhất, việc áp dụng để giải toán phân loại ý kiến khách hàng sản phẩm thương mại điện tử cho kết nghiên cứu khả quan mặt lý thuyết thực nghiệm 3.1 PHƯƠNG PHÁP MÁY HỌC VECTOR HỖ TRỢ SVM 3.1.1 Lý sử dụng SVM - SVM có khả phân loại tốt toán phân loại văn nhiều ứng dụng khác nhận dạng chữ viết tay, phát mặt người ảnh, ước lượng hồi quy, - SVM có nhiều đặc tính bật lý thuyết thực thi so với phương pháp khác lĩnh vực phân lớp văn Ưu điểm SVM so với phương pháp khác cách giải vấn đề mang tính tổng quát phương pháp khác mang tính cục - Việc mở rộng nghiên cứu SVM ứng dụng khác cho thấy tính quán lý thuyết thực hành tạo nên tính thuyết phục cho phương pháp SVM 3.1.2 Phương pháp SVM a Định nghĩa - Máy học vectơ hỗ trợ (SVM - viết tắt tên tiếng Anh 15 support vector machine) khái niệm thống kê khoa học máy tính cho tập hợp phương pháp học có giám sát liên quan đến để phân loại phân tích hồi quy - SVM dạng chuẩn nhận liệu vào phân loại chúng vào hai lớp khác Do SVM thuật tốn phân loại nhị phân Với ví dụ luyện tập thuộc hai thể loại cho trước, thuật toán luyện tập SVM xây dựng mơ hình SVM để phân loại ví dụ khác vào hai thể loại b Nguồn gốc đời thuật tốn - Thuật tốn SVM ban đầu tìm Vladimir N Vapnik dạng chuẩn sử dụng lề mềm tìm Vapnik Corinna Cortes năm 1995 c Thuật toán SVM d Huấn luyện SVM 3.2 MƠ TẢ BÀI TỐN - u cầu tốn đặt phải khai phá liệu từ trang mạng xã hội để lấy tất ý kiến phản hồi, bình luận người dùng sản phẩm thương mại điện tử, từ phân tích quan điểm dựa vào tập tiêu chí để xem quan điểm thuộc tiêu chí - Trong phạm vi đề tài việc khai phá liệu từ mạng xã hội để lấy tất ý kiến bình luận thực học viên Trần Thị Ái Quỳnh, học viên nhóm giảng viên T.S Huỳnh Cơng Pháp hướng dẫn Cho nên từ liệu đầu vào có tơi phân loại ý kiến dựa vào tập tiêu chí đưa - Có nhiều tiêu chí để đánh giá ý kiến khách hàng phạm vi đề tài xin đưa tiêu chí: tích cực, tiêu cực, khơng xác định 16 - Về sản phẩm thương mại điện tử đa dạng, đề tài tơi trọng đến dòng sản phẩm nhiều người ưa thích ý dịng điện thoại Iphone5 Apple - Có nhiều phương pháp để phân loại ý kiến khách hàng vào nhóm tiêu chí cụ thể, tơi định chọn phương pháp phương pháp phân loại sử dụng máy học vector hỗ trợ SVM để nghiên cứu xây dựng ứng dụng mô tả cho lý thuyết nghiên cứu 3.3 ĐỀ XUẤT GIẢI PHÁP 3.3.1 Giải pháp cho toán - Giải pháp: Việc khảo sát ý kiến khách hàng sản phẩm thương mại điện tử việc giải toán phân loại ý kiến khách hàng Với đầu vào toán liệu khai phá từ mạng xã hội sản phẩm thương mại điện tử IPhone5, ta giải toán phân loại ý kiến khách hàng dựa vào phương pháp phân lớp văn bản, sử dụng phương pháp máy học vector hỗ trợ SVM - Một số cải tiến: o Giảm kích thước khơng gian đặc trưng đến miền từ vựng quan điểm cách: § Từ từ điển Tiếng Việt có ta trích xuất tất từ vựng thể quan điểm xảy ngữ cảnh người dùng sử dụng để nhận xét sản phẩm điện thoại Iphone5 § Bổ sung thêm từ ngữ, thuật ngữ thể quan điểm o Cho phép học có giám sát: Điều có nghĩa hệ thống phải cho phép người dùng can thiệp để kiểm tra độ xác q trình phân loại, từ ghi nhận thay đổi ý kiến phân loại không nhằm làm cho hệ thống tối ưu 17 o Tối ưu hóa ngữ nghĩa: Những từ ngữ thể quan điểm nhập nhằn chưa có liệu học phát sau trình phân loại thuộc nhóm ý kiến chưa xác định, hệ thống cần tự động cảnh báo cho phép người dùng bổ sung vào tập liệu huấn luyện o Xử lý vấn đề tính phủ định: Tính phủ định từ ảnh hưởng đến ngữ nghĩa nó, từ ngữ thể quan điểm điều thể rõ nét - Đầu vào: liệu bình luận đánh giá người dùng sản phẩm thương mại điện tử trang mạng xã hội trích rút lấy Sau liệu xử lý loại bỏ thông tin dư thừa làm đầu vào cho phân lớp SVM - Đầu ra: ba tập liệu gồm tập ý kiến tích cực, tập ý kiến tiêu cực tập ý kiến trung lập 18 3.3.2 Mơ hình giải pháp Mơ hình phân loại ý kiến sử dụng kĩ thuật SVM 19 3.3.3 Các bước thực a Bước 1: Khai phá thu thập liệu - Việc trích rút thơng tin từ trang mạng xã hội thực cách sử dụng wrapper Một wrapper xem thủ tục thiết kế để rút trích thơng tin cần quan tâm Đã có nhiều cơng trình khác giới sử dụng nhiều phương pháp tạo wrapper khác để thực trích rút thơng tin web Các wrapper xây dựng tay phát sinh tự động vùng thông tin người dùng xác định trước trang web mẫu Wrapper xây dựng theo phương pháp có nhược điểm phải cập nhật lại có thay đổi quy cách trình bày trang web - Dữ liệu đầu vào sau khai phá từ trang mạng xã hôi, tổng hợp thành file text - Mỗi dòng file text nội dung comment người dùng bình luận sản phẩm điện tử Iphone b Bước 2: Tạo tập từ vựng quan điểm - Tập từ vựng quan điểm trích xuất tay từ từ điển Tiếng Việt, chủ yếu gồm từ thể quan điểm, tình cảm, thái độ người dùng ngữ cảnh muốn nhận xétvề sản phẩm điện thoại Iphone5 - Tập từ bổ sung từ từ điển quan điểm VietSentiWordNet miền liệu Tiếng Việt - Tập từ bổ sung thêm nhiều từ mang quan điểm dùng thường xuyên xu c Bước 3: Tiền xử lý liệu - Dữ liệu cần phải tiền xử lý để loại bỏ kí tự dư thừa Do phần lớn comments người dùng viết nhanh, vội, 20 vắn tắt nên thường nhập nhằng có nhiều lỗi cú pháp, lỗi ngữ nghĩa Chính cần loại bỏ kí tự, kí hiệu dư thừa điều chỉnh ngữ nghĩa từ viết tắt để chúng trở nên có nghĩa tìm thấy từ điển Tiếng Việt - Dữ liệu chia thành tập: tập liệu huấn luyện tập liệu kiểm tra - Sau bước tiền xử lý thủ công đơn giản ta tiến hành tách câu tách từ cho văn liệu - Sau tách từ ta tiến hành bước tối ưu hóa ngữ nghĩa - Tiến hành xử lý từ có tính phủ định d Bước 4: Xây dựng vector đặc trưng biễu diễn TFxIDF - Dữ liệu ta xét tập hợp văn Sau tiền xử lý, tách từ, liệu dùng để huấn luyện ta trích xuất tập từ đặc trưng xây xựng vector đặc trưng văn Khi tập liệu huấn luyện biểu diễn tập vector đặc trưng - Mỗi từ văn tính trọng số TFxIDF đưa vào vector đặc trưng.Vector đặc trưng đầu vào cho trình huấn luyện SVM bước e Bước 5: Huấn luyện phân lớp SVM - Đặc trưng định khả phân loại phân loại hiệu suất tổng quát hóa, khả phân loại liệu dựa vào tri thức tích lũy q trình huấn luyện - Thuật toán huấn luyện đánh giá tốt sau q trình huấn luyện, hiệu suất tổng qt hóa phân loại nhận 21 cao Hiệu suất tổng quát hóa phụ thuộc vào hai tham số sai số huấn luyện lực máy học Trong sai số huấn luyện tỷ lệ lỗi phân loại tập liệu huấn luyện Còn lực máy học xác định kích thước Vapnik- Chervonenkis (kích thước VC) f Bước 6: Phân lớp liệu - Dữ liệu đầu vào sau xử lý biểu diễn dạng vector đặc trưng, đưa qua phân lớp tạo bước trước để tính F - Từ giá trị max F ta tìm loại ý kiến tương ứng g Bước 7: Tổng hợp kết - Tổng hợp số ý kiến tích cực, tiêu cực khơng xác định - Kết tổng hợp mục tiêu cần khảo sát h Bước 8: Kiểm tra bổ sung từ quan điểm - Nếu số ý kiến chưa xác định tồn hệ thống cho phép ta xem, kiểm tra bổ sung từ vựng mang quan điểm cần thiết vào tập từ vựng quan điểm bổ sung ý kiến vào tập liệu học với nhãn xác - Cơng việc giúp cho q trình phân loại ngày xác hơn, hồn thiện 3.3.4 Cài đặt thử nghiệm a Công cụ - Visual Studial 2010 - Sql Server 2008 b Tổ chức chương trình - Solution gồm project: v SvmClassifySolution : chứa lớp xử lý hiển thị kết v SvmControler : Chứa lớp xử lý SVM 22 Tổ chức chương trình c Chức hệ thống - Cập nhật liệu huấn luyện v Cập nhật nội dung ý kiến cần huấn luyện v Cập nhật nhiều nội dung huấn luyện từ file text - Phân loại ý kiến v Phân loại ý kiến v Phân loại nhiều ý kiến từ file text 23 3.3.5 Kết thực nghiệm - Sau xây dựng công cụ minh họa cho lý thuyết nghiên cứu Để tiến hành kiểm chứng kết việc áp dụng phương pháp SVM vào phân loại ý kiến khách hàng, sử dụng liệu mẫu gồm 976 nhận xét khách hàng sản điện thoại Iphone5 để làm liệu huấn luyện Dữ liệu gán nhãn tay với 488 nhãn tích cực 488 nhãn tiêu cực - Tập liệu kiểm tra gồm 468 nhận xét khách hàng sản phẩm điện thoại Iphone5 Sau tiến hành kiểm thử thu kết gồm 242 ý kiến tích cực 190 ý kiến tiêu cực 36 ý kiến chưa xác định - Để kiểm chứng độ xác phương pháp tơi tiến hành kiểm thử tập liệu huấn luyện thu 392 ý kiến tích cực 584 ý kiến tiêu cực - Như độ xác thuật toán 80,3% - Ta nhận thấy ý kiến phân loại không tập đặc trưng có nhiều từ khơng dùng để thể quan điểm, xuất từ q trình tính tốn trọng số ảnh hưởng đến độ xác việc phân loại Trong việc phân loại ý kiến hầu hết thể qua từ nhóm từ thể quan điểm ý kiến Bên cạnh việc phân loại ý kiến khơng cịn phức tạp ngữ nghĩa câu Các ý kiến không xác định ý kiến mà khơng phải tích cực tiêu cực Các ý kiến cần xem xét quay lại bổ sung cho trình huấn luyện 24 KẾT LUẬN Những kết đạt luận văn: - Trình bày khái quát kĩ thuật khai phá liệu - Nêu lên phương pháp phân loại văn đặc biệt phương pháp phân loại sử dụng máy học vector hỗ trợ SVM - Trình bày phương pháp phân loại ý kiến nay, áp dụng phương pháp phân loại văn vào toán phân loại ý kiến sử dụng phương pháp SVM - Đề xuất cải tiến hệ thống nhằm nâng cao tính hiệu việc sử dụng phương pháp SVM vào phân loại ý kiến Bên cạnh kết đạt được, dù cố gắng hữu hạn thời gian kiến thức, luận văn số hạn chế: - Hiệu phân loại phụ thuộc vào phức tạp ngữ nghĩa, ý kiến có ngữ nghĩa phức tạp áp dụng tốn phân loại văn vào phân loại ý kiến hiệu không cao - Cấp độ quan điểm ý kiến cịn hạn chế hai mức tích cực tiêu cực - Mức phân lớp dừng lại mức tài liệu, chưa sâu đến mức đặc trưng Định hướng nghiên cứu tương lai: - Nâng cao hiệu phân loại trường hợp ý kiến có ngữ nghĩa phức tạp - Cấp độ quan điểm cần phải cao hơn, không nên giới hạn hai mức tích cực tiêu cực - Hướng phân lớp đến mức đặc trưng không dừng lại mức tài liệu

Ngày đăng: 13/01/2024, 16:09

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w