Phân lớp quan điểm khách hàng và ứng dụng (LV thạc sĩ)Phân lớp quan điểm khách hàng và ứng dụng (LV thạc sĩ)Phân lớp quan điểm khách hàng và ứng dụng (LV thạc sĩ)Phân lớp quan điểm khách hàng và ứng dụng (LV thạc sĩ)Phân lớp quan điểm khách hàng và ứng dụng (LV thạc sĩ)Phân lớp quan điểm khách hàng và ứng dụng (LV thạc sĩ)Phân lớp quan điểm khách hàng và ứng dụng (LV thạc sĩ)Phân lớp quan điểm khách hàng và ứng dụng (LV thạc sĩ)Phân lớp quan điểm khách hàng và ứng dụng (LV thạc sĩ)Phân lớp quan điểm khách hàng và ứng dụng (LV thạc sĩ)Phân lớp quan điểm khách hàng và ứng dụng (LV thạc sĩ)Phân lớp quan điểm khách hàng và ứng dụng (LV thạc sĩ)Phân lớp quan điểm khách hàng và ứng dụng (LV thạc sĩ)
ĐẠI HỌC THÁI NGUYÊN ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG NGUYỄN THỊ THOA “PHÂN LỚP QUAN ĐIỂM KHÁCH HÀNG VÀ ỨNG DỤNG” LUẬN VĂN THẠC SỸ THÁI NGUYÊN – 2016 ĐẠI HỌC THÁI NGUYÊN ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG - NGUYỄN THỊ THOA “PHÂN LỚP QUAN ĐIỂM KHÁCH HÀNG VÀ ỨNG DỤNG” CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ CHUYÊN NGÀNH: 60.48.01.01 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS ĐOÀN VĂN BAN THÁI NGUYÊN - 2016 MỤC LỤC CHƯƠNG – PHÂN LỚP DỮ LIỆU 1.1 Giới thiệu phân lớp liệu 1.2 Quá trình phân lớp liệu .4 1.3 Các vấn đề liên quan đến phân lớp liệu 1.3.1 Chuẩn bị liệu cho việc phân lớp .8 1.3.2 So sánh mô hình phân lớp .9 1.3.3 Các phương pháp đánh giá độ xác mô hình phân lớp .10 1.4 Kết luận chương 11 CHƯƠNG – MỘT SỐ KỸ THUẬT TRONG PHÂN LOẠI VĂN BẢN 12 2.1 Xử lý văn 12 2.1.1 Đặc điểm từ tiếng việt 12 2.1.2 Tách từ .13 2.2 Biểu diễn văn 18 2.2.1 Mô hình logic .18 2.2.2 Mô hình phân tích cú pháp 19 2.2.3 Mô hình không gian vector 20 2.2.4 Mô hình Boolean .22 2.2.5 Mô hình tần suất 23 2.3 Độ tương đồng 25 2.3.1 Khái niệm độ tương đồng 25 2.3.2 Độ tương đồng 26 2.3.3 Các phương pháp tính độ tương đồng .26 2.4 Các phương pháp phân loại văn 29 2.4.1 Phương pháp pháp Naïve Bayes (NB) .29 2.4.2 Phương pháp Support Vector Machine (SVM) 31 2.4.3 Phương pháp K-Nearest Neighbor (K-NN) .35 2.4.4 Phương pháp Linear Least Square Fit (LLSF) 37 2.4.5 Phương pháp Centroid – based vector .38 2.4.6 Kết luận 38 2.5 Kết luận chương 40 CHƯƠNG – CHƯƠNG TRÌNH THỬ NGHIỆM 41 3.1 Xây dựng mô hình ứng dụng khai phá ý kiến phản hồi khách hàng website dựa SVM 41 3.1.1 Phát biểu toán .41 3.1.2 Mô hình ứng dụng khai phá ý kiến phản hồi khách hàng website dựa SVM .41 3.2 Yêu cầu phần cứng phần mềm 44 3.2.1 Cấu hình máy thực nghiệm .44 3.2.2 Công cụ phần mềm sử dụng 44 3.3 Một số kết đánh giá 45 3.3.1 Kết thử nghiệm 45 3.3.2 Đánh giá kết .56 3.4 Kết luận chương 57 KẾT LUẬN VÀ ĐỀ NGHỊ .58 DANH MỤC HÌNH ẢNH Hình 1.1 Quy trình phân loại văn [3] Hình 1.2 Bước xây dựng mô hình phân lớp - Training Hình 1.3 Ước lượng độ xác mô hình Hình 1.4 Phân lớp liệu Hình 1.5 Ước lượng độ xác mô hình phân lớp phương pháp holdout 10 Hình 2.1 Biểu diễn vector văn không gian chiều 21 Hình 2.2 Mô hình SVM [18] 32 Hình 2.3 Margin - khoảng cách điểm tới biên 32 Hình 2.4 Mô hình SVM không gian 33 Hình 2.5 Mô hình thuật toán K-NN 35 Hình 3.1 Sơ đồ xử lý liệu 41 Hình 3.2 Giao diện Weka 45 Hình 3.3 Chuyển đổi liệu sang arff 50 Hình 3.4 vector hóa liệu 51 Hình 3.5 Giao diện huấn luyện 55 Hình 3.6 Kết huấn luyện 55 DANH MỤC BẢNG BIỂU Bảng 2.1 Biểu diễn văn mô hình Logic 18 Bảng 2.2 Biểu diễn văn mô hình Vector 21 Bảng 2.3 Biểu diễn văn mô hình Boolean 22 Bảng 3.1 kết huấn luyện kiểm thử 56 MỞ ĐẦU I ĐẶT VẤN ĐỀ Hầu hết doanh nghiệp muốn quan tâm đến ý kiến, phản hồi khách hàng sản phẩm, dịch vụ họ Các đánh giá khách hàng mặt giúp cho người dùng khác định hướng việc chọn lựa sản phẩm, mặt khác giúp cho doanh nghiệp định hướng cải tiến chất lượng Số lượng đánh giá sản phẩm mà nhận ngày tăng đến từ nhiều nguồn khác (web bán hàng, diễn đàn, blog, mạng xã hội ) Vì vậy, để tổng hợp ý kiến phản hồi khách hàng chất lượng, phải tự động hóa công việc thu thập phân tích đánh giá Công nghệ phân lớp liệu đã, phát triển mạnh mẽ trước khao khát tri thức người Trong năm qua, phân lớp liệu thu hút quan tâm nhà nghiên cứu nhiều lĩnh vực khác học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics) Công nghệ ứng dụng nhiều lĩnh vực thực tế như: thương mại, nhà băng, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục Phân lớp văn toán khai phá quan điểm Các hệ thống phân lớp văn hệ thống phải có khả xác định, khai phá nội dung thông tin Có thể coi phân lớp quan điểm toán phân lớp văn theo hai lớp tích cực tiêu cực Do chọn đề tài “Đánh giá sản phẩm website thương mại điện tử dựa nhận xét người dùng internet” đề tài nghiên cứu số kỹ thuật phân lớp văn K-means, Naïve Bayes, Maximum entropy SVM để sử dụng phương pháp học máy phân lớp quan điểm khách hàng II ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU Đối tượng nghiên cứu: Các kỹ thuật phân lớp văn ứng dụng để phân lớp quan điểm khách hàng đưa vào website TMĐT bán hàng trực tuyến với số lượng truy cập giao dịch lớn Phạm vi nghiên cứu Nghiên cứu tài liệu viết nước kỹ thuật phân lớp liệu để xây dựng phát triển toán “Phân lớp quan điểm khách hàng ứng dụng” hiệu công việc phân tích, khai thác nguồn ý kiến khách hàng III HƯỚNG NGHIÊN CỨU CỦA ĐỀ TÀI - Đề tài kết hợp phương pháp nghiên cứu lý thuyết với kết thực nghiệm - Phân tích tài liệu thông tin liên quan - Mô thử nghiệm IV PHƯƠNG PHÁP NGHIÊN CỨU Nghiên cứu lý thuyết dựa tài liệu phân lớp liệu, thuật toán, phương pháp phân lớp … tác giả nước Thực nghiệm dựa website TMĐT để xây dựng, đánh giá phương pháp CHƯƠNG – PHÂN LỚP DỮ LIỆU 1.1 Giới thiệu phân lớp liệu Bài toán phân lớp quan điểm Là trình phân lớp đối tượng liệu vào hay nhiều lớp cho trước nhờ mô hình phân lớp mà mô hình xây dựng dựa tập hợp đối tượng liệu gán nhãn từ trước gọi tập liệu học (tập huấn luyện) Quá trình phân lớp gọi trình gán nhãn cho đối tượng liệu [5][3] Như vậy, nhiệm vụ toán phân lớp liệu cần xây dựng mô hình (bộ) phân lớp để có liệu vào mô hình phân lớp cho biết liệu thuộc lớp Có nhiều toán phân lớp liệu, phân lớp nhị phân, phân lớp đa lớp, phân lớp đa trị,… Phân lớp nhị phân trình tiến hành việc phân lớp liệu vào hai lớp khác dựa vào việc liệu có hay không số đặc tính theo quy định phân lớp Phân lớp đa lớp trình phân lớp với số lượng lớp lớn hai Như vậy, tập hợp liệu miền xem xét phân chia thành nhiều lớp không đơn hai lớp toán phân lớp nhị phân Về chất, toán phân lớp nhị phân trường hợp riêng toán phân lớp đa lớp Trong phân lớp đa trị, đối tượng liệu tập huấn luyện đối tượng sau phân lớp thuộc vào từ hai lớp trở lên Ví dụ trang web việc bùng phát bệnh cúm gia cầm, thủy cầm số tính phía Bắc vừa thuộc lĩnh vực y tế liên quan đến lây bệnh sang người thuộc lĩnh vực kinh tế liên quan đến ngành chăn nuôi… Trong trường hợp vậy, việc xếp tài liệu vào nhiều lớp phù hợp với yêu cầu thực tế 1.2 Quá trình phân lớp liệu Huấn luyện Kiểm tra Nhãn Tệp đầu vào Tập liệu Học Tệp trích rút máy Tệp trích rút Phân lớp Kết Hình 1.1 Quy trình phân loại văn [3] Quá trình phân lớp liệu thường gồm hai bước: xây dựng mô hình (tạo phân lớp) sử dụng mô hình để phân lớp liệu Bước Bước xây dựng mô hình phân lớp (Training) Một mô hình xây dựng dựa việc phân tích đối tượng liệu gán nhãn từ trước Tập mẫu liệu gọi tập liệu huấn luyện (training data set) Các nhãn lớp tập liệu huấn luyện xác định người trước xây dựng mô hình, phương pháp gọi học có giám sát (supervised learning) Trong bước này, phải tính độ xác mô hình, mà cần phải sử dụng tập liệu kiểm tra (test data set) Nếu độ xác chấp nhận (tức cao), mô hình sử dụng để xác định nhãn lớp cho liệu khác tương lai Trong việc test mô hình, sử dụng độ đo để đánh giá chất lượng tập phân lớp, độ hồi tưởng, độ xác, độ đo F1 Nội dung chi tiết độ đo trình bày mục Tồn nhiều phương pháp phân lớp liệu để giải toán phân lớp tùy thuộc vào cách thức xây dựng mô hình phân lớp phương pháp Bayes, phương pháp định, phương pháp k-người láng giềng gần nhất, phương pháp máy hỗ trợ vector Các phương pháp phân lớp khác chủ yếu mô hình phân lớp Mô hình phân lớp gọi thuật toán phân lớp Thuật toán phân lớp Dữ liệu huấn luyện Tuổi 20 18 40 50 35 30 30 40 Xe Combi Sports Sports Family Minivan Combi Family Combi Giàu Cao Cao Cao thấp thấp cao thấp thấp Phân lớp Nếu tuổi < 31 Xe = sport Giàu = cao Hình 1.2 Bước xây dựng mô hình phân lớp - Training Bước Phân lớp (classification) Bước thứ hai dùng mô hình xây dựng bước trước để phân lớp liệu Trước tiên độ xác mang tính chất dự đoán mô hình phân lớp vừa tạo ước lượng Holdout kỹ thuật đơn giản để ước lượng độ xác Kỹ thuật sử dụng tập liệu kiểm tra với mẫu gán nhãn lớp Các mẫu chọn ngẫu nhiên độc lập với mẫu tập liệu đào tạo Độ xác mô hình tập liệu kiểm tra 46 Các phiên_bản khác lại không trơn_tru liền mạch mặt trước như_vậy , bị cắt nhiều Mặt trước J7 Prime màu đen đẹp mặt sau chán , cá_tính buồn_tẻ Sử_dụng vỏ kim_loại kết_hợp với kính mặt trước , J7 Prime cho một_chút ấn_tượng , một_chút cao_cấp tốt Samsung thiết_kế mặt sau hòa_hợp với mặt trước Màn_hình : góc nhìn rộng , PLS_LCD Khi ra_mắt Samsung bị chê nhiều họ công_bố J7 Prime sử_dụng màn_hình TFT_LCD truyền_thống Tuy_vậy , thực_chất J7 Prime sử_dụng PLS_LCD , công_nghệ dựa TFT tương_tự IPS PLS ứng_dụng sản_phẩm trước_kia Ưu_điểm PLS gần giống IPS , tức góc nhìn rộng , bạn có_thể xoay ngang_dọc máy không bị suy_giảm nhiều góc hình Tuy_vậy , cũng_như IPS vốn phụ_thuộc nhiều vào công_nghệ chế_tạo , rõ_ràng Samsung không ứng_dụng PLS xịn vào J7 Prime , màu_sắc tốt nhạt một_chút có xu_hướng bị lệch màu Dù_vậy , có_thể khẳng_định với bạn màn_hình điểm mạnh thiết_bị tầm giá Bên_cạnh công_nghệ chế_tạo độ_phân_giải điểm quan_trọng J7 Prime Sản_phẩm Samsung dùng màn_hình FullHD thay cho 720p đại_đa_số đối_thủ phân khúc Cá_nhân thấy điểm_ảnh bị vỡ nhìn gần , đặc_biệt dòng chữ biểu_tượng chương_trình có_lẽ khó_tính như_vậy Camera : chất_lượng tốt , lấy nét đêm chậm Camera_Galaxy J7 Prime cho hiệu_năng ổn chụp ban_ngày , lấy nét đủ nhanh độ chi_tiết đủ tốt Khi đêm đến , ống_kính f 1.9 phát_huy tác_dụng giúp máy bắt sáng tốt Trong ảnh , bạn nhìn 47 hình chúng chụp điều_kiện ánh_sáng yếu , J7 Prime phản_ứng tốt cho ảnh chất_lượng tầm giá Vậy nhược_điểm camera sau điện_thoại , việc máy lấy nét không nhanh gặp nhiều khó_khăn chụp tối Một đặc_điểm không xa_lạ điện_thoại tầm giá Có_vẻ Samsung không trang_bị khả_năng lấy nét theo pha vốn phát_huy ưu_thế môi_trường ánh_sáng yếu mà dựa toàn_bộ vào lấy nét theo độ tương_phản Bọn thử kỹ camera J7 Prime sau Về phần camera trước , cảm 8MP với khẩu_độ f 1.9 cho_phép chúng_ta tự sướng tốt Mình ghét selfie , thử_nghiệm sơ_bộ hình_ảnh từ camera trước máy ổn , có_vẻ hình_ảnh lung_linh Bữa sau chúng_ta so_sánh trực_tiếp với thánh selfie Oppo F1s xem Xem thêm ảnh từ camera J7 Prime Hiệu_năng : ổn tầm giá hãng , RAM ROM lợi_thế Sử_dụng chip Exynos 7870 với nhân Cortex A53 hoạt_động xung nhịp 1.6GHz , chip tương_tự với Galaxy J7 2016 nên bạn không_thể mong_đợi cải_tiến đột_phá hiệu_năng J7 Prime Tuy_nhiên , máy có 3GB RAM nên đa_nhiệm có_vẻ trơn_tru mượt_mà Thử_nghiệm chạy một_số game nặng hay chuyển_đổi chương_trình cho thấy J7 Prime tương_đương J7 2016 Trong lần xuất_hiện Samsung trang_bị 3GB RAM bộ_nhớ_trong 32GB J7 Prime , tốt hẳn so với 2GB RAM 16GB RAM J7 2016 Chỉ riêng phần xứng cho chênh_lệch 500 ngàn máy Pin : dung_lượng cao , thực_tế chưa biết Galaxy J7 Prime dùng viên pin 3300mAh , tốt với máy phổ_thông 5.5 ” So với sản_phẩm khác pin máy lớn 48 màn_hình FullHD có_thể gánh nặng Bọn test pin chi_tiết sau , có_vẻ pin thuộc loại trâu không Bên Samsung tặng sạc 5V 1.55A , không nhanh chấp_nhận Nếu họ tặng 5V 2A vui Kết_luận : Mang_tiếng J7 Prime cá_nhân thấy máy không liên_quan đến dòng J Tên mã Galaxy J7 2016 J710 J7 Prime G610 , tên mã lạ có liên qua nhiều đến dòng On7 ( tên mã G600 ) Có_vẻ Samsung đổi tên để dễ bán Việt_Nam dòng On gần_như không xuất_hiện nhiều nước ta , trừ “ một_vài thiết_bị lạc ” nhà_bán_lẻ tự nhập Với thay_đổi lớn màn_hình đặc_biệt pin cộng với dịch_vụ Samsung rõ_ràng Galaxy J7 Prime không tỏ thua_kém so với đối_thủ phân khúc triệu Samsung tự_tin đặt giá J7 Prime cao 300.000 đồng so_sánh với đối_thủ trực_tiếp Oppo F1s đối_thủ danh_tiếng Sony_Xperia XA , điện_thoại cực_kỳ phổ_biến với người phổ_thông Bọn sớm thực_hiện so_sánh chi_tiết Galaxy J7 Prime với đối_thủ Dự_kiến J7 Prime chính_thức bán ra_vào ngày_mai Cảm_ơn FPTShop cho mượn máy để review ” Ví dụ đoạn text tiêu cực (tieucuc): “Hôm_qua có dịp sài em tiếng nhận_xét sau : ưu_điểm : - Thiết_kế cầm ôm tay , nhôm mát_lạnh - Trọng_lượng nhẹ cầm ko mỏi tay 49 - Máy chạy mượt_mà , màn_hình trắng_trong ko ám vàng Super_Amoled - Bộ_nhớ lớn 32gb ngon Nhượt điểm : - Không có NFC - Không có sạc nhanh - Không có đèn phím Back , đa_nhiệm - Không có mic chống ồn thứ ( có míc đáy máy ) - Màn_hình góc nhìn hẹp , nghiên nhìn giảm đáng_kể - Màn_hình TFT nên thua_kém S.Amoled - Pin tụt nhanh , chưa tới 2p lướt web tụt 1% pin Tóm_lại : Nếu_Mình mua Galaxy A7 2016 hàng đổi trả thay_vì em Thực_sự có nhiều vấn_đề cầm em không ưng Trong tầm giá 5,5 tr ( sau trừ khuyên ) em bình_thường , ko có đặt biệt Camera trước tung lên 8MP thua xa cam A7 2016 ” Chuyển đổi liệu sang định dạng arff Sử dụng chức TextDirectoryLoader menu Simple CLI công cụ weka 3.8 với cú pháp: java weka.core.converters.TextDirectoryLoader -dir "E:\aa" > "C:\ datavn.arff" 50 Hình 3.3 Chuyển đổi liệu sang arff Sau chuyển ta liệu có định dạng sau: @relation D adc @attribute text string @attribute @@class@@ {tieucuc,tichcuc} Mỗi ghi bao gồm thuộc tính văn phân lớp văn (tieucuc, tichcuc) SVM thuật toán phân lớp liệu vector, thao tác vector hóa liệu thu chức filter => StringToWordVector menu Explore 51 Hình 3.4 vector hóa liệu Khi apply liệu ta thu liệu vector hóa, tệp liệu lúc có cấu trúc sau: Phần thuộc tính attribute: @relation 'E aa- weka.filters.unsupervised.attribute.StringToWordVector-R1-W1000-prunerate-1.0-T-I-N0-stemmerweka.core.stemmers.NullStemmer-stopwordshandlerweka.core.stopwords.Null-M1tokenizerweka.core.tokenizers.WordTokenizer -delimiters \\r\\n\\t.,;:\\\'\\\"()?!\"-weka.filters.unsupervised.attribute.Remove-R2-16,1824-weka.filters.unsupervised.attribute.Remove-R32-34' @attribute @@class@@ {tichcuc,tieucuc} @attribute Cu numeric @attribute Cá_nhân numeric @attribute Các numeric @attribute Cái numeric \" 52 @attribute Cám_ơn numeric @attribute Còn numeric @attribute Có numeric @attribute Có_vẻ numeric @attribute Công_nhận numeric @attribute Cũng numeric @attribute Cảm_ơn numeric @attribute Cấu_hình numeric @attribute Cứ numeric @attribute Dòng numeric @attribute Em numeric @attribute Exynos numeric @attribute F1s numeric @attribute FPT numeric @attribute Full numeric @attribute FullHD numeric @attribute Galaxy numeric @attribute Gia numeric @attribute Giá numeric @attribute Giơ numeric @attribute Giống numeric @attribute HD numeric @attribute Hay numeric @attribute Hihi numeric @attribute Hiệu_năng numeric @attribute Home numeric @attribute Hàn_Quốc numeric 53 @attribute IPS numeric @attribute Ifan numeric @attribute J numeric @attribute J2 numeric @attribute J7 numeric @attribute Khi numeric @attribute Không numeric @attribute Ko numeric @attribute Kết_luận numeric @attribute LCD numeric Phần Vector hóa đoạn text theo n chiều (n số attribute): @data {0 tieucuc,86 1.255302,88 2.157181,214 1.909952,248 2.171473,289 0.889767,304 0.726513,330 1.994073,377 1.345661,424 1.880865,434 1.076413,459 1.669691,470 0.93435,544 0.867405,587 1.676728,643 0.513328,683 1.328332,781 2.26403,823 1.49705,915 1.132142,967 1.834944,984 0.487413,1011 2.474526,1067 3.893879,1233 3.331785} {13 1.919926,49 2.0403,125 1.843888,216 1.622335,227 2.231785,267 2.102788,289 0.889767,303 1.161783,340 1.80028,362 1.259163,304 2.143177,372 0.726513,316 2.851332,385 0.9846,339 1.919926,390 3.893879,418 2.370879,424 1.880865,434 1.076413,439 1.994073,456 1.940314,485 2.570285,513 2.744483,525 1.890426,528 2.26403,542 1.011161,544 0.867405,554 1.082388,570 1.390981,599 2.200973,603 1.444514,604 3.413426,617 1.332624,621 2.016802,635 2.390405,642 1.175374,643 0.513328,647 2.410498,659 1.808785,683 1.328332,689 3.132379,711 1.079394,731 1.919926,734 2.24772,735 2.813855,749 54 1.909952,751 3.02553,782 0.786498,792 1.29901,860 2.497255,876 4.093285,912 1.491614,915 1.132142,928 2.813855,941 3.612832,967 1.834944,984 0.487413,1012 1.524891,1267 3.739208,1370 3.02553} {0 tieucuc,94 3.331785,106 2.681426,135 3.132379,258 1.336943,289 0.889767,300 1.030378,356 1.259163,393 1.358949,508 0.742866,524 2.052355,636 1.294921,643 0.513328,772 2.520753,803 2.297849,828 1.609379,910 1.735755,952 2.851332,984 0.487413} 3.3.1.2 Huấn luyện phân lớp liệu Để đảm bảo số lượng tệp huấn luyện thử nghiệm, thử nghiệm này, thu thập tập đánh giá quan điểm khách hàng sản phẩm Samsung J7 Prime Tập liệu kích thước 1101 đánh giá lưu file txt phân loại thành 688 quan điểm tích cực (tichcuc) 413 quan điểm tiêu cực (tieucuc) Các file liệu nạp Weka sử dụng công cụ TextDirectoryLoader chuyển đổi tất file text thư mục tichcuc tieucuc thành file arff với hai class tương ứng tích cực (tichcuc) tiêu cực (tieucuc) Đồng thời công cụ StringToWordVector mô hình hóa văn thành vector từ, trọng số số TF*IDF từ Tiếp theo tiến hành tách tệp thu thành hai phần Training Test công cụ RemovePercentage Tỷ lệ hai phần thay đổi theo lần huấn luyện Tệp có 1476 thuộc tính sau tách từ loại bỏ stopword Mỗi quan điểm khách hàng biểu diễn dạng vector nhiều chiều tương ứng với 1476 thuộc tính từ Sử dụng tính SMO Weka để phân lớp liệu khách hàng 55 Hình 3.5 Giao diện huấn luyện Trong trình huấn luyện lưu ý thông số số lần kiểm tra chéo Folds, thông số nên đặt 10 Kết huấn luyện Hình 3.6 Kết huấn luyện 56 Sau training, chọn chức Supplied test set để thực testing liệu Dữ liệu testing phận tách từ tệp liệu gốc theo tỷ lệ khác Việc phân loại phản hồi khách hàng đánh giá theo nhiều tiêu chí độ nhạy (recall), độ xác (precision), độ xác phân loại chung tức phần trăm phản hồi phân loại không phụ thuộc vào phản hồi tích cực hay tiêu cực Tiến hành chạy thử nghiệm với kích thước tập huấn luyện tập kiểm tra khác nhau: Bảng 3.1 kết huấn luyện kiểm thử Tỷ lệ ý Lượt tập luyện Tập huấn kiến Tập Tỷ lệ Tỷ lệ Kết luyện Tích kiểm thử phân loại phân loại tệp (training) cực/ tiêu (test) sai test - cực Lần 100% 413/688 0% 72,4% 27.5% Lần 80% 303/578 20% 59,09% 40,9% Lần 50% 276/275 50% 99.3% 0.7% Tích cực Tích cực 3.3.2 Đánh giá kết Kết bước đầu cho thấy, tiến hành thay đổi kích thước tệp huấn luyện tệp kiểm thử thu kết tương đối xác lên đến 99% với trường hợp tệp huấn luyện/ kiểm thử tỷ lệ 50/50 Trường hợp tệp huấn luyện/ kiểm thử tỷ lệ 80/20 độ xác 59% Đối chiếu với tỷ lệ ý 57 kiến Tích cực/ tiêu cực ta thấy độ xác đảm bảo tỷ lệ lớp liệu xấp xỉ 50/50 Điều cho thấy thuật toán SVM phân lớp liệu cho kết khác xác lên đến 99% tệp huấn luyện đảm bảo tỷ lệ phân lớp 3.4 Kết luận chương Chương III trình bày mô hình khai phá ý kiến khách hàng dựa thuật toán SVM Đồng thời thu thập tệp liệu ý kiến phản hồi mẫu sử dụng phần mềm Weka xử lý tệp liệu, tiến hành huấn luyện kiểm thử Từ kết trình thử nghiệm cho đánh giá độ xác thuật toán SVM phân lớp liệu quan điểm khách hàng Trong chương này, em viết công cụ thu thập liệu phản hồi từ website tinhte.vn vnreview.vn sản phẩm J7 Prime, sau tiến hành chuẩn hóa liệu, loại bỏ tiền tố hậu tố, tách từ tiến hành thử nghiệm, thay đổi thông số trình huấn luyện kiểm tra 58 KẾT LUẬN VÀ ĐỀ NGHỊ Luận văn nghiên cứu tổng quan học máy sâu nghiên cứu thuật toán học máy SVM – phương pháp học máy có giám sát sử dụng phổ biến Trên sở đó, luận văn triển khai xây dựng mô hình ứng dụng SVM việc giải toán khai phá ý kiến người dùng website thương mại điện tử Cụ thể, luận văn đạt kết sau: - Nghiên cứu tổng quan học máy toán khai phá ý kiến phản hồi khách hàng ứng dụng lĩnh vực công nghệ thông tin - Trình bày sở thuật toán học máy SVM, dạng SVM ứng dụng SVM phân loại văn - Từ nghiên cứu xây dựng mô hình phân loại ý kiến phản hồi, sử dụng công cụ Weka đánh giá sản phẩm website thương mại điện tử dựa nhận xét người dùng internet bao gồm việc xây dựng mô hình, thử nghiệm mô hình, kết nhận xét kết Các kết nghiên cứu sử dụng làm sở cho việc xây dựng hệ thống phân loại phản hồi khách hàng website Hạn chế Trong phạm vi đề tài xây dựng mô hình kiểm nghiệm thử thuật toán SVM phân lớp quan điểm người dùng, chưa sâu vào nghiên cứu module thu thập liệu xử lý liệu ngôn ngữ Hướng phát triển Nghiên cứu hoàn thiện hệ thống với module thu thập liệu module xử lý liệu ngôn ngữ kết hợp với thuât toán SVM phân tích quan điểm người dùng, ứng dụng vào việc phân tích đánh giá sản phẩm website thương mại điện tử 59 TÀI LIỆU THAM KHẢO TRẦN NGỌC PHÚC (2012), PHÂN LOẠI NỘI DUNG TÀI LIỆU WEB, Luận văn Thạc sỹ, ĐH Đồng Nai https://vi.wikipedia.org/wiki/H%E1%BB%8Dc_m%C3%A1y http://en.wikipedia.org/wiki/Support_vector_machine ftp://ftp.cs.cornell.edu/pub/smart/english.stop http://www.stdio.vn/articles/read/436/gioi-thieu-ve-mo-hinh-svm Aixin Sun, Ee-Peng Lim, Wee-Keong Ng Sun (2002) Web classification using Support vector machine Proceedings of the 4th International Workshop on Web Information and Data Management, McLean, Virginia, USA, 2002 (ACM Press) Balaij Krishnapuuram, David Williams, Ya Xue,k Alex Hartemink, Lawrence Carin, Masrio A.T.Figueiredo (2005) On Semi-Supervised Classification NIPS:721-728, 2005 10 H-J.Oh, S.H.Myaeng, and M-H.Lee (2000) A practical hypertext categorization method using links and incrementally available class information Proc of the 28rd ACM SIGIR2000: 264-271, Athens, GR, 2000 11 Kristin P Bennett, Ayhan Demiriz (1998) Semi-Supervised Support Vector Machines NIPS 1998: 368-374 12 Linli Xu, Dale Schuurmans (2005) Unsupervised and Semi-Supervised Multi- Class Support Vector Machines AAAI 2005: 904-910 13 M Craven and S.Slattery (2001) Relational learning with statistical predicate 60 invention: Better models for hypertext Machine Learning, 43(1-2):97119,2001 14 Panu Erastox (2001) Support Vector Machines: Background and Practice Academic Dissertation for the Degree of Licentiate of Philosophy University of Helsinki, 2001 15 Paul Pavlidis, llan Wapinski, and William Stafford Noble (2004) Support vector machine classification on the web BIOINFORMATICS APPLICATION NOTE 20(4), 586-587 16 T Joachims (1999) Transductive Inference for Text Classification using Support Vector Machines International Conference on Machine Learning (ICML), 1999 17 T Joachims (2003) Transductive learning via spectral graph partitioning Proceeding of The Twentieth International Conference on Machine Learning (ICML2003): 290-297 18 V Sindhwani, S S Keerthi (2006) Large Scale Semi-supervised Linear SVMs SIGIR 2006 19 V Sindhwani, S.S Keerthi (2007) Newton Methods for Fast Solution of Semisupervised Linear SVMs Large Scale Kernel Machines, MIT Press, 2005 20 Xiaojin Zhu (2005) Semi-Supervised Learning with Graphs PhD thesis, Carnegie Mellon University, CMU-LTI-05-192, May 2005 21 Xiaojin Zhu (2006) Semi-Supervised Learning Literature Survey Computer Sciences TR 1530, University of Wisconsin – Madison, February 22, 2006 Xác nhận giáo viên hướng dẫn Học viên PGS.TS ĐOÀN VĂN BAN Nguyễn Thị Thoa ... giỏo dc Phõn lp bn l bi toỏn c bn khai phỏ quan im Cỏc h thng phõn lp bn l cỏc h thng phi cú kh nng xỏc nh, khai phỏ ni dung thụng tin Cú th coi phõn lp quan im l bi toỏn phõn lp bn theo hai lp... entropy v SVM s dng phng phỏp hc mỏy phõn lp quan im khỏch hng 2 II I TNG V PHM VI NGHIấN CU i tng nghiờn cu: Cỏc k thut phõn lp bn v ng dng phõn lp quan im khỏch hng a vo cỏc website TMT bỏn... cỳm gia cm, thy cm ti mt s tớnh phớa Bc va thuc v lnh vc y t liờn quan n lõy bnh sang ngi nhng cng thuc v lnh vc kinh t liờn quan n ngnh chn nuụi Trong nhng trng hp nh vy, vic sp xp mt ti liu