.4 vector hĩa dữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp quan điểm khách hàng và ứng dụng (Trang 56 - 60)

Khi apply dữ liệu ta thu được dữ liệu mới đã được vector hĩa, tệp dữ liệu lúc này cĩ cấu trúc như sau:

Phần thuộc tính attribute: @relation 'E__aa- weka.filters.unsupervised.attribute.StringToWordVector-R1-W1000-prune- rate-1.0-T-I-N0-stemmerweka.core.stemmers.NullStemmer-stopwords- handlerweka.core.stopwords.Null-M1- tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" \\r\\n\\t.,;:\\\'\\\"()?!\"-weka.filters.unsupervised.attribute.Remove-R2-16,18- 24-weka.filters.unsupervised.attribute.Remove-R32-34'

@attribute @@class@@ {tichcuc,tieucuc} @attribute Cu numeric

@attribute Cá_nhân numeric @attribute Các numeric @attribute Cái numeric

@attribute Cám_ơn numeric @attribute Cịn numeric @attribute Cĩ numeric @attribute Cĩ_vẻ numeric @attribute Cơng_nhận numeric @attribute Cũng numeric

@attribute Cảm_ơn numeric @attribute Cấu_hình numeric @attribute Cứ numeric

@attribute Dịng numeric @attribute Em numeric @attribute Exynos numeric @attribute F1s numeric @attribute FPT numeric @attribute Full numeric @attribute FullHD numeric @attribute Galaxy numeric @attribute Gia numeric @attribute Giá numeric @attribute Giơ numeric @attribute Giống numeric @attribute HD numeric @attribute Hay numeric @attribute Hihi numeric

@attribute Hiệu_năng numeric @attribute Home numeric @attribute Hàn_Quốc numeric

@attribute IPS numeric @attribute Ifan numeric @attribute J numeric @attribute J2 numeric @attribute J7 numeric @attribute Khi numeric @attribute Khơng numeric @attribute Ko numeric

@attribute Kết_luận numeric @attribute LCD numeric .........................................

Phần Vector hĩa các đoạn text theo n chiều (n là số attribute):

@data {0 tieucuc,86 1.255302,88 2.157181,214 1.909952,248 2.171473,289 0.889767,304 0.726513,330 1.994073,377 1.345661,424 1.880865,434 1.076413,459 1.669691,470 0.93435,544 0.867405,587 1.676728,643 0.513328,683 1.328332,781 2.26403,823 1.49705,915 1.132142,967 1.834944,984 0.487413,1011 2.474526,1067 3.893879,1233 3.331785} {13 1.919926,49 2.0403,125 1.843888,216 1.622335,227 2.231785,267 2.102788,289 0.889767,303 1.259163,304 0.726513,316 0.9846,339 1.161783,340 1.80028,362 2.143177,372 2.851332,385 1.919926,390 3.893879,418 2.370879,424 1.880865,434 1.076413,439 1.994073,456 1.940314,485 2.570285,513 2.744483,525 1.890426,528 2.26403,542 1.011161,544 0.867405,554 1.082388,570 1.390981,599 2.200973,603 1.444514,604 3.413426,617 1.332624,621 2.016802,635 2.390405,642 1.175374,643 0.513328,647 2.410498,659 1.808785,683 1.328332,689 3.132379,711 1.079394,731 1.919926,734 2.24772,735 2.813855,749

1.909952,751 3.02553,782 0.786498,792 1.29901,860 2.497255,876 4.093285,912 1.491614,915 1.132142,928 2.813855,941 3.612832,967 1.834944,984 0.487413,1012 1.524891,1267 3.739208,1370 3.02553} {0 tieucuc,94 3.331785,106 2.681426,135 3.132379,258 1.336943,289 0.889767,300 1.030378,356 1.259163,393 1.358949,508 0.742866,524 2.052355,636 1.294921,643 0.513328,772 2.520753,803 2.297849,828 1.609379,910 1.735755,952 2.851332,984 0.487413}

3.3.1.2 Huấn luyện và phân lớp dữ liệu

Để đảm bảo số lượng các tệp huấn luyện và thử nghiệm, trong thử nghiệm này, tơi thu thập một tập các đánh giá và quan điểm của khách hàng về sản phẩm Samsung J7 Prime. Tập dữ liệu kích thước 1101 đánh giá được lưu trên các file .txt và được phân loại thành 688 quan điểm tích cực (tichcuc) và 413 quan điểm tiêu cực (tieucuc).

Các file dữ liệu được nạp và Weka và sử dụng cơng cụ TextDirectoryLoader chuyển đổi tất cả file text trong thư mục tichcuc và tieucuc thành file .arff với hai class tương ứng là tích cực (tichcuc) và tiêu cực (tieucuc). Đồng thời cơng cụ StringToWordVector mơ hình hĩa mỗi văn bản thành 1 vector các từ, trong đĩ các trọng số là chỉ số TF*IDF của các từ.

Tiếp theo tiến hành tách tệp thu được thành hai phần là Training và Test bằng cơng cụ RemovePercentage. Tỷ lệ giữa hai phần này được thay đổi theo từng lần huấn luyện. Tệp cĩ 1476 thuộc tính sau khi tách từ loại bỏ các stopword. Mỗi quan điểm khách hàng được biểu diễn dưới dạng 1 vector nhiều chiều tương ứng với 1476 thuộc tính từ.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp quan điểm khách hàng và ứng dụng (Trang 56 - 60)

Tải bản đầy đủ (PDF)

(65 trang)