Yêu cầu phần cứng và phần mềm

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp quan điểm khách hàng và ứng dụng (Trang 49)

3.2.1 Cấu hình máy thực nghiệm

Hệ điều hành: Microsoft Windows 7 x64

Bộ xử lý: Intel(R) Core(TM) i3 CPU M460 @ 2.53GHz. Bộ nhớ Ram: 6.00 GB.

3.2.2 Cơng cụ và phần mềm sử dụng

Phần mềm thu thập dữ liệu từ website ngơn ngữ PHP sử dụng cơng nghệ Curl.

Trong mơ hình này sử dụng ứng dụng java vnTokenizer để tách từ.

Sử dụng phần mềm nguồn mở Weka để tiến hành xử lý và phân lớp dữ liệu. Weka là một là một phần mềm nguồn mở viết bằng Java để khai phá dữ liệu được phát triển bởi đại học University of Waikato, nước New Zealand.

Weka cho phép các giải thuật học mới phát triển cĩ thể tích hợp vào mơi trường của nĩ. Hệ thống được viết bằng Java. Nĩ chạy được hầu hết trên tất cả hệ điều hành.

Giao diện chính của Weka 3.8

(3.2)

(3.3) (3.4)

Hình 3.2 Giao diện Weka

3.3 Một số kết quả và đánh giá 3.3.1 Kết quả thử nghiệm

3.3.1.1 Chuẩn bị dữ liệu

Đầu vào dữ liệu là các tệp .text được sàng lọc và lưu trữ trong hai thư

mục tichcuc và tieucuc.

Nội dung của các text là các quan điểm đánh giá của khách hàng.

Ví dụ 1 đoạn text tích cực (tichcuc): “6 triệu khơng phải là số tiền nhỏ , bạn cĩ_thể lựa_chọn máy rất đẹp dù tính_năng khơng xuất_sắc như Sony_Xperia XA , máy đẹp selfie tốt như Oppo F1s , hay rất nhiều tùy chọn cấu_hình cao_giá rẻ từ những nhà_sản_xuất khác . Samsung hiện_tại đang bán một loạt các máy dịng J ở phân khúc này , thế_nhưng chúng khơng hề cĩ tỉ_lệ hiệu_năng trên giá tốt như J7 Prime . Cĩ_vẻ như nhà_sản_xuất Hàn_Quốc quyết_tâm thay_đổi điều đĩ , Galaxy J7 Prime cĩ màn_hình FullHD , cĩ pin rất lớn và camera được cải_tiến mạnh so với thế_hệ trước .

Đây là những đặc_điểm chúng_ta cần quan_tâm về Galaxy J7 Prime : Thiết_kế : kim_loại , ấn_tượng và mượt_mà hơn

Nếu bạn mua J7 Prime , hãy mua màu đen . Màu đen là màu làm nổi_bật mặt kính cong 2.5D nhất , nĩ làm cho J7 Prime lơi cuối và hấp_dẫn hơn hẳn .

Các phiên_bản khác lại khơng được trơn_tru và liền mạch ở mặt trước như_vậy , bị cắt khá nhiều .

Mặt trước J7 Prime màu đen rất đẹp nhưng mặt sau thì hơi chán , khơng cĩ cá_tính và buồn_tẻ . Sử_dụng vỏ kim_loại kết_hợp với kính ở mặt trước , J7 Prime vẫn cho một_chút gì đĩ ấn_tượng , một_chút gì đĩ hơi cao_cấp nhưng sẽ tốt hơn nếu Samsung thiết_kế mặt sau hịa_hợp với mặt trước .

Màn_hình : gĩc nhìn rộng , tấm nền PLS_LCD

Khi mới ra_mắt Samsung bị chê khá nhiều vì họ cơng_bố J7 Prime sử_dụng màn_hình TFT_LCD truyền_thống . Tuy_vậy , thực_chất thì J7 Prime sử_dụng tấm nền PLS_LCD , một cơng_nghệ cũng dựa trên TFT tương_tự như IPS . PLS từng được ứng_dụng trên những sản_phẩm trước_kia . Ưu_điểm của PLS cũng gần giống IPS , tức gĩc nhìn rất rộng , bạn cĩ_thể xoay ngang_dọc nhưng máy vẫn khơng bị suy_giảm nhiều về gĩc hình . Tuy_vậy , cũng_như IPS vốn phụ_thuộc nhiều vào cơng_nghệ chế_tạo , rõ_ràng là Samsung khơng ứng_dụng tấm nền PLS xịn nhất vào J7 Prime , màu_sắc tốt nhưng hơi nhạt một_chút và cũng cĩ xu_hướng bị lệch màu . Dù_vậy , mình cĩ_thể khẳng_định với các bạn là màn_hình là điểm mạnh của thiết_bị này trong tầm giá của nĩ . Bên_cạnh cơng_nghệ chế_tạo thì độ_phân_giải cũng là một điểm quan_trọng của J7 Prime . Sản_phẩm Samsung dùng màn_hình FullHD thay cho 720p của đại_đa_số đối_thủ cùng phân khúc . Cá_nhân mình vẫn thấy được các điểm_ảnh bị vỡ khi nhìn gần , đặc_biệt là ở những dịng chữ ngồi biểu_tượng chương_trình nhưng cĩ_lẽ khơng phải ai cũng khĩ_tính như_vậy .

Camera : chất_lượng tốt , lấy nét đêm hơi chậm

Camera_Galaxy J7 Prime cho hiệu_năng rất ổn khi chụp ban_ngày , nĩ lấy nét đủ nhanh và độ chi_tiết đủ tốt . Khi đêm đến , ống_kính f 1.9 phát_huy tác_dụng giúp máy bắt sáng tốt hơn . Trong những tấm ảnh dưới , bạn nhìn

hình vậy thơi nhưng chúng đều được chụp trong điều_kiện ánh_sáng rất yếu , J7 Prime vẫn phản_ứng tốt và cho ảnh chất_lượng trong tầm giá .

Vậy nhược_điểm camera sau chiếc điện_thoại này là gì , đĩ là việc máy lấy nét khơng được nhanh và gặp hơi nhiều khĩ_khăn khi chụp tối . Một đặc_điểm khơng hề xa_lạ ở những điện_thoại tầm giá này . Cĩ_vẻ như Samsung khơng trang_bị khả_năng lấy nét theo pha vốn phát_huy ưu_thế trong mơi_trường ánh_sáng yếu mà dựa tồn_bộ vào lấy nét theo độ tương_phản . Bọn mình sẽ thử kỹ hơn về camera J7 Prime sau .

Về phần camera trước , cảm 8MP với khẩu_độ f 1.9 cho_phép chúng_ta tự sướng tốt hơn . Mình ghét selfie , thử_nghiệm sơ_bộ thì hình_ảnh từ camera trước của máy ổn , cĩ_vẻ hình_ảnh cũng lung_linh . Bữa sau thì chúng_ta so_sánh trực_tiếp với thánh selfie Oppo F1s xem sao .

Xem thêm ảnh từ camera J7 Prime tại đây

Hiệu_năng : ổn trong tầm giá chính hãng , RAM và ROM là lợi_thế Sử_dụng chip Exynos 7870 với 8 nhân Cortex A53 hoạt_động ở xung nhịp 1.6GHz , con chip tương_tự với Galaxy J7 2016 nên bạn sẽ khơng_thể mong_đợi một cải_tiến đột_phá về hiệu_năng trên J7 Prime . Tuy_nhiên , máy cĩ 3GB RAM nên đa_nhiệm cĩ_vẻ trơn_tru và mượt_mà hơn . Thử_nghiệm chạy một_số game nặng hay chuyển_đổi giữa các chương_trình cho thấy J7 Prime khá tương_đương J7 2016 .

Trong lần xuất_hiện này thì Samsung cũng trang_bị 3GB RAM và bộ_nhớ_trong 32GB trên J7 Prime , tốt hơn hẳn so với 2GB RAM 16GB RAM của J7 2016 . Chỉ riêng phần này thơi đã xứng đã cho chênh_lệch 500 ngàn giữa 2 máy .

Pin : dung_lượng cao , thực_tế cịn chưa biết

Galaxy J7 Prime dùng viên pin 3300mAh , khá tốt với một máy phổ_thơng 5.5 ” . So với các sản_phẩm khác thì pin của máy lớn hơn nhưng

màn_hình FullHD cĩ_thể là một gánh nặng . Bọn mình sẽ test pin chi_tiết sau nhé , nhưng cĩ_vẻ pin cũng thuộc loại trâu chứ khơng quá kém .

Bên trong thì Samsung tặng sạc 5V 1.55A , khơng quá nhanh nhưng chấp_nhận được . Nếu họ tặng 5V 2A thì sẽ vui hơn .

Kết_luận :

Mang_tiếng là J7 Prime nhưng cá_nhân mình thấy chiếc máy này khơng liên_quan đến dịng J lắm . Tên mã của Galaxy J7 2016 là J710 trong khi J7 Prime là G610 , một tên mã rất lạ cĩ liên qua nhiều đến dịng On7 ( tên mã G600 ) hơn . Cĩ_vẻ như Samsung đã đổi tên nĩ để dễ bán ở Việt_Nam hơn vì dịng On gần_như khơng xuất_hiện nhiều ở nước ta , trừ “ một_vài thiết_bị đi lạc ” do các nhà_bán_lẻ tự nhập về .

Với những thay_đổi lớn về màn_hình và đặc_biệt là pin cộng với những dịch_vụ của Samsung thì rõ_ràng Galaxy J7 Prime khơng hề tỏ ra thua_kém so với các đối_thủ chính trong phân khúc 6 triệu của nĩ . Samsung khá tự_tin khi đặt giá J7 Prime cao hơn 300.000 đồng khi so_sánh với đối_thủ trực_tiếp Oppo F1s và đối_thủ về danh_tiếng Sony_Xperia XA , những chiếc điện_thoại cực_kỳ phổ_biến với người phổ_thơng .

Bọn mình sẽ sớm thực_hiện những bài so_sánh chi_tiết Galaxy J7 Prime với những đối_thủ của nĩ . Dự_kiến J7 Prime sẽ chính_thức bán ra_vào ngày_mai .

Cảm_ơn FPTShop đã cho mình mượn máy để review .”

Ví dụ 1 đoạn text tiêu cực (tieucuc): “Hơm_qua cĩ dịp sài em nĩ 1 tiếng nhận_xét sau :

ưu_điểm :

- Thiết_kế cầm ơm tay , nhơm mát_lạnh . - Trọng_lượng nhẹ cầm ko mỏi tay .

- Máy chạy mượt_mà , màn_hình trắng_trong ko ám vàng như Super_Amoled . - Bộ_nhớ lớn 32gb ngon . Nhượt điểm : - Khơng cĩ NFC - Khơng cĩ sạc nhanh .

- Khơng cĩ đèn ở phím Back , đa_nhiệm

- Khơng cĩ mic chống ồn thứ 2 ( chỉ cĩ 1 míc ở đáy máy )

- Màn_hình gĩc nhìn hẹp , nghiên 1 cái là nhìn giảm đi đáng_kể . - Màn_hình TFT nên thua_kém S.Amoled .

- Pin tụt hơi nhanh , chưa tới 2p lướt web đã tụt 1% pin .

Tĩm_lại : Nếu_Mình thì sẽ mua Galaxy A7 2016 hàng đổi trả thay_vì em này . Thực_sự cĩ rất nhiều vấn_đề khi cầm em nĩ khơng ưng lắm . Trong tầm giá 5,5 tr ( sau khi trừ khuyên mãi ) thì em nĩ cũng bình_thường thơi , ko cĩ gì đặt biệt . Camera trước tung lên 8MP nhưng thua xa cam trên A7 2016 .”

Chuyển đổi dữ liệu sang định dạng .arff

Sử dụng chức năng TextDirectoryLoader trong menu Simple CLI trong cơng cụ weka 3.8. với cú pháp:

java weka.core.converters.TextDirectoryLoader -dir "E:\aa" > "C:\ datavn.arff"

Hình 3.3 Chuyển đổi dữ liệu sang .arff

Sau khi chuyển ta được dữ liệu cĩ định dạng như sau:

@relation D__adc @attribute text string

@attribute @@class@@ {tieucuc,tichcuc}

Mỗi bản ghi bao gồm 2 thuộc tính văn bản và phân lớp của văn bản đĩ (tieucuc, tichcuc).

SVM là thuật tốn phân lớp dữ liệu bằng vector, vì vậy tiếp theo là thao tác vector hĩa dữ liệu đã thu được bằng chức năng filter => StringToWordVector trong menu Explore.

Hình 3.4 vector hĩa dữ liệu

Khi apply dữ liệu ta thu được dữ liệu mới đã được vector hĩa, tệp dữ liệu lúc này cĩ cấu trúc như sau:

Phần thuộc tính attribute: @relation 'E__aa- weka.filters.unsupervised.attribute.StringToWordVector-R1-W1000-prune- rate-1.0-T-I-N0-stemmerweka.core.stemmers.NullStemmer-stopwords- handlerweka.core.stopwords.Null-M1- tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" \\r\\n\\t.,;:\\\'\\\"()?!\"-weka.filters.unsupervised.attribute.Remove-R2-16,18- 24-weka.filters.unsupervised.attribute.Remove-R32-34'

@attribute @@class@@ {tichcuc,tieucuc} @attribute Cu numeric

@attribute Cá_nhân numeric @attribute Các numeric @attribute Cái numeric

@attribute Cám_ơn numeric @attribute Cịn numeric @attribute Cĩ numeric @attribute Cĩ_vẻ numeric @attribute Cơng_nhận numeric @attribute Cũng numeric

@attribute Cảm_ơn numeric @attribute Cấu_hình numeric @attribute Cứ numeric

@attribute Dịng numeric @attribute Em numeric @attribute Exynos numeric @attribute F1s numeric @attribute FPT numeric @attribute Full numeric @attribute FullHD numeric @attribute Galaxy numeric @attribute Gia numeric @attribute Giá numeric @attribute Giơ numeric @attribute Giống numeric @attribute HD numeric @attribute Hay numeric @attribute Hihi numeric

@attribute Hiệu_năng numeric @attribute Home numeric @attribute Hàn_Quốc numeric

@attribute IPS numeric @attribute Ifan numeric @attribute J numeric @attribute J2 numeric @attribute J7 numeric @attribute Khi numeric @attribute Khơng numeric @attribute Ko numeric

@attribute Kết_luận numeric @attribute LCD numeric ...

Phần Vector hĩa các đoạn text theo n chiều (n là số attribute):

@data {0 tieucuc,86 1.255302,88 2.157181,214 1.909952,248 2.171473,289 0.889767,304 0.726513,330 1.994073,377 1.345661,424 1.880865,434 1.076413,459 1.669691,470 0.93435,544 0.867405,587 1.676728,643 0.513328,683 1.328332,781 2.26403,823 1.49705,915 1.132142,967 1.834944,984 0.487413,1011 2.474526,1067 3.893879,1233 3.331785} {13 1.919926,49 2.0403,125 1.843888,216 1.622335,227 2.231785,267 2.102788,289 0.889767,303 1.259163,304 0.726513,316 0.9846,339 1.161783,340 1.80028,362 2.143177,372 2.851332,385 1.919926,390 3.893879,418 2.370879,424 1.880865,434 1.076413,439 1.994073,456 1.940314,485 2.570285,513 2.744483,525 1.890426,528 2.26403,542 1.011161,544 0.867405,554 1.082388,570 1.390981,599 2.200973,603 1.444514,604 3.413426,617 1.332624,621 2.016802,635 2.390405,642 1.175374,643 0.513328,647 2.410498,659 1.808785,683 1.328332,689 3.132379,711 1.079394,731 1.919926,734 2.24772,735 2.813855,749

1.909952,751 3.02553,782 0.786498,792 1.29901,860 2.497255,876 4.093285,912 1.491614,915 1.132142,928 2.813855,941 3.612832,967 1.834944,984 0.487413,1012 1.524891,1267 3.739208,1370 3.02553} {0 tieucuc,94 3.331785,106 2.681426,135 3.132379,258 1.336943,289 0.889767,300 1.030378,356 1.259163,393 1.358949,508 0.742866,524 2.052355,636 1.294921,643 0.513328,772 2.520753,803 2.297849,828 1.609379,910 1.735755,952 2.851332,984 0.487413}

3.3.1.2 Huấn luyện và phân lớp dữ liệu

Để đảm bảo số lượng các tệp huấn luyện và thử nghiệm, trong thử nghiệm này, tơi thu thập một tập các đánh giá và quan điểm của khách hàng về sản phẩm Samsung J7 Prime. Tập dữ liệu kích thước 1101 đánh giá được lưu trên các file .txt và được phân loại thành 688 quan điểm tích cực (tichcuc) và 413 quan điểm tiêu cực (tieucuc).

Các file dữ liệu được nạp và Weka và sử dụng cơng cụ TextDirectoryLoader chuyển đổi tất cả file text trong thư mục tichcuc và tieucuc thành file .arff với hai class tương ứng là tích cực (tichcuc) và tiêu cực (tieucuc). Đồng thời cơng cụ StringToWordVector mơ hình hĩa mỗi văn bản thành 1 vector các từ, trong đĩ các trọng số là chỉ số TF*IDF của các từ.

Tiếp theo tiến hành tách tệp thu được thành hai phần là Training và Test bằng cơng cụ RemovePercentage. Tỷ lệ giữa hai phần này được thay đổi theo từng lần huấn luyện. Tệp cĩ 1476 thuộc tính sau khi tách từ loại bỏ các stopword. Mỗi quan điểm khách hàng được biểu diễn dưới dạng 1 vector nhiều chiều tương ứng với 1476 thuộc tính từ.

Hình 3.5 Giao diện huấn luyện

Trong quá trình huấn luyện lưu ý thơng số về số lần kiểm tra chéo Folds, thơng số này nên đặt là 10.

Kết quả huấn luyện

Sau khi training, chọn chức năng Supplied test set để thực hiện testing dữ liệu. Dữ liệu testing là một bộ phận tách ra từ tệp dữ liệu gốc theo các tỷ lệ khác nhau.

Việc phân loại phản hồi khách hàng được đánh giá theo nhiều tiêu chí như độ nhạy (recall), độ chính xác (precision), và độ chính xác phân loại chung tức là phần trăm phản hồi được phân loại đúng khơng phụ thuộc vào đĩ là phản hồi tích cực hay tiêu cực. Tiến hành chạy thử nghiệm với kích thước tập huấn luyện và tập kiểm tra khác nhau:

Bảng 3.1 kết quả huấn luyện và kiểm thử

Lượt tập luyện Tập huấn luyện (training) Tỷ lệ ý kiến Tích cực/ tiêu cực Tập kiểm thử (test) Tỷ lệ phân loại đúng Tỷ lệ phân loại sai Kết quả tệp test Lần 1 100% 413/688 0% 72,4% 27.5% - Lần 2 80% 303/578 20% 59,09% 40,9% Tích cực Lần 3 50% 276/275 50% 99.3% 0.7% Tích cực 3.3.2 Đánh giá kết quả

Kết quả bước đầu cho thấy, khi tiến hành thay đổi kích thước tệp huấn luyện và tệp kiểm thử thì thu được các kết quả tương đối chính xác lên đến 99% với trường hợp tệp huấn luyện/ kiểm thử tỷ lệ 50/50. Trường hợp tệp huấn luyện/ kiểm thử tỷ lệ 80/20 thì độ chính xác chỉ là 59%. Đối chiếu với tỷ lệ ý

kiến Tích cực/ tiêu cực ta thấy độ chính xác được đảm bảo khi tỷ lệ các lớp dữ liệu xấp xỉ bằng 50/50.

Điều này cho thấy thuật tốn SVM phân lớp dữ liệu cho kết quả khác chính xác lên đến trên 99% khi tệp huấn luyện đảm bảo tỷ lệ giữa các phân lớp bằng 1.

3.4 Kết luận chương 3

Chương III đã trình bày mơ hình khai phá ý kiến khách hàng dựa trên thuật tốn SVM. Đồng thời thu thập tệp dữ liệu ý kiến phản hồi mẫu và sử dụng phần mềm Weka xử lý tệp dữ liệu, tiến hành huấn luyện và kiểm thử. Từ kết quả quá trình thử nghiệm cho ra những đánh giá về độ chính xác của thuật tốn SVM trong phân lớp dữ liệu quan điểm khách hàng.

Trong chương này, em đã viết cơng cụ thu thập dữ liệu phản hồi từ website tinhte.vn và vnreview.vn về sản phẩm J7 Prime, sau đĩ tiến hành chuẩn hĩa dữ liệu, loại bỏ tiền tố và hậu tố, tách từ và tiến hành các thử nghiệm, thay đổi các thơng số trong quá trình huấn luyện và kiểm tra.

KẾT LUẬN VÀ ĐỀ NGHỊ

Luận văn nghiên cứu tổng quan về học máy và đi sâu nghiên cứu thuật tốn học máy SVM – một phương pháp học máy cĩ giám sát được sử dụng khá phổ biến. Trên cơ sở đĩ, luận văn triển khai xây dựng mơ hình ứng dụng SVM trong việc giải quyết bài tốn khai phá ý kiến người dùng trên website thương mại điện tử. Cụ thể, luận văn đã đạt được các kết quả sau:

- Nghiên cứu tổng quan học máy và bài tốn khai phá ý kiến phản hồi khách hàng và ứng dụng của nĩ trong các lĩnh vực cơng nghệ thơng tin

- Trình bày cơ sở thuật tốn học máy SVM, các dạng SVM và ứng dụng của SVM trong phân loại văn bản.

- Từ các nghiên cứu trên xây dựng mơ hình phân loại ý kiến phản hồi, sử dụng bộ cơng cụ Weka đánh giá sản phẩm trên các website thương mại điện tử dựa trên nhận xét của người dùng trên internet bao gồm việc xây dựng mơ hình, thử nghiệm mơ hình, kết quả và nhận xét kết quả.

Các kết quả nghiên cứu trên cĩ thể sử dụng làm cơ sở cho việc xây dựng những hệ thống phân loại phản hồi của khách hàng trên website.

Hạn chế

Trong phạm vi đề tài chỉ xây dựng mơ hình và kiểm nghiệm thử thuật tốn SVM phân lớp quan điểm người dùng, chưa đi sâu vào nghiên cứu module thu thập dữ liệu và xử lý dữ liệu ngơn ngữ.

Hướng phát triển

Nghiên cứu hồn thiện hệ thống với module thu thập dữ liệu và module xử lý dữ liệu ngơn ngữ kết hợp với thuât tốn SVM phân tích quan điểm người dùng, ứng dụng vào việc phân tích đánh giá sản phẩm trên các website thương mại điện tử.

TÀI LIỆU THAM KHẢO

1. TRẦN NGỌC PHÚC (2012), PHÂN LOẠI NỘI DUNG TÀI LIỆU WEB, Luận văn Thạc sỹ, ĐH Đồng Nai.

2. https://vi.wikipedia.org/wiki/H%E1%BB%8Dc_m%C3%A1y 3. http://en.wikipedia.org/wiki/Support_vector_machine

4. ftp://ftp.cs.cornell.edu/pub/smart/english.stop

5. http://www.stdio.vn/articles/read/436/gioi-thieu-ve-mo-hinh-svm

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp quan điểm khách hàng và ứng dụng (Trang 49)

Tải bản đầy đủ (PDF)

(65 trang)