Rút trích đặc trưng là một trong số các công việc con của phântích cảm xúc đánh giá.. Tuy nhiên, có khá nhiều nhà nghiên cứu phát hiện ra rằngviệc hoàn toàn dùng phương pháp máy học khôn
Cowlw = —
Dong 1 và 2 trong giải thuật trên tính toán mối tương quan tat cả các cặp từ (w, w’) trong mỗi tập LR-set Ví dụ chúng ta có 4 tập hợp các từ liên quan, mối tương quan giữa từng cặp từ một trong mỗi tập trên được tính toán.
Dòng 3 và 4 tìm đặc trưng (hay chủ dé trong LDA) mà 2 từ w, w’ có xác suất cao nhất Trong đó @, là phân bố từ trong một đặc trưng (chủ dé).
Dòng 5 và 6 để w luôn có giá trị xác suất nhỏ hơn w’ (ty lệ sẽ nhỏ hơn 1).
Dong 7 tìm đặc trưng (chu đề) mà xác suất của w' đạt giá tri cực đại.
Dong 8 là tỉ lệ xác suất cực đại của 2 từ trong đặc trưng (chủ đề ) này (đặc trưng được tìm thấy ở dòng 7).
HVTH: Lê Hải Son Trang 30 Ý tưởng là tỷ lệ xác suất giữa 2 từ trong đặc trưng này sẽ là sẽ là một thước đo hữu hiệu cho mối liên hệ giữa chúng.
Mặc dù việc ước lượng mỗi tương quan là chưa thật sự hoàn hảo bởi vì tập phân phối đặc trưng chưa hoàn hảo từ LDA nhưng theo Chen và các đồng nghiệp [27] thì kết quả sẽ được cải thiện đáng kẻ Vì thé, GK-LDA được lựa chọn cho việc rút trích đặc trưng trong luận văn.
Cũng giống như LDA, kết quả của mô hình GK-LDA sẽ là các tập hợp của từ chỉ đặc trưng (chủ đề) Mô hình GK-LDA sẽ được xây dựng theo các bước sau: Gan nhãn một tập nhỏ dữ liệu, chuẩn bị dữ liệu huấn luyện, huấn luyện mô hình LDA Luận văn sẽ tập trung xử lý dữ liệu đánh giá về điện thoại và các đặc trưng được chọn như sau: {thiết kế, màn hình, cầu hình, giá, pm, máy ảnh}.
1 Gdn nhãn mot tap nhỏ dữ liêu:
Trong phương pháp máy học bán giám sát (GK-LDA được sử dụng trong trường hợp này) thì một lượng nhỏ dữ liệu được gán nhãn thủ công sẽ đóng vai trò định hướng giải thuật và giúp chúng có độ chuẩn xác cao hơn.
Tuy đây là công việc thủ công nhưng việc hạn chế tối đa tác động chủ quan của người gán nhãn lên tập huấn luyện cũng như các từ được gán nhãn có thé sẽ không thuộc vào tập từ vựng, việc liệt kê một số từ có khả năng dé gán nhãn là can thiết Phương pháp sử dung trong luận văn như sau:
Bước I1: Rút trích ngẫu nhiên 1500 đánh giá từ các nguồn khác nhau
(vnexpress.net, vatgia.com lazada.com) Từ các đánh giá trên, thông qua bước tiền xử lý dữ liệu và không qua bước tách các cụm từ, mỗi đánh giá sẽ bao gồm một tập các tokens (các từ ghép có nghĩa).
Bước 2: Từ các tập tokens trên, tính toán tần số lặp lại của các tokens và sắp xếp giảm dân số lần lặp lại trên và lấy top 200 từ có tần số xuất hiện cao nhất để làm tập từ cho việc gán nhãn thủ công.
Bước 3: Từ tập top 200 từ có tần suất xuất hiện cao nhất trên, gán nhãn thủ công 10 từ cho mỗi đặc trưng (có 7 đặc trưng được phân tích trong luận văn, tổng cộng 70 từ sẽ được gán nhãn).
HVTH: Lê Hải Son Trang 31 Ý tưởng của phương pháp trên là các từ có tần suất xuất hiện cao trong các bình luận sẽ có khả năng cao mô tả các đặc trưng và được rút trích làm tập từ điển cho việc gán nhãn các từ Người gán nhãn cũng ít bị ảnh hưởng bởi cảm xúc cá nhân và tập từ trên như tập gợi ích hoàn hảo cho các từ mô tả đặc trưng.
Sau bước này chúng ta có các tập huấn luyện như sau:
(thiết kế, đẹp, xấu, Sang_ trọng, kiểu dáng, to, nhỏ, hình thức, đẹp mắt, cá_ tính, thoi_trang}
(cấu hình, mạnh, chip, ram, hệ diéu hành, mượt, lõi, nhân, hiệu năng, ồn định, xử lý)
(náy ảnh, chụp, anh, hình, sáng, zoom, Camera, nét, flash, hình ảnh, quay_ phim)
(giá, rẻ, mua, tiền, đắt, phù hợp, giá_ cá, hop_ly, mắc, cạnh tranh, túi tiễn } {man_hinh, cảm ứng, nói, nhạy, HD, độ phân giải, sắc, muot, màu sắc, hiển_ thị, rực_ rỡ }
(pin, thời lượng, yếu, lâu, dung lượng, khỏe, sạc, rời, trâu, thời gian, hao}
(giải trí, chức năng, thương hiệu, bảo mật, chất lượng, phần mêm, nghe_ nhạc, tai nghe, cáp sạc, phiên bản)
2 Chuẩn bi dữ liêu huấn luyện:
Từ 1500 đánh giá đã được tokenize (các từ đơn kết hợp thành các từ ghép có nghĩa) sẽ là dữ liệu đầu vào cho mô hình GK-LDA.
HVTH: Lê Hải Son Trang 32
Hình 7 — Quá trình xây dựng mô hình GK-LDA
3 Kết quả mô hình GK-LDA:
Kết quả mô hình GK-LDA là tập các từ đã được gan nhãn đặc trưng, mỗi đặc trưng sẽ được lấy top 18 từ làm mô hình cho phân loại đặc trưng ở giai đoạn sau Kết quả mô hình như sau:
Aspect 1: pin, tot, Thời lượng, yếu, lâu, dung lượng, thời gian, dùng, rời, trâu, sạc, hao, su_dung, kém, hơi, khỏe, khá, hiệu năng
Aspect 2: dep, thiét_ké, sang_trong, kiểu dáng, nam tính, tỉnh tế, hình thức, bắt mắt, đẹp mắt, cá tính, trẻ trung, thời trang, đơn giản, riêng biệt, thanh_ mảnh, nước, vỏ, nhỏ
Aspect 3: giá, mua, tiên, rẻ, đất, phù hợp, hop_ly, giá_ cả, mắc, chấp nhận, canh_tranh, túi tiễn, tâm, múc, triệu, dang, smartphone, cao
Aspect 4: màn hình, cảm ứng, muot, nét, nhạy, HD, sáng, độ phân_ giải, sặc, mượt_ mà, full, màu_ sắc, ips, inch, hiên thị, mát độ, điêm ảnh, rực_rỡ
HVTH: Lê Hải Son Trang 33
Aspect 5: cấu hình, mạnh, chụp, chip, ram, hệ điều hành, mượt, lõi, nhân, hiệu năng, ồn định, xử lý, chậm, hình, nhanh, phần cứng, mạnh mẽ, vuot_trol
Aspect 6: Camera, chup, anh, hinh, màu sắc, chấp nhận, Sáng, zoom, máy ánh, nét, cao, nguoi, flash, Pureview, chẩm, hình ảnh, quay phữm, cấu hình
Aspect 7: giải trí, chức năng, thương hiệu bảo mật, chất lượng, phan_mém, mắc, nghe nhạc, tai nghe, đẹp, cáp sạc, phiên bán, mượt, phải, câm, nhìn, dùng, sự dụng
Các từ in đậm bên trên là các từ chưa được phân loại đúng vào các đặc trưng Đối với LDA, kết quả là các chủ đề ân và GK-LDA cũng tương tự như trên, kết quả là các đặc trưng an và chúng ta phải gan nhãn các đặc trưng an trên Như kết quả chúng ta có thé thay được các đặc trưng ân như sau:
Aspect 6: may_anh Aspect 7: khac