Bài tốn phân lớp quan điểm

Một phần của tài liệu TÌM HIỂU PHƯƠNG PHÁP TRÍCH VÀ SẮP XẾP CÁC ĐẶC TRƯNG THỂ HIỆN QUAN ĐIỂM (Trang 28)

3. Cho điểm của cán bộ hướng dẫn:

1.5. Bài tốn phân lớp quan điểm

Phân lớp là quá trình "nhĩm” các đối tượng "giống” nhau vào "một lớp” dựa trên các đặc trưng dữ liệu của chúng. Tuy nhiên, phân lớp là một hoạt động tiềm ẩn trong tư duy con người khi nhận dạng thế giới thực, đĩng vai trị quan trọng làm cơ sở đưa ra các dự báo, các quyết định. Phân lớp và cách mơ tả các lớp giúp cho tri thức được định dạng và lưu trữ trong đĩ

Khi nghiên cứu một đối tượng, hiện tượng, chúng ta chỉ cĩ thể dựa vào một số hữu hạn các đặc trưng của chúng. Nĩi cách khác, ta chỉ xem xét biểu diễn của đối tượng, hiện tượng trong một khơng gian hữu hạn chiều, mỗi chiểu ứng với một đặc trưng được lựa chọn. Khi đĩ, phân lớp dữ liệu trở thành phân hoạch tập dữ liệu thành các tập con theo một tiêu chuẩn nhận dạng được.

Nhiệm vụ phân lớ p quan điểm đươ ̣c xem xét với hai tiếp câ ̣n chính là: Phân lớp câu chứa quan điểm

Phân lớp tài liê ̣u chứa quan điểm.

Phân lớp câu/tài liệu chứa quan điểm có thể đươ ̣c phát biểu như sau: Cho mơ ̣t câu hay mơ ̣t tài liê ̣u chứa quan điểm, hãy phân loa ̣i xem câu hay tài liê ̣u đó thể hiê ̣n quan điểm mang xu hướng tích cực(positive) hay tiêu cực (negative), hoặc trung lâ ̣p (neutral).

Theo Bo Pang và Lillian Lee (2002) phân lớp câu/tài liệu chỉ quan điểm khơng cĩ sự nhận biết của mỗi từ/ cụm từ chỉ quan điểm. Họ sử dụng học máy cĩ giám sát để phân loại những nhận xét về phim ảnh. Khơng cần

Nguyễn Tiến Dũng CTL801 29

phải phân lớp các từ hay cụm từ chỉ quan điểm, họ rút ra những đặc điểm khác nhau của các quan điểm và sử dụng thuật tốn Nạve Bayes (NB), Maximum Entropy (ME) và Support Vector Machine (SVM) để phân lớp quan điểm. Phương pháp này đạt độ chính xác từ 78, 7% đến 82, 9%.

Input: Cho mơ ̣t tâ ̣p các văn bản chứa các ý kiến đánh giá về mơ ̣t đới tươ ̣ng nào đó.

Output: Mỡi văn bản được chia vào mơ ̣t lớp theo mức đơ ̣ phân cực (polarity) về tiếp cận ngữ nghĩa nào đĩ (tích cực, tiêu cực hay trung lâ ̣p).

Phân lớp tài liệu theo hướng quan điểm thật sự là vấn đề thách thức và khĩ khăn trong lĩnh vự xử lý ngơn ngữ đĩ chính là bản chất phức tạp của ngơn ngữ của con người, đặc biệt là sự đa nghĩa và nhập nhằng nghĩa của ngơn ngữ. Sự nhập nhằng này rõ ràng sẽ ảnh hưởng đến độ chính xác bộ phân lớp của chúng ta một mức độ nhất định. Một khía cạnh thách thức của vấn đề này dường như là phân biệt nĩ với việc phân loại chủ đề theo truyền thống đĩ là trong khi những chủ đề này được nhận dạng bởi những từ khĩa đứng một mình, quan điểm cĩ thể diễn tả một cách tinh tế hơn. Ví dụ câu sau: “Làm thế nào để ai đĩ cĩ thể ngồi xem hết bộ phim này ?”khơng chứa ý cĩ nghĩa duy nhất mà rõ ràng là nghĩa tiêu cực. Theo đĩ, quan điểm dường như địi hỏi sự hiểu biết nhiều hơn, tinh tế hơn

Phân cực quan điểm và mức độ phân cực Mức đơ ̣ phân cực: positive/negative/neutral

Nhâ ̣n xét về sản phẩm, di ̣ch vu ̣: Like/ dislike/ So so Nhâ ̣n xét về phim ảnh thumbs up/ thumbs down

Nhâ ̣n xét về quan điểm chính tri ̣: like to win/ unlike to win Liberal/conservative

Phân loa ̣i bài báo là good new/ bad new.

Các bài toán liên quan đến phân lớp phân cực quan điểm:

Xác đi ̣nh sự phân cực của văn bản (tài liê ̣u/câu) chứa quan điểm: tích cực, tiêu cực hay trung tính.

Nguyễn Tiến Dũng CTL801 30

VD: Thơng qua nhâ ̣n xét: “This laptop is great”.

Xác đi ̣nh mơ ̣t đoa ̣n thơng tin “khách quan” là tớt hoă ̣c xấu =>thách thức liên quan đến phân tích quan điểm.

VD: “The stock prise rose”

Phân biê ̣t giữa câu “chủ quan”và “khách quan”

Rating inference (ordinal regression): Sắp xếp các quan điểm theo nhiều mức:

Sắp xếp các đánh giá từ theo nhiều mức: VD: 1 sao đến 5 sao. Hay theo mức đơ ̣ phân cực: rất thích, thích, bình thường, khơng thích,…

Khi phân loa ̣i vào 3 lớp: positive, negative, neutral: neutral đươ ̣c coi là giá tri ̣ trung bình giữa positive và negative.

Nhãn “neutral”: mơ ̣t sớ đươ ̣c sử du ̣ng như là lớp khách quan(thiếu quan điểm).

Theo Cabral và Hortacsu, 2006: nhãn neutral có thể gần negative hơn vì con người có xu hướng phản ứng ma ̣nh với nhâ ̣n xét negative: 40% so với nhâ ̣n xét neutral là 10%.

Nhiệm vụ của bài tốn phân lớp quan điểm

Bài tốn phân lớp quan điểm được biết đến như là bài tốn phân lớp tài liệu với mục tiêu là phân loại các tài liệu theo định hướng quan điểm.

Đã cĩ rất nhiều tiếp cận khác nhau được nghiên cứu để giải quyết cho loại bài tốn này. Để thực hiện, về cơ bản cĩ thể chia thành hai nhiệm vụ chính như sau:

Trích các đặc trưng nhằm khai thác các thơng tin chỉ quan điểm để phục vụ mục đích phân loại tài liệu theo định hướng ngữ nghĩa.

Nguyễn Tiến Dũng CTL801 31

CHƯƠNG 2: PHƯƠNG PHÁP XẾP HẠNG CÁC ĐẶC TRƯNG SẢN PHẨM CHO XẾP HẠNG CÁC

SẢN PHẨM 2.1. Giới thiệu

Một nhiệm vụ khác của khai thác quan điểm nhằm mục đích tĩm tắt nội dung các ý kiến cho một thương hiệu, một sản phẩm hoặc một nhà sản xuất cụ thể nào đĩ. Tuy nhiên, mong muốn thực tế của người dùng thường là được thực hiện theo từng cấp độ, được hỗ trợ tạo ra các xếp hạng hạng tương ứng với nhu cầu cụ thể. Ví dụ như theo một số tiêu chí là đặc trưng của sản phẩm được quan tâm.

Mặt khác, câu hỏi làm thế nào để biết được sản phẩm nào được đánh giá tốt, các tính năng (đặc trưng) của sản phẩm nào đang được người dùng quan tâm nhiều hơn và mang yếu tố sống cịn cho sản phẩm cũng thường được đặt ra.

Wiltrud Kessler và các cộng sự đã giới thiệu phương pháp để xếp hạng các sản phẩm dựa trên các thơng tin cảm xúc và các bước để thực hiện nhiệm vụ này. Họ xây dựng phương pháp để đưa ra một danh sách xếp hạng các sản phẩm và đưa ra giả thuyết rằng một thứ hạng như vậy sẽ cĩ ích hơn cho người dùng khi họ cần lựa chọn một sản phẩm dựa trên nhu cầu cụ thể hơn so với giá trị cố định.

Cĩ hai điều kiện tiên quyết chính để cĩ thể đạt được mục tiêu đĩ: Thứ nhất là cần cĩ chuẩn vàng thơng tin xếp hạng, dựa vào đĩ như là nền tảng để đánh giá. Các xếp hạng này cĩ thể bổ sung để sử dụng tối ưu hĩa định hướng dữ liệu của phương pháp để tự động tạo ra các xếp hạng này dựa trên cấu trúc hoặc thơng tin nhận xét dạng văn bản.

Trong tiếp cận này, họ sử dụng hai tiêu chuẩn vàng bên đĩ là xếp hạng bán hàng của Amazon.com và xếp hạng đánh giá cho các đặc trưng sản phẩm của Snapsort.com.

Nguyễn Tiến Dũng CTL801 32

Thứ hai là các tiếp cận khác nhau để sử dụng các phương pháp khai phá quan điểm để tạo ra các thứ hạng cho các sản phẩm. Họ tập trung vào các phương pháp làm mịn dần với sự kết hợp thể hiện quan điểm của từng đặc trưng khác nhau. Họ tạo ra bảng xếp hạng với từng đặc trưng cụ thể với những đánh giá cho đặc trưng đĩ của sản phẩm. Việc kết hợp các xếp hạng cho từng đặc trưng sẽ cho chúng ta xếp hạng của sản phẩm đĩ. Các xếp hạng đặc trưng cĩ thể được sử dụng để xác định ảnh hưởng của một đặc trưng trên bảng xếp hạng tổng thể.

Cơng trình đã mang lại các đĩng gĩp sau:

Thảo luận về nhiệm vụ của dự đốn xếp hạng đầy đủ cảu các sản phẩm bên cạnh dự đốn riêng biệt của các bình chọn.

Chứng minh làm thế nào phương pháp khai phá quan điểm dựa trên so sánh và hướng mục tiêu cĩ thể được sử dụng cho dự đốn các thứ hạng sản phẩm. Họ sử dụng dữ liệu thực tế cho các xếp hạng, sử dụng thơng tin xếp hạng bán hàng từ Amazon.com và xếp hạng chất lượng từ Snapsort.com.

Chỉ ra rằng phương pháp khai thác quan điểm bằng cách làm mịn dần (xếp hạng các đặc trưng trước) đạt được hiệu suất đáng kể trong việc dự đốn các thứ hạng từ thơng tin văn bản.

Giới thiệu các xếp hạng đặc trưng cho phép hiểu được tác động của từng khía cạnh cho các xếp hạng chung của sản phẩm.

2.2. Định hướng xếp hạng dựa trên đặc trưng của các sản phẩm

Phần lớn các cách tiếp cận khai thác quan điểm thực hiện trích các đánh giá của các sản phẩm và các đặc trưng để làm kết quả của quá trình phân tích. Đây chính là quá trình giải thích cho người dùng cuối các thứ hạng cho các đặc trưng khác nhau. Tuy nhiên, các giả định cơ bản là người dùng cuối này cĩ thể kết hợp thơng tin này theo một cách nào đĩ để đưa ra các quyết định riêng. Tính tiện ích của thơng tin từ các hệ thống khai thác quan điểm rõ ràng là tùy thuộc vào các trường hợp sử dụng cụ thể và nhu cầu chủ quan. Do đĩ, các đặc trưng quan trọng của một thứ hạng của các sản phẩm chính là:

Nguyễn Tiến Dũng CTL801 33

Việc xếp hạng hỗ trợ các nhu cầu cụ thể của một cá nhân hay của một nhiệm vụ đầu/cuối.

• Việc xếp hạng cĩ thể hồn tồn chủ quan hoặc nửa chủ quan.

• Một người sử dụng cĩ thể bị ảnh hưởng bởi những yếu tố tác động đến sở thích dù cĩ thứ hạng hay khơng.

Một ví dụ của một thứ hạng là nĩ đã cĩ sẵn từ cấu trúc siêu dữ liệu chính là bảng xếp hạng của một chủng loại sản phẩm từ một cửa hàng bán hàng trực tuyến (trong cơng việc này, là các thứ hạng doanh số bán hàng của Amazon.com).

Thứ hạng này xác định cho trường hợp người quản lý cĩ nhu cầu tối đa hĩa sự phổ biến của một sản phẩm. thứ hạng này là nửa chủ quan và người sử dụng thường khơng nhận thức đầy đủ của tất cả các yếu tố ảnh hưởng đến thứ hạng. Các yếu tố đĩ là giá của sản phẩm, chất lượng, tỷ lệ hiệu năng của giá cả, quảng cáo, vv. Do đĩ, thực hiện tính tốn thơng tin được sinh ra bằng các phương pháp khai thác quan điểm theo cách làm mịn dần cĩ thể làm sáng tỏ đến tác động của từng khía cạnh trên các xếp hạng này. Nếu các đánh giá và xếp thứ hạng bán hàng xuất phát từ cùng một nguồn, số các ý kiến đánh giá đang được sẵn sàng cho một sản phẩm cĩ thể được coi là tương quan (hoặc ít nhất là tương tác) với số lượng bán ra.

Các nhận xét đĩng một vai trị quan trọng đối với một quyết định mua hàng, vì vậy sự tương tác cũng sẽ làm việc theo một hướng khác, khi một sản phẩm cĩ nhiều đánh giá và hầu hết trong số đĩ là tích cực, cơ hội sẽ tăng lên và mọi người sẽ mua nĩ.

Một trường hợp khác của nguồn Một thể hiện của một nguồn thơng tin đã cĩ là xếp hạng chuyên gia, trong đĩ một chuyên gia miền so sánh các sản phẩm khác nhau và các đặc trưng khác nhau của chúng và đặt chúng theo một thứ tự.

Một nguồn tin phổ biến cho xếp hạng này là các trang báo hoặc các trang web cụ thể của miền với mục đích cung cấp cho người dùng với một nguồn đầy đủ thơng tin hỗ trợ ra quyết định mua hàng của họ. Xếp hạng này thường hồn tồn chủ quan, tuy nhiên, các yếu tố khác nhau được đưa

Nguyễn Tiến Dũng CTL801 34

vào tính tốn, nĩ cĩ thể được tiết lộ hay khơng. Ở đây, họ sử dụng các thơng tin sẵn cĩ từ Snapsort.com

Đây là một dịch vụ thu thập thơng tin chi tiết về máy ảnh và cung cấp sự so sánh giữa chúng. Điểm số của chúng kết hợp các đặc trưng từ thơng số kỹ thuật như màn trập, kích thước ngắm, cĩ hay khơng sự ổn định của việc định hình ảnh, cũng như tính phổ biến (các máy ảnh đã được xem bao nhiêu lần trên các trang web) hoặc số ống kính cĩ sẵn. Thứ hạng như vậy đã được sử dụng trong cơng việc trước đây cơng bố gần đây của Tkachenko và Lauw (2014), người sử dụng một phần của đánh giá chuyên gia tiêu chuẩn vàng khi họ xác định các đặc điểm được xác định trước cho sản phẩm của họ (ví dụ: máy ảnh nhỏ hơn được đánh giá tốt) và đánh giá lần nữa đối với các xếp hạng đặc trưng cụ thể.

Cả xếp hạng doanh thu và xếp hạng chuyên gia đều đang cố gắng để kết hợp ý kiến từ hoặc một tập hợp các người dùng. Tuy nhiên, các xếp hạng các sản phẩm cĩ thể là rất chủ quan. Vì vậy, việc giới thiệu một xếp hạng thực tế phải dựa trên cộng đồng mà khơng làm mịn trước những đặc trưng được đưa vào tính tốn để đưa ra quyết định.

Thơng thường trong việc gán nhãn xếp hạng, yêu cầu một xếp hạng đầy đủ của một danh sách các sản phẩm từ những người gán nhãn là một thách thức rườm. Vì vậy, đề xuất nhiệm vụ cộng đồng như vậy cần được thiết lập trong học xếp hạng, khi đĩ những người gán nhãn được yêu cầu xác định ưu tiên cho một cặp sản phẩm. Các nhãn như vậy cĩ được sử dụng sau đĩ để tạo ra một thứ hạng nửa chủ quan cũng như thứ hạng cá nhân. Cách tiếp cận này khơng được thực hiện trong bài báo này nhưng cĩ thể mang lại những đĩng gĩp cho các nghiên cứu trong tương lai.

Từ các thứ hạng như vậy, một chức năng sở thích cá nhân cĩ thể được học với trọng số khác nhau của mỗi đặc trưng khác nhau với nhau, thậm chí cả khi người dùng khơng nhận thức được các nhân tố này.

2.3. Các phương pháp

Nhiệm vụ của bài báo này là tạo ra một danh sách thứ hạng của các sản phẩm dựa trên thơng tin cảm xúc. Để xếp thứ hạng các sản phẩm, các

Nguyễn Tiến Dũng CTL801 35

tác giả thực hiện 3 phương pháp cho phân tích văn bản và 2 phương pháp cơ bản (baselines).

Cĩ hai cách tiếp cận dựa trên tính các từ hoặc các cụm từ cĩ thể hiện tích cực và tiêu cực.

Đầu tiên là xác định các mức độ quan điểm dựa trên từ điển với lớp tương ứng được quy định rõ ràng.

Điểm thể thiện cảm xúc score(p) cho mỗi sản phẩm p được tính bằng số các từ tích cực (pos) trên tồn bộ các nhận xét cho sản phẩm này trừ đi số các từ tiêu cực (neg).

𝑠𝑐𝑜𝑟𝑒𝑑𝑖𝑐𝑡(𝑝) = 𝑝𝑜𝑠(𝑝) − 𝑛𝑒𝑔(𝑝)(1)

Để tính sự tác động cho các nhận xét dài hơn, họ chuẩn hĩa số các từ trong tồn bộ các nhận xét cho các sản phẩm đặc biệt allp:

𝑠𝑐𝑜𝑟𝑒̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅ =𝑑𝑖𝑐𝑡(𝑝) 𝑠𝑐𝑜𝑟𝑒(𝑝) 𝑎𝑙𝑙𝑝 (2)

Danh sách được xếp hạng của các sản phẩm được tạo bởi việc sắp xếp theo các điểm này. Quan tâm đến hai biến thể của phương pháp này là DICT và DICTNorm.

Đây là phương pháp đầu tiên dựa trên từ điển dễ dang thực hiện và sử dụng. Tuy nhiên, nĩ khơng thể đưa vào cơng thức này các thể hiện chứa mức độ quan điểm. Do vậy, phương pháp thứ hai được lựa chọn là phát hiện dựa trên học máy cho các cụm khách quan với các mức độ thể hiện quan điểm của chúng trong ngữ cảnh, sử dụng JPFA (Joint Fine-Grained Sentiment Analysis Tool, Kingler và Cimiano, 2013).

Tính tốn điểm cho sản phẩm và xếp hạng được thực hiện tương tự như cách tiếp cận dựa trên từ điển. Họ đề cập đến hai biến thể của phương pháp này là JFSA và JFSA-NORM.

Để tạo ra một danh sách được xếp hạng các sản phẩm, họ hướng đến việc thực hiện khai thác các thể hiện so sánh văn bản, như trong ví dụ sau:

Nguyễn Tiến Dũng CTL801 36

𝐼𝑡⏟ ℎ𝑎𝑠 𝑎 𝑏𝑒𝑡𝑡𝑒𝑟⏟ 𝑙𝑒𝑛𝑠 ⏟ 𝑡ℎ𝑎𝑛 𝑡ℎ𝑒 𝑇3𝑖⏟

Để trích các so sánh này, sử dụng cơng cụ được giới thiệu cho CSRL (Comparision Semantic Role-Labeler, Kessler và Kuhn, 2013). Hệ thống này phát hiện và trích các vị từ so sánh (“better”), hai thực thể liên quan là

Một phần của tài liệu TÌM HIỂU PHƯƠNG PHÁP TRÍCH VÀ SẮP XẾP CÁC ĐẶC TRƯNG THỂ HIỆN QUAN ĐIỂM (Trang 28)

Tải bản đầy đủ (PDF)

(50 trang)