Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
0,91 MB
Nội dung
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN
THÔNG
Nguyễn Hồng Hạnh
PHÂN TÍCHÝKIẾNCHỦQUANCỦANGƯỜI
DÙNG TỪDỮLIỆUWEB
Chuyên ngành: Truyền dữliệu và mạng máy tính
Mã số: 60.48.15
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2013
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN
THÔNG
Người hướng dẫn khoa học: PGS.TS Từ Minh Phương
Phản biện 1: ………………………………………………
Phản biện 2: ……………………………………………
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn
thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn
thông
1
MỞ ĐẦU
Khi đưa ra quyết định sử dụng một dịch vụ, hay mua một
món hàng nào đó, đa số chúng ta muốn tham khảo ýkiếncủa
những người đã sử dụng chúng. Sự phát triển củaWeb khiến
lượng thông tin ýkiến này rất dồi dào. Tuy nhiên cũng vì điều
này mà việc tìm ra nguồn ýkiến và theo dõi nó trên Web trở
thành một nhiệm vụ cực kỳ khó khăn. Do vậy, nhu cầu về một
hệ thống tập trung xử lý, phântíchýkiếnchủquan trở nên rõ
ràng và thiết yếu. Cụ thể, nhiệm vụ phântíchýkiếnchủquan ở
đây là phân loại các văn bản (có thể là một câu, một đoạn văn)
chứa ýkiến về một đối tượng nào đó thành ýkiếntích cực hay
tiêu cực.
Có rất nhiều nghiên cứu về khai phá ýkiến đã được thực
hiện. Tuy nhiên, các nghiên cứu này đều tập trung vào việc xử
lý tiếng Anh trên những tập dữliệu lớn. Các nghiên cứu về tự
động phântíchýkiếncủangườidùngtừ các tài liệu tiếng Việt
còn khá ít, gây khó khăn cho việc xây dựng các ứng dụng thực
tế, cũng như kiểm chứng các kỹ thuật đã được áp dụng thành
công trong phântíchýkiến trên tiếng Anh.
Vì vậy, luận văn này thực hiện nghiên cứu “Phân tíchý
kiến chủquancủa ngƣời dùngtừdữliệu Web“ với dữliệu
được thu thập từ các trang web sử dụng tiếng Việt. Đề tài tập
trung nghiên cứu những vấn đề, và phương pháp được dùng
trong phântíchý kiến. Từ đó xây dựng và kiểm nghiệm một
vài mô hình thực nghiệm cho mục đích phântíchýkiến và khả
năng áp dụng cho tiếng Việt.
Luận văn gồm 3 chương:
Chƣơng 1: Tổng quan về phântíchýkiếnchủquan
Chƣơng 2: Các phương pháp phântíchýkiến sử dụng kỹ
thuật phân loại và xử lý ngôn ngữ tự nhiên
Chƣơng 3: Thử nghiệm và đánh giá
Trong đó đề tài tập trung vào chương 2 và 3 nhằm nghiên
cứu và áp dụng các kỹ thuật phântíchýkiến và việc xây dựng
mô hình ứng dụng có tính chính xác cao cho tiếng Việt.
2
Chƣơng 1 – TỔNG QUAN VỀ PHÂNTÍCHÝKIẾN
CHỦ QUAN
Chương 1 giới thiệu tổng quan về vấn đề phântíchý kiến,
khái niệm và một số khó khăn trong quá trình phântíchý kiến.
Tiếp đến là một số dạng phântíchýkiến như: phân loại ý kiến,
phân tích cảm nhận củangườidùng trên từng đặc tính của sản
phẩm, xác định xu hướng tình cảm từ các câu so sánh giữa các
sản phẩm, và một số nghiên cứu thực tế về các dạng này đã
được công bố.
1.1. Phântíchýkiến
1.1.1. Giới thiệu
Thông tin có thể được chia ra làm hai loại chính, là sự
thật và ý kiến. Sự thật là những phát biểu khách quan về các
thực thể và sự kiện trong thế giới. Ýkiến là những phát biểu
chủ quanphản ánh tình cảm và nhận thức của con người về
những thực thể và sự kiện đó. Nội dung chính của nhiệm vụ
phân tíchýkiếnchủquan (opinion mining) hay còn được gọi là
phân tích xu hướng tình cảm (sentiment analysis) này là phân
tích những văn bản chứa ýkiến nhận xét đánh giá củangười sử
dụng về một đối tượng để xác định những ýkiến đó là tích cực,
tiêu cực hay trung lập.
1.1.1.1 Khái niệm và mô hình phântíchýkiến
Giống bất kỳ vấn đề khoa học nào, trước khi giải quyết
nó chúng ta cần định nghĩa hoặc mô hình hóa vấn đề. Việc mô
hình hóa này sẽ đưa ra các định nghĩa cơ bản, khái niệm cốt lõi
và các vấn đề cũng như các đối tượng mục tiêu. Chúng ta sử
dụng thuật ngữ đối tượng để gọi thực thể mục tiêu được nhận
xét. Một đối tượng có thể có một tập hợp các thành phần, và
thuộc tính, chúng ta gọi chung là đặc tính của nó.
Đối tƣợng: một đối tượng o là một thực thể, có thể là sản
phẩm, con người, sự kiện, tổ chức hoặc một chủ đề. Nó gắn
liền với một cặp o: (T, A), trong đó T là một phân cấp các
3
thành phần, thành phần con, và A là tập thuộc tính của o. Mỗi
thành phần lại có tập thành phần và thuộc tính của riêng nó.
Gọi một tài liệuýkiến là d, có thể là nhận xét sản phẩm,
một bài viết trên diễn đàn, hoặc một bài nhật ký cá nhân, đánh
giá một tập các đối tượng. Trong trường hợp tổng quát nhất, d
bao gồm một chuỗi các câu d = < S
1
, S
2
, S
3
…,S
m
>.
Đoạn ýkiến về một đặc tính: một đoạn ýkiến về đặc
tính f của đối tượng o đánh giá trong d là một nhóm các câu nối
tiếp nhau trong d thể hiện ýkiếntích cực hoặc tiêu cực về f.
Đặc tính ẩn và đặc tính rõ ràng: nếu một đặc tính f
hoặc từ đồng nghĩa của nó xuất hiện trong một câu s, f được
gọi là đặc tính rõ ràng. Nếu không có f hay từ đồng nghĩa của
nó xuất hiện, nhưng lại ám chỉ f thì mó được gọi là một đặc
tính ẩn trong câu s.
Ngƣời giữ ý kiến: là một người hoặc tổ chức đưa ra ý
kiến đó. Người giữ ýkiến cũng được gọi là nguồn ý kiến.
Ý kiến và xu hƣớng ý kiến: Ýkiến về đặc tính f là một
quan điểm, thái độ, tình cảm hay sự đánh giá tích cực hoặc tiêu
cực về f của một người nắm giữ ý kiến. Xu hướng ýkiếncủa
một ýkiến về đặc tính f chỉ ra rằng ýkiến đó là tích cực, tiêu
cực, hay trung lập.
Bây giờ, chúng ta sẽ kết hợp tất cả lại để định nghĩa mô
hình phântíchýkiến dựa trên đặc tính.
Mô hình của một đối tượng o được biểu diễn bởi một tập
hữu hạn các đặc tính F={f
1
, f
2
,…f
n
}, chứa đối tượng như một
đặc tính đặc biệt. Mỗi đặc tính f
i
Є F có thể được thể hiện với
bất kỳ một trong tập hữu hạn từ hoặc cụm từ W
i
= {W
i1
,
W
i2
,…W
im
} là từ đồng nghĩa của đặc tính, hoặc ám chỉ bởi một
trong tập từ chỉ đặc tính i
i
={i
i1
, i
i2
,…i
iq
} của đặc tính.
Mô hình một văn bản ý kiến: một văn bản ýkiến d chứa
các ýkiến về tập các đối tượng { o
1
, o
2
, …, o
q
} từ tập người
đưa ra ýkiến {h
1
, h
2
, …, h
p
}. Ýkiến về mỗi đối tượng o
j
được
thể hiện trên một tập con F
j
đặc tính của o
j
. Một ýkiến có thể là
một trong hai loại sau:
4
Ýkiến trực tiếp: Một ýkiến trực tiếp là một bộ 5 ( o
j
, f
jk
,
oo
ijkl
, h
i
, t
l
) trong đó o
j
là một đối tượng, f
jk
là một đặc tính
của đối tượng o
j
, oo
ijkl
là xu hướng hoặc thái cực củaýkiến
về đặc tính f
jk
của đối tượng o
j
, h
i
là người đưa ra ýkiến và
t
l
là thời gian mà ýkiến được thể hiện bởi h
i
. Xu hướng ý
kiến oo
ijkl
có thể là tích cực, tiêu cực, hoặc trung tính.
Ýkiến so sánh: Một ýkiến so sánh thể hiện một quan hệ
tương đồng hoặc khác biệt giữa hai hoặc nhiều đối tượng,
hoặc sở thích củangười nắm ýkiến dựa trên một vài đặc
tính chung giữa hai đối tượng.
Mục đích của việc phai phá các ýkiến trực tiếp: Cho
một tài liệuýkiến d, (1) phát hiện ra tất cả các bộ 5 ýkiến ( o
j
,
f
jk
, oo
ijkl
, h
i
, t
l
) trong d, và (2) xác định tất cả những từ đồng
nghĩa (W
jk
) và các từ chỉ đặc tính i
jk
của mỗi đặc tính f
jk
trong
d.
Câu chủ quan: Một câu khách quan thể hiện một vài thông
tin thực tế về thế giới, trong khi câu chủquan thể hiện cảm giác
hoặc niềm tin của một cá nhân.
Ý kiến rõ ràng và ýkiến không rõ ràng: Một ýkiến rõ
ràng về đặc tính f là một ýkiến được thể hiện một cách rõ ràng
về f trong một câu chủ quan. Một ýkiến không rõ ràng về đặc
tính f là một ýkiến được ám chỉ trong một câu khách quan.
Câu có ý kiến: một câu có ýkiến là câu thể hiện rõ ràng
hoặc ám chỉ ýkiếntích cực hay tiêu cực.
1.1.1.2 Nhu cầu thông tin về ýkiến
1.1.1.3 Các ứng dụng với phântíchýkiến
- Ứng dụng cho các trang web liên quan đến việc đánh giá
- Ứng dụng như một công nghệ thành phần
- Ứng dụng trong kinh doanh và chính phủ thông minh
- Ứng dụng trên các miền lĩnh vực khác nhau
1.1.2. Các thách thức trong phântíchýkiến
1.1.2.1. Tƣơng quan với việc phântích văn bản truyền
thống
5
Thường thì phân loại văn bản sẽ tìm ra là phân văn bản
thành các nhóm chủ đề khác nhau, và có thể có rất nhiều nhóm.
Với nhiệm vụ như vậy, chúng ta có thể phải giải quyết với ít
nhất là hai loại (phân loại nhị phân) hoặc hàng nghìn loại.
Ngược lại, với phân loại xu hướng ý kiến, chúng ta thường có
tương đối ít loại (tích cực, tiêu cực) được tạo ra từ miền ứng
dụng hoặc người dùng. Thêm nữa, khi các loại khác biệt trong
phân loại theo chủ đề có thể hoàn toàn không liên quan đến
nhau, còn các nhãn ýkiến đã được xem xét trong một số
nghiên cứu thì hoàn toàn trái ngược nhau (nếu nhiệm vụ là
phân loại nhị phân), hoặc là các loại được đánh số - tính điểm
(nếu việc phân loại dựa trên nhiều yếu tố).
1.1.2.2. Các thách thức về mặt kỹ thuật
- Xác định đối tượng
- Trích chọn đặc tính và nhóm các từ đồng nghĩa
- Phân loại xu hướng ýkiến
- Tích hợp
1.1.2.3. Thách thức khi xây dựng ứng dụng
- Nếu ứng dụng được tích hợp vào một cơ chế tìm kiếm đa
năng thì cần phải xác định xem ngườidùng có thực sự tìm
kiếm dữliệu mang tính chủquan hay không
- Xác định tài liệu hoặc phần tài liệu chứa ýkiến đánh giá
- Xác định xu hướng ýkiến tổng thể được thể hiện trong
đoạn tài liệu chứa ýkiến
- Biểu diễn thông tin ýkiếnphântích được dưới một dạng
hợp lý
1.2. Một số dạng phântíchýkiến
1.2.1. Phân loại ýkiến khách quan – chủ quan, tích cực
– tiêu cực
Dạng này xem phântíchýkiến như là một vấn đề phân loại
văn bản. Hai chủ đề nhỏ đã được nghiên cứu mở rộng gồm: 1 –
Phân loại văn bản chứa ýkiến có thể hiện ýkiếntích cực hay
tiêu cực, 2 – phân loại một câu hoặc một mệnh đề của câu là
6
chủ quan hay khách quan, và một câu hoặc một mệnh đề chủ
quan xem nó thể hiện ýkiếntích cực, tiêu cực, hay trung lập.
1.2.2. Tổng hợp phântíchýkiến dựa trên đặc tính sản
phẩm
Mô hình này trước tiên sẽ khám phá các đối tượng được thể
hiện ýkiến trong một câu, và sau đó xác định xem ýkiến là
tích cực, tiêu cực, hay trung lập. Mục tiêu nhận xét là các đối
tượng và thành phầncủa nó, đặc tính chức năng… Một đối
tượng có thể là một sản phẩm, dịch vụ, một cá nhân hay tổ
chức nào đó, một sự kiện, một chủ đề v.v. Cụ thể, trong một
câu nhận xét một sản phẩm, nó xác định các đặc điểm của sản
phẩm đã được nhận xét và xác định xem nhận xét đó tích cực
hay tiêu cực.
1.2.3. Phântíchýkiến dựa trên các câu so sánh
Việc đánh giá đối tượng có thể thực hiện theo hai cách
chính, trực tiếp thẩm định hoặc so sánh. Trực tiếp thẩm định,
gọi là ýkiến trực tiếp, đưa ra ýkiếntích cực, tiêu cực và đối
tượng mà không nhắc tới các đối tượng tương tự khác. So sánh
có nghĩa là so sánh đối tượng với các đối tượng tương tự ( như
các sản phẩm cạnh tranh).
1.3. Một số nghiên cứu phântíchýkiến đã có
Nghiên cứu về khai phá ýkiến bắt đầu với việc xác định
các từ thể hiện ýkiến (hoặc cảm nhận) như: tốt, tuyệt, tuyệt
vời, chán, dở … Rất nhiều nhà nghiên cứu đã làm việc khai phá
các từ như vậy và xác định xu hướng ngữ nghĩa của chúng (tích
cực hay tiêu cực). Trong [9], các tác giả xác định một vài quy
tắc ngữ pháp có thể dùng để xác định các từ chỉ ýkiến và xu
hướng ngữ nghĩa của chúng từ một tập dữliệu lớn. Sự phát
triển tiếp theo là phân loại cảm nhận các nhận xét về sản phẩm
ở mức văn bản. Mục tiêu của nhiệm vụ này là phân loại mỗi
bài phê bình xem chúng thể hiện cảm nhận tích cực hay tiêu
cực về một đối tượng nào đóMột vài nhà nghiên cứu cũng thực
hiện việc phân loại cảm nhận ở mức câu, xem mỗi câu thể hiện
tình cảm tích cực hay tiêu cực.
7
Chƣơng 2 – CÁC PHƢƠNG PHÁP PHÂNTÍCHÝ
KIẾN SỬ DỤNG KỸ THUẬT PHÂN LOẠI VÀ XỬ
LÝ NGÔN NGỮ TỰ NHIÊN
Cách tiếp cận chủ yếu trong nhiều ứng dụng khai phá ý
kiến hiện nay là dựa trên kỹ thuật phân loại văn bản. Nội dung
của chương 2 bao gồm một số kỹ thuật phântíchýkiến dựa
trên các phương pháp phân loại: phân loại ýkiến ở mức văn
bản, mức câu, và kỹ thuật sinh bộ từ vựng ýkiếndùng để phân
tích ý kiến.
2.1. Phân loại ýkiến mức văn bản
Cho một tập văn bản ýkiến D, nhiệm vụ phân loại xác
định xem mỗi văn bản d Є D có thể hiện một ýkiếntích cực
hay tiêu cực về một đối tượng hay không. Một cách hình thức,
nhiệm vụ được định nghĩa như sau:
Cho một văn bản ýkiến d nhận xét về đối tượng o, xác
định xu hướng mà ýkiến thể hiện về o, cụ thể, khám phá ra xu
hướng ýkiến oo về đặc tính f trong bộ năm (o, f, so, h, t), trong
đó f=o, và h, t, o được giả sử là đã biết hoặc không liên quan.
2.1.1. Phân loại dựa trên học có giám sát
Phân loại, hay phân lớp, ýkiến là một trường hợp riêng
của học có giám sát (supervised learning), trong đó các đoạn
bình luận hoặc câu chứa ýkiến có thể nhận một trong hai nhãn
phân loại:“tích cực”, “tiêu cực” (một số phát biểu cho phép
phân biệt thêm nhãn “trung tính”). Quá trình phân loại được
thực hiện theo các bước được mô tả sau đây.
- Thu thập dữliệu về nhận xét đánh giá từ các trang web, gán
nhãn phân loại cho dữliệu
- Huấn luyện bộ phân loại trên dữliệu đã chuẩn bị: lựa chọn kỹ
thuật phân loại và trích chọn đặc trưng. Quá trình huấn luyện
được lặp đi lặp lại nhiều lần để có được mô hình tốt nhất.
- Hiệu năng của mô hình phân loại sau đó được đánh giá bởi
tập dữliệu kiểm tra đã chuẩn bị.
2.1.1.1. Mô hình ngôn ngữ n-gram
8
Nhiệm vụ của mô hình ngôn ngữ là cho biết xác suất của
một câu w
1
w
2
w
m
là bao nhiêu. Theo công thức Bayes:
P(AB) = P(B|A) * P(A), thì:
P(w
1
w
2
…w
m
) = P(w
1
) * P(w
2
|w
1
) * P(w
3
|w
1
w
2
) *…*
P(w
m
|w
1
w
2
…w
m-1
)
Theo công thức này, mô hình ngôn ngữ cần phải có một
lượng bộ nhớ vô cùng lớn để có thể lưu hết xác suất của tất cả
các chuỗi độ dài nhỏ hơn m. Rõ ràng, điều này là không thể khi
m là độ dài của các văn bản ngôn ngữ tự nhiên (m có thể tiến
tới vô cùng). Để có thể tính được xác suất của văn bản với
lượng bộ nhớ chấp nhận được, ta sử dụng xấp xỉ Markov bậc n:
P(w
m
|w
1
,w
2
,…, w
m-1
) = P(w
m
|w
m-n
,w
n-m+1
, …,w
m-1
)
Nếu áp dụng xấp xỉ Markov, xác suất xuất hiện của một
từ (w
m
) được coi như chỉ phụ thuộc vào n từđứng liền trước nó
(w
m-n
w
m-n+1
…w
m-1
) chứ không phải phụ thuộc vào toàn bộ dãy
từ đứng trước (w
1
w
2
…w
m-1
). Như vậy, công thức tính xác suất
văn bản được tính lại theo công thức:
P(w
1
w
2
…w
m
) = P(w
1
) * P(w
2
|w
1
) * P(w
3
|w
1
w
2
) *…*
P(w
m-1
|w
m-n-1
w
m-n
…w
m-2
)* P(w
m
|w
m-n
w
m-n+1
…w
m-1
)
Với công thức này, ta có thể xây dựng mô hình ngôn ngữ
dựa trên việc thống kê các cụm có ít hơn n+1 từ. Mô hình ngôn
ngữ này gọi là mô hình ngôn ngữ N-gram.
Một cụm N-gram là một dãy con gồm n phầntử liên tiếp
của 1 dãy các phầntử cho trước (trong bộ dữliệu huấn luyện),
và cụm ngram này không nhất thiết phải có nghĩa.
Ví dụ: cụm 2-gram “hát của” thuộc câu “Giọng hát của cô
ấy thật điêu luyện”.
Các phầntử được xét ở đây thường là kí tự, từ hoặc cụm
từ; tùy vào mục đích sử dụng. Dựa vào số phầntửcủa 1 cụm
N-gram, ta có các tên gọi cụ thể: N = 1: Unigram; N = 2:
Bigram; N = 3: Trigram
2.1.1.2. Phân loại Naïve Bayes
Phân loại Naïve Bayes sử dụng trong trường hợp mỗi ví
dụ được cho bằng tập các thuộc tính <x
1
, x
2
, …, x
n
> và cần xác
[...]... 1: Mô hình phântíchýkiến Hình 3.1 mô tả quá trình phântíchýkiến ở mức câu: - Bước 1: Tiến hành thu thập dữliệu nhận xét củangườidùng - Bước 2: Phân loại nhận xét thành hai loại chủ quan, khách quan - Bước 3: Phântích xu hướng ýkiến cho các câu ý kiếnchủquan đã được phân loại ở bước 2 là ýkiếntích cực hay tiêu cực Luận văn sẽ tập trung kiểm nghiệm các phương pháp phântíchýkiến có giám... trích chọn nếu từ đầu tiên là trạng từ và từ thứ hai là tính từ nhưng từ thứ 3 (không được trích chọn) không phải là danh từ Bảng 2 1: Bảng quy tắc trích chọn từ loại Từ thứ nhất Từ thứ hai Từ thứ ba (không được trích chọn) Tính từ Danh từ Bất cứ từ loại nào Trạng từ Tính từ Không phải danh từ Tính từ Tính từ Không phải danh từ Danh từ Tính từ Không phải danh từ Trạng từ Động từ Bất cứ từ loại nào 12... 18 phủ định của một từtích cực như “không đẹp”, “chưa tốt”, em tạo thêm một bộ từ vựng chứa các từ phủ định này Luận văn xây dựng và sử dụng một bộ từ vựng gồm: - Từtích cực: 82 từ - Từ tiêu cực: 78 từ - Từ phủ định: 10 từ 3.2.2 Phântích câu và tách các từ thể hiện ýkiến Để xác định được các tính từ mang ý kiến, chúng ta sẽ phải thực hiện việc gán nhãn từ loại cho từng câu ýkiến một Luận văn sẽ... dùng (tích cực) nếu oo tính được dương hoặc “không nên dùng (tiêu cực) nếu oo âm 2.1.2.2 Một số phƣơng pháp không giám sát khác 2.2 Phân loại ýkiến ở mức câu Nhiệm vụ: Cho một câu s, hai nhiệm vụ con sau đây được thực hiện: 13 (1) Phân loại tính chủ quan: xác định xem s là câu chủquan hay câu khách quan (2) Phân loại ýkiến cho câu chủ quan: Nếu s là chủ quan, xác định xem nó thể hiện ýkiến tích. .. mang ý kiếnchủquan Công việc phân loại xu hướng tình cảm thường giả sử rằng tài liệu đầu vào là tài liệu mang ý kiếnchủquan Tuy nhiên, với khá nhiều ứng dụng chúng ta cần xác định xem tài liệu đã có chứa thông tin chủquan hay không, hoặc xác định phần nào của tài liệu là chủquan Các kỹ thuật như Support Vector Machine, hay Navie Bayes cũng có thể áp dụng để thực hiện nhiệm vụ phân loại ý kiến. .. khác, và thể hiện ýkiến đồng tình hay không đồng tình với ýkiến được trích dẫn đó Nếu xác định được ýkiến được trích dẫn là tiêu cực hay tích cực, và ýkiếncủangười trích dẫn là đồng tình/không đồng tình với nó thì ta có thể phân loại ý kiếncủa người đó là tích cực hay tiêu cực Việc phân loại đơn thuần chỉ dựa vào bộ từýkiến hay xu hướng của câu trước đó có thể gây ra nhầm lẫn trong trường hợp... bộ từ vựng chủ yếu là tính từ tiếng Việt để phán đoán xu hướng ngôn ngữ của các tính từ tách được từ ý kiếncủa người dùng Các từ chỉ trạng thái mong muốn (như: đẹp, tuyệt vời, tốt…) có xu hướng tích cực, và các từ chỉ trạng thái không mong muốn (như xấu, thất vọng, dở…) có xu hướng tiêu cực Bên cạnh đó, để phục vụ cho mục đích xử lý các câu có ýkiến nhận xét được thể hiện dưới dạng 18 phủ định của. .. bộ từtích cực và tiêu cực, tính từ đó nằm trong bộ từ nào thì nó sẽ mang xu hướng ngữ nghĩa của bộ từ đó Tuy nhiên, trong quá trình xác định xu hướng tình cảm củatừ trong câu, chúng ta không đơn giản chỉ lấy xu hướng ngữ nghĩa củatừýkiến trong tập các từ làm xu hướng của toàn bộ câu Chúng ta còn xem xét có từ phủ định nào (như: không, chưa …) xuất hiện gần từ đó hay không Nếu có thì xu hướng ý. .. câu mà ýkiến được kết nối bởi các quan hệ từ như “nhưng”, “hoặc”, “và” để phân loại thành cùng loại hay loại đối ngược Trên đây em đã trình này những kỹ thuật phântíchý kiến, gồm cả có giám sát và không giám sát Chương sau của luận văn sẽ tiến hành thử nghiệm một số ý tưởng từ các kỹ thuật này để xem xét tính hiệu quả của chúng 16 Chƣơng 3 – THỬ NGHIỆM VÀ ĐÁNH GIÁ 3.1 Mô hình phântíchýkiến lựa... nhiều người biểu hiện ýkiến tình cảm của mình về sản phẩm, dịch vụ trên các diễn đàn, các mạng xã hội Hiện tại, luận văn thực hiện việc phán đoán xu hướng ýkiến trong nhận xét dựa trên bộ từ vựng tính từtích cực, tiêu cực được xây dựng thủ công Hiệu quả của việc phântíchphán đoán phụ thuộc vào bộ từ vựng này Do được xây dựng thủ công, bộ từ vựng này có thể không đầy đủ và mang nhiều quan điểm chủquan . trong phân tích ý kiến trên tiếng Anh.
Vì vậy, luận văn này thực hiện nghiên cứu Phân tích ý
kiến chủ quan của ngƣời dùng từ dữ liệu Web với dữ liệu.
Ngƣời giữ ý kiến: là một người hoặc tổ chức đưa ra ý
kiến đó. Người giữ ý kiến cũng được gọi là nguồn ý kiến.
Ý kiến và xu hƣớng ý kiến: Ý kiến về đặc