dụng vào miền dữ liệu mạng xã hội, khi mà chúng ta cĩ thể thu thập được dữ liệu lớn tùy ý.
Ngược lại các phương pháp học máy giám sát [22], [23], [24] lại địi hỏi dữ liệu gán nhãn thủ cơng, hiệu năng của chúng phụ thuộc vào dữ liệu huấn luyện và miền áp dụng của mơ hình. Tuy nhiên học máy cĩ giám sát thường cho độ chính xác cao và như cĩ thể thấy ở các mơ hình trên thì nĩ tận dụng được nhiều đặc trưng hay tri thức của ngơn ngữ tự nhiên vào mơ hình. Như các đặc trưng từ vựng, từ loại, phụ thuộc cú pháp, mối quan hệ với quan điểm. Phương pháp học máy giám sát cịn cĩ thể tìm ra các khía cạnh khơng phổ biến tồn cục hoặc những khía cạnh phổ biến địa phương, điều mà mơ hình chủ đề khơng làm được [5]. Trong các phương pháp học máy đề xuất ở trên ta thấy các đề xuất [23], [24] dựa trên CRFs mang nhiều ưu điểm hơn cả.
Chính vì lý do đĩ, khĩa luận này đề nghị một mơ hình trích xuất khía cạnh khai phá quan điểm mức khía cạnh trên Twitter bằng học máy CRFs sử dụng mơ hình chủ đề ẩn. Mơ hình này được trình bày cụ thể tại Chương 4 tiếp theo.
3.4. Tĩm tắt chương 3
Thơng qua một số hướng tiếp cận phổ biến khi giải quyết bài tốn trích xuất khía cạnh trong khai phá quan điểm, chương hai đã làm rõ hơn về bài tốn, về tình hình các tiếp cận giải quyết bài tốn trong cộng đồng nghiên cứu. Trọng tâm của chương nêu ra hai cách tiếp cận hiệu quả nhất trong số bốn tiếp cận hiện nay để giải quyết bài tốn, đĩ là sử dụng học máy giám sát và mơ hình chủ đề. Nội dung chương hai là cơ sở khoa học giúp tác giả đánh giá hiệu quả, ưu nhược điểm của từng cách tiếp cận từ đĩ đề ra hướng tiếp cận hợp lý cho bài tốn trên miền dữ liệu mạng xã hội.
Khĩa luận tốt nghiệp Vũ Trọng Hĩa Chương 4
36
Chương 4.
PHƯƠNG PHÁP TRÍCH XUẤT KHÍA CẠNH TRONG KHAI PHÁ QUAN ĐIỂM TRÊN DỮ LIỆU TWITTER
Trong chương 1, khĩa luận đã đề cập bài tốn trích xuất khía cạnh trong khai phá quan điểm, và ở phần này, bài tốn sẽ được mơ tả cụ thể hơn theo hướng học máy chuỗi, đồng thời khĩa luận cũng đề xuất phương pháp và mơ hình để giải quyết bài tốn trích xuất khía cạnh trong khai phá quan điểm Twitter. Như đã đề cập ở trên, trích xuất khía cạnh là một bài tốn quan trọng trong khai phá quan điểm.
4.1. Mơ tả bài tốn
Ta cĩ thể phát biểu bài tốn như là bài tốn học phân đoạn và gán nhãn chuỗi như sau:
Đầu vào: Cho một tập các tweets đề cập đến thực thể E. Mỗi tweet là một chuỗi các từ cĩ dạng: 𝑊 = 𝑤1𝑤2𝑤3 𝑤𝑛
Đầu ra: Chuỗi các nhãn được dự đốn: 𝐿 = 𝑙1𝑙2𝑙3 𝑙𝑛
Các nhãn 𝑙 được sử dụng ở đây là:
B_Aspect: Nhãn bắt đầu một khía cạnh
I_Aspect: xác định sự tiếp nối trong khía cạnh (khơng phải từ đầu tiên)
4.2. Mơ hình đề xuất
Trong phần này khĩa luận sẽ đề xuất phương pháp giải quyết bài tốn bằng học máy CRFs và dựa vào mơ hình chủ đề ẩn.
4.2.1. Mơ tả mơ hình
Các bước chính trong mơ hình:
a) Lựa chọn tập tổng thể (universal dataset) phù hợp và phân tích chủ đề của tập tổng thể.
b) Lựa chọn đặc trưng trong đĩ cĩ đặc trưng là thơng tin chủ đề. c) Ước lượng tham số của mơ hình CRFs dựa vào tập dữ liệu học d) Sử dụng mơ hình trích xuất các khía cạnh cho tập dữ liệu mới.
Ước lượng mơ hình CRFs
Dữ liệu học Tập dữ liệu
tổng thể
Ước lượng mơ hình chủ đề Tập dữ liệu đã gán nhãn Tập khía cạnh +Queries Twitter API
Tập dữ liệu mới Tập dữ liệu mới Mơ hình Suy diễn CRFs +Newquery Twitter API Kết hợp đặc trưng Mơ hình chủ đề đã ước lượng Suy luận chủ đề Hình 4.1: Mơ hình đề xuất
Khĩa luận tốt nghiệp Vũ Trọng Hĩa
38
Tập dữ liệu “dữ liệu cĩ gán nhãn” ở đây là tập các tweet đã được gán nhãn từ nào trong tweet là khía cạnh hay khơng là khía cạnh, định dạng chi tiết sẽ được trình bày trong phần sau.
Bước đầu tiên a) lựa chọn tập tổng thể, trong các bước kể trên thì đây cĩ thể là bước cĩ ý nghĩa nhất [25]. Sở dĩ nhữ vậy bởi vì việc phân tích chủ đề từ tập dữ liệu này cĩ ý nghĩa trực tiếp đến hiệu năng của mơ hình. Cĩ hai điều kiện chính phải tuân thủ để xây dựng một tập tổng thể đúng nghĩa.Trước hết, dữ liệu phải đủ lớn và và cĩ phân phối đều giữa từ và các chủ đề (quan sát thủ cơng) để phủ được tập dữ liệu học, và quan trọng hơn là xử lí tốt dữ liệu mới chưa biết. Thứ hai, mơ hình phân tích chủ đề làm việc độc lập và đầu ra của nĩ (các tham số, chủ đề) phản ánh sự phân bố của dữ liệu. Do đĩ, tính tự nhiên của tập tổng thể nên dữ nhất quán với bài tốn học máy chuỗi. Để đáp ứng những tiêu chí đĩ, cần cĩ một tập các truy vấn thích hợp gửi tới API Twitter. Trong nội dung khĩa luận này tập trung vào trích xuất khía cạnh của một từ khĩa thực thể cho trước trong miền sản phẩm, do đĩ tập từ khĩa được lựa chọn sẽ bao gồm các từ ở mức trừu tượng hơn cùng với từ khĩa đầu vào. Ví dụ với thực thể Iphone5, thì các truy vấn cĩ thể là {“mobile”,”phone”, “smartphone”, “iphone5”}. Sau khi qua giai đoạn chuẩn hĩa (trình bày chi tiết trong chương 5), nhằm thu được tập dữ liệu giàu quan điểm và khía cạnh như các tập dữ liệu
trong các cơng trình đã được trình bày mục 3.1, một bộ phân lớp quan điểm [2] tweet được cài đặt. Các tweet được mang nhãn quan điểm qua bộ phân lớp trên sẽ được đưa vào tập dữ liệu tổng thể. Phân tích chủ đề cho tập dữ liệu tổng thể cĩ thể được thực hiện bằng các mơ hình chủ đề như pLSA và LDA. LDA được sử dụng trong mơ hình này vì mang nhiều ưu điểm hơn so với pLSA. LDA đã được trình bày trong chương 2.
Bước thứ hai lựa chọn đặc trưng, đây là bước quan trọng, quyết định đến hiệu năng hệ thống. Ngồi các đặc trưng giống như các hệ thống trích xuất thực thể, trong cơng trình này cĩ sử dụng thêm một số đặc trưng khai thác mối quan hệ quan điểm và khía cạnh. Chi tiết các đặc trưng lựa chọn được trình bày ở mục tiếp theo.
Bước thứ ba, các tham số của mơ hình được ước lượng từ dữ liệu học nhằm cực đại hĩa độ đo likelihood giữa phân phối mơ hình và phân phối trong dữ liệu học.
Bước thứ tư, xử dụng mơ hình với các tham số ước lượng ở bước ba để gán nhãn cho chuỗi dữ liệu mới với xác xuất cao nhất, hay cũng là trích xuất ra các khía cạnh cho tập dữ liệu mới. Thuật tốn được sử dụng để gán nhãn cho chuỗi dữ liệu mới là Viterbi.
4.2.2. Lựa chọn các đặc trưng cho học máy CRFs
Lựa chọn các đặc trưng từ tập dữ liệu huấn luyện là nhiệm vụ quan trọng nhất, giữ vai trị quyết định đối với chất lượng của tồn bộ hệ thống. Các đặc trưng được chọn càng tinh tế, cĩ ý nghĩa thì độ chính xác của hệ thống càng cao. Các đặc trưng tại vị trí 𝑖 trong
chuỗi dữ liệu quan sát gồm hai phần, một là thơng tin ngữ cảnh tại vị trí 𝑖 của chuỗi dữ liệu quan sát, một là phần thơng tin về nhãn tương ứng. Cơng việc lựa chọn các đặc trưng thực chất là chọn ra các mẫu vị từ ngữ cảnh (context predicate template), các mẫu này thể hiện những các thơng tin đáng quan tâm tại một vị trí bất kì trong chuỗi dữ liệu quan sát. Áp dụng các mẫu ngữ cảnh này tại mơt vị trí trong chuỗi dữ liệu quan sát cho ta các thơng tin ngữ cảnh (context predicate) tại vị trí đĩ. Mỗi thơng tin ngữ cảnh tại 𝑖 khi kết hợp với thơng tin nhãn tương ứng tại vị trí đĩ sẽ cho ta một đặc trưng của chuỗi dữ liệu quan sát tại 𝑖. Như vậy một khi đã cĩ các mẫu ngữ cảnh, ta cĩ thể rút ra được hàng nghìn đặc trưng một cách tự động từ tập dữ liệu huấn luyện.
Cụ thể các đặc trưng chính được sử dụng như sau:
Tập nhãn chủ đề: Đặc trưng này được trích xuất từ mơ hình chủ đề ẩn, nĩ cho biết n chủ đề nếu mà token hiện tại thuộc về với xác suất cao nhất. Các từ khĩa được trích xuất bởi mơ hình chủ đề đối với tập dữ liệu mang quan điểm sẽ là các khía cạnh và các từ quan điểm. Do đĩ hiệu quả của đặc trưng này cĩ thể dễ thấy được.
Token: Đặc trưng này được sử dụng ở hầu hết các cơng trình về học máy chuỗi [22] [23] [24], hiệu quả của nĩ là rất rõ ràng, tuy nhiên nếu tập từ vựng của dữ liệu là đĩng cho miền nhất, thì đặc trưng này sẽ cĩ ích hơn nữa.
Lemma: dạng gốc của từ, cĩ ý nghĩa tương tự như token.
Từ loại: Các khía cạnh thường là các danh từ hoặc cụm danh từ, cung cấp khả năng phân biệt nhập nhằng từ loại, ví dụ token “sounds” cĩ là danh từ hoặc động từ trong những ngữ cảnh nhất định.
Khĩa luận tốt nghiệp Vũ Trọng Hĩa
40
Quan hệ phụ thuộc: Các token cĩ quan hệ phụ thuộc “amod”, “nsubj”, “dobj” với các từ mang quan điểm sẽ được gán nhãn này. Bộ phân tích phụ thuộc Stanford Parser1 được sử dụng.
Khoảng cách từ: các quan hệ phụ thuộc từ bộ trích xuất cĩ thể khơng bắt được hết các trường hợp quan hệ giữa danh từ và từ mang quan điểm. Các token là danh từ gần nhất với từ mang quan điểm sẽ được gán nhãn này. Phương pháp này đã được nghiên cứu ở một số cơng trình [10].
Quan hệ sở hữa với từ khĩa thực thể: ví dụ “iphone5’s battery is suck” Bảng sau thống kê chi tiết các đặc trưng cho học máy CRFs:
Loại đặc trưng Các đặc trưng cụ thể
Đặc trưng chủ đề ẩn Tập nhãn chủ đề liên quan nhất đến token Đặc trưng từ (token) Token, lemma, từ loại của từ hiện tại
Token, lemma, từ loại của từ trước nĩ Token, lemma, từ loại của từ sau nĩ Đặc trưng từ điển Cĩ phải là từ mang quan điểm Đặc trưng cú pháp Từ gốc (root word)
cĩ phụ thuộc với các từ quan điểm (amod, nsubj …)
Đặc trưng cạnh Là liên từ (and, but) Tên từ khĩa thực thể Trùng tên thực thể
Cĩ quan hệ sở hữu với thực thể Bảng 4.1: Các đặc trưng cho học máy CRFs
4.3. Tĩm tắt chương 4
Qua những phân tích ở chương 1, 2 và 3, chương 4 này khĩa luận tập trung vào phát triển mơ hình giải quyết bài tốn của khĩa luận. Sự kết hợp học máy cĩ giám sát và những thơng tin về chủ đề khơng giám sát sẽ là lời giải tốt cho bài tốn trên miền dữ liệu Twitter. Tiếp đến là giải thích chi tiết về các đặc trưng dùng cho học máy CRFs. Đây là mơ hình mà khĩa luận tập trung xây dựng và thử nghiệm.
Khĩa luận tốt nghiệp Vũ Trọng Hĩa Chương 5
42
Chương 5.
THỰC NGHIỆM VÀ ĐÁNH GIÁ 5.1. Mơ tả thực nghiệm
Dựa trên mơ hình đề xuất ở chương 4, khĩa luận tiến hành thực nghiệm việc trích xuất khía cạnh trên tập dữ liệu tweets đề cập đến các thực thể Iphone5 và Ipad. Để làm rõ kết quả của mơ hình đề xuất trong chương 4, cũng như sự đĩng gĩp của các đặc trưng đề xuất, khĩa luận tiến hành bốn thực nghiệm nhỏ:
Thực nghiệm 1: Thực nghiệm đánh giá độ chính xác của mơ hình trong đĩ pha lựa
chọn đặc trưng chỉ sử dụng các đặc trưng cơ bản là các đặc trưng liên quan đến token đã nêu trong bảng 4.1.
Thực nghiệm 2: Thực hiện đánh giá độ chính xác của mơ hình khi bỏ qua bước ước
lượng mơ hình chủ đề, đồng thời bỏ đi đặc trưng chủ đề ẩn trong bước lựa chọn đặc trưng.
Thực nghiệm 3: Thực hiện đánh giá độ chính xác của mơ hình đề xuất, cĩ bước ước
lượng mơ hình chủ đề và cĩ sử dụng đặc trưng chủ đề ẩn trong bước lựa chọn đặc trưng, tức là thực hiện tồn bộ mơ hình.
Thực nghiệm 4: Thực hiện đánh giá độ chính xác của hệ thống baseline với cùng tập
dữ liệu học nhằm đưa ra so sánh với hệ thống đề xuất. Hệ thống baseline được sử dụng ở đây là tiếp cận dựa trên luật, trình bày ở mục 5.4.
Khĩa luận định hướng miền ứng dụng là quan điểm của người dùng Twitter đối với đối với thiết bị di động cho nên tập dữ liệu tổng thể (universal dataset) được thu thập qua các truy vấn {“mobile”, “smart phone”, “phone”, “ipad”}.
5.2. Dữ liệu thực nghiệm 5.2.1. Thu thập dữ liệu 5.2.1. Thu thập dữ liệu
Dữ liệu dùng để huấn luyện mơ hình được thu thập trực tiếp từ giao diện lập trình Streaming API1 do Twitter cung cấp, các từ khĩa sử dụng để truy vấn gồm cĩ “iphone5” và “ipad”.
5.2.2. Chuẩn bị dữ liệu
Với những đặc điểm mạng xã hội đã nêu ở các chương trước thì cơng việc chuẩn bị dữ liệu trở nên rất quan trọng. Các dữ liệu tweets khi được tải về sẽ trích xuất lấy nội dung text. Tiếp đến sẽ được xử lí tự động qua bốn giai đoạn.
Giai đoạn 1: Loại bỏ các tweet trùng lặp và retweet. Qua quá trình thu thập dữ liệu,
tác giả nhận thấy dữ liệu một phần đáng kể các tweet là tương đối giống nhau, và hiện tượng này khá phổ biến. Một phần do chức năng retweet của Twitter, một phần do các ứng dụng trị chơi tự động trên Twitter đăng lên, ví dụ như Tribez-game2. Để loại bỏ các tweet trùng nhau này, sử dụng độ đo tương đồng Cosine3 với ngưỡng 0.7. Tức là nếu
𝐶𝑜𝑠𝑖𝑛 𝑆𝑖𝑚𝑎𝑙𝑎𝑟𝑖𝑡𝑦 (𝑎, 𝑏) ≥ 0.7 trong đĩ a là tweet đã được chọn thì b sẽ bị loại bỏ.
Giai đoạn 2: Vì dữ liệu tweets chứa nhiều lỗi sai chính tả và từ lĩng nên khĩa luận
sử dụng một từ điển chuẩn hĩa [26] cho mạng xã hội, ví dụ:
1 https://dev.twitter.com/docs/streaming-apis
2 http://tribez-game.com/
Khĩa luận tốt nghiệp Vũ Trọng Hĩa
44
Từ viết sai, slang Dạng chuẩn
Wooda would
b'tween between
Kidn kidding
10x thanks
1sec one second
2b4u too bad for you
Bảng 5.1: Ví dụ từ điển chuẩn hĩa
Giai đoạn 3: Nhằm thu được bộ dữ liệu tổng thể tốt cho việc trích xuất khía cạnh,
cũng như xây dựng bộ dữ liệu tổng thể, khĩa luận xây dựng một bộ phân lớp để tự động thu lấy các tweet mang quan điểm. Bộ phân lớp được xây dựng dựa trên thuật tốn học máy SVM và các đặc trưng sử dụng như cơng trình của Barbosa và Feng 2010 [2].
Giai đoạn 4: Gán nhãn một lượng dữ liệu cho mơ hình học máy.
Sau khi thực hiện xử lí dữ liệu qua ba giai đoạn ở trên, lượng dữ liệu được dùng cho thí nghiệm được mơ tả ở bảng dưới:
Tên thực thể Lượng dữ liệu gán nhãn
Lượng dữ liệu cho tập tổng thể
Iphone5 2000 tweets
500 000 tweets
Ipad 2000 tweets
5.2.3. Định dạng dữ liệu đầu vào của mơ hình
Dữ liệu đầu vào cho CRFs: Dữ liệu sau khi qua ba bước xử lí ở trên được đưa về định dạng của các thuật tốn học máy chuỗi. Mỗi token của tweet đối tượng đầu vào (instance). Dưới đây là một ví dụ cho dữ liệu gán nhãn:
Iphone5 B_Aspect ‘s O lithium B_Aspect battery I_Aspect is O very O Bad O
Trong định dạng ở trên, cột đầu tiên là cột dữ liệu quan sát, cột tiếp theo là chuỗi trạng thái. Mỗi token sẽ được ghi trên một dịng kèm theo nhãn của chúng. Các câu sẽ được ngăn cách bằng dịng trắng. Hình dưới đây là ví dụ về file dữ liệu đầu vào cho CRFs:
Khĩa luận tốt nghiệp Vũ Trọng Hĩa
46
Dữ liệu đầu vào cho mơ hình LDA: Dữ liệu sau khi qua ba bước chuẩn hĩa ở trên sẽ