Muc tiêu và giới hạn của đề tài: Mục tiêu của dé tài là nghiên cứu hiện thực một bộ phân lớp có thể phân loại hiệuquả các phản hồi thuộc nhiều miền dữ liệu khác nhau, sử dụng kỹ thuật nh
Trang 1ĐẠI HỌC QUỐC GIA TP HCMTRƯỜNG ĐẠI HỌC BÁCH KHOA
‘
TRAN MINH HUNG
RUT TRICH, PHAN LOAI VA TONG HOP THONG TIN
TU CAC PHAN HOI TREN MANG XA HOI
Chuyên ngành : KHOA HOC MAY TINH
Mã số: 60 48 01
LUẬN VÁN THẠC SĨ
TP HO CHÍ MINH, tháng 06 năm 2013
Trang 2CÔNG TRÌNH DUOC HOÀN THÀNH TAITRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG - HCM
Cán bộ hướng dẫn khoa học: PGS TS Quản Thành Thơ
Cán bộ chấm nhận xét 1: TS Nguyễn Đức Cường
Cán bộ châm nhận xét 2: TS Lê Thanh Vân
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, DHQG Tp HCMngày 23 tháng Ø7 năm 2013
Thanh phan Hội đồng đánh gia luận văn thạc sĩ gồm:1 Chủ tịch: TS Phạm Trần Vũ
2 Thư ký: TS Võ Thị Ngọc Châu3 Phản biện 1: TS Nguyễn Đức Cường4 Phản biện 2: TS Lê Thanh Vân5 Ủy viên: TS Trân Văn HoàiXác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyênngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI DONG TRUONG KHOA
ii
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM CONG H A XÃ HỘI CHỦ NGHĨA VIỆT NAMTRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Trần Minh Hùng MSHV: 10070481
Ngày, thang, năm sinh: 23/02/1987 Nơi sinh: Vĩnh Long
Chuyên ngành: Khoa học Máy tính Mã số : 60 48 01L TÊN DE TÀI:
RUT TRÍCH, PHAN LOẠI VÀ TONG HỢP THONG TIN TỪ CAC PHAN HOITREN MANG XA HOI
H NHIEM VU VÀ NOI DUNG:
e Nghiên cứu các kỹ thuật Sentiment Classification, đặc biệt la các kỹ thuật apdụng cho bài toán cross-domain
e Phát triển một hệ thống Sentiment Classificatione Ap dung hé thong da phat triển vào một lĩnh vực cu thée Thí nghiệm đo đạc tính hiệu quả của hệ thống
Ill NGÀY GIAO NHIEM VU: 02/07/2012IV NGAY HOAN THANH NHIEM VU: 30/11/2012
v CAN BO HUONG DAN: PGS TS Quan Thanh Tho
Tp HCM, ngay thang năm 2013
CAN BO HUONG DAN CHU NHIEM BO MON DAO TAO
TRUONG KHOA
iil
Trang 4LỜI CÁM ƠN
Tôi xin chân thành cảm ơn sự hướng dẫn, chỉ dạy và giúp đỡ tận tình của các thầycô giảng dạy sau đại học - Trường đại học Bách khoa thành phố Hồ Chí Minh.Tôi xin đặc biệt cảm ơn thầy PGS TS Quản Thành Thơ, người đã tận tình hướngdẫn, truyền đạt những kiến thức và kinh nghiệm quý báu giúp tôi có đầy đủ kiếnthức dé hoàn thành luận văn này
Và xin cảm ơn bạn bè và những người thân trong gia đình đã tin tưởng và truyền
thêm nghị lực cho tôi trong quá trình học tập, nghiên cứu của bản thân.Mặc dù đã cô găng rât nhiêu trong việc thực hiện luận văn, song với thời gian cóhạn, nên không thê tránh khỏi những thiêu sót, chưa hoàn chỉnh, rât mong nhận
được sự đóng góp ý kiến của quý Thầy Cô và các bạn
Học viên
Trần Minh Hùng
Trang 5TÓM TẮTVới sự phát trién của mạng xã hội, ngày càng nhiêu người tham gia và chia sẻ các ýkiên và đánh giá của họ về những sản phâm và dịch vụ mà họ đã sử dụng Các phảnhôi này cung cap nhiêu thông tin hữu ích, giúp người tiêu dùng đưa ra các quyétđịnh mua săm và các công ty cải thiện sản phâm của họ.
Việc rút trích các thông tin hữu ích từ lượng phản hồi quá lớn không phải là mộtvan dé đơn giản, đòi hỏi rất nhiễu thời gian và công sức Đề giải quyết van dé này,nhiều hướng nghiên cứu đã được đưa ra, một trong số đó là Sentiment Analysis.Nhiều bộ phân lớp đã được phát triển để phân loại một phản hồi là tích cực hay tiêucực Tuy nhiên, cảm xúc được thể hiện khác nhau trong các miền dữ liệu khác nhau;điều này ảnh hưởng đến độ chính xác của việc phân loại Các bộ phân lớp mất đi độ
chính xác khi áp dụng với những miền dữ liệu khác với miền huan luyện.
Mục tiêu của luận văn này là xây dựng một bộ phân lớp có thể hoạt động tốt trêncác miễn dữ liệu khác nhau
ASTRACTWith the growth of social networks, more and more people take part and share theircomments and reviews about products and services they used These commentsprovide useful information, helping consumers make shopping decisions andcompanies improve their products.
But the amount of these comments is so big that extracting useful information fromthem is not easy, require a lot of time and effort As a result, many researchdirections have been proposed, one of them is Sentiment Analysis.
Many classifiers have been developed to classify a comment as either positive ornegative However, sentiment is expressed differently in different domains, whichaffect the accuracy of sentiment classification Trained classifiers lose accuracywhen used on domains different from the training domain.
The aim of this thesis is to develop a classifier which can perform well on differentdomains.
XI
Trang 6LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của tôi Các số liệu, kết quả nêutrong luận án là trung thực, khách quan và chưa từng được công bé trong bat kỳ một
công trình nào khác.
Học viên
Trần Minh Hùng
XI
Trang 72.1 Cac phương pháp phân loại văn ban theo cảm XÚC << << << ss 3
2.2 Van đề được chú ý gần đây: Cross-domain classification 5
2.3 Domain AdapDfafÏOIN co G55 G0 G S6 0 999 986.6 0.99000606990066 06994.66968 7
2.4 Hướng tiếp cận của dé tài << << se << se 9E se SeSseseseesesee 11
Chương 3: CO SỞ LY THHUY Ế T 5-5 5 s2 9x 9xx s3 s92 133.1 Support Vector Machine (SVM) Go 0H HH n9 00666006666 66 13
3.2 Tiền xử lý văn bản << << + < 3E E3 693 99x95 e5 se sesee 153.3 Biểu điễn văn bản — Vector Space Model s-s << « «<< sese«e 16
N6) (00) 18
3.5 Danh giá kết quả phân loại << << << «<< << sex se ssesesse se 19Chương 4: THIET KE VÀ HIEN THUC CHƯƠNG TRÌNH 214.1 Phương pháp dé Xuất: - - 5< << 5< << SE SsEeEsSses.eseseesesee 214.2 Thiết kế và hiện thực chương trình: -5 << <s«e<sessese«sese<se 23
Trang 8Chương 1: GIỚI THIỆU1.1 Lý do chọn đề tài:
Các phản hồi, bình luận được chia sẻ bởi người dùng trên các trang mạng xã hội làmột nguồn dữ liệu phong phú, cung cấp nhiều thông tin hữu ích về ưu khuyết điểmcủa các sản phẩm, dịch vụ mà họ đã sử dung Các thông tin này góp phan khôngnhỏ vào việc quyết định mua sắm của người tiêu dùng và là cơ sở để nhà sản suất
xác định hướng phát triên, cải tiên các sản phâm.Tuy nhiên, với sự phát triên ngày càng mạnh của các mạng xã hội, sô lượng cácphản hoi được chia sẻ ngày càng nhiêu, việc rút trích ra các thông tin hữu ích là mộtvân đê khó khăn, tôn nhiêu thời gian và công sức.
Đề giải quyết vấn đề này, nhiều hướng nghiên cứu mới đã được đưa ra, một trongsố đó là Sentiment Classification (phan loại văn bản theo cảm xúc) Phân loại văn
bản theo cảm xúc là một trường hợp đặc biệt của bài toán phân loại văn bản, các
văn bản được phân loại dựa vào xu hướng cảm xúc của chúng Đối tượng phân loạitrong lĩnh vực này thường là các câu bình luận, phản hồi trên các mạng xã hội hoặccác bài đánh giá, phê bình về một sản phẩm, dịch vụ Các văn bản này thường được
phân loại làm hai lớp chính là tích cực và tiêu cực.
Một trong những thách thức cân giải quyết trong lĩnh vực phân loại văn bản theocảm xúc là vẫn đề Domain Dependence (phụ thuộc miền) Các bộ phân lớp đượcxây dựng chỉ đạt được kết quả phân loại tốt trên miền dữ liệu được huấn luyện, khiáp dụng sang miễn dữ liệu khác thì kết quả đạt được có độ chính xác rất thấp
Nguyên nhân là do có những từ chỉ xuất hiện ở một số miền dữ liệu nhất định, ví dụnhư từ “delicious” thường được dùng để thé hiện cảm xúc tích cực khi đánh giá cácmón ăn nhưng lại hiém khi được sử dụng trong các nhận xét về sách Như vậy mộtbộ phân lớp được huấn luyện trên tập dữ liệu là các nhận xét về sách sẽ không cótrọng số được học về từ “delicious”, do đó rất khó dé dùng bộ phân lớp này để phân
loại các nhận xét vê các món ăn.Ngoài ra, xu hướng tình cảm của một sô từ có thê thay đôi tùy theo ngữ cảnh mà nó
được sử dung Ví dụ, từ “unpredictable” mang ý nghĩa tích cực khi được dùng để
|
Trang 9đánh giá các bộ phim nhưng lại có ý nghĩa tiêu cực khi nói về kha năng vận hành ônđịnh cua một chiéc xe.
Hiện nay việc xây dựng một bộ phân lớp có khả năng phân loại tốt dữ liệu thuộcnhiều miền khác nhau là một van dé dang được quan tâm giải quyết
1.2 Muc tiêu và giới hạn của đề tài:
Mục tiêu của dé tài là nghiên cứu hiện thực một bộ phân lớp có thể phân loại hiệuquả các phản hồi thuộc nhiều miền dữ liệu khác nhau, sử dụng kỹ thuật nhận dạngcác f khoá phân loại độc láp miễn (domain-independent keywords)
Đề tài nay chi tập trung xử ly các phản hồi bang ngôn ngữ tiếng Anh va phươngpháp đẻ xuất chưa ứng dụng được các yếu tô của mạng xã hội dé nâng cao độ chính
xác của bộ phân lớp.1.3 Đóng gop của đề tài:
Với mục tiêu đề ra và kết quả thu được, những đóng góp mà đề tài mang lại là:e Xây dựng được bộ phân lớp cho dữ liệu thuộc nhiều miền dữ liệu Độ chính
xác của bộ phân lớp cao hơn so với một sô công trình nghiên cứu khác.
e Tìm hiểu và áp dụng kỹ thuật nhận dạng các tir khoá phân loại độc lap miễn(domain-independent keywords) dựa trên trọng số DeltaTFIDF dé phát hiệnthành công các từ khóa độc lập miền va phụ thuộc miền Cho thay VIỆC sudụng trọng số DeltaTFIDF trong phân loại văn bản theo cảm xúc cho kết quảphân loại tốt hơn so với trọng số TFIDE
e Góp phần chứng minh được việc kết hợp thêm thông tin về xu hướng tinhcảm của các từ trong feature vector cũng góp phan nâng cao hiệu quả trong
lĩnh vực phân loại văn bản theo cảm xúc.
Trang 10Chương 2: TONG QUANTrong chương này ta sẽ khảo sát một sô công trình nghiên cứu có liên quan mật
thiết đến dé tài
2.1 Các phương pháp phân loại văn ban theo cảm xúc
Phân loại văn bản theo cảm xúc là một trường hợp đặc biệt của bài toán phân loạivăn bản Đên nay, nhiêu nghiên cứu đã được tiên hành nhăm xây dựng các bộ phânlớp trong lĩnh vực này, trong đó nhìn chung có hai loại phương pháp chính:
> Dựa trên các giải thuật học máy (machine learning):
Với phương pháp này, bộ phân lớp được xây dựng dựa trên các giải thuật học máy
và tập dữ liệu huấn luyện gồm các văn bản đã được gán nhãn sẵn Độ chính xác củabộ phân lớp phụ thuộc khá nhiều vào quá trình gán nhãn cho các văn bản Các giải
thuật học máy thường được sử dụng là Support Vector Machine (SVM), NaiveBayes, maximum entropy, Phương pháp dựa trên các giải thuật học may đã đạtđược độ chính xác khá cao với bài toán phân loại văn bản truyền thông theo chu dé.Pang et al [10] đã khảo sát hiệu qua của phương pháp nay với bài toán phân loạivăn bản cảm xúc Các giải thuật học may Naive Bayes, maximum entropy vàsupport vector machines (SVMs) được áp dụng trên tập dữ liệu là những nhận xétvề phim ảnh Kết quả thực nghiệm cho thay độ chính xác dat được thấp hơn so với
phân loại văn bản theo chủ để truyền thống Nguyên nhân dẫn đến điều này là dotrong một số nhận xét về phim ảnh, người nhận xét cố ý đưa ra đánh giá tong quát
trái ngược với các phân tích được trình bày trước đó.Ví dụ xét các câu nhận xét vê một bộ phim như sau:“This film should be brilliant It sounds like a great plot, the actors are first grade,and the supporting cast is good as well, and Stallone is attempting to deliver a goodperformance However, it can't hold up”
Tuy trong văn ban có sử dung nhiều từ mang xu hướng tích cực như “brilliant”,
32 ce
“great”, “first grade”, “good” nhưng day lại là một nhận xét tiêu cực.
Trang 11Với những trường hợp này, xu hướng tình cảm của văn bản thường trái ngược vớixu hướng tình cam của hau hêt các từ trong văn ban, do đó các bộ phân lớp khó đưa
ra kết quả phân loại chính xác
> Dựa trên xu hướng tình cảm của các từ vựng
Với phương pháp này, việc phân loại được thực hiện chỉ dựa trên xu hướng tìnhcảm của các từ vựng, ta không cân sử dụng tập dữ liệu đã gan nhãn dé huân luyện.
Turney [14] đã dé ra một giải thuật tiêu biểu cho phương pháp này Một nhận xétđầu vào sẽ được phân loại là tích cực hay tiêu cực qua một giải thuật đơn giản gom
ba bước như sau:
a Từ nhận xét đầu vào, áp dụng bộ gan nhãn từ loại (part-of-speech tagger) déxác định trong đó các cum từ có chứa các từ mang nhiều xu hướng tình cảm
như tính từ, phó từ.
b Ước lượng xu hướng tình cảm của các cụm từ đã được xác định Chon hai từ
“exellent” và “poor” làm đại diện cho các từ tích cực và tiêu cực, dựa trên
độ liên kết ngữ nghĩa của các cụm từ với hai từ này để xác định xu hướngtình cảm của chúng Cụm từ có mối liên kết với từ “excellent” nhiều hơn từ
“poor” thì mang nghĩa tích cực, ngược lại sẽ mang nghĩa tiêu cực.c Tinh trung bình xu hướng tình cảm của tat cả các cụm từ, từ đó phân loại câu
nhận xét là tích cực hay tiêu cực.Turney đã khảo sát trên tập dữ liệu gôm các câu nhận xét về sản phâm và phim ảnh.Tương tự với kêt quả cua Pang et al [10], xu hướng cảm xúc của các nhận xét vêphim anh có thê không phụ thuộc vào xu hướng cảm xúc của các cụm từ trong câu,độ chính xác của bộ phân lớp chỉ đạt khoảng 66%.
Dé gia tăng độ chính xác của các phương pháp nay, ta có thé áp dụng thêm các kỹ
thuật xử lý ngôn ngữ tự nhiên như các từ phủ định, từ tăng cường hoặc giảm nhẹmức độ Ví dụ như bộ phân lớp SO-CAL (the Semantic Orientation CALculator)của Taboada et al [13] SO-CAL đã được khảo sát trên một vài tập dữ liệu khác
nhau và cho kết quả phân loại khá tốt, ôn định, không phụ thuộc nhiều vào một
miên dữ liệu cụ thê nào.
Trang 12Tóm lại, có hai loại phương pháp chính để xây dựng bộ phân lớp trong lĩnh vực
phân loại văn bản theo cảm xúc Trong đó, một loại dựa trên các giải thuật học máy
để tạo ra các bộ phân lớp sử dụng các tập dữ liệu huấn luyện Loại thứ hai khôngcần sử dụng các tập dữ liệu huấn luyện, các bộ phân lớp được tạo ra dựa trên tính
toán xu hướng tình cảm của các từ và các kỹ thuật xử lý ngôn ngữ tự nhiên.
2.2 Vẫn đề được chú ý gần đây: Cross-domain classification
Nhiều nghiên cứu đã được thực hiện để so sánh giữa hai loại phương pháp trên.Chaovalit và Zhou [3] đã áp dụng cả hai loại phương pháp để phân loại các nhận xétvề phim ảnh Kết quả cho thay phương pháp dựa trên giải thuật học máy cho kết quatốt hơn nhưng can có thời gian huấn luyện dài và yêu cau tập dữ liệu huan luyện
phải đủ lớn.
Hau hết các nghiên cứu được thực hiện trên tập dữ liệu là các nhận xét về phim ảnhvà các sản phẩm thu từ các trang web đánh giá Các văn bản loại này thường có nộidung dài và chỉ tập trung vào một loại đối tượng, sản phẩm cụ thể Tuy nhiên, trên
các trang mạng xã hội, các nhận xét, đánh giá thường mang tính tương tác xã hội
nhiều hon Các văn bản được viết ngắn gọn, không tuân theo một chuẩn nào và cóthé đề cập đến các đối tượng thuộc nhiều miền dữ liệu khác nhau Vậy với các nhậnxét loại này, phương pháp phân loại nào sẽ cho kết quả tốt hơn?
Để trả lời câu hỏi này, Paltoglou et al [11] đã khảo sát hiệu quả của hai phươngpháp phân loại với tập dữ liệu là các đoạn đối thoại, phản hồi của người dùng trêncác trang mạng xã hội Kết quả thực nghiệm cho thấy, trong trường hợp này, các
phương pháp dựa trên xu hướng tình cảm của từ vựng đạt hiệu quả cao hơn, đặc biệtlà với các văn bản có nội dung ngan, chi gom một hoặc hai câu Trong khi đó, các
bộ phân lớp dựa trên giải thuật học máy cho kết quả với độ chính xác rất thấp
Nguyên nhân dân đên két quả trên là do trong các miên dữ liệu khác nhau, cảm xúcđược thê hiện của một sô từ cũng mang ý nghĩa khác nhau Ví dụ, từ “long” mang ýtích cực khi nói về thời gian sử dụng của pin nhưng khi được dùng dé mô tả vê thờigian thực thi của một chương trình máy tính thì lại mang ý tiêu cực.
Trang 13Hơn nữa, có những từ chỉ xuất hiện ở một số miền dữ liệu nhất định, ví dụ như từ“delicious” thường dùng để thé hiện cảm xúc tích cực khi đánh giá các món ănnhưng lại hiếm khi được sử dụng trong các nhận xét về sách Như vậy một bộ phânlớp được huấn luyện trên tập dữ liệu là các nhận xét về sách sẽ không có trọng SỐđược học về từ “delicious”, do đó rất khó để dùng bộ phân lớp nay dé phân loại các
nhận xét về các món ăn.
Hình 2.1 trình bày các kết quả phân loại đạt được do Blitzer et al [1] khi sử dụngcác bộ phân lớp được huấn luyện trên một miễn dữ liệu để phân loại cho các dữ liệuthuộc miền khác Dữ liệu là các câu nhận xét về sản phẩm thuộc các miền khác
nhau như: books, dvd, electronics va kitchen appliances.Đường den dam là độ chính xác ma bộ phân lớp dat được khi phân loại các dữ liệu
cùng miền huấn luyện, các cột baseline là độ chính xác đạt được khi dùng phân loạidữ liệu thuộc các miền khác Các cột SCL, SCL-MI là độ chính xác đạt được khi ápdụng biện pháp domain adaptation (thích ứng miền) dé nâng cao hiệu quả phân loại
dữ liệu thuộc các miên khác.
90 -— books —— baseline OSCL ESCL-MI dvd ——85
70.7 70.965 7 T T = T T T 1
B->E K->E B->K D->K E->K
Hình 2.1: Kết qua sử dung domain adaptation giữa các miễn dữ liệu, [1]
Trang 14Kết quả cho thấy các bộ phân lớp được xây dựng theo phương pháp học máy chỉcho kết quả phân loại tốt trên miền dữ liệu mà nó được huấn luyện (trên 80%), khiáp dụng sang tập dữ liệu thuộc các miền khác thì kết quả đạt được có độ chính xácrất thấp (chỉ đạt 70.8% khi phân loại dit liệu miền electronics băng bộ huấn luyệnthuộc miền books) Ngoài ra, còn có sự phân nhóm giữa các miền dữ liệu, dữ liệuthuộc các miền kitchen appliances và electronics khá giỗng nhau nên cùng thuộcmột nhóm Do đó, kết quả đạt được với các trường hợp K->E và E->K đều có độ
chính xác cao.
Tóm lại, các bộ phân lớp được xây dựng theo phương pháp học máy chỉ cho kết quảphân loại tốt trên miền dữ liệu ma nó được huấn luyện, khi áp dụng sang tập dữ liệuthuộc các miền khác thì kết quả đạt được có độ chính xác rất thấp Đề nâng cao hiệuquả thì tập huấn luyện đòi hỏi phải chứa dữ liệu từ nhiều miền khác nhau Tuynhiên, việc thu thập và gan nhãn các dữ liệu cần thiết cho tập huấn luyện là mộtcông việc rat tốn thời gian, công sức và chi phí Do đó, một hướng giải quyết mớiđã được đề ra, đó là cross-domain classification, xây dựng một bộ phân lớp có khảnăng phân loại các tập dữ liệu thuộc nhiều miền khác nhau, trong đó domainadaptation là một trong số các hướng tiếp cận chính
2.3 Domain Adaptation
Nhu cau can thiết của domain adaptation phát sinh trong nhiều bài toán phân loạithực tế, khi có sự không phù hợp về phân bố dữ liệu giữa miền kiểm tra và miềnhuấn luyện Mục tiêu của domain adaptation là xây dựng một bộ phân lớp vữngchắc (robust) băng cách làm giảm sự khác biệt giữa các miền dữ liệu Sau đây ta sẽxem xét một số công trình nghiên cứu tiêu biéu về domain adaptation trong lĩnh vực
phân loại văn bản theo cảm xúc.Blitzer et al [1] áp dụng giải thuật structural correspondence learning (SCL) với cácbước cu thé như sau:
a Tu tập dữ liệu đã được gan nhãn từ miễn dữ liệu gôc và các dữ liệu chưađược gan nhãn ở cả hai miễn dữ liệu gôc và dữ liệu dich, chọn ra một sô đặctính mâu chốt (pivot features) xuât hiện thường xuyên ở cả hai miền dữ liệu.
Trang 15b Dựa vào các đặc tính mâu chôt này xây dựng một projection matrix có khanăng kêt nôi các đặc tính miễn dữ liệu đích vào không gian đặc tính (featurespace) của miên dữ liệu gôc.
c Sử dụng không gian đặc tính này, bộ phân lớp huấn luyện được có thé đạt
được kêt qua tot ở cả hai miễn đữ liệu.Kết qua phân loại của giải thuật SCL phụ thuộc nhiều vào cách chọn các pivot
features, đây cũng chính là điểm mở rộng của giải thuật SCL khi được áp dụng vào
lĩnh vực phân loại văn bản theo cảm xúc Trong nghiên cứu này, các pivot featuresđược chọn theo các cách sau:
e Dua trên tần số xuất hiện của từ (cách chọn theo giải thuật SCL) Các từ xuất
hiện thường xuyên ở cả hai miên dữ liệu sẽ được chọn làm pivot features.
e Dựa trên tần số xuất hiện của từ va lượng thông tin tương hỗ (mutualinformation) của nó với các nhãn gốc Các từ xuất hiện thường xuyên ở cảhai miễn dữ liệu được là các ứng cử viên, từ nào có lượng thông tin tương hỗcao nhất với các nhãn gốc sẽ được chọn lam pivot features (ký hiệu cách
miên giữ vai trò là các pivot features.b Xây dựng một đồ thị phân đôi với mỗi quan hệ giữa các đặc tính được xác
định dựa vào một số phương pháp, ví dụ như tần số xuất hiện cùng nhau.c Dựa vào các từ độc lập miễn, sử dụng giải thuật SFA để liên kết các từ phụ
thuộc miễn từ hai miễn khác nhau thành các cum thống nhất Các cụm này cóthể được dùng để rút ngăn sự khác biệt giữa các từ phụ thuộc miền giữa hai
Trang 16miên dữ liệu, qua đó góp phan nâng cao hiệu quả việc huan luyện bộ phan
lớp trên miền dữ liệu đích.Việc lựa chọn các đặc tính độc lập miền được tiễn hành theo một số cách như sau:
e Dựa trên tần số xuất hiện của từ trong cả hai miền dữ liệu (SFAro).e Dựa trên thông tin tương hỗ giữa từ với nhãn của miền dữ liệu sốc (SFAmi).e Dựa trên thông tin tương hỗ giữa từ với miền dữ liệu (SFAp;) Từ có lượng
thông tin tương hỗ cao là từ phụ thuộc miền, ngược lại là từ độc lập miễn
Cả hai phương pháp trên đều chỉ sử dụng dữ liệu từ một miền dữ liệu sốc đã đượcgán nhãn để xây dựng bộ phân lớp phân loại cho dữ liệu chưa được gán nhãn thuộc
một miên khác.
Với ý tưởng dữ liệu từ nhiều miễn khác nhau có thể hỗ trợ lẫn nhau để tạo nên một
bộ phân lớp đa miễn, Bollegala et al [2] sử dụng kỹ thuật feature expansion để tạobộ từ điên các từ có xu hướng cảm xúc:
e Tu các tập dữ liệu đã được gan nhãn hoặc chưa gan nhãn thuộc các miên dữliệu gôc và tập dữ liệu chưa được gan nhãn thuộc miên dữ liệu đích, chọn cáclexicon elements là các unigrams và bigrams.
e Tính toán độ liên quan (relatedness) giữa các lexicon elements va nhóm cáclexicon elements có liên quan với nhau đê tạo thành một bộ từ điên(thesaurus) Bộ từ điên này sẽ chứa thông tin vê độ liên quan giữa cáclexicon elements trong các miền dữ liệu dựa trên ngữ cảnh mà nó xuât hiện.
e Bộ từ điển này được dùng dé mở rộng không gian các đặc tính khi tiến hànhhuấn luyện bộ phân lớp sử dụng giải thuật hồi quy logistic LI regularization.Phương pháp nay sử dụng tat cả các đặc tính trong quá trình tạo bộ từ điển và có thétạo ra bộ từ điển dựa vào số lượng lớn các tap dữ liệu chưa được gan nhãn để nângcao hiệu quả phân loại trên miền dữ liệu đích Kết quả thí nghiệm cũng cho thấy bộphân lớp được huấn luyện bởi dữ liệu thuộc nhiều miền cho kết quả tốt hơn so với
bộ phân lớp được huan luyện bởi môi miễn dữ liệu riêng lẻ.
Trang 17Li và Zong [4] cũng đưa ra hai phương pháp để kết hợp tập dữ liệu từ nhiều miềnkhác nhau để xây dựng bộ phân lớp đa miền: Feature-level fusion va Classifier-
level fusion.
e Feature-level fusion: két hop các đặc tinh từ các miền khác nhau thành mộttập các đặc tính thống nhất, sau đó dùng nó để huấn luyện một bộ phân lớp
e Classifier-level fusion: với mỗi miễn dữ liệu xây dựng một bộ phân riêng
biệt, sau đó kết hợp các bộ phân lớp này để tạo ra một bộ phân lớp đa miễn
Training Data Training Data 'ã Training Data Training Data Training Data Training Data
from Domain / from Domain 2 from Domain m from Domain / from Domain? | *** from Domain m" Y ae Ỷ \
Training Data from all Domains Base Classifier Base Classifier Base Classifier
using a Uniform Feature Vector 1 2 ~ m
Testing Data Testing Data Testing Data
from Domain / from Domain 2 dở from Domain m \ \ q
Multiple Classifier Multiple Classifier Multiple ClassifierSystem / System 2 re System m
Ẳ Ẳ ẲTesting Data Testing Data Testing Data
from Domain / from Domain 2 do from Domain m
Hình 2.2: Hướng tiếp cận Feature-level fusion va Classifier-level fusion, [4]Thực nghiệm cho thay hướng tiếp cận classifier-level fusion cho kết quả tốt hon sovới feature-level fusion và các bộ phân lớp cơ bản riêng biệt của mỗi miễn Vớihướng tiếp cận Classifier-level fusion, ta có thé dựa vào độ liên quan giữa các miềndữ liệu ma gán trọng số cao hơn cho bộ phân lớp thuộc các miễn có dữ liệu tương tự
với dữ liệu thuộc miền cân phân loại.
Tóm lại, các nghiên cứu đã đưa ra được một phương pháp tổng quát để giải quyếtvan dé cross-domain classification Đó là domain adaptation, dựa trên việc chuyểnđổi cách biểu diễn dữ liệu của miền dữ liệu gốc và miền dữ liệu đích nhằm làmgiảm sự khác biệt giữa các miền dữ liệu Nhìn chung, có hai khó khăn chính đối với
phương pháp này:
10
Trang 18e Việc xác định các đặc tính mang xu hướng cảm xúc như nhau giữa miễn dữliệu gôc và miền dữ liệu đích làm các pivot features.
e Dua trên môi quan hệ giữa các pivot features và các đặc tính khác của cácmiên dữ liệu dé làm giảm sự khác nhau vê phân bô dữ liệu của các miễn.Hiệu quả của việc phân lớp phụ thuộc nhiêu vào việc lựa các pivot features Các đặctính được chọn phải là các từ khóa có vai trò quan trọng trong việc phân loại vănbản, và mang ý nghĩa như nhau giữa các miễn dữ liệu, nên chúng phải là các từmang xu hướng cảm xúc độc lập miền.
Trong nghiên cứu cua Blitzer et al [1] va Pan et al [8], các pivot features được
chon có phan phụ thuộc vào kinh nghiệm (heuristically).e Phuong pháp chọn dựa trên tần số xuất hiện thường xuyên của từ không
thích hợp với bài toán phân loại văn bản theo cảm xúc Các từ được chọn
phân lớn là từ không mang xu hướng cảm xúc.e Phương pháp chọn dựa trên thông tin tương hỗ giữa từ với nhãn của miễn dữ
liệu sốc xác định được các từ mang xu hướng cảm xúc nhưng không đảm
bảo đó là các từ độc lập miền.
e Phương pháp chon dựa trên thông tin tương hỗ giữa từ với miền dữ liệu,không phải tất cả các từ đều có thể chia ra được một cách rõ ràng là phụthuộc miễn hay độc lập miễn
2.4 Hướng tiếp cận của đề tài
Gần đây, cross-domain classification là vấn đề nỗi bật trong lĩnh vực phân loại vănbản theo cảm xúc Nhìn chung các nghiên cứu đưa ra được một giải pháp tổng quát,đó là domain adaptation Tuy nhiên, kết quả phân lớp phụ thuộc khá nhiều vào việc
xác định các từ khóa độc lập miên làm các pivot feature.
Nội dung nghiên cứu của dé tài là tìm hiểu và hiện thực một bộ phân lớp có théphân loại các phản hồi thuộc nhiễu miền dữ liệu khác nhau, sử dụng kỹ thuật nhậndạng các tir khoá phân loại độc lap miễn (domain-independent keywords) dựa trênchỉ số DeltaTFIDF
II
Trang 19Thu thập và gan nhãn các phan hôi về những chu đề thuộc nhiêu miên dữ
liệu khác nhau (gia sử là A, B, C và D), day chính là tap dữ liệu huấn luyện.Xác định từ khóa độc lập miễn và từ khóa phụ thuộc miễn từ tập huấn luyện.Từ khóa độc lập miễn là từ có xu hướng tình cảm như nhau trên tất cả cácmiền dữ liệu Từ khóa phụ thuộc miễn là từ có xu hướng tình cảm thay đổi
theo ngữ cảnh.Dựa vào môi quan hệ giữa các từ khóa độc lập miễn với các từ trong văn bản(ví dụ như dựa trên tân sô xuât hiện cùng nhau) đê xác định các từ mang xu
hướng tình cảm trong các văn bản chưa gán nhãn thuộc tập huấn luyện
Biên đôi văn bản thành các feature vector, sau đó tiên hành huan luyện bộphân lớp.
Ap dụng bộ phân lớp học được để tiến hành phân loại cho các phản hôi vềmột chủ dé, một đối tượng mới (E) chưa được gan nhãn
12
Trang 20Chương 3: CƠ SỞ LÝ THUYETChương này ta sẽ trình bày cơ sở lý thuyết của một số kỹ thuật được sử dụng trong
quá trình thực hiện dé tài
3.1 Support Vector Machine (SVM)
SVM là bộ phân lớp dựa trên lý thuyết học thống kê, do Vladimir Vapnik đưa ra.Y tưởng cơ bản của SVM là tìm kiếm một hyperland (siêu phăng) dé phân chia dữliệu là các điểm trong không gian nhiều chiều vào các lớp phân hoạch khác nhau.Điểm mau chốt là đảm bảo sao cho margin (lề), khoảng cách từ hyperland đến cácphân hoạch là lớn nhất
Ví dụ với bài toán phân loại hai lớp: cho trước n điểm trong không gian, mỗi điểmthuộc vào một lớp với ký hiệu tương ứng là O hoặc L1 Dé phân lớp cho các điểmtrên, ta có thé dùng nhiều cách khác nhau, như trong hình 3.1 các đường thang L1,L2 và L3 đều có thể phân loại tốt các điểm thành hai lớp riêng biệt
A
Xo
Pe„
A / x,Hình 3.1: Một số cách phân lớp dữ liệu, [7] trang 112.Tuy nhiên với phương pháp SVM, bộ phân lớp tim được sẽ là cách phân lớp tối ưu.Ví dụ trong hình 3.2, hyperland tìm được là đường thắng w.x - b = 0, chia các điểmthành hai lớp phân hoạch riêng biệt với khoảng cách từ đường thăng đến điểm gầnnhất là lớn nhất
13