File dữ liệu đầu vào cho LDA

Một phần của tài liệu Vu trong hoa EXTRACTING ASPECT IN OPINIO (Trang 59)

Bộ tách từ tokenizer, từ gốc lemma, gán nhãn từ loại (POSTagger), trích xuất các phụ thuộc (parser) bộ coreNLP của Stanford1 được sử dụng.

5.3. Đánh giá

5.3.1. Phương pháp đánh giá

Khĩa luận sử dụng phương pháp đánh giá chéo 10 lần (10-fold cross-validation). Quá trình huần luyện được thực hiện 10 lần. Tại mỗi lần huấn luyện, dữ liệu huấn luyện được chia thành 10 phần bằng nhau, trong đĩ 1 phần để kiểm tra, 9 phần được trộn lại để huấn luyện. Ở mỗi bước lặp của quá trình huấn luyện, hệ thống tiến hành đo các chỉ số đánh giá độ chính xác: độ chính xác (precision), độ hồi tưởng (recall), độ đo F1.

5.3.2. Các đại lượng đo độ chính xác

Việc đánh giá độ chính xác của mơ hình trích xuất khía cạnh là rất quan trọng. Nĩ cho phép ta so sánh độ chính xác của mơ hình giữa các tập dữ liệu huấn luyện, hơn nữa, cĩ thể so sánh độ chính xác của mơ hình do ta xây dựng với những mơ hình trích xuất khía

cạnh đã cĩ hiện nay. Cĩ nhiều cách để đánh giá độ chính xác của mơ hình gãn nhãn và phân đoạn chuỗi, nhưng cách phổ biến nhất hiện này là sử dụng các đơ đo như độ chính xác (precision), độ hồi tưởng (recall), độ đo F1. Độ đo F1 là một chỉ số cân bằng giữa độ chính xác và độ hồi tưởng. Nếu độ chính xác và độ hồi tưởng cao và cân bằng thì độ đo F1 lớn, cịn độ chính xác và hồi tưởng nhỏ và khơng cân bằng thì độ đo F1 nhỏ. Mục tiêu của ta là xây dựng mơ hình trích xuất khía cạnh cĩ chỉ số F1 cao.

Độ đo cho từng nhãn được tính theo các cơng thức sau:

𝑅 𝑎𝑙𝑙 = 𝑇𝑃 𝑁 (5.2.1) 𝑃𝑟 𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃 𝑛 (5.2.2) 𝐹1 = 2𝑅 𝑎𝑙𝑙  𝑃𝑟 𝑖𝑠𝑖𝑜𝑛 𝑅 𝑎𝑙𝑙 𝑃𝑟 𝑖𝑠𝑖𝑜𝑛 (5.2.3) Trong đĩ:

 Kí hiệu TP là số lượng khía cạnh được hệ thống gán nhãn đúng

 Kí hiệu N là số lượng token trong văn bản là khía cạnh

 Kí hiệu n là số lượng token được hệ thống gán là khía cạnh.

Sau khi cĩ các độ đo, ta tính kết quả trung bình cho từng độ đo của bước lặp tương ứng. Cĩ 2 loại kết quả trung bình là Avg1 và Avg2:

 Kết quả trung bình loại Avg1 cho một độ đo là một số được tính bằng trung bình cộng độ đo tương ứng.

 Kết quả trung bình loại Avg2 là kết quả được tính trên kết quả tổng thể. Trong tường hợp các độ đo tính dựa trên từ thì kết quả trung bình loại Avg2 bằng kết quả trung bình loại Avg1.

Khĩa luận tốt nghiệp Vũ Trọng Hĩa

48

5.4. Hệ thống baseline

Trong hệ thống baseline được lựa chọn để so sánh mơ hình đề xuất là phương pháp trích xuất dựa trên từ quan điểm (lexicon-based method), sử dụng từ quan điểm và các quan hệ từ bộ trích xuất phụ thuộc (dependency parser), được các cơng trình của Zhuang và cộng sự năm 2006, cơng trình của Qui và cộng sự năm 2011 [27] sử dụng.

Các mẫu quan hệ phụ thuộc Khía cạnh Từ mang quan điểm

NN – amod – JJ NN JJ

NN – nsubj – JJ NN JJ

NN – nsubj –VB – dobj – NN NN đầu tiên NN cuối cùng

VB – advmod –RB VB RB

Bảng 5.3: Các luật của hệ thống baseline

5.5. Mơi trường thực nghiệm 5.5.1. Hệ thống phần cứng 5.5.1. Hệ thống phần cứng

Các thơng số phần cứng của hệ thống cài đặt thử nghiệm phương pháp được thể hiện trên bảng dưới đây:

Thành phần Chỉ số

Bộ vi xử lý Intel Core i5-2430M (240GHz  4)

Bộ nhớ trong 4GB

Bộ nhớ ngồi 500GB

Hệ điều hành Window 7 64bit Bảng 5.4: Mơi trường phần cứng

5.5.2. Hệ thống phần mềm sử dụng

Quá trình thử nghiệm hệ thống cĩ sử dụng các phần mềm:

CoreNLP1: đây là một bộ cơng cụ khá đầy đủ cho xử lý ngơn ngữ tự nhiên, cung cấp API lập trình cho java. Các cơng cụ chính mà nĩ cung cấp như: tách từ, tách câu, gán nhãn từ loại, từ gốc (lemma), nhận diện thực thể (ner), phân tích cú pháp (parser), đồng tham chiếu(co-reference). Bộ cơng cụ này được đưa ra bởi nhĩm nghiên cứu xử lí ngơn ngữ tự nhiên của của trường đại học Stanford2.

Mallet3 là bộ cụ cho xử lí ngơn ngữ tự nhiên bằng phương pháp xác suất thống kê, giải quyết các bài tốn: phân lớp văn bản, phân cụm, mơ hình chủ đề, gán nhãn-phân đoạn chuỗi, trích xuất thơng tin và các ứng dụng học máy khác cho văn bản. Đối với bài tốn về mơ hình chủ đề, mallet cung cấp cài đặt cho lấy mẫu Gibbs rất nhanh và cĩ khả năng xử lí dữ liệu lớn. Cịn đối với bài tốn học máy chuỗi, mallet cung cấp các cài đặt thuật tốn HMMs và linear chain CRFs.

Ngồi ra một số phần mềm khác được sử dụng như: Eclipse Indigo – Eclipse Foundation …

1 http://www-nlp.stanford.edu/software/corenlp.shtml

2 http://www-nlp.stanford.edu/

Khĩa luận tốt nghiệp Vũ Trọng Hĩa

50

5.6. Kết quả thực nghiệm

Bảng kết quả của mơ hình khi thay đổi các tham số của LDA.

Tham số F1 Fold 1 Fold 2 Fold 3 Fold 4 Fold 5 Fold 6 Fold 7 Fold 8 Fold 9 Fold 10 TB k=10 n=1 72.8 86.87 84.09 76.75 78.87 78.6 79.22 84.3 75.3 85 80.18 k=10 n=2 76.42 80.75 84.1 76.35 75.5 79.7 84.43 81.3 75.3 76.77 79.062 k=20 n=2 64.54 88.62 85.43 76.74 76.89 80.08 79.18 82.44 78.53 79.7 79.26 k=20 n=3 71.48 89.38 80.46 76.35 73.27 80.08 78.3 81.12 73.97 80.14 78.455 k= 60 n= 3 64.2 89.1 81.57 73.21 77.31 80.3 85.23 82.84 76.93 84.1 79.48 k=60 n=2 66.6 88.31 82.81 74.74 74.87 75.96 83.64 80.91 78.21 83.86 78.99

Bảng 5.5: Kết quả khi thay đổi tham số của LDA k: Số chủ đề xác định trước cho mơ hình LDA k: Số chủ đề xác định trước cho mơ hình LDA

Bảng dưới đây đưa ra kết quả của các thực nghiệm đã nêu ở mục 5.1. Đặc Trưng F1 Fold 1 Fold 2 Fold 3 Fold 4 Fold 5 Fold 6 Fold 7 Fold 8 Fold 9 Fold 10 TB CB 60.25 85.7 77.9 77 75.3 82.4 80 82.8 76.2 82.16 77.971 KCĐ 63.95 86.38 79.6 76.74 74.91 82.42 78.33 83.6 77.84 83.61 78.738 TCĐT 72.8 86.87 84.09 76.75 78.87 78.6 79.22 84.3 75.3 85 80.18 BL 16.3%

Bảng 5.6: Kết quả thực nghiệm so sánh các đặc trưng

Trong bảng phía trên: CB - Đặc trưng cơ bản (Thực nghiệm 1), KCĐ - Tồn bộ đặc trưng của mơ hình đề xuất trong đĩ khơng cĩ đặc trưng chủ đề (Thực nghiệm 2), TCĐT

- Tất cả các đặc trưng (Thực nghiệm 3). BL - Baseline (Thực nghiệm 4).

5.7. Đánh giá và phân tích kết quả

Từ bảng kết quả 5.5, ta cĩ thể thấy hiệu quả của phương pháp học máy nĩi chung và những đĩng gĩp của đặc trưng chủ đề ẩn đối với mơ hình đề xuất. Kết quả của mơ hình luơn cao hơn nhiều so với mơ hình baseline. Sự nhập nhằng và tự do về ngữ pháp của tweet cĩ thể giải thích cho điều này. Mơ hình baseline sử dụng bộ phân tích cú pháp, do đĩ kết quả là rất thấp khi thực hiện trên dữ liệu tự do như tweet.

Đặc trưng chủ đề ẩn đặc biệt cĩ ý nghĩa cho mơ hình, nâng cao độ chính xác F1 từ 78.7 lên 80.18%. Các đặc trưng cơ bản gồm token, lemm, POS cũng tỏ ra rất hiệu quả, do dữ liệu chúng tơi sử dụng khơng quá rộng, và các khía cạnh lặp lại tương đối nhiều. Các đặc trưng quan điểm, cú pháp làm chỉ làm tăng độ chính xác lên khoảng 1% so với các đặc trưng cơ bản. Điều này cũng cĩ thể giải thích do tự do về ngữ pháp của tweet.

Khĩa luận tốt nghiệp Vũ Trọng Hĩa

52

Để tìm ra các tham số tối ưu cho mơ hình LDA, khĩa luận thực hiện một số thực nghiệm nhỏ và rút ra rằng các đặc trưng chủ đề đĩng gĩp được nhiều nhất khi cố định số chủ đề cho mơ hình LDA là 10 và chỉ sử dụng một nhãn chủ đề làm đặc trưng cho học máy CRFs, bảng 5.6.

Kết luận

Khai phá quan điểm mức khía cạnh trong miền ứng dụng mạng xã hội Twitter là chủ đề nghiên cứu thới sự vì tính khoa học và ứng dụng cao. Khĩa luận tập trung giải quyết bài tốn trích xuất khía cạnh là bài tốn quan trọng trong khai phá quan điểm mức khía cạnh trên twitter. Kết quả nghiên cứu chính của khĩa luận được tổng hợp như trình bày dưới đây:

 Khĩa luận đã trình bày ý nghĩa của khai phá quan điểm trên Twitter để nêu bật động lực nghiên cứu của khĩa luận, đồng thời, bài tốn trích xuất khía cạnh trong miền ứng dụng Twitter được trình bày một cách tường minh.

 Hai nền tảng để giải quyết bài tốn trích xuất khía cạnh trong miền ứng dụng Twitter mà khĩa luận hướng tới là học máy CRFs và mơ hình chủ đề ẩn được trình bày và phân tích.

 Khĩa luận đã trình bày và phân tích một số mơ hình khai phá quan điểm liên quan, thơng qua đĩ cho thấy mơ hình trích xuất khía cạnh trong miền ứng dụng Twitter dựa trên CRFs sử dụng mơ hình chủ đề ẩn mà khĩa luận đề nghị vừa cĩ tính mới vừa cĩ triển vọng hiệu quả.

 Kết quả thực nghiệm cho thấy mơ hình đề xuất bước đầu đáp ứng kỳ vọng về tính hiệu quả.

Tuy nhiên do thời gian và kinh nghiệm, việc thi hành mơ hình cịn cĩ hạn chế như việc thu thập dữ liệu chưa thật phong phú, chỉ sử dụng mơ hình chủ đề ở mức đơn giản (LDA) …

Trong thời gian tới, khĩa luận sẽ được phát triển thêm bằng cách sử dụng các mơ hình chủ đề phức tạp hơn LDA. Ngồi ra, hiện tại mạng xã hội cũng đang phát triển rất mạnh Việt Nam, do đĩ nếu xây dựng được mơ hình tương tự trên tiếng Việt sẽ cĩ nhiều ứng dụng.

54

Tài liệu tham khảo

[1] Asur, Sitaram and Huberman, Bernardo A, "Predicting the Future with Social Media," in Proceedings of the 2010 IEEE/WIC/ACM International Conference

on Web Intelligence and Intelligent Agent Technology - Volume 01, IEEE

Computer Society, 2010, pp. 492-499.

[2] Barbosa, Luciano and Feng, Junlan, "Robust sentiment detection on Twitter from biased and noisy data," in Proceedings of the 23rd International Conference on Computational Linguistics: Posters, Beijing, China, 2010.

[3] Meng, Xinfan and Wei, Furu and Liu, Xiaohua and Zhou, Ming and Li, Sujian and Wang, Houfeng, "Entity-centric topic-oriented opinion summarization in twitter," in Proceedings of the 18th ACM SIGKDD international conference on

Knowledge discovery and data mining, 2012.

[4] Samuel Brody, Nicholas Diakopoulos,

"Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs," EMNLP 2011, pp. 562-570, 2011.

[5] B. Liu, Sentiment analysis and opinion mining (Synthesis Lectures on Human Language Technologies), Morgan & Claypool, 2012.

[6] R. Feldman , "Techniques and Applications for Sentiment Analysis," Commun.

ACM, Vols. 56 No. 4, Pages 82-89, pp. 82-89, 2013.

[7] T. Hofmann, "Probabilistic latent semantic analysis," Uncertainty in Artificial

[8] Blei, David M. and Ng, Andrew Y. and Jordan, Michael I., "Latent Dirichlet Allocation," Journal of Machine Learning, vol. 3, pp. 993-1022, 2003.

[9] Diakopoulos, Nicholas A. and Shamma, David A., "Characterizing debate performance via aggregated twitter sentiment," in Proceedings of the SIGCHI

Conference on Human Factors in Computing Systems, 2010.

[10] M. a. L. B. Hu, "Mining and summarizing customer reviews," in Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining (KDD 2004), Seattle, WA, USA, 2004.

[11] B. DM, "Introduction to Probabilistic Topic Models," Comm ACM , p. 55(4):77–84, 2011.

[12] Andrieu, Christophe and de Freitas, Nando and Doucet, Arnaud and Jordan, MichaelI., "An Introduction to MCMC for Machine Learning," Machine Learning, vol. 50, pp. 5-43, 2003.

[13] Nguyen, Cam-Tu and Phan, Xuan-Hieu and Horiguchi, Susumu and Nguyen, Thu-Trang and Ha, Quang-Thuy, "Web Search Clustering and Labeling with Hidden Topics," vol. 8, pp. 12:1--12:40, 2009.

[14] L. Rabiner, "A tutorial on hidden Markov models and selected applications in speech recognition," in Proceedings of the IEEE, 1989.

[15] McCallum, Andrew and Freitag, Dayne and Pereira, Fernando C. N., "Maximum Entropy Markov Models for Information Extraction and Segmentation," in Proceedings of the Seventeenth International Conference on

Machine Learning, San Francisco, CA, USA, 2000.

[16] Lafferty, John D. and McCallum, Andrew and Pereira, Fernando C. N., "Conditional Random Fields: Probabilistic Models for Segmenting and

56

Labeling Sequence Data," in Proceedings of the Eighteenth International Conference on Machine Learning, San Francisco, CA, USA, 2001.

[17] Hammersley, J. M. and Clifford, P., "Markov field on finite graphs and lattices,"

Unpublished manuscript, 1971.

[18] Malouf, Robert, "A comparison of algorithms for maximum entropy parameter estimation (COLING-02)," in Proceedings of the 6th conference on Natural language learning - Volume 20, Stroudsburg, PA, USA, 2002.

[19] Liu, D. C. and Nocedal, J., "On the limited memory BFGS method for large scale optimization," Math. Program., vol. 45, pp. 503-528, 1989.

[20] Fangtao Li and Minlie Huang and Xiaoyan Zhu, "Sentiment Analysis with Global Topics and Local Dependency," in AAAI Conference on Artificial Intelligence 2010, 2010.

[21] Zhao, Wayne Xin and Jiang, Jing and Yan, Hongfei and Li, Xiaoming, "Jointly modeling aspects and opinions with a MaxEnt-LDA hybrid," in Proceedings of

the 2010 Conference on Empirical Methods in Natural Language Processing - EMNLP 2010, Cambridge, Massachusetts, 2010.

[22] Jin, Wei and Ho, Hung Hay, "A novel lexicalized HMM-based learning framework for web opinion mining," in Proceedings of the 26th Annual International Conference on Machine Learning, Montreal, Quebec, Canada,

2009.

[23] Jakob, Niklas and Gurevych, Iryna, "Extracting opinion targets in a single- and cross-domain setting with conditional random fields," in Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing EMNLP-2010, Cambridge, Massachusetts, 2010.

[24] Li, Fangtao and Han, Chao and Huang, Minlie and Zhu, Xiaoyan and Xia, Ying- Ju and Zhang, Shu and Yu, Hao, "Structure-aware review mining and

summarization," in Proceedings of the 23rd International Conference on Computational Linguistics COLING'10, Beijing, China, 2010.

[25] Phan, Xuan-Hieu and Nguyen, Le-Minh and Horiguchi, Susumu, "Learning to classify short and sparse text & web with hidden topics from large-scale data collections," in Proceedings of the 17th international conference on World Wide

Web, Beijing, China, 2008.

[26] Han, Bo and Cook, Paul and Baldwin, Timothy, "Automatically Constructing a Normalisation Dictionary for Microblogs," in Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Jeju Island, Korea, 2012.

[27] G. a. L. B. a. B. J. a. C. C. Qiu, "Opinion word expansion and target extraction through double propagation," Comput. Linguist., vol. 37, pp. 9-27, 2011.

Một phần của tài liệu Vu trong hoa EXTRACTING ASPECT IN OPINIO (Trang 59)

Tải bản đầy đủ (PDF)

(70 trang)