Luận văn thạc sĩ Khoa học máy tính: Tóm tắt ý kiến trên cơ sở phân loại cảm xúc

Để thực hiện đề tài cho đối tượng đã nêu trên, phù hợp với phạm vi nghiên cứu, luận văn sẽ thực hiện các bước: Xây dựng tập dữ liệu về cảm xúc cho tiếng Việt bao gồm từ điển cảm xúc đơn

GIỚI THIỆU

Lý do chọn đề tài

"Phần lớn người khác nghĩ gì" luôn là một phần quan trọng của thông tin đối với hầu hết chúng ta trong quá trình ra quyết định đối với mọi vấn đề trong cuộc sống Chuẩn bị đi mua một món hàng, chúng ta muốn biết những người đã sử dụng đánh giá thế nào về chức năng hay giá trị sử dụng của loại sản phẩm này? nên chọn thương hiệu nào trong số những thương hiệu hiện thời cho loại sản phẩm này? Nhà sản xuất chuẩn bị kế hoạch sản xuất một mặt hàng muốn biết người tiêu dùng là những người đã và cả những người chưa sử dụng, đánh giá thế nào về dòng sản phẩm này? Chính phủ dự định ban hành một nghị định mới muốn biết nhân dân ủng hộ thế nào đối với nghị định mới này sau khi đưa ra bản dự thảo? Để có được một số liệu đủ tin cậy trả lời cho những câu hỏi như trên đòi hỏi chi phí về thời gian và tài chính rất lớn cho quá trình thu thập và xử lý thông tin theo phương pháp thủ công Trong thời đại ngày nay, thông tin về mọi lĩnh vực của cuộc sống là vô cùng phong phú, đặc biệt trong môi trường mạng internet Vì vậy, nếu có một hệ thống tự động thu thập thông tin từ mạng internet và xử lý chúng theo hướng phân loại ý kiến trên cơ sở phân loại cảm xúc thì sẽ hiệu quả về nhiều mặt

Muốn xây dựng thành công một hệ thống như vậy đòi hỏi một quá trình nghiên cứu lâu dài Trên thế giới, một số công trình nghiên cứu về lĩnh vực này cho tiếng Anh đã thu được những kết quả rất khả quan Đối với tiếng Việt thì những công trình nghiên cứu về lĩnh vực này còn hạn chế Vì thế tác giả khi thực hiện đề tài gặp nhiều khó khăn và thách thức.

Mục đích nghiên cứu

Xây dựng mô hình tóm tắt các ý kiến trên cơ sở phân loại cảm xúc cho các trang báo có ghi nhận ý kiến đọc giả và các trang mạng xã hội tiếng Việt Để thực hiện mục tiêu của đề tài, cần thực hiện các bước:

– Nghiên cứu các lý thuyết, giải thuật tóm tắt và phân loại cảm xúc

– Nghiên cứu những đặc tính cơ bản của văn phạm tiếng Việt

– Xây dựng mô hình tóm tắt ý kiến trên cơ sở phân loại cảm xúc cho tiếng Việt

– Áp dụng cho việc tóm tắt ý kiến trên cơ sở phân loại cảm xúc cho các trang báo có ghi nhận ý kiến đọc giả và các trang mạng xã hội tiếng Việt.

Đối tượng và phạm vi nghiên cứu

Phạm vi nghiên cứu: xây dựng mô hình tóm tắt ý kiến trên cơ sở phân loại cảm xúc cho một chủ đề cụ thể trong tiếng Việt trên các trang báo có ghi nhận ý kiến đọc giả hay các trang mạng xã hội Để thực hiện đề tài cho đối tượng đã nêu trên, phù hợp với phạm vi nghiên cứu, luận văn sẽ thực hiện các bước:

Xây dựng tập dữ liệu về cảm xúc cho tiếng Việt gồm từ điển cảm xúc đơn giản và kho ngữ liệu đã được phân loại về cảm xúc đơn giản.

Xây dựng mô hình tóm tắt ý kiến trên cơ sở phân loại cảm xúc.

Phương pháp nghiên cứu

Để thực hiện đề tài luận văn, cần nghiên cứu : – Các cơ sở lý thuyết về xử lý ngôn ngữ tự nhiên cho tiếng Việt, tóm tắt văn bản và lý thuyết về phân loại cảm xúc

– Đề xuất phương pháp hiện thực đề tài trên cơ sở áp dụng và phát triển các phương pháp hiện đại và những đặc tính riêng biệt của tiếng Việt.

TỔNG QUAN

Các công trình liên quan

Những năm gần đây đã có sự thay đổi quan trọng trong cách thông tin khách quan và chủ quan, và tác động của chúng đến xã hội và mỗi cá nhân Không chỉ có nội dung mang tính thông báo của tin tức được quan tâm, mà cả ý kiến, quan điểm chủ quan của người sử dụng, độc giả về một vấn đề nào đó cũng được đăng tải trên các phương tiện truyền thông, nhất là trên mạng internet Điều này có tác động rất lớn đến các quyết định của người sử dụng, từ đó ảnh hưởng đến sự phát triển kinh tế và xã hội Được hỗ trợ bởi sự phát triển nhanh chóng của Internet và các công nghệ Web 2.0, sự phát triển mạnh mẽ của mạng xã hội, diễn đàn, "blog" như là một hiện tượng của thế giới Việc trao đổi quan điểm và tranh luận về vấn đề liên quan đến cuộc sống đã đạt đến quy mô toàn cầu Người ta thể hiện và tìm kiếm ý kiến trên các blog, diễn đàn, trong đánh giá và bình luận - dẫn đến việc tạo ra số lượng lớn dữ liệu mà không thể xử lý bằng phương pháp thủ công Việc phân tích về tiềm năng khách hàng, các công ty, số liệu công cộng và các tổ chức v.v … đã mang lại nhiều kết quả hữu ích cho nhiều đối tượng khác nhau Tuy nhiên, với những nghiên cứu ở quy mô lớn về phân tích ý kiến cho tiếp thị, nghiên cứu xã hội học hay chính trị, hỗ trợ ra quyết định thì hệ thống tự động tóm tắt các ý kiến dựa trên cơ sở phân loại cảm xúc là thật sự cần thiết

2.1.2 Các công trình liên quan

Hướng nghiên cứu phân tích cảm xúc cho văn bản tiếng Anh trên thế giới đã được bắt đầu từ đầu những năm 2000 và đã có nhiều kết quả rất tốt được ghi nhận [10]

Các tác giả [11] đã thực nghiệm phân lớp cảm xúc với ba mức cảm xúc (cao, trung bình và thấp) cho mổi lớp cảm xúc (tích cực và tiêu cực) Kho ngữ liệu mà các tác giả này sử dụng là 51 blog với kết quả có độ chính xác khá cao trên 90%

Các tác giả [15] thử nghiệm hệ thống của mình, với vài phương pháp khác nhau, cũng có được kết quả chính xác trên 80%

Các công trình mà các tác giả trên thế giới thực hiện với nhiều lĩnh vực khác nhau như giải trí (bình luận phim), thương mại (đánh giá sản phẩm), xã hội (tình trạng thất nghiệp …), …

Các nghiên cứu cho tiếng Việt trong hướng này, theo hiểu biết của tác giả, còn rất hạn chế.

Mô hình tổng quan

Hình 2.1 : Mô hình tổng quan cho hệ thống phân cực cảm xúc

Các khối xử lý chính của hệ thống gồm có:

- Phân cực cảm xúc - Tóm tắt

Thông thường, các văn bản chứa cảm xúc là các văn bản không tiêu chuẩn Vì vậy, để có thể xử lý và phân tích cần được xử lý chuẩn hóa về mặt hình thức (không xử lý về mặt nội dung) Sau khi đã được chuẩn hóa về hình thức sẽ được thực hiện phân tích rút trích đăng trưng cảm xúc Không giống như phân tích, xử lý về mặt nội dung (tóm tắt, phân loại theo chủ đề, …) thường quan tâm đến tần suất xuất hiện của các thực thể Trọng số của thực thể chính là số lần xuất hiện của thực thể đấy trong văn bản Với phân tích cảm xúc thì số lần xuất hiện của thực thể không phải là quan trọng Mỗi thực thể chứa cảm xúc được đặc trưng bởi một trọng số đặc trưng cho mức độ cảm xúc của nó thể hện trong câu hoặc trong văn bản Dựa trên các đặc trưng cảm xúc được rút trích chúng ta sẽ sử dụng các thuật toán có khả năng phân cụm, phân lớp để gán nhãn cảm xúc cho ý kiến Các lớp cảm xúc thường có các nhãn positive, negative và neutral Cũng có thể chia chi tiết thành nhiều mức cảm xúc trong mỗi lớp cảm xúc ở trên

Sau khi phân cực cảm xúc, các ý kiến cần được tóm tắt để giảm bớt sự cồng kềnh và phức tạp Điều này đặc biệt có ý nghĩa nếu số lượng ý kiến là lớn

Tiền xử lý Tóm tắt

Tập ý kiến Tập ý kiến đã tóm tắt, tổng hợp

Phân cực cảm xúc Rút trích đặc trưng

Kỹ thuật tóm tắt văn bản có cảm xúc khác với tóm tắt văn bản theo nội dung Cụ thể, câu chứa cảm xúc có thể không liên quan về mặt ngữ nghĩa với đối tượng chủ đề.

Một ý kiến có thể chỉ gồm một câu duy nhất: “Quá tuyệt vời!”

Khi đó, nếu tìm kiếm mối liên hệ về nội dung với chủ đề sẽ rất khó khăn, đặc biệt trong trường hợp tóm tắt tự động bằng máy Vì vậy, nếu tóm tắt theo nội dung thì tính cảm xúc của văn bản này rất nhiều khả năng sẽ bị bỏ qua Trong khi, nếu xét về cảm xúc, đây là một văn bản có giá trị rất cao, không thể bỏ qua khi tóm tắt, tổng hợp ý kiến

Vì những lý do nêu trên mà quá trình tóm tắt nên được thực hiện ở công đoạn sau cùng của quá trình xử lý để tránh công đoạn này lược bỏ những ý nội dung mang cảm xúc quan trọng của ý kiến

Với một bài báo có ghi nhận các ý kiến (comment) của đọc giả, các ý kiến cần được xem là các văn bản độc lập Vì vậy, khi rút trích cũng như trong các quá trình xử lý sau đó, các ý kiến vẫn sẽ được đối xử như các văn bản độc lập

Nội dung bài báo chủ đề có thể có một hoặc nhiều đối tượng Các ý kiến thể hiện cảm xúc vì thế cũng có thể chỉ cảm xúc cho từng đối tượng cụ thể Các ý kiến vì thế có thể là positive đối với đối tượng này và negative đối với đối tượng khác

- Tập ý kiến đã tóm tắt, tổng hợp:

Kết quả chúng ta thu được của quá trình xử lý là các tập ý kiến đã được phân lớp: các ý kiến tích cực (positive), ý kiến tiêu cực (negative) và ý kiến trung hòa (neutral)

Tùy theo đơn vị phân tích, gồm phân tích mức văn bản hay phân tích mức câu, mà kết quả phân cực cảm xúc thu được ở mỗi lớp ý kiến có sự khác biệt Nếu phân tích ở mức văn bản, đầu vào là toàn bộ một ý kiến Ngược lại, nếu phân tích ở mức câu, đầu vào sẽ là từng câu trong một ý kiến, dẫn đến kết quả phân cực cảm xúc khác nhau.

CƠ SỞ LÝ THUYẾT

Giới thiệu

Để giải quyết vấn đề "Tóm tắt ý kiến dựa trên phân loại cảm xúc", cần thực hiện hai quá trình Đầu tiên, phân loại cảm xúc của các ý kiến thành các lớp khác nhau: tích cực, tiêu cực và trung lập Thứ hai, tóm tắt các ý kiến trong mỗi lớp cảm xúc Mặc dù các ý kiến trực tuyến thường ngắn gọn, nhưng lưu lượng lớn đòi hỏi tóm tắt để tiết kiệm thời gian và công sức, đồng thời nâng cao hiệu quả xử lý thông tin.

Việc tóm tắt ý kiến cho mỗi lớp cảm xúc có nhiều cách thức khác nhau như: tóm tắt dạng rút trích các ý thể hiện cảm xúc theo chủ đề ở mức cao nhất hoặc sát với chủ đề nhất; hoặc tóm tắt dạng tóm lược ý của người viết

Trong phạm vi luận văn này tác giả sẽ thực hiện tóm tắt theo cách rút trích các ý thể hiện cảm xúc theo chủ đề ở mức cao nhất hoặc sát với chủ đề nhất.

Tổng quan

Phân tích cảm xúc cho các ý kiến khác hẳn với phân tích văn bản tiêu chuẩn

Các thể loại văn bản được chia theo chủ đề cụ thể, có thể là một hoặc nhiều chủ đề Khi tóm tắt các văn bản có nhiều chủ đề, kết quả cũng bao gồm nhiều loại tóm tắt tương ứng Ngược lại, phân tích cảm xúc thường chỉ đưa ra kết luận về tính tích cực, tiêu cực hoặc trung lập của các ý kiến trong văn bản, không quan tâm đến chủ thể của ý kiến Các chủ đề phân tích cảm xúc không bị giới hạn Cảm xúc trong ý kiến có nhiều mức độ khác nhau, bao gồm mức độ tích cực, tiêu cực, mức độ vừa phải của tích cực hoặc tiêu cực, và cả mức trung lập.

Nội dung luận văn sẽ tập trung nghiên cứu xây dựng mô hình tóm tắt văn bản, và mô hình phần loại cảm xúc cho tiếng Việt Mô hình phân loại cảm xúc sẽ xây dựng trên đối tượng là các văn bản không tiêu chuẩn, là nguồn thông tin thu thập trên các diễn đàn, các trang mạng xã hội, …

Lý thuyết và mô hình tóm tắt văn bản cho tiếng Việt hiện đã được nghiên cứu khá nhiều và cũng đã thu được những kết quả nhất định Vì vậy, luận văn sẽ chỉ trình bày mang tính tổng hợp và chọn lọc phương pháp tóm tắt văn bản tiếng Việt phù hợp với định hướng tóm tắt ý kiến, cảm xúc thể hiện trong văn bản không tiêu chuẩn

Dựa trên lý thuyết tóm tắt văn bản và phân loại cảm xúc, chúng tôi xây dựng mô hình "Tóm tắt ý kiến trên cơ sở phân loại cảm xúc" Từ đó, chúng tôi phát triển một chương trình dựa trên nền tảng của phần mềm mã nguồn mở GATE để tóm tắt ý kiến dựa vào cảm xúc từ các nguồn thông tin như diễn đàn, blog và mạng xã hội Chương trình đặc biệt tập trung khai thác thông tin ý kiến bạn đọc từ các bài báo trên các trang báo điện tử.

Tóm tắt văn bản

Tóm tắt văn bản là quá trình làm giảm độ dài và độ phức tạp của một văn bản, trong khi vẫn giữ lại được các nội dung có giá trị của nó Tóm tắt văn bản là tìm kiếm một thể hiện ngắn gọn, súc tích về nội dung cho văn bản gốc

Chất lượng tóm tắt thể hiện ở độ rút gọn và độ chính xác về nội dung của văn bản tóm tắt so với văn bản gốc

Đầu vào của bài toán tóm tắt văn bản là một văn bản hoặc một tập hợp nhiều văn bản Đầu ra của bài toán là nội dung ngắn gọn (đã được tóm tắt), hoặc một tập các nội dung ngắn gọn tương ứng với văn bản hoặc tập văn bản đầu vào.

Hình 3.1 : Mô hình đặc trưng cho bài toán tóm tắt văn bản

Tóm tắt của một văn bản là một thể hiện ngắn gọn nội dung của văn bản đó

Tùy theo mục đích sử dụng mà người ta sẽ thực hiện tóm tắt văn bản theo những tiêu chí khác nhau Vì vậy, mỗi văn bản sẽ có thể có hơn một bản tóm tắt Tuy nhiên, về cơ bản, ta có thể chia thành hai loại tóm tắt cho văn bản dựa trên cách xây dựng chúng như sau:

- Tóm tắt rút trích (Extract Summarization): Các bản tóm tắt được xây dựng bằng cách rút ra các câu chứa nội dung chính, quan trọng trong văn bản gốc gọi là tóm tắt rút trích Các câu được rút trích là giữ nguyên, không thay đổi so với nó trong văn bản gốc

- Tóm tắt tóm lược (Abstract Summarization): Các bản tóm tắt mà một số thành phần của nó không xuất hiện trong văn bản gốc mà do tác giả đưa vào gọi là tóm tắt tóm lược Ví dụ: các câu, các thành ngữ, các chú giải, … được tác giả đưa thêm vào thay thế cho các đối tượng có trong văn bản gốc

Các tiêu chí trong tóm tắt văn bản

Khác với tóm tắt bằng phương pháp thủ công, bản tóm tắt cho một văn bản hoặc một tập các văn bản được thực hiện tự động bằng máy cần được xem xét, đánh giá một cách khoa học với các tiêu chí rõ ràng và có thể được lượng hóa bằng các công thức Thực hiện việc tóm tắt hoặc đánh giá một bản tóm tắt thường dựa trên sự thỏa mãn một số tiêu chí sau:

Hệ số rút gọn, hay còn gọi là độ nén, đặc trưng cho độ cô đọng nội dung của bản tóm tắt Hệ số rút gọn được tính bằng chiều dài của bản tóm tắt so với chiều dài của văn bản gốc Giá trị độ cô đọng càng cao thì độ cô đọng của văn bản càng lớn; văn bản tóm tắt càng ngắn gọn thì hệ số rút gọn càng nhỏ Hệ số rút gọn thông tin (đơn vị %) được tính bằng công thứ 3.1 và 3.2 như sau:

+ Độ dài (tính theo từ hoặc theo ký tự) của văn bản tóm tắt trên độ dài của văn bản gốc:

+ Số câu của văn bản tóm tắt trên số câu của văn bản gốc (với tóm tắt rút trích):

- Tiêu chí về nội dung:

Tiêu chí này đặt ra dựa trên các yếu tố sau:

+ Tính đúng đắn so với văn bản gốc;

+ Tính phù hợp với nhu cầu của người dùng

Tính phù hợp với nhu cầu của người dùng có thể hiểu là tóm tắt được tạo ra là tóm tắt khái quát (generic summarization) hay tóm tắt theo yêu cầu (user focused summarization)

Tóm tắt khái quát là tóm tắt bao gồm toàn bộ các thông tin quan trọng có trong văn bản gốc, không cần phân loại theo đối tượng hay chủ đề Còn tóm tắt theo yêu cầu sẽ chỉ chứa những nội dung liên quan tới thông tin yêu cầu (information query) mà người dùng đặt ra (tóm tắt theo đối tượng, theo khía cạnh, …) Hình thức tóm tắt theo yêu cầu thường gắn liền với việc phân loại theo chủ đề

+ Tóm tắt rút trích (Extract): cần tránh sự đứt mạch, sự lặp lại, tránh các danh sách liệt kê, …

+ Tóm tắt tóm lược (Abstract): văn bản tóm cần có sự liền mạch về nội dung; về ngữ pháp cần sự chính xác

3.3.2 Một số giải thuật tóm tắt văn bản

Phần sau đây là tổng hợp một số giải thuật xây dựng tóm tắt văn bản đã được công bố trên thế giới Các giải thuật này được thực hiện theo cách trích rút ra những câu/đoạn có ý nghĩa quan trọng nhất đối với tiêu chí tóm tắt trong văn bản gốc – các giải thuật thuộc loại xây dựng tóm tắt rút trích a Giải thuật dựa trên giá trị trọng số của thực thể (Determining Term Weights)

Các giải thuật dựa trên giá trị trọng số của thực thể (DTS) là các giải thuật đơn giản nhất Tuy nhiên, các công trình nghiên cứu cho đến nay vẫn cho thấy tính hiệu quả của chúng Các giải thuật này được kế thừa từ giải thuật đánh giá trọng số trong lĩnh vực tìm kiếm thông tin (Information Retrievel) Nội dung cơ bản của các giải thuật này là dựa vào việc tính toán giá trị trọng số cho mỗi thực thể xuất hiện trong câu Từ đó tính toán giá trị trọng số cho mỗi câu trong văn bản Cuối cùng là trích rút các câu có giá trị trọng số cao nhất theo một tỷ lệ định trước [7]

T ầ n su ấ t th ự c th ể (term frequency):

Tần suất của một từ w trong văn bản d, ký hiệu TF( w,d ), là số lần xuất hiện của từ w trong văn bản d

Tần suất văn bản của một từ w, ký hiệu DF(w), là số lượng văn bản mà từ w có xuất hiện Nghịch đảo của tần suất văn bản (inverse document frequyency) của một từ w, ký hiệu IDF(w) được cho bởi công thức:

IDF(w) = 1 + log(|D| / DF(w)) (3.3) trong đó |D| là số lượng văn bản trong tập văn bản nguồn

Tần suất TF-IDF (term document frequency):

Kết hợp hai loại tần suất thực thể và tần suất văn bản như trình bày ở phần trên ta có:

Một sốt ý nghĩa rút ra từ công thức 3.4:

– Chỉ số TF(w) của một từ w cao khi từ đó xuất hiện nhiều lần trong văn bản

Tức là, nội dung của nó trong văn bản có giá trị cao

– Chỉ số IDF(w) của một từ w cao nếu từ đó xuất hiện trong một số ít văn bản Tức là từ đó có giá trị phân biệt văn bản cao Như vậy, các từ có giá trị TF-

IDF(w,d) cao sẽ đặc trưng cho một văn bản

Tần suất TF-ISF (term sentence frequency):

Tần suất TF-ISF tương tự như tần suất TF-IDF(w,d), nhưng khác nhau ở đặc điểm TF-ISF dùng để xem xét đánh giá giá trị từ w trong câu s chứ không phải trong văn bản d Độ đo TF-ISF(w,s) , được xác định bởi công thức 3.5:

TF-ISF(w,s) = TF(w,s) * ISF(w) (3.5) trong đó TF(w,s) là số lần xuất hiện của từ w trong câu s

Nghịch đảo ISF(w) được xác định theo công thức 3.6:

Trong đó: + SF(w) là số lượng câu có chứa từ w,

+ |S| là số câu trong văn bản

Tần suất trung bình của câu

Tần suất trung bình TF-ISF của câu (Avg-TF-ISF(s)) được tính bằng trung bình các giá trị TF-ISF(w, s) của tất cả các từ w trong câu s.

Tóm tắt ý kiến

Nh ữ ng khó kh ă n trong khai thác ý ki ế n, c ả m xúc a) Làm sao để phân cực cảm xúc (tích cực, tiêu cực, trung lập)?

Xác định cảm xúc trong văn bản đòi hỏi độ tinh nhạy cao vì cảm xúc thường biểu lộ một cách tế nhị Không thể chỉ dựa vào một câu hoặc đoạn văn mà xác định được cảm xúc của tác giả.

Có thể phân cực cảm xúc bằng các từ và cụm từ và tần suất xuất hiện của chúng Tuy nhiên, mỗi cá nhân có thể có những chọn lựa khác nhau cho cùng một từ hoặc cụm từ

Mô hình học máy unigram có thể hiệu quả hơn chọn từ khóa

Vấn đề phụ thuộc thứ tự xuất hiện của các chủ thể cũng rất quan trọng để phân cực cảm xúc

Sự kiện là thông tin có thể xác minh được, trong khi ý kiến thể hiện quan điểm hoặc niềm tin của một cá nhân Sự khác biệt chính giữa sự kiện và ý kiến là sự kiện có thể được chứng minh là đúng hoặc sai dựa trên bằng chứng khách quan, trong khi ý kiến là chủ quan và không thể chứng minh là đúng hay sai Ví dụ, tuyên bố "Ông Obama là Tổng thống thứ 44 của Hoa Kỳ" là một sự kiện, trong khi tuyên bố "Ông Obama là một tổng thống giỏi" là một ý kiến.

Cùng một hình thức thể hiện, trong những lĩnh vực khác nhau cũng có thể có những cảm xúc khác nhau

Ví dụ: Với câu “Đi đọc sách”

Sẽ là tiêu cực nếu trong ngữ cảnh đánh giá một bộ phim Sẽ là tích cực nếu trong ngữ cảnh điểm sách

“Bộ phim lẽ ra là rực rỡ Dường như nó có một kịch bản lớn, dàn diễn viên hàng đầu, ngoại cảnh cũng tốt, và diễn viên chính cũng đã cố gắng diễn tốt Tuy nhiên, nó không thể rực rỡ nổi”

Phần đầu (2 câu) là nội dung miêu tả thực tế

Câu cuối thể hiện cảm xúc tiêu cực – một lời chê

Như vậy, những từ như “tốt”, “rực rỡ”, … ở 2 câu đầu chỉ dùng để miêu tả thực tế, không phải những lời thể hiện cảm xúc tích cực

Một số phương pháp hiện đang được sử dụng trong phân tích cảm xúc:

Phương pháp phân tích cảm xúc mức văn bản (Document) Phương pháp phân tích cảm xúc mức câu (Sentence) Phương pháp phân tích cảm xúc mức đặc trưng (Feature) a Phân tích c ả m xúc m ứ c v ă n b ả n

Các phương pháp đã và đang được nghiên cứu:

• Phương pháp không giám sát;

+ Support Vector Machine + Maximum Entropy + K-Nearest Neighbors + Nạve Bayes

• Phương pháp học máy dựa trên các đặc trưng: Các yếu tố tạo nên đặc trưng của văn bản:

+ Từ vựng + Tần suất xuất hiện của từ/cụm từ + Vị trí xuất hiện của từ/cụm từ + Nhãn từ loại

+ Từ khóa + Sự phụ thuộc cú pháp + Các yếu tố biến đổi ngữ nghĩa

• Kết hợp nhiều phương pháp b Phân tích c ả m xúc m ứ c câu

• Các đặc thù của câu:

+ Ngữ nghĩa của câu phụ thuộc thông tin phát ngôn + Câu có thể vừa là chủ quan, vừa là khách quan + Với mỗi loại câu khác nhau (câu hỏi, câu châm biếm, câu điêu kiện) thì cần những cách xử lý khác nhau

+ Phân loại: Chủ quan và khách quan + Phân lớp cảm xúc: Tích cực, tiêu cực, trung lập

• Các loại ý kiến của câu:

+ Ý kiến tường minh: thể hiện trong câu chủ quan + Ý kiến ngầm định: thể hiện trong câu khách quan c Phân tích c ả m xúc m ứ c đặ c tr ư ng

+ Khai thác sự đồng xuất hiện của các danh từ và cụm danh từ + Khai thác mối liên hệ với từ khóa

+ Sử dụng học máy có giám sát + Gom nhóm các khía cạnh

+ Phương pháp giám sát: tương tự như đối với mức văn bản và mức câu, kết hợp xét sự phụ thuộc về cú pháp

+ Phương pháp không giám sát:

+ Dựa vào tập ngữ liệu (corpus) + Dựa vào luật

+ Phương pháp lan truyền kép: Dựa vào quan hệ phụ thuộc cú pháp: từ khóa đã biết → khía cạnh; khía cạnh tìm được → từ khóa mới

Tập ngữ liệu

Ngữ liệu sử dụng trong luận văn này sẽ được trích từ Web, giới hạn trong các bài bài báo mạng tiếng Việt có ghi nhận ý kiến của đọc giả Trong luận văn này tác giả lựa chọn trang báo mạng VNExpress Cơ quan chủ quản của VNExpress là Bộ Khoa học Công nghệ Tờ báo ra đời từ năm 2001 Đây là tờ báo mạng được đánh giá là có nhiều đọc giả nhất hiện nay Với lượng đọc giả đông đảo, các bài viết về các chủ đề kinh tế, thương mại, khoa học và công nghệ, xã hội và thể thao, luôn thu được một số lượng lớn ý kiến người đọc Một bài báo về cơ bản được định dạng như Hình 3.8 ở trang bên

Nội dung trích xuất từ trang báo dùng cho việc phân tích như sau:

– Nội dung bài báo (bài viết chủ đề): có thể có kèm hình ảnh, là phần chủ đạo của trang web Luận văn sẽ trích xuất phần bài viết mà không kèm theo hình ảnh và chú thích của nó

Các ý kiến của độc giả thường được thể hiện ở cuối mỗi bài báo và là đối tượng nghiên cứu chính của luận văn này Trong mục "Ý kiến bạn đọc", trang báo đã tạo ra một không gian để độc giả có thể trình bày quan điểm cá nhân.

Hình 3.8 : Bài báo làm dữ liệu đầu vào

Các nội dung khác có trong trang báo như quảng cáo, các đường link đến các bái báo khác sẽ được bỏ qua

Với mỗi ý kiến còn có phần thể hiện số lượng người thích Do luận văn tập trung vào phân tích cảm xúc trong nội dung ý kiến nên số liệu về số lượng người thích sẽ được bỏ qua Để có thể phân tích, đánh giá và tóm tắt các ý kiến về mặt cảm xúc, luận văn sẽ rút trích tạo tập ngữ liệu là các ý kiến dành cho bài báo theo các thành phần được tổ chức như sau:

– Với phân tích là mức câu, cấu trúc lưu trữ gồm các thành phần:

B ả ng 3.2 : Cấu trúc dữ liệu phân tích ở mức câu

Thành phần Thuộc tính Ghi chú

ID Số thứ tự của câu trong ý kiến

Nhãn cảm xúc cho mỗi câu commentID Thứ tự của ý kiến trong tập các ý kiến

LabelOfComment Nhãn cảm xúc của ý kiến

Feature Name Các trọng số cảm xúc tương ứng với các đặc trưng ở phần trên

Bayesresult Kết quả phân tích bằng luật Nạve

Content Nội dung của câu

Hình 3.9 : Cấu trúc dữ liệu phân tích ở mức câu

– Với phân tích ở mức văn bản có cấu trúc lưu trữ được thể hiện ở bang 3.3

B ả ng 3.3 : Cấu trúc dữ liệu phân tích mức văn bản

Thành phần Thuộc tính Ghi chú

ID Thứ tự của ý kiến trong tập các ý kiến

Label positive, negative, Nhãn phân loại cảm xúc của ý kiến neutral

Feature Các trọng số cảm xúc tương ứng với các đặc trưng ở phần trên Bayesresult Kết quả phân tích bằng luật Nạve Bayes

Các trọng số cảm xúc tương ứng với các đặc trưng như trên nhưng được lưu tách biệt theo từng câu

Hình 3.10 : Cấu trúc lưu trữ kết quả phân tích mức câu

Tóm tắt ý kiến trên cơ sở phân loại cảm xúc

3.6.1 Các khái niệm và nguyên tắc cơ bản

Kỹ thuật nền tảng cho phân tích cảm xúc và khai thác ý kiến là phân lớp

(classification) Kỹ thuật phân lớp gồm: hồi quy (regression) và xếp hạng (ranking)

Trích rút văn bản là công cụ đắc lực giúp ta đạt mục đích xa hơn, như cung cấp bản tóm tắt hữu ích với thông tin trích xuất cho người dùng Tính năng này có thể phân tích và đánh giá cảm xúc ẩn trong văn bản.

Có thể phân cảm xúc của một vấn đề về hai cực: tích cực và tiêu cực Tuy nhiên, có thể có những cảm xúc không đạt mức ở một trong hai cực này Vì thế, phải có những mức độ nằm giữa hai cực

Một số khái niệm: phân lớp cực cảm xúc (sentiment polarity classification), phân lớp cảm xúc (sentiment classification)

− Quan hệ giữa các phạm trù: Dựa trên phân tích các câu so sánh chúng ta có thể có được thông tin về ý kiến của tác giả văn bản

“Tôi thích mô hình mới hơn mô hình cũ”

“Tôi thấy mô hình mới đáng giá hơn mô hình cũ”

Cả hai ví dụ trên đều thể hiện cảm xúc tích cực đối với "mô hình mới" Các câu so sánh phù hợp với cách phân loại cực (tích cực, tiêu cực hoặc trung hòa)

− Suy luận đánh giá (Rating inference): để xác định đánh giá của tác giả đối với một vấn đề cần một thang đa điểm (ví dụ 5 điểm) Điều này có nghĩa chúng ta cần phân loại văn bản theo hướng đa lớp để thông tin đánh giá được mịn hơn

Mỗi nhóm từ có thể có vốn từ vựng riêng biệt Quan điểm trung lập là sự kết hợp của quan điểm tích cực và tiêu cực Trong bối cảnh kinh doanh, quan điểm trung lập thường được coi là gần nghĩa với quan điểm tích cực Nhận dạng và xác định quan điểm chủ quan.

− Để xác định xem một câu là chủ quan hay không thường dựa vào các tính từ của câu đó (thể hiện mức độ mạnh, yếu của ý kiến)

− Trong mỗi lĩnh vực khác nhau sẽ có sự đánh giá khác nhau về mức độ cảm xúc c Phân tích cảm xúc theo chủ đề Đây là dạng phân lớp cảm xúc mức văn bản Trong những văn bản này có thể có những câu mà người sử dụng không quan tâm Vì vậy, người ta thường cố gắng loại bỏ những đoạn này

Hướng phân tích này rất thuận lợi khi phân tích xác định các chủ đề và tách các ý kiến liên quan đến người sử dụng d Quan điểm và góc nhìn

Phân tích cảm xúc và ý kiến trong văn bản chính trị tập trung vào thái độ chung thể hiện trong văn bản, thay vì hướng đến các vấn đề hoặc chủ đề cụ thể Việc phân tích này bao gồm cả những thông tin không căn cứ xuất hiện trong văn bản, giúp cung cấp bức tranh tổng quan về quan điểm của tác giả và cách họ trình bày thông tin.

− Dựa trên văn bản xác định tâm trạng

− Các tâm trạng: tức giận, ghê tởm, sợ hãi, vui, buồn, ngạc nhiên, … Một vấn đề khác cần xem xét trong bối cảnh tình báo và an ninh là phát hiện các văn bản trong ngôn từ lừa đảo

3.6.2 Các đặc trưng hướng dữ liệu của văn bản a Tần suất xuất hiện và sự có mặt của thực thể: Đây là phương pháp truyền thống trong tìm kiếm thông tin tiêu biểu cho một đoạn văn như vector đặc trưng, trong đó các mục tương ứng với các thực thể (term)

Tần suất các thực thể (term) truyền thống quan trọng, phổ biến như tf-idf

Tuy nhiên, hiệu quả của phương pháp xác định cảm xúc dựa trên sự hiện diện thực thể cao hơn so với phương pháp dựa vào tần suất xuất hiện Ý tưởng của phương pháp này là biểu diễn vectơ đặc trưng với mỗi phần tử là một thực thể; khi thực thể đó xuất hiện, phần tử có giá trị 1, còn ngược lại thì có giá trị 0.

Kết quả thu được từ phương pháp này thể hiện được một đặc điểm khác nhau rất quan trọng giữa phân loại dựa theo chủ đề và phân lớp theo phân định mức cảm xúc Trong khi chủ đề có nhiều khả năng được nhấn mạnh bởi sự xuất hiện thường xuyên của từ khóa nhất định, cảm xúc tổng thể có thể không thường được làm nổi bật lên bằng cách lặp lại sự xuất hiện của một số thực thể b Thực thể dựa trên đặc trưng quan trọng hơn theo phương pháp unigram Đôi lúc vị trí của từ cho biết khía cạnh ý nghĩa của nó Vị trí của một từ trong văn bản (ở đầu, ở giữa hay ở cuối) có tiềm năng rất lớn ảnh hưởng đến việc xác định trạng thái chủ quan hay mức độ cảm xúc trong toàn văn bản Vì vậy, thông tin về vị trí của từ có thể dùng để mã hóa vào vector đặc tính

Vấn đề hiệu năng của các phương pháp n-gram còn chưa được phân định rõ ràng trong định mức cảm xúc Có những nghiên cứu cho rằng unigrams hiệu quả hơn bigrams; có nghiên cứu lại chứng minh bigrams và trigrams hiệu quả hơn

Ngoài các phương pháp sử dụng n-gram hay vị trí từ, một số nghiên cứu sử dụng phương pháp “Khoảng tương phản” (contrastive distance – xác định mức độ tương phản của một cặp từ để định mức cảm xúc) để tính toán khía cạnh trong hệ thống đánh giá – suy luận c Từ loại (Parts of Speech)

Thông tin từ loại thường dùng trong phân tích và khai phá ý kiến, cảm xúc vì nó thường mang ý nghĩa thông qua loại từ mà nó đại diện

Tính từ được dùng như là các đặc trưng Một trong những công trình đầu tiên về dự đoán hướng ngữ nghĩa của từ dựa theo số liệu đối với các tính từ là tài liệu [16]

Phương pháp thực hiện đề tài

Chuẩn hóa văn bản ý kiến về mặt hình thức để có thể thực hiện phân tích

Xác định các văn bản chứa chủ đề cần tóm tắt ý kiến, loại bỏ các bài văn không cùng chủ đề

Với mỗi bài văn, thực hiện tiền xử lý loại bỏ các câu không mang nội dung thể hiện cảm xúc, hoặc những câu mang ý nghĩa khách quan

− Phân lớp cảm xúc mức câu: gán nhãn tích cực (positive), tiêu cực (negative) hay trung hòa (neutral) cho các câu chứa cảm xúc của ý kiến Việc phân loại dựa trên các thuật giải học máy đối với các thực thể xuất hiện trong văn bản có trong kho ngữ liệu

− Phân lớp cảm xúc cho các ý kiến: Tạo ba lớp cảm xúc tương ứng với các cảm xúc tích cực, tiêu cực và trung hòa Mỗi lớp sẽ gồm những câu được gán nhãn cảm xúc tương ứng Việc gán nhãn cảm xúc được thực hiện với sự kết hợp giữa các phương pháp học máy và mô hình không gian vector

− Việc tóm tắt ý kiến sẽ dựa theo đặc trưng của văn bản chủ đề và các đặc trưng về cảm xúc của các ý kiến trong mỗi lớp cảm xúc

Tạo ra từ điển tiếng Việt, từ điển phân loại cảm xúc từ tiếng Việt, bao gồm các từ đặc biệt thể hiện cảm xúc phổ biến được dùng trong các diễn đàn.

− Xây dựng kho ngữ liệu dựa theo từ điển tiếng Việt đã xây dựng ở bước trên Kho gồm những bài báo trong đó có những ý kiến thể hiện cảm xúc của người viết với chủ đề có trong bài báo

− Xây dựng các mô – đun thực hiện quá trình tiền xử lý để tách câu, tách từ, xác định thực thể cảm xúc, phân cực cảm xúc cho các văn bản là các ý kiến

− Xây dựng mô hình tóm tắt ý kiến dựa trên phân loại cảm xúc.

MÔ HÌNH HỆ THỐNG VÀ PHƯƠNG PHÁP THỰC HIỆN

Mô hình tóm tắt ý kiến dựa trên phân loại cảm xúc

Dựa trên mô hình tổng quát cho bài toán tóm tắt ý kiến dựa trên phân loại cảm xúc trình bày ở chương 3, luận văn thực hiện chi tiết từng mô-đun Mô-đun chuẩn hóa văn bản tương ứng với quá trình tiền xử lý Mô-đun phân cực cảm xúc được thực hiện bằng luật Nạve Bayes và Mô hình Không gian Vector Kết quả phân cực cảm xúc lấy trực tiếp từ mô-đun Nạve Bayes hoặc thông qua mô-đun xử lý dùng Mô hình Không gian Vector Kết quả phân cực cảm xúc tiếp tục được tóm tắt để giảm độ dài và phức tạp bằng mô-đun "Tóm tắt".

Hình 4.1 : Mô hình tóm tắt ý kiến trên cơ sở phân loại cảm xúc

Với một bài báo như Hình 3.7, bài báo sẽ được xem như bài viết chủ đề, các ý kiến (comment) của đọc giả đối với bài viết chủ đề chính là đối tượng xử lý của luận văn Như hình thức thể hiện của bài báo, các ý kiến là các văn bản độc lập Vì vậy, khi rút trích cũng như trong các quá trình xử lý sau đó, các ý kiến vẫn sẽ được đối xử như các văn bản độc lập

Trong phạm vi luận văn này, tác giả xem bài báo là một đối tượng Các ý kiến thể hiện cảm xúc chính là cho đối tượng trên Luận văn chưa xét đến những bài báo

Chuẩn hóa văn bản Tóm tắt

Tập ý kiến trích xuất từ website

Tập ý kiến đã tóm tắt, tổng hợp Rút trích đặc trưng cảm xúc Không gian vector Nạve

Module phân cực cảm xúc

Từ điển cảm xúc có nhiều đối tượng khác nhau Do đó, ý kiến có thể là tích cực đối với đối tượng này và tiêu cực đối với đối tượng khác.

Các ý kiến của các đọc giả thường ở dạng các văn bản không tiêu chuẩn về từ, về các thành phần của câu cũng như về văn phạm Người viết có thể dùng những từ thuộc ngôn ngữ mạng như “:)”, “:D”, “:(”, … để thể hiện cảm xúc vui, buồn đối với bài viết chủ đề; dấu chấm câu đứng trước dấu ngoặc đơn thay vì đứng sau, dấu chấm câu đứng trước dấu ngoặc kép thay vì đứng sau, giữa hai từ có nhiều khoảng trắng, … Để có thể nhận diện và trích xuất chính xác các đặc trưng trong các phát biểu, tác giả phải đưa các ý kiến qua bộ phận chuẩn hóa để có được các câu chuẩn về mặt hình thức trước khi xử lý phân tích cảm xúc

Việc chuẩn hóa đảm bảo giữ được nội dung ý nghĩ ban đầu, chỉ tác động ở mức hình thức nhằm mục đích phân biệt được từng câu của văn bản một cách chính xác

- Rút trích đặ c tr ư ng:

Tác giả sử dụng phương pháp phân tích từ phải qua, ưu tiên rút trích các thực thể có chiều dài là dài nhất, đối với một câu, để rút trích các đặc trưng cảm xúc trong câu

Với câu “Trận đấu bóng đá vô cùng hấp dẫn”

Nếu trong từ điển cảm xúc có các thực thể cảm xúc “hấp dẫn”, “vô cùng”, “vô cùng hấp dẫn” thì thực thể “vô cùng hấp dẫn” sẽ được rút trích Về mặt ngữ nghĩa, xác suất thực thể có chiều dài dài nhất thể hiện chính xác ngữ nghĩa của câu sẽ cao hơn so với khi tách thành các thực thể riêng biệt Về mặt cảm cảm xúc, nếu mỗi thực thể trên có một trọng số cảm xúc riêng trong từ điển cảm xúc thì thực thể “vô cùng hấp dẫn” sẽ tạo đúng trọng số cảm xúc trong câu, thay vì tạo ra hai trọng số với hai thực thể “hấp dẫn” và “vô cùng”

Quá trình phân tích biểu đạt cảm xúc đoạn văn bản hoặc câu sẽ trả về một bộ các đặc trưng tương ứng với các thực thể cảm xúc Khi phân tích ở mức văn bản, bộ đặc trưng là tập hợp các đặc trưng trong từng câu, sắp xếp theo thứ tự xuất hiện trong văn bản Ngược lại, khi phân tích ở mức câu, mỗi câu sẽ có một bộ đặc trưng riêng biệt, tạo thành các phần tử độc lập trong tập các bộ đặc trưng.

Các bộ đặc trưng này được lưu vào các file XML làm cơ sở dữ liệu cho quá trình phân tích tiếp theo

Luật Nạve Bayes được dùng nhiều trong xử lý phân lớp văn bản dựa trên xác suất các thực thể có trong văn bản cùng với tần suất xuất hiện của chúng

Trong phạm vi luận văn, tác giả sử dụng Nạve Bayes để phân loại cảm xúc dựa trên các thực thể cảm xúc có trong văn bản và trọng số cảm xúc của chúng

Khi chọn hình thức phân tích mức câu chúng ta sẽ thu được một tập các giá trị phân cực (positive, negative tương ứng với số câu của ý kiến), và một tập các bộ đặc trưng (mỗi câu sẽ có một bộ đặc trưng là các thực thể cảm xúc của câu) Để có thể quyết định phân lớp cho ý kiến, tác giả dùng các phép tính toán trong không gian vector sau khi mô hình các đặc trưng của các câu thành các vector để phân lớp cho ý kiến Để sử dụng các tính toán trong mô hình không gian vector, một yêu cầu bắt buộc là phải chuẩn hóa về số chiều của các vector trước khi tính toán

Sau khi chuẩn hóa các vector, thực hiện tính toán phân lớp cảm xúc cho các ý kiến dựa trên tính toán độ tương đồng giữa vector tổng và các vector phân cực thành do module Nạve Bayes thực hiện

Với các vấn đề thu hút được nhiều sự quan tâm thì số lượng ý kiến thu được sẽ rất lớn Quá trình phân lớp mới chỉ thực hiện phân các ý kiến vào ba lớp tích cực, trung hòa và tiêu cực Chương trình cũng sẽ đưa ra số liệu tổng hợp về số lượng mỗi ý kiến trong mỗi phân lớp

Các ý kiến thường không quá dài Tuy nhiên, để nắm bắt nội dung tất cả các ý kiến là việc không dễ dàng nếu số ý kiến là lớn Vì vậy, nếu mỗi ý kiến được rút gọn lại trong khi vẫn giữ được nội dung ý nghĩa ban đầu sẽ là rất ý nghĩa Do đó, công đoạn tóm tắt cũng đóng một vai trò quan trọng trong bộ quá trình xử lý

Phương pháp thực hiện

4.2.1 Từ điển cảm xúc Đây là thành phần rất quan trọng trong hệ thống phân tích cảm xúc Tuy nhiên, đây lại là một công việc cần chi phí rất lớn về thời gian, cũng như cần có sự cộng tác của chuyên gia có chuyên môn về ngôn ngữ học

Theo hiểu biết của tác giả, hiện nay chưa có một từ điển cảm cho tiếng Việt

Để thực hiện luận văn, tác giả đã sử dụng bộ từ điển cảm xúc tiếng Anh gồm khoảng 2000 thực thể được biên soạn bởi [19] và chuyển ngữ sang tiếng Việt.

Tác giả thiết kế lại thành hai đối tượng:

– Thực thể cảm xúc – Chi tiết của thực thể: trọng số cảm xúc, từ loại, nét ngữ nghĩa, chủ đề, … Đối tượng thứ hai tác giả xây dựng, trong phạm vi hiểu biết của mình, với mong muốn dùng cho việc nghiên cứu sâu hơn cho lĩnh vực này

Hình 4.2 và Hình 4.3 là cụ thể bộ từ điển tác giả đã xây dựng cho luận văn này

Hình 4.2 : Minh họa từ điển các thực thể cảm xúc tiếng Việt

Hình 4.3 : Minh họa từ điển về các thuộc tính của thực thể cảm xúc tiếng Việt

Trên thế giới đã có nhiều công trình nghiên cứu về việc tách các thực thể trong văn bản như: Đồ thị chuyển trạng thái (Transducing Graph), Tách dựa cú pháp, Đối sánh độ dài nhất, Mô hình Markov ẩn, … còn tác giả chọn phương pháp Đối sánh thực thể dài nhất Đây là một phương pháp dễ cài đặt, tốc độ nhanh, độ chính xác chấp nhận được đối với bài toán tóm tắt văn bản, nhất là với đối tượng văn bản không tiêu chuẩn như những ý kiến phát biểu trên mạng xã hội

Phương pháp này dựa trên một từ điển tiếng Việt, gồm những từ và cụm từ sau đây gọi chung là thực thể Có hai phương pháp Đối sánh thực thể dài nhất là đối sánh từ trái qua và đối sánh từ phải qua

Ví dụ: Rút trích thực thể của câu “Hôm nay nắng đẹp” bằng giải thuật từ trái qua

Giả sử trong từ điển của chúng ta có các thực thể: “hôm nay”, “nắng”, “nay”,

- Kiểm tra xem có thực thể “hôm nay nắng đẹp” không

- Nếu có thì dừng lại và kết thúc quá trình

- Nếu không có thì tách bớt âm tiết cuối ra, kiểm tra có thực thể “hôm nay nắng” trong kho ngữ liệu hay không

- Nếu có thì dừng lại và kiểm tra phần còn lại của câu (cụ thể ở đây là “đẹp”)

- Nếu không có thì tách bớt âm tiết cuối ra, kiểm tra có thực thể “hôm nay” trong kho ngữ liệu hay không

- Nếu có thì dừng lại và kiểm tra phần còn lại của câu (cụ thể ở đây là “nắng đẹp”)

Với giải thuật trên ta có thể nhận được tập thực thể (tương ứng với một từ điển cụ thể): “hôm nay”, “nắng”, “đẹp”

Thuật toán đối sánh từ phải qua ngược với thuật toán trên là lấy chuỗi dài nhất từ cuối câu Khi cắt chuỗi hay âm tiết thì cắt phần bên trái nhất đi, giữ lại phần bên phải Khi kết thúc thuật toán ta phải đảo ngược thứ tự các thực thể để có được trật tự các thực thể như trong câu ban đầu Đối với tiếng Việt, độ chính xác của thuật toán đối sánh từ phải qua cao hơn thuật toán đối sánh từ bên trái qua

Ví dụ: Xét câu “Ban công tác hoàn thành nhiệm vụ”

Giả sử trong từ điển cảm xúc có các thực thể: “ban”, “ban công”, “công tác”,

Kết quả phân tích của giải thuật đối sánh từ trái qua là: “ban công”, “hoàn thành”, “nhiệm vụ”

Kết quả phân tích của giải thuật đối sánh từ phải qua là: “nhiệm vụ”, “hoàn thành”, “công tác”, “ban” Thay đổi thứ tự các thực thể ta được “ban”, “công tác”,

Chúng ta nhận thấy kết quả từ giải thuật đối sánh từ phải tốt hơn rất nhiều giải thuật từ trái qua

W=WordOfText(Text) start= CountOfWord(W) stop=0 while isStop=false and start>=0 begin while for index=stop to start

Term += W[index] if Term ∈ Dic begin isTerm = true do TermList ← Term do TermValue ← ValueOf(Term) if start = CountOfWord(W) then isStop = true else begin stop = start+1 start = CountOfWord(W) end end if isTerm = false begin if start = stop begin stop++ start = CountOfWord(W) end else start -= 1 end end while return {TermList, TermValue}

Hình 4.4 : Giải thuật tách thực thể từ trái qua

Tuy nhiên, với những câu phức tạp như “Học sinh học sinh học” thì cả giải thuật đối sánh từ trái qua cũng như từ phải qua đều không thể có được kết quả chính xác Hình 4.5 là giải thuật tách thực thể đối sánh từ phải qua

W=WordOfText(Text) start=0 stop=CountOfWord(W) while isStop=false and stop>=0 begin while for index=start to stop

Term += W[index] if Term ∈ Dic begin isTerm = true do TermList ← Term do TermValue ← ValueOf(Term) if start = 0 then isStop = true else begin stop = start-1 start=0 end end if isTerm=false begin if start = stop begin stop start = 0 end else start += 1 end end while return {TermList, TermValue}

Hình 4.5: Giải thuật tách thực thể từ phải qua

4.2.3 Thuật giải Nạve Bayes a Cơ sở lý thuyết

Nạve Bayes (NB) là phương pháp phân loại dựa vào xác suất được sử dụng rộng rãi trong lĩnh vực máy học: Mitchell 1996, Joachims 1997, Jason 2001, … Nạve Bayes được sử dụng lần đầu tiên trong lĩnh vực phân loại bởi Maron vào năm 1961 Sau đó trở nên phổ biến dùng trong nhiều lĩnh vực như trong các công cụ tìm kiếm (Rijsbergen et al, 1970), các bộ lọc email (Sahami et al, 1998), …

Luật Bayes tính xác suất có điều kiện của sự kiện A khi sự kiện B đã xảy ra như sau:

Luật Bayes rất hữu ích vì thông thường chúng ta không có đầy đủ các thông tin về tình huống Vì vậy, chúng ta không biết tất cả những yêu cầu về xác suất Tuy nhiên, chúng ta có thể ước lượng được một số xác suất phù hợp và sau đó dùng luật Bayes tính những xác suất còn lại Đã cĩ nhiều chứng minh là mơ hình xác suất của Nạve Bayes cĩ chất lượng thấp [18], nhưng [23] đã cho thấy dùng Nạve Bayes để phân lớp thì lại khá tốt

Trong [23] phân loại văn bản sử dụng những từ ngữ (hoặc các thực thể) của văn bản để phân loại nó vào lớp phù hợp Nguyên tắc quyết định dựa theo giá trị lớn nhất của xác suất có điều kiện (a posteriori (MAP)) dựa theo công thức sau:

Với tk là các token (thực thể/từ) của các văn bản, C là tập các lớp được dùng để phân lớp, P(c|d) xác suất có điều kiện của lớp c cho văn bản d, P(c) là xác suất không điều kiện của lớp c và P(tk|c) là xác suất có điều kiện của thực thể/từ tk đối với lớp c

Tức là, để phân lớp cho một văn bản, chúng ta phải tính xác suất của mỗi từ (thực thể) của văn bản trên một lớp riêng biệt, rồi nhân với xác suất không điều kiện của lớp đó Sau khi tính toán như trên cho tất cả các lớp của tập C, chúng ta chọn một xác suất cao nhất

THỰC NGHIỆM VÀ ĐÁNH GIÁ

Dữ liệu thử nghiệm

Như đã giới thiệu trong mục 3.5, với hình minh họa 3.8, dữ liệu thử nghiệm dùng cho chương trình là các trang báo mạng, báo VNExpress, có ghi nhận ý kiến bạn đọc

Hình 5.1: Hình minh họa bài báo nguồn dữ liệu

Chương trình sẽ trích xuất nội dung bài viết và phần ý kiến bạn đọc Dữ liệu trích xuất sẽ không bao gồm hình và phần chú của hình Phần ý kiến bạn đọc cũng chỉ trích phần nội dung và bỏ qua phần tên tác giả của nội dung đó

Ví dụ, đối với bài báo hình 5.1 thì nội dung được thể hiện ở hình 5.2:

Hình 5.2 : Nội dung bài báo hình 5.1

Chi tiết các ý kiến được thể hiện ở bảng 5.1

Minh họa giao diện chương trình phần trích xuất nội dung từ trang web như hình 5.2 Các ý kiến được đánh số thứ tự theo thứ tự xuất hiện của chúng trên trang web

Trước khi hiển thị lên cửa sổ làm việc, dữ liệu trích xuất từ trang web được lưu và một file XML Định dạng lưu trữ tùy theo mức phân tích (mức văn bản, mức câu) như mô tả trong phần 5.2

5.2 Phương pháp thử nghiệm Do việc phân cực cảm xúc phụ thuộc nhiều vào từ điển cảm xúc (trình bày chi tiết trong phần 4.1) Vì vậy, tác giả sẽ thử nghiệm theo các nội dung:

- Phương pháp phân tích mức câu:

“Vài ngày trước 5 chiếc tàu lặn mini phục vụ du lịch đã được chúng tôi bàn giao tại TP HCM, đối tác Malaysia đã tự lo thủ tục hải quan và đưa về nước , ông Phan

Bội Trân, chủ nhân của tàu lặn du lịch cho biết Hết hợp đồng này, ông Trân tiếp tục ký với Malaysia cung cấp thêm 25 chiếc tàu lặn du lịch Tuy nhiên, những chiếc tàu này sẽ được sản xuất và lắp ráp ở Malaysia, công ty của ông Trân vẫn sẽ phụ trách sản xuất Với việc này, đối tác sẽ không phải chịu thuế và nhất là họ sẽ được hưởng lợi từ chính sách của Chính phủ với sản phẩm mang tính chất đột phá về công nghệ với số tiền được hỗ trợ là 3.000 USD , ông Trân nói Trước vấn đề bản quyền công nghệ, ông Trân cho biết, thực tế ông đã chấp nhận điều này vì đây là quy luật cạnh tranh của thị trường Nếu tôi không làm thì các quốc gia khác trên thế giới cũng sẽ làm , ông Trân nói Tàu lặn ông Trân xuất sang Malaysia dựa trên cơ sở của Yết Kiêu 1 nhưng có thay đổi về hình dáng và kích thước Thiết bị này dành cho một người lái, dài 1,5 m, chiều ngang 0,7 m; cao 1,6 m và nặng 200 kg, chạy bằng động cơ điện được khoảng hai tiếng Vỏ tàu được làm bằng composite có độ bền hơn vỏ thép, giúp tiết kiệm chi phí Hiện ông Trân vẫn chưa hoàn tất về thủ tục sở hữu trí tuệ vì thế hình ảnh của con tàu chưa thể công bố Ông Phan Bội Trân là hậu duệ của nhà cách mạng

Phan Bội Châu Ông được cho là người Việt đầu tiên chế tạo tàu ngầm với chiếc tàu nổi tiếng mang tên Yết Kiêu 1 từ năm 2010 Ông đang có kế hoạch cho ra đời Yết Kiêu 2 trong thời gian tới”

Rút trích đặc trưng: Kiểm tra trong file XML

Kết quả phân lớp: Kiểm tra trong file XML Tóm tắt ý kiến: dữ liệu kết xuất của chương trình

B ả ng 5.1: Các ý kiến với bài báo ở hình 5.1

- Phương pháp phân tích mức văn bản:

Rút trích đặc trưng: Kiểm tra trong file XML

Kết quả phân lớp: Kiểm tra trong file XML

STT Nội dung ý kiến bạn đọc 01 Nên xuất khẩu vì trong nước ít ai quan tâm, chúc chú thành công

02 Chúc mừng ông ^^ Công nghệ của ông sẽ được Copy 80 , 20 còn lại sẽ làm theo thiết kế của họ và bán toàn thế giới theo kiểu tàu phục vụ du lịch, ngắm san hô ^^

03 Chính sách hỗ trợ khoa học và công nghệ của Malay tốt nhỉ

04 tại sao lại không sản xuất ở VN mà lại là Malai chảy máu chất xám là đây haizzzzzzzz 05 Chuẩn luôn

06 Nếu bạn là người đi mua đồ, với cùng 1 loại sản phẩm bạn cần, bạn muốn mua rẻ hay đắt Câu chuyện ở đây cũng ko phải là vấn đề chảy máu chất xám, vì với tầm vóc công nghệ này thì nước ta hiện hoàn toàn có thể thực hiện được Vấn đề là ở chỗ nước ta ko có nhu cầu về sản phẩm ấy, câu chuyện nằm ở chỗ đấy đấy!

07 Chúc mừng hậu duệ cụ Phan Bội Châu

08 Thật là buồn khi nhà nước mình có nhân tài mà k biết trong dụng 09 Thật buồn

10 Dù sao cũng phải chú mừng Bác Trân 11 Chúc anh thành công

12 dang ki so huu tri tue cang som cang tot

13 Sáng tạo trí tuệ, đột phá, động viên tối đa cho các hoạt động khoa học Hoan hô bác Trân!

14 Rất mừng và rất buồn vì sáng tạo của người Việt không được sử dụng ở Quê Hương

15 Ông Chân là một người Việt tuyệt vời ! ông đã rạng danh thêm dòng dõi họ Phan

16 đăng kí sở hữu trí tuệ càng nhanh càng tốt , ko họ copy va biến thành của họ thì thật đáng tiếc

17 Việt nam không biết trọng dụng sản phẩm của ông, để rồi dần dần Malai sẽ sở hữu tất cả công nghệ này !

Tóm tắt ý kiến: dữ liệu kết xuất của chương trình

Hình 5.3 : Minh họa bài báo và các ý kiến ở hình 5.1 và bảng 5.1 từ website

Máy tính xách tay này được trang bị bộ xử lý AMD A10 quad-core tốc độ 1,9 GHz, bộ nhớ 8 GB và ổ cứng 500 GB Hệ điều hành gốc là Windows 7, nhưng máy cũng đã được thử nghiệm để chạy Ubuntu 14.04 Thêm vào đó, máy hỗ trợ ngôn ngữ lập trình Java.

Sau đây tác giả sẽ tiến hành chạy thử nghiệm đối với hai bài báo đã minh họa ở hình 3.8 và hình 5.1 Tác giả sẽ trình bày chi tiết thử nghiệm phân tích mức câu cho bài báo hình 3.8 Các thử nghiệm khác sẽ trình bày trong phần phụ lục

Chọn phương pháp phân tích mức câu từ trình đơn: Hệ thống -> Thiết lập Cửa sổ với các tùy chọn thiết lập như hình 5.4

Hình 5.4 : Giao diện chọn phương pháp phân tích.

Kết quả và đánh giá

Phân tích bài báo minh họa hình 3.8: “Nghị lực của cô giáo mầm non nhiễm căn bệnh thế kỷ” bằng phương pháp phân tích mức câu Nội dung bài báo và các ý kiến sẽ được thể hiện như ở hình 5.5 và bảng 5.2

“Đỗ Thị Thu Hà (34 tuổi, giáo viên trường mầm non Sơn Kim I, huyện Hương Sơn, Hà Tĩnh) có khuôn mặt ưa nhìn, dáng cao, thanh thoát, nụ cười luôn thường trực trên môi Song cuộc đời cô là chuỗi ngày hạnh phúc, xen lẫn những nỗi đau, có lúc tưởng chừng xé nát cõi lòng Là con gái thứ út trong một gia đình có 9 anh chị ở xã Sơn Kim I, cuộc sống vất vả nhưng Hà được bố mẹ nuôi ăn học đầy đủ Năm 2001 vừa tốt nghiệp CĐ Sư phạm Hà Tĩnh, cô được cử về trường mầm non trong xã công tác Tại đây, Hà được ví nhưng bông hoa giữa miền sơn cước, làm mê đắm bao chàng trai Gần một năm sau, cô kết hôn nhân với Nguyễn Tiến Tùng, lái xe ở phố huyện Hương Sơn trong sự chúc mừng, tán tụng cặp đôi “trai tài, gái sắc” của họ hàng, bè bạn Tổ ấm của gia đình Hà càng gắn kết khi con gái chào đời Hạnh phúc ngắn chẳng tày gang khi Hà phát hiện chồng sử dụng ma túy Cô khuyên chồng cai nghiện và anh Hùng đoạn tuyệt được cái chết trắng Năm 2005 anh

Hùng bị tai nạn giao thông, qua xét nghiệm máu bác sỹ kết luận đã nhiễm HIV giai đoạn cuối Hà khi đó cũng biết mình đã lây nhiễm từ chồng May thay, con gái của cô âm tính với HIV Sau 2 năm, chồng Hà mất Ngày biết mình bị bệnh, Hà đã viết đơn xin nghỉ dạy “Nhà trường cũng rất đắn đo Ban giám hiệu đã họp, phân tích mọi tình hình, nếu cho nghỉ dạy, cô Hà biết lấy gì để nuôi con Chuyên môn của cô vững, được bạn bè đồng nghiệp tin yêu Mất đi một giáo viên như vậy, chúng tôi không nỡ nên đã khuyên ở lại , cô Lê Thị Ngọc Hoa, Hiệu trưởng trường Mầm non Sơn Kim I nói Về phía cô giáo Hà, sau nhiều đêm nước mắt lưng tròng và chỉ nghĩ đến cái chết cũng đã bình tĩnh hơn, tự nhủ mình phải sống để nuôi con, làm việc có ích cho xã hội Không chỉ đều đặn uống thuốc, Hà chăm chỉ đọc sách báo, học cách phòng tránh, tìm những tấm gương làm động lực Có lần đọc được bài viết về

“anh hùng Châu Á” Phạm Thị Huệ, người bị nhiễm HIV đầu tiên ở Việt Nam nhưng không gục ngã, cô đã lấy tấm gương này điểm tựa để vượt qua mọi khó khăn Từ khi biết cô giáo mang căn bệnh thế kỷ, nhiều phụ huynh không đồng ý để Hà đứng lớp dạy dỗ con em Thay vì sợ hãi, trốn tránh, Hà kiên trì giải thích bệnh này chỉ lây truyền qua đường máu và quan hệ nam nữ rồi nhờ họ đặt vị trí của mình để thấu hiểu cho nhau Một thời gian sau, nhiều phụ huynh đã tin tưởng gửi con , Hà kể Phụ huynh Trần Văn Hải (xóm 4, xã Sơn Kim I) chia sẻ, ban đầu gia đình anh cũng lo lắng song cũng thương cô giáo không có ai để dạy sẽ không có tiền để lo cho gia đình và hiểu cách lây nhiễm của HIV nên đồng ý để con học tại lớp của cô Hà Đến nay con tôi đã vào lớp 1 nhưng vẫn nhắc tới cô giáo Hà nhiều lắm , anh Hải nói Phụ huynh tên Quý cũng từng vì lo con bị nhiễm HIV từ cô giáo mà bàn với chồng chuyển con sang lớp khác Nhưng khi tận mắt đến lớp thấy học trò quấn cô, chăm chú nghe cô giáo dạy, chị Quý đã thay đổi quyết định Chia sẻ về cách dạy trẻ, nữ giáo viên mang căn bệnh thế kỷ cười hiền tâm sự: Chỉ cần mình yêu mến trẻ, trẻ sẽ yêu lại thôi Nói rồi Hà nhớ lại cách đây ba năm, trong ngày lễ chia tay các chuyển cấp, cả giáo viên, học trò, phụ huynh đều lưu luyến ôm nhau khóc Các mếu máo không muốn lên lớp một, muốn ở mãi mầm non để được học với cô Hà 13 năm gắn bó với nghề “gõ đầu trẻ”, Hà là giáo viên dạy giỏi ở

Kết quả thử nghiệm

Bài báo "Nghị lực của cô giáo mầm non nhiễm căn bệnh thế kỷ" có nội dung minh họa cho sức mạnh vượt khó của một giáo viên mầm non mắc bệnh hiểm nghèo Qua phân tích mức câu, bài báo đề cập đến những khó khăn cá nhân, tinh thần lạc quan và ý chí không khuất phục của cô giáo, cũng như sự động viên, hỗ trợ của gia đình, bạn bè và đồng nghiệp, giúp cô vượt qua bệnh tật và tiếp tục truyền cảm hứng cho những người xung quanh Nội dung chi tiết và các ý kiến trong bài báo được trình bày rõ ràng trong sơ đồ hình 3.8 và bảng 5.2.

“Đỗ Thị Thu Hà (34 tuổi, giáo viên trường mầm non Sơn Kim I, huyện Hương Sơn, Hà Tĩnh) có khuôn mặt ưa nhìn, dáng cao, thanh thoát, nụ cười luôn thường trực trên môi Song cuộc đời cô là chuỗi ngày hạnh phúc, xen lẫn những nỗi đau, có lúc tưởng chừng xé nát cõi lòng Là con gái thứ út trong một gia đình có 9 anh chị ở xã Sơn Kim I, cuộc sống vất vả nhưng Hà được bố mẹ nuôi ăn học đầy đủ Năm 2001 vừa tốt nghiệp CĐ Sư phạm Hà Tĩnh, cô được cử về trường mầm non trong xã công tác Tại đây, Hà được ví nhưng bông hoa giữa miền sơn cước, làm mê đắm bao chàng trai Gần một năm sau, cô kết hôn nhân với Nguyễn Tiến Tùng, lái xe ở phố huyện Hương Sơn trong sự chúc mừng, tán tụng cặp đôi “trai tài, gái sắc” của họ hàng, bè bạn Tổ ấm của gia đình Hà càng gắn kết khi con gái chào đời Hạnh phúc ngắn chẳng tày gang khi Hà phát hiện chồng sử dụng ma túy Cô khuyên chồng cai nghiện và anh Hùng đoạn tuyệt được cái chết trắng Năm 2005 anh

Hùng bị tai nạn giao thông, qua xét nghiệm máu bác sỹ kết luận đã nhiễm HIV giai đoạn cuối Hà khi đó cũng biết mình đã lây nhiễm từ chồng May thay, con gái của cô âm tính với HIV Sau 2 năm, chồng Hà mất Ngày biết mình bị bệnh, Hà đã viết đơn xin nghỉ dạy “Nhà trường cũng rất đắn đo Ban giám hiệu đã họp, phân tích mọi tình hình, nếu cho nghỉ dạy, cô Hà biết lấy gì để nuôi con Chuyên môn của cô vững, được bạn bè đồng nghiệp tin yêu Mất đi một giáo viên như vậy, chúng tôi không nỡ nên đã khuyên ở lại , cô Lê Thị Ngọc Hoa, Hiệu trưởng trường Mầm non Sơn Kim I nói Về phía cô giáo Hà, sau nhiều đêm nước mắt lưng tròng và chỉ nghĩ đến cái chết cũng đã bình tĩnh hơn, tự nhủ mình phải sống để nuôi con, làm việc có ích cho xã hội Không chỉ đều đặn uống thuốc, Hà chăm chỉ đọc sách báo, học cách phòng tránh, tìm những tấm gương làm động lực Có lần đọc được bài viết về

“anh hùng Châu Á” Phạm Thị Huệ, người bị nhiễm HIV đầu tiên ở Việt Nam nhưng không gục ngã, cô đã lấy tấm gương này điểm tựa để vượt qua mọi khó khăn Từ khi biết cô giáo mang căn bệnh thế kỷ, nhiều phụ huynh không đồng ý để Hà đứng lớp dạy dỗ con em Thay vì sợ hãi, trốn tránh, Hà kiên trì giải thích bệnh này chỉ lây truyền qua đường máu và quan hệ nam nữ rồi nhờ họ đặt vị trí của mình để thấu hiểu cho nhau Một thời gian sau, nhiều phụ huynh đã tin tưởng gửi con , Hà kể Phụ huynh Trần Văn Hải (xóm 4, xã Sơn Kim I) chia sẻ, ban đầu gia đình anh cũng lo lắng song cũng thương cô giáo không có ai để dạy sẽ không có tiền để lo cho gia đình và hiểu cách lây nhiễm của HIV nên đồng ý để con học tại lớp của cô Hà Đến nay con tôi đã vào lớp 1 nhưng vẫn nhắc tới cô giáo Hà nhiều lắm , anh Hải nói Phụ huynh tên Quý cũng từng vì lo con bị nhiễm HIV từ cô giáo mà bàn với chồng chuyển con sang lớp khác Nhưng khi tận mắt đến lớp thấy học trò quấn cô, chăm chú nghe cô giáo dạy, chị Quý đã thay đổi quyết định Chia sẻ về cách dạy trẻ, nữ giáo viên mang căn bệnh thế kỷ cười hiền tâm sự: Chỉ cần mình yêu mến trẻ, trẻ sẽ yêu lại thôi Nói rồi Hà nhớ lại cách đây ba năm, trong ngày lễ chia tay các chuyển cấp, cả giáo viên, học trò, phụ huynh đều lưu luyến ôm nhau khóc Các mếu máo không muốn lên lớp một, muốn ở mãi mầm non để được học với cô Hà 13 năm gắn bó với nghề “gõ đầu trẻ”, Hà là giáo viên dạy giỏi ở

Hình 5.5 : Nội dung bài báo ở hình 3.8

B ả ng 5.2: Các ý kiến về bài báo ở hình 3.8

STT Nội dung ý kiến bạn đọc

01 Cám ơn sự bao dung, thấu hiểu của tập thể giáo viên của trường và các phụ Huynh ở Hương Sơn

02 Cam dong qua, hai me con co len chi nhe, mong chi luon khoe manh de day do cac be va nuoi con gai lon khon nha!

Trong suốt hơn một thập kỷ qua, chị đã vượt lên nỗi đau bệnh tật HIV, sống nghị lực, mạnh mẽ và luôn đóng góp cho cộng đồng Tinh thần chiến thắng nghịch cảnh của chị là minh chứng cho việc người nhiễm HIV hoàn toàn có thể sống một cuộc sống có ý nghĩa và xứng đáng được xã hội trân trọng Gương sáng của chị là động lực to lớn cho nhiều người noi theo, xóa tan định kiến tiêu cực về căn bệnh này.

04 Cảm ơn cô hiệu trưởng cùng các giáo viên trường mầm non Sơn Kim I huyện Hương Sơn cũng như phụ huynh học sinh! Hành động của quí vị thật đáng kính trọng!

05 Hai mẹ con chị cố lên nhé, chúc 2 mẹ con chị sức khỏe và vui sống

06 cố lên bạn nhé, vì con vì bản thân hãy sống thật mạnh mẽ nhé Chúc bạn và bé thật nhiều nhiều nhiều hạnh phúc Bạn là một tấm gương có nghị lực phi thường Có lẻ trong ánh mắt trẻ thơ đã tạo động lực cho bạn chăng

07 Minh xn cam on cac ban da quan tam va dong vien me con minh nhat dinh minh se lam duoc nhung j ma minh dang du dinh chuc cac ban vui ,khoe nhe

@Do thi thu ha : Bạn đã vượt qua được cái khó khăn nhất việc còn lại là vẫn cứ vui công tác, chăm sóc cháu nhỏ Chúc bạn thật nhiều niềm tin vui và nghị lực

@Do thi thu ha : đúng là không có gì làm khó 1 cô giáo đầy nghị lực và đam mê nghề như bạn hãy cố lên cố lên nữa để vượt qua tất cả nào cô giáo, xã hội này lúc nào cũng tôn trọng và quý mến những tấm gương như cô giáo đây

Ngành Giáo dục - Đào tạo huyện Hương Sơn và Trường Mầm non Sơn Kim 1 cùng bà con xã Sơn Kim đã có những đóng góp to lớn trong sự nghiệp giáo dục, đặc biệt là cô giáo của trường Mầm non Sơn Kim 1 với thành tích lao động tiên tiến cấp huyện và lọt vào top 15 cuộc thi tôn vinh vẻ đẹp người làm giáo dục ở Hà Tĩnh.

Trong những hoạt động từ thiện vì cộng đồng, cô giáo mang căn bệnh thế kỷ cũng nhiệt tình tham gia Hà hiện là chủ nhiệm CLB Sông Lam Xanh trên địa bàn xã Sơn Kim I -một tổ chức cộng đồng gồm 25 chị em bị lây nhiễm HIV Lời nói và mọi hành động của cô, theo Bí thư Đảng ủy xã, đều có uy tín, sức tác động, lan tỏa lớn tới cộng đồng Con gái của cô giáo Hà, Nguyễn Thị Cẩm Ly nay cũng vào lớp 7

Vượt qua khó khăn, Ly vẫn chăm ngoan học tập, đạt nhiều thành tích xuất sắc, đặc biệt là môn Toán cấp huyện Sự bình yên của hai mẹ con kéo dài cho đến hiện tại Dù thu nhập giáo viên không cao nhưng đủ trang trải chi phí sinh hoạt, tiền thuốc men được hỗ trợ từ các tổ chức xã hội Cô Hà luôn bày tỏ mong ước sức khỏe để tiếp tục làm việc và cống hiến cho xã hội Tấm gương của cô giáo Hà là minh chứng cho đạo lý sống tốt, luôn hướng tới tương lai.

11 Mình đã khóc khi đọc những dòng này Cố lên chị nhé

12 Minh cung mong rang co that nhieu nhieu nguoi doc để hieu duoc can benh the ky nay ma đừng kỳ thi voi nhung nguoi xung quanh minh va minh muon nhắn nhủ voi các ban la HIV khog phai la het ma minh biet cách đieu tri thi van xinh dep nhu bao nguoi khac va song that co ich cho xa hoi, xh rat can nhung nguoi nhu chung minh

13 Thương quá , cố lên cô giáo

14 chuc hai me con luôn cố gắng vượt qua chướng ngai vật để sông khỏe

15 Mong những ai không may mang trong mình virut HIV hãy mạnh mẽ ,nghị lực mà sống có ít cho bản thân gia đình và xã hội Hãy công khai tham gia điều trị sức khỏe sẽ tốt hơn Chúc mừng bạn cùng gia đình Hãy mạnh mẽ lên các bạn đừng phân biệt kỳ thị nữa

16 Mong rằng xã hội hãy bỏ đi sự kỳ thị với những người mang bệnh hiv!

Đánh giá

Sự khác biệt giữa hai phương pháp tiếp cận là rõ ràng, mỗi phương pháp có cách giải quyết vấn đề riêng Phương pháp tiếp cận mức văn bản tập trung vào tổng thể và sử dụng luật Naive Bayes, trong khi phương pháp tiếp cận mức câu đòi hỏi đi sâu vào từng thành phần câu Vì phương pháp Naive Bayes không xử lý hiệu quả các chi tiết trong văn bản nên tác giả đã kết hợp thêm phương pháp Mô hình không gian vector để giải quyết vấn đề toàn diện hơn.

B.1 Phân loại cảm xúc a Kết quả phân tích các ý kiến dành bài báo hình 5.1 (xem phụ lục phần I

Bảng 5.9 tổng hợp kết quả phân tích cảm xúc của hai phương pháp (phân tích mức câu và phân tích mức văn bản) Chương trình chạy khá ổn định, tất cả các ý kiến đều được phân loại cảm xúc trong cả hai phương pháp

B ả ng 5.9 : Kết quả phân tích bài báo hình 5.1:

Phân tích mức văn bản Phân tích mức câu

Tổng 18 18 Độ khác nhau khi ra quyết định của hai phương pháp:

- Có 5 quyết định khác nhau đối với lớp neutral

- Có 1 quyết định khác nhau đối với lớp negative

Vậy tỷ lệ khác biệt: 6/18 ≈ 33.33%

Mức độ khác nhau 33.33% là khá lớn Qua đó chúng ta thấy được mức độ tác động của Mô hình không gian vector đến kết quả phân tích

Xét một ý kiến được phân loại cảm xúc khác nhau bởi hai phương pháp:

“Việt nam không biết trọng dụng sản phẩm của ông, để rồi Malai sẽ sở hữu tất cả công nghệ này”

Kết quả chi tiết của quá trình phân tích mức văn bản một ý kiến như hình 5.13:

Hình 5.13: Chi tiết phân tích mức văn bản của ý kiến số 17 của bài báo hình 5.1 Ý kiến số 17 (thẻ trong hình 5.13 có giá trị 16) chỉ có một thực thể

“không biết” (thuộc tính “featureset” trong thẻ ) với trọng số cảm xúc bằng 0 (giá trị của thẻ ) Tuy nhiên, như trình bày ở phần 4.2.3, chỉ có thể truyền hai tập dữ liệu huấn luyện cho Nạve Bayes là positive và negative nên quyết định gán nhãn “positive” (thẻ ) là chưa thật sự tối ưu

Khi phân tích mức câu, dữ liệu phân tích ý kiến 17 thể hiện như hình 5.14

Hình 5.14: Chi tiết phân tích mức câu của ý kiến số 17 của bài báo hình 5.1 Ý kiến chỉ có một câu với một thực thể cảm xúc duy nhất “không biết” (thuộc tính featureset trong thẻ ), có trọng số cảm xúc là 0 (giá trị của thẻ

) Nạve Bayes quyết định gán nhãn positive (thẻ ) Sau khi qua Mô hình không gian vector thì hệ thống quyết định gán nhãn neutral (thẻ

) Kết quả này là hợp lý và chính xác hơn so với khi phân tích mức văn bản b Kết quả phân tích các ý kiến bài báo hình 3.8 Bảng 5.10 thể hiện kết quả phân tích cảm xúc của hai phương pháp (phân tích mức câu và phân tích mức văn bản) Độ khác nhau khi ra quyết định của hai phương pháp:

- Có 10 quyết định khác nhau đối với lớp neutral

- Có 1 quyết định khác nhau đối với lớp negative

Vậy tỷ lệ khác biệt: 11/30 ≈ 36.67%

B ả ng 5.10 : Kết quả phân tích bài báo hình 3.8

Phân tích mức văn bản Phân tích mức câu

Xét cụ thể một ý kiến được gán nhãn khác nhau khi sử dụng hai phương pháp:

“Mong rằng xã hội hãy bỏ đi sự kỳ thị với những người mang bệnh hiv”

Phương pháp phân tích mức câu gán nhãn ý kiến trên là neutral Phương pháp phân tích mức văn bản gán nhãn positive Để xác định phương pháp nào gán nhãn phù hợp và chính xác hơn chúng ta xét đến kết quả phân tích trong cơ sở dữ liệu Kết quả chi tiết của quá trình phân tích mức văn bản như hình 5.15 Ý kiến chỉ có một thực thể với trọng số cảm xúc bằng 0 (không) Tuy nhiên, như trình bày ở phần 4.2.3, chỉ cĩ thể truyền hai tập dữ liệu huấn luyện cho Nạve Bayes là positive và negative nên phương pháp phân tích mức văn bản quyết định gán nhãn positive là chưa thật sự tối ưu

Hình 5.15 : Chi tiết phân tích mức văn bản cho ý kiến 16 của bài báo hình 3.8

Với phương pháp phân tích mức câu, ý kiến chỉ cĩ một câu duy nhất, Nạve Bayes quyết định gán nhãn positive Sau khi qua Mô hình không gian vector thì hệ thống quyết định gán nhãn neutral Kết quả này là hợp lý và chính xác hơn khi xét một cách toàn diện, cả ở khía cạnh kỹ thuật và khía cạnh ngữ nghĩa Chi tiết dữ liệu phân tích mức câu như hình 5.16

Hình 5.16 : Chi tiết phân tích mức câu cho ý kiến 16 của bài báo hình 3.8 Đánh giá trong phân loại cảm xúc:

Các độ đo chúng ta dùng trong đánh giá phân loại cảm xúc gồm: độ đúng đắn (Accuracy), độ chính xác (Precision) và độ bao (Recall)

Những phép đo này được tính dựa trên những nhận định giống và khác nhau về cực cảm xúc của con người và máy móc Các trường hợp xảy ra bao gồm:

- TP (True Positive): Số phần tử positive do người và máy có cùng nhận định

- TN (True Negative): Số phần tử negative do người và máy có cùng nhận định

- FN (False Negative): Số phần tử người nhận định là negative còn máy không nhận định là negative

- FP (False Positive): Số phần tử người nhận định positive còn máy không nhận định là positive

- TL (True Neutral): Số phần tử neutral do người và máy có cùng nhận định

- FL (False Neutral): Số phần tử người nhận định là neutral còn máy không nhận định là neutral Độ đúng đắn ( Accuracy ) Độ đúng đắn đánh giá tỉ lệ mà máy đánh giá đúng so với nhận định của người Công thức xác định độ đúng đắn như sau:

TP FP TN FN TL FL

= + Độ chính xác (Precision) Độ chính xác cho biết xác suất ngẫu nhiên xảy ra trong từng phân lớp

Xác suất cho lớp positive là:

Xác suất cho lớp negative là:

Xác suất cho lớp neutral là:

= + Độ bao (Recall) Độ đo này cho biết xác suất đánh giá đúng trong từng phân lớp

Xác suất cho lớp positive:

Xác suất cho lớp negative:

Xác suất cho lớp neutral:

Tính toán các độ đo cho bài báo hình 5.1 trình bày trong bảng 5.11 Do số ý kiến của bài báo trên chỉ là 18 nên các kết quả tính toán ở bảng 5.3 chưa thể dùng để đánh giá toàn diện phương pháp thực hiện của luận văn (phần tính toán trên toàn bộ quá trình thử nghiệm trên kho ngữ liệu sẽ được trình bày trong phần tiếp theo)

B ả ng 5.11 : Kết quả tính toán các độ đo cho bài báo hình 5.1

Phương pháp phân tích Lớp Độ đúng đắn (%) Độ chính xác (%) Độ bao (%)

Chúng ta cũng có thể đưa ra một số nhận xét như sau:

– Độ đúng đắn trong cả hai phương pháp phân tích đều khá tốt

– Trong tất cả các phép đo, phương pháp phân tích mức câu đều có kết quả tốt hơn phương pháp phân tích mức văn bản trong các phép đo tương ứng Chỉ duy nhất xác suất lớp positive trong phép đo Độ bao là thấp hơn Nguyên nhân là do phương pháp phân tích mức câu có nhiều mức cảm xúc hơn (3 so với 2 – mức phân tích cảm xúc sâu hơn)

– Do phương pháp phân tích mức câu là phương pháp phân tích mịn hơn phương pháp phân tích mức văn bản nên có thêm lớp cảm xúc “neutral” (trung tính) Ngoài yếu tố phân tích thô hơn, phương pháp phân tích mức văn bản cũng có tiêu chí đánh giá thô hơn (chỉ phân thành hai lớp: positive và negative – xem thêm phần 4.2.3) Đó chính là nguyên nhân phương pháp phân tích mức câu có các kết quả đo tốt hơn khi phân tích mức văn bản

– Trong phân tích mức văn bản, các phép đo Độ bao, Độ F đối với lớp negative là rất thấp

Mô-đun Tóm tắt độc lập với giai đoạn phân tích cảm xúc và sử dụng để rút gọn các ý kiến dài dựa trên đánh giá độ quan trọng Độ chính xác và độ bao phủ của mỗi ý kiến được đánh giá riêng biệt theo công thức đã định, không liên quan đến độ chính xác của việc gán nhãn cảm xúc.

Tiêu chí tóm tắt mà tác giả đặt ra là:

– Yếu tố nội dung và yếu tố cảm xúc có vai trò ngang nhau (xem phần 4.2.5)

– Các ý kiến chỉ có duy nhất một câu thì sẽ giữ nguyên, các ý kiến có từ hai câu trở lên sẽ tóm tắt ở mức 50% số câu (có thể đặt một tỷ lệ rút gọn khác – xem thêm phần 5.2, hình 5.3) Vì vậy số ý kiến cần tóm tắt ở bài báo hình 3.8 là 22 ý kiến Số ý kiến cần tóm tắt ở bài báo hình 5.1 là 4 ý kiến

Cụ thể, các ý kiến cần tóm tắt (các ý kiến có từ 2 câu trở lên được mô – đun Tóm tắt xử lý) của bài báo hình 5.1 và bài báo hình 3.8 được trình bày trong bảng 5.12 và bảng 5.13 Rõ ràng, nội dung tóm tắt là khá hợp lý (bỏ qua các văn bản ý kiến không có dấu tiếng Việt):

B ả ng 5.12 : Nội dung các ý kiến của bài báo hình 5.1 được mô – đun Tóm tắt xử lý

STT Nội dung tóm tắt của các ý kiến

Tiêu đề	Tóm tắt ý kiến trên cơ sở phân loại cảm xúc
Tác giả	Nguyễn Ngọc Duy
Người hướng dẫn	GS.TS. Phan Thị Tươi
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học Máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2014
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	104
Dung lượng	2,87 MB