Xử lý các đặc trưng tiếng việt trong bài toán phân loại quan điểm người dùng

Hiểu được vấn đề này, đề tài “Xử lý các đặc trưng tiếng việt trong bài toán phân loại quan điểm người dùng” đã được tôi chon dé thực hiện luận văn tốt nghiệp của mình, là một bài toán nh

Trang 1

LỜI MỞ ĐẦUHiện nay, sự phát trién nhanh chóng của kỹ thuật Công nghệ thông tin đã hỗtrợ đắc lực cho nhu cầu truyền tin và khai thác thông tin dữ liệu của nhân loại Vớithế hệ của Web 2.0, sự phát triển của nó đã đem lại nhiều lợi thế cho các công ty,doanh nghiệp vì thông qua các website, họ giới thiệu đến khách hàng những sảnphẩm của mình, đồng thời quảng bá thương hiệu của bản thân Khi thương mại điện

tử ngày càng trở nên phổ biến hơn, càng nhiều sản phẩm được bán trên mạng vànhiều người hơn nữa cũng mua các sản phẩm trực tuyến Dé tăng cường sự hài lòngcủa khách hàng và chia sẻ kinh nghiệm mua sắm, các thương nhân trực tuyến đã

cho phép khách hàng của họ xem và bày tỏ ý kiến của mình về các sản phẩm mà họ

đã mua.

Với số lượng người dùng nhiều hơn vào xem sản phẩm, cũng như nhữngphản hồi của họ về sản phẩm ngày một nhiều hơn Đối với những sản phẩm phổbiến, số lượng ý kiến của khách vào xem có thé lên tới hàng trăm, thậm chí hàngnghìn Nếu khách hàng chỉ đọc một vài ý kiến, thì họ sẽ có cái nhìn thiên vị, cònnếu đọc hết những ý kiến đó thì sẽ rất khó khăn để đưa ra quyết định có nên muasản phẩm này hay không? Đồng thời, nó cũng gây khó khăn cho các nhà sản xuấtcủa sản phẩm đó trong việc theo dõi và quan lý ý kiến của khách hàng

Hiểu được vấn đề này, đề tài “Xử lý các đặc trưng tiếng việt trong bài

toán phân loại quan điểm người dùng” đã được tôi chon dé thực hiện luận văn

tốt nghiệp của mình, là một bài toán nhỏ trong bài toán phân lớp quan điểm, đề từ

đó có thể góp phần giải quyết được bài toán khai phá quan điểm trên câu tích cực và

tiêu cực áp dụng cho tiếng Việt

Trong phạm vi đồ án, tôi xin phép trình bày phương pháp xác định câu tíchcực, tiêu cực cho ngôn ngữ tiếng Việt với dữ liệu là những quan điểm của ngườidùng về thiết bị di động Chi tiết của phương pháp được trình bày cụ thé và rõ rang

trong luận văn Luận văn sử dụng phương pháp phân lớp SVM (Support Vector

Machines) để giải quyết bài toán Trích chọn đặc trưng dựa trên hai đặc trưng củacâu là từ và âm tiết Với mỗi đặc trưng tôi sử dụng n-grams (n = 1,2,3) Từ đó mục

Trang 2

tiêu của luận văn là nghiên cứu phương pháp xác định câu tích cực, tiêu cực trong

tiếng Việt, từ đó đưa ra phương hướng giải quyết bài toán

Với mục tiêu như vậy, bố cục của luận văn sẽ bao gồm ba chương theo cau

Chương II: Phân tích quan điểm người dùng trong ngôn ngữ tiếng việtChương này trình bày lý do chọn phương pháp hoc máy, đồng thời tìm hiểuthuật toán học máy SVM và ứng dụng của học máy vào phân quan điểm điểm tích

Trang 3

CHUONG I: GIỚI THIỆU CHUNG

1.1 Tổng quan về học máy

1.1.1 Khái niệm về học máy

Học máy là một lĩnh vực thuộc ngành trí tuệ nhân tạo liên quan đến việc thiết

kế và phát triển các thuật toán cho phép máy tính cải thiện hiệu quả qua thời gian

dựa trên dữ liệu Học máy tập trung vào phân tích, nghiên cứu các giải thuật trong việc thực thi tính toán

Trong phương pháp này, một tập mẫu sẽ được đưa ra dé phục vụ cho việc

“học” Tập mẫu này sẽ bao gồm các mẫu đã được gán nhãn (mỗi nhãn đại diện chomột lớp) Quá trình “học” sẽ thực hiện dựa trên tập mẫu này dé đưa ra hàm ánh xạmột mẫu mới vào lớp mà nó thuộc về

1.1.2 Phân loại học máy

Học máy chủ yêu được phân thành 3 loại chính được giới thiệu bởi Hang [2]

1.1.2.1 Học có giám sát (supervised learning)

Hoc có giám sát là phương pháp học máy xây dựng một hàm từ tập dữ liệu

để ánh xạ một mẫu dữ liệu mới tới kết quả mong muốn Tập dữ liệu huấn luyện

gồm các đối tượng (thường ở dang vector) đã được gan nhãn từ trước Kết quả củaphương pháp này có thé là một giá trị liên tục hoặc một nhãn phân loại cho một mau

Trang 4

dữ liệu mới Luận Văn được tôi nghiên cứu và phát triển dưới đây sẽ áp dung học

máy có giám sát

1.1.2.2 Học không giám sát (unsupervised learning)

Học không giát sát (unsupervised learning) là phương pháp học máy nhằmtìm ra một mô hình phù hợp với các quan sát Cho trước một mẫu chỉ gồm các đối

tượng (object), cần tìm kiếm cấu trúc quan tâm (interesting structures) của dữ liệu,

và nhóm các đối tượng giống nhau

1.1.2.3 Học bán giám sát (semi-supervised learning)

Học bán giám sát là một lớp của kĩ thuật học máy, sử dụng cả dữ liệu đã gan

nhãn và chưa gán nhãn dé huấn luyện — điển hình là một lượng nhỏ dữ liệu có gán

nhãn cũng với lượng lớn dữ liệu chưa gan nhãn Học bán giám sát đứng giữa hoc

không giám sát (không có bất kì dữ liệu đã được gán nhãn nào) và có giám sát

(toàn bộ dữ liệu đã được gán nhãn)

1.1.3 Ung dụng của học máy

Học máy là một nhánh nghiên cứu rất quan trọng của trí tuệ nhân tạo với khánhiều ứng dụng thành công trong thực tế

Cụ thể :

- _ Xử lý ngôn ngữ tự nhiên

- Phat hiện và nhận dang mặt người

- Loc thư rác, phân loại van bản

1.2 Khái quát chung về khai phá quan điểm người dùng trong ngôn ngữ

tiếng việt

1.2.1 Giới thiệu về khai phá quan điểm người dung

Khai phá quan điểm là một kiểu của xử lý ngôn ngữ tự nhiên cho việc theodõi ý kiến của cộng đồng về sản phẩm hoặc dịch vụ cụ thể Khai phá quan điểm cònđược gọi là phân tích tình cảm (sentiment analysis) liên quan đến việc xây dựng hệthống thu thập và xem xét ý kiến về sản phẩm và dịch vụ được thực hiện trên các

Trang 5

bài đăng trên các trang như genk, VnExpress, Facebook Khai phá quan điểm tựđộng thường sử dụng học máy (machine learning), một phần trong trí tuệ nhân tạo.

1.2.2 Các mức độ khai phá quan điểm

Khai phá quan điểm thường được nghiên cứu ở ba mức độ khác nhau, bao

gồm :

e_ Khai phá quan điểm mức tai liệu

e Khai phá quan điểm mức câu

e Khai phá quan điểm mức khía cạnh/đặc trưng

1.2.3 Các bài toán trong khai phá quan điểm

Các bài toán chính trong khai phá quan điểm bao gồm :

e Bài toán nhận diện quan điểm

e Khai phá quan điểm theo khía cạnh/đặc trưng

e Tóm tắt quan điểm

e Phát hiện quan điểm rác

e Khai phá quan điểm trên câu so sánh

e_ Bài toán phân lớp quan điểm

Bài toán phân lớp quan điểm cũng chính là bài toán chúng tôi quan tâm trong

nghiên cứu này và sẽ được trình bày kỹ hơn ở phần dưới đây

1.2.4 Phân loại văn bản

1.2.4.1 Bài toán phân lớp quan điểm

Là bài toán phân loại một đối tượng dit liệu vào một hay nhiều loại cho trướcnhờ mô hình phân loại, mô hình này được xây dựng dựa trên một tập hợp các đốitượng đữ liệu đã được gán nhãn từ trước gọi là tập dữ liệu huấn luyện Quá trìnhphân loại này còn được gọi là quá trình gán nhãn cho các đối tượng dữ liệu

Sau đây là quá trình phân loại dữ liệu, quá trình được thực hiện gồm haibước: xây dựng mô hình tạo bộ phân loại và sử dung mô hình này dé phân loại

e Bước 1: Mô hình được xây dựng dựa trên việc phân tích các đối tượng dit

liệu đã được gán nhãn từ trước Tập các mẫu dữ liệu này còn được gọi là tập

Trang 6

dữ liệu huấn luyện (training data set) Các nhãn của tập dữ liệu huấn luyện

được xác định bởi con người trước khi xây dựng mô hình.

e Bước 2: Su dụng mô hình đã được xây dựng ở bước 1 dé phân loại dữ liệu

mới Như vậy, thuật toán phân loại là một ánh xạ từ miền dữ liệu đã có sangmột miền giá trị cụ thé của thuộc tính lớp, dựa vào giá trị các thuộc tính của

đữ liệu.

1.2.4.2 Mô hình vector biểu diễn văn bản

Hầu hết các thuật toán đều sử dụng vector đặc trưng Vì vậy ở phần này tôi

sẽ trình bày sơ lược về vector đặc trưng :

Ý tưởng của mô hình này là xem mỗi một câu của văn bản có dạng:

X= (X}, X¿, , xạ), và n là số lượng đặc trưng của vector văn bản (số lượng từ trongtập từ điền), x; là số lần xuất hiện của từ có định nghĩa là i, i € {1, 2, n}

HHIHHHIFTHE $

Hình 1.2 Văn bản được biểu diễn là vector đặc trưng

Trang 7

12.5 Ý nghĩa và ứng dụng của bài toán khai phá quan điểm

Bài toán khai phá quan điểm có ý nghĩa rất lớn trong cuộc sống ngày nay, nókhông chỉ giúp con người đưa ra các quyết định của mình mà còn giúp các công ty,các nhà sản xuất theo dõi chất lượng sản phẩm và kịp thời nâng cao chất lượng cácsản phẩm

Đồng thời khai phá quan điểm có nhiều ứng dụng trong thực tiễn Có ứng

dụng về việc tìm kiếm văn bản Từ một tập dữ liệu đã được phân loại, đánh kí hiệuvới từng loại tương ứng, người dùng có thé xác định được loại văn bản mà mình

mong muốn

Một ứng dụng khác của phân loại văn bản là sử dụng dé lọc văn bản, trích

lọc thông tin trên mạng Internet Ngoài ra, phân loại văn bản còn có ứng dụng trong

việc phân loại ý kiến, đánh giá của người dùng

1.2.6 Bài toán khai phá quan điểm cho tiếng Việt

Trong phạm vi luận văn, tôi sẽ thực hiện với miền dữ liệu là các đánh giátiếng Việt của người dùng về thiết bị di động, luận văn sẽ sử dung hướng tiếp cận làhọc máy dé xây dựng bộ phân lớp quan điểm và thực hiện tạo tập từ điển bằng việctách từ theo âm tiết và theo từ

1.2.7 Khó khăn trong bài toán khai phá quan điểm Tiếng Việt

Những khó khăn cơ bản trong bài toán khai phá quan điểm trên miền dữ liệutiếng Việt theo Trang [7] như sau:

e Một từ được coi là tích cực trong trường hợp này có thé được coi là tiêu cực

trong tình huống khác Lấy từ "dai" làm vi dụ: “ tuổi tho pin của máy tinhxách tay dai”, đó sẽ là một ý kiến tích cực, “thời gian khởi động của máy tinhxách tay dài”, đó lại là một ý kiến tiêu cực

e_ Một thách thức lớn đối với khai phá quan điểm xuất hiện khi mọi người thé

hiện đánh giá tích cực và tiêu cực trong cùng một câu Những câu như vậy có

thé gây khó khăn dé phân tích cú pháp hoặc khai phá quan điểm

Trang 8

e_ Đơi khi những người khác gặp khĩ khăn trong việc hiểu những gì một người

nào đĩ nghĩ dựa trên một đoạn ngắn của văn bản bởi vì nĩ thiếu bối cảnh Ví

dụ, "Đĩ là bộ phim tốt như bộ phim trước đĩ của ơng ay" la hoan toan phuthuộc vào những gì người bày tỏ quan diém đã nghĩ về bộ phim trước đĩ

e Chưa cĩ bộ dữ liệu gan nhãn Tiếng Việt chuan để phục vụ cho việc huấn

luyện dữ liệu trong trường hợp sử dụng phương pháp học máy dé khai phaquan điểm

e Cuối cùng là những dữ liệu bình luận tiếng Việt thường ít, cĩ nhiều từ long,

thiếu dấu câu gây khĩ khăn trong bước tiền xử lí đữ liệu

1.3 Các phương pháp phân loại quan điểm người dùng

1.3.1 Phương pháp học máy

1.3.1.1 Giới thiệu và sử dụng phương pháp học máy SVM trong phân loại

quan điểm tiếng việt

SVM là phương pháp tiếp cận phân loại hiệu quả được Vapnik giới thiệunăm 1995 [14] dé giải quyết van đề nhận dạng mẫu hai lớp sử dụng nguyên lý Cựctiểu hĩa Rui ro Cầu trúc (Structural Risk Minimization)

1.3.1.2 Phương pháp K-nearest Neighbor (KNN)

kNN là phương pháp truyền thống khá nỗi tiếng về hướng tiếp cận dựa trênthống kê đã được nghiên cứu trong nhận dạng mẫu hơn bốn thập kỉ qua [Dasarathy,1991] kNN được đánh giá là một trong những phương pháp tốt nhất được sử dụng

từ thời kì đầu của việc phân loại

1.3.1.3 Phương pháp Nạve Bayes (NB)

Nạve Bayer là phương pháp phân loại dựa vào xác suất được sử dụng rộngrãi trong lĩnh vực học máy, được sử dụng lần đầu tiên trong lĩnh vực phân loại bởiMaron vào năm 1961, sau đĩ trở nên phổ biến trong nhiều lĩnh vực như trong các

cơng cụ tim kiêm, các bộ lọc mail

Trang 9

1.4 Kết luận chương

Trong chương một của luận văn tôi đã tìm hiểu về những khái nệm tổngquan nhất về học máy và các phương pháp học máy Qua đó tôi đã lựa chọn phươngpháp học máy có giám sát dé áp dụng vào luận văn Ngoai ra ở chương một tôi timhiểu về các khái niệm của khai phá quan điểm cùng những phương pháp phân loại

quan điểm trên ngôn ngữ tiếng việt, tiếp vào đó là ý nghĩa, ứng dụng cùng với

những khó khăn thách thức của việc phân loại quan điểm trên ngôn ngữ tiếng việt

Trang 10

CHUONG II : PHAN TÍCH QUAN DIEM NGƯỜI DUNG

TRONG NGON NGU TIENG VIET 2.1 Các đặc trưng của tiếng việt

2.1.1 Đặc diém chung

Tiếng Việt là ngôn ngữ không biến hình từ và âm tiết tính tức là mỗi một

tiếng (âm tiết) được phát âm tách rời nhau và được thể hiện bang một chữ viết [1].Hai đặc trưng này chỉ phối toàn bộ tổ chức bên trong của hệ thống ngôn ngữ Việt vàcần được chú ý khi xử lý tiếng Việt trên máy tính

2.1.2 Yếu tổ ngoại lai trong từ tiếng Việt

Tiếng Việt có các yếu tô ngoại lai thuộc gốc Hán, gốc Pháp, Anh trong đó

yêu tố Hán vừa chiếm đa số vừa giữ vai trò khá quan trọng trong vốn từ và trongcấu tạo từ Việt Các yêu tố gốc Ấn - Âu đi vào tiếng Việt phải chịu áp lực rất mạnhcủa sự âm tiết hoá theo kiểu tiếng Việt

Ngoài ra, khi Việt hoá các từ ngoại lai Ấn-— Âu có sự đơn tổ hod ví dụ: sulơ,xuyết vôn tơ, mát xa ; và có sự giản hoá về phát âm như sứ (đại sứ quán), lốp (vỏ

Các tiếng đồng âm: như kĩ/kỹ, lí, lý thường bị sử dụng lẫn nhau như: lý

luận, lí luận, kĩ thuật, kỹ thuật

Đặc điểm chính tả tiếng Việt có ý nghĩa quan trọng tiền xử lý đữ liệu vănbản Một số đặc điềm chính tả tiếng Việt cần quan tâm như [6]: Các từ địa phương,

Trang 11

vị tri dau thanh, cách viết hoa, phiên âm tiếng nước ngồi, từ gach nối, kí tự ngắt

câu.

2.1.5 Bảng mã tiếng Việt trên máy tính

Một số bảng mã tiếng việt trên máy tính.Cĩ thể ké đến một số bảng mã dưới

đây [4].

e Mã dựng sẵn

+ Mã dựng sẵn một bảng fonts: TCVN 5712-VN1, VISCII, BachKhoa 1,

VietStar : các bảng mã này mở rộng sang cả phần mã chuẩn, nên gây anh hưởngnghiêm trọng trong truyền thơng

+ Mã dựng sẵn hai bảng fonts: TCVN 5712-VN3 (ABC), VietSea, VNU :

sử dụng 2 bảng mã cho một kiểu chữ nên gây dư thừa và khơng hiện thực việc phânbiệt chữ hoa chữ thường trong các chương trình xử lý số liệu

° Mato hợp

Cac bang ma VietWare-X, Vni for Windows, TCVN 5712-VN2, BachKhoa

II, VS2, 3C25 va các trang mã 1258 (Microsoft), 1129 (IBM), ISO 10646 sử

dung phương pháp mã tơ hop

Tĩm tại, tiếng Việt là ngơn ngữ khơng biến hình từ và âm tiết tính, do đĩ,việc phân loại từ (danh từ, động từ, tính từ ) và ý nghĩa từ là vấn đề khĩ, cần cĩnhiều nghiên cứu thêm

2.2 Lý do chọn phương pháp SUPPORT VECTOR MACHINE

Phương pháp học máy SVM là bài tốn phân loại câu ở dưới dạng nhị phân,rất thích hợp cho bài tốn của tơi là đánh giá câu ở dạng tích cực và tiêu cực

Mặt khác, phương pháp SVM là phương pháp đã xuất hiện được một thờigian dai, được sử dụng cĩ hiệu quả vao năm 1995 [14] nên ta cĩ thé tin tưởng vàoxác suất về độ chính xác và các ưu khuyết điểm của phương pháp nay dé áp dụng

phù hợp

Trong cơng trình của minh năm 1999 Joachims[9] đã so sánh SVM với

Nạve Bayesian, k-Nearest Neighbour, Rocchio, và C4.5 và đến năm 2003 Joachims[10] đã chứng minh rằng SVM làm việc rất tốt cùng với các đặc tính được đề cập

Trang 12

trước đây của văn bản Các kết quả cho thấy rằng SVM đưa ra độ chính xác phânlớp tốt nhất khi so sánh với các phương pháp khác

Vì vậy, tôi đã đề xuất chọn phương pháp SVM để phân loại văn bản hay

đánh giá ý kiến người viết trong văn bản

2.3 Bộ phân loại quan điểm SVM

Theo Bing Liu[11], ý tưởng chính của thuật toán này là cho trước một tập

huấn luyện được biểu diễn trong không gian vector trong đó mỗi tài liệu là một

điểm, phương pháp này tìm ra một mặt siêu phăng h quyết định tốt nhất có thể chiacác điểm trên không gian này thành các lớp riêng biệt Chất lượng của mặt siêuphang này được quyết định bởi khoảng cách của điểm dữ liệu gần nhất của mỗi lớpđến mặt phang này Khoảng cách biên càng lớn thì mặt phang quyết định càng tốt,đồng thời việc phân lớp càng chính xác Mục đích của SVM là tìm ra được khoảngcách biên lớn nhất dé tạo ra kết quả phân lớp tốt

Hình 2.1 Mặt siêu phẳng phân chia dữ liệu thành hai tập âm và duong[8]

Trang 13

2.3.1 Trường hợp khả tách tuyến tính

Bộ phân lớp SVM tìm ra mặt siêu phăng với lề cực đại được xác định bởi

khoảng cách giữa các mầu âm và dương gân mặt siêu phăng nhât.

Gọi d, và d_ là là khoảng cách ngắn nhất giữa siêu phang đến dữ liệu dương

và dit liệu âm gần nhất Khi đó lề của siêu phang: margin = d, + d_

Gia sử hai điểm (x*,1) và (x ,-1) là hai điểm gần siêu phăng nhất Khi đóchúng ta xác định được hai đường thang song song H, và H Thay đổi tỷ lệ w và b

Không có dữ liệu huấn luyện nào nằm giữa H, va H

Goi x, là một điểm thuộc mặt siêu phẳng và d, là khoảng cách từ H, tới mặt

siêu phăng Khi đó w x, + b=0 Do vậy, ta có công thức sau:

— Iwill

Bài toán lúc này có dạng như sau:

Trang 14

Ta cần học dé giải quyết bài toán tối ưu sau:

Với các điều kiện: y; (w.x; + b) > 1 voii=1,2, ,n

Giải quyết bài toán tối ưu trên ta có:

~ LẠ ^ Lá N

- Vector w sẽ được tính theo công thức: w= 5” x,y,ơ,

i=l

- _ Để xác định độ dich chuyền b, ta chọn mẫu x; sao cho với moi a; > 0, sau

đó sử dụng điều kiện Karush-Kuhn-Tucker(KKT): øy;(w x; + b) - 1] =0

Các mẫu x; tương ứng với a, > 0 là những mau nằm gần mặt siêu phẳngquyết định nhất và được gọi là các vector hỗ trợ

Trang 15

2.3.2 Trường hop không khả tách tuyến tinh

Nếu tập dữ liệu không khả tách tuyến tính thì ta có thể giải quyết theo hai

cách:

Cách thứ nhất: Sử dụng một mặt siêu phang lề mềm, nghĩa là cho phép một

số mau huấn luyện nằm về phía sai của mặt siêu phăng phân tách hoặc van ở vị triđúng nhưng rơi vào vùng giữa mặt siêu phẳng phân tách và mặt siêu phắng hỗ trợ

tương Ứng.

Cách thứ hai: sử dụng một ánh xạ phi tuyến tính ® để ánh xạ các điểm dữliệu đầu vào từ không gian ban đầu X sang một không gian F mới có số chiều caohơn Trong không gian này, các điểm dữ liệu trở thành khả tách tuyến tính, hoặc cóthê phân tách với ít lỗi hơn so với trường hợp sử dụng không gian ban đầu

2.3.3 Hàm Kernel

Tiêu chuẩn đầu tiên để chọn một hàm kernel K là phải ton tại p dé K(x, y) =

$(x)#0):

Một số đặc tính của hàm kernel như sau:

Nếu K(+, y), Ka(x, y) là các ham kernel thì K3(x, y) cũng là ham kernel với:

1) K3(x,y) = K, (x,y) + K;(x,y)

Chiều của không gian đặc trưng ứng với kernel này là d = CP +p—1

s* Ham bán kính căn bản Gaussian RBF (Radial Basis Function):

K(x,y) = e-rbxf

Trang 16

2.4 Ap dụng SVM dé phân loại văn bản

2.4.1 Phân loại văn bản : khách quan- chủ quan

Một câu khách quan thê hiện một số thông tin thực tế về thế giới, trong khimột câu chủ quan thé hiện một số cảm xúc, niềm tin mang tính cá nhân Trong hai

loại dữ liệu mang tính khách quan và chủ quan thì lượng thông tin có ý nghĩa cho

quá trình phân loại chủ yếu tập trung ở đữ liệu chủ quan

Vì vậy, việc xác định văn bản chủ quan là rất quan trọng Quá trình phân loại

câu khách quan — chủ quan là bước trung gian của việc phân loại ý kiên.

Đề thực hiện giai đoạn phân loại văn bản khách quan- chủ quan, tôi chia ra làm hai

bước sau :

Bước 1: Trước tiên, đầu vào ở đây là một đoạn văn bản hay một câu Ta tiếnhành tách đoạn văn bản ra thành tập các câu, dấu hiệu nhận biết kết thúc một câu làdấu cham “.”, dấu “!” hoặc dau ““?”

Bước 2: Thực hiện tách theo trực quan của con người và thực hiện thủ công

bang tay dé tách ra câu chủ quan và khách quan

2.4.2 Áp dụng SVM để phân loại văn bản : tích cực- tiêu cực

Quá trình huấn luyện SVM

lý điệu huấn luyện

Hình 2.4 : Lưu đồ quá trình huấn luyện SVM

Trang 17

Đề thực hiện giai đoạn huấn luyện, tôi chia ra làm năm bước sau:

Bước 1 : Tiền xử lý dữ liệu: Dữ liệu đầu vào là những câu chủ quan Ta tiềnhành tiền xử lý dữ liệu bằng cách bỏ đi những kí tự đặc biệt, sai chính tả

Bước 2 : Gan nhãn di liệu: Bước này thực hiện gan nhãn tương ứng cho dữliệu sau tiền xử lý

Bước 3 : Thực hiện chuyền dữ liệu đã gán nhãn sang dạng vector

Bước 4 : sử dụng thuật toán phân lớp, tiến hành phân lớp dit liệu đã được

gán nhãn, cụ thể dùng phương pháp SVM để tiến hành huấn luyện cho máy phân

lớp

Dữ liệu đầu vào

Giai đoạn phân loại bao gồm bốn bước như sau:

Bước 1: Xử lý dữ liệu: giống với tiền xử lý dữ liệu của giai đoạn huấn luyện

Bước 2: Thực hiên chuyền dữ liệu đã xử lý sang dang vector

Bước 3: Sử dụng mô hình phân lớp: dùng mô hình phân lớp được xây dựng

từ giai đoạn huấn luyện dé máy phán đoán và phân lớp cho dữ liệu đầu vào

Bước 4: Đưa ra kết quả là nhãn phân loại

2.5 Kết luận chương

Ở chương 2 của luận văn, tôi đã trình bày những khía cạnh đặc trưng của

tiếng việt và đưa ra sự lựa chọn cũng như trình bày về phương pháp phân loại quanđiểm người dùng Support vector machine, đồng thời áp dụng phương pháp Support

vector machine vào việc phân loại quan điểm tích cực, tiêu cực của người dùng mà

bài toán đang nghiên cứu.

Trang 18

CHUONG III : KIEM THU VÀ DANH GIA KET QUÁ

3.1 Xây dựng bộ dữ liệu huấn luyện cho hệ thống

3.1.1 Thu thập và thong kê dữ liệu

3.1.1.1 Thu thập dữ liệu

Trong hệ thong này, dữ liệu được khai thác là các nhận xét tiếng Việt củangười dùng về các thiết bi di động tại trang web:vnexpress.net, genk.vn,

facebook Dữ liệu được lấy thủ công về bằng tay là những câu chủ quan và được

lưu dưới dạng văn bản text.

3.1.1.2 Thống kê dit liệu

Dựa vào dữ liệu về các thiết bị đi động thu thập từ trang http://genk.vn và

http://vnexpress.net cùng mạng xã hội như http://facebook.com tôi đã chọn ra một

số sản phẩm nồi bật Tổng số comment thu được là 2044 comment về các thiết bị di

động tại các thời điểm khác nhau

3.1.2 Tiền xử lý và gan nhãn dữ liệu

e Tach ngữ: tôi tiến hành loại bỏ các ký hiệu đặc biét:@, $,# Sau đó, phân

tích văn bản thành các câu được phân cách bởi dấu câu: “?”, “1”, *”,

e Loại bỏ những câu chưa đúng, chuẩn hóa câu ví dụ như: “hok” thành

“không”, “Camera cua dien thoai Galaxy S5 qua kem ” thành “Camera của

điện thoại Galaxy S5 quá kém ”

e Tach các stop words[16].

e Tiến hành gán nhãn dữ liệu cho câu, những câu có từ “hơn”, “tốt”, “quá tốt”,

“tuyệt vời”, “nhât”, “đẹp hơn” được gan nhãn là 1 ở dau câu Những câu có tt

z N

99 99 33c A "99

“không bằng”, “kém”, “không tốt”,”xấu hơn”, “tồi” những từ mang ý nghĩa

tiêu cực , kém, mang nghĩa xâu đi thì ta gan -1 vào dau câu.

Tiêu đề	Xử lý các đặc trưng tiếng Việt trong bài toán phân loại quan điểm người dùng
Tác giả	Tác Giả Chưa Được Cung Cấp
Trường học	Trường Đại Học Chưa Được Cung Cấp
Chuyên ngành	Công nghệ thông tin
Thể loại	Luận văn tốt nghiệp
Năm xuất bản	Năm học chưa được cung cấp
Thành phố	Thành phố chưa được cung cấp

Định dạng
Số trang	37
Dung lượng	7,49 MB