LỜI MỞ ĐẦU
Hiện nay, sự phát trién nhanh chóng của kỹ thuật Công nghệ thông tin đã hỗ trợ đắc lực cho nhu cầu truyền tin và khai thác thông tin dữ liệu của nhân loại Với thế hệ của Web 2.0, sự phát triển của nó đã đem lại nhiều lợi thế cho các công ty, doanh nghiệp vì thông qua các website, họ giới thiệu đến khách hàng những sản phẩm của mình, đồng thời quảng bá thương hiệu của bản thân Khi thương mại điện tử ngày càng trở nên phổ biến hơn, càng nhiều sản phẩm được bán trên mạng và nhiều người hơn nữa cũng mua các sản phẩm trực tuyến Dé tăng cường sự hài lòng của khách hàng và chia sẻ kinh nghiệm mua sắm, các thương nhân trực tuyến đã
cho phép khách hàng của họ xem và bày tỏ ý kiến của mình về các sản phẩm mà họ đã mua.
Với số lượng người dùng nhiều hơn vào xem sản phẩm, cũng như những phản hồi của họ về sản phẩm ngày một nhiều hơn Đối với những sản phẩm phổ biến, số lượng ý kiến của khách vào xem có thé lên tới hàng trăm, thậm chí hàng nghìn Nếu khách hàng chỉ đọc một vài ý kiến, thì họ sẽ có cái nhìn thiên vị, còn nếu đọc hết những ý kiến đó thì sẽ rất khó khăn để đưa ra quyết định có nên mua sản phẩm này hay không? Đồng thời, nó cũng gây khó khăn cho các nhà sản xuất của sản phẩm đó trong việc theo dõi và quan lý ý kiến của khách hàng.
Hiểu được vấn đề này, đề tài “Xử lý các đặc trưng tiếng việt trong bài
toán phân loại quan điểm người dùng” đã được tôi chon dé thực hiện luận văn
tốt nghiệp của mình, là một bài toán nhỏ trong bài toán phân lớp quan điểm, đề từ đó có thể góp phần giải quyết được bài toán khai phá quan điểm trên câu tích cực và
tiêu cực áp dụng cho tiếng Việt.
Trong phạm vi đồ án, tôi xin phép trình bày phương pháp xác định câu tích cực, tiêu cực cho ngôn ngữ tiếng Việt với dữ liệu là những quan điểm của người dùng về thiết bị di động Chi tiết của phương pháp được trình bày cụ thé và rõ rang
trong luận văn Luận văn sử dụng phương pháp phân lớp SVM (Support Vector
Machines) để giải quyết bài toán Trích chọn đặc trưng dựa trên hai đặc trưng của câu là từ và âm tiết Với mỗi đặc trưng tôi sử dụng n-grams (n = 1,2,3) Từ đó mục
Trang 2tiêu của luận văn là nghiên cứu phương pháp xác định câu tích cực, tiêu cực trong
tiếng Việt, từ đó đưa ra phương hướng giải quyết bài toán.
Với mục tiêu như vậy, bố cục của luận văn sẽ bao gồm ba chương theo cau
trúc sau:
Cấu trúc của luận văn gồm :
Chương I : Giới thiệu chung
Chương này giới thiệu về học máy và trình bày khái quát chung về khai phá quan điểm người dùng đồng thời phân loại quan điểm người dùng trong ngôn ngữ tiếng việt, những ứng dụng của bài toán mang lại cùng những khó khăn thách thức cho bài toán khi phân loại quan điểm bằng ngôn ngữ tiếng Việt
Chương II: Phân tích quan điểm người dùng trong ngôn ngữ tiếng việt
Chương này trình bày lý do chọn phương pháp hoc máy, đồng thời tìm hiểu thuật toán học máy SVM và ứng dụng của học máy vào phân quan điểm điểm tích
cực, tiêu cực.
Chương III: Kiểm thử và đánh giá kết quả
Trình bày cách thu thập dữ liệu, tiền xử lý dữ liệu , cách gán nhãn, xử lý dit
liệu, sau đó thống kê dữ liệu Ở chương này cũng trình bày cách làm thực nghiệm với SVM như: Cách chuyền dữ liệu sang dạng dữ liệu của SVM, cách thực hiện
thực nghiệm với SVM Sau đó là kết quả thực nghiệm thu được Cuối cùng là phần nhận xét, đánh giá về kết quả thực nghiệm và Demo chương trình.
Trang 3CHUONG I: GIỚI THIỆU CHUNG
1.1 Tổng quan về học máy 1.1.1 Khái niệm về học máy
Học máy là một lĩnh vực thuộc ngành trí tuệ nhân tạo liên quan đến việc thiết
kế và phát triển các thuật toán cho phép máy tính cải thiện hiệu quả qua thời gian
dựa trên dữ liệu Học máy tập trung vào phân tích, nghiên cứu các giải thuật trongviệc thực thi tính toán
Trong phương pháp này, một tập mẫu sẽ được đưa ra dé phục vụ cho việc “học” Tập mẫu này sẽ bao gồm các mẫu đã được gán nhãn (mỗi nhãn đại diện cho một lớp) Quá trình “học” sẽ thực hiện dựa trên tập mẫu này dé đưa ra hàm ánh xạ một mẫu mới vào lớp mà nó thuộc về.
1.1.2 Phân loại học máy
Học máy chủ yêu được phân thành 3 loại chính được giới thiệu bởi Hang [2].
1.1.2.1 Học có giám sát (supervised learning)
Hoc có giám sát là phương pháp học máy xây dựng một hàm từ tập dữ liệu
để ánh xạ một mẫu dữ liệu mới tới kết quả mong muốn Tập dữ liệu huấn luyện
gồm các đối tượng (thường ở dang vector) đã được gan nhãn từ trước Kết quả của phương pháp này có thé là một giá trị liên tục hoặc một nhãn phân loại cho một mau
Trang 4dữ liệu mới Luận Văn được tôi nghiên cứu và phát triển dưới đây sẽ áp dung học
máy có giám sát
1.1.2.2 Học không giám sát (unsupervised learning)
Học không giát sát (unsupervised learning) là phương pháp học máy nhằm tìm ra một mô hình phù hợp với các quan sát Cho trước một mẫu chỉ gồm các đối
tượng (object), cần tìm kiếm cấu trúc quan tâm (interesting structures) của dữ liệu, và nhóm các đối tượng giống nhau
1.1.2.3 Học bán giám sát (semi-supervised learning)
Học bán giám sát là một lớp của kĩ thuật học máy, sử dụng cả dữ liệu đã gan
nhãn và chưa gán nhãn dé huấn luyện — điển hình là một lượng nhỏ dữ liệu có gán
nhãn cũng với lượng lớn dữ liệu chưa gan nhãn Học bán giám sát đứng giữa hoc
không giám sát (không có bất kì dữ liệu đã được gán nhãn nào) và có giám sát
(toàn bộ dữ liệu đã được gán nhãn)
1.1.3 Ung dụng của học máy
Học máy là một nhánh nghiên cứu rất quan trọng của trí tuệ nhân tạo với khá nhiều ứng dụng thành công trong thực tế
Cụ thể :
- _ Xử lý ngôn ngữ tự nhiên
- Phat hiện và nhận dang mặt người
- Loc thư rác, phân loại van bản
1.2 Khái quát chung về khai phá quan điểm người dùng trong ngôn ngữ
tiếng việt
1.2.1 Giới thiệu về khai phá quan điểm người dung
Khai phá quan điểm là một kiểu của xử lý ngôn ngữ tự nhiên cho việc theo dõi ý kiến của cộng đồng về sản phẩm hoặc dịch vụ cụ thể Khai phá quan điểm còn được gọi là phân tích tình cảm (sentiment analysis) liên quan đến việc xây dựng hệ thống thu thập và xem xét ý kiến về sản phẩm và dịch vụ được thực hiện trên các
Trang 5bài đăng trên các trang như genk, VnExpress, Facebook Khai phá quan điểm tự động thường sử dụng học máy (machine learning), một phần trong trí tuệ nhân tạo.
1.2.2 Các mức độ khai phá quan điểm
Khai phá quan điểm thường được nghiên cứu ở ba mức độ khác nhau, bao
gồm :
e_ Khai phá quan điểm mức tai liệu e Khai phá quan điểm mức câu
e Khai phá quan điểm mức khía cạnh/đặc trưng
1.2.3 Các bài toán trong khai phá quan điểm
Các bài toán chính trong khai phá quan điểm bao gồm : e Bài toán nhận diện quan điểm
e Khai phá quan điểm theo khía cạnh/đặc trưng
e Tóm tắt quan điểm
e Phát hiện quan điểm rác
e Khai phá quan điểm trên câu so sánh e_ Bài toán phân lớp quan điểm
Bài toán phân lớp quan điểm cũng chính là bài toán chúng tôi quan tâm trong
nghiên cứu này và sẽ được trình bày kỹ hơn ở phần dưới đây.
1.2.4 Phân loại văn bản
1.2.4.1 Bài toán phân lớp quan điểm
Là bài toán phân loại một đối tượng dit liệu vào một hay nhiều loại cho trước nhờ mô hình phân loại, mô hình này được xây dựng dựa trên một tập hợp các đối tượng đữ liệu đã được gán nhãn từ trước gọi là tập dữ liệu huấn luyện Quá trình phân loại này còn được gọi là quá trình gán nhãn cho các đối tượng dữ liệu.
Sau đây là quá trình phân loại dữ liệu, quá trình được thực hiện gồm hai bước: xây dựng mô hình tạo bộ phân loại và sử dung mô hình này dé phân loại.
e Bước 1: Mô hình được xây dựng dựa trên việc phân tích các đối tượng dit
liệu đã được gán nhãn từ trước Tập các mẫu dữ liệu này còn được gọi là tập
Trang 6dữ liệu huấn luyện (training data set) Các nhãn của tập dữ liệu huấn luyện
được xác định bởi con người trước khi xây dựng mô hình.
e Bước 2: Su dụng mô hình đã được xây dựng ở bước 1 dé phân loại dữ liệu mới Như vậy, thuật toán phân loại là một ánh xạ từ miền dữ liệu đã có sang một miền giá trị cụ thé của thuộc tính lớp, dựa vào giá trị các thuộc tính của
đữ liệu.
1.2.4.2 Mô hình vector biểu diễn văn bản
Hầu hết các thuật toán đều sử dụng vector đặc trưng Vì vậy ở phần này tôi sẽ trình bày sơ lược về vector đặc trưng :
Ý tưởng của mô hình này là xem mỗi một câu của văn bản có dạng:
X= (X}, X¿, , xạ), và n là số lượng đặc trưng của vector văn bản (số lượng từ trong tập từ điền), x; là số lần xuất hiện của từ có định nghĩa là i, i € {1, 2, n}.
HHIHHHIFTHE $
Hình 1.2 Văn bản được biểu diễn là vector đặc trưng
Trang 712.5 Ý nghĩa và ứng dụng của bài toán khai phá quan điểm
Bài toán khai phá quan điểm có ý nghĩa rất lớn trong cuộc sống ngày nay, nó không chỉ giúp con người đưa ra các quyết định của mình mà còn giúp các công ty, các nhà sản xuất theo dõi chất lượng sản phẩm và kịp thời nâng cao chất lượng các
sản phẩm
Đồng thời khai phá quan điểm có nhiều ứng dụng trong thực tiễn Có ứng
dụng về việc tìm kiếm văn bản Từ một tập dữ liệu đã được phân loại, đánh kí hiệu với từng loại tương ứng, người dùng có thé xác định được loại văn bản mà mình
mong muốn.
Một ứng dụng khác của phân loại văn bản là sử dụng dé lọc văn bản, trích
lọc thông tin trên mạng Internet Ngoài ra, phân loại văn bản còn có ứng dụng trong
việc phân loại ý kiến, đánh giá của người dùng.
1.2.6 Bài toán khai phá quan điểm cho tiếng Việt
Trong phạm vi luận văn, tôi sẽ thực hiện với miền dữ liệu là các đánh giá tiếng Việt của người dùng về thiết bị di động, luận văn sẽ sử dung hướng tiếp cận là học máy dé xây dựng bộ phân lớp quan điểm và thực hiện tạo tập từ điển bằng việc tách từ theo âm tiết và theo từ.
1.2.7 Khó khăn trong bài toán khai phá quan điểm Tiếng Việt
Những khó khăn cơ bản trong bài toán khai phá quan điểm trên miền dữ liệu tiếng Việt theo Trang [7] như sau:
e Một từ được coi là tích cực trong trường hợp này có thé được coi là tiêu cực trong tình huống khác Lấy từ "dai" làm vi dụ: “ tuổi tho pin của máy tinh xách tay dai”, đó sẽ là một ý kiến tích cực, “thời gian khởi động của máy tinh xách tay dài”, đó lại là một ý kiến tiêu cực.
e_ Một thách thức lớn đối với khai phá quan điểm xuất hiện khi mọi người thé
hiện đánh giá tích cực và tiêu cực trong cùng một câu Những câu như vậy có
thé gây khó khăn dé phân tích cú pháp hoặc khai phá quan điểm.
Trang 8e_ Đơi khi những người khác gặp khĩ khăn trong việc hiểu những gì một người nào đĩ nghĩ dựa trên một đoạn ngắn của văn bản bởi vì nĩ thiếu bối cảnh Ví dụ, "Đĩ là bộ phim tốt như bộ phim trước đĩ của ơng ay" la hoan toan phu thuộc vào những gì người bày tỏ quan diém đã nghĩ về bộ phim trước đĩ.
e Chưa cĩ bộ dữ liệu gan nhãn Tiếng Việt chuan để phục vụ cho việc huấn
luyện dữ liệu trong trường hợp sử dụng phương pháp học máy dé khai pha quan điểm.
e Cuối cùng là những dữ liệu bình luận tiếng Việt thường ít, cĩ nhiều từ long, thiếu dấu câu gây khĩ khăn trong bước tiền xử lí đữ liệu.
1.3 Các phương pháp phân loại quan điểm người dùng
1.3.1 Phương pháp học máy
1.3.1.1 Giới thiệu và sử dụng phương pháp học máy SVM trong phân loại
quan điểm tiếng việt
SVM là phương pháp tiếp cận phân loại hiệu quả được Vapnik giới thiệu năm 1995 [14] dé giải quyết van đề nhận dạng mẫu hai lớp sử dụng nguyên lý Cực tiểu hĩa Rui ro Cầu trúc (Structural Risk Minimization).
1.3.1.2 Phương pháp K-nearest Neighbor (KNN)
kNN là phương pháp truyền thống khá nỗi tiếng về hướng tiếp cận dựa trên thống kê đã được nghiên cứu trong nhận dạng mẫu hơn bốn thập kỉ qua [Dasarathy,
1991] kNN được đánh giá là một trong những phương pháp tốt nhất được sử dụng từ thời kì đầu của việc phân loại.
1.3.1.3 Phương pháp Nạve Bayes (NB)
Nạve Bayer là phương pháp phân loại dựa vào xác suất được sử dụng rộng rãi trong lĩnh vực học máy, được sử dụng lần đầu tiên trong lĩnh vực phân loại bởi Maron vào năm 1961, sau đĩ trở nên phổ biến trong nhiều lĩnh vực như trong các
cơng cụ tim kiêm, các bộ lọc mail
Trang 91.4 Kết luận chương
Trong chương một của luận văn tôi đã tìm hiểu về những khái nệm tổng quan nhất về học máy và các phương pháp học máy Qua đó tôi đã lựa chọn phương pháp học máy có giám sát dé áp dụng vào luận văn Ngoai ra ở chương một tôi tim hiểu về các khái niệm của khai phá quan điểm cùng những phương pháp phân loại
quan điểm trên ngôn ngữ tiếng việt, tiếp vào đó là ý nghĩa, ứng dụng cùng với
những khó khăn thách thức của việc phân loại quan điểm trên ngôn ngữ tiếng việt.
Trang 10CHUONG II : PHAN TÍCH QUAN DIEM NGƯỜI DUNG TRONG NGON NGU TIENG VIET
2.1 Các đặc trưng của tiếng việt
2.1.1 Đặc diém chung
Tiếng Việt là ngôn ngữ không biến hình từ và âm tiết tính tức là mỗi một
tiếng (âm tiết) được phát âm tách rời nhau và được thể hiện bang một chữ viết [1] Hai đặc trưng này chỉ phối toàn bộ tổ chức bên trong của hệ thống ngôn ngữ Việt và cần được chú ý khi xử lý tiếng Việt trên máy tính.
2.1.2 Yếu tổ ngoại lai trong từ tiếng Việt
Tiếng Việt có các yếu tô ngoại lai thuộc gốc Hán, gốc Pháp, Anh trong đó
yêu tố Hán vừa chiếm đa số vừa giữ vai trò khá quan trọng trong vốn từ và trong cấu tạo từ Việt Các yêu tố gốc Ấn - Âu đi vào tiếng Việt phải chịu áp lực rất mạnh của sự âm tiết hoá theo kiểu tiếng Việt.
Ngoài ra, khi Việt hoá các từ ngoại lai Ấn-— Âu có sự đơn tổ hod ví dụ: sulơ, xuyết vôn tơ, mát xa ; và có sự giản hoá về phát âm như sứ (đại sứ quán), lốp (vỏ
bánh xe) từ enveloppe
2.1.3 Từ đồng nghĩa
Theo Cơ sở ngôn ngữ học và tiếng Việt - Mai Ngọc Chừ (1997) từ đồng nghĩa là những từ tương đồng với nhau về nghĩa, khác nhau về âm thanh và có phân
biệt với nhau về một vài sắc thái ngữ nghĩa hoặc sắc thái phong cách, nào đó, hoặc đồng thời cả hai.
Ví dụ: dé, dé dàng, dé dai là những nhóm từ đồng nghĩa 2.1.4 Đặc điểm chính tả
Các tiếng đồng âm: như kĩ/kỹ, lí, lý thường bị sử dụng lẫn nhau như: lý
luận, lí luận, kĩ thuật, kỹ thuật
Đặc điểm chính tả tiếng Việt có ý nghĩa quan trọng tiền xử lý đữ liệu văn bản Một số đặc điềm chính tả tiếng Việt cần quan tâm như [6]: Các từ địa phương,
Trang 11vị tri dau thanh, cách viết hoa, phiên âm tiếng nước ngồi, từ gach nối, kí tự ngắt
2.1.5 Bảng mã tiếng Việt trên máy tính
Một số bảng mã tiếng việt trên máy tính.Cĩ thể ké đến một số bảng mã dưới
đây [4].
e Mã dựng sẵn
+ Mã dựng sẵn một bảng fonts: TCVN 5712-VN1, VISCII, BachKhoa 1,
VietStar : các bảng mã này mở rộng sang cả phần mã chuẩn, nên gây anh hưởng nghiêm trọng trong truyền thơng.
+ Mã dựng sẵn hai bảng fonts: TCVN 5712-VN3 (ABC), VietSea, VNU :
sử dụng 2 bảng mã cho một kiểu chữ nên gây dư thừa và khơng hiện thực việc phân biệt chữ hoa chữ thường trong các chương trình xử lý số liệu.
° Mato hợp
Cac bang ma VietWare-X, Vni for Windows, TCVN 5712-VN2, BachKhoaII, VS2, 3C25 va các trang mã 1258 (Microsoft), 1129 (IBM), ISO 10646 sử
dung phương pháp mã tơ hop.
Tĩm tại, tiếng Việt là ngơn ngữ khơng biến hình từ và âm tiết tính, do đĩ, việc phân loại từ (danh từ, động từ, tính từ ) và ý nghĩa từ là vấn đề khĩ, cần cĩ nhiều nghiên cứu thêm
2.2 Lý do chọn phương pháp SUPPORT VECTOR MACHINE
Phương pháp học máy SVM là bài tốn phân loại câu ở dưới dạng nhị phân, rất thích hợp cho bài tốn của tơi là đánh giá câu ở dạng tích cực và tiêu cực.
Mặt khác, phương pháp SVM là phương pháp đã xuất hiện được một thời gian dai, được sử dụng cĩ hiệu quả vao năm 1995 [14] nên ta cĩ thé tin tưởng vào xác suất về độ chính xác và các ưu khuyết điểm của phương pháp nay dé áp dụng
phù hợp
Trong cơng trình của minh năm 1999 Joachims[9] đã so sánh SVM với
Nạve Bayesian, k-Nearest Neighbour, Rocchio, và C4.5 và đến năm 2003 Joachims [10] đã chứng minh rằng SVM làm việc rất tốt cùng với các đặc tính được đề cập
Trang 12trước đây của văn bản Các kết quả cho thấy rằng SVM đưa ra độ chính xác phân lớp tốt nhất khi so sánh với các phương pháp khác.
Vì vậy, tôi đã đề xuất chọn phương pháp SVM để phân loại văn bản hay
đánh giá ý kiến người viết trong văn bản.
2.3 Bộ phân loại quan điểm SVM
Theo Bing Liu[11], ý tưởng chính của thuật toán này là cho trước một tập
huấn luyện được biểu diễn trong không gian vector trong đó mỗi tài liệu là một
điểm, phương pháp này tìm ra một mặt siêu phăng h quyết định tốt nhất có thể chia các điểm trên không gian này thành các lớp riêng biệt Chất lượng của mặt siêu phang này được quyết định bởi khoảng cách của điểm dữ liệu gần nhất của mỗi lớp đến mặt phang này Khoảng cách biên càng lớn thì mặt phang quyết định càng tốt, đồng thời việc phân lớp càng chính xác Mục đích của SVM là tìm ra được khoảng cách biên lớn nhất dé tạo ra kết quả phân lớp tốt.
Hình 2.1 Mặt siêu phẳng phân chia dữ liệu thành hai tập âm và duong[8]
Trang 132.3.1 Trường hợp khả tách tuyến tính
Bộ phân lớp SVM tìm ra mặt siêu phăng với lề cực đại được xác định bởi
khoảng cách giữa các mầu âm và dương gân mặt siêu phăng nhât.
Gọi d, và d_ là là khoảng cách ngắn nhất giữa siêu phang đến dữ liệu dương và dit liệu âm gần nhất Khi đó lề của siêu phang: margin = d, + d_
Gia sử hai điểm (x*,1) và (x ,-1) là hai điểm gần siêu phăng nhất Khi đó chúng ta xác định được hai đường thang song song H, và H Thay đổi tỷ lệ w và b
Không có dữ liệu huấn luyện nào nằm giữa H, va H.
Goi x, là một điểm thuộc mặt siêu phẳng và d, là khoảng cách từ H, tới mặt
siêu phăng Khi đó w x, + b=0 Do vậy, ta có công thức sau:
Trang 14Ta cần học dé giải quyết bài toán tối ưu sau:
Với các điều kiện: y; (w.x; + b) > 1 voii=1,2, ,n Giải quyết bài toán tối ưu trên ta có:
~ LẠ ^ Lá N
- Vector w sẽ được tính theo công thức: w= 5” x,y,ơ,
- _ Để xác định độ dich chuyền b, ta chọn mẫu x; sao cho với moi a; > 0, sau
đó sử dụng điều kiện Karush-Kuhn-Tucker(KKT): øy;(w x; + b) - 1] =0 Các mẫu x; tương ứng với a, > 0 là những mau nằm gần mặt siêu phẳng quyết định nhất và được gọi là các vector hỗ trợ.
Trang 152.3.2 Trường hop không khả tách tuyến tinh
Nếu tập dữ liệu không khả tách tuyến tính thì ta có thể giải quyết theo hai
Cách thứ nhất: Sử dụng một mặt siêu phang lề mềm, nghĩa là cho phép một
số mau huấn luyện nằm về phía sai của mặt siêu phăng phân tách hoặc van ở vị tri đúng nhưng rơi vào vùng giữa mặt siêu phẳng phân tách và mặt siêu phắng hỗ trợ
tương Ứng.
Cách thứ hai: sử dụng một ánh xạ phi tuyến tính ® để ánh xạ các điểm dữ liệu đầu vào từ không gian ban đầu X sang một không gian F mới có số chiều cao hơn Trong không gian này, các điểm dữ liệu trở thành khả tách tuyến tính, hoặc có thê phân tách với ít lỗi hơn so với trường hợp sử dụng không gian ban đầu.
2.3.3 Hàm Kernel
Tiêu chuẩn đầu tiên để chọn một hàm kernel K là phải ton tại p dé K(x, y) = $(x)#0):
Một số đặc tính của hàm kernel như sau:
Nếu K(+, y), Ka(x, y) là các ham kernel thì K3(x, y) cũng là ham kernel với:
1) K3(x,y) = K, (x,y) + K;(x,y)
Chiều của không gian đặc trưng ứng với kernel này là d = CP +p—1
s* Ham bán kính căn bản Gaussian RBF (Radial Basis Function):
K(x,y) = e-rbxf
Trang 162.4 Ap dụng SVM dé phân loại văn bản
2.4.1 Phân loại văn bản : khách quan- chủ quan
Một câu khách quan thê hiện một số thông tin thực tế về thế giới, trong khi một câu chủ quan thé hiện một số cảm xúc, niềm tin mang tính cá nhân Trong hai
loại dữ liệu mang tính khách quan và chủ quan thì lượng thông tin có ý nghĩa cho
quá trình phân loại chủ yếu tập trung ở đữ liệu chủ quan.
Vì vậy, việc xác định văn bản chủ quan là rất quan trọng Quá trình phân loại
câu khách quan — chủ quan là bước trung gian của việc phân loại ý kiên.
Đề thực hiện giai đoạn phân loại văn bản khách quan- chủ quan, tôi chia ra làm hai
bước sau :
Bước 1: Trước tiên, đầu vào ở đây là một đoạn văn bản hay một câu Ta tiến hành tách đoạn văn bản ra thành tập các câu, dấu hiệu nhận biết kết thúc một câu là
dấu cham “.”, dấu “!” hoặc dau ““?”.
Bước 2: Thực hiện tách theo trực quan của con người và thực hiện thủ công
bang tay dé tách ra câu chủ quan và khách quan
2.4.2 Áp dụng SVM để phân loại văn bản : tích cực- tiêu cực Quá trình huấn luyện SVM.
lý điệu huấn luyện
Hình 2.4 : Lưu đồ quá trình huấn luyện SVM
Trang 17Đề thực hiện giai đoạn huấn luyện, tôi chia ra làm năm bước sau:
Bước 1 : Tiền xử lý dữ liệu: Dữ liệu đầu vào là những câu chủ quan Ta tiền hành tiền xử lý dữ liệu bằng cách bỏ đi những kí tự đặc biệt, sai chính tả
Bước 2 : Gan nhãn di liệu: Bước này thực hiện gan nhãn tương ứng cho dữ liệu sau tiền xử lý
Bước 3 : Thực hiện chuyền dữ liệu đã gán nhãn sang dạng vector
Bước 4 : sử dụng thuật toán phân lớp, tiến hành phân lớp dit liệu đã được
gán nhãn, cụ thể dùng phương pháp SVM để tiến hành huấn luyện cho máy phân
Dữ liệuđầu vào
Giai đoạn phân loại bao gồm bốn bước như sau:
Bước 1: Xử lý dữ liệu: giống với tiền xử lý dữ liệu của giai đoạn huấn luyện.
Bước 2: Thực hiên chuyền dữ liệu đã xử lý sang dang vector
Bước 3: Sử dụng mô hình phân lớp: dùng mô hình phân lớp được xây dựng
từ giai đoạn huấn luyện dé máy phán đoán và phân lớp cho dữ liệu đầu vào Bước 4: Đưa ra kết quả là nhãn phân loại
2.5 Kết luận chương
Ở chương 2 của luận văn, tôi đã trình bày những khía cạnh đặc trưng của
tiếng việt và đưa ra sự lựa chọn cũng như trình bày về phương pháp phân loại quan điểm người dùng Support vector machine, đồng thời áp dụng phương pháp Support
vector machine vào việc phân loại quan điểm tích cực, tiêu cực của người dùng mà
bài toán đang nghiên cứu.
Trang 18CHUONG III : KIEM THU VÀ DANH GIA KET QUÁ
3.1 Xây dựng bộ dữ liệu huấn luyện cho hệ thống 3.1.1 Thu thập và thong kê dữ liệu
3.1.1.1 Thu thập dữ liệu
Trong hệ thong này, dữ liệu được khai thác là các nhận xét tiếng Việt của người dùng về các thiết bi di động tại trang web:vnexpress.net, genk.vn, facebook Dữ liệu được lấy thủ công về bằng tay là những câu chủ quan và được
lưu dưới dạng văn bản text.
3.1.1.2 Thống kê dit liệu
Dựa vào dữ liệu về các thiết bị đi động thu thập từ trang http://genk.vn và
http://vnexpress.net cùng mạng xã hội như http://facebook.com tôi đã chọn ra một
số sản phẩm nồi bật Tổng số comment thu được là 2044 comment về các thiết bị di động tại các thời điểm khác nhau.
3.1.2 Tiền xử lý và gan nhãn dữ liệu
e Tach ngữ: tôi tiến hành loại bỏ các ký hiệu đặc biét:@, $,# Sau đó, phân
tích văn bản thành các câu được phân cách bởi dấu câu: “?”, “1”, *”,
e Loại bỏ những câu chưa đúng, chuẩn hóa câu ví dụ như: “hok” thành
“không”, “Camera cua dien thoai Galaxy S5 qua kem ” thành “Camera của
điện thoại Galaxy S5 quá kém ”e Tach các stop words[16].
e Tiến hành gán nhãn dữ liệu cho câu, những câu có từ “hơn”, “tốt”, “quá tốt”,
“tuyệt vời”, “nhât”, “đẹp hơn” được gan nhãn là 1 ở dau câu Những câu có tt
z N
99 99 33c A "99
“không bằng”, “kém”, “không tốt”,”xấu hơn”, “tồi” những từ mang ý nghĩa
tiêu cực , kém, mang nghĩa xâu đi thì ta gan -1 vào dau câu.