Các phƣơng pháp trích chọn đặc trƣng

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá quan điểm dữ liệu twitter (Trang 36 - 52)

Đặc trưng N-gram 2.2.1

Kỹ thuật N-gram chiếm ƣu thế trong xử lý ngơn ngữ tự nhiên hiện đại cũng nhƣ các ứng dụng của xử lý ngơn ngữ tự nhiên. N-gram truyền thống là một chuỗi các thành phần xuất hiện trong văn bản. Những yếu tố này cĩ thể là từ, ký tự, v.v... trong văn bản. Quy ƣớc ký tự “N” trong N-gram tƣơng ứng với số phần tử trong một chuỗi. Trong phạm vi luận văn này, chúng tơi sử dụng N-gram xét với mức thành phần cơ bản là từ.

28

Cho ví dụ, đối với câu “The cow jumps over the moon”, nếu với N=2 (cịn đƣợc gọi là Bigram) thì các Bigram sẽ là:

- the cow - cow jumps - jumps over - over the - the moon

Chúng ta thu đƣợc 5 N-gram trong trƣờng hợp này. Tƣơng tự, nếu N=3, chúng ta thu sẽ cĩ 4 Trigram với câu trên nhƣ sau:

- the cow jumps - cow jumps over - jumps over the - over the moon

Khi N=1, đƣợc gọi là unigram, điều này về cơ bản là từng từ trong một câu. Khi N = 2, đƣợc gọi là bigram.

Khi N = 3, đƣợc gọi là trigram.

Khi N > 3, thƣờng đƣợc gọi tƣơng ứng với giá trị của N, chẳng hạn 4-gram, 5-gram, v.v...

Số N-gram trong một câu đƣợc tính theo cơng thức nhƣ sau: Nếu X là số từ trong câu K, thì số n-gram trong câu K sẽ là:

29

Trong lĩnh vực phân loại văn bản, việc sử dụng kỹ thuật học máy là khá phổ biến. Một yêu cầu cho việc sử dụng của hầu hết các thuật tốn học máy là các dữ liệu học cĩ thể đƣợc biểu diễn nhƣ một tập các vector. Một hƣớng tiếp cận cho việc biểu diễn văn bản nhƣ các vector đặc trƣng là hƣớng tiếp cận dựa trên tập hợp từ. Một tài liệu đƣợc biểu diễn bởi một vector đặc trƣng mà chứa thuộc tính boolean cho mỗi từ xuất hiện trong tập các tài liệu học. Nếu một từ xuất hiện trong một tài liệu học thì đƣợc thiết lập giá trị là 1, nếu khơng nĩ đƣợc thiết lập giá trị là 0. Nhƣ vậy, mỗi tài liệu đƣợc biểu diễn bởi một tập hợp các từ chứa trong nĩ. Trong luận văn, chúng tơi cũng sử dụng hƣớng tiếp cận này, kết hợp sử dụng N-gram nhƣ một đặc trƣng để xây dựng vector đặc trƣng.

Độ tương đồng dựa trên tâm (CBS) 2.2.2

a) Ý tƣởng cơ bản

Đặt sự quan tâm của ngƣời dùng đến chủ đề là P (tích cực) và thiết lập tất cả các chủ đề khơng liên quan khác trên một nguồn truyền thơng xã hội là T (là hình thức của dữ liệu tiêu cực):

Trong đĩ, n thƣờng là lớn.

Tuy nhiên, do năng lực gán nhãn thủ cơng là cĩ giới hạn, ta chỉ cĩ thể gán nhãn một số lƣợng nhất định dữ liệu. Từ đĩ, các dữ liệu tiêu cực đƣợc gán nhãn chỉ bao gồm một số lƣợng nhỏ các chủ đề khơng liên quan S của T ( ) nhƣ là tiêu cực. Hơn nữa, do tính chất thay đổi thƣờng xuyên của truyền thơng xã hội nên việc gán nhãn tất cả các chủ đề tiêu cực là khơng thể. Trong thử nghiệm, khi bài viết của chủ đề tiêu cực khác trong T-S, phân loại của chúng khơng thể dự đốn đƣợc trƣớc. Ví dụ, trong một ứng dụng, dữ liệu huấn luyện cĩ thể khơng cĩ ví dụ tiêu cực về thể thao. Tuy nhiên, trong thử nghiệm, một số bài viết về thể thao cĩ thể xuất hiện. Các bài viết này cĩ thể đƣợc phân loại một cách tùy tiện, kết quả độ chính xác phân loại

30

thấp. Phƣơng pháp Độ tƣơng đồng dựa trên tâm – CBS nhằm mục đích giải quyết vấn đề này.

Trong học máy, vấn đề này đƣợc gọi là “covariate shift”, một loại của “lựa

chọn mẫu thiên lệch”. Trong học máy cố điển, giả định rằng các dữ liệu huấn luyện

và thử nghiệm đƣợc rút ra từ cùng một phân phối. Tuy nhiên, giả thiết này khơng đúng trong thực tế, tức là phân phối trên tập huấn luyện và tập thử nghiệm là khác nhau. Nĩi chung, vấn đề lựa chọn mẫu thiên lệch là khơng thể giải quyết đƣợc vì mỗi cặp hai phân phối cĩ thể xa nhau ngẫu nhiên. Các giả định khách nhau đƣợc thực hiện để giải quyết các trƣờng hợp đặc biệt của vấn đề. Một giả định chính là phân phối cĩ điều kiện của lớp cho một trƣờng dữ liệu nhƣ nhau trong các bộ huấn luyện và bộ kiểm thử. Giả định vấn đề “covariate shift” xảy ra chủ yếu trong dữ liệu tiêu cực, và khơng cĩ sự thay đổi hoặc thay đổi một cách tối thiểu trong dữ liệu tích cực. Giả định này hợp lý vì ngƣời dùng biết loại của bài viết, tài liệu mà ngƣời đĩ đang tìm kiếm và cĩ thể đƣợc gắn nhãn nhiều cho chúng.

Coi tập huấn luyện là trong đĩ: là vector dữ liệu hoặc vector đặc trƣng.

là nhãn lớp của .

Và tập kiểm thử là chƣa cĩ nhãn.

Chúng ta phân lớp theo phân lớp nhị phân, do đĩ sẽ nhận giá trị là 1 nếu là lớp tích cực, nhận giá trị -1 nếu là lớp tiêu cực. Dữ liệu huấn luyện đã đƣợc gán nhãn và dữ liệu kiểm thử cĩ cùng một phân phối cĩ điều kiện mục tiêu p(y|x) và phân phối biên của số liệu tích cực. Nhƣng phân phối biên của dữ liệu tiêu cực trong tập huấn luyện và tập kiểm thử là khác nhau.

31

Trong đĩ: L, T và – lần lƣợt là dữ liệu huấn luyện đƣợc gán nhãn, dữ liệu kiểm thử và lớp tiêu cực tƣơng ứng.

Trong phƣơng pháp đề xuất, thay vì thực hiện học cĩ giám sát trong khơng gian tài liệu ban đầu dựa trên n-gram, chúng ta biểu diễn tập huấn luyện trong một khơng gian tƣơng tự. Nhƣ vậy, đặc điểm mới quan trọng của phƣơng pháp này là sự chuyển đổi từ khơng gian tài liệu gốc (DS) đến một khơng gian tƣợng tự dựa trên tâm (CBS). Trong khơng gian mới, vấn đề “covariate shift” đƣợc giảm thiểu đáng kể, cho phép phân loại chính xác hơn. Lý do cho điều này là trong huấn luyện CBS dựa trên các vector trong khơng gian tƣơng tự cho phép SVM tìm ranh giới tốt của tập dữ liệu tích cực dựa trên sự giống nhau và tách nĩ từ tất cả các tầng lớp tiêu cực cĩ thể, bao gồm cả những dữ liệu tiêu cực mà khơng đƣợc đại diện trong tập huấn luyện. Trong phần sau sẽ trình bày chi tiết thuật tốn đề xuất, đƣợc gọi là CBS-L (CBS Learning)

Trong đề xuất phƣơng pháp CBS-L, mỗi tài liệu d vẫn đƣợc biểu diễn nhƣ một vector đặc trƣng nhƣng các vector này khơng cịn biểu diễn dựa trên N-gram. Thay vào đĩ, nĩ đại diện cho một tập hợp các giá trị giống nhau giữa tài liệu d và các trung tâm của các tài liệu tích cực. Cụ thể, việc học bao gồm các bƣớc sau đây:

1. Mỗi tài liệu d (trong lớp tích cực hay tiêu cực) đầu tiên đƣợc biểu diễn với một tập hợp các tài liệu đại diện. Ví dụ, khơng gian vector tài liệu

(ds-vector) dựa trên chính nĩ trong phân loại văn bản truyền thống. Mỗi

vector biểu thị một biểu diễn của tài liệu. Biểu diễn này cĩ thể chỉ dựa trên unigram hoặc chỉ dựa trên bigram. Để đơn giản, chúng ta chỉ sử dụng một biểu diễn cho một vector x (ví dụ, unigram) ở đây để biểu diễn cho d. Mỗi đặc trƣng trong một ds-vector gọi là ds-feature.

2. Một vector c đƣợc tính tốn cho mỗi biểu diễn tài liệu với lớp tích cực

bằng cách sử dụng ds-vector của tất cả tài liệu tích cực và tiêu cực. c do

32

3. Mỗi tài liệu d trong lớp tích cực và tiêu cực sau đĩ đƣợc chuyển sang

khơng gian vector tương đồng dựa trên tâm Sd (đƣợc gọi là cbs-vector).

Sd bao gồm một tập các giá trị tƣơng tự nhau giữa các ds-vector {x} và các tập tƣơng ứng vector trung tâm lớp tích cực, tức là {c}.

Trong đĩ, Sim là hàm tƣơng tự bao gồm một tập các độ đo tƣơng tự. Mỗi đặc trƣng trong Sd vẫn cĩ cĩ nhãn của lớp gốc nhƣ d. Giả sử vector trung tâm cho lớp tích cực đã đƣợc tính tốn dự trên biểu diễn unigram nhƣ sau:

Cặp y:z biểu diễn một đặc trƣng ds-feature và giá trị của nĩ. Chúng ta sẽ chuyển những tài liệu tích cực d1 và tài liệu tiêu cực d2 từ ds-vector sang cbs-vector.

Nếu chúng ta sử dụng cosin là độ đo tƣơng tự trong Sim thì chúng ta sẽ sinh ra đặc trƣng cbs-feature 1:0.5 cho d1 (cosin(c, d1) = 0.5) và 1:0.27 cho d2 (cosin(c, d2) = 0.27)

Kết quả là cbs-vector cho d1d2 với nhãn 1 và -1 là:

4. Bây giờ chúng ta cĩ một phân lớp nhị phân trong khơng gian CBS. Bƣớc này chỉ đơn giản là chạy một giải thuật phân lớp, ví dụ SVM để tạo bộ phân lớp.

33

b) Phƣơng pháp học CBS

Cho là tập dữ liệu huấn luyện, trong đĩ là một tài liệu, là nhãn của nĩ. Phân loại truyền thống sử dụng trực tiếp D để xây dựng một bộ phân loại nhị phân. Tuy nhiên, trong khơng gian CBS, chúng ta cần học một bộ phân lớp trả về 1 đối với tài liệu “đủ gần” đến trung tâm của các tài liệu huấn luyện tích cực và -1 cho các tài liệu khác.

Nhƣ đã đề cập ở trên, thay vì sử dụng một ds-vector duy nhất đề biểu diện cho 1 tài liệu , chúng ta sử dụng một bộ Rd của p ds-vector

Mỗi vector biểu thị một biểu diễn khơng gian tài liệu của các tài liệu, ví dụ, unigram. Sau đĩ, chúng ta tính tốn trung tâm của các tài liệu huấn luyện tích cực, đƣợc biểu diễn nhƣ một tập các trung tâm . Mỗi vector trong đĩ tƣơng ứng với một biểu diễn khơng gian tài liệu .Dựa trên cho mỗi tài liệu d và trung tâm C, chúng ta cĩ thể chuyển một tài liệu d từ biểu diễn khơng gian tài liệu sang một vector cbs-v trong khơng gian tƣơng đồng dựa trên tâm bằng cách áp dụng hàm Sim với mỗi thành phần của và trung tâm tƣơng ứng của nĩ.

Chuyển đổi tài liệu huấn luyện: Tài liệu huấn luyện đƣợc chuyển từ ds- vector sang cbs-vector theo 2 bƣớc:

Bƣớc 1: Tính tốn C cho lớp tích cực. Mỗi vector trung tâm là một biểu diễn tài liệu

| | ∑ ‖ ‖ | | ∑ ‖ ‖ Trong đĩ:

34

là tập các tài liệu lớp tích cực |.| là kích thƣớc của hàm

và là các tham số. Trong luận văn sử dụng và

Bƣớc 2: Tính tốn vector tƣơng tự cbs-vd cho mỗi tài liệu dựa trên khơng gian vector tài liệu và các trung tâm C tƣơng ứng của tài liệu tích cực.

Sim là một tập các độ đo tƣơng tự.

Độ phức tạp: Các bƣớc chuyển đổi dữ liệu là tuyến tính trong số các ví dụ, chẳng hạn n.

Chuyển đổi tài liệu kiểm thử: mỗi tài liệu kiểm thử d đƣợc chuyển đổi theo 2 bƣớc ở trên.

c) Đặc trƣng DS

Để tính tốn đặc trƣng cbs-feature cho mỗi tài liệu, chúng ta cần phải cĩ các đặc trƣng ds-feature của một tài liệu và trung tâm của lớp tích cực.

Trong phân loại tài liệu, chúng ta sử dụng phổ biến các đặc trƣng unigram, bigram, trigram với trọng số tf-idf nhƣ là các đặc trƣng ds-feature cho một tài liệu. Cĩ 3 loại đặc trung ds-feature nên chúng ta cĩ 3 cách biểu diễn tài liệu khác nhau.

d) Đặc trƣng CBS

Ds-vector đƣợc chuyển sang cbs-vector bằng cách áp dụng một tập các độ đo

tƣơng tự trên mỗi tài liệu và vector trung tâm tƣơng ứng. Trong luận văn đề xuất sử dụng 5 độ đo tƣơng tự để đánh giá độ tƣơng đồng của hai vector. Dựa trên những độ đo này, chúng ta sinh ra 15 đặc trung CBS dùng unigram, bigram và trigram biểu diễn mỗi vector. Những độ đo này đƣợc liệt kê trong bảng dƣới đây, trong đĩ P và Q là hai vector và d biểu diễn hƣớng của P và Q.

35

Bảng 2.5 Các độ đo tƣơng tự cho đặc trƣng CBS

∑ √∑ √∑ ∑ || √∑ √∑ || ∑ | | ∑ √∑ √∑ ∑ √∑ √∑ ∑

Đặc trưng Log-count Ratio 2.2.3

a) Ý tƣởng

Các biến thể của Nạve Bayes (NB) và Support Vector Machines (SVM) thƣờng đƣợc dùng nhƣ phƣơng pháp cơ sở cho phân loại văn bản, nhƣng hiệu năng của chúng rất khác nhau, phụ thuộc vào các mơ hình biến thể, đặc trƣng sử dụng và tập dữ liệu. Qua quá trình nghiên cứu, hai tác giả Sida Wang và Christopher D. Manning [9] đã chỉ ra rằng:

- Sự bao gồm các đặc trƣng Bigram từ tăng sự thích hợp trong phân tích quan điểm.

36

- Một cách đơn giản nhƣng biến thể SVM mới sử dụng NB Log-count ratio nhƣ giá trị đặc trƣng luơn hoạt động tốt với các nhiệm vụ và bộ dữ liệu khác nhau.

Từ những kết luận ở trên, chúng tơi thử nghiệm lựa chọn Log-count ratio nhƣ một đặc trƣng đƣợc sử dụng trong luận văn.

b) Phƣơng pháp

Theo Sida Wang và Christopher D. Manning [9], họ xây dựng các biến thể mơ hình chính là phân loại tuyến tính, dự đốn các trƣờng hợp kiểm thử k:

Cho | | là vector đếm cho tập huấn luyện i với nhãn .

V là tập các đặc trƣng, và biểu diễn số lần xuất hiện của đặc trƣng trong trƣờng hợp huấn luyện i. Định nghĩa vector đếm ∑ và ∑ với hệ số làm mịn . Log-cout ratio sẽ là: ( || || || || )  Multinomial Nạve Bayes (MNB)

Đối với MNB, , w = r và . Trong đĩ, là số trƣờng hợp huấn luyện tích cực và tiêu cực. Tuy nhiên, theo nghiên cứu của Sida Wang và Christopher D. Manning [9], nhị phân là tốt hơn.

Chúng ta cho ̂ , trong đĩ 1 là hàm chỉ số

̂ ̂ ̂ đƣợc tính dùng hàm ̂ dựa vào hàm ở trên.  Support Vector Machine (SVM)

37

Đối với SVM, ̂ và w, b thu đƣợc bằng cách cực tiểu hĩa.

∑ ̂

SVM với đặc trƣng NB (NBSVM)

Ngƣợc lại với SVM, ngoại trừ chúng ta dùng ̅ , Trong đĩ ̅ ̂ ̂

Trong khi điều này làm việc tốt cho các tài liệu dài thì một nội suy giữa MNB và SVM thực hiện một cách xuất sắc cho tất cả các tài liệu:

̅

Trong đĩ, ̅ || || | |là độ lớn của w và [ ] là hệ số nội suy. Nội suy này cĩ thể đƣợc xem nhƣ một hình thức chính quy: Tin tƣởng NB trừ khi SVM là rất đáng tin.

2.3 SVM – Support Vevtor Machine

Giới thiệu chung 2.3.1

SVM sử dụng thuật tốn học nhằm xây dựng một siêu phẳng làm cực tiểu hố độ phân lớp sai của một đối tƣợng dữ liệu mới. Độ phân lớp sai của một siêu phẳng đƣợc đặc trƣng bởi khoảng cách bé nhất tới siêu phẳng đấy. SVM cĩ khả năng rất lớn cho các ứng dụng đƣợc thành cơng trong bài tốn phân lớp văn bản.

Phân lớp văn bản là một cách tiếp cận mới để tạo ra tập phân lớp văn bản từ các mẫu cho trƣớc. Cách tiếp cận này phối hợp với sự thực thi ở mức độ cao và hiệu suất cùng với những am hiểu về mặt lý thuyết, tính chất thơ ngày càng đƣợc hồn thiện. Thơng thƣờng, hiệu quả ở mức độ cao khơng cĩ các thành phần suy nghiệm. Phƣơng pháp SVM cĩ khả năng tính tốn sẵn sàng và phân lớp, nĩ trở thành lý thuyết học mà cĩ thể chỉ dẫn những ứng dụng thực tế trên tồn cầu.

Đặc trƣng cơ bản quyết định khả năng phân lớp là khả năng phân lớp những dữ liệu mới dựa vào những tri thức đã tích luỹ đƣợc trong quá trình huấn luyện. Sau

38

quá trình huấn luyện nếu hiệu suất tổng quát hố của bộ phân lớp cao thì thuật tốn huấn luyện đƣợc đánh giá là tốt. Hiệu suất tổng quát hố phụ thuộc vào hai tham số là sai số huấn luyện hay và năng lực của máy học. Trong đĩ sai số huấn luyện là tỷ lệ lỗi phân lớp trên tập dữ liệu huấn luyện. Cịn năng lực của máy học đƣợc xác định bằng kích thƣớc Vapnik-Chervonenkis (kích thƣớc VC). Kích thƣớc VC là một

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá quan điểm dữ liệu twitter (Trang 36 - 52)

Tải bản đầy đủ (PDF)

(69 trang)