Biểu diễn nội dung bài báo

Một phần của tài liệu Hệ gợi ý (Trang 46 - 50)

Vector đặc trƣng C cho mỗi bài báo đƣợc biểu diễn theo các phƣơng pháp tf, tf-idf, phƣơng pháp trọng số tf-idf. Chúng ta sẽ đi vào tìm hiểu chi tiết từng phƣơng pháp:

3.2.1.1. Biểu diễn theo phƣơng pháp tính tf.

Cơng thức tính tf:

tf( , ) loglog( ( ( , ) )

( )) (3-1) Với:

 ( , )là số lần xuất hiện của thuật ngữ T trong bài báo D.

46

Học viên thực hiện: Nguyễn Văn Thịnh CB130460 Khĩa 2013B Lớp CNTT1

Nhƣ vậy ta sẽ biểu diễn các bài báo của chúng ta bằng một vector đặc trƣng là các giá trị tf của các từ khác nhau xuất hiện trong bài báo, thay vì phải biểu diễn bằng một tập các từ trong bài báo. Ở phƣơng pháp này thì phần tiêu đề, miêu tả, nội dung sẽ đƣợc gộp chung thành một phần vào để tính giá trị tf.

Ví dụ: bài báo C cĩ m từ xuất hiện trong bài báo (tiêu đề, miêu tả, nội dung) đƣợc biểu diễn bằng các từ khác nhau trong bài báo (n từ khác nhau) nhƣ sau:

C = (tf( , ), tf( , ) , ... , tf( n, ) ).

3.2.1.2. Biểu diễn theo phƣơng pháp trọng số tf-idf.

Cơng thức tính idf:

idf( ) log (

( )) +1 (3-2)

Với:

 là t ng số bài báo trong tập dữ liệu.

 ( ) là t ng số bài báo chứa từ T.

Dựa vào cơng thức tính tf (3-1) và idf (3-2), ta cĩ cơng thức tính trọng số tf-idf:

Trọng số tf idf( , ) tf( , ) idf( ). (3-3)

Tƣơng tự nhƣ phƣơng pháp biểu diễn theo tf ở trên, chúng ta biểu diễn bằng một vector đặc trƣng bao gồm các giá trị trọng số tf-idf của tất cả các từ khác nhau xuất hiện trong 3 phần: tiêu đề, miêu tả, nội dung của tài liệu.

Ví dụ tính tf-idf của một bài báo cụ thể nhƣ sau, các giá trị này sẽ đƣợc sử dụng để tạo vector đặc trƣng của bài báo:

util-0.339 power-0.329 megawatt-0.309 electr-0.217 energi-0.206 california-0.181 debt-0.128 lawmak-0.128 state-0.122 wholesal-0.119 partial-0.106 consum-0.105 alert-0.103 scroung-0.096 advoc-0.09 testi-0.088 bail-out-0.088 crisi-0.085 amid-0.084 price-0.083 long-0.082 bond-0.081 plan-0.081 term-0.08 grid-

47

Học viên thực hiện: Nguyễn Văn Thịnh CB130460 Khĩa 2013B Lớp CNTT1

0.078 reserv-0.077 blackout-0.076 bid-0.076 market- 0.074 fine-0.073 deregul-0.07 spiral-0.068 deplet- 0.068 liar-0.066.

3.2.1.3. Biểu diễn theo phƣơng pháp trọng số tf-idf tăng cƣờng.

Thơng thƣờng, tiêu đề của bài báo thu hút sự quan tâm của độc giả và dự kiến chứa những từ quan trọng. Vì vậy, phƣơng pháp trọng số tf-idf sử dụng yếu tố tiêu đề để tăng cƣờng tính năng của vector đặc trƣng. Để tăng cƣờng độ quan trọng của các từ trong tiêu đề thì chúng ta tính thêm trọng số tiêu đề tw( , )) nhƣ sau: Đầu tiên, tính trung bình các giá trị tf-idf trong bài báo:

avg( ) ∑ ( ) ( , )

( ) (3-4)

Với:

 ( )số lƣợng thuật ngữ khác nhau cĩ trong bài báo D.

 avg( ) là trung bình số học của giá trị tf-idf trong D. Tiếp theo, tính trọng số tiêu đề tw( , )):

tw( , ) log ( ( , )

( ) +2) (3-5)

Với:

 : là thuật ngữ xuất hiện trong tiêu đề của bài báo.

tw( , ) đƣợc sử dụng nhƣ một giá trị tăng cƣờng cho các từ xuất hiện trong tiêu đề. Sử dụng trọng số tiêu đề, trọng số từ w( , ) đƣợc xác định nhƣ sau :

w( , ) { 𝑖 ( , ) ( , ) ậ ĩ 𝑖ê đề. 𝑖 ( , ) ượ 𝑖 (3-6)

Điểm khác của phƣơng pháp này là sử dụng thêm trọng số của các từ trong tiêu đề để biểu diễn cho nội dung của bài báo. Thay vì gộp chung 3 phần tiêu đề, miêu tả, nội dung vào một thì ở phƣơng pháp này chúng ta sẽ chia thành 2 phần là các từ khác nhau xuất hiện trong phần tiêu đề và các từ xuất hiện trong phần miêu tả, nội

48

Học viên thực hiện: Nguyễn Văn Thịnh CB130460 Khĩa 2013B Lớp CNTT1

dung bài báo, sử dụng cơng thức (3-6) để tính trọng số cho các từ khác nhau trong bài báo và biểu diễn bài báo bằng một vector đặc trƣng là trọng số của các từ đĩ.

3.2.1.4. Biểu diễn nội dung bài báo dựa trên mơ hình chủ đề LDA

Với mơ hình chủ đề ẩn, từ tập dữ liệu sẽ cho đầu ra là các chủ đề và phân phối xác suất của các chủ đề trên từng bài báo. Ở đây, đồ án sử dụng tập phân phối xác suất của các chủ đề trên mỗi bài báo là vector đặc trƣng, thay vì chúng ta biểu diễn bằng trọng số của tất cả các từ khác nhau trong bài báo, thì bây giờ chúng ta sẽ hạn chế bằng cách biểu diễn bài báo theo topic. Phƣơng pháp này sẽ giảm số chiều biểu diễn vector đặc trƣng của bài báo, số chiều bằng số topic mà chúng ta cài đặt.

Giả sử chúng ta xác định đƣợc K topic từ tập dữ liệu. Với mỗi bài báo , đồ án tính các xác suất để bài báo thuộc vào topic i là pDi, với i = 1,…,k; k là t ng số topic. Từ đĩ xác định đƣợc vector đặc trƣng từ mơ hình chủ đề ẩn LDA là:

Cd = [pD1, pD2, …, pDk]

Xét ví dụ: cĩ 4 topic, tài liệu đầu vào , cĩ phân bố xác suất trên 4 topic nhƣ bảng sau:

Chủ đề Xác xuất Từ khố đại diện

Topic 1 0.924 Nhân viên, tốt, phục vụ, nhiệt tình, thân thiện,… Topic 2 0.001 Sáng, ngon, mĩn, nhiều,

đƣợc,…

Topic 3 0.002 Đẹp, view, hƣớng, rộng, vƣờn,…

Topic 4 0.065 Gần, trung tâm, vịtrí, đƣờng, ….

… … …

49

Học viên thực hiện: Nguyễn Văn Thịnh CB130460 Khĩa 2013B Lớp CNTT1

Cd = [0.924, 0.001, 0.002, 0.065, …]

Một phần của tài liệu Hệ gợi ý (Trang 46 - 50)

Tải bản đầy đủ (PDF)

(91 trang)