Quan hệ giữa cụm từ và bài viết

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Chuẩn hóa và xác định mối quan hệ giữa các cụm từ, tìm và lấy thông tin liên quan đến cụm từ (Trang 31 - 33)

Với bảng số liệu trên chúng ta tìm được xâu mode là xâu “Chứng khoán”, bởi vì xâu “Chứng khoán” có tần số xuất hiện trong các bài viết là lớn nhất. Bằng cách phân tích trực quan chúng ta thấy rằng với xâu tìm kiếm mà có nhiều bài viết về nó thì đó là những thông tin hóng hổi và mang tính thời sự.

Với việc tìm kiếm thông qua xâu mode cũng dẫn việc tìm kiếm trùng lặp các bài viết (bởi vì xâu mode là xâu có tần suất xuất hiện lớn nhất). Do đó sẽ có nhiều bài viết trên nhiều website cùng đưa nội dung về xâu mode đó.

Từ bảng quan hệ giữa cụm từ và bài viết chúng ta thấy được rằng với cụm từ tìm kiếm càng dài thì số bài viết xuất hiện cụm từ tìm kiếm đó càng ít. Số bài viết càng ít thì không gian tìm kiếm được thu hẹp và nội dung bài được cô đọng.

Ngược lại với cụm từ tìm kiếm càng ngắn thì số bài viết xuất hiện cụm từ càng nhiều. Số bài viết càng nhiều thì không gian tìm kiếm càng rộng và nội dung bài viết sẽ rất tản mạn.

Như vậy chúng ta có thể thấy được rằng mode có một số ý nghĩa quan trọng sau: - Ý nghĩa về mặt thống kê: xâu mode là giá trị có tần suất xuất hiện

lớn nhất.

- Ý nghĩa về mặt thực tế: tìm kiếm với xâu mode sẽ dẫn đến việc tìm kiếm trùng lặp các bài viết.

- Ý nghĩa về mặt thông tin cập nhật: với xâu mode là xâu có tần suất xuất hiện lớn nhất do đó nó chính là thông tin nóng hổi, sốt dẻo và mang tính thời sự.

Trong luận văn này có nghiên cứu ứng dụng mode vào trong thuật toán tìm kiếm và trích rút thông tin thông qua lớp mode.

Lớp (vùng, miền) mode là lớp mà các cụm từ tìm kiếm xuất hiện nhiều và có quan hệ gần gũi với chủ đề nhất.

Phương pháp tìm các cụm từ có độ khả tín cao (tìm lớp mode):

Chúng ta sẽ ứng dụng phương pháp Thống kê để tìm ra các cụm từ có độ khả tín có thể có hiệu quả nhất khi tìm kiếm các bài viết liên quan đến “Chủ đề” là lớp (miền) mode (là miền mà các cụm từ tìm kiếm có quan hệ gần gũi với chủ đề nhất).

Để thực hiện tìm các cụm từ thuộc lớp mode chúng ta thực hiện theo các bước sau:

Bước 1. Tạo bảng sắp xếp các cụm từ tăng theo độ dài

Từ bảng mối quan hệ giữa cụm từ và bài viết chúng ta sắp xếp các cụm từ tăng theo độ dài được bảng kết quả như sau:

Nội dung xâu liên quan chủ đề (X) Số bài viết, tần số (f)

Chứng khoán 3.510.000

Tin nhanh chứng khoán 3.210.000

Bảng giá chứng khoán 1.030.000

Thị trường chứng khoán HN 2.480.000

Mã chứng khoán tăng mạnh 921.000

Mã chứng khoán giảm mạnh 712.000

Thị trường chứng khoán TPHCM 1.850.000 Phân tích thị trường chứng khoán 1.600.000 Mã chứng khoán tăng mạnh cuối tuần 482.000

Bước 2. Tạo bảng có cột tần số tích lũy tham gia

Từ bảng cụm từ đã được sắp xếp ở bước 1 chúng ta thực hiện tính tần số tích luỹ theo công thức:

cf(i+1) = cf(i) + f(i)

cf là tần số tích luỹ (khởi tạo cf(1) = 0) f là tần số hay số bài viết

i là chỉ số chạy từ 1 → n-1 (n: là tổng số cụm từ) Chúng ta được kết quả như sau:

Nội dung xâu liên quan chủ đề (X) Số bài viết, tần số (f)

Tần số tích luỹ (cf)

Chứng khoán 3.510.000 0

Tin nhanh chứng khoán 3.210.000 3.510.000 Bảng giá chứng khoán 1.030.000 6.720.000 Thị trường chứng khoán HN 2.480.000 7.750.000 Mã chứng khoán tăng mạnh 921.000 10.230.000 Mã chứng khoán giảm mạnh 712.000 11.151.000 Thị trường chứng khoán TPHCM 1.850.000 11.863.000 Phân tích thị trường chứng khoán 1.600.000 12.713.000 Mã chứng khoán tăng mạnh cuối

tuần

482.000 14.313.000

. . . . . . . . . .

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Chuẩn hóa và xác định mối quan hệ giữa các cụm từ, tìm và lấy thông tin liên quan đến cụm từ (Trang 31 - 33)

Tải bản đầy đủ (PDF)

(72 trang)