Tần số và tần số tích lũy

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Chuẩn hóa và xác định mối quan hệ giữa các cụm từ, tìm và lấy thông tin liên quan đến cụm từ (Trang 33 - 36)

Bước 3. Vẽ đồ thị của các cụm từ theo tần số tích lũy

Từ bảng tần số tích luỹ chúng ta thực hiện vẽ đồ thị của các cụm từ theo cột tần số tích luỹ như sau:

Bước 4. Lấy các cụm từ thuộc lớp mode

Từ đồ thị được vẽ ở bước trước chúng ta thực hiện lấy các cụm từ thuộc miền phần tư thứ hai và phần tư thứ ba (các cụm từ với tần số tích lũy nằm trong đoạn từ 25% đến 75%) là các cụm có quan hệ gần gũi nhất với “chủ đề”. Đây chính là lớp mode mà chúng ta cần phải tìm kiếm.

Với bảng số liệu ở trên chúng ta có tần số tích lũy lớn nhất là 14.313.000. Do đó mốc bắt đầu phần tư thứ hai có giá trị là 3.578.250, mốc kết thúc phần tư thứ ba có giá trị là 10.734.750. Vậy chúng ta thực hiện lấy các cụm từ có tần số tích lũy nằm trong đoạn [3.578.250, 10.734.750] chúng ta được các cụm từ “Bảng giá chứng khoán”, “Thị trường chứng khoán HN”, “Mã chứng khoán tăng mạnh” là các cụm từ thuộc vào lớp mode.

Thuật toán tìm lớp mode:

Vào: Tập các cụm từ tìm kiếm cho chủ đề

Ra: Quan hệ TimKiem (các cụm từ thuộc lớp mode)

„ Sao các giá trị từ quan hệ CumTu sang mảng arrCumTu theo chủ đề tìm kiếm

COPY(CumTu,arrCumTu)

„ Sắp xếp mảng cụm từ theo chiều dài tăng dần của các phần tử.

Sort(arrCumTu)

„ iCT là biến đếm số phần tử của mảng cụm từ.

iCT = Count(arrCumTu)

„ Khai báo mảng tần số khởi tạo bằng số cụm từ để lưu chữ số bài báo của các „ cụm từ tương ứng trong mảng cụm từ.

int arrTanSo[iCT]

„ i biến đếm duyệt cụm từ

i=0

„ Vòng lặp thực hiện thống kê số bài báo cho từng cụm từ

For i=0 to iCT

arrTanSo[i] = THONGKE(arrCumTu[i]) Next i

„ Biến đếm duyệt mảng tần số

j=0

„ Vòng lặp thực hiện tính tần số tích luỹ cho các cụm từ

For j=0 to iCT

CF[j+1] = CF[j] + arrTanSo[j] Next j

„ Thực hiện chia tần số tích luỹ lớn nhất cho 4 ta được giá trị ¼

PhanTu = CF[jCT]/4

„ Giá trị bắt đầu ¼ thứ hai của tần số tích lũy

Int BatDauPhanTuThuHai = CF[jCT] – PhanTu*3

„Giá trị kết thúc ¼ thứ ba của tần số tích lũy

Int KetThucPhanTuThuBa = CF[jCT] – PhanTu

„ Thực hiện lấy các cụm từ thuộc vào BatDauPhanTuThuHai đến „KetThucPhanTuThuBa của cột tần số tích luỹ

„ Lưu các cụm từ này vào quan hệ TimKiem và kết thúc thuật toán

SAVE(TimKiem)

Chú ý trong các đoạn chương trình thuật toán viết giả mã thì sau dấu „ là ghi chú, còn dòng lệnh giả mã được viết in nghiêng.

Chọn cụm từ để thăm dò:

Cụm từ thăm dò là hết sức quan trọng, nó làm thu hẹp miền tìm kiếm (giảm số lượng các bài viết có nội dung ít phù hợp với chủ đề).

Chẳng hạn với chủ đề “Thị trường chứng khoán” thì các cụm từ cần cho thăm dò có thể chỉ cần: “Thị trường chứng khoán tăng mạnh”, “Thị trường chứng khoán giảm mạnh”, “Thị trường chứng khoán Việt Nam năm 2009”, “Thị trường chứng khoán tăng mạnh cuối tuần”,... Mà không cần các xâu như: “Chứng khoán”, “Chứng gà”, …

Chúng ta cần chọn các cụm từ thích hợp cho chủ đề cần nghiên cứu. Để làm được điều này, ta cần phải có kiến thức về các chủ đề, để biết khả năng xuất hiện cụm từ trong bài viết. Tránh trường hợp có bài viết chứa chủ đề cần nghiên cứu nhưng khi chọn cụm từ lại không thích hợp để có thể tham chiếu đến bài viết. Để tránh được điều này chúng ta có thể chọn các cụm từ thuộc vùng “mode” như đã trình bày ở trên.

2.3.2 Giới thiệu cơ sở dữ liệu

Mục này chúng ta đi vào trình bày thiết kế, tổ chức cơ sở dữ liệu để thực hiện lưu trữ thông tin và phục vụ kết xuất ra báo cáo.

a. Bảng ChuDe

Do quá trình thăm dò và tổng hợp không phải chỉ dành cho một mà là nhiều chủ đề, vì thế chúng ta cần thiết kế một bảng để lưu nội dung của các chủ đề. Bảng chủ đề được đặt tên là ChuDe và có cấu trúc như sau:

Tên trường Kiểu dữ liệu

Độ rộng

Ghi chú

MaChuDe Varchar 10 Khoá chính

ChuDe Nvarchar 100 Chủ đề cần nghiên cứu và tổng hợp

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Chuẩn hóa và xác định mối quan hệ giữa các cụm từ, tìm và lấy thông tin liên quan đến cụm từ (Trang 33 - 36)

Tải bản đầy đủ (PDF)

(72 trang)