Bước 3. Vẽ đồ thị của các cụm từ theo tần số tích lũy
Từ bảng tần số tích luỹ chúng ta thực hiện vẽ đồ thị của các cụm từ theo cột tần số tích luỹ như sau:
Bước 4. Lấy các cụm từ thuộc lớp mode
Từ đồ thị được vẽ ở bước trước chúng ta thực hiện lấy các cụm từ thuộc miền phần tư thứ hai và phần tư thứ ba (các cụm từ với tần số tích lũy nằm trong đoạn từ 25% đến 75%) là các cụm có quan hệ gần gũi nhất với “chủ đề”. Đây chính là lớp mode mà chúng ta cần phải tìm kiếm.
Với bảng số liệu ở trên chúng ta có tần số tích lũy lớn nhất là 14.313.000. Do đó mốc bắt đầu phần tư thứ hai có giá trị là 3.578.250, mốc kết thúc phần tư thứ ba có giá trị là 10.734.750. Vậy chúng ta thực hiện lấy các cụm từ có tần số tích lũy nằm trong đoạn [3.578.250, 10.734.750] chúng ta được các cụm từ “Bảng giá chứng khoán”, “Thị trường chứng khoán HN”, “Mã chứng khoán tăng mạnh” là các cụm từ thuộc vào lớp mode.
Thuật toán tìm lớp mode:
Vào: Tập các cụm từ tìm kiếm cho chủ đề
Ra: Quan hệ TimKiem (các cụm từ thuộc lớp mode)
„ Sao các giá trị từ quan hệ CumTu sang mảng arrCumTu theo chủ đề tìm kiếm
COPY(CumTu,arrCumTu)
„ Sắp xếp mảng cụm từ theo chiều dài tăng dần của các phần tử.
Sort(arrCumTu)
„ iCT là biến đếm số phần tử của mảng cụm từ.
iCT = Count(arrCumTu)
„ Khai báo mảng tần số khởi tạo bằng số cụm từ để lưu chữ số bài báo của các „ cụm từ tương ứng trong mảng cụm từ.
int arrTanSo[iCT]
„ i biến đếm duyệt cụm từ
i=0
„ Vòng lặp thực hiện thống kê số bài báo cho từng cụm từ
For i=0 to iCT
arrTanSo[i] = THONGKE(arrCumTu[i]) Next i
„ Biến đếm duyệt mảng tần số
j=0
„ Vòng lặp thực hiện tính tần số tích luỹ cho các cụm từ
For j=0 to iCT
CF[j+1] = CF[j] + arrTanSo[j] Next j
„ Thực hiện chia tần số tích luỹ lớn nhất cho 4 ta được giá trị ¼
PhanTu = CF[jCT]/4
„ Giá trị bắt đầu ¼ thứ hai của tần số tích lũy
Int BatDauPhanTuThuHai = CF[jCT] – PhanTu*3
„Giá trị kết thúc ¼ thứ ba của tần số tích lũy
Int KetThucPhanTuThuBa = CF[jCT] – PhanTu
„ Thực hiện lấy các cụm từ thuộc vào BatDauPhanTuThuHai đến „KetThucPhanTuThuBa của cột tần số tích luỹ
„ Lưu các cụm từ này vào quan hệ TimKiem và kết thúc thuật toán
SAVE(TimKiem)
Chú ý trong các đoạn chương trình thuật toán viết giả mã thì sau dấu „ là ghi chú, còn dòng lệnh giả mã được viết in nghiêng.
Chọn cụm từ để thăm dò:
Cụm từ thăm dò là hết sức quan trọng, nó làm thu hẹp miền tìm kiếm (giảm số lượng các bài viết có nội dung ít phù hợp với chủ đề).
Chẳng hạn với chủ đề “Thị trường chứng khoán” thì các cụm từ cần cho thăm dò có thể chỉ cần: “Thị trường chứng khoán tăng mạnh”, “Thị trường chứng khoán giảm mạnh”, “Thị trường chứng khoán Việt Nam năm 2009”, “Thị trường chứng khoán tăng mạnh cuối tuần”,... Mà không cần các xâu như: “Chứng khoán”, “Chứng gà”, …
Chúng ta cần chọn các cụm từ thích hợp cho chủ đề cần nghiên cứu. Để làm được điều này, ta cần phải có kiến thức về các chủ đề, để biết khả năng xuất hiện cụm từ trong bài viết. Tránh trường hợp có bài viết chứa chủ đề cần nghiên cứu nhưng khi chọn cụm từ lại không thích hợp để có thể tham chiếu đến bài viết. Để tránh được điều này chúng ta có thể chọn các cụm từ thuộc vùng “mode” như đã trình bày ở trên.
2.3.2 Giới thiệu cơ sở dữ liệu
Mục này chúng ta đi vào trình bày thiết kế, tổ chức cơ sở dữ liệu để thực hiện lưu trữ thông tin và phục vụ kết xuất ra báo cáo.
a. Bảng ChuDe
Do quá trình thăm dò và tổng hợp không phải chỉ dành cho một mà là nhiều chủ đề, vì thế chúng ta cần thiết kế một bảng để lưu nội dung của các chủ đề. Bảng chủ đề được đặt tên là ChuDe và có cấu trúc như sau:
Tên trường Kiểu dữ liệu
Độ rộng
Ghi chú
MaChuDe Varchar 10 Khoá chính
ChuDe Nvarchar 100 Chủ đề cần nghiên cứu và tổng hợp