Thị các cụm từ theo tần số tích luỹ

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Chuẩn hóa và xác định mối quan hệ giữa các cụm từ, tìm và lấy thông tin liên quan đến cụm từ (Trang 33 - 58)

Bước 4. Lấy các cụm từ thuộc lớp mode

Từ đồ thị được vẽ ở bước trước chúng ta thực hiện lấy các cụm từ thuộc miền phần tư thứ hai và phần tư thứ ba (các cụm từ với tần số tích lũy nằm trong đoạn từ 25% đến 75%) là các cụm có quan hệ gần gũi nhất với “chủ đề”. Đây chính là lớp mode mà chúng ta cần phải tìm kiếm.

Với bảng số liệu ở trên chúng ta có tần số tích lũy lớn nhất là 14.313.000. Do đó mốc bắt đầu phần tư thứ hai có giá trị là 3.578.250, mốc kết thúc phần tư thứ ba có giá trị là 10.734.750. Vậy chúng ta thực hiện lấy các cụm từ có tần số tích lũy nằm trong đoạn [3.578.250, 10.734.750] chúng ta được các cụm từ “Bảng giá chứng khoán”, “Thị trường chứng khoán HN”, “Mã chứng khoán tăng mạnh” là các cụm từ thuộc vào lớp mode.

Thuật toán tìm lớp mode:

Vào: Tập các cụm từ tìm kiếm cho chủ đề

Ra: Quan hệ TimKiem (các cụm từ thuộc lớp mode)

„ Sao các giá trị từ quan hệ CumTu sang mảng arrCumTu theo chủ đề tìm kiếm

COPY(CumTu,arrCumTu)

„ Sắp xếp mảng cụm từ theo chiều dài tăng dần của các phần tử.

Sort(arrCumTu)

„ iCT là biến đếm số phần tử của mảng cụm từ.

iCT = Count(arrCumTu)

„ Khai báo mảng tần số khởi tạo bằng số cụm từ để lưu chữ số bài báo của các „ cụm từ tương ứng trong mảng cụm từ.

int arrTanSo[iCT]

„ i biến đếm duyệt cụm từ

i=0

„ Vòng lặp thực hiện thống kê số bài báo cho từng cụm từ

For i=0 to iCT

arrTanSo[i] = THONGKE(arrCumTu[i]) Next i

„ Biến đếm duyệt mảng tần số

j=0

„ Vòng lặp thực hiện tính tần số tích luỹ cho các cụm từ

For j=0 to iCT

CF[j+1] = CF[j] + arrTanSo[j] Next j

„ Thực hiện chia tần số tích luỹ lớn nhất cho 4 ta được giá trị ¼

PhanTu = CF[jCT]/4

„ Giá trị bắt đầu ¼ thứ hai của tần số tích lũy

Int BatDauPhanTuThuHai = CF[jCT] – PhanTu*3

„Giá trị kết thúc ¼ thứ ba của tần số tích lũy

Int KetThucPhanTuThuBa = CF[jCT] – PhanTu

„ Thực hiện lấy các cụm từ thuộc vào BatDauPhanTuThuHai đến „KetThucPhanTuThuBa của cột tần số tích luỹ

„ Lưu các cụm từ này vào quan hệ TimKiem và kết thúc thuật toán

SAVE(TimKiem)

Chú ý trong các đoạn chương trình thuật toán viết giả mã thì sau dấu „ là ghi chú, còn dòng lệnh giả mã được viết in nghiêng.

Chọn cụm từ để thăm dò:

Cụm từ thăm dò là hết sức quan trọng, nó làm thu hẹp miền tìm kiếm (giảm số lượng các bài viết có nội dung ít phù hợp với chủ đề).

Chẳng hạn với chủ đề “Thị trường chứng khoán” thì các cụm từ cần cho thăm dò có thể chỉ cần: “Thị trường chứng khoán tăng mạnh”, “Thị trường chứng khoán giảm mạnh”, “Thị trường chứng khoán Việt Nam năm 2009”, “Thị trường chứng khoán tăng mạnh cuối tuần”,... Mà không cần các xâu như: “Chứng khoán”, “Chứng gà”, …

Chúng ta cần chọn các cụm từ thích hợp cho chủ đề cần nghiên cứu. Để làm được điều này, ta cần phải có kiến thức về các chủ đề, để biết khả năng xuất hiện cụm từ trong bài viết. Tránh trường hợp có bài viết chứa chủ đề cần nghiên cứu nhưng khi chọn cụm từ lại không thích hợp để có thể tham chiếu đến bài viết. Để tránh được điều này chúng ta có thể chọn các cụm từ thuộc vùng “mode” như đã trình bày ở trên.

2.3.2 Giới thiệu cơ sở dữ liệu

Mục này chúng ta đi vào trình bày thiết kế, tổ chức cơ sở dữ liệu để thực hiện lưu trữ thông tin và phục vụ kết xuất ra báo cáo.

a. Bảng ChuDe

Do quá trình thăm dò và tổng hợp không phải chỉ dành cho một mà là nhiều chủ đề, vì thế chúng ta cần thiết kế một bảng để lưu nội dung của các chủ đề. Bảng chủ đề được đặt tên là ChuDe và có cấu trúc như sau:

Tên trường Kiểu dữ liệu

Độ rộng

Ghi chú

MaChuDe Varchar 10 Khoá chính

ChuDe Nvarchar 100 Chủ đề cần nghiên cứu và tổng hợp

Bảng 7.Cấu trúc bảng ChuDe

Dữ liệu (minh họa) của bảng ChuDe:

MaChuDe ChuDe

TCCK Thị trường chứng khoán CNTT Công nghệ thông tin

DBTT Dự báo thời tiết

ATGT An toàn giao thông

BĐ Bóng đá

GiaVang Giá vàng

BDS Thị trường bất động sản

TTV Thị trường vàng

TTNT Thị trường ngoại tệ GiaXangDau Giá xăng dầu

Bảng 8.Dữ liệu minh họa bảng ChuDe b. Bảng CumTu b. Bảng CumTu

Bảng cụm từ chứa các “cụm từ” được dùng để tìm các địa chỉ đoạn văn hay bài viết có chứa cụm từ liên quan đến chủ đề. Các “cụm từ” được người sử dụng đưa vào bảng cụm từ sau đó dùng phương pháp thống kê để tìm lớp “mode”. Bảng này bao gồm các trường lưu các dữ liệu cho mục đích tổng hợp văn bản và cung cấp tiêu đề của khối văn bản cần tổng hợp. Bảng cụm từ được đặt tên là CumTu và có cấu trúc như sau:

Tên trường Kiểu dữ liệu

Độ rộng

Ghi chú

MaCumTu varchar 10 Khoá chính

CumTu Nvarchar 4000 Cụm từ cần dùng để thu lượm thông tin

Bảng 9.Cấu trúc bảng CumTu Dữ liệu (minh họa) của bảng CumTu: Dữ liệu (minh họa) của bảng CumTu:

MaCumTu CumTu

000001 Bóng đá Anh

000002 Mã chứng khoán tăng mạnh

000003 Thị trường bất động sản đóng băng 000004 Báo cáo doanh thu của các NHTMCP 000005 Ảnh hưởng cơn bão số 9

000006 Vụ lúa bội thu

000007 Giá vàng tăng trở lại

000008 Vàng tăng

000009 Giá gạo xuất khẩu 000010 Xăng tăng giá 000011 Cà phê xuất khẩu

000012 Thị trường chứng khoán tăng mạnh cuối tuần 000013 Thị trường chứng khoán giảm mạnh cuối tuần

…. ...

Bảng 10.Dữ liệu minh họa bảng CumTu c. Bảng TimKiem c. Bảng TimKiem

Bảng tìm kiếm được dùng để tạo ra các chủ đề, ứng với các chủ đề là các cụm từ tương ứng (thuộc lớp mode) tìm thông tin cho chủ đề này. Tần suất xuất hiện của các cụm từ càng lớn thì thông tin thu được càng phong phú và đa dạng. Bảng tìm kiếm được đặt tên là TimKiem có cấu trúc như sau:

Tên trường Kiểu dữ liệu

Độ rộng

Ghi chú

MaCumTu varchar 10 Khoá chính

MaChuDe varchar 10

Bảng 11.Cấu trúc bảng TimKiem Dữ liệu (minh họa) của bảng TimKiem: Dữ liệu (minh họa) của bảng TimKiem:

ThiTruong 000002 Chứng khoán ThiTruong 000008 Giá vàng tăng vọt ThiTruong 000007 Giá vàng tăng trở lại

GiaVang 000008 Vàng tăng

GiaVang 000007 Giá vàng tăng trở lại

... ...

Bảng 12.Dữ liệu minh họa bảng TimKiem

d. Bảng TongHop

Bảng tổng hợp được dùng để lưu giữ các văn bản có chứa cụm từ thuộc chủ đề. Cấu trúc của bảng phụ thuộc vào yêu cầu tổng hợp của người sử dụng. Bảng tổng hợp được đặt tên là TongHop và có cấu trúc như sau:

STT

Tên trường Kiểu dữ liệu

Độ rộng

Ghi chú

1 ID int 10 Khóa chính

2 MaChuDe varchar 10 Khóa ngoại

3 DC_Website Nvarchar 4000 Địa chỉ Website 4 DC_KetNoi Nvarchar 4000 Địa chỉ đã kết nối

5 NgayTruyCap DateTime Ngày truy cập vào Website và E-Mail

6 TieuDeBaiViet Nvarchar 100 Tiêu đề bài viết có cụm từ 7 NoiDungTK Nvăn bản Nội dung tìm kiếm được

8 NgayPhatHanh Varchar 50 Ngày đưa bản tin có chứa cụm từ

9 TacGia Nvarchar 100 Tên tác giả của đoạn VB có cụm từ

Bảng 13.Cấu trúc bảng TongHop

Các trường từ trường số 7 trở đi được gọi là trường diễn giải, chúng được sử dụng để làm rõ thêm cho nội dung tìm kiếm. Tên, số lượng, kiểu, độ rộng của các trường là tuỳ ý, phụ thuộc vào yêu cầu tổng hợp của người sử dụng.

e. Bảng NguoiDung

Bảng người dùng được thiết kế để lưu trữ thông tin người dùng trong hệ thống. Bảng người dùng đặt tên là NguoiDung và có cấu trúc như sau:

STT

Tên trường Kiểu dữ liệu

Độ rộng

Ghi chú

1 MaNguoiDung varchar 10 Khóa chính

2 TenDangNhap Nvarchar 50 Tên sử dụng đăng nhập vào hệ thống

3 TenDayDu Nvarchar 50 Họ tên người dùng 4 MatKhau Varchar 200 Mật khẩu đăng nhập

5 MoTa Nvarchar 100 Thông tin mô tả

6 TuNgay DateTime Ngày bắt đầu có hiệu lực

7 DenNgay DateTime Ngày hết hiệu lực

8 ThoiGianBatDau DateTime Thời gian bắt đầu tham gia hệ thống

9 TrangThai Bit Đã được kích hoạt hay chưa

10 NgayTao DateTim Ngày tạo người dùng

11 Email Varchar 100 Địa chỉ email

12 DienThoai Varchar 15 Điện thoại

Bảng 14.Cấu trúc bảng NguoiDung f. Bảng ThamSo f. Bảng ThamSo

Bảng tham số được dùng để lưu giữ các tham số của hệ thống dùng cho việc cấu hình hệ thống. Bảng tham số được đặt tên là ThamSo và có cấu trúc như sau:

STT

Tên trường Kiểu dữ liệu

Độ rộng

Ghi chú

1 MaThamSo varchar 10 Khóa chính

2 TenThamSo Nvarchar 100 Tên tham số 3 GiaTriThamSo Nvarchar 200 Giá trị tham số

4 GhiChu Nvarchar 100 Chú thích thêm về tham số

Bảng 15. Cấu trúc bảng ThamSo

Tạo cấu trúc các bảng sử dụng Hệ quản trị Cơ sở dữ liệu SQL 2005 như sau: Create Table <Tên bảng>(<Danh sách trường, kiểu, độ rộng>)

Câu lệnh tạo bảng ChuDe:

CREATE TABLE [dbo].[dttChuDe](

[ID] [int] IDENTITY(1,1) NOT NULL, [MaChuDe] [nvarchar](50) NOT NULL,

[TenChuDe] [nvarchar](100) NOT NULL,

CONSTRAINT [PK_dttChuDe] PRIMARY KEY CLUSTERED (

[ID] ASC

)WITH (IGNORE_DUP_KEY = OFF) ON [PRIMARY] ) ON [PRIMARY]

Câu lệnh tạo bảng CumTu:

CREATE TABLE [dbo].[dttCumTu](

[ID] [int] IDENTITY(1,1) NOT NULL, [MaCumTu] [nvarchar](50) NULL, [TenCumTu] [nvarchar](4000) NULL,

CONSTRAINT [PK_dttCumTu] PRIMARY KEY CLUSTERED (

[ID] ASC

)WITH (IGNORE_DUP_KEY = OFF) ON [PRIMARY] ) ON [PRIMARY]

Câu lệnh tạo bảng TimKiem:

CREATE TABLE [dbo].[dttTimKiem]( [MaChuDe] [int] NOT NULL, [MaCumTu] [int] NOT NULL,

CONSTRAINT [PK_dttTimKiem] PRIMARY KEY CLUSTERED (

[MaChuDe] ASC, [MaCumTu] ASC

)WITH (IGNORE_DUP_KEY = OFF) ON [PRIMARY] ) ON [PRIMARY]

Câu lệnh tạo bảng TongHop:

CREATE TABLE [dbo].[dttTongHop]( [ID] [int] NOT NULL,

[IDChuDe] [int] NULL,

[MaChuDe] [nvarchar](50) NULL, [DC_Website] [nvarchar](4000) NULL, [DC_KetNoi] [nvarchar](4000) NULL, [NgayTruyCap] [datetime] NULL,

[TieuDeBaiViet] [nvarchar](100) NULL, [NoiDungTK] [ntext] NULL,

[TacGia] [nvarchar](100) NULL,

CONSTRAINT [PK_dttTongHop] PRIMARY KEY CLUSTERED (

[ID] ASC

)WITH (IGNORE_DUP_KEY = OFF) ON [PRIMARY] ) ON [PRIMARY] TEXTIMAGE_ON [PRIMARY]

Câu lệnh tạo bảng NguoiDung:

CREATE TABLE [dbo].[dttNguoiDung](

[ID] [numeric](18, 0) IDENTITY(1,1) NOT NULL, [TenDangNhap] [nvarchar](50) NULL,

[TenDayDu] [nvarchar](50) NULL, [MatKhau] [varchar](200) NULL, [MoTa] [nvarchar](100) NULL, [TuNgay] [datetime] NULL, [DenNgay] [datetime] NULL,

[ThoiGianBatDau] [datetime] NULL,

[TrangThai] [bit] NULL CONSTRAINT [DF_dttNguoiDung_TrangThai] DEFAULT ((1)),

[NgayTao] [datetime] NULL, [Email] [varchar](100) NULL, [DienThoai] [varchar](50) NULL,

[IsSuperAdm] [bit] NULL CONSTRAINT [DF_dttNguoiDung_IsSuperAdm] DEFAULT ((0)),

CONSTRAINT [PK_dttNguoiDung] PRIMARY KEY CLUSTERED (

[ID] ASC

)WITH (IGNORE_DUP_KEY = OFF) ON [PRIMARY] ) ON [PRIMARY]

Câu lệnh tạo bảng ThamSo:

CREATE TABLE [dbo].[dttThamSo](

[ID] [numeric](18, 0) IDENTITY(1,1) NOT NULL, [TenThamSo] [nvarchar](100) NOT NULL,

[GiaTriThamSo] [nvarchar](200) NOT NULL, [GhiChu] [nvarchar](100) NULL,

CONSTRAINT [PK_dttThamSo] PRIMARY KEY CLUSTERED (

[ID] ASC

) ON [PRIMARY]

2.3.3 Sơ đồ quan hệ

Từ cấu trúc các bảng chúng ta có sơ đồ quan hệ của các bảng như sau:

Hình 3.Sơ đồ quan hệ 2.3.4 Thuật toán tìm kiếm và trích rút thông tin

Phần này trình bày chi tiết thuật toán tìm kiếm và trích rút thông tin từ các bài báo trên các website phục vụ cho việc kết xuất ra báo cáo phi cấu trúc của đề tài.

Đầu vào thuật toán là chủ đề tìm kiếm và các cụm từ dùng để thăm dò cho chủ đề tìm kiếm, đầu ra thuật toán là các đoạn văn bản được trích rút từ các bài báo được tổng hợp và kết xuất thành báo cáo phi cấu trúc. Báo cáo phi cấu trúc thu được là một tệp văn bản chứa các thông tin về chủ đề tìm kiếm và các đoạn văn bản được trích rút kèm theo các thông tin về tiêu đề, tác giả.

Xuất phát từ tập hợp các cụm từ thăm dò cho một chủ đề, chúng ta thực hiện thu hẹp miền tìm kiếm bằng cách lược bỏ các cụm từ tìm kiếm không thực sự cần thiết. Đó là các cụm từ mà khi chúng ta sử dụng vào thuật toán, khả năng xuất hiện cụm từ đó trong bài viết ít dẫn đến việc không tham chiếu được đến bài viết chứa chủ đề. Để làm được điều này trong thuật toán tìm kiếm và trích rút thông tin, chúng ta ứng dụng thuật toán tìm kiếm các cụm từ thuộc lớp

“mode” để lựa chọn các cụm từ mà khả năng xuất hiện “của chúng” trong các bài viết lớn.

Sau khi đã tìm được các cụm từ thuộc vùng “mode” chúng ta thực hiện thăm dò theo các cụm từ này. Vì các cụm từ thuộc vùng “mode” nên có nhiều bài viết liên quan đến chủ đề. Do đó dẫn đến việc sẽ có nhiều địa chỉ website trùng nhau (vì có nhiều cụm từ tìm kiếm cùng cho ra bài báo trên website đó). Do đó chúng ta phải loại bỏ các địa chỉ website cùng viết về bài báo.

Ví dụ sau minh họa cho chúng ta thấy việc trùng lặp các địa chỉ website: Lấy các cụm từ “Chứng khoán tăng mạnh”, “Chứng khoán tăng mạnh trở lại”, “Chứng khoán tăng mạnh phiên đầu tuần” thực hiện tìm kiếm thông qua công cụ google và lấy 10 kết quả đầu tiên:

Với cụm từ “Chứng khoán tăng mạnh” ta được:

VnExpress - Chứng khoán tăng mạnh ngoài dự đoán - Chung khoan tang

...

Trọn tuần tăng điểm, Vn-Index tiến sát ngưỡng tâm lý quan trọng 500 điểm, với những phiên giao dịch ngày càng sôi động. - Tron tuan tang diem, Vn- Index tien ...

vnexpress.net/GL/Kinh-doanh/Chung.../12/3BA171C7/ - 10 giờ trước đây

SGGP Online- Chứng khoán tăng mạnh phiên đầu tuần

Chứng khoán tăng mạnh phiên đầu tuần. Thứ hai, 21/12/2009, 11:27 (GMT+7). (SGGPO).- Các chỉ số chứng khoán đều tăng mạnh trên cả 2 sàn giao dịch Hà Nội và ...

www.sggp.org.vn/.../212697/

Cầu chứng khoán tăng mạnh - Kinh tế - NLĐO

18 Tháng Mười Hai 2009 ... (NLĐ) - Sau khi thấy tình hình tín dụng êm trở lại, sáng 18-12, dòng tiền lại bắt đầu đổ vào thị trường, làm cho nhu cầu mua chứng khoán lên ...

www.nld.com.vn/.../cau-chung-khoan-tang-manh.htm

Chứng khoán tăng mạnh trở lại

Sau chuỗi ngày rơi tự do, thị trường chứng khoán đã phục hồi trở lại trong phiên giao dịch sáng nay (14/12) khi các nhà đầu tư tích cực mua vào vì giá cổ ...

vietbao.vn/.../91/

VnMedia: - Kinh tế -> Ngân hàng-CKhoán/Chứng khoán tăng mạnh trở lại 14 Tháng Mười Hai 2009 ... Chứng khoán tăng mạnh trở lại · Cung ngoại tệ vẫn còn dè dặt · Tăng tốc niêm yết cuối năm · Kéo dài hỗ trợ lãi suất

trung, dài hạn đến hết ...

www.vnmedia.vn/newsdetail.asp?...

Thanh Nien Online | Chứng khoán tăng mạnh

21 Tháng Mười Hai 2009 ... (TNO) Trong phiên giao dịch mở đầu tuần mới (ngày 21.12), thị trường chứng khoán Việt Nam (VN) khởi sắc trên hai sàn giao dịch khi đồng loạt ...

www.thanhnien.com.vn/.../20091221135609.aspx

Chứng khoán tăng mạnh ngoài dự đoán - Yahoo! Tin tức

26 Tháng Mười Hai 2009 ... Trọn tuần tăng điểm, Vn-Index tiến sát ngưỡng tâm lý quan trọng 500 điểm, với những phiên giao dịch ngày càng sôi động.

vn.news.yahoo.com/.../tbs-chung-khoan-tang-manh-ngoai-du-oan- d79febd.html - 5 giờ trước đây

Chứng khoán tăng mạnh ngoài dự đoán — MSB - Vietnam Maritime Joint

...

Hầu hết cổ phiếu bất ngờ bật xanh trong phiên giao dịch sáng nay nhờ lực mua bắt đáy của giới đầu tư. Nhưng tâm lý thận trọng vẫn chiếm ưu thế, ...

www.msb.com.vn/.../chung-khoan-tang-manh-ngoai-du-111oan/

Chứng khoán tăng mạnh ngoài dự đoán

Chứng khoán tăng mạnh ngoài dự đoán Chung khoan tang manh ngoai du doan.

www.shico.com/.../3849-Chung-khoan-tang-manh-ngoai-du-doan.html - 4 giờ trước đây

VnEconomy - Phí chứng khoán tăng mạnh - Chứng khoán

5 Tháng Bảy 2009 ... Kể từ ngày 1/7/2009, các mức phí áp dụng trong lĩnh vực chứng khoán tăng khá mạnh so với hiện hành.

vneconomy.vn/.../phi-chung-khoan-tang-manh.htm

Với cụm từ “Chứng khoán tăng mạnh trở lại” ta được:

Chứng khoán tăng mạnh trở lại

Sau chuỗi ngày rơi tự do, thị trường chứng khoán đã phục hồi trở lại trong phiên giao dịch sáng nay (14/12) khi các nhà đầu tư tích cực mua vào vì giá cổ ...

vietbao.vn/.../91/

VnMedia: - Kinh tế -> Ngân hàng-CKhoán/Chứng khoán tăng mạnh trở lại

14 Tháng Mười Hai 2009 ... Chứng khoán tăng mạnh trở lại · Cung ngoại tệ vẫn còn dè dặt · Tăng tốc niêm yết cuối năm · Kéo dài hỗ trợ lãi suất

trung, dài hạn đến hết ...

www.vnmedia.vn/newsdetail.asp?...

Thanh Nien Online | Chứng khoán tăng mạnh trở lại

21 Tháng Mười Hai 2009 ... 190 mã chứng khoán (CK) tăng giá trong tổng số 197 mã CK đang giao dịch trên sàn TP.HCM. Màu xanh lại tràn ngập trên bảng giá điện tử trong ...

www.thanhnien.com.vn/.../20091221231622.aspx

Tuoi Tre Online - Chứng khoán - Chứng khoán tăng mạnh trở lại

Chứng khoán tăng mạnh trở lại. TTO - Hôm nay (11-11), các chỉ số trên thị trường chứng khoán Việt Nam tăng mạnh trở lại. VN-Index lần lượt vượt qua mốc 530 ...

www.tuoitre.com.vn/.../Index.aspx?...

www.cpv.org.vn - Giá chứng khoán tăng mạnh trở lại

Giá chứng khoán tăng mạnh trở lại. 16:02 | 25/10/2007. Hôm qua

(24/10), thị trường đã đảo chiều tươi sắc xanh sau mấy phiên đậm màu đỏ.

...

www.cpv.org.vn/.../NewsDetail.aspx?...

Tin nhanh Việt Nam - Chứng khoán tăng mạnh trở lại sau quyết định ... Chứng khoán tăng mạnh trở lại sau quyết định hạ lãi suất. - Sau khi chùng lại trong phiên giao dịch đầu tháng 11, đa số cổ phiếu trên cả 2 sàn

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Chuẩn hóa và xác định mối quan hệ giữa các cụm từ, tìm và lấy thông tin liên quan đến cụm từ (Trang 33 - 58)

Tải bản đầy đủ (PDF)

(72 trang)