Từ cấu trúc các bảng chúng ta có sơ đồ quan hệ của các bảng như sau:
Hình 3.Sơ đồ quan hệ 2.3.4 Thuật toán tìm kiếm và trích rút thông tin
Phần này trình bày chi tiết thuật toán tìm kiếm và trích rút thông tin từ các bài báo trên các website phục vụ cho việc kết xuất ra báo cáo phi cấu trúc của đề tài.
Đầu vào thuật toán là chủ đề tìm kiếm và các cụm từ dùng để thăm dò cho chủ đề tìm kiếm, đầu ra thuật toán là các đoạn văn bản được trích rút từ các bài báo được tổng hợp và kết xuất thành báo cáo phi cấu trúc. Báo cáo phi cấu trúc thu được là một tệp văn bản chứa các thông tin về chủ đề tìm kiếm và các đoạn văn bản được trích rút kèm theo các thông tin về tiêu đề, tác giả.
Xuất phát từ tập hợp các cụm từ thăm dò cho một chủ đề, chúng ta thực hiện thu hẹp miền tìm kiếm bằng cách lược bỏ các cụm từ tìm kiếm không thực sự cần thiết. Đó là các cụm từ mà khi chúng ta sử dụng vào thuật toán, khả năng xuất hiện cụm từ đó trong bài viết ít dẫn đến việc không tham chiếu được đến bài viết chứa chủ đề. Để làm được điều này trong thuật toán tìm kiếm và trích rút thông tin, chúng ta ứng dụng thuật toán tìm kiếm các cụm từ thuộc lớp
“mode” để lựa chọn các cụm từ mà khả năng xuất hiện “của chúng” trong các bài viết lớn.
Sau khi đã tìm được các cụm từ thuộc vùng “mode” chúng ta thực hiện thăm dò theo các cụm từ này. Vì các cụm từ thuộc vùng “mode” nên có nhiều bài viết liên quan đến chủ đề. Do đó dẫn đến việc sẽ có nhiều địa chỉ website trùng nhau (vì có nhiều cụm từ tìm kiếm cùng cho ra bài báo trên website đó). Do đó chúng ta phải loại bỏ các địa chỉ website cùng viết về bài báo.
Ví dụ sau minh họa cho chúng ta thấy việc trùng lặp các địa chỉ website: Lấy các cụm từ “Chứng khoán tăng mạnh”, “Chứng khoán tăng mạnh trở lại”, “Chứng khoán tăng mạnh phiên đầu tuần” thực hiện tìm kiếm thông qua công cụ google và lấy 10 kết quả đầu tiên:
Với cụm từ “Chứng khoán tăng mạnh” ta được:
VnExpress - Chứng khoán tăng mạnh ngoài dự đoán - Chung khoan tang
...
Trọn tuần tăng điểm, Vn-Index tiến sát ngưỡng tâm lý quan trọng 500 điểm, với những phiên giao dịch ngày càng sôi động. - Tron tuan tang diem, Vn- Index tien ...
vnexpress.net/GL/Kinh-doanh/Chung.../12/3BA171C7/ - 10 giờ trước đây
SGGP Online- Chứng khoán tăng mạnh phiên đầu tuần
Chứng khoán tăng mạnh phiên đầu tuần. Thứ hai, 21/12/2009, 11:27 (GMT+7). (SGGPO).- Các chỉ số chứng khoán đều tăng mạnh trên cả 2 sàn giao dịch Hà Nội và ...
www.sggp.org.vn/.../212697/
Cầu chứng khoán tăng mạnh - Kinh tế - NLĐO
18 Tháng Mười Hai 2009 ... (NLĐ) - Sau khi thấy tình hình tín dụng êm trở lại, sáng 18-12, dòng tiền lại bắt đầu đổ vào thị trường, làm cho nhu cầu mua chứng khoán lên ...
www.nld.com.vn/.../cau-chung-khoan-tang-manh.htm
Chứng khoán tăng mạnh trở lại
Sau chuỗi ngày rơi tự do, thị trường chứng khoán đã phục hồi trở lại trong phiên giao dịch sáng nay (14/12) khi các nhà đầu tư tích cực mua vào vì giá cổ ...
vietbao.vn/.../91/
VnMedia: - Kinh tế -> Ngân hàng-CKhoán/Chứng khoán tăng mạnh trở lại 14 Tháng Mười Hai 2009 ... Chứng khoán tăng mạnh trở lại · Cung ngoại tệ vẫn còn dè dặt · Tăng tốc niêm yết cuối năm · Kéo dài hỗ trợ lãi suất
trung, dài hạn đến hết ...
www.vnmedia.vn/newsdetail.asp?...
Thanh Nien Online | Chứng khoán tăng mạnh
21 Tháng Mười Hai 2009 ... (TNO) Trong phiên giao dịch mở đầu tuần mới (ngày 21.12), thị trường chứng khoán Việt Nam (VN) khởi sắc trên hai sàn giao dịch khi đồng loạt ...
www.thanhnien.com.vn/.../20091221135609.aspx
Chứng khoán tăng mạnh ngoài dự đoán - Yahoo! Tin tức
26 Tháng Mười Hai 2009 ... Trọn tuần tăng điểm, Vn-Index tiến sát ngưỡng tâm lý quan trọng 500 điểm, với những phiên giao dịch ngày càng sôi động.
vn.news.yahoo.com/.../tbs-chung-khoan-tang-manh-ngoai-du-oan- d79febd.html - 5 giờ trước đây
Chứng khoán tăng mạnh ngoài dự đoán — MSB - Vietnam Maritime Joint
...
Hầu hết cổ phiếu bất ngờ bật xanh trong phiên giao dịch sáng nay nhờ lực mua bắt đáy của giới đầu tư. Nhưng tâm lý thận trọng vẫn chiếm ưu thế, ...
www.msb.com.vn/.../chung-khoan-tang-manh-ngoai-du-111oan/
Chứng khoán tăng mạnh ngoài dự đoán
Chứng khoán tăng mạnh ngoài dự đoán Chung khoan tang manh ngoai du doan.
www.shico.com/.../3849-Chung-khoan-tang-manh-ngoai-du-doan.html - 4 giờ trước đây
VnEconomy - Phí chứng khoán tăng mạnh - Chứng khoán
5 Tháng Bảy 2009 ... Kể từ ngày 1/7/2009, các mức phí áp dụng trong lĩnh vực chứng khoán tăng khá mạnh so với hiện hành.
vneconomy.vn/.../phi-chung-khoan-tang-manh.htm
Với cụm từ “Chứng khoán tăng mạnh trở lại” ta được:
Chứng khoán tăng mạnh trở lại
Sau chuỗi ngày rơi tự do, thị trường chứng khoán đã phục hồi trở lại trong phiên giao dịch sáng nay (14/12) khi các nhà đầu tư tích cực mua vào vì giá cổ ...
vietbao.vn/.../91/
VnMedia: - Kinh tế -> Ngân hàng-CKhoán/Chứng khoán tăng mạnh trở lại
14 Tháng Mười Hai 2009 ... Chứng khoán tăng mạnh trở lại · Cung ngoại tệ vẫn còn dè dặt · Tăng tốc niêm yết cuối năm · Kéo dài hỗ trợ lãi suất
trung, dài hạn đến hết ...
www.vnmedia.vn/newsdetail.asp?...
Thanh Nien Online | Chứng khoán tăng mạnh trở lại
21 Tháng Mười Hai 2009 ... 190 mã chứng khoán (CK) tăng giá trong tổng số 197 mã CK đang giao dịch trên sàn TP.HCM. Màu xanh lại tràn ngập trên bảng giá điện tử trong ...
www.thanhnien.com.vn/.../20091221231622.aspx
Tuoi Tre Online - Chứng khoán - Chứng khoán tăng mạnh trở lại
Chứng khoán tăng mạnh trở lại. TTO - Hôm nay (11-11), các chỉ số trên thị trường chứng khoán Việt Nam tăng mạnh trở lại. VN-Index lần lượt vượt qua mốc 530 ...
www.tuoitre.com.vn/.../Index.aspx?...
www.cpv.org.vn - Giá chứng khoán tăng mạnh trở lại
Giá chứng khoán tăng mạnh trở lại. 16:02 | 25/10/2007. Hôm qua
(24/10), thị trường đã đảo chiều tươi sắc xanh sau mấy phiên đậm màu đỏ.
...
www.cpv.org.vn/.../NewsDetail.aspx?...
Tin nhanh Việt Nam - Chứng khoán tăng mạnh trở lại sau quyết định ... Chứng khoán tăng mạnh trở lại sau quyết định hạ lãi suất. - Sau khi chùng lại trong phiên giao dịch đầu tháng 11, đa số cổ phiếu trên cả 2 sàn chứng khoán ...
tinnhanhvietnam.net/chung-khoan-tang-manh-tro-lai-sau-quyet-dinh-ha-lai- suat.html
Chứng khoán tăng mạnh trở lại
Chứng khoán tăng mạnh trở lại. 14/12/09. Sau chuỗi ngày rơi tự do, thị trường chứng khoán đã phục hồi trở lại trong phiên giao dịch sáng nay (14/12) khi các ...
nganhangonline.com/chung-khoan-tang-manh-tro-lai-5998.html –
Chứng khoán tăng mạnh trở lại - Thông tin liên quan - 9/8/2009 ...
8 Tháng Chín 2009 ... (TNO) Sau 3 phiên điều chỉnh theo chiều hướng giảm với áp lực bán mạnh mẽ, hôm nay (8.9) thị trường chứng khoán Việt Nam đã tăng trở lại.
www.baomoi.com/Info/Chung-khoan-tang-manh-tro-lai/.../3181377.epi
DailyInfo - Chứng khoán tăng mạnh trở lại
21 Tháng Mười Hai 2009 ... DailyInfo.vn là nơi mà bạn có thể tìm kiếm, chia sẻ và đánh giá những nội dung từ tất cả các báo điện tử và các blogs hàng đầu Việt Nam.
dailyinfo.vn/2-22-78064-Chung-khoan-tang-manh-tro-lai.html
11 Tháng Mười Một 2009 ...Chứng khoán tăng mạnh trở lại Sau khi giảm mạnh hai phiên liên tiếp, VN-Index đã nỗ lực hết sức để lấy lại phong độ khi tăng mạnh 13,19 điểm ...
www.tin247.com/chung_khoan_tang_manh_tro_lai-3-21509902.html
Với cụm từ “Chứng khoán tăng mạnh phiên đầu tuần” ta được: SGGP Online- Chứng khoán tăng mạnh phiên đầu tuần
SGGP - Sai Gon Giai Phong Online - Bao Sai Gon Giai Phong - Báo SÀI GÒN GIẢI PHÓNG.
www.sggp.org.vn/.../212697/
Chứng khoán tăng mạnh phiên đầu tuần
Kết thúc phiên giao dịch sáng 26/11, chỉ số VN-Index tăng mạnh 15,46 điểm lên 991,38 điểm. Ket thuc phien giao dich sang 26/11, chi so VN- Index tang manh 15 ...
vietbao.vn/.../91/
Chứng khoán tăng mạnh phiên đầu tuần - Thông tin liên quan - 8/10 ...
10 Tháng Tám 2009 ... (TNO) Phiên đầu tuần hôm nay (10.8), thị trường chứng khoán Việt Nam khởi sắc trở lại khi cả hai sàn giao dịch cùng tăng điểm khá mạnh.
www.baomoi.com/Info/Chung-khoan-tang-manh-phien.../3046212.epi
Chứng khoán tăng mạnh phiên đầu tuần - Thông tin liên quan - 8/24 ...
24 Tháng Tám 2009 ... (TNO) Tiếp nối đà tăng khá tốt từ cuối tuần trước, thị trường chứng khoán Việt Nam tiếp tục tăng điểm trên hai sàn giao dịch trong phiên hôm ...
www.baomoi.com/Info/Chung-khoan-tang-manh-phien.../3119352.epi
VnEconomy - Chứng khoán tăng mạnh phiên đầu tuần - Chứng khoán Thị trường mở đầu một tuần mới với một phiên tăng mạnh. Nhưng đây cũng sẽ là một tuần dự báo có những diễn biến mới.
vneconomy.vn/.../chung-khoan-tang-manh-phien-dau-tuan.htm
Chứng khoán tăng mạnh phiên đầu tuần | Xa lộ Tin tức
(TNO) Phiên đầu tuần hôm nay (10.8), thị trường chứng khoán Việt Nam khởi sắc trở lại khi cả hai sàn giao dịch cùng tăng điểm khá mạnh.
tintuc.xalo.vn/.../chung_khoan_tang_manh_phien_dau_tuan_nbsp.html
Ngày 10/8: HNX-Index tăng mạnh phiên đầu tuần | Xa lộ Tin tức
... TTCK 10/8: Sự chiếm ngôi của các cổ phiếu Pennychips · VN-Index vượt ngưỡng 490 điểm · Chứng khoán tăng mạnh phiên đầu tuần · Hoạt hình: Chuyến đi săn ...
Vàng giảm sau khi tăng mạnh phiên đầu tuần (04-11-2008); Chứng khoán giảm điểm phiên cuối tuần (18-07-2008); Chứng khoán tăng mạnh phiên đầu tuần ...
www.vnchannel.net/.../chung-khoan-phien-dau-tuan-tang-diem- manh.166624.html
Tuoi Tre Online - Chứng khoán - Bán nhiều nhưng mua mạnh hơn
... Kết quả giao dịch chứng khoán ngày 14-7-2008 - (14/07) · Chứng khoán tăng mạnh phiên đầu tuần - (14/07) · Chứng khoán: ba tuần tăng gần 25% - (13/07) ...
www.tuoitre.com.vn/.../Index.aspx?...
Chứng khoán Âu, Mỹ tăng mạnh phiên cuối tuần | Tin Cuoi Ngay - Beta Chứng khoán châu Á tăng mạnh phiên đầu tuần · Chứng khoán tăng mạnh phiên cuối tuần · Chứng khoán tăng mạnh phiên đầu tuần · Chứng khoán thế giới tăng điểm ...
www.tincuoingay.com/chung+khoan+au,+my+tang+manh+phien+cuoi+tuan .156409.html
Từ kết quả trả về của công cụ tìm kiếm google chúng ta thấy với các cụm từ “Chứng khoán tăng mạnh”, “Chứng khoán tăng mạnh trở lại” có cùng các bài viết http://vietbao.vn/Kinh-te/Chung-khoan-tang-manh-tro-lai/65184034/91/ và http://www6.vnmedia.vn/newsdetail.asp?NewsId=182356&CatId=25.
Với các cụm từ “Chứng khoán tăng mạnh”, “Chứng khoán tăng mạnh phiên đầu tuần” có cùng bài viết
http://www.sggp.org.vn/taichinhnganhangchungkhoan/2009/12/212697/
Như vậy chúng ta phải loại bỏ các bài viết trùng nhau và chỉ giữ lại một để thực hiện trích rút thông tin. Điều này đảm bảo rằng không có bài viết được truy xuất hai lần trở lên.
Sau khi loại bỏ các liên kết trùng nhau chúng ta thực hiện truy xuất vào từng bài báo để thực hiện trích rút thông tin. Việc truy xuất vào các bài báo để lấy thông tin có thể trùng nhau bởi vì nội dung các bài báo đó có thể được sao chép từ các website. Do đó nếu chúng ta tìm được các đoạn văn bản liên quan, thì phải thực hiện phải sao chép các thông tin liên đới với cụm từ đã cho như nội dung, tác giả, địa chỉ, ngày viết,… ra một tệp văn bản.
Khi truy xuất vào các bài báo tiếp theo để đảm bảo thông tin tổng hợp không bị trùng nhau và là thông tin mới nhất chúng ta thực hiện so sánh các thông tin tiêu đề, tác giả, ngày viết với tệp văn bản đã lưu và thực hiện lấy bài đăng muộn nhất. Nếu cả 3 thông tin tiêu đề, tác giả, ngày viết trùng nhau thì không lấy thông tin đó nữa.
a. Tóm tắt thuật toán
1) Nhập chủ đề và cụm từ.
2) Thống kê các bài viết trên mạng liên quan đến chủ đề.
3) Thống kê các bài viết trên mạng liên quan đến các xâu tìm kiếm liên quan đến chủ đề.
4) Tìm lớp mode.
5) Giữ lại các xâu thuộc lớp mode trong bảng cụm từ. 6) Loại bỏ các bài viết trùng nhau.
7) Từ quan hệ TimKiem chúng ta biết được các mã chủ đề khác nhau cần tìm kiếm thông tin để tổng hợp.
8) Thông qua kết nối ChuDeTimKiem, chúng ta biết được chủ đề.
9) Thông qua kết nối TimKiemCumTu, chúng ta biết được các cụm từ tương ứng với chủ đề.
10) Nếu thông tin được tập trung vào tệp văn bản phục vụ báo cáo phi cấu trúc thì:
Đoạn văn bản tìm được có chứa cụm từ cùng với các thông tin liên quan được nối vào tệp văn bản đã cho và lưu lại. Ngược lại, để lưu thông tin vào CSDL phục vụ cho báo cáo có cấu trúc thì: Thông qua kết nối TimKiemTongHop, chúng ta đưa các thông tin liên quan vào các trường tương ứng của bảng TongHop. Cụ thể là ghi các thông tin tương ứng vào các trường: MaChuDe, DC_Website, DC_KetNoi, NgayTruyCap, TieuDeBaiViet, NoiDungTK, NgayPhatHanh, TacGia,…
Khi các đoạn văn bản có chứa cụm từ được tìm thấy trên một bài viết tại một Website nào đó thì các thông tin liên quan đến đoạn văn bản này sẽ được nối thêm vào nội dung đã có của tệp văn bản, đồng thời chúng cũng được lưu vào các quan hệ của CSDL đã trình bày ở trên. Nội dung của tệp văn bản thu được có thể sử dụng để tạo ra các báo cáo phi cấu trúc, còn các tệp trong CSDL sẽ được dùng để tạo ra các báo cáo có cấu trúc.
b. Nội dung thuật toán
Vào: Quan hệ TimKiem (từ thuật toán tìm lớp mode)
Ra: Các tệp Text.txt và quan hệ TongHop
„Sao các giá trị khác nhau của MaChuDe từ quan hệ TimKiem sang mảng „arrMaChuDe
„iCD là số phần tử của mảng arrMaChuDe iCD = Count(arrMaChuDe)
„Khởi tạo biến đếm i
i = 0
„Vòng lặp thực hiện duyệt lần lượt các chủ đề
For i = 1 To iCD
„Tạo tệp văn bản để lưu chữ thông tin tổng hợp cho chủ đề
CreateFile(text&i)
„Sao các cụm từ ứng với arrMaChuDe(i) từ quan hệ CumTu sang mảng „arrCumTu
COPY(CumTu, arrCumTu)
„iCT là số phần tử của mảng arrCumTu
iCT = Count(arrCumTu)
„Khai báo Collection có tên là DIACHI để chứa các địa chỉ website có „chứa cụm từ
Collection DIACHI
„Gom các địa chỉ Website có chứa cụm từ.
For j = 1 To iCT
„Lưu các địa chỉ Website có chứa cụm từ trong arrCumTu(j) vào „DIACHI
For Each Addess_Element In DIACHI Do
„Truy cập vào bài viết có chứa cụm từ thuộc Website có địa chỉ „Address_Element
DO
If <Bài viết chưa được truy cập>
„Ghi các thông tin vào quan hệ TongHop „Ghi mã chủ đề vào MaChuDe
„Ghi địa chỉ Website vào DC_Website „Ghi địa chỉ kết nối vào DC_KetNoi „Ghi ngày truy cập vào NgayTruyCap „Ghi tiêu đề bài viết vào TieuDeBaiViet „Ghi nội dung bài vào NoiDungTK
„Ghi ngày phát hành vào NgayPhatHanh „Ghi tên tác giả vào TacGia
INSERT(MaChuDe, DC_Website, DC_KetNoi, NgayTruyCap, TieuDeBaiViet, NoiDungTK, NgayPhatHanh, TacGia)
End If
„Ghi các thông tin TieuDeBaiViet , NoiDungTK, „NgayPhatHanh, TacGia ra tệp text
text & i += TieuDeBaiViet + NoiDungTK + NgayPhatHanh
+ TacGia
WHILE <Còn bài viết> NextAddress_Element
Next j Next i
„Kết thúc thuật toán
Giải thích một số biến trong thuật toán:
arrMaChuDe: Mảng mã chủ đề dùng để lưu thông tin về các chủ đề
iCD: là số phần tử của mảng arrMaChuDe i,j: là các biến đếm sử dụng trong các vòng lặp
arrCumTu: là mảng lưu chữ các cụm từ tìm kiếm
iCT: là số phần tử của mảng arrCumTu
DIACHI: là tập hợp dùng để chứa các địa chỉ website có chứa cụm từ.
MaChuDe, DC_Website, DC_KetNoi, NgayTruyCap, TieuDeBaiViet,
NoiDungTK, NgayPhatHanh, TacGia: là các trường trong quan hệ TongHop.
c. Mệnh đề
Từ thuật toán đã trình bày ở trên chúng ta rút ra được các kết luận sau: i. Các thuật toán kết thúc sau một số hữu hạn vòng lặp.
ii. Có thể kết xuất văn bản theo các chỉ tiêu như chủ đề, theo các trường diễn giải hoặc kết hợp giữa các chỉ tiêu này một cách dễ dàng.
d. Chứng minh
Mục này sẽ thực hiện chứng minh hai mệnh đề i và ii.
i. Do số Website và địa chỉ E-Mail là hữu hạn, số trường diễn giải và số bản