Gán nhãn dữ liệu

Một phần của tài liệu Nghiên cứu công nghệ khai phá dữ liệu văn bản áp dụng cho các trang tin tức trên các thiết bị cầm tay (PDAS & SMARTPHONES).PDF (Trang 34)

Kết quả của bước Khớp dữ liệu là một tập hợp các text pasages có thứ tự, mỗi một text-pasage chính là một tập hợp các đỉnh mà được đại diện bởi một

Kênh tin tức điện tử cho các thiết bị cầm tay

36

wildcard trong ne-pattern. Chúng ta có thể xác định lại các tập hợp này như sau: T = (t1, p1), (t2, p2),…, (tn, pn) với ti là text-pasage được lấy bởi wildcard và pi là vị trí đỉnh của wildcard này.

Mục đích của bước Gán nhãn dữ liệu (Data Labeling) là lựa chọn từ T hai giá trị ti, tj là tiêu đề và nội dung của tin tức. Để làm được việc này, cần thực hiện một luật heuristic trên tập hợp T như sau:

+ length(ti) là số từ trong pasage ti.

+ ti tk là số từ xuất hiện trong pasage ti và tk

+ ti là nội dung tin khi và chỉ khi length(ti) > length(tk) với mọi 1<k<n (ki) và length(tk) >100.

+ tj là tiêu đề của tin tức khi và chỉ khi 1  length(ti)  20 và

i k i k i j i j p p t t p p t t      với mọi 1<k< j (kj).

Kênh tin tức điện tử cho các thiết bị cầm tay

37

CHƢƠNG 3 . PHÂN TÍCH THIẾT KẾ HỆ THỐNG

3.1.Giới thiệu

Hệ thống kênh tin tức điện tử cho thiết bị cầm tay được thiết kế theo mô hình CSDL quan hệ, công cụ được sử dụng ở đây là phần mềm Dezign for Database version 3.4 (chi tiết tham khảo http://datanamic.com). Đây là phần mềm thiết kế cơ sở dữ liệu rất gọn nhẹ và trực quan phù hợp với mọi bài toán có kích thước khác nhau, đặc biệt là phù hợp với hệ thống cơ sở dữ liệu cho Kênh tin tức điện tử trên thiết bị cầm tay. Hệ thống sử dụng hệ quản trị MySQL, đây là một hệ quản trị cơ sở dữ liệu mã nguồn mở phổ biến nhất hiện nay. MySQL có ưu thế gọn nhẹ, bảo mật và tốc độ truy xuất cao, đặc biệt thích hợp với các hệ thống ứng dụng trên Web. Các module hệ thống được thiết kế theo mô hình UML 2.0 bằng chương trình Enterprise Architect 6.1 (chi tiết tham khảo: http://www.sparxsystems.com.au).

Kênh tin tức điện tử cho các thiết bị cầm tay

38

Một phần của tài liệu Nghiên cứu công nghệ khai phá dữ liệu văn bản áp dụng cho các trang tin tức trên các thiết bị cầm tay (PDAS & SMARTPHONES).PDF (Trang 34)