Khai phá dữ liệu văn bản

Khai phá dữ liệu văn bản: là một quá trình trích chọn ra các tri thức mới, có giá trị và tác động đƣợc đang tiềm ẩn trong các văn bản để sử dụng các tri thức này vào việc tổ chức thông tin tốt hơn nhằm hỗ trợ ngƣời dùng. Ta có kiến trúc điển hình của hệ thống khai phá dữ liệu sau:

Cơ sở dữ liệu World Wide Các kho chứa dữ liệu khai thác Kho dữ liệu Web

Cơ sở tri thức

Làm sạch dữ liệu và tích hợp dữ liệu Lọc dữ liệu Phục phụ cơ sở dữ liệu hoặc kho dữ liệu

Giao diện đồ họa ngƣời dùng

Đánh giá mẫu

Thành phần khai phá dữ liệu

Hình 2.5 Mô hình kiến trúc hệ thống khai phá dữ liệu văn bản

Về bản chất của khai phá dữ liệu văn bản là sự kết hợp của khai phá dữ liệu và xử lý ngôn ngữ tự nhiên, quá trình khai phá dữ liệu văn bản là cụ thể hóa quá trình khai phá dữ liệu đối với dữ liệu văn bản, với giả thiết đã xác định đƣợc: một là bài toán khai phá dữ liệu văn bản, hai là miền dữ liệu văn bản thuộc miền ứng dụng, quá trình khai phá dữ liệu văn bản thực hiện qua các bƣớc sau:

 Thu thập dữ liệu văn bản thuộc miền ứng dụng, cụ thể ở đây là các bài báo trên Web liên quan tới gốm sứ Việt nam..

 Biểu diễn dữ liệu văn bản thu thập đƣợc sang khuôn dạng phù hợp với bài toán khai phá văn bản.

 Lựa chọn tập dữ liệu đầu vào cho bài toán khai phá dữ liệu

 Thực hiện thuật toán khai phá dữ liệu đối với tập dữ liệu đã đƣợc lựa chọn để tìm ra các mẫu, các tri thức.

 Thực hiện khai thác sử dụng các mẫu, các tri thức nhận đƣợc từ quá trình khai thác văn bản vào thực tiễn hoạt động.

Để khai phá dữ liệu văn bản ngƣời ta sử dụng một vài bài toán khai phá điển hình nhƣ: Tìm kiếm, phân tích ngữ nghĩa, phân cụm, phân lớp, trích trọn đặc trƣng, tóm tắt văn bản…

Bài toán trích rút quan hệ: là một trong những bài toán quan trọng trong lĩnh vực khai phá tri thức mang tầm vóc lớn, vì ứng dụng của nó rất đa dạng. Ngoài việc làm giàu thêm lƣợng thông tin, nó còn đƣợc xem là một phƣơng pháp hiệu quả để đƣa ra phƣơng pháp xử lý cho các hệ thống nhƣ: hệ thống hỏi đáp, xây dựng cơ sở tri thức, phát hiện ảnh qua đoạn văn bản…

Các phƣơng pháp trích rút quan hệ ngữ nghĩa đã đƣợc đề xuất khá phong phú, từ phƣơng pháp học thống kê, có giám sát dựa trên dữ liệu đã gán nhãn, hay các phƣơng pháp dựa trên luật học bán giám sát….

Để rút trích quan hệ ngữ nghĩa trong văn bản ta có thể tham khảo và áp dụng một số phƣơng pháp Phƣơng pháp DIPRE: Năm 1988, Sergey Brin đã giới thiệu phƣơng pháp học bán giám sát, đặt tên là DIPRE, cho việc trích rút quan hệ ngữ nghĩa. Phƣơng pháp này đƣợc thử nghiệm để trích mối quan hệ “tác giả” và “ cuốn sách”, với tập dữ liệu ban đầu khoảng 5 ví dụ cho mỗi mẫu quan hệ. Hệ thống DIPRE mở rộng tập ban đầu thành một danh sách khoảng 1500 cuốn sách.

Phương pháp DIRPE có thể được mô tả như sau:

Đầu vào: Tập các mẫu quan hệ S= {<Tácgiải, Sáchi>}, tập dữ liệu D;

Đầu ra: Tập R các quan hệ trích rút đƣợc

 Bƣớc 1. RS

Tập đích đƣợc khởi tạo từ tập mồi S. Tập mẫu quan hệ S có thể là rất nhỏ

 Bƣớc 2. OFindOccurrences(R’,D).

Tìm tất cả các xuất hiện trong mẫu quan hệ của tập dữ liệu D;  Bƣớc 3. RGenPatterns(O)

Dựa vào tập câu đã tìm đƣợc, tiến hành tìm các mẫu quan hệ giữa các thành phần của mẫu quan hệ ban đầu, Sergey Brin định nghĩa ban đầu rất đơn giản, bằng việc giữ lại m ký tự trƣớc thành phần mẫu quan hệ đầu tiên, giữ lại phía sau thành phần thứ hai n ký tự, và k ký tự nằm giữa hai thành phần này là m. Bằng một

phƣơng pháp đơn giản để giữ lại các phần đầu, phần giữa và phần cuối phổ biến (Xuất hiện nhiều lần trong dữ liệu). Kết quả nhận đƣợc biểu diễn dƣới dạng:

o [1, phần đầu, phần cuối, phần giữa], thì Tác giả đứng trƣớc sách.

o [0, phần đầu, phần cuối, phần giữa], thì tác giả đứng sau sách.

 Bƣớc 4. R’MD(O)

Từ tập mẫu mới thu nhận đƣợc ta có thể trích rút các cặp quan hệ <Tác giả, Sách> mới trong tập dữ liệu D, bổ sung các cặp quan hệ thu đƣợc vào R;

 Bƣớc 5. Khi R đủ lớn thì dừng lại, ngƣợc lại quay lại bƣớc 2 để tìm những cặp quan hệ và mẫu mới.

Phương pháp Snowball

Snowboll: là hệ thống trích rút mối quan hệ dựa trên một tập nhỏ dữ liệu mẫu quan hệ làm nhân, Trong quá trình thực hiện mẫu và tập quan hệ mới đƣợc sinh ra cần đánh giá chất lƣợng. Giải thuật đƣợc thực nghiệm trên mối quan hệ “tổ chức-địa điểm”, thể hiện trụ sở chính của tổ chức có vị trí thuộc “địa điểm” với mẫu quan hệ ban đầu nhƣ Microsoft-Redmond, IBM-Armonk, Boeing-seatile, Intel –Santa Santa clara.

Nội dung cơ bản của phƣơng pháp Snowball

Đầu vào: Một tập văn bản D (tập huấn luyện); tập nhân mẫu quan hệ d ban đầu S gồm các cặp mẫu quan hệ nào đó. Mỗi cặp quan hệ gồm hai thực thể A và B có quan hệ dạng: <A, B> hay <thực thể 1, thực thể 2>, nhƣ vậy S= {<Ai, Bi>};

Đầu Ra: Tập R là các quan hệ rút trích đƣợc;

 Bƣớc 1: Tìm sự xuất hiện của các cặp quan hệ trong dữ liệu R=S;

Với mỗi cặp quan hệ <A, B> trong S, tìm trong D tất cả các câu có chứa cả A và B. Tiến hành phân tích, chọn lọc và rút trích các mẫu, một câu khớp với biểu thức *A*B* thì cụm từ đứng trƣớc A gọi là Trái, cụm từ đứng giữa A và B gọi là Giữa và cụm từ đứng sau B gọi là Phải

 Bƣớc 2: Tìm sự xuất hiện của các thực thể trong dữ liệu

Tiến hành phân cụm tập mẫu, Snowball sử dụng hàm Match để tính độ tƣơng đồng giữa các mẫu và xác định ngƣỡng tƣơng đồng tsin cho việc gom cụm nhằm

làm giảm số lƣợng các mẫu cũng nhƣ làm cho mẫu có tính khái quát hơn. Độ tƣơng đồng giữa hai mẫu đƣợc biểu diễn bởi hàm Match (mẫu 1, mẫu 2):

Match(mẫu1, mẫu2) = (wTrái1,wTrái2)+(wGiữa1.wGiữa2)+(wPhải1.wPhải2) Các mẫu sau khi tìm thấy đƣợc dùng để trích rút các cặp quan hệ mới trong D, sau đó đối chiếu từng cặp quan hệ mới tìm thấy <A’, B’> với tập R để kiểm tra chất lƣợng của mẫu, từ đó chọn mẫu mới có độ chính xác cao, cặp quan hệ mới <A’, B’> thuộc một trong các trƣờng hợp sau:

Positive: Nếu <A’,B”> đã nằm trong tập R;

Negative: Nếu <A’,B’> chỉ có đúng một trong hai (A’, hoặc B’) xuất hiện trong tập R;

Unknown: nếu <A’, B’>, cả hai đều không xuất hiện trong tập R. Tập Unknown đƣợc xem là tập các quan hệ mới trong vòng lặp sau.

 Bƣớc 3: sinh mẫu mới

Snowball có độ chính xác của từng mẫu dựa trên số Positve và Negative của nó và chọn ra N mẫu có điểm cao nhất.

 Bƣớc 4: Tìm các Mẫu quan hệ D mới.

Với mỗi mẫu trong danh sách tốp N thu nhận lại đƣợc bổ sung vào tập mẫu để trích rút tập R’ các cặp quan hệ mới trong tập dữ liệu D. Bổ sung các tập quan hệ vào R: R=R hợp R’; để làm tăng tính chính xác cho hệ thống, các cặp trong quan hệ R’ đƣợc đánh giá để lựa chọn ra M cặp đƣợc đánh giá tốt nhất và M cặp này đƣợc dùng làm mẫu quan hệ cho quá trình rút mẫu kế tiếp, Hệ thống tiếp tục quay lại bƣớc 1. Quá trình trên tiếp tục lặp cho đến khi Hệ thống không tìm đƣợc cặp mới hoặc lặp theo số lần mà ta xác định trƣớc. Sau đây là thủ tục sinh mẫu mới của phƣơng pháp Snowball:

Sub GenerateTuples (Patterns)

Foreach text_segment in corpus

(1) {<o, l>, <ls, t1, ms, t2, rs>}=CreateOccurence (text_segment);

Tc=<o, l>; Sim Best=0; Foreach p in Patterns (2) sim = Match (<ls,t1,ms, t2, rs>, p); If (sim ≥ T sim) (3) UpdatePatternSelectivity (p, TC);

Sim Best= sim;

P Best =p;

If (Sim Best≥ Tsim)

CandidateTuples[TC]. Patterns [PBest] = SimBest;

Return CandidatetTuples

Bảng 2.1 Thủ tục sinh mẫu mới của phƣơng pháp Snowball

Dựa vào hai phƣơng pháp trên, ta có thể thiết kế thử nghiệm một hệ thống CSDL dạng hỏi đáp các loại gốm sứ cổ truyền Việt nam và tác giả bài báo, ví dụ nhƣ sau:

Mối quan hệ Phần đầu của mẫu quan hệ Phần cuối của mẫu quan hệ

<gốm sứ, tácgiả> Gốm sứ Bát tràng Hồ Chí Minh

<gốm sứ, tácgiả> Gốm sứ Chu đậu Nam cao

<gốm sứ, tácgiả> ….. …

Mối quan hệ Mẫu tổng quát

<Gốm sứ, tác giả> <Gốm sứ> gốm sứ của <tác giả> <Gốm sứ, tác giả> <Gốm sứ> gốm sứ của <tác giả>

<Gốm sứ, tác giả>

Bảng 2.3 Một số mẫu tổng quát

Câu hỏi Xử lý câu hỏi và rút ra

câu trả lời Câu trả lời Tập hợp dữ liệu Rút ra mẫu và Tuples Hình 2.6 Mô hình hệ thống CSDL dạng hỏi đáp Tập quan hệ mẫu mồi Thu thập dữ liệu Tập các trang web chứa tập quan hệ mẫu

Tập câu chứa quan hệ mẫu Gán nhãn tổng quát Mẫu thô Phân cụm mẫu Mẫu kết quả Sinh quan hệ mẫu mới Tập quan hệ mẫu mới Kho quan

Hệ mẫu Kho mẫu

Tiền xử lý

Quy trình thiết kế CSDL được thực hiện như sau:

Đầu vào: Tập các quan hệ nhân ban đầu, các quan hệ gồm cặp thực thể gồm hai thành phần <chuyên mục gốm sứ, tác giả >, <tác giả, tên bài báo>, <chuyên mục gốm sứ, tên bài báo>

Đầu ra: CSDL gồm tập các cặp quan hệ trích rút đƣợc và tập các mẫu trích rút  Bƣớc 1: Thu thập dữ liệu

Tận dụng miền tri thức nền lớn từ các máy tìm kiếm nhƣ Google, Yahoo,…với đầu vào là tập mẫu ban đầu đƣợc xây dựng bằng tay, thông qua máy tìm kiếm ta tìm đƣợc một tập các trang Web có chứa đầy đủ hai thành phần của tập mẫu quan hệ này.

 Bƣớc 2: Tiền xử lý.

 Loại bỏ thẻ HTML, lấy nội dung chính của trang Web.

 Tách câu, tách từ, tìm các cặp từ là hai thành phần của qua hệ mẫu.

 Mở rộng tập thực thể cho từng mối quan hệ thực thể ban đầu

 Bƣớc 3: Gán nhãn tổng quát

 Từ tập thực thể mở rộng, ứng với mỗi cặp thực thể ta tiến hành gán nhãn cho cặp thực thể đó.

 Xác định thành phần trái, thành phần phải, thành giữa của các thực thể cho các thực thể đƣợc gán nhãn, dựa vào tập câu thu đƣợc

 Biểu diễn thành phần trái, thành phần phải, thành giữa dƣới dạng vector, ta có đƣợc tập mẫu thô.

 Bƣớc 4: Phân cụm mẫu.

 Tiến hành so khớp các thành phần trái, thành phần phải, thành giữa giữa các mẫu thô để loại bỏ các mâu thô trùng

 Xác định các mẫu quan hệ đƣợc thực hiện bằng phân cụm mẫu thô. Mỗi cụm đại diện bởi một mẫu và quá trình phân cụm đƣợc thực hiện nhƣ sau: với những mâu thô đƣợc sinh ra

 Nếu độ tƣơng đồng vƣợt qua một ngƣỡng xác định, thì mẫu thô đó thuộc vào nhóm có độ tƣơng đồng cao nhất. Ngƣợc lại mẫu đó thuộc đại diện cho một nhóm mới đƣợc sinh ra

 Bƣớc 5. sinh ra mẫu quan hệ mới

 Những mẫu tổng quát đã nhận đƣợc là đầu vào cho CSDL để tìm ra tập

câu có chứa các mẫu đó.Nhận dạng thực thể có chứa trong tập câu dựa vào các thực thể mở rộng.

 Kiểm tra độ tin cậy của các mẫu qua hệ mới đƣợc sinh ra. Những mẫu

quan hệ vƣợt qua một giá trị ngƣỡng thì giữ chúng lại.

 Quay lại bƣớc 1, sử dụng tập quan hệ mẫu mới nhận đƣợc cùng với tập mẫu quan hệ ban đầu đƣa vào CSDL để tiến hành sinh tập mẫu quan hệ mới và tìm thêm tập mẫu quan hệ mới cho mối quan hệ đó, vòng lặp dừng khi mẫu quan hệ mới hoặc mẫu mới không còn đƣợc tiếp tục sinh ra.

2.4. Kết luận

Qua việc trình bày về kiến trúc chung về cơ sở dữ liệu, kiến trúc CSDL văn bản, những nội dung liên quan tới gốm sứ cổ truyền Việt nam, những chức năng cơ bản của cơ sở dữ liệu văn bản, từ đó ta thấy đƣợc mức độ cần thiết của CSDL văn bản liên quan tới gốm sứ cổ truyền Việt nam trong công tác giảng dạy tại Học viện Báo chí và Tuyên truyền. Đồng thời dựa vào các khái niệm, quá trình khai phá dữ liệu để ta tiến hành tìm hiểu về khai phá, thiết kế CSDL văn bản liên quan tới gốm sứ cổ truyền phục phụ cho công tác dạy học tại Học viên.

Chƣơng 3: KHAI THÁC CƠ SỞ DỮ LIỆU VỀ GỐM SỨ CỔ TRUYỀN TRONG CÔNG TÁC GIẢNG DẠY

TẠI HỌC VIỆN BÁO CHÍ VÀ TUYÊN TRUYỀN 3.1. Hạ tầng công nghệ thông tin tại Học viện

Hiện nay hạ tầng công nghệ thông tin tại Học viện Báo chí và Tuyên truyền có các thiết bị CNTT nhƣ:

 Máy chủ: đặt tại trung tâm thông tin khoa học của Học viện;

 Các cáy tính bộ phân đƣợc đƣa vào sử dụng ở các phòng, ban, phòng học;

 Máy in, máy quét, máy photocopy đƣợc trang bị đầy đủ tại các phòng, ban, Camera giám sát đƣợc lắp đặt ở các phòng học.

 Hệ thống mạng đƣợc kết nối với đƣờng truyền có băng thông lớn.

 Có đầy đủ trang thiết bị cho các hệ thống báo cháy, hệ thống điều hòa nhiệt độ, hệ thống khóa, bảo mật cao.

Tuy nhiên do điều kiện kinh tế còn hạn chế, hạ tầng công nghệ thông tin tại Học viện thiếu nhiều những trang thiết bị hiện đại, việc nâng cấp, sửa chữa trang thiết bị kịp thời để phục vụ tốt hơn nhu cầu dạy và học còn chậm. Đây là vấn đề quan trong cần đƣợc Học viện quan tâm, để thực hiện tốt công tác đào tạo, nghiên cứu khoa học của Học viện trong thời kỳ hội nhập hiện nay và trong tƣơng lai.

3.2. Một số môn học liên quan tới Gốm sứ cổ truyền

Hình ảnh Gốm sứ cổ truyền của một nƣớc là sự thể hiện một phần rất lớn nền văn hóa của một nƣớc, chính vì vậy ta phải bảo vệ, tôn tạo và phát triển ngành gốm sứ cổ truyền. Để làm đƣợc điều này ngoài các bộ phận, các cơ quan có liên quan tới việc bảo vệ, tôn tạo và phát triển gốm sứ, ngành giáo dục cũng phải chú trong nhiều hơn nữa các môn học có liên qua nhƣ:

 Kỹ thuật gốm sứ;

 Chuyên ngành Vật liệu và Công nghệ Vật liệu Xây dựng;

 Cấu trúc và tính chất của vật liệu Silicat;  Công nghệ Vật liệu Chịu lửa;

 Công nghệ Thủy tinh;  Phát thanh-truyền hình;  Báo chí;  Văn hóa học,  Ngôn ngữ học.  …

3.3. Thiết kế chi tiết của cơ sở dữ liệu văn bản liên quan tới Gốm sứ cổ truyền Gốm sứ cổ truyền

3.3.1. Công cụ Olap trong SQL Server 2005

OLAP: là một kỹ thuật sử dụng các thể hiện dữ liệu đa chiều gọi là các khối nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu trong kho dữ liệu, OLAP tạo khối cho dữ liệu bằng các bảng chiều và bảng sự kiện, cung cấp khả năng thực hiện các truy vấn và phân tích cho các ứng dụng máy khách.

Trong khi kho dữ liệu lƣu trữ dữ liệu cho phân tích, thì OLAP là kỹ thuật cho phép các ứng dụng máy khách truy xuất hiệu quả dữ liệu này, OLAP cung cấp nhiều lợi ích cho ngƣời phân tích nhƣ:

 Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa chọn, định hƣớng và khám phá dữ liệu;

 Cung cấp một ngôn ngữ truy vấn, phân tích;

 Dữ liệu đƣợc tính toán trƣớc đối với các truy vấn thƣờng xuyên, nhằm làm cho thời gian trả lời nhanh đối với các truy vấn đặc biệt.

 Cung cấp các công cụ mạnh, giúp ngƣời dùng tạo các khung nhìn mới của dữ liệu dựa trên một tập các hàm tính toán đặc biệt.

Ứng dụng OLAP: OLAP đƣợc đặt ra để xử lý các truy vấn liên quan đến

Công cụ Olap trong SQL Server 2005

.6 Tạo tìm kiếm thông tin