.2 Chân đèn gốm tráng men lam, loại men nổi tiếng của Bát Tràng

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng cơ sở dữ liệu bài báo điện tử liên quan tới gốm sứ Việt Nam phục vụ đào tạo tại Học viện Báo chí và Tuyên truyền (Trang 25)

Gốm sứ Chu đậu: gốm Chu Đậu-Mỹ Xá, còn đƣợc biết đến là gốm Chu Đậu, là gốm sứ cổ truyền Việt Nam đã đƣợc sản xuất tại vùng mà nay thuộc làng Chu Đậu và làng Mỹ Xá, thuộc các xã Minh Tân và Thái Tân, huyện Nam Sách, tỉnh Hải Dƣơng. Loại gốm sứ này thƣờng đƣợc nhắc đến với tên gốm Chu Đậu là do lần đầu tiên ngƣời ta khai quật đƣợc các di tích của dòng gốm này ở Chu Đậu. Sau này, khi khai quật tiếp ở Mỹ Xá (làng bên cạnh Chu Đậu) thì ngƣời ta phát hiện ra khối lƣợng di tích còn đa dạng hơn và có một số nƣớc men ngƣời ta không tìm thấy trong số các di tích khai quật đƣợc tại Chu Đậu, Gốm sứ Chu Đậu là dòng gốm nổi tiếng vì màu men và họa tiết thuần Việt. Nó đã từng xuất khẩu sang nhiều nƣớc châu Âu. Năm 1997, sau khi tìm đƣợc rất nhiều gốm Chu Đậu trong con tàu đắm ở Cù Lao

Chàm (Nghệ an) của ngƣời Bồ Đào Nha, dòng gốm này mới đƣợc biết đến và nổi tiếng, tại Mỹ Xá có gia phả dòng họ 14 đời có ghi câu "Tổ tiên lấy nghề nung bát làm nghiệp". Mới đây, các nhà khảo cổ đã khẳng định bà Bùi Thị Hý là tổ nghề gốm Chu Đậu, dòng gốm sứ này có thể đã đƣợc hình thành và phát triển trong khoảng từ thế kỷ 13 đến thế kỷ 18. Có nguồn nói, nó bị hủy diệt do chiến tranh Lê- Mạc cuối thế kỷ 16.

Hình 2.3 Hai bình Âm dương gốm Chu đậu

Gốm sứ Phủ lãng: Làng gốm Phù Lãng thuộc xã Phù Lãng, huyện Quế Võ, tỉnh Bắc Ninh, cách Hà Nội khoảng 60 km và cách sông Lục đầu khoảng 4 km. Phù Lãng nằm bên bờ sông Cầu và có nhiều bến đò ngang suốt ngày chở khách qua lại. Địa danh Phù Lãng có thể có từ cuối thời Trần đầu thời Lê, vào thời kỳ này, Phù Lãng có 3 thôn: Trung thôn, Thƣợng thôn, Hạ thôn.

Gốm Phù Lãng tập trung vào 3 loại hình:

 Gốm dùng trong tín ngƣỡng (lƣ hƣơng, đài thờ, đỉnh...);  Gốm gia dụng (lọ, bình, chum, vại, bình vôi, ống điếu...);  Gốm trang trí (bình, ấm hình thú nhƣ ngựa, voi...).

Gốm Phù Lãng có nét sắc thái riêng biệt, đó là những sản phẩm gốm men nâu, nâu đen, vàng nhạt, vàng thẫm, vàng nâu… mà ngƣời ta gọi chung là men da lƣơn. Thêm nữa, nét đặc trƣng nổi bật của gốm Phù Lãng là sử dụng phƣơng pháp đắp nổi theo hình thức chạm bong, còn gọi là chạm kép, màu men tự nhiên, bền và lạ; dáng của gốm mộc mạc, thô phác nhƣng khỏe khoắn, chứa đựng vẻ đẹp nguyên sơ của đất với lửa, và rất đậm nét của điêu khắc tạo hình.

 Kỹ thuật làm gốm: Một xƣởng sản xuất gốm gồm năm nhóm chính: tổ lò, tổ

chuốt, tổ họa tiết, tổ men, tổ làm sạch. Khác với những sản phẩm gốm lấy chất liệu từ “xƣơng” đất sét xanh của Thổ Hà, sét trắng của Bát Tràng, gốm

Phù Lãng đƣợc tạo nên từ “xƣơng” đất đỏ hồng lấy từ vùng Thống Vát, Cung Khiêm (Bắc Giang).

 Tạo hình: gốm Phù Lãng đƣợc sử dụng nhiều phƣơng pháp khác nhau trong

nghệ thuật tạo dáng, với những hình khối đa dạng. Nhƣng nhìn chung có thể quy vào hai phƣơng pháp cơ bản: tạo hình trên bàn xoay và in trên khuôn gỗ hoặc khuôn đất nung rồi dán ghép lại.

 Chất liệu làm men tráng gồm có: Tro cây rừng (loại cây mà khi đốt, tàn tro trắng nhƣ vôi, nhƣ tàn thuốc, sau khi quét men và phơi khô, sản phẩm có màu trắng đục.

 Quá trình nung:Sau công đoạn vào men và tạo mầu, phơi khô, sản phẩm đƣợc đƣa vào lò nung ở nhiệt độ đến 1.000 độ C, để đảm bảo gốm sành nâu có lớp da ngoài đanh mặt, nhẵn bóng và chắc. Xếp sản phẩm trong lò nung phải tuân theo nguyên tắc tiết kiệm tối đa không gian trong lò.

Nếu vẻ đẹp của Bát Tràng là sự đa dạng về nƣớc men, những nét vẽ tinh tế, thì hồn cốt của Phù Lãng đƣợc tạo nên từ sự dân dã, mộc mạc của nƣớc men da lƣơn này.

Hinh 2.4 Bình hoa gốm Phù Lãng hiện đại

2.2.2. Các chức năng cần thiết đối với cơ sở dữ liệu văn bản gốm sứ

Cơ sở dữ liệu văn bản gốm sứ là một trong những cơ sở dữ liệu văn bản quan trong việc truy cập, lƣu trữ, tổ chức và xử lý phục phụ cho công tác học tập, nghiên cứu, duy trì và phát triển nền văn hóa của dân tộc Việt Nam. Cơ sở dữ liệu văn bản gốm sứ phải là CSDL có các chức năng cần thiết sau:

 Có thể truy cập đƣợc đƣợc CSDL;

 Có thể lấy đƣợc các thông tin khi tìm thấy;

 Có thể hiển thị thông tin và sử dụng đƣợc thông tin khi tìm thấy;  Có thể cập nhật thông tin mới.

2.3. Khai phá dữ liệu văn bản

Khai phá dữ liệu văn bản: là một quá trình trích chọn ra các tri thức mới, có giá trị và tác động đƣợc đang tiềm ẩn trong các văn bản để sử dụng các tri thức này vào việc tổ chức thông tin tốt hơn nhằm hỗ trợ ngƣời dùng. Ta có kiến trúc điển hình của hệ thống khai phá dữ liệu sau:

Cơ sở dữ liệu World Wide Các kho chứa dữ liệu khai thác Kho dữ liệu Web

Cơ sở tri thức

Làm sạch dữ liệu và tích hợp dữ liệu Lọc dữ liệu Phục phụ cơ sở dữ liệu hoặc kho dữ liệu

Giao diện đồ họa ngƣời dùng

Đánh giá mẫu

Thành phần khai phá dữ liệu

Hình 2.5 Mô hình kiến trúc hệ thống khai phá dữ liệu văn bản

Về bản chất của khai phá dữ liệu văn bản là sự kết hợp của khai phá dữ liệu và xử lý ngôn ngữ tự nhiên, quá trình khai phá dữ liệu văn bản là cụ thể hóa quá trình khai phá dữ liệu đối với dữ liệu văn bản, với giả thiết đã xác định đƣợc: một là bài toán khai phá dữ liệu văn bản, hai là miền dữ liệu văn bản thuộc miền ứng dụng, quá trình khai phá dữ liệu văn bản thực hiện qua các bƣớc sau:

 Thu thập dữ liệu văn bản thuộc miền ứng dụng, cụ thể ở đây là các bài báo trên Web liên quan tới gốm sứ Việt nam..

 Biểu diễn dữ liệu văn bản thu thập đƣợc sang khuôn dạng phù hợp với bài toán khai phá văn bản.

 Lựa chọn tập dữ liệu đầu vào cho bài toán khai phá dữ liệu

 Thực hiện thuật toán khai phá dữ liệu đối với tập dữ liệu đã đƣợc lựa chọn để tìm ra các mẫu, các tri thức.

 Thực hiện khai thác sử dụng các mẫu, các tri thức nhận đƣợc từ quá trình khai thác văn bản vào thực tiễn hoạt động.

Để khai phá dữ liệu văn bản ngƣời ta sử dụng một vài bài toán khai phá điển hình nhƣ: Tìm kiếm, phân tích ngữ nghĩa, phân cụm, phân lớp, trích trọn đặc trƣng, tóm tắt văn bản…

Bài toán trích rút quan hệ: là một trong những bài toán quan trọng trong lĩnh vực khai phá tri thức mang tầm vóc lớn, vì ứng dụng của nó rất đa dạng. Ngoài việc làm giàu thêm lƣợng thông tin, nó còn đƣợc xem là một phƣơng pháp hiệu quả để đƣa ra phƣơng pháp xử lý cho các hệ thống nhƣ: hệ thống hỏi đáp, xây dựng cơ sở tri thức, phát hiện ảnh qua đoạn văn bản…

Các phƣơng pháp trích rút quan hệ ngữ nghĩa đã đƣợc đề xuất khá phong phú, từ phƣơng pháp học thống kê, có giám sát dựa trên dữ liệu đã gán nhãn, hay các phƣơng pháp dựa trên luật học bán giám sát….

Để rút trích quan hệ ngữ nghĩa trong văn bản ta có thể tham khảo và áp dụng một số phƣơng pháp Phƣơng pháp DIPRE: Năm 1988, Sergey Brin đã giới thiệu phƣơng pháp học bán giám sát, đặt tên là DIPRE, cho việc trích rút quan hệ ngữ nghĩa. Phƣơng pháp này đƣợc thử nghiệm để trích mối quan hệ “tác giả” và “ cuốn sách”, với tập dữ liệu ban đầu khoảng 5 ví dụ cho mỗi mẫu quan hệ. Hệ thống DIPRE mở rộng tập ban đầu thành một danh sách khoảng 1500 cuốn sách.

Phương pháp DIRPE có thể được mô tả như sau:

Đầu vào: Tập các mẫu quan hệ S= {<Tácgiải, Sáchi>}, tập dữ liệu D;

Đầu ra: Tập R các quan hệ trích rút đƣợc

 Bƣớc 1. RS

Tập đích đƣợc khởi tạo từ tập mồi S. Tập mẫu quan hệ S có thể là rất nhỏ

 Bƣớc 2. OFindOccurrences(R’,D).

Tìm tất cả các xuất hiện trong mẫu quan hệ của tập dữ liệu D;  Bƣớc 3. RGenPatterns(O)

Dựa vào tập câu đã tìm đƣợc, tiến hành tìm các mẫu quan hệ giữa các thành phần của mẫu quan hệ ban đầu, Sergey Brin định nghĩa ban đầu rất đơn giản, bằng việc giữ lại m ký tự trƣớc thành phần mẫu quan hệ đầu tiên, giữ lại phía sau thành phần thứ hai n ký tự, và k ký tự nằm giữa hai thành phần này là m. Bằng một

phƣơng pháp đơn giản để giữ lại các phần đầu, phần giữa và phần cuối phổ biến (Xuất hiện nhiều lần trong dữ liệu). Kết quả nhận đƣợc biểu diễn dƣới dạng:

o [1, phần đầu, phần cuối, phần giữa], thì Tác giả đứng trƣớc sách.

o [0, phần đầu, phần cuối, phần giữa], thì tác giả đứng sau sách.

 Bƣớc 4. R’MD(O)

Từ tập mẫu mới thu nhận đƣợc ta có thể trích rút các cặp quan hệ <Tác giả, Sách> mới trong tập dữ liệu D, bổ sung các cặp quan hệ thu đƣợc vào R;

 Bƣớc 5. Khi R đủ lớn thì dừng lại, ngƣợc lại quay lại bƣớc 2 để tìm những cặp quan hệ và mẫu mới.

Phương pháp Snowball

Snowboll: là hệ thống trích rút mối quan hệ dựa trên một tập nhỏ dữ liệu mẫu quan hệ làm nhân, Trong quá trình thực hiện mẫu và tập quan hệ mới đƣợc sinh ra cần đánh giá chất lƣợng. Giải thuật đƣợc thực nghiệm trên mối quan hệ “tổ chức-địa điểm”, thể hiện trụ sở chính của tổ chức có vị trí thuộc “địa điểm” với mẫu quan hệ ban đầu nhƣ Microsoft-Redmond, IBM-Armonk, Boeing-seatile, Intel –Santa Santa clara.

Nội dung cơ bản của phƣơng pháp Snowball

Đầu vào: Một tập văn bản D (tập huấn luyện); tập nhân mẫu quan hệ d ban đầu S gồm các cặp mẫu quan hệ nào đó. Mỗi cặp quan hệ gồm hai thực thể A và B có quan hệ dạng: <A, B> hay <thực thể 1, thực thể 2>, nhƣ vậy S= {<Ai, Bi>};

Đầu Ra: Tập R là các quan hệ rút trích đƣợc;

 Bƣớc 1: Tìm sự xuất hiện của các cặp quan hệ trong dữ liệu R=S;

Với mỗi cặp quan hệ <A, B> trong S, tìm trong D tất cả các câu có chứa cả A và B. Tiến hành phân tích, chọn lọc và rút trích các mẫu, một câu khớp với biểu thức *A*B* thì cụm từ đứng trƣớc A gọi là Trái, cụm từ đứng giữa A và B gọi là Giữa và cụm từ đứng sau B gọi là Phải

 Bƣớc 2: Tìm sự xuất hiện của các thực thể trong dữ liệu

Tiến hành phân cụm tập mẫu, Snowball sử dụng hàm Match để tính độ tƣơng đồng giữa các mẫu và xác định ngƣỡng tƣơng đồng tsin cho việc gom cụm nhằm

làm giảm số lƣợng các mẫu cũng nhƣ làm cho mẫu có tính khái quát hơn. Độ tƣơng đồng giữa hai mẫu đƣợc biểu diễn bởi hàm Match (mẫu 1, mẫu 2):

Match(mẫu1, mẫu2) = (wTrái1,wTrái2)+(wGiữa1.wGiữa2)+(wPhải1.wPhải2) Các mẫu sau khi tìm thấy đƣợc dùng để trích rút các cặp quan hệ mới trong D, sau đó đối chiếu từng cặp quan hệ mới tìm thấy <A’, B’> với tập R để kiểm tra chất lƣợng của mẫu, từ đó chọn mẫu mới có độ chính xác cao, cặp quan hệ mới <A’, B’> thuộc một trong các trƣờng hợp sau:

Positive: Nếu <A’,B”> đã nằm trong tập R;

Negative: Nếu <A’,B’> chỉ có đúng một trong hai (A’, hoặc B’) xuất hiện trong tập R;

Unknown: nếu <A’, B’>, cả hai đều không xuất hiện trong tập R. Tập Unknown đƣợc xem là tập các quan hệ mới trong vòng lặp sau.

 Bƣớc 3: sinh mẫu mới

Snowball có độ chính xác của từng mẫu dựa trên số Positve và Negative của nó và chọn ra N mẫu có điểm cao nhất.

 Bƣớc 4: Tìm các Mẫu quan hệ D mới.

Với mỗi mẫu trong danh sách tốp N thu nhận lại đƣợc bổ sung vào tập mẫu để trích rút tập R’ các cặp quan hệ mới trong tập dữ liệu D. Bổ sung các tập quan hệ vào R: R=R hợp R’; để làm tăng tính chính xác cho hệ thống, các cặp trong quan hệ R’ đƣợc đánh giá để lựa chọn ra M cặp đƣợc đánh giá tốt nhất và M cặp này đƣợc dùng làm mẫu quan hệ cho quá trình rút mẫu kế tiếp, Hệ thống tiếp tục quay lại bƣớc 1. Quá trình trên tiếp tục lặp cho đến khi Hệ thống không tìm đƣợc cặp mới hoặc lặp theo số lần mà ta xác định trƣớc. Sau đây là thủ tục sinh mẫu mới của phƣơng pháp Snowball:

Sub GenerateTuples (Patterns)

Foreach text_segment in corpus

(1) {<o, l>, <ls, t1, ms, t2, rs>}=CreateOccurence (text_segment);

Tc=<o, l>; Sim Best=0; Foreach p in Patterns (2) sim = Match (<ls,t1,ms, t2, rs>, p); If (sim ≥ T sim) (3) UpdatePatternSelectivity (p, TC);

Sim Best= sim;

P Best =p;

If (Sim Best≥ Tsim)

CandidateTuples[TC]. Patterns [PBest] = SimBest;

Return CandidatetTuples

Bảng 2.1 Thủ tục sinh mẫu mới của phƣơng pháp Snowball

Dựa vào hai phƣơng pháp trên, ta có thể thiết kế thử nghiệm một hệ thống CSDL dạng hỏi đáp các loại gốm sứ cổ truyền Việt nam và tác giả bài báo, ví dụ nhƣ sau:

Mối quan hệ Phần đầu của mẫu quan hệ Phần cuối của mẫu quan hệ

<gốm sứ, tácgiả> Gốm sứ Bát tràng Hồ Chí Minh

<gốm sứ, tácgiả> Gốm sứ Chu đậu Nam cao

<gốm sứ, tácgiả> ….. …

Mối quan hệ Mẫu tổng quát

<Gốm sứ, tác giả> <Gốm sứ> gốm sứ của <tác giả> <Gốm sứ, tác giả> <Gốm sứ> gốm sứ của <tác giả>

<Gốm sứ, tác giả>

Bảng 2.3 Một số mẫu tổng quát

Câu hỏi Xử lý câu hỏi và rút ra

câu trả lời Câu trả lời Tập hợp dữ liệu Rút ra mẫu và Tuples Hình 2.6 Mô hình hệ thống CSDL dạng hỏi đáp Tập quan hệ mẫu mồi Thu thập dữ liệu Tập các trang web chứa tập quan hệ mẫu

Tập câu chứa quan hệ mẫu Gán nhãn tổng quát Mẫu thô Phân cụm mẫu Mẫu kết quả Sinh quan hệ mẫu mới Tập quan hệ mẫu mới Kho quan

Hệ mẫu Kho mẫu

Tiền xử lý

Quy trình thiết kế CSDL được thực hiện như sau:

Đầu vào: Tập các quan hệ nhân ban đầu, các quan hệ gồm cặp thực thể gồm hai thành phần <chuyên mục gốm sứ, tác giả >, <tác giả, tên bài báo>, <chuyên mục gốm sứ, tên bài báo>

Đầu ra: CSDL gồm tập các cặp quan hệ trích rút đƣợc và tập các mẫu trích rút  Bƣớc 1: Thu thập dữ liệu

Tận dụng miền tri thức nền lớn từ các máy tìm kiếm nhƣ Google, Yahoo,…với đầu vào là tập mẫu ban đầu đƣợc xây dựng bằng tay, thông qua máy tìm kiếm ta tìm đƣợc một tập các trang Web có chứa đầy đủ hai thành phần của tập mẫu quan hệ này.

 Bƣớc 2: Tiền xử lý.

 Loại bỏ thẻ HTML, lấy nội dung chính của trang Web.

 Tách câu, tách từ, tìm các cặp từ là hai thành phần của qua hệ mẫu.

 Mở rộng tập thực thể cho từng mối quan hệ thực thể ban đầu

 Bƣớc 3: Gán nhãn tổng quát

 Từ tập thực thể mở rộng, ứng với mỗi cặp thực thể ta tiến hành gán nhãn cho cặp thực thể đó.

 Xác định thành phần trái, thành phần phải, thành giữa của các thực thể cho các thực thể đƣợc gán nhãn, dựa vào tập câu thu đƣợc

 Biểu diễn thành phần trái, thành phần phải, thành giữa dƣới dạng vector, ta có đƣợc tập mẫu thô.

 Bƣớc 4: Phân cụm mẫu.

 Tiến hành so khớp các thành phần trái, thành phần phải, thành giữa giữa các mẫu thô để loại bỏ các mâu thô trùng

 Xác định các mẫu quan hệ đƣợc thực hiện bằng phân cụm mẫu thô. Mỗi cụm đại diện bởi một mẫu và quá trình phân cụm đƣợc thực hiện nhƣ sau: với những mâu thô đƣợc sinh ra

 Nếu độ tƣơng đồng vƣợt qua một ngƣỡng xác định, thì mẫu thô đó thuộc vào nhóm có độ tƣơng đồng cao nhất. Ngƣợc lại mẫu đó thuộc

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng cơ sở dữ liệu bài báo điện tử liên quan tới gốm sứ Việt Nam phục vụ đào tạo tại Học viện Báo chí và Tuyên truyền (Trang 25)