2.3 Định từ khóa
2.3.1 Quy trình định từ khóa
Định từ khóa là q trình phân tích tài liệu, lựa chọn các yếu tố đặc trưng về nội dung và thể hiện chúng thành tập hợp các từ khóa phục vụ cho việc tìm kiếm thơng tin theo ngơn ngữ từ khóa trong hệ thống tìm tin tự động.
Nội dung các từ khóa có thể là: - Đối tượng nghiên cứu bậc 1
- Đối tượng nghiên cứu khái quát hóa nếu tài liệu có 3 chủ đề trở lên - Đối tượng nghiên cứu bậc 2
- Các phương diện nghiên cứu bậc 1 - Các phương diện nghiên cứu đặc thù - Lĩnh vực áp dụng đặc biệt
Quy trình định từ khóa của cán bộ Trung tâm được tiến hành theo quy trình định từ khóa tự do, bao gồm các bước sau:
- Phân tích chủ đề, xác định các đặc trưng nội dung
- Dịch các đặc trưng nội dung sang ngơn ngữ từ khóa bằng phương pháp xử lý từ vựng.
- Trình bày từ khóa theo quy định
Cũng giống như phân loại tài liệu, trước khi định từ khóa, các cán bộ thư viện sẽ tiến hành kiểm tra các biểu ghi tương ứng của tài liệu trên CSDL của
chỉ áp dụng đối với tài liệu ngoại văn. Hầu hết các biểu ghi của thư viện nước ngoài đều được định chỉ mục theo phương thức tạo đề mục chủ đề. Căn cứ vào đề mục chủ đề (được trình bày bằng tiếng Anh), các cán bộ sẽ chọn ra các yếu tố đặc trưng về nội dung của tài liệu và dịch các đặc trưng đó sang tiếng Việt.
Ví dụ: Tên tài liệu “Constitutional law” 650: $aConstitutional law $zUnited States
Từ khóa được định cho tài liệu này sẽ là Luật Hiến pháp và Mỹ
Phương thức này sẽ tiết kiệm thời gian và công sức cho cán bộ trong việc định từ khóa, đặc biệt là giải quyết vấn đề hạn chế về trình độ ngoại ngữ của cán bộ. Theo các cán bộ xử lý, có đến 70% tài liệu tiếng Anh của thư viện được định từ khóa theo phương thức này.
Các tài liệu tiếng Việt và tài liệu tiếng Anh khơng tìm thấy biểu ghi trong CSDL của các thư viện khác sẽ được tiến hành theo quy trình định từ khóa thơng thường với các buớc sau:
Bước 1: Phân tích chủ đề
Trong định từ khóa, mục đích của việc phân tích nội dung tài liệu là xác định rõ tài liệu đề cập đến vấn đề gì. Cụ thể là xác định rõ đối tượng bậc 1, đối tượng bậc 2, các phương diện nghiên cứu của đối tượng và các phương pháp đặc thù được đề cập trong nội dung tài liệu.
Đối tượng nghiên cứu là đặc trưng quan trọng nhất phản ánh nội dung của tài liệu. Trong một tài liệu có thể có một hoặc một số đối tượng nghiên cứu. Phương diện nghiên cứu của đối tượng là thông tin trả lời cho câu hỏi: đối tượng được nghiên cứu ở góc độ nào, ở đâu, thời gian nào.
Phương pháp nghiên cứu đặc thù trả lời cho câu hỏi: việc nghiên cứu đối tượng có sử dụng phương pháp gì đặc biệt.
Luận văn đã tiến hành khảo sát 5 cán bộ về cách thức phân tích nội dung tài liệu của họ khi định từ khóa. Kết quả như sau:
- 5/5 cán bộ cho rằng khi phân tích nội dung tài liệu phải đọc các yếu tố nhan đề, mục lục, lời giới thiệu…
- 5/5 cán bộ cho rằng sau khi đọc tài liệu cần tìm ra các khái niệm đặc trưng cho tài liệu. Trong đó, 3/5 cán bộ nêu được chính xác các khái niệm đặc trưng của tài liệu là đối tượng nghiên cứu, phương diện và phương pháp nghiên cứu, 2/5 cán bộ khơng trả lời được đầy đủ và chính xác các khái niệm.
Bước 2: Dịch các đặc trưng sang ngơn ngữ từ khóa tự do bằng phương pháp xử lý từ vựng
Sau khi đã lựa chọn được các đặc trưng của tài liệu, nhiệm vụ tiếp theo của cán bộ xử lý là phải dịch các đặc trưng đó sang ngơn ngữ từ khóa bằng phương pháp xử lý từ vựng.
Xử lý từ vựng là thao tác biến đổi các từ ngữ thành dạng thức được sử dụng trong cách hành văn viết hoặc văn nói sang dạng thức có thể tra cứu được. Để trở thành một đơn vị từ vựng có thể tra cứu được, từ khóa phải đảm bảo các yêu cầu như: đủ nghĩa, thơng dụng, súc tích, ngắn gọn, chính xác, hiện đại, đơn nghĩa và khách quan. Chính vì vậy, để lựa chọn được các từ khóa có chất lượng, địi hỏi người cán bộ xử lý phải nắm chắc phương pháp xử lý từ vựng.
Trong 5 cán bộ được hỏi, có 2 cán bộ trả lời có sử dụng phương pháp xử lý từ vựng trong việc dịch các đặc trưng tài liệu sang ngơn ngữ từ khóa. 03 cán bộ trả lời rằng họ dịch từ khóa một cách cảm tính, có nghĩa là lựa chọn những từ có nghĩa, phản ánh đúng các đặc trưng của tài liệu được lựa chọn. Lý do họ đưa ra là Trung tâm sử dụng phương pháp định từ khóa tự do nên khơng nhất thiết phải tuân theo các quy tắc, chuẩn, u cầu về ngơn ngữ từ khóa. Tất cả cán bộ xử lý đều nêu được từ khóa phải đảm bảo được các yêu cầu như tính đầy đủ, chính xác, súc tích, ngắn gọn, khách quan và đơn nghĩa.
Việc nắm vững phương pháp xử lý từ vựng sẽ giúp cán bộ xây dựng được tập hợp các từ khóa chuẩn mà sau khi dùng cơng cụ kiểm sốt sẽ khơng
Bước 3: Trình bày từ khóa theo quy định
Từ khóa là từ hoặc cụm từ có nghĩa được sử dụng để mô tả nội dung chính của tài liệu. Đặc điểm riêng biệt của ngơn ngữ từ khóa so với ngơn ngữ đề mục chủ đề là các từ khóa có giá trị tìm tin ngang nhau. Như vậy yêu cầu đặt ra là khi trình bày các từ khóa trong biểu ghi phải tính đến việc ưu tiên các từ khóa chính (đối tượng nghiên cứu của tài liệu) hơn các từ khóa khác. Một yêu cầu khác là làm thế nào có thể trích rút được các từ khóa chính, từ khóa địa lý hay từ khóa nhân vật để xây dựng các bảng tra cứu phụ trợ hoặc biên soạn thư mục và các ấn phẩm thơng tin khác. Hiện nay, có 2 cách trình bày từ khóa trong biểu ghi được các thư viện áp dụng.
Cách thứ nhất: trình bày các từ khóa trong trường 653, tất cả các từ khóa đều được trình bày ở trường này, bao gồm từ khóa chính, từ khóa nhân vật, từ khóa địa lý…
Cách thứ hai: trình bày từ khóa chính và từ khóa phụ trong trường 653, từ khóa địa lý được trình bày ở trường 651 và từ khóa nhân vật được trình bày ở trường 610.
Việc trình bày từ khóa tại Trung tâm được thực hiện theo cách thứ nhất, có nghĩa là tồn bộ từ khóa được trình bày ở trường 653.
Mã tài liệu Nhãn trƣờng Chỉ thị Nội dung trƣờng
HLU020000019 653 ## $aLuật Dân sự
$aNghĩa vụ dân sự $aViệt Nam
HLU020000655 653 ## $aLuật Quốc tế
$aThanh toán quốc tế $aThương mại quốc tế
HLU150027448 653 ## $aLuật Hành chính
$aTính hợp pháp $aTính hợp lý $aViệt Nam
Bảng 2.2: Cách thức trình bày từ khóa trong CSDL của Trung tâm
Như vậy, với phương thức trình bày từ khóa như trên, các từ khóa sẽ có giá trị ngang nhau, khơng có dấu hiệu để phần mềm phân biệt được từ khóa chính và các từ khóa khác. Điều đó đồng nghĩa với việc khi tìm tin các kết quả tìm kiếm sẽ khơng có sự ưu tiên đối với các từ khóa chính. Khi biên soạn các ấn phẩm thư mục sẽ khơng trích được các từ khóa chính, các từ khóa nhân vật, từ khóa địa lý để xây dựng các bảng tra phụ trợ.
2.3.2 Cơng cụ định từ khóa
Hiện nay, việc định từ khóa cho tài liệu tại Trung tâm chưa có một cơng cụ kiểm sốt chính thống nào. Trung tâm sử dụng từ khóa tự do, đó là từ khóa được cán bộ xử lý đặt ra theo nguyên tắc chung nhưng khơng được kiểm sốt theo phương tiện kiểm soát nào. Mặc dù Trung tâm đã trang bị Bộ từ khóa của Thư viện Quốc gia, song Bộ từ khóa này được biên soạn chủ yếu dành cho các thư viên đa ngành, có vốn tài liệu mang tính tổng hợp, khơng đáp ứng được yêu cầu xử lý chuyên sâu của một thư viện chuyên ngành.
Trong tổng số vốn tài liệu hiện có của Thư viện, có đến 70% tài liệu thuộc lĩnh vực luật, trong khi đó Bộ từ khóa của Thư viện Quốc gia có rất ít thuật ngữ về lĩnh vực này, do đó khơng thể đáp ứng được yêu cầu đối với công tác định từ khóa của Trung tâm. Vì vậy, Bộ từ khóa này chủ yếu được sử dụng để tham khảo định từ khóa cho tài liệu thuộc các lĩnh vực khoa học xã hội khác như kinh tế, chính trị, văn hóa, giáo dục, lịch sử, các tác phẩm văn học... Toàn bộ tài liệu luật học của thư viện sẽ được định từ khóa tự do.
Việc sử dụng từ khóa tự do mặc dù có những lợi thế nhất định tạo điều kiện cho cán bộ xử lý khơng bị bó hẹp theo một khn khổ cứng nhắc (phương
tiện kiểm sốt từ khóa), tuy nhiên có rất nhiều hạn chế nếu cán bộ xử lý không nắm vững các nguyên tắc định từ khóa và phương pháp xử lý từ vựng.
Đây cũng là điểm bất cập hiện nay của Trung tâm khi chưa có cơng cụ chính thức nào hỗ trợ cán bộ định từ khóa tài liệu. Năm 2015, lãnh đạo Trung tâm cũng đã nghiên cứu, xây dựng kế hoạch biên soạn Bộ từ khóa luật học quy ước để phục vụ cơng tác nghiệp vụ, giảm bớt khó khăn cho cán bộ làm công tác xử lý tài liệu.
2.3.3 Đánh giá chất lượng định từ khóa
Để đánh giá chất lượng từ khóa, luận văn lựa chọn ngẫu nhiên 20 biểu ghi trong CSDL và đánh giá dựa trên 2 tiêu chí: độ chính xác và độ đầy đủ.
Độ chính xác
Độ chính xác của từng biểu ghi được xác định bằng tỷ số giữa số lượng các từ khóa được lựa chọn phản ánh đúng đối tượng, phương diện và phương pháp nghiên cứu với tổng số từ khóa được lựa chọn trong biểu ghi. Cơng thức tính hệ số chính xác đã được trình bày ở phần 1.1.4.1 của Chương 1.
Ví dụ
Biểu ghi HLU140023845 có 4 từ khóa: Luật Ngân hàng, Luật Tài chính, Luật Kinh tế, Cho thuê, trong đó có 3 từ khóa phản ánh khơng chính
xác nội dung tài liệu. Độ chính xác của biểu ghi là 1/4.
Biểu ghi HLU150027513 có 2 từ khóa: Trung Quốc, Văn hóa phản ánh chính xác nội dung tài liệu. Độ chính xác của biểu ghi là 2/2.
Độ chính xác trung bình của các biểu ghi được khảo sát chưa cao, chiếm khoảng 76.92%.
Độ đầy đủ
Độ đầy đủ của từng biểu ghi được xác định bằng tỷ số giữa số lượng các đối tượng nghiên cứu được mô tả và tổng số đối tượng được đề cập trong nội dung tài liệu. Cơng thức tính hệ số đầy đủ được trình bày ở phần 1.1.4.1 của Chương 1.
Ví dụ biểu ghi HLU150027805 có 5 từ khóa được mơ tả. Tuy nhiên, biểu ghi này cịn thiếu 2 từ khóa nên độ đầy đủ của biểu ghi là 5/7.
Chất lượng phản ánh nội dung tài liệu được thể hiện ở bảng sau:
Chỉ tiêu khảo sát Mã biểu ghi Độ chính xác Độ đầy đủ Ncx/Ncm Tỷ lệ Nđt/Mđt Tỷ lệ HLU150027805 5/6 83.3 5/7 71.4 HLU150025370 6/7 85.7 6/7 85.7 HLU150027809 4/8 50 4/8 50 HLU150027811 5/6 83.3 6/6 100 HLU150027908 3/3 100 3/3 100 HLU150027911 3/5 60 3/4 75 HLU150027513 2/2 100 2/3 66.7 HLU150027532 4/4 100 3/5 60 HLU150027575 5/5 100 4/5 80 HLU150027781 3/4 75 3/4 75 HLU150027796 3/3 100 3/3 100 HLU 140021112 4/5 80 5/6 83.3 HLU 140023840 4/5 80 4/4 100 HLU 140023841 4/5 80 4/4 100 HLU140023843 3/4 75 3/4 75 HLU140023845 1/4 25 1/3 33 HLU140024180 4/4 100 4/4 100 HLU150025039 3/4 75 3/3 100 HLU150025115 2/3 63.3 3/3 100 HLU150025104 4/4 100 4/4 100
Bảng 2.3 Kết quả khảo sát, đánh giá chất lượng từ khóa
Số lượng từ khóa trong kết quả là : 91 Số lượng đặc trưng được lựa chọn là : 71 Tổng số đặc trưng của 20 tài liệu là : 90 Như vậy hệ số chính xác là: Kcx =Ncx/Ncm x100% = 70/91 x 100%= 76.92% Hệ số đầy đủ là: Kđđ = Nđt/Mđt x 100% = 71/90 x 100% = 78.9%
Ngồi việc đi sâu phân tích và đánh giá kết quả định từ khóa của 20 tài liệu, tác giả cịn trích lọc tồn bộ các từ khóa được lưu trữ trong CSDL thơng qua tính năng từ điển từ khóa của phần mềm Libol 6.0. Qua khảo sát tập hợp các từ khóa này, tác giả nhận thấy một số hạn chế, tồn tại trong công tác định từ khóa của Trung tâm như sau:
- Hình thức của các từ khóa cịn chưa có sự thống nhất trong cách trình bày, cụ thể như sau:
+ Không thống nhất trong cách viết chữ “i” và “y”
Chữ “i” Chữ “y”
Chữ ký điện tử (1 từ) Chữ kí điện tử (2 từ) Hiệu lực pháp lí (3 từ) Hiệu lực pháp lý (5 từ) Công ti (8 từ) Công ty (331 từ)
Văn bản qui phạm pháp luật (9 từ) Văn bản quy phạm pháp luật (213 từ) Hoa Kỳ (142 từ) Hoa Kì (2 từ)
…………….. ………………
+ Không thống nhất trong cách trình bày tên địa danh, tên nước, tên nhân vật là người nước ngồi. Ví dụ:
Từ khóa Số lƣợng Campuchia 28 Cam pu chia 1 Canađa 3 Canada 37 Goóc ba chốp 1 Gcbachơp 1 Goócbachốp 3 V.I.Lê Nin 7 V.I.Lênin 2 V.Lênin 1
- Sử dụng từ nối, dấu phẩy (,) khi định từ khóa. Ví dụ: Luật Hơn nhân và gia đình
Tổ chức và kiểm soát quyền lực nhà nước Tạm giam, tạm giữ người chưa thành niên…
- Các từ khóa cịn vi phạm các u cầu về tính ngắn gọn, súc tích. Ví dụ: + Các vụ án kinh doanh
+ Bảo vệ quyền lợi người phụ nữ
+ Một số công ước quốc tế về nhân quyền + Hợp nhất văn bản quy phạm pháp luật
- Một số từ khóa khơng chính xác: Kỹ năng học tập hợp tác, Nghề nghiệp bị cáo, Bộ trưởng ban hành văn bản, Thất nghiệp nông thôn…
Từ kết quả trên cho thấy, khâu định từ khóa của Trung tâm cịn nhiều hạn chế: tỷ lệ từ khóa phản ánh chính xác nội dung tài liệu cịn chưa cao, cách thức trình bày từ khóa chưa thống nhất, một số từ khóa cịn dài và khơng thơng
dụng. Nguyên nhân của những hạn chế này chính là hệ quả của việc định từ khóa tự do. Phương thức này muốn đạt chất lượng cao phụ thuộc rất nhiều vào kỹ năng của cán bộ làm từ khóa, đặc biệt là kỹ năng xử lý từ vựng.
2.4 Tóm tắt
Tóm tắt nội dung tài liệu là trình bày bằng văn bản một cách đầy đủ, chính xác và ngắn gọn nội dung của tài liệu gốc mà không kèm theo bất kỳ lời bình luận nào từ phía người làm tóm tắt. Kết quả của quá trình này tạo ra tài liệu cấp 2 – bài tóm tắt.
Người ta có thể phân loại bài tóm tắt theo nhiều tiêu chí khác nhau, theo hình thức bài tóm tắt hoặc theo mức độ mô tả nội dung tài liệu gốc. Phân loại theo mức độ mơ tả nội dung tài liệu gốc gồm có ba loại: tóm tắt chỉ dẫn, tóm tắt thơng tin và tóm tắt hỗn hợp.
Thư viện trường Đại học Luật Hà Nội sử dụng hình thức làm tóm tắt chỉ dẫn. Đây là loại tóm tắt trình bày đầy đủ các chủ đề nội dung mà tài liệu đề cập đến song không quan tâm đến kết quả nghiên cứu hoặc kết luận cụ thể có trong tài liệu. Bài tóm tắt chủ yếu mơ tả lại cấu trúc nội dung của tài liệu, những chủ đề chính mà tài liệu nghiên cứu, khía cạnh tiếp cận đối với chủ đề nội dung. Một bài tóm tắt có độ dài từ 50 đến 150 từ. Bài tóm tắt chỉ dẫn có đặc điểm:
Ngắn gọn, giúp người dùng tin nắm bắt nhanh, tổng quát nội dung tài liệu. Dễ làm vì khơng cần triển chi tiết và rộng nội dung của tài liệu như tóm