2.4.1. Đánh chỉ mục
Chỉ mục lưu trữ các thông tin thống kê về các từ chủ chốt để việc tìm kiếm dựa trên từ chủ chốt được hiệu quả hơn. Chỉ mục của Lucene thuộc về họ các chỉ mục có tên gọi là chỉ mục đảo ngược bởi vì nó có thể liệt kê ra theo từng từ chủ chốt các tài liệu có chứa nó. Điều này ngược lại theo quan hệ tự nhiên, trong đó các tài liệu liệt kê ra danh sách các từ chủ chốt.
Xây dựng các token:
Trong Lucene, các trường có thể mang kiểu stored (được lưu trữ), nội dung của nó được lưu trong chỉ mục theo nguyên bản, theo cách phi-đảo ngược. Các trường được lưu trữ theo cách đảo ngược có kiểu là indexed. Một trường có thể có cả hai kiểu stored và indexed.
Nếu một trường có kiểu là tokenized thì nội dung của trường đó được chia nhỏ thành các từ chủ chốt để đánh chỉ mục, nếu một trường không có kiểu là tokenized thì toàn bộ nội dung của trường đó được lưu theo nguyên bản và được xem như là một từ chủ chốt khi tạo chỉ mục. Hầu hết nội dung các trường đều được chia nhỏ, nhưng đôi khi những trường mà nội dung của nó mang tính chất dùng để phân biệt cho từng tài liệu thì nội dung của nó cần phải được tạo chỉ mục theo nguyên bản.
Quá trình xây dựng các token được thể hiện trong hình 2.4: dữ liệu đầu vào là tài liệu được biên mục theo chuẩn Dublin Core, từ dữ liệu đó ta phân tích thành các token, các token được xử lý bằng việc chuyển tất cả chữ hoa thành chữ thường, bước cuối cùng tương ứng với các token là danh sách các posting list.