İndeksleme Sistemi
Hash tabanlı indeksleme ile 100.000+ dosyada anlık arama.
İndeksleme Nedir?
İndeksleme, UDF dosyalarının içeriğini önceden işleyerek aramayı hızlandıran bir ön hazırlıktır.
| Durum | 10.000 Dosya Arama Süresi |
|---|---|
| İndekssiz | 5-10 dakika |
| İndeksli | 1 saniyenin altında |
Hash Tabanlı İndeksleme
Çolpan, SHA-256 hash tabanlı akıllı indeksleme kullanır.
Çalışma Mantığı:
- UDF dosyası açılır (ZIP formatı)
content.xmliçeriği okunur- İçerik normalize edilir (küçük harf, Türkçe)
- SHA-256 hash hesaplanır (16 karakter)
- Hash + içerik veritabanına kaydedilir
Avantajlar:
- Aynı içerikli dosyalar tek hash ile saklanır
- Değişmemiş dosyalar tekrar indekslenmez
- 1000x’e kadar hızlanma
İndeks Dosya Yapısı
Her dizin için üç dosya oluşturulur:
index_C_Users_Documents\
├── header.txt (Dosya listesi ve hash mapping)
├── content.bin (Normalize edilmiş içerikler)
└── content.idx (Hash → konum haritası)
header.txt Formatı:
hash|dosya_yolu|boyut|tarih|offset|uzunluk
a1b2c3d4e5f6g7h8|C:\doc\file.udf|1024000|2024-12-22|0|32768
İndeksleme İşlemleri
İlk İndeksleme
- Dizin tablosunda istediğiniz satıra sağ tıklayın
İndeksle (Hash-Based)seçeneğini tıklayın- Progress dialog açılır
- Tamamlandığında indeks kullanıma hazırdır
İndeksleme Süresi (Tahmini):
| Dosya Sayısı | SSD | HDD |
|---|---|---|
| 1.000 | 10-30 sn | 1-3 dk |
| 10.000 | 2-5 dk | 10-30 dk |
| 100.000 | 20-60 dk | 2-5 saat |
İndeks Güncelleme
Mevcut indeksi, yeni/değişen dosyalarla günceller.
- Dizine sağ tıklayın
İndeksi Güncelleseçin- Sadece değişen dosyalar işlenir (hızlı)
Ne Zaman Güncellemeli:
- Dizine yeni dosya eklendiyse
- Mevcut dosyalar değiştiyse
- “İndeks eski” uyarısı görüyorsanız
İndeks Optimizasyonu
Kullanılmayan hash kayıtlarını temizler, indeks boyutunu küçültür.
- Dizine sağ tıklayın
İndeksi Optimize Etseçin- Gereksiz veriler temizlenir
Ne Zaman Optimize Etmeli:
- Çok fazla dosya silindikten sonra
- İndeks boyutu beklenenden büyükse
- Ayda bir düzenli bakım olarak
İndeks İstatistikleri
Dizinin indeks durumu hakkında bilgi verir:
📂 Dizin: C:\Dosyalar
📄 Dosya sayısı: 15.432
📦 İndeks boyutu: 245 MB
📝 Header boyutu: 12 MB
💾 Toplam: 257 MB
⏰ Son güncelleme: 2024-12-22 10:30
İndeks Boyutları
| Dosya Sayısı | İndeks Boyutu |
|---|---|
| 1.000 | 10-30 MB |
| 10.000 | 100-300 MB |
| 100.000 | 1-3 GB |
Yönetim İpuçları
- Büyük dizinleri bölün: 100.000+ dosya yerine alt klasörler oluşturun
- SSD kullanın: İndeksleme 3-5x daha hızlı olur
- Düzenli güncelleyin: Haftada bir güncelleme önerilir
- Eski arşivleri ayırın: Nadiren değişen arşivler ayrı profilde tutun
- Temp klasörünü temizlemeyin:
%TEMP%\Colpan\indeksleri içerir
Manticore Search İndeksleme
Hash-tabanlı indekse ek olarak Manticore Search kullanabilirsiniz.
Manticore Avantajları
| Özellik | Hash Index | Manticore |
|---|---|---|
| Ranking | Alfabetik | BM25 (alakalılık) |
| Karmaşık sorgular | Orta | Hızlı |
| Bellek kullanımı | Düşük | Orta-Yüksek |
Manticore İndeksleme
- Dizine sağ tıklayın
- “Manticore’a İndeksle” seçin
- Hash index ile paralel çalışır
- BM25 skorlu arama aktif olur
İki Sistem Birlikte
Colpan her iki sistemi de kullanabilir:
- Hash: Hızlı filtreleme
- Manticore: Alakalılık sıralaması
İndeks Konumları:
%TEMP%\Colpan\
├── Profil_N\ (Hash indeksleri)
│ └── index_xxx\
└── manticore_data_N\ (Manticore DB)
Sorun Giderme
| Sorun | Belirti | Çözüm |
|---|---|---|
| Bozuk indeks | Arama sonuç vermiyor | Dizini sil, tekrar indeksle |
| Eski indeks | ”24+ saat” uyarısı | İndeksi güncelle |
| Eksik dosyalar | Bazı dosyalar çıkmıyor | Tümünü yenile |
| Büyük indeks | Disk doluyor | Optimize et |
| Manticore sync | Sonuçlar farklı | Her iki sistemi yeniden indeksle |