Bilgi her şirkette vardır; sorun çoğu zaman ona erişimde başlar. Dosya sunucuları, e-posta ekleri, wiki sayfaları, CRM notları, teklif klasörleri, toplantı tutanakları ve destek kayıtları zamanla birbirinden kopuk adalara dönüşür. Çalışan, var olduğunu bildiği bir belgeyi bulamaz. Yanlış sürüm kullanılır. Aynı soru farklı ekiplerde tekrar tekrar yanıtlanır. Tam da burada kurumsal yapay zeka arama sistemi, klasik anahtar kelime aramasının ötesine geçerek bilgiyi anlam bazlı, izin kontrollü ve bağlama duyarlı şekilde erişilebilir kılar.
Sağlam bir sistem kurmak için yalnızca büyük bir dil modeli seçmek yeterli değildir. Veri kaynaklarının envanteri çıkarılmalı, erişim yetkileri korunmalı, indeksleme stratejisi belirlenmeli ve yanıt kalitesi ölçülmelidir. Çoğu kurumda çalışan ilk sürüm 6 ila 12 haftada ortaya çıkabilir; ancak üretim kalitesine ulaşmak için güvenlik, gözlemlenebilirlik ve bakım süreçleri en az model seçimi kadar kritik önem taşır. Aşağıda, gerçek dünyada uygulanabilecek bir kurulum çerçevesi bulacaksınız.
Kurumsal yapay zeka arama sistemi tam olarak ne yapar?
Basit bir kurumsal arama aracı, kullanıcının yazdığı kelimeleri indeks içinde arar. Yapay zeka destekli yaklaşım ise bunun üzerine birkaç katman daha ekler: belge içeriğini parçalara ayırır, vektör temsilleri üretir, sorunun niyetini yorumlar, ilgili parçaları geri getirir ve gerektiğinde doğal dilde özet bir yanıt oluşturur. Bu yapı teknik literatürde çoğu zaman RAG, yani Retrieval-Augmented Generation olarak geçer.
Örnek bir senaryo düşünelim: Satış ekibinden biri “2024 yılında iade süresi 30 günü aşan ürünlerde bayi onay süreci nasıl ilerliyor?” diye soruyor. Klasik arama, “iade”, “30 gün”, “bayi” geçen belgeleri listeler. İyi kurgulanmış bir yapay zeka arama sistemi ise prosedür dokümanını, ERP iş akışı notunu ve hukuk ekibinin istisna maddesini birlikte getirir; ardından kaynak linkleriyle kısa bir cevap üretir.
Beklenen çıktı türleri
- Belge arama ve sıralama
- Doğal dilde soru-cevap
- Kaynak gösterimli özetleme
- Politika, prosedür ve sözleşme maddesi bulma
- Benzer kayıt veya vaka eşleştirme
Buradaki kritik nokta nettir: Sistem yalnızca cevap vermemeli, cevabın hangi kaynaktan geldiğini de göstermelidir. Kaynaksız kurumsal yanıt, özellikle regülasyon, finans ve insan kaynakları gibi alanlarda risk yaratır.
İlk adım: veri kaynaklarını ve erişim modelini haritalayın
Başarılı kurulumların büyük bölümü, teknoloji seçiminden önce yapılan veri envanteriyle başlar. En az 10-15 veri kaynağı olan şirketlerde bu adım atlanırsa proje kısa sürede karmaşık hale gelir. SharePoint, Google Drive, OneDrive, Confluence, Jira, ERP, CRM, e-posta arşivleri, PDF sözleşmeler ve destek sistemi kayıtları aynı anda sisteme bağlanmak istenebilir. İlk sürümde hepsini eklemek yerine, kullanım değeri en yüksek 2 veya 3 kaynakla başlamak daha güvenli olur.
Bu aşamada şu soruların netleşmesi gerekir:
- Hangi kaynaklar aranacak?
- Veri ne sıklıkla güncelleniyor: saatlik, günlük, anlık?
- Belge türleri neler: PDF, DOCX, HTML, kayıt notu, tablo?
- Kullanıcı izinleri belge bazında mı, klasör bazında mı?
- Kişisel veri veya ticari sır içeren alanlar nasıl maskelecek?
Gerçek bir örnek verelim. 500 çalışanlı bir şirkette İK politikaları, kalite prosedürleri ve satış sözleşmeleri ayrı sistemlerde tutuluyor olabilir. Çalışanların mevcut Active Directory veya Entra ID izinleri korunmazsa, yapay zeka katmanı yanlış kişiye yanlış belgeyi gösterebilir. Üretim ortamında en temel kural şudur: arama sistemi mevcut yetki modelini devralmalı, asla by-pass etmemelidir.
Mimari tasarım: indeksleme, vektör arama ve LLM katmanı
Kurumsal yapay zeka arama sistemi çoğunlukla 5 bileşenden oluşur: veri bağlayıcıları, içerik işleme hattı, arama indeksi, vektör veri katmanı ve yanıt üretim servisi. Bu mimari ister bulutta ister şirket içi ortamda kurulabilir. Hibrit kurulumlar da oldukça yaygındır.
Temel veri akışı
- Kaynak sistemden belge çekilir.
- Metin çıkarılır; OCR gerekiyorsa uygulanır.
- Belge mantıklı parçalara bölünür. Örneğin 400-800 token aralığı sık kullanılan bir pratiktir.
- Her parça için embedding üretilir.
- Parçalar arama indeksine ve vektör veritabanına yazılır.
- Kullanıcı sorusu geldiğinde semantik ve anahtar kelime tabanlı arama birlikte çalışır.
- En ilgili 5-10 sonuç LLM’e bağlam olarak verilir.
- Sistem kaynaklı yanıt üretir.
Parça boyutu burada küçük bir detay gibi görünse de kaliteyi ciddi ölçüde etkiler. Çok büyük parçalarda gereksiz gürültü artar; çok küçük parçalarda ise bağlam kopar. Teknik dokümanlarda başlık yapısına göre bölümleme, sabit karakter kesmeye kıyasla genellikle daha iyi sonuç verir.
Basit bir iş akışı örneği
question -> access check -> hybrid search
-> rerank top 20 -> send top 6 chunks to LLM
-> answer + citations + feedback logBurada “hybrid search” ifadesi önemlidir. Yalnızca vektör arama kullanmak çoğu zaman yeterli olmaz. Ürün kodu, sözleşme numarası, SKU, hata kodu veya mevzuat maddesi gibi kesin ifadelerde anahtar kelime araması çok daha başarılı olabilir. İyi sistemler bu iki yöntemi birlikte kullanır.
Güvenlik, KVKK ve kurumsal kontrol mekanizmaları
Kurumsal arama projesi, güvenlik ekibi ikna edilmeden ilerlemez. Türkiye’de faaliyet gösteren şirketler için KVKK, sektör bazlı yükümlülükler ve sözleşmesel gizlilik şartları doğrudan dikkate alınmalıdır. Özellikle müşteri verisi, çalışan verisi, fiyatlandırma dokümanları ve hukuki içerikler hassas sınıfa girer.
Uygulamada en sık kullanılan kontroller şunlardır:
- Belge düzeyi yetkilendirme: Kullanıcı yalnızca zaten erişebildiği içeriği görebilir.
- PII maskeleme: T.C. kimlik numarası, telefon, e-posta gibi alanlar indeks öncesi ya da yanıt öncesi filtrelenebilir.
- Audit log: Kim, ne zaman, hangi sorguyu yaptı; hangi kaynaklara erişti kayıt altına alınır.
- Model kullanım politikası: Hangi veri dış API’ye çıkabilir, hangisi şirket içi modelde kalmalı netleşir.
- Yanıt güvenlik filtresi: Yetkisiz belge özeti üretimi engellenir.
Pratikte birçok kurum ilk aşamada iki ayrı ortam kurar: test ve üretim. Test ortamında sentetik veri veya anonimleştirilmiş örnekler kullanılır. Üretimde ise ağ erişimi, anahtar yönetimi ve log saklama politikaları sıkı tutulur. Bu ayrım ilk bakışta 1 haftalık bir iş gibi görünse de sonradan geri dönüp düzeltmesi çok daha maliyetli olabilir.
Arama kalitesi nasıl ölçülür?
“Sistem iyi çalışıyor” ifadesi tek başına yeterli değildir. Ölçülmeyen bir arama sistemi kısa sürede güven kaybeder. Kurum içinde en az 50 ila 100 gerçek soru toplanarak bir değerlendirme seti oluşturulabilir. Her soru için beklenen belge, doğru kaynak veya kabul edilebilir yanıt tanımlanır.
İzlenebilecek metrikler
- Top-k retrieval accuracy: Doğru belgenin ilk 5 veya ilk 10 sonuç içine girme oranı
- Citation accuracy: Verilen cevabın gerçekten ilgili kaynağa dayanma oranı
- Latency: Yanıt süresi. İç arama araçlarında 2-5 saniye aralığı çoğu kullanıcı için kabul edilebilir kabul edilir.
- No-answer rate: Sistem emin olmadığında “bilmiyorum” diyebilme başarısı
- User feedback score: Faydalı/faydasız geri bildirimi
Burada özellikle “bilmiyorum” davranışı önem taşır. Kurumsal aramada amaç, her soruya yaratıcı bir cevap üretmek değil; güvenilir bir cevap üretmektir. Belge yoksa ya da bağlam yetersizse sistem bunu açıkça belirtmelidir. Hatalı bir politika özeti, hiç cevap vermemekten daha zararlı olabilir.
Kurulum süreci: 8 haftalık örnek yol haritası
Süre, kurumun veri karmaşıklığına göre değişir; yine de orta ölçekli bir şirket için 8 haftalık bir pilot plan gerçekçi sayılabilir.
Hafta 1-2: kapsam ve veri seçimi
İlk kullanım senaryoları belirlenir. Örneğin satış, operasyon ve İK ekiplerinden toplam 3 senaryo seçilir. 2 ana veri kaynağı sisteme alınır. Yetki modeli dokümante edilir.
Hafta 3-4: bağlayıcılar ve indeksleme
Belge çekme, metin çıkarma, bölümleme ve embedding akışı kurulur. PDF ağırlıklı arşivlerde OCR kalitesi ayrıca test edilir. İlk indeks oluşturulur.
Hafta 5-6: arama deneyimi ve LLM katmanı
Web arayüzü, sohbet ekranı veya intranet entegrasyonu hazırlanır. Hibrit arama, reranking ve kaynak gösterimi eklenir. Geri bildirim butonları yerleştirilir.
Hafta 7-8: test, güvenlik ve pilot yayın
Gerçek kullanıcılarla soru seti üzerinden test yapılır. Yetki açıkları, gecikme sorunları ve düşük kaliteli yanıtlar düzeltilir. Ardından sınırlı kullanıcı grubuyla pilot canlıya alınır.
Bu planın en önemli yanı küçük başlamasıdır. İlk günden 20 sistemi entegre etmeye çalışmak yerine, yüksek değer üreten dar bir kapsamla ilerlemek daha sağlıklı olur. Başarılı pilotun ardından yeni veri kaynakları dalga dalga eklenebilir.
Hangi hatalar projeyi zora sokar?
Sahada en sık görülen hatalar, teknikten çok tasarımla ilgilidir. İlki, temiz olmayan veriyi görmezden gelmektir. Bozuk PDF’ler, yinelenen belgeler, eksik başlıklar ve karışık klasör yapıları arama kalitesini düşürür. İkincisi, kullanıcı izinlerinin sonradan eklenebileceğini sanmaktır. Oysa yetkilendirme ilk günden mimarinin bir parçası olmalıdır.
Bir diğer hata da yalnızca model odaklı düşünmektir. Daha büyük model her zaman daha iyi sonuç vermez. Belgeler kötü bölünmüşse, indeks zayıfsa veya yanlış kaynaklar çekiliyorsa model farkı sınırlı kalır. Çoğu projede asıl kazanım, veri hazırlığı, iyi retrieval ve doğru gözlemlenebilirlikten gelir.
Son olarak kullanıcı eğitimi de unutulmamalıdır. 30 dakikalık kısa bir iç eğitim bile sorgu kalitesini belirgin biçimde iyileştirir. Kullanıcılar hangi tür soruların daha iyi çalıştığını, kaynak linklerinin nasıl yorumlanacağını ve sistemin sınırlarını bilirse benimseme hızı artar.
Kapanış: doğru kurulan sistem, kurumsal hafızayı görünür kılar
Kurumsal yapay zeka arama sistemi kurmak, yalnızca yeni bir arayüz eklemekten ibaret değildir. Bu çalışma; veri mimarisi, güvenlik, arama kalitesi ve kullanıcı deneyiminin birlikte ele alınmasını gerektirir. İyi kurgulanmış bir yapı belge aramayı hızlandırır, tekrar eden soruları azaltır ve kurum içindeki dağınık bilgiyi daha kullanılabilir hale getirir.
En sağlıklı yaklaşım nettir: sınırlı kapsamla başlayın, ölçüm mekanizması kurun, kaynak gösterimini zorunlu tutun ve mevcut yetki modelini koruyun. Bu şekilde ilerleyen projeler, gösterişli demolar yerine sürdürülebilir kurumsal değer üretir.