OpenTelemetry: Trace, Metric ve Log Korelasyonu
Bu rehberde ne öğreneceksiniz?
Bu yazı bir haber özeti değil; adım adım uygulayabileceğiniz bir öğretici makale (tutorial) formatındadır. Her bölümün sonunda pratik çıkarımlar ve üretim ortamında karşılaşacağınız senaryolar yer alır.
- Trace, metric, log üçlüsünü kurmak
- traceId ile log korelasyonu yapmak
- Prisma ve HTTP span'leri instrument etmek
- Sampling ile maliyeti kontrol etmek
Ön koşullar
Rehberi verimli takip etmek için aşağıdaki bilgilere aşina olmanız önerilir. Eksik hissettiğiniz konularda ilgili bölümde ek kaynak ipuçları bulacaksınız.
- HTTP request/response modeli
- Production hata ayıklama deneyimi
- Temel istatistik (p50, p95)
Güncellik ve teknoloji yığını
Makale 2026 itibarıyla güncellenmiştir. Örnekler ve API referansları şu yığınla uyumludur: OpenTelemetry JS SDK, OTLP exporter, structured logging, Next.js 16. Eski sürüm dokümantasyonu ile karıştırmamak için major versiyon farklarını özellikle belirttik.
Framework sürümleri hızla değişir; kalıcı olan prensipler (güvenlik, katman ayrımı, ölçüm) bu rehberin omurgasını oluşturur.
Bölüm 1: Üç sütun modeli
Metrics: RED (rate, errors, duration). Traces: dağıtık yolculuk. Logs: yapılandırılmış olaylar.
- Metric: blog_list_duration_ms histogram
- Trace: GET /api/blog span
- Log: { level, traceId, route, ms }
Bölüm 2: Instrumentation
@opentelemetry/auto-instrumentations-node ile HTTP ve çoğu kütüphane. Custom span: taxonomy sync.
import { trace } from '@opentelemetry/api';
const tracer = trace.getTracer('blog-app');
await tracer.startActiveSpan('syncBlogTaxonomy', async (span) => {
try { await syncBlogTaxonomy(id, tags); }
finally { span.end(); }
});
İpucu: PII ve şifre log veya span attribute'a yazılmaz.
Bölüm 3: Operasyon
Sampling: development %100, production %5–10 başlangıç. Alert: error rate ve p95 latency eşiği.
Derinlemesine: Senaryo çalışması
Gerçek bir ekip senaryosu: Cuma akşamı deploy sonrası hata oranı yükseldi. Aşağıdaki kontrol listesi ile kök nedeni daraltın.
Son deploy diff'ine bakın: şema migration, env değişikliği, feature flag açılışı.
Trace id ile tek bir başarısız isteği uçtan uca izleyin (edge → server → DB).
Gerekirse kill switch veya önceki imaja rollback; veri migration geri alınamazsa kod rollback yeterli olmayabilir.
Adım adım uygulama
Aşağıdaki sırayı takip edin. Her adımı tamamlamadan bir sonrakine geçmeyin; özellikle güvenlik ve veri katmanı adımları atlanmamalıdır.
- Metrik panosunda hata oranı ve p95 latency
- Log'da son 15 dakika exception grupları
- Son başarılı deploy tag'ine dönüş kararı
Production checklist
Canlıya çıkmadan önce bu maddeleri review edin.
Production ortamında üretim ortamı ile ilgili en sık görülen sorun, geliştirme ortamındaki varsayımların (küçük veri seti, tek kullanıcı, sıcak cache) canlı trafikte çökmemesidir. Bu yüzden her değişiklikten önce yük testi veya en azından p95 latency ölçümü yapın.
Structured logging (request id, route, süre, kullanıcı id’si — PII olmadan) ve hata oranı alarmları, sorunları kullanıcı şikayetinden önce yakalamanızı sağlar. Log’da stack trace tutun; kullanıcıya generic mesaj gösterin.
Dokümantasyonu kod ile birlikte güncelleyin: README, ADR (Architecture Decision Record) veya ekip wiki’sinde “neden bu kararı aldık?” sorusunun cevabı gelecekteki sizin en büyük yardımcınızdır.
- Rate limit ve timeout tanımlı
- Secret'lar secret manager'da
- Health check ve readiness probe çalışıyor
- Alarm eşikleri tanımlı (5xx, latency)
Sık yapılan hatalar
Aşağıdaki tuzaklar eğitim ortamlarında nadiren, production'da ise pahalıya mal olur. Code review checklist'inize eklemenizi öneririz.
- console.log ile production debug
- TraceId olmadan dağınık log dosyaları
- %100 sampling maliyeti
Pratik alıştırmalar
Okumak yeterli değildir; öğrenmeyi pekiştirmek için küçük bir side-project veya mevcut kod tabanınızda şu görevleri uygulayın:
- Bir API route'a custom span ekleyin
- Hata log'unda traceId göründüğünü doğrulayın
Özet ve sonraki adımlar
Bu rehberdeki prensipleri tek seferde tüm projeye uygulamaya çalışmayın. Önce tek bir route veya modül seçin, ölçün, sonra yaygınlaştırın.
- Grafana Tempo/Jaeger dashboard
- SLO/SLA tanımı