مسرد المراقبة وإمكانية الرصد
تعريفات دقيقة وواضحة لمصطلحات المراقبة والرصد — لتفهمها بسرعة وتستخدمها بثقة.
إمكانية الرصد
إمكانية الرصد هي القدرة على فهم الحالة الداخلية لنظام من خلال فحص البيانات التي يُنتجها خارجيًا — أساسًا السجلات والمقاييس والتتبّع — بحيث تستطيع الإجابة عن أسئلة جديدة حول سلوكه دون نشر شيفرة جديدة.
APM
APM هو ممارسة قياس أداء التطبيق وموثوقيته — أساسًا زمن الاستجابة والإنتاجية ومعدّل الأخطاء — على مستوى المعاملات الفردية، بحيث تجد وتُصلح مسارات الشيفرة البطيئة أو الفاشلة في الإنتاج.
تتبّع الأخطاء
تتبّع الأخطاء هو ممارسة التقاط استثناءات التطبيق تلقائيًا، وتجميع المتطابقة منها في مشكلة واحدة، وتنبيه فريقك — مع مسار الاستدعاء وفتات التتبّع وسياق الإصدار اللازمة لإعادة إنتاج كل خطأ وإصلاحه.
التتبّع الموزّع
التتبّع الموزّع تقنية لمتابعة طلب واحد وهو يسافر عبر خدمات متعدّدة، تربط كل خطوة في خطّ زمني واحد من المقاطع عبر معرّف تتبّع مشترك وسياق منشور.
إدارة السجلات
إدارة السجلات هي ممارسة جمع وتحليل وفهرسة والبحث في بيانات السجلات والاحتفاظ بها عبر تطبيقاتك وبنيتك التحتية، لتحقّق في السلوك وتشخّص المشكلات من مكان واحد قابل للبحث.
إعادة تشغيل الجلسة
إعادة تشغيل الجلسة تقنية تُعيد بناء جلسة المستخدم في المتصفّح كتسجيل قابل للإعادة لتغيّرات DOM والتفاعلات، تتيح لك مشاهدة ما رآه المستخدم وفعله بالضبط حين وقع عُطل أو تجربة مربكة.
OpenTelemetry
OpenTelemetry (OTel) معيار مفتوح محايد للمورّدين من CNCF — مجموعة من واجهات البرمجة وSDKs وبروتوكول OTLP السلكي — لإنتاج وتصدير بيانات القياس (التتبّع والمقاييس والسجلات) من برمجياتك إلى أي خلفية متوافقة.
مراقبة المستخدم الحقيقي
مراقبة المستخدم الحقيقي (RUM) هي ممارسة قياس التجربة الفعلية للزوّار الحقيقيين وهم يستخدمون موقعك أو تطبيقك في متصفّحاتهم — أزمنة تحميل الصفحة وCore Web Vitals والتفاعلات والأخطاء — لا من اختبار محاكى.
التسجيل المُهيكل
التسجيل المُهيكل هو ممارسة كتابة مدخلات السجل كبيانات مفتاح-قيمة قابلة للتحليل آليًا — عادةً JSON — بدل نص حرّ، بحيث يمكن البحث في الحقول وتصفيتها وتجميعها بموثوقية عبر نظام إدارة سجلات.
MTTR
MTTR هو متوسّط الزمن الذي يستغرقه الفريق للتعافي من عطل، ويُقصد به غالبًا متوسّط زمن التعافي، كما يُستخدم أحيانًا للإصلاح أو الحل أو الاستجابة.
SLO وSLA وSLI
SLI مؤشّر مقيس لصحّة الخدمة، وSLO هو الهدف الداخلي الذي تضعه على ذلك المؤشّر، وSLA هو العقد الخارجي الذي يَعِد بمستوى خدمة ويحدّد عواقب الإخفاق فيه.
ميزانية الأخطاء
ميزانية الأخطاء هي القدر المسموح به من عدم الموثوقية خلال نافذة زمنية — أي 100% ناقص SLO — والذي يمكن للفريق «إنفاقه» قبل أن تُقدَّم أعمال الموثوقية على الميزات الجديدة.
صفحة الحالة
صفحة الحالة صفحة ويب مخصّصة تُطلع المستخدمين علنًا على صحّة الخدمة لحظيًا وعلى حالة أي حوادث جارية.
مراقبة زمن التشغيل
مراقبة زمن التشغيل ممارسة فحص توفّر الخدمة واستجابتها بشكل متكرّر من خارج النظام، كي تعرف أنها متوقّفة في اللحظة التي يعرفها مستخدموك.
نسب زمن الاستجابة المئوية
نسبة مئوية لزمن الاستجابة مثل p99 تخبرك بزمن الاستجابة الذي يكون 99% من الطلبات أسرع منه، كاشفةً الذيل البطيء الذي تخفيه المتوسّطات.
إدارة الحوادث
إدارة الحوادث هي العملية المنظّمة التي يستخدمها الفريق لاكتشاف الاضطرابات غير المخطّطة في خدمة، والاستجابة لها، وحلّها، والتعلّم منها.
ركائز القابلية للرصد الثلاث
ركائز القابلية للرصد الثلاث هي المقاييس والسجلات والتتبّعات — ثلاثة أنواع بيانات متكاملة تتيح لك معًا فهم الحالة الداخلية للنظام من مخرجاته.
تتبّع الأخطاء مقابل APM مقابل السجلات
تتبّع الأخطاء وAPM والسجلات فئات متداخلة لكنها متمايزة: فتتبّع الأخطاء يلتقط الاستثناءات، وAPM يقيس الأداء، والسجلات تسجّل تدفّق الأحداث المفصّل.