هل أنت قلق بشأن جودة بياناتك؟ إذا كان الأمر كذلك، فيجب أن تفكر في استخدام مؤشرات جودة البيانات لضمان دقة وموثوقية بياناتك.
مقاييس جودة البيانات هي أدوات تساعدك على قياس جودة بياناتك. ويمكنها مساعدتك في تحديد الأخطاء والتناقضات، وكذلك تتبع التغييرات بمرور الوقت. ومن خلال استخدام مقاييس جودة البيانات، يمكنك تحسين جودة بياناتك واتخاذ قرارات أفضل بشأنها.
ولكن ما هي مؤشرات جودة البيانات التي تُحدث الفارق الأكبر في جمع البيانات وتحليلها؟ يكشف هذا المنشور كل شيء، كما نوضح لكم السر وراء الحصول على هذه المؤشرات من خلال استخراج البيانات من الويب.
ما هي مؤشرات جودة البيانات الأكثر أهمية التي يجب متابعتها؟
من المهم قياس عدد من مؤشرات جودة البيانات المختلفة، اعتمادًا على نوع البيانات التي تعمل عليها. على سبيل المثال، لنفترض أنك تعمل على بيانات العملاء. في هذه الحالة، من المهم قياس عوامل مثل الدقة (هل سجلات العملاء دقيقة؟)، والاكتمال (هل تم ملء جميع الحقول المطلوبة؟)، والتوقيت (هل يتم تحديث البيانات على الفور؟).

وتشمل المقاييس المهمة الأخرى لجودة البيانات عناصر مثل الاتساق (هل البيانات متسقة عبر المصادر المختلفة؟)، والتفرد (هل توجد سجلات مكررة؟)، والصحة (هل تقع البيانات ضمن النطاق الصحيح؟). ومن المهم أيضًا تتبع تواتر حدوث مشكلات جودة البيانات (النسب والسلامة) ووضع إجراءات مطبقة لإصلاح أي مشكلات تنشأ بسرعة.
دعونا نلقي نظرة عن كثب عليها.
الدقة.
الدقة هي أحد مقاييس جودة البيانات، وهي تشير إلى النسبة المئوية للبيانات التي تم تصنيفها أو وسمها بشكل صحيح. على سبيل المثال، إذا كانت مجموعة البيانات تحتوي على 100 سجل، وكان 90 منها قد تم وسمها بشكل صحيح، فإن الدقة تبلغ 90%.
هناك عدة طرق لحساب الدقة، لكن الطريقة الأكثر شيوعًا هي استخدام الصيغة التالية:
الدقة = (النتائج الإيجابية الصحيحة + النتائج السلبية الصحيحة) / إجمالي عدد السجلات
النتائج الإيجابية الحقيقية هي السجلات التي تم تصنيفها بشكل صحيح على أنها إيجابية، أما النتائج السلبية الحقيقية فهي السجلات التي تم تصنيفها بشكل صحيح على أنها سلبية.
فيما يتعلق بالدقة، من المهم أن نتذكر أنها ليست دائمًا المقياس الأهم. على سبيل المثال، لنفترض أنك تحاول التنبؤ بما إذا كان مريض ما مصابًا بمرض أم لا. في هذه الحالة، قد يكون اهتمامك منصبًّا على معدل الإيجابية الكاذبة (النسبة المئوية للمرضى الأصحاء الذين تم تصنيفهم خطأً على أنهم مصابون بالمرض) أكثر من اهتمامك بالدقة.
الاكتمال.
من ناحية أخرى، يشير مصطلح «الاكتمال» إلى مدى تضمين جميع البيانات ذات الصلة في مجموعة البيانات. ويُعد الاكتمال مقياسًا لجودة البيانات يقيّم نسبة البيانات التي ينبغي أن تكون موجودة إلى تلك الموجودة فعليًّا. وقد تكون البيانات غير مكتملة لأسباب متنوعة، منها القيم المفقودة، والقيم غير الصحيحة، والقيم غير المحدثة. ويُعد الاكتمال أمرًا مهمًّا لأنه يمكن أن يؤثر على دقة البيانات وفائدتها.
التوقيت المناسب.
يُعد «التوقيت» أحد الجوانب المهمة لجودة البيانات، وهو يشير إلى مدى حداثة البيانات. ويُعد التوقيت أمرًا مهمًا لأن البيانات القديمة جدًّا قد لا تكون ذات صلة أو دقيقة بعد الآن. على سبيل المثال، قد لا تكون البيانات المتعلقة بعدد الأشخاص الذين توفوا جراء مرض ما دقيقة إذا كانت تعود إلى 10 سنوات مضت.
هناك طريقتان رئيسيتان لقياس مدى سرعة الاستجابة: الوقت الفعلي والوقت شبه الفعلي. البيانات في الوقت الفعلي هي البيانات التي يتم جمعها ومعالجتها فور إنتاجها. أما البيانات في الوقت شبه الفعلي، فيتم جمعها ومعالجتها بعد وقت قصير من إنتاجها.
يعتمد اختيار إحدى هاتين الطريقتين على التطبيق المحدد. على سبيل المثال، ستكون البيانات في الوقت الفعلي أكثر أهمية لاتخاذ القرارات استنادًا إلى أحدث المعلومات، إذا كانت البيانات تُستخدم لرصد تفشي مرض ما.
الاتساق.
يُعد الاتساق عاملاً مهمًا عند قياس جودة البيانات، لأنه يضمن قابلية مقارنة البيانات عبر عمليات القياس المختلفة. فإذا كانت البيانات غير متسقة، يصعب مقارنتها وفهمها. وهناك العديد من العوامل التي يمكن أن تؤثر على اتساق البيانات، مثل طريقة القياس والوقت والبيئة التي يتم فيها إجراء القياس. ولضمان الاتساق، من المهم استخدام نفس طريقة القياس، وإجراء القياسات في وقت واحد، والتحكم في المتغيرات الأخرى التي قد تؤثر على البيانات.
التفرد.
هناك طريقة أخرى للنظر إلى قياس جودة البيانات من منظور التفرد. أي، ما مدى تفرد كل عنصر من عناصر البيانات؟ على سبيل المثال، إذا كانت لديك مجموعة بيانات تحتوي على أسماء وعناوين العملاء، فقد ترغب في معرفة عدد الأسماء والعناوين الفريدة الموجودة فيها. ويمكن أن تكون هذه طريقة جيدة لقياس جودة البيانات؛ لأنه في حالة وجود الكثير من التكرارات، فقد يعني ذلك أن البيانات ليست دقيقة تمامًا.
الصلاحية.
الصحة هي مدى دقة المقياس في التعبير عن المفهوم الذي يهدف إلى قياسه. ولكي يكون المقياس صحيحًا، يجب أن يكون موثوقًا أولاً. وهذا يعني أن المقياس يجب أن يعطي نتائج متسقة عبر المواقف المختلفة وعبر المقاييس المختلفة. وإذا لم يكن المقياس موثوقًا، فلا يمكن أن يكون صحيحًا.
هناك نوعان من الصلاحية: صلاحية المحتوى وصلاحية البناء.
- صحة المحتوى هي المدى الذي يغطي فيه المقياس المفهوم بأكمله الذي يُقصد قياسه. على سبيل المثال، فإن مقياس القلق الذي يقتصر على تقييم الخوف من الطيران لن يتمتع بصحة محتوى جيدة لأنه لا يغطي جميع جوانب القلق.
- صحة البناء هي المدى الذي يعكس فيه المقياس بدقة البناء النظري الذي يهدف إلى قياسه. على سبيل المثال، فإن مقياس القلق الذي يتضمن بنودًا تتعلق بالخوف من الطيران، والتحدث أمام الجمهور، والمرتفعات، سيكون له صحة بناء جيدة لأنه يقيس بناء القلق.
هناك عدة طرق لإثبات الصلاحية، منها إجماع الخبراء، والصلاحية الظاهرية، والصلاحية التوافقية، والصلاحية التمييزية، والصلاحية التنبؤية.
- يُقصد بالإجماع بين الخبراء أن يتفق الخبراء في المجال المعني على أن مقياسًا ما يُعد مقياسًا جيدًا للمفهوم الذي يُقصد قياسه.
- الصلاحية الظاهرية هي الحالة التي يبدو فيها أن المقياس يقيس ما يُفترض أن يقيسه.
- تُعرف الصلاحية التوافقية بأنها الترابط بين مقياس ما ومقاييس أخرى لنفس البناء.
- تُعرف «الصلاحية التمييزية» بأنها عدم وجود ارتباط بين مقياس ما ومقاييس البنى الأخرى. أما «الصلاحية التنبؤية» فهي قدرة المقياس على التنبؤ بالنتائج المستقبلية.
النسب.
تُعرف «سلسلة النسب» بأنها عملية تتبع أصول عناصر البيانات وتحركاتها أثناء انتقالها عبر المؤسسة. وهي عنصر أساسي في إدارة جودة البيانات، حيث تتيح للمؤسسات تتبع تاريخ عناصر البيانات وتحديد أي أخطاء قد تكون حدثت أثناء معالجتها. ويمكن استخدام «سلسلة النسب» لتقييم جودة عناصر البيانات، وتحديد المشكلات المحتملة في معالجة البيانات، وتحديد الأسباب الجذرية لمشكلات جودة البيانات.
النزاهة.
فيما يتعلق بقياس جودة البيانات، تشير «السلامة» إلى دقة البيانات واكتمالها. بعبارة أخرى، تقيس مدى دقة تمثيل البيانات للظاهرة الواقعية التي من المفترض أن تقيسها. فالبيانات ذات السلامة العالية تكون دقيقة وكاملة، في حين أن البيانات ذات السلامة المنخفضة تكون غير دقيقة و/أو غير كاملة.
هناك عدة طرق لقياس سلامة البيانات، لكن إحدى أكثرها شيوعًا هي النسبة المئوية للقيم المفقودة. تشير النسبة المئوية العالية للقيم المفقودة إلى انخفاض مستوى سلامة البيانات، حيث إن جزءًا كبيرًا من البيانات غير متاح للتحليل. ومن المقاييس الشائعة الأخرى النسبة المئوية للقيم غير الصالحة. والقيم غير الصالحة هي القيم التي لا تستوفي متطلبات مجموعة البيانات (على سبيل المثال، إذا كانت مجموعة البيانات تتطلب أن تكون جميع القيم موجبة، فإن أي قيمة سالبة ستُعتبر غير صالحة). كما تشير النسبة المئوية العالية للقيم غير الصالحة أيضًا إلى انخفاض سلامة البيانات.
تعد سلامة البيانات أمرًا مهمًا لأنها تؤثر على دقة أي تحليلات تُجرى على تلك البيانات. فقد تؤدي البيانات غير الدقيقة أو غير الكاملة إلى استنتاجات خاطئة. على سبيل المثال، إذا احتوت مجموعة بيانات على العديد من القيم المفقودة، فقد تكون أي استنتاجات تُستخلص من تلك المجموعة غير دقيقة. وبالمثل، إذا احتوت مجموعة بيانات على عدد كبير من القيم غير الصحيحة، فقد تكون أي استنتاجات تُستخلص من تلك المجموعة غير دقيقة أيضًا.
من المهم ملاحظة أن سلامة البيانات تختلف عن جودة البيانات. تشير جودة البيانات إلى الفائدة الإجمالية للبيانات، بينما تشير سلامة البيانات على وجه التحديد إلى دقة البيانات واكتمالها. فقد تكون البيانات عالية الجودة ولكن سلامتها منخفضة (على سبيل المثال، إذا كانت قديمة ولم تعد دقيقة)، أو قد تكون البيانات منخفضة الجودة ولكن سلامتها عالية (على سبيل المثال، إذا كانت رديئة الجودة ولكنها لا تزال كاملة ودقيقة).
استخراج البيانات من الويب والبروكسيات السكنية.
هناك العديد من مؤشرات جودة البيانات التي يتعين على الشركات تتبعها لضمان نظافة ودقة بياناتها. ومع ذلك، فإن تتبع هذه المؤشرات يدويًّا قد يستغرق وقتًا طويلاً ويكون مكلفًا. وللمواكبة، من الضروري استخدام أدوات استخراج البيانات من الويب المناسبة للمساعدة في جمع البيانات وتحليلها.
للاطلاع على مزيد من التفاصيل، يمكنك الاطلاع على «أدوات استخراج البيانات من الويب المجانية».
يُعد استخراج البيانات من الويب باستخدام بروكسيات IPBurger السكنية أفضل طريقة للحصول على مقاييس دقيقة لجودة البيانات. تتيح لك البروكسيات استخراج البيانات بسرعة وسهولة من مصادر متعددة، مما يوفر بيانات دقيقة وحديثة يمكنك الوثوق بها.
