إطار عملي لاختبار سلامة العينة العشوائية في قواعد البيانات الضخمة المجزأة دراسة تجريبية باستخدام المحاكاة الإحصائية
الكلمات المفتاحية:
قواعد البيانات المجزأة، سلامة العينة، التحيز الإحصائي، Bootstrap، KS-Test، Data Skewالملخص
مع التوسع المتسارع في حجم البيانات وتزايد الاعتماد على قواعد البيانات الموزعة، أصبحت مسألة سلامة العينات العشوائية المستخدمة في التحليلات الإحصائية تحديًا منهجيًا مهمًا. إذ قد يؤدي عدم توازن توزيع البيانات بين الأجزاء المختلفة (Data Skew) إلى تحيز إحصائي يؤثر في دقة التقديرات وموثوقية النتائج التحليلية. تهدف هذه الدراسة إلى تحليل تأثير هذا الانحراف على تمثيل العينة في البيئات الموزعة، واقتراح إطار عملي لاختبار سلامة المعاينة في قواعد البيانات الضخمة المجزأة. تقترح الدراسة إطارًا منهجيًا يُعرف باسم Reliable Sampling Framework (RSF)، والذي يجمع بين المعاينة الطبقية والتجزئة المتسقة، إلى جانب آلية تحقق إحصائي تعتمد على اختبار Kolmogorov–Smirnov وتقنية Bootstrap لتقييم التباين ودقة التقديرات. تم اختبار الإطار المقترح باستخدام بيئة محاكاة إحصائية لقاعدة بيانات كبيرة الحجم مقسمة إلى عدة أجزاء غير متساوية، بهدف تمثيل حالات عدم التوازن في البيانات.
أظهرت النتائج أن الاعتماد على المعاينة العشوائية البسيطة في البيئات المجزأة يؤدي إلى انحراف إحصائي ملحوظ مقارنة بتوزيع المجتمع الكلي، في حين ساهم تطبيق الإطار المقترح في تقليل الانحراف الإحصائي بنسبة كبيرة وتحسين استقرار تقديرات المتوسطات. كما بينت الاختبارات الإحصائية أن دمج المعاينة الطبقية مع التجزئة المتسقة يحقق تمثيلاً أكثر دقة لتوزيع المجتمع مقارنة بالأساليب التقليدية. تشير نتائج الدراسة إلى أن دمج مبادئ المعاينة الإحصائية مع خصائص البنى الموزعة يمكن أن يسهم بشكل فعال في تحسين موثوقية التحليلات في بيئات البيانات الضخمة، ويوفر إطارًا عمليًا يمكن توظيفه في أنظمة التحليل السحابي وأنظمة دعم القرار المعتمدة على البيانات الموزعة.

