عندما تخدعنا البيانات
كان ذلك صباح يومٍ مزدحم في مقرّ إحدى شركات البيع بالتجزئة الكبرى. جلس المدير التنفيذي أمام شاشة العرض، وإلى جواره فريق التسويق وتحليل البيانات. الأرقام كانت مبشّرة ومثيرة للحماس:
- ارتفاع في المبيعات بنسبة 22% خلال الشهر الماضي.
- زيادة ملحوظة في عدد الإعلانات الممولة على مواقع التواصل الاجتماعي خلال الفترة نفسها.
ابتسم المدير بثقة، ثم قال عبارته الحاسمة:
“واضح جداً… كلما زادت الإعلانات، ارتفعت المبيعات. إذن فلنضاعف الميزانية الإعلانية فورًا!”
اقتنع الجميع. لم يعترض أحد. تم اعتماد القرار.
بعد شهرين…
- المبيعات انخفضت بنسبة 8%.
- تكلفة الإعلانات تضاعفت.
- الأرباح تآكلت بشكل غير متوقع.
التفت المدير إلى فريق البيانات متسائلًا بغضب:
“هل كانت الأرقام خاطئة؟ هل أخطأتم في التحليل؟“
تنفس محلل البيانات الشاب بعمق، ثم قال بهدوء، وهو يحاول اختيار كلماته بعناية:
الأرقام لم تكن خاطئة يا سيدي… لكن التفسير كان خاطئًا. لقد رأينا ارتباطًا، فظنناه سببًا.”
ساد الصمت للحظات.
ثم أكمل المحلل:
“ليس كل ارتباط يعني أن أحد المتغيرين سبب للآخر. قد يتزامن الحدثان، لكن هذا لا يعني أن أحدهما هو السبب في حدوث الآخر. هنا وقع الخطأ…”
لماذا هذه القصة مهمة؟
لأنها تحدث يوميًا في عالم الأعمال:
- شركات تزيد الإنفاق التسويقي لمجرد أنها لاحظت ارتباطًا بين الإعلانات والمبيعات.
- بنوك تمنح قروضًا لأن “ارتفاع الدخل” مرتبط بـ”انخفاض التعثر” دون فحص الأسباب العميقة.
- إدارات موارد بشرية تعتقد أن “الموظفين الذين يظلون بعد مواعيد الدوام هم الأكثر إنتاجية“.
- محللون يرون خطين يصعدان مع بعضهما في مخطط بياني، فيظنون مباشرة أن أحدهما هو السبب في الآخر.
المشكلة في جملة واحدة:
الارتباط (Correlation) يخبرنا أن شيئين يحدثان معًا،
السببية (Causation) تخبرنا أن أحدهما هو سبب الآخر.
والخلط بينهما قد يكون كارثيًا.
الخطأ هنا ليس في الأرقام، بل في الاستنتاج.
هذا الخطأ يُسمى في علم تحليل البيانات:
الخلط بين الارتباط والسببية
وهو واحد من أخطر الفخاخ التحليلية (Data Pitfalls) التي قد يقع فيها حتى المحللين المحترفين.
لماذا هذا الخلط خطير جدًا؟
لأنه:
- يقود إلى قرارات خاطئة ومكلفة.
- يعطي ثقة زائفة في الأرقام.
- يخلق استنتاجات قد تبدو صحيحة ظاهريًا لكنها غير حقيقية علميًا.
- يضعف ثقة المديرين في البيانات والمحللين مستقبلًا.
لذا فإن ؛
كل علاقة سببية فيها ارتباط.
لكن ليس كل ارتباط يعني سببية.
“Correlation does not imply causation.”
تمامًا كما نقول:
· “إذا هطل المطر، ستبتل الأرض.” هذه سببية.
· لكن “إذا ارتفعت مبيعات الايس كريم، تزيد حالات الغرق.” هذا ارتباط فقط ، فمع بعض التفكير في هذه المسألة يمكننا أن نفهم أن هناك عامل ما يؤدى إلى ارتفاع استهلاك الايس كريم ويؤدى في الوقت ذاته الى ارتفاع حوادث الغرق، ألا وهو ارتفاع درجة الحرارة ففي شهور الصيف يكثر استهلاك الآيس كريم، ويذهب الناس إلى الشواطئ وبالتالي تزيد حوادث الغرق والعامل المشترك هو حرارة الجو.
ماذا يحدث إذا خلطنا بينهما؟ (تأثير كارثي على القرارات)
|
مثال من الواقع |
النتيجة |
|
شركة ضاعفت إعلاناتها بناءً على ارتباط وهمي، فخسرت جزءًا من أرباحها. |
خسائر مالية |
|
ظنّت شركة تجميل أن زيادة التفاعل على إنستغرام تعني زيادة المبيعات، فاستثمرت في المحتوى الخطأ. |
قرارات تسويقية خاطئة |
|
تحليل بيانات أظهر أن العملاء المخلصين يشترون دائماً أثناء التخفيضات، فظنت الشركة أن التخفيض هو السبب… بينما السبب الحقيقي هو قوة العلامة التجارية. |
سوء فهم لسلوك العملاء |
|
ظنّت إدارة الموارد البشرية أن الموظفين الذين يحضرون مبكرًا أكثر إنتاجية… ثم اكتشفت أن بعضهم يحضر مبكرًا فقط لتجنب الازدحام، وليس للعمل الجاد. |
تحيّز في التوظيف والموارد البشرية |
و السؤال الآن:
كيف نميز بين العلاقة الحقيقية Causation والعلاقة المضللة Correlation؟
وكيف يؤثر هذا الفهم على القرارات والتحليل، خصوصًا في عالم البيزنس والبيانات؟
الأساس العلمي – ما بين الارتباط والسببية
بعد أن عرضنا المشهد الذي قد يحدث في أي شركة، حان الوقت لنضع الأساس العلمي.
” لأن أخطر ما يواجه المحلل ليس نقص الأدوات، بل ضعف الفهم النظري الذي يقوده إلى استنتاجات مضللة. “
v ما هو الارتباط (Correlation)؟
الارتباط هو مفهوم إحصائي يعبر عن مدى حركة متغيرين معًا : أي هل يميلان إلى الارتفاع أو الانخفاض في الوقت نفسه، أو يتحركان في اتجاهين متعاكسين.
بمعنى أبسط:
إذا ارتفع المتغير الأول ورافقه ارتفاع في المتغير الثاني، نقول إن العلاقة ارتباطية إيجابية.
أما إذا ارتفع أحدهما وانخفض الآخر، فالعلاقة ارتباطية سلبية.
وإذا لم يظهر أي نمط واضح، فالارتباط ضعيف أو معدوم.
مقياس الارتباط الأكثر شيوعًا هو معامل الارتباط لبيرسون (Pearson Correlation Coefficient):
ومعادلة حسابه هي :
ومعامل الارتباط يُرمز له بالحرف r ، وقيمته تتراوح من -1 إلى +1 وتشير الإشارة الموجبة إلى الارتباط الإيجابي و الإشارة السالبة إلى الارتباط السلبي و مقدار الارتباط يتضح كالتالي :
ومن الأمثلة على ذلك :
|
مثال |
الوصف |
النوع |
|
زيادة السعر ß زيادة الجودة |
المتغيران يزيدان أو ينقصان معًا |
ارتباط إيجابي |
|
زيادة سرعة السيارة ß تقليل وقت الرحلة |
أحدهما يرتفع، الآخر ينخفض |
ارتباط سلبي |
|
العلاقة بين الضغط النفسي والإنتاجية |
العلاقة ليست خط مستقيم |
ارتباط غير خطّي |
|
عدد الأفلام التي ظهر فيها ممثل معين مرتبط بحالات الغرق (صدفة!) |
يظهر ارتباط لكنه غير حقيقي |
ارتباط وهمي (Spurious) |
v ما هي السببية (Causation)
السببية تعني أن المتغير الأول هو السبب المباشر لتغيّر المتغير الثاني. أي أنه لو قمنا بالتحكم في السبب وتغييره، فإن النتيجة ستتغير بشكل متكرر ويمكن التنبؤ به.
مثال واضح:
إذا أطفأنا مصدر الكهرباء، تتوقف الآلة عن العمل → علاقة سببية حقيقية.
شروط إثبات علاقة سببية:
لكي نقول أن (أ) هو سبب (ب)، يجب أن تتحقق ثلاثة شروط:
|
الشرط |
التفسير |
مثال |
|
1. التتابع الزمني |
السبب يحدث قبل النتيجة |
لا يمكن أن نقول إن ارتفاع المبيعات سبب زيادة الإعلانات، إذا كانت الإعلانات بدأت بعدها |
|
2. وجود ارتباط واضح |
يجب أن يكون هناك علاقة بين المتغيرين |
لا يمكن أن نتحدث عن سبب ونتيجة بلا أي ارتباط |
|
3. غياب تأثير العوامل الأخرى |
يجب استبعاد المتغيرات الخافية (Confounders) |
ارتفاع مبيعات المثلجات وارتفاع الغرق كلاهما سببه حرارة الصيف |
إذا اختلّ شرط واحد فقط من هذه الشروط، تصبح العلاقة مجرد ارتباط، وليست سببية.
️لماذا يخلط الناس بين الارتباط والسببية؟
هناك عدة أسباب نفسية وعلمية تجعلنا نقع في هذا الفخ:
|
السبب |
كيف يحدث الخلط؟ |
|
العقل يحب القصص لا الأرقام |
الإنسان يميل لتفسير كل علاقة بقصة: “زاد هذا، إذن لأنه بسبب ذاك!” |
|
السرعة في اتخاذ القرار |
المدير لا ينتظر تحليلًا متعمقًا، فيفترض أن أي علاقة تعني سببية مباشرة |
|
ضعف المعرفة الإحصائية |
البعض يستخدم معامل الارتباط فقط في تقريره ويعتبره كافياً لإثبات السببية |
|
ضغط الإدارة على فرق التحليل |
أحياناً الإدارة تطلب “إجابات سريعة”، فيُضطر المحلل لتبسيط الحقيقة |
من الارتباط إلى السببية : كيف نفهم، نقيس، ونثبت؟
بعد أن أصبح الفرق النظري بين الارتباط (Correlation) والسببية (Causation) واضحًا، ينتقل المحلل الذكي من مرحلة الفهم إلى مرحلة التطبيق:
كيف نقيس العلاقة؟ وكيف نعرف هل هي مجرد ارتباط… أم سببية حقيقية نستطيع أن نبني عليها قرارًا أو استراتيجية؟
هذا الجزء هو الجسر بين النظرية والتطبيق.
كيف نقيس الارتباط إحصائيًا؟
هناك أكثر من طريقة لقياس قوة واتجاه العلاقة بين متغيرين، أشهرها:
|
الأداة |
الوصف |
تُستخدم عندما… |
|
Pearson Correlation |
يقيس العلاقة الخطّية بين متغيرين رقميين |
إذا كانت البيانات كمية (Numerical) |
|
Spearman Rank Correlation |
يقيس العلاقة المرتّبة (غير الخطية) |
إذا كانت البيانات ترتيبية أو لا تتبع التوزيع الطبيعي |
|
Kendall Tau |
يقيس انسجام ترتيب القيم |
إذا كانت العينة صغيرة أو فيها قيم متساوية |
مثال عملي:
إذا كانت العلاقة بين عدد الإعلانات والمبيعات ß r = 0.82 فهذا ارتباط قوي وإيجابي، لكنه لا يعني السببية بعد.
كيف نثبت السببية؟
إثبات السببية أصعب بكثير من إثبات الارتباط، لأنه يتطلب التأكد من أن المتغير (X) هو الذي تسبب مباشرة في تغيير المتغير (Y)، وليس مجرد تزامن عرضي.
هناك ثلاث طرق رئيسية لإثبات السببية:
الطريقة الأولى: التجربة العلمية (Experiment / A/B Testing)
وهي الطريقة الأكثر قوة (Gold Standard)، وتُطبق كالتالي:
|
الخطوة |
التفسير |
|
تقسيم العينة إلى مجموعتين |
Group A (تجريبية) ، Group B (ضابطة) |
|
تغيير متغير محدد في المجموعة A فقط |
مثال: تغيير لون زر الشراء |
|
تثبيت جميع الظروف الأخرى |
السعر، التوقيت، المنصة… إلخ |
|
ملاحظة النتيجة |
إذا تغيّر السلوك فقط في A → احتمال سببية قوي |
مثال من البيزنس:
شركة تجارة إلكترونية تقرر تجربة لونين لزر “اشترِ الآن“:
· عملاء A يرون الزر الأحمر
· عملاء B يرون الزر الأخضر
بعد 10,000 زيارة:
· الأحمر → 12% شراء
· الأخضر → 7% شراء
→ هنا يمكن القول أن اللون الأحمر سبب زيادة المبيعات (Causation).
الطريقة الثانية : تحليل الانحدار (Regression Analysis)
الانحدار (Regression) ليس مجرد رسم خط على البيانات، بل وسيلة لفهم:
· هل المتغير المستقل X يؤثر فعليًا على المتغير Y؟
· أم أن هناك متغيرات ثالثة تؤثر في الخلفية؟
o الصيغة الأساسية للانحدار الخطي:
Y= المتغير التابع (النتيجة التي نريد تفسيرها، مثل المبيعات).
X = المتغير المستقل (السبب المحتمل، مثل الإنفاق على الإعلانات).
β₀ = الجزء الثابت ( قيمة Y عندما يكون X = 0) .
β₁ = معامل الانحدار، وهو الذي يُظهر مقدار التغيّر في Y عندما يتغير X بمقدار وحدة واحدة.
ε = العشوائية أو الأخطاء (العوامل غير المرصودة التي تؤثر في النتيجة).
“فإذا كانت قيمة β₁ كبيرة ودالة إحصائيًا (p-value < 0.05) → فهذا يدل على تأثير X على Y مع التحكم في العشوائية.”
v ما معنى أن تكون قيمة β₁ “كبيرة ودالة إحصائيًا”؟
1. كبيرة (Magnitude):
أي أن التغيير في X يؤدي إلى تغيير ملموس في Y.
كلما كانت القيمة المطلقة لـ β₁ أكبر، كان التأثير أقوى.
مثال عملي:
المبيعات= 1000+20×الإعلانات
هذا يعني أن كل زيادة بوحدة واحدة في الإنفاق الإعلاني تؤدي إلى زيادة 20 وحدة في المبيعات (تأثير قوي وواضح).
2. دالة إحصائيًا (Statistically Significant):
أي أن هذا التأثير ليس مجرد صدفة.
يتم اختبار ذلك باستخدام ما يسمى بـ p-value.
¨ ما هي الـ p-value؟
هي احتمال أن نحصل على نفس النتيجة ( قيمة β₁ الحالية) عن طريق الصدفة البحتة، حتى لو لم يكن هناك تأثير حقيقي بين X و Y في الواقع.
ü إذا كانت p-value < 0.05 (أي أقل من 5%)
→ فهذا يعني أن احتمال أن تكون النتيجة صدفة = أقل من 5%.
→ وبالتالي نثق أن العلاقة حقيقية وليست عشوائية.
ü أما إذا كانت p-value > 0.05
→ فهذا يعني أن النتيجة غير موثوقة إحصائيًا، ولا يمكننا الجزم بوجود تأثير فعلي.
ü
مثال من الواقع لتوضيحها أكثر:
الحالة:
شركة تريد معرفة ما إذا كان الإنفاق الإعلاني (X) يؤثر على المبيعات الشهرية (Y).
بعد تحليل بيانات 12 شهرًا، كانت النتيجة:
Y=1500+25X
مع:
· β₁ = 25
· p-value = 0.01
التفسير:
· قيمة β₁ = 25 ß كل زيادة بـ1,000 جنيه في الإعلانات تؤدي إلى زيادة 25,000 جنيه في المبيعات.
· ß p-value = 0.01 الاحتمال أن تكون هذه النتيجة مجرد صدفة = 1% فقط ؞ موثوقة جدًا.
الاستنتاج:
هناك علاقة سببية محتملة بين الإنفاق الإعلاني والمبيعات، ويمكن الاعتماد عليها في القرار.
لكن انتبه:
حتى لو كانت النتيجة “دالة إحصائيًا”، لا يعني ذلك أن العلاقة سببية بالضرورة !؟ فقد يكون هناك متغيرات خفية (Confounding Variables) لم تُدرج في النموذج، مثل:
· تغيّر المواسم.
· العروض الترويجية.
· المنافسة.
لهذا السبب نقول دائمًا:
“الانحدار يُساعد في التحكم بالعشوائية… لكنه لا يثبت السببية الكاملة إلا إذا تم استبعاد جميع المتغيرات الأخرى المحتملة.”
الطريقة الثالثة : نماذج الاستدلال السببي (Causal Inference Models)
تُستخدم هذه الأدوات عندما لا يمكن إجراء تجارب حقيقية A/B Testing أو التحكم بالبيئة، مثل:
· السياسات الحكومية،
· الرعاية الصحية،
· التعليم،
· البيانات التاريخية.
v أهم هذه النماذج:
|
النموذج |
الاستخدام |
مثال |
|
Propensity Score Matching (PSM) |
مقارنة مجموعتين متشابهتين باستثناء متغير واحد |
هل التدريب يزيد الإنتاجية؟ |
|
Difference-in-Differences (DiD) |
مقارنة التغيير قبل وبعد مع مجموعة أخرى غير متأثرة |
هل فرض الضريبة رفع الأسعار فعلًا؟ |
|
Granger Causality |
هل قيمة X تساعد في توقع Y مستقبلًا؟ |
هل أسعار النفط تسبب تغيّر سعر الدولار؟ |
|
Instrumental Variables (IV) |
البحث عن متغير “خارجي” يؤثر على X فقط |
مثال: تأثير التعليم على الدخل |
أثر الخلط بين الارتباط والسببية على القرارات !!
بعد أن رأينا كيف يمكن للارتباط (Correlation) أن يخدعنا إذا تعاملنا معه كسببية (Causation)، حان الوقت للإجابة على سؤال بالغ الأهمية لأي مدير أو محلل بيانات:
ما الثمن الحقيقي للخلط بين الارتباط والسببية؟
وكيف يمكن حماية القرارات الإدارية والتحليلية من الوقوع في هذا الفخ؟
كيف يمكن أن يدمّر هذا الخلط قرارات الشركات؟
|
مثال واقعي |
كيف يحدث؟ |
نوع التأثير |
|
شركة تضاعف ميزانية التسويق لأن المبيعات ارتفعت في موسم العيد… ثم تنهار النتائج بعد الموسم |
يتم اعتبار إعلان معين أو حملة تسويق سببًا رئيسياً في زيادة المبيعات دون تحليل عميق |
قرارات تسويقية خاطئة |
|
سلسلة مطاعم تطلق فرعاً جديداً في مدينة معينة لأنها “تشبه المدينة الناجحة السابقة”… وتتجاهل اختلاف القوة الشرائية والسكان |
استثمارات تُنفّذ على أساس علاقة سطحية لا تتكرر ولا يمكن تعميمها |
خسائر مالية مباشرة |
|
مدير الموارد البشرية يعتقد أن “الدوام الإضافي = التزام”، فيُهمل الموظفين الأكفأ الذين يعملون بكفاءة ويغادرون في وقتهم |
المدير يبدأ بفرضيات مسبقة ويبحث فقط عن أرقام تؤكدها (Confirmation Bias) |
تحيز في القرارات |
|
“الأرقام لا تعني شيئاً… اعتمدوا على الحدس فقط” ؛ جملة تظهر في المؤسسات المُنهكة من التحليل الخاطئ |
عندما يتكرر الخطأ، يبدأ المدير التنفيذي بفقدان ثقته في فريق البيانات |
إضعاف الثقة في البيانات والتحليل |
لماذا يُعتبر هذا الخطأ “خيانة غير مقصودة” للبيانات؟
لأن البيانات لم تقل شيئًا خاطئًا… بل نحن من بالغنا في تفسيرها.
الارتباط يخبرك فقط: “هناك علاقة ما بين المتغيرين.”
لكن السببية تقول: ” التغير في (أ) يؤدي إلى التغير في (ب) — بشكل مباشر قابل للتكرار.”
الخطأ الأكبر يحدث هنا: عندما نستخدم نتائج الارتباط كدليل لاتخاذ قرار سببي.
علامات واضحة تدل على أن التحليل ربما وقع في فخ الارتباط الوهمي:
· إذا تم استخلاص القرارات قبل اختبار الفرضية.
· إذا لم يتم استخدام A/B Testing أو تحليل تجريبي.
· إذا تم الاعتماد على “نسبة” أو “خط بياني” فقط دون ذكر عوامل أخرى.
· إذا كان التقرير يفتقد لعبارة مثل:
o “بعد التحكم في بقية المتغيرات”
“statistically significant”
“p-value < 0.05”
· إذا كانت الجملة تبدأ بـ:
“نلاحظ أنه كلما حدث (أ)، حدث (ب)، إذن فـ(أ) سبب (ب)” — مباشرة!
كيف نحمي قراراتنا؟ (Framework عملي لكل محلل بيانات ومدير)
1. اسأل سؤال الشك قبل أن تُصدّق الأرقام:
- هل يمكن أن تكون هناك علاقة عكسية؟
- هل يمكن أن يكون هناك متغير ثالث؟
- هل العامل الزمني يؤثر؟
- هل تمت تجربة الفرضية تجريبياً؟
2. استخدم “سلسلة التفكير السببي” (Causal Chain) :
مثال:
ارتفاع الإعلانات ß زيادة الزيارات ß زيادة سلة الشراء ß ارتفاع الإيرادات
إذا لم يوجد هذا التسلسل، فلا توجد سببية حقيقية.
3. لا تكتفِ بفترة زمنية واحدة… اختبر على بيانات جديدة (Validation):
|
ماذا تفعل؟ |
المرحلة |
|
|
بناء الفرضية والعلاقة |
Training Data |
|
|
اختبار أولي للفرضية |
Testing Data |
|
|
التأكد من قدرتها على التكرار والاستمرارية |
Validation Data |
|
4. استخدم أدوات إثبات السببية عند الحاجة:
|
الحالة |
الأداة المناسبة |
|
الحملات التسويقية |
A/B Testing |
|
تأثير السعر على الطلب |
Regression Analysis |
|
تحليل سلوك العملاء |
Propensity Score Matching |
|
السياسة أو القرارات الحكومية |
Difference-in-Differences (DiD) |
|
البيانات الزمنية (time series) |
Granger Causality |
5. Check-List قبل إتخاذ أي قرار مبني على البيانات :
v اسئلة محوريه :
هل العلاقة سببية أم مجرد ارتباط؟
هل السبب يحدث قبل النتيجة؟
هل اختبرنا الفرضية تجريبيًا؟
هل تحكمنا في المتغيرات المؤثرة الأخرى؟
هل يمكن تكرار النتيجة في ظروف مختلفة؟
هل يوجد تفسير منطقي يدعمه الواقع، لا الأرقام فقط؟
كلمة أخيرة…
في عالم تتزايد فيه البيانات كل ثانية، يصبح الفارق بين شركة تخسر الملايين وأخرى تكسب السوق هو شيء بسيط… لكنه قوي:
القدرة على فهم “لماذا” وليس فقط “ماذا”.

Add comment