معلومات الترابط النقطي (Pointwise Mutual Information)

مفهوم معلومات الترابط النقطي

لفهم PMI، من الضروري أولاً فهم بعض المفاهيم الأساسية. لنفترض أن لدينا حدثين، X و Y. الاحتمالية المشتركة لـ X و Y، يرمز لها بـ P(X, Y)، هي احتمالية حدوث كل من X و Y في نفس الوقت. أما الاحتمالات الهامشية لـ X و Y، يرمز لها بـ P(X) و P(Y)، على التوالي، فهي احتمالية حدوث كل حدث على حدة.

يتم تعريف PMI للحدثين X و Y على النحو التالي:

PMI(X; Y) = log(P(X, Y) / (P(X) * P(Y)))

حيث:

  • P(X, Y) هي الاحتمالية المشتركة لـ X و Y.
  • P(X) هي الاحتمالية الهامشية لـ X.
  • P(Y) هي الاحتمالية الهامشية لـ Y.
  • log هو اللوغاريتم، وعادة ما يكون اللوغاريتم الطبيعي أو اللوغاريتم الأساس 2.

تفسير PMI:

  • إذا كانت PMI(X; Y) = 0، فهذا يعني أن X و Y مستقلان. معرفة X لا تعطينا أي معلومات عن Y، والعكس صحيح.
  • إذا كانت PMI(X; Y) > 0، فهذا يعني أن X و Y مرتبطان بشكل إيجابي. معرفة X تجعل من المرجح حدوث Y.
  • إذا كانت PMI(X; Y) < 0، فهذا يعني أن X و Y مرتبطان بشكل سلبي. معرفة X تجعل من غير المرجح حدوث Y.

حساب معلومات الترابط النقطي

لحساب PMI، نحتاج إلى تقدير الاحتمالات P(X, Y)، P(X)، و P(Y). تعتمد طريقة التقدير على طبيعة البيانات.

1. تقدير الاحتمالات من البيانات:

  • الاحتمالية المشتركة P(X, Y): يمكن تقديرها بقسمة عدد المرات التي يظهر فيها X و Y معًا على إجمالي عدد الحالات في البيانات.
  • الاحتمالية الهامشية P(X): يمكن تقديرها بقسمة عدد المرات التي يظهر فيها X على إجمالي عدد الحالات.
  • الاحتمالية الهامشية P(Y): يمكن تقديرها بقسمة عدد المرات التي يظهر فيها Y على إجمالي عدد الحالات.

2. مثال:

لنفترض أن لدينا مجموعة بيانات من النصوص، ونريد حساب PMI للكلمتين “الذكاء” و “الاصطناعي”.

  • نفترض أن الكلمة “الذكاء” تظهر في 1000 وثيقة.
  • نفترض أن الكلمة “الاصطناعي” تظهر في 1500 وثيقة.
  • نفترض أن الكلمتين “الذكاء” و “الاصطناعي” تظهران معًا في 200 وثيقة.
  • نفترض أن إجمالي عدد الوثائق هو 10000.

بناءً على هذه البيانات، يمكننا حساب الاحتمالات على النحو التالي:

  • P(الذكاء) = 1000 / 10000 = 0.1
  • P(الاصطناعي) = 1500 / 10000 = 0.15
  • P(الذكاء, الاصطناعي) = 200 / 10000 = 0.02

ثم نحسب PMI:

PMI(الذكاء; الاصطناعي) = log(0.02 / (0.1 * 0.15)) = log(1.333) ≈ 0.2877

بما أن PMI موجبة، فهذا يشير إلى أن الكلمتين “الذكاء” و “الاصطناعي” مرتبطتان بشكل إيجابي في هذه البيانات. هذا منطقي، حيث غالبًا ما تستخدم الكلمتان معًا.

تطبيقات معلومات الترابط النقطي

تستخدم PMI على نطاق واسع في مجالات مختلفة، بما في ذلك:

  • معالجة اللغة الطبيعية (NLP):
    • تحليل السياق: تستخدم PMI لتحديد الكلمات التي غالبًا ما تظهر معًا في نفس السياق. يمكن أن يساعد هذا في فهم معاني الكلمات والعبارات بشكل أفضل.
    • استخراج المعلومات: يمكن استخدام PMI لتحديد العلاقات بين الكيانات في النص. على سبيل المثال، يمكن استخدام PMI لتحديد العلاقة بين اسم شخص ومنظمة.
    • نمذجة اللغة: يمكن استخدام PMI لتدريب نماذج اللغة التي تتنبأ بالكلمة التالية في تسلسل الكلمات.
  • تحليل البيانات:
    • اكتشاف الارتباطات: يمكن استخدام PMI لاكتشاف الارتباطات بين متغيرات مختلفة في مجموعة بيانات.
    • تحليل السوق: يمكن استخدام PMI لتحليل سلوك المستهلك وتحديد المنتجات أو الخدمات التي غالبًا ما يتم شراؤها معًا.
  • التعلم الآلي:
    • اختيار الميزات: يمكن استخدام PMI لاختيار الميزات الأكثر صلة بمهمة معينة في التعلم الآلي.
    • تصنيف النصوص: يمكن استخدام PMI لتصنيف النصوص بناءً على الكلمات أو العبارات التي تحتوي عليها.

قيود معلومات الترابط النقطي

على الرغم من فائدتها، فإن PMI لديها بعض القيود:

  • حساسة للبيانات النادرة: إذا كانت الأحداث X أو Y نادرة، فقد تكون تقديرات الاحتمالات غير دقيقة، مما يؤدي إلى حسابات PMI غير موثوقة.
  • تجاهل التردد: لا تأخذ PMI في الاعتبار عدد مرات ظهور الأحداث. على سبيل المثال، إذا كانت كلمتان تظهران معًا مرة واحدة فقط في مجموعة بيانات كبيرة، فقد تكون PMI مرتفعة نسبيًا، على الرغم من أن هذا قد يكون مجرد صدفة.
  • قد تعطي نتائج مضللة: في بعض الحالات، قد تعطي PMI نتائج مضللة بسبب عوامل مثل التحيز في البيانات أو الارتباطات الخاطئة.

تعديلات على معلومات الترابط النقطي

لمعالجة بعض قيود PMI، تم اقتراح العديد من التعديلات:

  • معلومات الترابط النقطي المصنفة (PMI-k): تأخذ في الاعتبار k-grams (تسلسلات من k كلمات) بدلاً من الكلمات الفردية.
  • PMI المُخففة (Smoothed PMI): تستخدم تقنيات التخفيف لتقليل تأثير البيانات النادرة.
  • PMI الإحصائية (Statistical PMI): تستخدم اختبارات فرضيات إحصائية لتقييم أهمية PMI.

أمثلة إضافية على استخدامات PMI

بالإضافة إلى الأمثلة المذكورة أعلاه، يمكن استخدام PMI في مجموعة متنوعة من المهام الأخرى:

  • تحليل المشاعر: يمكن استخدام PMI لتحديد الكلمات أو العبارات التي ترتبط بمشاعر معينة (مثل السعادة أو الحزن).
  • تلخيص النص: يمكن استخدام PMI لتحديد أهم الكلمات أو العبارات في النص، والتي يمكن استخدامها لإنشاء ملخص.
  • الترجمة الآلية: يمكن استخدام PMI لتحسين جودة الترجمة الآلية عن طريق تحديد الكلمات أو العبارات التي لها نفس المعنى في لغات مختلفة.
  • توصيات المنتجات: يمكن استخدام PMI لتحديد المنتجات التي غالبًا ما يتم شراؤها معًا، وتقديم توصيات للمستخدمين بناءً على مشترياتهم السابقة.

بشكل عام، PMI هي أداة قوية يمكن استخدامها لتحليل العلاقات بين الأحداث أو المتغيرات. على الرغم من وجود بعض القيود، إلا أنها أداة مفيدة في مجموعة متنوعة من المجالات.

خاتمة

معلومات الترابط النقطي (PMI) هي مقياس إحصائي يقيس مدى ترابط حدثين. يتم حسابه من خلال اللوغاريتم لقسمة الاحتمالية المشتركة للحدثين على حاصل ضرب احتمالاتهما الهامشية. تستخدم PMI على نطاق واسع في مجالات مثل معالجة اللغة الطبيعية وتحليل البيانات والتعلم الآلي. على الرغم من وجود بعض القيود، إلا أنها أداة مفيدة لاكتشاف العلاقات والارتباطات بين المتغيرات، وتستخدم في مجموعة متنوعة من التطبيقات، من تحليل السياق في النصوص إلى توصيات المنتجات. تساهم التعديلات المختلفة على PMI في التغلب على بعض القيود وتحسين دقتها في سيناريوهات مختلفة.

المراجع

“`