تم تطوير pari كنموذج ذكاء اصطناعي قائم على التعلم الآلي لاكتشاف خطاب الكراهية. تم تدريب النموذج باستخدام بيانات صحفية واسعة النطاق، تم جمعها من خلال مسح الصحافة المكتوبة لمدة 10 سنوات من قبل مؤسسة هرانت دينك، بالإضافة إلى التغريدات من منصة X . ولضمان جودة بيانات عالية، عمل فريق متعدد التخصصات على تطوير إرشادات تصنيف تفصيلية لحل أي التباسات وضمان الشمولية. تم تصنيف خطاب الكراهية إلى أربع فئات وفقًا لمستويات العنف، باستخدام مقياس يتراوح من 0 إلى 10:
المبالغة/الإسناد/التشويه/التعميم: يتضمن تعميمات سلبية أو تشويه او مبالغة او العطف السلبي مشوهة تستند إلى فرد أو حدث معين، وتحتوي على إشارات سلبية إلى جماعة بأكملها.
السب/الإهانة/التحقير/نزع الصفة الإنسانية: يشمل خطابات تحتوي على شتائم مباشرة، أو إهانات، أو تحقير ضد جماعة معينة.
خطاب العداء/الحرب: يشمل التعبيرات العدائية التي تستدعي الكراهية أو الصراع تجاه جماعة معينة.
الرمزية: يتضمن الخطاب الذي يستخدم و يرمز الهوية الطبيعية كعنصر للكراهية أو التحقير.
بالإضافة إلى ذلك، تم تصنيف التغريدات وفقًا لمدى احتوائها على خطاب تمييزي
الخطاب التمييزي: أي خطاب يُصور مجموعة أو بعض أفرادها على أنهم مختلفون سلبًا عن الفئة المهيمنة فيما يتعلق بالاندماج الاجتماعي أو التمتع بالحقوق والحريات.
في عملية التصنيف، تلقى المصنفون، الذين جاءوا من مجالات مختلفة وكان معظمهم من طلاب الجامعات، تدريبًا مكثفًا قبل تصنيف التغريدات. ولضمان دقة تصنيف التغريدات، تم تصنيف كل تغريدة من قبل ثلاثة أشخاص مختلفين.
الطبيعة الديناميكية لخطاب الكراهية، والمراجع الثقافية، ونقص السياق، والغموض اللغوي (مثل السخرية) تُعد من بين التحديات في تصنيف خطاب الكراهية تلقائيًا. يتطلب تكييف النموذج مع هذه التغييرات والحفاظ على دقته تحديثات بيانات منتظمة وإعادة تدريب مستمرة. لذلك، نسعى إلى تطوير pari من خلال إضافة المزيد من البيانات بشكل منتظم.
يعمل pari بدقة 85٪ في التركية و80٪ في العربية. في اللغة التركية، أظهر النموذج معدل إيجابيات كاذبة (False Positive – FP) بنسبة 17٪، وسلبيات كاذبة (False Negative – FN) بنسبة 15٪ عند اختباره على 2189 عينة. في اللغة العربية، أظهر النموذج معدل إيجابيات كاذبة بنسبة 6٪، وسلبيات كاذبة بنسبة 27٪ عند اختباره على 499 عينة. (لمزيد من المعلومات حول دقة النموذج، يُرجى الرجوع إلى دليل “مكافحة خطاب الكراهية بالذكاء الاصطناعي: دليل التصنيف، التسمية، والكشف”).