ما سر ضعف المحتوى العربي في برامج الذكاء الصناعي؟ برنامج شات جي بي تي يجيب
تزداد أهمية تنمية المحتوى العربي على الشابكة “الويب، الإنترنت” لما في ذلك من فائدة للمستخدمين العرب من جهة ، و لأن هذا يؤدي إلى رفع مستوى الذكاء الصناعي التوليدي (Generative AI) عند مخاطبته باللغة العربية، إذ يرتبط هذا المستوى بحجم المحتويات المتاحة على الشابكة والتي يتم تدريبه عليها. وقد قام عدة باحثين بمقارنة أجوبة برنامج الذكاء الصناعي ChatGPT عند طرح السؤال عليه بلغات شتى ، فظهر أن الاجابات بالإنكليزية هي الأكثر صحة ودقة في حين لم تكن إجاباته دقيقة أو صحيحة عندما طرح السؤال نفسه بلغات أخرى ومنها اللغة العربية.
تم سؤال برنامج ChatGPT عن أسباب هذا التباين فأجاب بأن:
▄ توفر البيانات بالعربية هو أقل من توفرها بالإنكليزية وهذا ما يجعل دقة إجابة الذكاء الصناعي أقل لأنه يتعلم أكثر كلما زاد عدد البيانات.
▄ عدم قدرة نموذج الذكاء الصناعي على فهم جميع السياقات الثقافية المستخدمة في بلدان عربية مختلفة . فقد تعني كلمة معنى معين في بلد عربي وتعني معنى مختلف قليلا في بلد آخر .
وأشار البرنامج بأن الفجوة بين الذكاء الصناعي عند استخدام العربية وعند استخدام الإنجليزية ستزيد مع الوقت، إلا إذا قررت الدول العربية الغنية رصد مبالغ كبيرة للاستثمار في هذا المجال.
تشير الأرقام الصادرة عن الاتحاد الدولي للاتصالات إلى أن عدد مستخدمي الإنترنت عربيا يساوي عدد المستخدمين عالمياً أي حوالي 65% من السكان. مع ملاحظة أن مجتمعات الخليج الأغنى تصل فيها النسبة إلى 100% من القادرين عمرياً على استخدام الإنترنت في حين تنخفض تلك النسبة لبعض المجتمعات العربية الأخرى الأكثر فقرا وبعدا عن الاتصالات.
في نهاية فبراير/شباط 2023، بلغ عدد الصفحات التي تستخدم العربية الفصحى على موقع ويكيبيديا مثلا 8.029.342 في حين قدر عدد الصفحات الإنجليزية 57.698.387، أي ما يزيد على 7 أضعاف. وبلغ إجمالي الصفحات بكافة اللغات 250.456.896 ، أي أن نسبة انتشار العربية الفصحى نحو 3.3% من إجمالي صفحات ويكيبيديا ، في حين نسبة العرب إلى سكان العالم تبلغ حوالي 6%.
كيف يمكن تنمية المحتوى العربي الرقمي؟
1- يجب أولا دعم استخدام العربية الفصحى على الشابكة ، إذ إن استخدام اللهجات المحلية يضعف عمل الذكاء الصناعي التوليدي. فعدد الصفحات المنشورة باللهجة المصرية يبلغ نحو ربع العدد المنشور بالعربية الفصحى، وهذا يشتت الذكاء الصناعي التوليدي ، ويسبب تشويه وإرباك لقدرته على فهم اللغة وتوليد الإجابات عن الأسئلة الموجهة إليه.
2- كما يجب إنتاج المعرفة وانتقال البلدان العربية من استهلاك المعرفة إلى إنتاجها، ومن استهلاك التقانة إلى إنتاجها. ونشر هذا الانتاج على الشابكة بالعربية، وهو ما سيسهم في إغناء المحتوى العربي الرقمي ويحسن أداء الذكاء الصناعي التوليدي. ويضاف إلى ذلك أهمية زيادة أعمال الترجمة من اللغات الأخرى إلى العربية ونشر الترجمات على الشبكة العالمية. وهذا يدعونا إلى ضرورة دعم النشر الرقمي بالعربية لمقالات الرأي والمقالات الاستقصائية والبحثية والمقارنة، وتشجيع المواقع الإلكترونية على دفع ثمن معقول لكُتَّابِ هذه المقالات.
هذه دعوة مفتوحة لكل من يستطيع استخدام العربية لأن يستخدمها في كل مكان ، فكل كلمة بالفصحى تعزز وجود الفصحى وكل كلمة بالعامية تقتل الفصحى وتؤخر فهم أطفالنا تماما كما تتسبب في تراجع فهم برامج الذكاء الصناعي التي تحاكي الذكاء البشري في فهم اللغة وتوليدها.
المصدر : الجزيرة + مواقع إلكترونية ، مقال للأستاذ عبد القادر الكاملي بتصرف
12/3/2023
https://www.aljazeera.net/tech/2023/3/12/تنمية-المحتوى-العربي-في-عصر-الذكاء
What is the secret of the weakness of Arabic content in artificial intelligence programs? Chat GPT answers.