الذكاء الاصطناعيمقالات

برامج الذكاء الاصطناعي وضعف المحتوى العربي

 

كتبت _ ياسمين أحمد

 

أصبح الذكاء الاصطناعي مصطلحًا شاملًا للتطبيقات التي تؤدي العديد من المهام مُعقدة التي كانت تتطلب في الماضي إدخالات بشرية مثل:-

التواصل مع العملاء عبر الإنترنت
ممارسة لعبة الشطرنج

هناك اختلافات .. على سبيل المثال، يُركز التعلم الآلي على إنشاء أنظمة تتعلم أو تحسّن من أدائها استنادًا إلى البيانات التي تستهلكها. ولكن من المهم ملاحظة أنه على الرغم من أن كل سُبل التعلم الآلي ما هي إلّا ذكاء اصطناعي، فإنه ليس كل ذكاء اصطناعي يُعد تعلمًا آليًا.

تقوم العديد من الشركات باستثمارات كبيرة في فرق علوم البيانات للحصول على القيمة الكاملة من الذكاء الاصطناعي،كما أن يجمع علم البيانات بين الإحصاءات وعلوم الكمبيوتر والمعرفة بالأعمال لاستخلاص القيمة من مصادر البيانات المختلفة.

المحتوى الرقمي العربي على الإنترنت

يصل عدد المواقع الإلكترونية على “الويب” بنحو ملياري موقع، ولكن ليست كل المواقع نشطة حالياً. حيث أن تشير التقديرات إلى أن أقل من 200 مليون من هذا العدد هي النشطة بالفعل.

أما بالنسبة للمواقع الإلكترونية النشطة التي تتضمن العربية كلياً أو جزئياً فتقدر بنحو 4% من الإجمالي، أي 8 ملايين موقع.

تتحسن جودة تدريب الذكاء الاصطناعي التوليدى كلما كانت القاعدة اللغوية للتدريب أكبر.

رؤية تك - Roaya Tech برامج الذكاء الاصطناعي

الأمر لا يتعلق بعدد المواقع الإلكترونية أو كمية الكلمات العربية الذي يقدمها على الإنترنت كنسبة من إجمالي المواقع أو الكلمات، بل بكمية المعلومات التي تقدمها تلك المواقع والكلمات.

بلغ عدد الصفحات التي تستخدم العربية الفصحى على ويكيبيديا مثلا 8.029.342 بنهاية فبراير/شباط 2023، في حين قدر عدد الصفحات الإنجليزية 57.698.387، أي ما يزيد على 7 أضعاف.

علاوة على ذلك بلغ إجمالي الصفحات بكافة اللغات 250.456.896 أي ما يزيد على 31 ضعفاً مقارنة بالعربية، حيث بلغت نسبة انتشار العربية الفصحى نحو 3.3% من الإجمالي.

حروب الذكاء الاصطناعي

إحصائية استخدام الإنترنت بالبلدان العربية

تصل الأرقام الصادرة عن الاتحاد الدولي للاتصالات إلى أن عدد مستخدمي الإنترنت عالمياً بلغ نحو 5.3 مليارات عام 2022 بنسبة انتشار تبلغ 66% من سكان العالم، وتعتبر هذه النسبة تشبه نسبة انتشار الإنترنت بالبلدان العربية البالغة 65%
(نحو 300 مليون مستخدم للإنترنت من عدد السكان البالغ نحو 460 مليونا عام 2022).

مع ذلك نسبة انتشار الإنترنت في بلدان مجلس التعاون الخليجي أعلى بكثير، إذ قاربت 100% من عدد السكان القادرين عمرياً على استخدام الإنترنت.

يشكل هذا العدد الكبير من المستخدمين قاعدة جيدة لتنمية العربية المستخدمة على الشبكة العالمية، كل هذا مرتبط بالمحتوى العربي الرقمي الفعلي المتوفر.

أسباب انخفاض أداء الذكاء الاصطناعي التوليدي؟

تم الطلب من “شات جي بي تي” نفسه الجواب على هذا السؤال، مرة بالعربية وأخرى بالإنجليزية، فكانت الأسباب التي قدمها بالإنجليزية أكثر تفصيلاً، وفيما يلي عرض لها بعد ترجمتها إلى العربية:

دليل أستخدام ChaTGPT

_ توافر البيانات: قد يكون مقدار بيانات التدريب لنماذج العربية أقل مقارنة بنماذج الإنجليزية، ويمكن أن يؤثر ذلك على دقة النموذج لأنه لم يتعرض لأكبر قدر من البيانات للتعلم منها.

– السياق الثقافي: يتم التحدث بالعربية في العديد من البلدان والثقافات المختلفة، وهذا قد يؤثر على طريقة استخدام اللغة وفهمها. وربما لا يكون النموذج قادرا على مراعاة جميع هذه السياقات الثقافية المختلفة.

لهذا من الضروري الانتباه إلى دقة نموذج اللغة الذي يمكن أن تختلف اعتماداً على المهمة المحددة ومجموعة البيانات التي يتم التدريب عليها.

بالإضافة إلى ذلك، كلما زادت البيانات والتدريب على النموذج، زادت دقتة”.

كيف يمكن تنمية المحتوى العربي الرقمي؟

يجب أولا دعم استخدام اللغة العربية الفصحى على الشبكة العالمية، وذلك لأن استخدام اللهجات المحلية يضعف عمل الذكاء الاصطناعي التوليدي.

على سبيل المثال يزيد عدد المقالات المنشورة على الموقع الإلكتروني المعروف ويكيبيديا باللهجة المصرية على ما هو منشور بالعربية الفصحى، وعلى الرغم من أن عدد الصفحات المنشورة باللهجة المصرية تصل إلى ربع العدد المنشور بالعربية الفصحى، إلا أن هذا قد يسبب تشتت الذكاء الاصطناعي التوليدي.

من المهم إنتاج المعرفة وانتقال البلدان العربية
(أو بعضها على الأقل) التنقل من استهلاك المعرفة إلى إنتاجها، ومن استهلاك التكنولوجيا إلى إنتاجها.

ضرورة نشر هذا المنتج على الإنترنت بالعربية، لانه سوف يسهم ويساعد في إغناء المحتوى العربي الرقمي ويعمل أيضا على تحسين أداء الذكاء الاصطناعي التوليدي.

أهمية زيادة أعمال الترجمة من اللغات الأخرى إلى العربية ونشر الترجمات على الشبكة العالمية.

ومن أهم النقاط التي سوف تساعد في تنمية المحتوى العربي الرقمي هو دعم النشر الرقمي بالعربية لمقالات الرأي والمقالات الاستقصائية والبحثية والمقارنة.

مقالات ذات صلة

اترك تعليقاً

زر الذهاب إلى الأعلى