أكد نيما رافائيل، كبير مسؤولي البيانات ورئيس هندسة البيانات في غولدمان ساكس، أن العالم قد وصل إلى مرحلة حرجة حيث نفدت البيانات الأصلية المتاحة التي يمكن تدريب الذكاء الاصطناعي عليها، وذلك وفق تقرير نشره موقع بيزنس إنسايدر.
وأوضح رافائيل أن هذا الأمر قد أثر بالفعل على الآلية التي يتم بها بناء نماذج الذكاء الاصطناعي، مشيراً إلى نموذج ديب سيك الصيني الذي تم تدريبه بتكلفة أقل من بقية النماذج. ويعزو رافائيل انخفاض تكلفة تدريب ديب سيك إلى اعتماده على البيانات التي تولدها نماذج الذكاء الاصطناعي الموجودة بالفعل، بدلاً من الاعتماد على البيانات الأصلية المتاحة عبر الإنترنت.
رغم أن الاعتماد على البيانات المولدة من أدوات الذكاء الاصطناعي يوفر حجماً لا محدوداً من البيانات، إلا أنه لا يضمن جودة هذه البيانات، والتي قد تكون أضعف من البيانات الأصلية المتاحة على الإنترنت. وهذا الأمر يؤثر بشكل مباشر على جودة النموذج الذي يتم تدريبه عليها.
البيانات الخاصة: كنز غير مستغل
يشير رافائيل إلى أن البيانات المتاحة عبر الإنترنت هي تلك التي تم استهلاكها بالفعل، ولكن الوضع يختلف تماماً عندما يتعلق الأمر بالبيانات الخاصة التي تحتفظ بها الشركات. وهذا يعني أن المرحلة القادمة لتدريب نماذج الذكاء الاصطناعي ستعتمد بشكل مباشر على البيانات الخاصة الموجودة لدى الشركات، سواء كانت بيانات لعمليات تداول أو تفاعلات بين المستخدمين وموظفي الشركة.
في هذا السياق، تملك غولدمان ساكس كنوزاً من البيانات التي يمكن أن تجعل أدوات الذكاء الاصطناعي أكثر قوة إذا تم استخدامها بشكل صحيح. ويتفق إيليا سوتسكيفر، المؤسس المشارك في أوبن إيه آي، مع رؤية رافائيل، حيث أشار سابقاً في أحد المؤتمرات إلى أن الشركات قد استهلكت كافة البيانات المفيدة المتاحة عبر الإنترنت، مما يضع حداً لعصر التطور السريع في نماذج الذكاء الاصطناعي.
نوعية البيانات وتأثيرها على الذكاء الاصطناعي
تظل النقطة المحورية في تدريب نماذج الذكاء الاصطناعي هي نوعية البيانات المستخدمة وجودتها. فالاعتماد على البيانات المصنعة من النماذج الأخرى أو البيانات ذات الجودة المنخفضة يثير تساؤلات أعمق حول مسار الذكاء الاصطناعي، وفقاً لوجهة نظر رافائيل.