دعوى جماعية مقترحة ضد أدوبي بتهمة استغلال أعمال المؤلفين في تدريب الذكاء الاصطناعي

رفعت إليزابيث ليون دعوى ضد شركة أدوبي تتهمها باستخدام كتب مُقرصنة لتدريب نموذج الذكاء الاصطناعي SlimLM الخاص بها.

تعتبر شركة أدوبي واحدة من الشركات التقنية التي استثمرت بشكل كبير في تقنيات الذكاء الاصطناعي على مدار السنوات القليلة الماضية. حيث أطلقت الشركة مجموعة من الخدمات المعتمدة على الذكاء الاصطناعي منذ عام 2023، بما في ذلك Firefly، وهي مجموعة أدوات توليد المحتوى المدعومة بالذكاء الاصطناعي. ومع ذلك، يبدو أن اعتماد الشركة الكامل على هذه التكنولوجيا قد جلب لها بعض المتاعب، حيث تم رفع دعوى قضائية جديدة تتهمها باستخدام كتب مُقرصنة لتدريب أحد نماذج الذكاء الاصطناعي الخاصة بها.

الدعوى، التي تم تقديمها باسم إليزابيث ليون، كاتبة من ولاية أوريغون، تدعي أن أدوبي استخدمت نسخًا مُقرصنة من العديد من الكتب - بما في ذلك كتبها الخاصة - لتدريب برنامج SlimLM الخاص بالشركة. تصف أدوبي SlimLM بأنه سلسلة من نماذج اللغة الصغيرة التي يمكن "تحسينها لمهام المساعدة في الوثائق على الأجهزة المحمولة". وتوضح أن SlimLM تم تدريبه مسبقًا على مجموعة بيانات SlimPajama-627B، وهي مجموعة بيانات "مفتوحة المصدر ومتعددة المجالات" تم إصدارها من قبل Cerebras في يونيو 2023.

تقول ليون، التي كتبت عددًا من الأدلة حول الكتابة غير الروائية، إن بعض أعمالها كانت ضمن مجموعة بيانات التدريب المسبق التي استخدمتها أدوبي. وتزعم الدعوى، التي تم الإبلاغ عنها في الأصل من قبل رويترز، أن كتاباتها كانت مشمولة في مجموعة فرعية معالجة من مجموعة بيانات مُعدلة كانت أساس برنامج أدوبي: "تم إنشاء مجموعة بيانات SlimPajama عن طريق نسخ وتعديل مجموعة بيانات RedPajama (بما في ذلك نسخ Books3)"، وفقًا لما جاء في الدعوى. "لذا، نظرًا لأنها نسخة مشتقة من مجموعة بيانات RedPajama، تحتوي SlimPajama على مجموعة بيانات Books3، بما في ذلك الأعمال المحمية بحقوق الطبع والنشر الخاصة بالمدعية وأعضاء الفئة."

تعتبر "Books3" - وهي مجموعة ضخمة تحتوي على 191,000 كتاب تم استخدامها لتدريب أنظمة GenAI - مصدرًا دائمًا للمشاكل القانونية في مجتمع التكنولوجيا. كما تم الإشارة إلى RedPajama في عدد من القضايا القانونية. في سبتمبر، تم رفع دعوى قضائية ضد شركة آبل مدعية أن الشركة استخدمت مواد محمية بحقوق الطبع والنشر لتدريب نموذج ذكاء آبل. وذكرت الدعوى مجموعة البيانات ووجهت اتهامات إلى الشركة بنسخ أعمال محمية "دون إذن ودون إسناد أو تعويض". في أكتوبر، تم رفع دعوى مماثلة ضد Salesforce تدعي أيضًا أن الشركة استخدمت RedPajama لأغراض التدريب.

للأسف، أصبحت مثل هذه الدعاوى الآن شائعة نسبيًا في صناعة التكنولوجيا. يتم تدريب خوارزميات الذكاء الاصطناعي على مجموعات بيانات ضخمة، وفي بعض الحالات، يُزعم أن تلك المجموعات قد تضمنت مواد مُقرصنة. في سبتمبر، وافقت شركة Anthropic على دفع 1.5 مليار دولار لعدد من المؤلفين الذين قاموا برفع دعوى ضدها واتهموها باستخدام نسخ مُقرصنة من أعمالهم لتدريب روبوت الدردشة الخاص بها، Claude. اعتُبر هذا القضية نقطة تحول محتملة في المعارك القانونية المستمرة حول المواد المحمية بحقوق الطبع والنشر في بيانات تدريب الذكاء الاصطناعي، والتي تضم العديد من القضايا.