تُكمّل هذه السياسة سياسة الخصوصية العامة لمنظار القابضة بمتطلبات خاصة بحوكمة البيانات في سياق الذكاء الاصطناعي. تُعالج التحديات الفريدة التي يطرحها جمع بيانات التدريب ومعالجتها وتخزينها والتحكم فيها عند تطوير وتشغيل أنظمة الذكاء الاصطناعي. تسري هذه السياسة بالتوازي مع — وليس بديلًا عن — التزامات نظام حماية البيانات الشخصية (PDPL).
عند الحصول على بيانات لتدريب نماذج الذكاء الاصطناعي نلتزم بما يلي: التحقق من الأساس القانوني للمعالجة وفق نظام PDPL (موافقة، مصلحة مشروعة، أو أساس آخر)؛ التوثيق الكامل لمصادر البيانات وسلاسل الحيازة؛ احترام حقوق الملكية الفكرية لمنتجي البيانات؛ التحقق من التمثيل العادل للفئات السكانية لتجنّب التحيّز؛ تطبيق تقييم أثر حماية البيانات (DPIA) عند معالجة بيانات شخصية.
نُطبّق معايير صارمة لجودة البيانات تشمل: فحص الاكتمال والدقة والاتساق قبل استخدام البيانات في التدريب؛ تحليل التوزيع السكاني لكشف عدم التمثيل؛ اختبارات التحيّز الإحصائية عبر الفئات المحمية (الجنس، الجنسية، العمر)؛ توثيق قيود البيانات المعروفة؛ مراجعة دورية لجودة البيانات طوال دورة حياة النموذج وليس عند التدريب الأولي فقط.
نطبّق مبدأ تقليل البيانات في سياق الذكاء الاصطناعي: جمع الحد الأدنى من البيانات اللازمة لتحقيق الغرض؛ تجنّب تخزين البيانات الشخصية في مجموعات التدريب عند إمكانية استخدام بيانات مُجمّعة أو مُصنّعة؛ حذف أو إخفاء هوية البيانات الشخصية بعد انتهاء غرض التدريب؛ مراجعة دورية لضرورة الاحتفاظ بمجموعات البيانات القديمة.
عند معالجة البيانات الشخصية بواسطة أنظمة الذكاء الاصطناعي: نحصل على موافقة صريحة ومحددة للمعالجة بالذكاء الاصطناعي — تختلف عن الموافقة العامة على جمع البيانات؛ نوضّح للأفراد كيف ستُستخدم بياناتهم في أنظمة الذكاء الاصطناعي؛ نُتيح آلية سهلة لسحب الموافقة؛ نحترم حقوق أصحاب البيانات وفق نظام PDPL بما فيها الوصول والتصحيح والحذف.
عند الحاجة لنقل البيانات خارج المملكة العربية السعودية لأغراض تدريب أو تشغيل نماذج الذكاء الاصطناعي: نلتزم بمتطلبات سدايا بشأن نقل البيانات عبر الحدود؛ نُجري تقييم أثر نقل البيانات؛ نتحقق من توفر مستوى حماية مناسب في الدولة المستقبلة؛ نستخدم ضمانات تعاقدية ملائمة؛ نفضّل خيارات المعالجة المحلية حيثما أمكن.
تخضع بيانات التدريب والنماذج المدرّبة لسياسات احتفاظ محددة: بيانات التدريب الخام — تُحتفظ بها طوال فترة الحاجة التشغيلية مع مراجعة سنوية؛ نماذج التدريب المتوسطة — تُحذف بعد اعتماد النموذج النهائي ما لم تكن لازمة لإعادة الإنتاج؛ النماذج المنشورة — تُحتفظ بها مع سجل الإصدارات الكامل؛ سجلات التدقيق — تُحتفظ بها لمدة لا تقل عن 5 سنوات. تُطبّق إجراءات الحذف الآمن عند انتهاء فترة الاحتفاظ.
نشجّع استخدام البيانات المصنّعة (Synthetic Data) كبديل للبيانات الحقيقية عندما يكون ذلك مناسبًا: لتقليل مخاطر الخصوصية في التدريب؛ لتحسين تمثيل الفئات الناقصة؛ لاختبار أنظمة الذكاء الاصطناعي في سيناريوهات نادرة. يجب التحقق من جودة البيانات المصنّعة وتوثيق منهجية توليدها. لا تُستخدم البيانات المصنّعة كبديل كامل عن البيانات الحقيقية في أنظمة القرار الحرجة دون تحقق إضافي.
تخضع نماذج اللغة الكبيرة (LLMs) المستخدمة في خدماتنا لضوابط إضافية: تقييم مخاطر المحتوى المولّد قبل النشر؛ فلاتر المحتوى والحواجز الأخلاقية؛ مراجعة دورية لمخرجات النموذج للكشف عن التحيّز أو المعلومات المغلوطة؛ تقييد الوصول للبيانات الحساسة عبر تصميم الصلاحيات؛ توثيق حدود النموذج وإبلاغ المستخدمين بها.
تعمل هذه السياسة بتكامل تام مع سياسة الخصوصية العامة ونظام PDPL: حقوق أصحاب البيانات المنصوص عليها في PDPL تسري بالكامل على المعالجة بالذكاء الاصطناعي؛ يمكن تقديم طلبات الوصول إلى البيانات عبر صفحة حقوق أصحاب البيانات؛ يُطبّق إخطار خرق البيانات خلال 72 ساعة لسدايا عند تعرّض بيانات مستخدمة في الذكاء الاصطناعي للخرق.
تُراجع هذه السياسة سنويًا أو عند صدور تحديثات لنظام PDPL أو لوائحه التنفيذية أو توجيهات سدايا المتعلقة بالذكاء الاصطناعي. تُراجع أيضًا عند تبنّي تقنيات ذكاء اصطناعي جديدة جوهرية. يُعتمد التحديث من لجنة أخلاقيات الذكاء الاصطناعي.