13 نوفمبر 2025
Misraj AI
AI
بعد أن تعلمنا كل هذه الخوارزميات خلال هذه الدورة، لن أقدم في هذه المقالة خوارزمية جديدة، بل سأقوم بدمج بعض الخوارزميات السابقة لتحسين الدقة، تمامًا كما فعلنا عندما قمنا بدمج مخزن التجربة ذات الأولوية ...
بعد أن تعلمنا كل هذه الخوارزميات خلال هذه الدورة، لن أقدم في هذه المقالة خوارزمية جديدة، بل سأقوم بدمج بعض الخوارزميات السابقة لتحسين الدقة، تمامًا كما فعلنا عندما قمنا بدمج مخزن التجربة ذات الأولوية مع Double DQN.
تحتوي هذه المقالة على تنفيذ وشرح لـ " [1] Matteo Hessel, etc 2017. Rainbow: Combining Improvements in Deep Reinforcement Learning."
لن أشرح الكثير من التفاصيل حول الخوارزميات التي تم استخدامها في تلك الورقة لأنني كتبت مقالاً عن كل واحدة منها.
التعلم Q المزدوج
يتأثر التعلم Q التقليدي بانحياز المبالغة في التقدير، بسبب خطوة التعظيم في المعادلة 1، ويمكن أن يضر هذا بالتعلم. يعالج التعلم Q المزدوج (van Hasselt 2010) هذا التقدير المبالغ فيه من خلال فصل اختيار الفعل عن تقييمه، في التعظيم الذي يتم إجراؤه لهدف التمهيد. من الممكن الجمع بين هذا بشكل فعال مع DQN (van Hasselt وGuez وSilver 2016)، باستخدام الخسارة
𝑌 ᴰᵒᵘᵇˡᵉ = 𝑅 ₜ₊₁ + 𝛾𝑄 ( 𝑠 ₙₑₓₜ ، 𝑎𝑟𝑔𝑚𝑎𝑥 ₐ 𝑄 ( 𝑠 ₙₑₓₜ ، 𝑎 ، 𝜃 ⁺)، 𝜃 ⁻)
تقوم DQN بأخذ عينات بشكل موحد من مخزن إعادة التشغيل. ومن الناحية المثالية، نريد أخذ عينات بشكل أكثر تكرارًا من تلك التحولات التي يوجد منها الكثير لنتعلمه. وكبديل
لإمكانية التعلم، يتم إعطاء الأولوية لإعادة تشغيل التجربة
(Schaul et al. 2015)
الشبكة الثنائية هي بنية شبكة عصبية مصممة للتعلم المعزز القائم على القيمة. وهي تتميز بتيارين من الحوسبة،
تيار القيمة وتيار الميزة، يتشاركان في مشفر ملتف، ويتم دمجهما بواسطة
مجمع خاص (وانج وآخرون، 2016).
يقوم التعلم Q بتجميع مكافأة واحدة ثم يستخدم الفعل الجشع في الخطوة التالية للتمهيد. بدلاً من ذلك، يمكن استخدام أهداف متعددة الخطوات ذات رؤية أمامية (Sutton 1988). نُعرّف الإرجاع المقطوع المكون من n خطوة
من حالة معينة S ₜ على أنه.
ر ⁽ⁿ⁾ₜ = ∑ₖ⁽ⁿ⁻¹⁾ 𝛾 ⁽ ᵏ ⁾ R ₜ₊ₖ₊₁
يتم بعد ذلك تعريف متغير متعدد الخطوات لـ DQN عن طريق تقليل الخسارة البديلة،
R ⁽ⁿ⁾ₜ + 𝛾 ⁽ⁿ⁾ الحد الأقصى ₐ Q(Sₜ₊ₙ,a,𝜃 ⁻ )- Q(Sₜ,𝜃 ⁺ )
يمكننا أن نتعلم كيفية تقريب توزيع العائدات بدلاً من العائد المتوقع. اقترح بيلمار ودابني ومونوس (2017) نمذجة
مثل هذه التوزيعات باستخدام كتل احتمالية موضوعة على دعامة منفصلة.
إن القيود المفروضة على الاستكشاف باستخدام السياسات الجشعة واضحة في ألعاب مثل Montezuma's Revenge، حيث يجب تنفيذ العديد من الإجراءات لجمع المكافأة الأولى. تقترح Noisy Nets (Fortunato et al. 2017) طبقة خطية صاخبة تجمع بين تيار حتمي وصاخب.
أعتقد أن هذا سيكون كافيا لمزيد من المعلومات يرجى العودة إلى المقالات السابقة.
يمكنك الحصول على الكود الكامل على Github.
آمل أن تجد هذه المقالة مفيدة وأنا آسف للغاية إذا كان هناك أي خطأ أو خطأ إملائي في المقالة، فلا تتردد في الاتصال بي، أو ترك تعليق لتصحيح الأمور.
خليل حنارة
مهندس ذكاء اصطناعي في مسراج
تواصل معنا لتكتشف كيف يمكن لتقنيات مسراج أن تغيّر طريقة عمل مؤسستك.
لتبدأ رحلتك لحلول أذكى