يُعدّ تطبيق OpenAI Codex أقوى وكيل برمجة بالذكاء الاصطناعي متاح في 2026 — لكنه لا يجب أن يكلّفك شيئًا. فبربط Codex بنماذج محلية عبر Ollama أو LM Studio أو Unsloth أو llama.cpp، تحصل على تجربة الترميز الوكيلية الكاملة وهي تعمل على عتادك بالكامل. صفر تكاليف API. خصوصية تامة. لا حدود لمعدّل الاستخدام.
يغطي هذا الدليل كل طرق الإعداد، أفضل النماذج المُستخدَمة، جدول مقارنة شامل بين GPT-5.5 السحابي والنماذج المحلية، اختبارات أداء حقيقية، القيود، وسير عمل عملي. سواء كنت تستخدم MacBook بذاكرة 16 جيجابايت أو محطة عمل ببطاقة RTX 4090 — فهذا مرجعك الكامل لتشغيل تطبيق Codex مع النماذج المحلية في 2026.
ما هو تطبيق OpenAI Codex؟
تُقدّم OpenAI نموذج Codex عبر ثلاث واجهات. وفهم الفرق بينها مهم عند إعداد النماذج المحلية:
| الواجهة | ما هي | هل تدعم النماذج المحلية؟ |
|---|---|---|
| تطبيق Codex (سطح المكتب) | تطبيق سطح مكتب لـ macOS/Windows. تنسيق متعدّد للوكلاء، أشجار عمل (worktrees)، أتمتة، استخدام الحاسوب (Computer Use)، متصفّح داخل التطبيق، أكثر من 90 إضافة. | نعم (عبر config.toml) |
| Codex CLI | وكيل ترميز يعمل في الطرفيّة. يعمل في الـ shell ويقرأ/يكتب الملفات وينفّذ الأوامر. | نعم (عبر config.toml أو متغيّرات البيئة) |
| Codex Agent (داخل ChatGPT) | وكيل سحابي حصرًا داخل ChatGPT. يعمل في بيئات معزولة (sandbox) على خوادم OpenAI. | لا (سحابي فقط) |
الجدول الزمني
- 2 فبراير 2026: إطلاق تطبيق Codex على macOS
- 4 مارس 2026: إضافة دعم Windows
- 16 أبريل 2026: توسّع كبير — استخدام الحاسوب، متصفّح داخل التطبيق، توليد الصور، أكثر من 90 إضافة، معاينة الذاكرة، الأتمتة
حوّل تحديث 16 أبريل برنامج Codex من أداة برمجة فقط إلى منصّة أتمتة كاملة لسطح المكتب. ويعتمد الإصدار السحابي على نموذج GPT-5.5 (الاسم الرمزي "Spud") مع تحسينات في إدارة السياق وجودة البرمجة وكفاءة الرموز (tokens).
لماذا تستخدم النماذج المحلية مع Codex؟
- تكلفة صفرية: لا حاجة لاشتراك ChatGPT Plus/Pro. شغّل عددًا غير محدود من مهام البرمجة.
- الخصوصية: الشيفرة المملوكة لا تغادر جهازك. أمر بالغ الأهمية للشركات والقطاعات الدفاعية والصحية.
- العمل دون اتصال: برمج على متن الطائرات والشبكات المقيّدة والبيئات المعزولة.
- لا حدود للمعدّل: Codex السحابي يخنق المستخدمين الكثيفين. أما المحلي فلا سقف له.
- نماذج مخصّصة: استخدم نماذج معايَرة (fine-tuned) مدرّبة على شيفرة مشروعك.
- التجريب: جرّب نماذج مختلفة فورًا دون قلق الفواتير.
المتطلبات المسبقة ومتطلبات العتاد
| المستوى | العتاد | أفضل نموذج | رمز/ث |
|---|---|---|---|
| الحدّ الأدنى | 16 جيجابايت RAM (Apple Silicon) أو RTX 3060 12GB | GLM-4.7-Flash (Q4) | 8-15 |
| المُوصى به | 32 جيجابايت RAM (M1 Pro/Max) أو RTX 4070 Ti 16GB | Qwen3-Coder 30B (Q4) | 15-25 |
| الأمثل | 64+ جيجابايت RAM (M4 Max) أو RTX 4090 24GB | Qwen2.5-Coder-32B (Q6) | 20-35 |
متطلبات البرمجيات
- تطبيق Codex أو CLI:
brew install --cask codex(Mac) أوnpm install -g @openai/codex(Linux/Windows) - خادم استدلال محلي: Ollama أو LM Studio أو Unsloth Studio أو llama.cpp
- نموذج يدعم استدعاء الأدوات: يُنصح بـ GLM-4.7-Flash أو Qwen3-Coder أو GPT-OSS
الطريقة 1: الإعداد عبر Ollama
الأسلوب الأبسط. يدير Ollama النماذج ويقدّم واجهة API متوافقة مع OpenAI.
الخطوة 1: تثبيت Ollama وسحب النموذج
# تثبيت Ollama
brew install ollama # macOS
# أو: curl -fsSL https://ollama.com/install.sh | sh # Linux
# سحب النموذج المُوصى به
ollama pull glm-4.7-flash
# تشغيل خادم Ollama (إن لم يكن قيد التشغيل)
ollama serve
الخطوة 2: إعداد config.toml
أنشئ أو حرّر الملف ~/.codex/config.toml:
[model_providers.ollama]
name = "Ollama Local"
base_url = "http://localhost:11434/v1"
wire_api = "responses"
[profiles.local]
model_provider = "ollama"
model = "glm-4.7-flash"
الخطوة 3: تشغيل Codex
codex --profile local
أو بتحديد النموذج مباشرةً:
codex --model glm-4.7-flash -c model_provider=ollama
الطريقة 2: الإعداد عبر LM Studio
- نزّل وثبّت LM Studio
- ابحث ونزّل GLM-4.7-Flash-GGUF (يُنصح بكوانتزة Q4_K_M)
- انتقل إلى تبويب Local Server ← حمّل النموذج ← اضغط Start Server
- دوّن المنفذ (الافتراضي: 1234)
أضِف إلى ~/.codex/config.toml:
[model_providers.lmstudio]
name = "LM Studio"
base_url = "http://localhost:1234/v1"
wire_api = "responses"
[profiles.lmstudio]
model_provider = "lmstudio"
model = "glm-4.7-flash"
codex --profile lmstudio
الطريقة 3: الإعداد عبر Unsloth Studio
يوفّر Unsloth واجهة ويب مع استدعاء أدوات ذاتي الإصلاح وضبط تلقائي لمعطيات الاستدلال:
الخطوة 1: شغّل Unsloth وحمّل نموذجك
الخطوة 2: تصدير مفتاح API
export UNSLOTH_STUDIO_API_KEY=sk-uns...xxxx
الخطوة 3: إعداد config.toml
[model_providers.unsloth_api]
name = "Unsloth Studio"
base_url = "http://localhost:8888/v1"
env_key = "UNSLOTH_STUDIO_API_KEY"
wire_api = "responses"
[profiles.unsloth_api]
model_provider = "unsloth_api"
model = "gpt-oss-20b-GGUF"
الخطوة 4: التشغيل
codex -p unsloth_api
الطريقة 4: الإعداد عبر llama.cpp
للحصول على أقصى تحكّم وضبط للأداء، ابنِ llama.cpp من الشيفرة المصدرية:
الخطوة 1: بناء llama.cpp
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON # استخدم -DGGML_CUDA=OFF للمعالج/Metal
cmake --build llama.cpp/build --config Release -j \
--clean-first --target llama-server
cp llama.cpp/build/bin/llama-server llama.cpp/
الخطوة 2: تنزيل النموذج
pip install huggingface_hub hf_transfer
python -c "
import os; os.environ['HF_HUB_ENABLE_HF_TRANSFER'] = '1'
from huggingface_hub import snapshot_download
snapshot_download(
repo_id='unsloth/GLM-4.7-Flash-GGUF',
local_dir='models/GLM-4.7-Flash-GGUF',
allow_patterns=['*UD-Q4_K_XL*']
)"
الخطوة 3: تشغيل الخادم
./llama.cpp/llama-server \
--model models/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
--alias "unsloth/GLM-4.7-Flash" \
--port 8001 \
--ctx-size 131072 \
--flash-attn on \
--cache-type-k q8_0 --cache-type-v q8_0 \
--batch-size 4096 --ubatch-size 1024 \
--temp 1.0 --top-p 0.95 --min-p 0.01
الخطوة 4: إعداد Codex
[model_providers.llama_cpp]
name = "llama_cpp API"
base_url = "http://localhost:8001/v1"
wire_api = "responses"
stream_idle_timeout_ms = 10000000
[profiles.llama_cpp]
model_provider = "llama_cpp"
model = "unsloth/GLM-4.7-Flash"
codex --model unsloth/GLM-4.7-Flash -c model_provider=llama_cpp
أفضل النماذج المحلية لاستخدام Codex
| النموذج | المعلمات | السياق | استدعاء الأدوات | VRAM/RAM | الحُكم |
|---|---|---|---|---|---|
| GLM-4.7-Flash ⭐ | 30B MoE (3B نشط) | 128K | نعم (79.5%) | ~6.5GB | الأفضل إجمالًا — سريع، قادر، متطلبات منخفضة |
| Qwen3-Coder | 30B | 128K | نعم | ~20GB | جودة برمجة قوية، يحتاج عتادًا أعلى |
| GPT-OSS:20B | 20B | 32K | نعم | ~12GB | جيّد للأغراض العامّة، سياق أصغر |
| Devstral-Small-2 | 24B | 128K | نعم | ~16GB | مُركّز على البرمجة، استدعاء أدوات متين |
| Qwen3-Coder-Next | 30B+ | 128K | نعم | ~20GB | أحدث إصدار، تحسّن في الاستدلال |
المقارنة الكاملة: GPT-5.5 السحابي مقابل النماذج المحلية
| الميزة | Codex السحابي (GPT-5.5) | النماذج المحلية | Ollama Cloud (مجاني) |
|---|---|---|---|
| السرعة | 60-80 رمز/ث | 8-25 رمز/ث | 30-60 رمز/ث |
| جودة الشيفرة | الأفضل في فئتها (SWE-bench 90.2%) | 70-85% من جودة السحابي | 85-95% من جودة السحابي |
| استخدام الحاسوب | ✅ تحكّم كامل بسطح المكتب | ❌ غير متاح | ❌ غير متاح |
| المتصفّح داخل التطبيق | ✅ تصفّح وتعليق | ❌ غير متاح | ❌ غير متاح |
| الأتمتة | ✅ مجدولة ومتكرّرة | ❌ غير متاحة | ❌ غير متاحة |
| الذاكرة | ✅ يتذكّر التفضيلات | ❌ غير متاحة | ❌ غير متاحة |
| أكثر من 90 إضافة | ✅ كامل الفهرس | ❌ معظمها غير متاح | ❌ معظمها غير متاح |
| توليد الصور | ✅ gpt-image-1.5 | ❌ غير متاح | ❌ غير متاح |
| الاستدلال متعدّد الملفات | ممتاز | متوسّط | جيّد |
| التكلفة الشهرية | 20-200$ | 0$ | 0$ |
| الخصوصية | تُرسَل البيانات إلى OpenAI | محلي 100% | تُرسَل البيانات إلى المزوّد |
| العمل دون اتصال | لا | نعم | لا |
| حدود المعدّل | نعم | لا توجد | نعم (سخيّة) |
| Wire API | Responses (أصلي) | Responses (إلزامي) | Responses (إلزامي) |
اختبارات الأداء
| الإعداد | رمز/ث | التكلفة الشهرية | درجة الجودة |
|---|---|---|---|
| GPT-5.5 السحابي (افتراضي Codex) | 60-80 | 20-200$ | 10/10 |
| Ollama Cloud (qwen3.5:cloud) | 30-60 | 0$ | 8.5/10 |
| RTX 4090 (GLM-4.7-Flash) | 20-30 | ~12$ | 7.5/10 |
| RTX 4070 Ti (GLM-4.7-Flash Q4) | 15-25 | ~10$ | 7.5/10 |
| M4 Max 64GB (Qwen3-Coder) | 15-20 | ~5$ | 8/10 |
| M1 Max 32GB (GLM-4.7-Flash) | 10-15 | ~4$ | 7/10 |
| RTX 3060 12GB (GLM-4.7-Flash) | 8-15 | ~8$ | 7/10 |
القيود
أمور جوهرية يجب فهمها قبل الانتقال للنماذج المحلية:
- القيمة
wire_api = "responses"إلزامية: أوقف Codex دعم Chat Completions. يجب أن يدعم خادمك المحلي واجهة OpenAI Responses API على المسار/v1/responses. ويدعم ذلك Ollama وUnsloth وأحدث إصدارات llama.cpp. - استخدام الحاسوب سحابي حصرًا: ميزة أتمتة سطح المكتب (النقر والكتابة في التطبيقات) تتطلّب GPT-5.5 وبنية OpenAI التحتية. لن تعمل مع النماذج المحلية.
- الأتمتة/الجدولة معطّلة: المهام المتكرّرة وإعادة استخدام الخيوط وجدولة الأعمال المستقبلية تتطلّب اتصالًا سحابيًا.
- الذاكرة لا تُحفَظ: ميزة "تذكّر التفضيلات" سحابية فقط.
- معظم الإضافات غير متاحة: الإضافات الـ90+ (Atlassian، GitLab، CircleCI، إلخ) تتطلّب مصادقة سحابية.
- استدلال أبطأ (3-10 أضعاف): المهام البسيطة تستغرق ضعف المدّة، والمعقّدة قد تصل إلى 10 أضعاف مقارنة بالسحابة.
- استدلال متعدّد الملفات أضعف: النماذج المحلية تتعثّر في تتبّع التبعيّات بين الملفات وفهم البنية المعمارية.
- دقّة التحرير تنخفض: دقّة تحرير GPT-5.5 السحابي ~98%. أما النماذج المحلية فتقع بين 70-80%، أي رقعات معطوبة تحتاج إصلاحًا يدويًا.
- قد يفشل استدعاء الأدوات: النماذج التي تفتقر إلى دعم متين لاستدعاء الأدوات ستولّد أوصافًا نصّية بدل تنفيذ الإجراءات.
الإمكانات
- برمجة مجانية وغير محدودة: شغّل آلاف المهام دون مراقبة عدّاد الفواتير.
- خصوصية تامّة: الأسرار التجارية والخوارزميات المملوكة وشيفرة العملاء — كلّها تبقى محليًا.
- توافق GDPR/HIPAA: صفر نقل بيانات عابر للحدود. لا حاجة لاتفاقيات DPA مع أطراف ثالثة.
- سير عمل هجين: استخدم
--profile localللأعمال الحسّاسة، و--profile cloudللمهام المعقّدة. التبديل بعَلَم واحد. - نماذج معايَرة مخصّصة: درّب نماذج خاصّة بمجالك على شيفرة مشروعك واستخدمها عبر Codex.
- التطوير دون اتصال: المطارات، المناطق الريفية، المرافق المصنّفة — برمج مع الذكاء الاصطناعي في أي مكان.
- توحيد عمل الفريق: شارِك config.toml بين أعضاء الفريق لإعدادات محلية متّسقة.
- اختبار A/B للنماذج: قارن نماذج مختلفة على المهمّة نفسها فورًا.
تحليل التكلفة
| الخيار | تكلفة مبدئية | شهريًا | إجمالي 6 أشهر | إجمالي 12 شهرًا | الجودة |
|---|---|---|---|---|---|
| ChatGPT Plus (Codex السحابي) | 0$ | 20$ | 120$ | 240$ | الأفضل |
| ChatGPT Pro | 0$ | 200$ | 1,200$ | 2,400$ | الأفضل + غير محدود |
| GPU محلي (RTX 4070 Ti) | 489$ | ~10$ | 549$ | 609$ | 70-85% |
| Mac حالي (16GB+) | 0$ | ~4$ | 24$ | 48$ | 70-85% |
| نماذج Ollama Cloud | 0$ | 0$ | 0$ | 0$ | 85-95% |
أفضل قيمة: نماذج Ollama السحابية تمنحك 85-95% من جودة السحابي بتكلفة 0$. إن لم تكن الخصوصية متطلّبًا صارمًا، ابدأ من هنا.
استكشاف الأخطاء وإصلاحها
خطأ "type of tool must be function"
يعني هذا أن خادمك لا يدعم wire_api = "responses" بالشكل الصحيح. حدّث خادم الاستدلال لأحدث إصدار (Ollama 0.14.3+، أحدث llama.cpp).
النموذج غير موجود
- افحص النماذج المتاحة:
ollama listأوcurl http://localhost:8001/v1/models - استخدم اسم النموذج الدقيق من استجابة API في ملف config.toml
Codex يتعلّق أو تنتهي مهلته
- أضِف
stream_idle_timeout_ms = 10000000إلى إعداد model_provider - النماذج المحلية أبطأ — قد تنفد مهلة Codex وهو ينتظر الاستجابات على المهام المعقّدة
استدعاء الأدوات لا يعمل
- تحقّق من أن نموذجك يدعم استدعاء الأدوات (يُنصح بـ GLM-4.7-Flash)
- فعِّل قوالب jinja في llama.cpp: أضِف العَلَم
--jinja - تأكّد من ضبط
wire_api = "responses"(وليس "chat")
الأسئلة الشائعة
هل يمكن لتطبيق Codex لسطح المكتب استخدام النماذج المحلية؟
نعم. يقرأ تطبيق Codex من ~/.codex/config.toml ويدعم مزوّدي نماذج مخصّصين يشيرون إلى خوادم محلية. تُعدّ model_provider بـ base_url محلي وتختاره عبر الملفّات التعريفية (profiles).
هل تعمل ميزة Computer Use مع النماذج المحلية؟
لا. ميزة استخدام الحاسوب (أتمتة سطح المكتب في الخلفية) سحابية حصرًا وتتطلّب GPT-5.5 وبنية OpenAI التحتية. لا تستطيع النماذج المحلية التحكّم بسطح مكتبك.
ما الفرق بين تطبيق Codex وCodex CLI عند استخدام النماذج المحلية؟
كلاهما يستخدمان config.toml نفسه ويدعمان مزوّدي النماذج المحلية ذاتهم. يضيف التطبيق ميزات واجهة رسومية (تصوّر worktree، تبويبات الطرفيّة، أجزاء المعاينة) بينما يقتصر CLI على الطرفيّة. أما الميزات السحابية الحصرية (Computer Use، الأتمتة، الإضافات) فهي غائبة في كليهما عند استخدام نماذج محلية.
ما أفضل نموذج محلي لـ Codex؟
GLM-4.7-Flash هو الخيار الأمثل: سياق 128K، استدعاء أدوات قوي (79.5%)، ويعمل بـ 16 جيجابايت RAM بفضل بنية MoE. وللحصول على أعلى جودة برمجة، فإن Qwen3-Coder 30B أفضل قليلًا لكنه يتطلّب 20+ جيجابايت VRAM.
هل ما زالت واجهة Chat Completions API مدعومة؟
لا. أوقفت OpenAI دعم Chat Completions في Codex. يجب استخدام wire_api = "responses" في ملف config.toml. الخوادم التي تعرض فقط /v1/chat/completions لن تعمل.
هل يمكنني استخدام نماذج Ollama السحابية المجانية مع Codex؟
نعم. يقدّم Ollama نماذج وكيلة مثل qwen3.5:cloud وglm-5:cloud بطبقات مجانية سخيّة. تعمل بسرعة 30-60 رمز/ث دون متطلبات عتادية تتجاوز تشغيل Ollama نفسه. تُعدّها بنفس طريقة النماذج المحلية في config.toml.
سير العمل المُوصى به
الإعداد الأكثر إنتاجية يجمع بين المحلي والسحابي:
# ~/.codex/config.toml
# الافتراضي محلي للحفاظ على الخصوصية
model_provider = "ollama"
model = "glm-4.7-flash"
[model_providers.ollama]
name = "Ollama Local"
base_url = "http://localhost:11434/v1"
wire_api = "responses"
[model_providers.cloud]
name = "OpenAI Cloud"
# يستخدم واجهة OpenAI API الافتراضية
[profiles.local]
model_provider = "ollama"
model = "glm-4.7-flash"
[profiles.cloud]
model_provider = "cloud"
model = "gpt-5.5"
[profiles.free]
model_provider = "ollama"
model = "qwen3.5:cloud"
الاستخدام اليومي:
# عمل خاص (شيفرة حسّاسة)
codex --profile local "fix the auth module"
# مهام معقّدة (تحتاج جودة)
codex --profile cloud "refactor the entire payment system"
# مجاني وسريع (غير حسّاس)
codex --profile free "add documentation to all functions"
للحصول على مقارنة أوسع لأدوات البرمجة بالذكاء الاصطناعي، اطّلع على مقارنة Cursor مقابل Windsurf مقابل Claude Code. وإن كنت تبني مشاريع إبداعية، تفقّد مولّد الصور بالذكاء الاصطناعي المجاني.









