هوش مصنوعی بدون اینترنت! راهنمای سخت‌افزار

<p><strong _ngcontent-ng-c2625912146="">هوش مصنوعی بدون اینترنت! راهنمای سخت&zwnj;افزار</strong></p>

🧠  کدام مدل هوش مصنوعی روی سیستم شما اجرا می‌شود؟

انتخاب مدل هوش مصنوعی (LLM) دقیقاً مثل خرید لباس است؛ باید سایزی را انتخاب کنید که اندازه سیستم‌تان باشد!
در جدول زیر، ما تمام مدل‌های معروف (از Gemma سبک تا DeepSeek سنگین) را بر اساس سخت‌افزارهای موجود در بازار ایران دسته‌بندی کرده‌ایم.

نکته مهم: این اعداد بر اساس کوانتایز پیش‌فرض (q4) محاسبه شده‌اند که بهترین تعادل سرعت و کیفیت را دارد.

📊 جدول جامع نیازمندی‌های سخت‌افزاری (PC و لپ‌تاپ)

کلاس مدل (نمونه‌ها) سایز حداقل RAM سیستم VRAM پیشنهادی (GPU) GPUهای رایج ایران CPU پیشنهادی
مدل‌های خیلی سبک
(Gemma 2B)
2B 6–8 GB 0–4 GB بدون GPU هم OK
GTX 1050Ti 4GB
i3 نسل 10 به بالا
Ryzen 3 3000+
سبک
(Phi-3 Mini, DeepSeek-Coder 1.3B)
3B–4B 8 GB 4–6 GB GTX 1060 6GB
GTX 1660 6GB
i5 نسل 8 به بالا
Ryzen 5 2600+
«Sweet Spot» عمومی
(Llama 3.1 8B, Llama 3)
8B 12–16 GB 8 GB RTX 2060 8GB
RTX 3060 12GB (عالی)
i5 نسل 10 به بالا
Ryzen 5 3600+
کمی سنگین‌تر
(Gemma2 9B, Yi 9B)
9B 16 GB 10–12 GB RTX 3060 12GB
(بهترین گزینه اقتصادی)
i5 / Ryzen 5 میان‌رده رو به بالا
متوسط
(Llama2 13B, CodeLlama)
13B 16GB+
(ترجیحاً 24)
12–16 GB RTX 3060 12GB (لب مرز)
RTX 3080 10GB (تنگ)
RTX 4070 12GB
i7 نسل 10+
Ryzen 7 3700X+
متوسط رو به بالا
(Phi-3 Med, DeepSeek-R1 14B)
14B 24 GB 16 GB RTX 4070 Ti (احتمالاً تنگ)
RTX 3090 24GB
RTX A4000
Ryzen 7/9 جدید
Core i7/i9 جدید
سنگین
(Gemma2 27B)
27B 32 GB 24 GB RTX 3090 24GB
(گزینه طلایی دست‌دوم ایران)
Core i9
Ryzen 9
بسیار سنگین
(DeepSeek-R1 32B, Yi 34B)
32B–34B 48 GB 24–32 GB RTX 3090 24GB (مرزی)
RTX 4090 24GB + RAM بالا
چند GPU همزمان
CPU قوی
(ترجیحاً 12–16 هسته)
غول مرحله آخر
(Llama3 70B, DeepSeek 70B)
70B 64GB+ 48GB+ سخت/گران در ایران:
RTX 6000 / A6000
یا چند کارت 3090
CPU خیلی قوی + RAM زیاد
خیلی خیلی بزرگ
(DeepSeek 671B, Llama 405B)
405B+ مناسب کاربر خانگی نیست — نیاز به دیتاسنتر یا کلاستر GPU

💡 جمع‌بندی سریع برای خریداران:

  • اقتصادی‌ترین انتخاب: اگر بودجه محدود دارید، RTX 3060 12GB معجزه می‌کند. تمام مدل‌های تا ۱۴ میلیارد پارامتر را اجرا می‌کند.
  • حرفه‌ای‌ها: اگر دنبال اجرای مدل‌های هوشمندتر (مثل Gemma 27B یا کدنویسی حرفه‌ای) هستید، RTX 3090 24GB (دست دوم) طلایی‌ترین گزینه بازار ایران است.
  • بدون گرافیک: اگر لپ‌تاپ اداری دارید، مدل‌های Gemma 2B و Phi-3 را نصب کنید؛ سبک، سریع و کارراه انداز هستند.

جدول بالا را ذخیره کنید تا موقع خرید قطعات سردرگم نشوید!

🔍 کالبدشکافی Ollama: معنی ۴B، Q4_K_M و num_ctx چیست؟

وقتی می‌خواهید یک مدل را در Ollama دانلود کنید، با اسم‌های ترسناکی مثل Llama-3-8B-Q4_K_M.gguf روبرو می‌شوید! آیا این کدها رمز هسته‌ای هستند؟ خیر!

دانستن این ۳ اصطلاح (سایز، کوانتایز و کانتکست) مرز بین «اجرای روان» و «هنگ کردن سیستم» است. در این راهنما، این مفاهیم را به زبان ساده باز می‌کنیم.

۱. پارامتر (B): بیلیارد نه، میلیارد!

وقتی می‌گوییم یک مدل 8B است، یعنی حدود ۸ میلیارد (Billion) پارامتر دارد.

  • 🧠
    پارامتر چیست؟ پارامترها مثل «پیچ‌های تنظیم» یا سیناپس‌های داخل شبکه عصبی هستند که دانش و الگوها در آن‌ها ذخیره شده است.
  • ⚖️
    قانون کلی: هرچه تعداد پارامتر (B) بیشتر باشد ← مدل باهوش‌تر است، اما رم (RAM) و گرافیک (VRAM) بیشتری می‌بلعد و کندتر اجرا می‌شود.

۲. کوانتایز (Quantization): فشرده‌سازی هوشمند

عبارت‌هایی مثل Q4 یا Q8 نشان‌دهنده تکنیک فشرده‌سازی وزن‌های مدل هستند. مدل‌های خام (FP16) بسیار حجیم‌اند، بنابراین Ollama آن‌ها را کوانتایز می‌کند.

Q4_K_M (پیشنهادی) ⭐

یعنی وزن‌ها ۴ بیتی هستند. این «نقطه تعادل طلایی» است. کیفیت بسیار نزدیک به مدل اصلی است اما حجم و مصرف رم به شدت کاهش می‌یابد. پیش‌فرض Ollama همین است.

Q8_0 (کیفیت بالا)

یعنی ۸ بیتی. دقیق‌ترین حالت ممکن برای اجرا، اما حافظه زیادی اشغال می‌کند. فقط وقتی سراغش بروید که کیفیت برایتان مهم‌تر از سرعت و رم است.

Q3_K_M (سبک)

یعنی ۳ بیتی. برای سیستم‌های ضعیف که می‌خواهند «به زور» مدل را اجرا کنند. افت هوش مدل در این حالت محسوس است.

* پسوند _K_M (Medium) نسخه متعادل و _K_S (Small) نسخه فشرده‌تر است. معمولاً K_M بهترین انتخاب است.

۳. متغیر پنهان: num_ctx (حافظه کوتاه مدت)

num_ctx یا Context Window تعیین می‌کند که مدل چند «توکن» (کلمه) را می‌تواند همزمان در ذهن خود نگه دارد.

  • پیش‌فرض: معمولاً 2048 توکن است (حدود ۱۵۰۰ کلمه فارسی).
  • کاربرد: برای خلاصه کردن کتاب یا چت‌های طولانی باید این عدد را زیاد کنید.
  • ⚠️ خطر بزرگ: بالا بردن num_ctx مصرف رم/وی‌رم را به صورت تصاعدی بالا می‌برد. خیلی‌ها فکر می‌کنند مدل سنگین است، در حالی که کانتکست زیاد سیستم را خفه کرده است!

💊 نسخه تجویزی برای سخت‌افزارهای شما

بر اساس کارت گرافیک‌تان، تنظیمات زیر را اعمال کنید تا بهترین نتیجه را بگیرید:

دسته‌ی اول: میان‌رده قدرتمند

(RTX 3060 / RTX 2060 / RTX 4060)


  • مدل پیشنهادی: Llama 3 8B یا Gemma 9B
  • کوانتایز: Q4_K_M (عالی) یا حتی Q6/Q8 (اگر کانتکست کم باشد)
  • تنظیم num_ctx: می‌توانید تا 8192 بالا ببرید (مخصوصاً در نسخه ۱۲ گیگ ۳۰۶۰).

دسته‌ی دوم: اقتصادی و قدیمی

(GTX 1660 / GTX 1060 / 1050Ti)


  • مدل پیشنهادی: Phi-3 Mini (3.8B) یا Gemma 2B
  • اگر مدل 8B می‌خواهید: حتماً نسخه Q3_K_M را تست کنید.
  • ⚠️ تنظیم num_ctx: روی همان پیش‌فرض (2048) نگه دارید. افزایش آن باعث کندی شدید می‌شود.

💡 قانون طلایی ویدیو:

«اگر سیستم کند شد، اول num_ctx را کم کنید، اگر درست نشد، سراغ مدل سبک‌تر (Q3) بروید.»