هوش مصنوعیAGENT

فصل دوم: کالبدشکافی مغز LLMها! 🧠

ما تو مقاله اولیه سایت تاریخچه CHATGPT رو بررسی کردیم و اما پس دلتون می‌خواد بشید اون استاد نجوا با غول هوش مصنوعی که با چندتا پرامپت هوشمندانه، گنج دانش و قدرت پردازشش رو آزاد می‌کنه؟ عالیه! اما برای اینکه بفهمید چه پرامپتی «هوشمندانه» است و چطور باید جواب درست رو از دل این مدل‌ها بیرون بکشید، اول باید بفهمید که اینا اصلاً چطوری اطلاعات رو پردازش می‌کنن؛ یا به عبارتی، چطوری فکر می‌کنن.

تو این فصل، قراره مثل باز کردن یه پیاز، لایه به لایه به دل ماجرا نفوذ کنیم. اول از بیرونی‌ترین لایه شروع می‌کنیم و بعد ذره ذره عمیق‌تر میشیم.

نقشه راه ما تو این فصل (روش پیازی! 🧅):

🎯 LLMها چی هستن؟ می‌بینیم که این مدل‌ها در واقع طوطی‌های مقلد فوق‌العاده حرفه‌ای متن هستن.
👁️ LLMها دنیا رو چطور می‌بینن؟ یاد می‌گیریم که چطور متن رو به تکه‌های کوچیک به اسم «توکن» تقسیم می‌کنن و اگه نتونن این کارو خوب انجام بدن چه اتفاقی می‌افته.
🧱 دونه به دونه: می‌فهمیم که چطور این توکن‌ها رو پشت سر هم و کلمه به کلمه تولید می‌کنن.
🌡️ دما و احتمالات: با روش‌های مختلف انتخاب کلمه بعدی آشنا میشیم.
🧠 معماری ترنسفورمر: به داخلی‌ترین لایه مغز LLM میریم و می‌بینیم که از کلی «مغز کوچولو» تشکیل شده که با یه بازی پرسش و پاسخ به اسم «توجه» (Attention) با هم حرف می‌زنن و این چه ربطی به ترتیب نوشتن پرامپت‌های ما داره.

یه نکته مهم قبل از شیرجه زدن! 🏊‍♂️

یادتون باشه که این کتاب در مورد استفاده کردن از LLMهاست، نه ساختن اون‌ها. پس کلی جزئیات فنی باحال هست که ما بهشون اشاره نمی‌کنیم چون برای مهندسی پرامپت لازم نیستن. اگه دنبال فرمول‌های ریاضی و ضرب ماتریس هستید، باید سراغ منابع دیگه برید (مقاله کلاسیک The Illustrated Transformer یه نقطه شروع عالی برای این کاره).

اما بهتون قول میدیم برای نوشتن پرامپت‌های فوق‌العاده، به اون حد از جزئیات فنی نیاز ندارید.

LLMها واقعاً چی هستن؟ (ساده‌ترین تعریف ممکن)

تو پایه‌ای‌ترین سطح، یک LLM یه سرویسه که یه متن از شما می‌گیره و یه متن به شما تحویل میده: متن ورودی، متن خروجی. به ورودی میگن پرامپت (Prompt) و به خروجی میگن تکمیل (Completion) یا گاهی وقتا پاسخ (Response). به همین سادگی!

وقتی یه LLM برای اولین بار به دنیا میاد و هنوز هیچی یاد نگرفته (آموزش ندیده)، خروجی‌هاش یه مشت حروف و علائم درهم و برهم و بی‌ربطه. مثل یه نوزاد که فقط صداهای نامفهوم تولید می‌کنه. باید اول آموزش ببینه تا به درد بخور بشه. بعد از آموزش، دیگه فقط به متن با متن جواب نمیده، بلکه به زبان با زبان پاسخ میده.

آموزش دادن این مدل‌ها کلی مهارت، کامپیوترهای خفن و زمان لازم داره که از عهده اکثر تیم‌های برنامه‌نویسی خارجه. به خاطر همین، اکثر اپلیکیشن‌ها از مدل‌های آماده و همه‌کاره استفاده می‌کنن که بهشون میگن «مدل‌های پایه» (Foundation Models). پس ما از شما انتظار نداریم که خودتون یه LLM آموزش بدید، اما اگه می‌خواید ازشون استفاده کنید (مخصوصاً تو برنامه‌نویسی)، خیلی مهمه که بفهمید این مدل‌ها برای انجام چه کاری آموزش دیده‌اند.

💡 «تنظیم دقیق» یا Fine-Tuning یعنی چی؟

آموزش LLMها خیلی پرهزینه‌ست، در حالی که خیلی از درس‌های پایه (مثل گرامر زبان فارسی) تو همه دیتاست‌ها یکسانه. برای همین، معمولاً به جای اینکه یه مدل رو از صفر شروع کنن، یه کپی از یه مدل از قبل آموزش‌دیده رو برمی‌دارن و اون رو با داده‌های جدید، برای یه کار تخصصی‌تر «تنظیم دقیق» می‌کنن.

مثال: مدل OpenAI Codex (که برای کدنویسی ساخته شده) در واقع یه کپی از مدل GPT-3 (که برای زبان عادی بود) هست که اون رو با کلی کد منبع باز از سایت گیت‌هاب، تنظیم دقیق کردن تا کدنویس ماهری بشه. 👨‍💻

نکته مهم برای پرامپت‌نویسی: اگه مدلی روی داده A آموزش دیده و بعد روی داده B تنظیم دقیق شده، شما باید پرامپت‌هاتون رو طوری بنویسید که انگار مدل فقط روی داده B آموزش دیده.

هدف اصلی از آموزش: تقلید کردن! 🦜

LLMها با استفاده از یه مجموعه خیلی بزرگ از اسناد و متون (که بهش میگن «مجموعه آموزشی» یا Training Set) آموزش می‌بینن. این مجموعه آموزشی ترکیبی از همه چیزه: کتاب‌ها، مقاله‌ها، مکالمه‌های ردیت، کدهای گیت‌هاب و... .

از مدل انتظار میره که یاد بگیره خروجی‌هایی تولید کنه که دقیقاً شبیه به متن‌های مجموعه آموزشی باشن. به عبارت دیگه، وقتی شما شروع یه متن از مجموعه آموزشی رو به عنوان پرامپت به مدل می‌دید، بهترین خروجی از نظر مدل، ادامه‌ایه که به احتمال زیاد در سند اصلی اومده. پس یادتون باشه:

مدل‌های زبان، استادان تقلید هستند!

تفاوت اصلی LLM با یه موتور جستجوی خفن چیه؟ 🧐

خب، پس فرق یه LLM با یه موتور جستجوی گنده مثل گوگل چیه؟ بالاخره موتور جستجو هم اگه بهش اول یه متن رو بدی، می‌تونه با دقت ۱۰۰٪ ادامه‌اش رو تو کل اینترنت پیدا کنه و بهت بده. پس چرا این همه هیاهو برای LLMهاست؟

اینجا تفاوت کلیدی مشخص میشه: هدف ما این نیست که یه طوطی سخنگو داشته باشیم که فقط متن‌ها رو از حفظ تکرار کنه. LLM نباید متن‌ها رو از بَر کنه، بلکه باید الگوهای درون اون متن‌ها (مخصوصاً الگوهای منطقی و استدلالی) رو یاد بگیره و بتونه اون‌ها رو روی هر پرامپت جدیدی پیاده کنه، نه فقط اونایی که تو آموزشش دیده. صرفاً از حفظ کردن، یک ایراد بزرگ محسوب میشه!

وقتی مدل به جای یادگیری، حفظ می‌کنه! (Overfitting)

البته بعضی وقتا این پیشگیری شکست می‌خوره و مدل به جای یاد گرفتن الگوها، یه تیکه‌هایی از متن رو کاملاً از حفظ می‌کنه. به این ایراد میگن «بیش‌برازش» یا Overfitting.

این اتفاق تو مدل‌های تجاری بزرگ نادره، اما خوبه که حواستون بهش باشه. یعنی اگه دیدید یه LLM یه مسئله‌ای که قبلاً تو آموزشش دیده رو به راحتی حل کرد، لزوماً به این معنی نیست که اگه یه مسئله شبیه به همون ولی جدید بهش بدید، بتونه به همون خوبی حلش کنه. شاید فقط داره جواب حفظ شده رو طوطی‌وار تکرار می‌کنه!

💡 طرز فکر درست برای مهندسی پرامپت

بعد از اینکه یه مدت با LLMها کار کنید، کم کم یه حس ششم پیدا می‌کنید که مدل چطور رفتار می‌کنه. برای اینکه این حس ششم رو تقویت کنید، این طرز فکر رو تمرین کنید:

وقتی می‌خواید بدونید یه پرامپت چطور کامل میشه، از خودتون نپرسید که «یه آدم منطقی به این چی جواب میده؟».

به جاش از خودتون این سوال کلیدی رو بپرسید:

«اگه یه متن رو به صورت تصادفی از کل اینترنت (مجموعه آموزشی) انتخاب می‌کردم که با همین پرامپت من شروع شده بود، به احتمال زیاد ادامه اون متن چی می‌تونست باشه؟»

جوابی که LLM به شما میده، همین «ادامه محتمل» هست.

🧠 LLM چطور ادامه یه داستان رو حدس می‌زنه؟ (یه مثال عملی باحال!) 💡

بریم سراغ یه مثال که قشنگ دستتون بیاد مدل چطوری فکر می‌کنه. این متن رو در نظر بگیرید:

«دیروز تلویزیونم خراب شد. الان نمی‌تونم روشنش کنم اصلاً»

برای متنی که اینطوری شروع میشه، به نظر شما از نظر آماری، محتمل‌ترین کلمه بعدی چیه؟

غ۲ی۳ط۴و
پنجشنبه.
. (نقطه)

هیچکدوم از اینا غیرممکن نیستن. شاید یه گربه از رو کیبورد رد شده باشه 🐈 و گزینه ۱ تولید بشه، یا شاید جمله موقع ویرایش قاطی شده باشه و گزینه ۲ بیاد. ولی خداییش، محتمل‌ترین ادامه، گزینه ۳ (یعنی گذاشتن نقطه و تمام کردن جمله) هست. تقریباً همه LLMها هم همین گزینه رو انتخاب می‌کنن.

حالا قضیه رو یه کم پیچیده‌تر کنیم... 🤔

خب، فرض کنیم مدل جمله رو تموم کرد. حالا پرامپت ما اینه:

«دیروز تلویزیونم خراب شد. الان نمی‌تونم روشنش کنم اصلاً.»

به نظرتون محتمل‌ترین ادامه برای این متن چیه؟

الف) 📚 برای همین امشب تصمیم گرفتم بشینم کتاب بخونم.
ب) ⚽ پس بهتره بازی رو خونه شما ببینیم؟
ج) 🛠️
اول سعی کنید تلویزیون رو از برق بکشید و دوباره به برق بزنید.

خب، اینجا داستان جالب میشه! جواب کاملاً بستگی به «مجموعه آموزشی» مدل داره.

سناریو ۱: اگه مدل فقط کتاب داستان و رمان خونده باشه، احتمالاً گزینه «الف» رو انتخاب می‌کنه چون خیلی شبیه به ادامه یه داستانه.
سناریو ۲: اگه مدل کلی ایمیل و چت هم خونده باشه، یهو گزینه «ب» خیلی محتمل به نظر میاد چون شبیه یه مکالمه دوستانه است.

اما جواب واقعی که یه مدل واقعی (text-davinci-003) تولید کرده، گزینه «ج» هست! 🤯 چرا؟ چون این مدل با حجم عظیمی از مکالمات پشتیبانی مشتری و راهنماهای آنلاین آموزش دیده و داره رفتار اون‌ها رو تقلید می‌کنه.

💡 پس نکته طلایی داستان چیه؟

یه الگو داره اینجا شکل می‌گیره: هر چی مجموعه آموزشی مدل رو بهتر بشناسید، بهتر می‌تونید رفتار و خروجی احتمالی اون مدل رو حدس بزنید.

خیلی از شرکت‌های بزرگ، مجموعه آموزشی‌شون رو فاش نمی‌کنن چون این «فوت کوزه‌گری» و سس مخصوصشونه! 🤫 اما حتی با این وجود، معمولاً میشه یه حدس منطقی زد که این مدل‌ها با چه نوع متن‌هایی آموزش دیدن (مثلاً کل اینترنت!).

🧠 مغز انسان در مقابل پردازش LLM: یه تفاوت اساسی!

گفتیم که LLM فقط محتمل‌ترین ادامه رو انتخاب می‌کنه. این روش با طرز فکر ما انسان‌ها موقع نوشتن، زمین تا آسمون فرق داره. چرا؟ چون ما آدما وقتی می‌نویسیم، کارهای دیگه‌ای هم انجام می‌دیم.

فرض کنید می‌خواید یه پست وبلاگ در مورد یه پادکست باحال بنویسید. شروع می‌کنید به نوشتن:

«تو آخرین قسمت از پادکست "بقیه تاریخ"، در مورد جنگ‌های صد ساله صحبت می‌کنن (لینک پادکست: http://»

شما که لینک رو از حفظ نیستید! اینجا نوشتن رو متوقف می‌کنید، یه تب جدید باز می‌کنید، تو گوگل سرچ می‌کنید و لینک درست رو پیدا می‌کنید. 🕵️‍♂️ اگه پیداش نکردید، برمی‌گردید و متنتون رو ویرایش می‌کنید و مثلاً می‌نویسید «(متاسفانه این قسمت دیگه در دسترس نیست)».

💡 تفاوت کلیدی اینجاست: LLM فقط حدس می‌زنه!

مدل هوش مصنوعی نه می‌تونه گوگل کنه، نه می‌تونه متن رو ویرایش کنه. پس چیکار می‌کنه؟ فقط حدس میزنه! 🤷‍♂️

مدل هیچوقت شک و تردید خودش رو بروز نمیده. نمیگه «مطمئن نیستم» یا «این فقط یه حدسه». چرا؟ چون کل کار مدل، از اول تا آخر، حدس زدنه! این حدس زدن جایی اتفاق می‌افته که ما آدما معمولاً روشمون رو عوض می‌کنیم (یعنی به جای نوشتن، میریم سراغ تحقیق و جستجو).

استاد جعل‌های باورپذیر! 🎭

LLMها در تقلید کردن از الگوهایی که دیدن، فوق‌العاده‌ان! اگه ازشون یه کد ملی الکی بخوان، یه رشته عدد کاملاً شبیه به کد ملی واقعی بهتون میدن. اگه یه لینک پادکست بخوان، یه آدرس اینترنتی کاملاً شبیه به لینک واقعی براتون می‌سازن!

مثلاً من از یکی از مدل‌های GPT-3 خواستم که همون لینک پادکست رو کامل کنه و این جواب رو بهم داد:

http://www.acast.com/the-rest-is-history-episode-5-the-Hundred-Years-War-1411-1453-with-dr-martin-kemp)

حالا بیاید این جواب رو کالبدشکافی کنیم:

آدرس URL کاملاً واقعی به نظر میرسه، ولی کاملاً ساختگیه!
دکتر مارتین کمپ کیه؟ آیا اصلاً همچین شخصی وجود داره؟ بله! یه مورخ هنر به این اسم تو آکسفورد هست. اما آیا تو این پادکست در مورد جنگ‌های صد ساله حرف زده؟ نه!

اینجا مدل، الگوهای مختلفی که دیده (ساختار URL، ترکیب اسم و فامیل انگلیسی، اسم پادکست) رو با هم قاطی کرده و یه جواب کاملاً باورپذیر ولی غلط ساخته. به این پدیده میگن «توهم» یا Hallucination که در ادامه بیشتر در موردش صحبت می‌کنیم.

😵 «توهم» یا Hallucination: وقتی هوش مصنوعی قصه می‌بافه!

اینکه LLMها فقط ماشین‌های تقلیدکننده هستن، یه نتیجه بد هم داره: توهم (Hallucination). یعنی مدل با اعتماد به نفس کامل، اطلاعاتی رو به شما میده که کاملاً اشتباهه ولی خیلی واقعی به نظر میرسه. این یکی از بزرگترین مشکلات موقع کار با LLMهاست.

از نظر خود مدل، جوابی که توهم زده با یه جواب درست هیچ فرقی نداره. برای همین، دستورهایی مثل «الکی از خودت چیزی در نیار» فایده چندانی نداره! 😅 به جاش، راه حل بهتر اینه که از مدل بخوایم یه سری اطلاعات زمینه‌ای بهمون بده که بشه اون‌ها رو چک کرد. مثلاً:

ازش بخوایم استدلالش رو توضیح بده.
ازش منبع یا لینک بخوایم.
جزئیات و کلمات کلیدی بهمون بده که بتونیم خودمون سرچ کنیم.

مثلاً چک کردن جمله «یه پادشاه انگلیسی بود که با دخترعموش ازدواج کرد» خیلی سخته. اما چک کردن این جمله «یه پادشاه انگلیسی بود که با دخترعموش ازدواج کرد، یعنی جورج چهارم که با کارولین برانشوایگ ازدواج کرد» خیلی راحت‌تره. بهترین راه برای مقابله با توهم اینه: «اعتماد کن، ولی بررسی کن»، البته اون قسمت اعتمادش رو هم حذف کنید! 😉

سوگیری حقیقت: وقتی مدل هر چی بگی باور می‌کنه!

شما می‌تونید خودتون هم باعث توهم زدن مدل بشید! اگه تو پرامپت‌تون به چیزی اشاره کنید که وجود خارجی نداره، مدل معمولاً فرض می‌کنه که اون چیز واقعیه و بر همون اساس جواب میده. به این میگن «سوگیری حقیقت» (Truth Bias).

چطور از این سوگیری به نفع خودمون استفاده کنیم؟ 💡

اگه می‌خواید مدل یه سناریوی فرضی یا تخیلی رو بررسی کنه، لازم نیست بهش بگید «فرض کن که...». فقط کافیه اون سناریو رو به عنوان یه حقیقت بیان کنید!

❌ نگویید: «فرض کن الان سال ۲۰۳۰ هست و نئاندرتال‌ها دوباره زنده شدن.»

✅ بگویید: «الان سال ۲۰۳۱ هست، یعنی یک سال کامل از زمانی که اولین نئاندرتال‌ها دوباره زنده شدن می‌گذره.»

مدل با این روش، خیلی راحت‌تر وارد دنیای خیالی شما میشه و به سوالاتتون جواب میده.

اما این سوگیری حقیقت می‌تونه خطرناک هم باشه، مخصوصاً وقتی دارید یه اپلیکیشن می‌سازید. خیلی راحت ممکنه موقع ساختن پرامپت به صورت خودکار، یه اطلاعات غلط یا بی‌معنی وارد پرامپت بشه. یه آدم اگه این پرامپت رو بخونه، با تعجب بهتون نگاه می‌کنه و میگه «جداً؟!» 🤨 اما LLM این گزینه رو نداره. اون تمام تلاشش رو می‌کنه که فرض کنه پرامپت شما واقعیه و بعیده که اشتباهتون رو اصلاح کنه.

پس یادتون باشه: شما مسئولید که به مدل یه پرامپت درست و حسابی بدید که نیازی به اصلاح نداشته باشه!

👁️ چشم‌های هوش مصنوعی: LLMها دنیا رو چطوری می‌بینن؟ (توکن‌ها!)

گفتیم که LLMها متن رو می‌گیرن و متن تحویل میدن. اما بیاید یه کم عمیق تر بشیم و ببینیم این مدل‌ها اصلاً چطوری متن رو «می‌بینن»؟ ما عادت کردیم که متن رو دنباله‌ای از حروف ببینیم، اما LLMها اینطوری نیستن! اون‌ها می‌تونن در مورد حروف استدلال کنن، اما این قابلیت ذاتی‌شون نیست و نیاز به تمرکز خیلی زیادی از طرف مدل داره. (همین الان که این متن نوشته میشه، حتی خفن‌ترین مدل‌ها هم با سوالی مثل «کلمه "توت‌فرنگی" چندتا "ت" داره؟» به چالش کشیده میشن!)

باور کنید یا نه، ما هم حرف به حرف نمی‌خونیم! 🧠

شاید جالب باشه بدونید که ما آدم‌ها هم واقعاً حرف به حرف نمی‌خونیم! تو مراحل اولیه پردازش مغز ما، حروف به سرعت به «کلمه» تبدیل میشن. چیزی که ما می‌خونیم کلمه‌ها هستن، نه حروف. به خاطر همینه که خیلی وقتا غلط‌های املایی رو نمی‌بینیم و از روشون رد میشیم؛ چون مغز ما قبل از اینکه به بخش خودآگاهمون برسه، اون‌ها رو اصلاح کرده! 😉

میشه با جمله‌هایی که عمداً به هم ریخته شدن کلی سرگرم شد (تصویر چپ). اما اگه متن رو طوری به هم بریزید که مرز بین کلمه‌ها از بین بره، خواننده‌هاتون روزگارشون سیاه میشه! (تصویر راست).

مثال متن به هم ریخته:

✅ حالت خوانا: «بر اساس تقیقحات یک دانشمند در دانشاگه کمبریج...» (حروف داخل کلمات جابجا شدن)

❌ حالت ناخوانا: «براساستیقحاتیکدانشمندردانشاگ هکمبریج...» (مرز کلمات حذف شده)

اکثر آدما حالت اول رو خیلی راحت‌تر می‌خونن!

معرفی می‌کنم: «توکن»، الفبای دنیای LLMها!

درست مثل ما آدم‌ها، LLMها هم حروف رو تکی تکی نمی‌خونن. وقتی شما یه متن رو برای مدل می‌فرستید، اون متن اول از همه به یه سری تکه‌های چند حرفی به اسم «توکن» (Token) شکسته میشه. این توکن‌ها معمولاً ۳-۴ تا حرف طول دارن، ولی برای کلمه‌های خیلی رایج، توکن‌های بلندتری هم وجود داره. به کل توکن‌هایی که یه مدل بلده، میگن «واژگان» (Vocabulary) اون مدل.

سفر یک پرامپت از دست شما تا جواب نهایی 🚀

شما یه متن می‌نویسید: «هوا چطوره؟»
توکنایزر (Tokenizer): این دستگاه متن شما رو به تکه‌های کوچیک (توکن) می‌شکنه. مثلاً: ["هوا", " ", "چطوره", "؟"]
تبدیل به اعداد: هر توکن به یه عدد مخصوص در دیکشنری مدل تبدیل میشه. مثلاً: [101, 3, 202, 5]
پردازش در مغز LLM: مدل این اعداد رو پردازش می‌کنه و یه دنباله عدد جدید به عنوان جواب تولید می‌کنه.
بازگشت به توکن: اعداد جواب دوباره به توکن تبدیل میشن. مثلاً: ["هوا", " ", "آفتابیه", "."]
بازگشت به متن: توکن‌ها به هم می‌چسبن و جواب نهایی که شما می‌بینید ساخته میشه: «هوا آفتابیه.»

پس LLMها متن رو به صورت دنباله‌ای از توکن‌ها می‌بینن، و ما آدم‌ها به صورت دنباله‌ای از کلمات. این باعث میشه به نظر بیاد که دیدگاهمون خیلی شبیهه، اما چندتا تفاوت خیلی خیلی مهم و حیاتی وجود داره که در ادامه بهشون می‌پردازیم.

🧐 تفاوت‌های کلیدی بین دید ما و دید LLM

گفتیم که هم ما و هم LLMها متن رو به صورت تکه‌های کوچیک‌تر می‌بینیم (ما کلمه، اون‌ها توکن). اما این شباهت خیلی سطحیه و چندتا تفاوت حیاتی وجود داره:

تفاوت شماره ۱: توکنایزر LLMها رباتیک و دقیق عمل می‌کنه!

ما آدما وقتی یه کلمه با غلط املایی می‌بینیم، مغزمون به صورت «فازی» و حدودی سعی می‌کنه شبیه‌ترین کلمه درست رو پیدا کنه. اما توکنایزر LLMها کاملاً قطعی و رباتیک عمل می‌کنه. این باعث میشه غلط‌های املایی مثل یه جوش بزرگ روی صورت، خیلی تابلو بشن!

مثلاً کلمه "ghost" تو واژگان مدل‌های GPT یه توکن واحده. اما اگه به اشتباه تایپ کنید "gohst"، توکنایزر اون رو به سه تا توکن جدا می‌شکنه: [g] [oh] [st]. این دنباله کاملاً با توکن اصلی فرق داره و برای مدل خیلی واضحه که یه جای کار می‌لنگه. (البته LLMها انقدر غلط املایی تو آموزششون دیدن که معمولاً در مقابلش مقاوم هستن و کارشون راه میفته!)

تفاوت شماره ۲: LLMها نمی‌تونن روی حروف زوم کنن! 🔬

ما آدما می‌تونیم سرعتمون رو کم کنیم و آگاهانه حروف یه کلمه رو دونه دونه بررسی کنیم. اما LLM فقط همون توکنایزر داخلی خودش رو داره و نمی‌تونه این کار رو بکنه. این باعث میشه کارهایی که نیاز به شکستن و دوباره سر هم کردن توکن‌ها دارن، برای مدل خیلی خیلی سخت بشن.

یه مثال عالی، برعکس کردن حروف یه کلمه‌ست. این کار برای ما یه بازی ساده است، اما برای LLMها یه کابوسه! چون باید توکن‌ها رو بشکنن، حروف رو جابجا کنن و دوباره توکن بسازن. نتیجه معمولاً یه فاجعه خنده‌داره!

شما: کلمه "دانشگاه" رو برعکس کن.

ChatGPT (احتمالاً): هاگشناد... نه ببخشید... هاگش ناد... وایسا... هگشناد!

💡 نکته طلایی برای شما به عنوان برنامه‌نویس

اگه کاری که می‌خواید مدل انجام بده، شامل شکستن و سر هم کردن توکن‌هاست (مثل پیدا کردن کلماتی که با "Sw" شروع میشن)، سعی کنید این بخش از کار رو خودتون در پیش‌پردازش یا پس‌پردازش انجام بدید و بار رو از روی دوش مدل بردارید.

مثلاً برای پیدا کردن «کشور اروپایی که با Sw شروع میشه»، اول از LLM بخواید یه لیست بلند بالا از «تمام کشورهای اروپایی» بهتون بده. بعد خودتون با یه کد ساده، اون‌هایی که با Sw شروع میشن رو از لیست فیلتر کنید. اگه کل کار رو به LLM بسپارید، احتمالاً جواب‌های عجیب و غریب و اشتباهی مثل «سومالی» هم تو لیستش پیدا می‌کنید! 😅

تفاوت شماره ۳: LLMها متن رو «نمی‌بینن»!

آخرین تفاوت مهم اینه که ما آدما درک شهودی از خیلی جنبه‌های متن داریم. ما حروف رو می‌بینیم، برای همین می‌دونیم کدوم حروف گردن و کدوم صاف. ما هنر اسکی (ASCII art) رو می‌فهمیم چون شکلش رو می‌بینیم. برای ما، حرف "á" فقط یه شکل دیگه از "a" هست و موقع خوندن، مغزمون به راحتی ازش عبور می‌کنه.

اما برای مدل، پردازش این موارد نیاز به صرف انرژی و قدرت پردازش زیادی داره و این انرژی رو از کار اصلی که شما ازش خواستید، کم می‌کنه.

یه مثال خیلی مهم: حروف بزرگ و کوچک (Capitalization)

این یکی خیلی جالبه. چرا گاهی وقتا کارهای ساده‌ای مثل بزرگ کردن تمام حروف یه متن، برای یه مدل کوچیک انقدر سخت میشه؟ حدس خودتون رو بزنید و بعد ادامه رو بخونید.

شما: جمله "strange new worlds" رو با حروف بزرگ بنویس.

مدل کوچیک (شاید): STRANGE NEW WORLDS... نه ببخشید... STR ANGE NEW WOR L DS

برای ما، A بزرگ فقط یه شکل دیگه از a کوچیکه. اما برای مدل، توکن‌هایی که حرف بزرگ دارن، کاملاً با توکن‌های حروف کوچک فرق دارن. مدل‌های بزرگتر این تفاوت‌ها رو بهتر یاد گرفتن، اما هنوز هم این قضیه براشون یه چالش محسوب میشه.

مثلاً در توکنایزر GPT، عبارت "strange new worlds" به چهار توکن شکسته میشه: [str][ange] [ new][ worlds].

اما وقتی همینو با حروف بزرگ می‌نویسیم، به شش توکن شکسته میشه: [STR] [ANGE][ NEW][ WOR][L][DS]!

می‌بینید؟ ساختار کاملاً به هم ریخت!

بنابراین، یه مهندس پرامپت عاقل، سعی می‌کنه با مجبور کردن مدل به تبدیل دائم حروف کوچک به بزرگ (و برعکس)، الکی براش بار اضافه نتراشه!

🪙 شمارش توکن‌ها: واحد پول دنیای LLMها!

یه نکته خیلی مهم: شما نمی‌تونید توکنایزرها و مدل‌ها رو با هم قاطی کنید. هر مدل، توکنایزر ثابت و مخصوص به خودش رو داره. برای همین، خیلی مهمه که توکنایزر مدلی که باهاش کار می‌کنید رو خوب بشناسید.

شما به عنوان یه مهندس پرامپت، احتمالاً از کتابخونه‌هایی مثل Hugging Face یا tiktoken برای کار با توکنایزرها استفاده می‌کنید. اما رایج‌ترین کاری که با توکنایزر انجام می‌دید، تحلیل‌های پیچیده نیست. در ۹۹٪ مواقع، شما فقط یه کار ساده باهاش دارید: شمارش کردن!

چرا شمردن توکن‌ها اینقدر مهمه؟

چون از دید مدل، «تعداد توکن‌ها» طول متن شما رو مشخص می‌کنه. این طول، روی همه چیز تاثیر داره:

زمان پردازش: مدت زمانی که مدل صرف خوندن پرامپت و تولید جواب می‌کنه، مستقیماً به تعداد توکن‌ها ربط داره.
هزینه محاسباتی: قدرت پردازشی که برای یه پیش‌بینی لازمه، با تعداد توکن‌ها بالا و پایین میره. به خاطر همینه که اکثر سرویس‌های ارائه‌دهنده مدل، هزینه‌ها رو بر اساس تعداد توکن (چه ورودی و چه خروجی) حساب می‌کنن. همین الان که این متن نوشته میشه، با یک دلار میشه بین ۵۰,۰۰۰ تا ۱,۰۰۰,۰۰۰ توکن خروجی خرید!
پنجره زمینه (Context Window): این یکی از بزرگترین محدودیت‌های همه مدل‌های امروزیه. پنجره زمینه یعنی حداکثر مقدار متنی که یه LLM می‌تونه در یک لحظه بهش رسیدگی کنه.

یه LLM نمی‌تونه هر متنی با هر طولی رو بگیره. متن ورودی شما (پرامپت) باید تعداد توکن‌هاش از اندازه پنجره زمینه کمتر باشه، و مجموع توکن‌های پرامپت + جواب نهایی هم نباید از این پنجره بزرگتر بشه.

اندازه پنجره زمینه معمولاً چند هزار توکنه که روی کاغذ خیلی زیاده (چندین، ده‌ها یا حتی صدها صفحه A4!). اما در عمل، شما همیشه وسوسه میشید که این پنجره رو تا خرخره پر کنید! 😅 برای همین باید توکن‌ها رو بشمرید تا از این اتفاق جلوگیری کنید.

💡 یه حساب سرانگشتی برای تبدیل حروف به توکن

هیچ فرمول دقیقی برای این کار وجود نداره و همه چیز به متن و توکنایزر بستگی داره. اما به طور میانگین:

متن انگلیسی: هر ۴ حرف، تقریباً ۱ توکن میشه.
زبان‌های دیگه (مثل فارسی): توکنایزرها بهینه‌سازی کمتری دارن و تعداد حروف کمتری در هر توکن جا میشه (یعنی هزینه بیشتره!).
رشته‌های عددی: هر ۲ حرف، تقریباً ۱ توکن.
رشته‌های تصادفی (مثل کلیدهای رمزنگاری): بدترین حالت! تقریباً هر ۱.۵ حرف، ۱ توکن.
کاراکترهای نادر (مثل ایموجی‌ها): می‌تونن خیلی پرهزینه باشن. مثلاً ایموجی ☺ خودش دو تا توکن حساب میشه!

یه نکته فنی: اکثر مدل‌ها یه توکن مخصوص به اسم «پایان متن» (end-of-text) دارن. این توکن تو آموزش به انتهای هر سند اضافه میشه تا مدل یاد بگیره کی باید حرف زدنش رو تموم کنه. هر وقت مدل این توکن رو تولید کنه، تولید جواب همونجا متوقف میشه.

🧱 یک توکن در هر لحظه: راز بزرگ تولید متن!

بریم سراغ یه لایه عمیق‌تر از پیاز و ببینیم این مدل‌ها دقیقاً چطور جواب می‌سازن. این آخرین لایه قبل از رسیدن به هسته اصلیه. برخلاف تصور ما، LLM جواب رو یکجا تولید نمی‌کنه. فرآیند اینطوریه:

فرآیند ساخت کلمه به کلمه 🏗️

مدل، کل پرامپت شما رو می‌خونه و فقط یک توکن بعدی رو حدس می‌زنه. همین! بعد، این توکن جدید رو به انتهای پرامپت اضافه می‌کنه و دوباره کل متن جدید رو می‌خونه تا توکن بعدی رو حدس بزنه. این کار اونقدر تکرار میشه تا در نهایت یه جمله یا پاراگراف کامل ساخته بشه.

پس در واقع، مدل همیشه داره به این سوال جواب میده: «با توجه به همه چیزهایی که تا الان گفته شده، محتمل‌ترین کلمه بعدی چیه؟»

مدل‌های خود-رگرسیو (Auto-Regressive)

به این فرآیند که پیش‌بینی‌ها دونه به دونه انجام میشن و هر پیش‌بینی به پیش‌بینی قبلی بستگی داره، میگن «خود-رگرسیو».

یادتونه موقع تایپ کردن با گوشی، بالای کیبورد سه تا کلمه پیشنهادی میاد؟ کار کردن با یه LLM دقیقاً مثل اینه که شما پشت سر هم روی کلمه پیشنهادی وسطی کلیک کنید! 📱

💡 یه تفاوت خیلی مهم بین ما و LLMها

این الگوی منظم و تقریباً یکنواخت (تولید یک توکن در هر مرحله)، یه تفاوت بزرگ بین ما و LLMها رو نشون میده: ما آدما ممکنه موقع نوشتن مکث کنیم، فکر کنیم، یا یه چیزی رو چک کنیم. اما مدل برای هر مرحله باید حتماً یه توکن تولید کنه. LLM وقت اضافه برای فکر کردن نداره و نمی‌تونه کار رو متوقف کنه.

بدون بازگشت، بدون پشیمانی! unidirectional

و وقتی که یه توکن رو تولید کرد، دیگه بهش متعهده! LLM نمی‌تونه برگرده عقب و توکن رو پاک کنه. همچنین هیچوقت نمیاد بگه «ببخشید، اون چیزی که قبلاً گفتم اشتباه بود»، چون تو آموزشش هیچوقت متن‌هایی رو ندیده که نویسنده وسط متن بیاد و اشتباهش رو به صورت صریح اصلاح کنه. (چون نویسنده‌های واقعی برمی‌گردن و اشتباه رو همونجا که اتفاق افتاده اصلاح می‌کنن!)

وایسا، یه لحظه... اشتباه تایپی شد... منظورم این بود که... بذارید دوباره بنویسم!

این ویژگی باعث میشه LLMها گاهی وقتا خیلی لجباز و حتی مسخره به نظر برسن؛ وقتی یه مسیر رو میرن که کاملاً مشخصه اشتباهه ولی باز هم ادامه میدن. اما معنی واقعی این رفتار برای شما به عنوان طراح اپلیکیشن اینه:

قابلیت تشخیص اشتباه و برگشت از اون، باید توسط شما در اپلیکیشن تعبیه بشه، نه توسط مدل!

😵‍💫 وقتی هوش مصنوعی روی یک آهنگ گیر می‌کنه! (الگوها و تکرارها)

یکی دیگه از مشکلات سیستم‌های خود-رگرسیو اینه که می‌تونن تو الگوهای خودشون گیر کنن. LLMها تو پیدا کردن الگو استادن، برای همین گاهی وقتا (به صورت اتفاقی) یه الگویی رو شروع می‌کنن و دیگه نمی‌تونن ازش خارج بشن. چرا؟ چون از نظر آماری، ادامه دادن یه الگو همیشه محتمل‌تر از شکستنشه! این منجر به جواب‌های خیلی تکراری و حوصله‌سربر میشه.

مثلاً فرض کنید از یه مدل قدیمی‌تر خواستیم چندتا دلیل برای تعریف از یه رستوران بگه. ممکنه یه همچین لیستی بهمون بده:

۱. کیفیت غذاها خوب و عالی است.
۲. فضای رستوران خوب و دلنشین است.
۳. رفتار پرسنل خوب و محترمانه است.
۴. منوی رستوران خوب و متنوع است.
۵. قیمت‌های رستوران خوب و منصفانه است.
۶. موقعیت رستوران خوب و در دسترس است.
۷. نظافت رستوران خوب و ... (و این داستان تا ابد ادامه دارد!)

اینجا مدل تو چندتا الگوی تکراری گیر کرده: همه جمله‌ها با شماره شروع میشن، همه با کلمه «خوب» شروع میشن، ساختار جمله‌ها یکسانه و مهم‌تر از همه، لیست هیچوقت تموم نمیشه! چون مدل هیچوقت خسته نمیشه و ادامه دادن لیست براش همیشه محتمل‌ترین کاره.

راه حل چیه؟ یا باید این تکرارها رو شناسایی و فیلتر کنیم، یا... یه کم به خروجی چاشنی تصادف اضافه کنیم! که این ما رو می‌رسونه به بحث بعدی...

🌡️ دما چیه؟ دکمه خلاقیت هوش مصنوعی!

تا الان گفتیم که LLM محتمل‌ترین توکن بعدی رو انتخاب می‌کنه. اما اگه یه لایه دیگه از پیاز رو برداریم، می‌بینیم که در واقع، مدل برای تمام توکن‌های ممکن یه احتمال حساب می‌کنه و بعد از بین اون‌ها یکی رو انتخاب می‌کنه. به فرآیند انتخاب توکن نهایی میگن «نمونه‌برداری» (Sampling).

یعنی مدل فقط نمیگه «محتمل‌ترین کلمه "کتاب" است». بلکه میگه: «کلمه "کتاب" با احتمال ۶۰٪، کلمه "دفتر" با احتمال ۲۰٪، کلمه "مداد" با احتمال ۵٪ و... محتمل‌ترین گزینه‌ها هستن.»

حالا پارامتری به اسم «دما» (Temperature) وارد بازی میشه. دما یه عدده که مشخص می‌کنه مدل چقدر باید «خلاق» باشه و در انتخاب از این لیست احتمالات، ریسک کنه.

راهنمای تنظیم دما (دکمه خلاقیت)

🌡️ دمای صفر (0): حالت ربات دقیق. مدل هیچ ریسکی نمی‌کنه و همیشه محتمل‌ترین گزینه رو انتخاب می‌کنه. این حالت برای کارهایی که نیاز به جواب دقیق و قطعی دارن (مثل خلاصه‌سازی یه متن حقوقی) عالیه.
🌡️ دمای پایین (0.1 تا 0.4): یه کم خلاقیت. اگه یه گزینه دیگه هم خیلی محتمل باشه، مدل شانس کمی به اون هم میده. برای وقتی خوبه که چندتا جواب جایگزین ولی نزدیک به هم بخواید.
🌡️ دمای متوسط (0.5 تا 0.7): ریسک‌پذیری بیشتر. مدل حاضره گزینه‌هایی که احتمال کمتری دارن رو هم انتخاب کنه. برای وقتی خوبه که دنبال ایده‌های متنوع و طوفان فکری هستید.
🌡️ دمای یک (1): حالت آینه. خروجی مدل دقیقاً آینه احتمالات داده‌های آموزشی میشه. یعنی اگه تو آموزشش دیده باشه که بعد از «یک، دو»، ۵۱٪ مواقع «سه» میاد و ۳۱٪ مواقع «سگ»، تو خروجی‌هاش هم همین نسبت رو رعایت می‌کنه.
🌡️ دمای بالاتر از یک (>1): حالت مستی! 🥴 اینجا مدل خیلی تصادفی و غیرقابل پیش‌بینی میشه. جواب‌هاش عجیب و غریب و اغلب پر از اشتباه میشن. چون مدل از اشتباهات خودش الگوبرداری می‌کنه و اوضاع لحظه به لحظه بدتر میشه!

پس بالاخره دمای بالا یا پایین؟

این یه بده‌بستانه. هیچکدوم برتر مطلق نیستن:

دمای پایین: جواب‌های صحیح‌تر، قابل پیش‌بینی‌تر و تکرارپذیرتر. ✅
دمای بالا: جواب‌های متنوع‌تر، خلاقانه‌تر و جایگزین‌های بیشتر. ✨

با تنظیم دما، می‌تونیم از گیر کردن مدل تو الگوهای تکراری جلوگیری کنیم و جواب‌های جالب‌تری بگیریم.

🧅 رسیدیم به هسته اصلی پیاز: مغز هوش مصنوعی چطور کار می‌کنه؟

خب، وقتشه که آخرین لایه پیاز رو برداریم و مستقیم به مغز LLM نگاه کنیم. وقتی این لایه رو برمی‌دارید، با یه صحنه جالب روبرو میشید: این اصلاً یه مغز واحد نیست! بلکه شبیه به یک اتاق جلسه بزرگ پر از متخصص‌های مختلفه! 👨‍🏫👩‍💻👨‍🎨👩‍🔬

معماری اصلی تمام LLMهای مدرن، ترنسفورمر (Transformer) نام داره. این معماری رو مثل یک جلسه تیمی در نظر بگیرید:

برای هر کلمه (توکن) در جمله شما، یک متخصص استخدام میشه.
همه این متخصص‌ها با هم در یک جلسه چند مرحله‌ای (که بهش میگن لایه - Layer) شرکت می‌کنن.
هدف جلسه اینه که در نهایت، کلمه بعدی جمله رو حدس بزنن.

وظیفه هر متخصص در جلسه چیه؟

هر متخصص (یا همون مغز کوچولو) دو تا وظیفه اصلی داره:

گوش دادن و یاد گرفتن: هر متخصص به حرف‌های متخصص‌های قبل از خودش گوش میده تا درک بهتری از جمله پیدا کنه.
کمک کردن به بقیه: هر متخصص، برداشت و تحلیل خودش رو در اختیار متخصص‌های بعد از خودش قرار میده تا اون‌ها هم درک بهتری پیدا کنن.

در نهایت، آخرین متخصص در صف، با استفاده از تمام اطلاعاتی که در جلسه رد و بدل شده، وظیفه داره که کلمه بعدی جمله رو حدس بزنه و اعلام کنه!

بعد از اینکه کلمه جدید حدس زده شد، یه متخصص جدید برای اون کلمه استخدام میشه، به انتهای صف اضافه میشه و کل فرآیند جلسه دوباره تکرار میشه تا کلمه بعدی و بعدی و بعدی حدس زده بشن.

مکانیزم توجه: متخصص‌ها چطور با هم حرف می‌زنن؟ 🗣️

اینکه متخصص‌ها چطور اطلاعات رو بین هم رد و بدل می‌کنن، مهم‌ترین نوآوری معماری ترنسفورمره. به این فرآیند میگن «مکانیزم توجه» (Attention Mechanism). این مکانیزم شبیه یه بازی پرسش و پاسخ خیلی کارآمده:

فرض کنید جمله ما اینه: «گربه من روی مبل خوابیده، چون خسته بود.»

❓ سوال (Query): متخصصِ کلمه «بود» می‌خواد بدونه فاعل این فعل کیه. پس بلند می‌پرسه: «کی خسته بود؟»
💡 سرنخ (Key): همه متخصص‌های دیگه به این سوال گوش میدن. متخصصِ کلمه «گربه» با خودش میگه: «عه! این سوال انگار به من ربط داره! من یه اسم هستم.»
🤝 جفت‌سازی (Matching): سیستم، سوالِ «کی خسته بود؟» رو با بهترین سرنخ یعنی «گربه» جفت می‌کنه.
✅ جواب (Value): حالا متخصصِ کلمه «بود» می‌فهمه که فاعلش «گربه» است و درک کاملی از جمله پیدا می‌کنه.

این فرآیند به صورت همزمان برای هزاران سوال و جواب در هر مرحله اتفاق می‌افته و باعث میشه مدل بتونه روابط پیچیده بین کلمات دور از هم رو هم درک کنه.

یک قانون مهم در جلسه: نگاه فقط به عقب! (Masking)

در این جلسات تیمی (ترنسفورمرها)، یک قانون خیلی مهم و عجیب وجود داره: هر متخصص فقط می‌تونه از متخصص‌های سمت چپ خودش (یعنی کلمات قبلی) سوال بپرسه و اطلاعات بگیره. هیچ متخصصی حق نداره به سمت راست خودش نگاه کنه و از کلمات بعدی خبردار بشه! به همین خاطر به این مدل‌ها میگن «ترنسفورمرهای یک‌طرفه» (Unidirectional). اطلاعات فقط از چپ به راست حرکت می‌کنه.

این ساختار یک‌طرفه، دو تا نتیجه خیلی مهم و کاربردی برای ما داره:

نتیجه ۱: سرعت پردازش پرامپت در مقابل تولید جواب

چون متخصص‌ها می‌تونن به صورت موازی از همکاران سمت چپ خودشون اطلاعات بگیرن، پردازش پرامپت شما (که از قبل مشخصه) خیلی سریع انجام میشه. اما وقتی نوبت به تولید جواب میرسه، مدل باید منتظر بمونه تا هر کلمه جدید تولید بشه و بعد فرآیند رو برای کلمه بعدی شروع کنه. به خاطر همینه که:

LLMها در «خواندن» یک پرامپت طولانی، بسیار سریع‌تر از «نوشتن» یک جواب طولانی هستند!

نتیجه ۲: اهمیت حیاتی ترتیب در پرامپت!

این ساختار یک‌طرفه (نگاه فقط به عقب) یه پیام خیلی مهم برای ما داره: ترتیب نوشتن دستورات در پرامپت، مرگ و زندگیه!

بیاید یه مثال بزنیم. من همین فصل رو تا اینجا به ChatGPT دادم و در آخرش ازش پرسیدم:

«پاراگراف دقیقاً بالای این سوال، چند کلمه دارد؟»

جوابش چی بود؟ «۳۴۸ کلمه.» که یه جواب افتضاح و پرت بود!

چرا؟ چون وقتی متخصص‌های مدل داشتن اون پاراگراف رو برای اولین و آخرین بار می‌خوندن، اصلاً نمی‌دونستن که قراره در ادامه ازشون سوال «تعداد کلمات» پرسیده بشه! اون‌ها داشتن روی معنی، لحن و استایل تمرکز می‌کردن و حواسشون به شمردن کلمات نبود. چون مدل فقط می‌تونه به عقب نگاه کنه، وقتی به سوال می‌رسه دیگه نمی‌تونه برگرده و پاراگراف قبلی رو دوباره با دقت بشمره.

اما وقتی من همین سوال رو در ابتدای پرامپت پرسیدم... خب، باز هم جوابش دقیق نبود (چون شمردن برای LLMها سخته)، ولی خیلی خیلی نزدیک‌تر شد و گفت ۱۷۳ کلمه!

💡 یک قانون طلایی برای سنجش توانایی LLM

اگه می‌خواید بدونید آیا یه کاری رو میشه از LLM خواست یا نه، این سوال رو از خودتون بپرسید:

«آیا یک انسان متخصص که همه اطلاعات لازم رو از حفظ بلده، می‌تونه این پرامپت رو فقط با یک بار خوندن، بدون برگشت به عقب، بدون ویرایش و بدون یادداشت‌برداری کامل کنه؟»

اگه جواب این سوال «بله» بود، به احتمال زیاد LLM هم از پسش برمیاد. اگه «نه»، احتمالاً باید پرامپت‌تون رو هوشمندانه‌تر طراحی کنید.

مهندسی پرامپت قسمت سوم

ویدیوهای آموزشی مرتبط

مهندسی پرامپت - قسمت ۳: تکنیک‌های پیشرفته